EP2901718A1 - Method and system for playing back an audio signal - Google Patents

Method and system for playing back an audio signal

Info

Publication number
EP2901718A1
EP2901718A1 EP13779299.0A EP13779299A EP2901718A1 EP 2901718 A1 EP2901718 A1 EP 2901718A1 EP 13779299 A EP13779299 A EP 13779299A EP 2901718 A1 EP2901718 A1 EP 2901718A1
Authority
EP
European Patent Office
Prior art keywords
sound
spatial
restitution
window
reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP13779299.0A
Other languages
German (de)
French (fr)
Other versions
EP2901718B1 (en
Inventor
Khoa-Van NGUYEN
Etienne Corteel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonic Emotion Labs
Original Assignee
Sonic Emotion Labs
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonic Emotion Labs filed Critical Sonic Emotion Labs
Publication of EP2901718A1 publication Critical patent/EP2901718A1/en
Application granted granted Critical
Publication of EP2901718B1 publication Critical patent/EP2901718B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the invention relates to the general field of acoustic processing and sound spatialization.
  • It relates more particularly to the rendering of a multichannel audio signal on a determined rendering device, equipped with a plurality of loudspeakers arranged at fixed locations of the rendering device.
  • the invention applies in a preferred but non-limiting manner to an acoustic speaker type rendering device, also known as a "baffling structure" (or “baffling structure” in English).
  • acoustic chamber is, in a known manner, consisting of a single or monobloc structure, integrating the various speakers used for the reproduction of the audio signal (the speakers can not be separated from the speaker).
  • An example of an acoustic speaker is in particular a sound bar in which the various speakers are integrated.
  • the invention also has a particular interest when it is applied to a so-called compact acoustic enclosure or more generally to a compact retrieval device.
  • a compact rendering device is a device of small dimensions (in particular with respect to the dimensions of the room or the room in which it is envisaged to place the rendering device), and in which the loudspeakers are mounted relatively close to each other.
  • this device can be monobloc (as an acoustic speaker) or alternatively be composed of several elements, grouped together to form a compact assembly, each element being equipped with one or more speakers.
  • the largest dimension of a compact rendering device generally does not exceed 2 meters, while the spacing between the loudspeakers, two by two, is less than 50 centimeters.
  • This method is based on a spatial analysis of the multichannel audio signal that is to be restored, making it possible to extract and locate the sound objects of the audio signal located inside a sound reproduction window defined from the the physical position of the speakers of the playback device and the extended listening area.
  • the extracted sound objects are restored inside the sound reproduction window, according to their location in this window, using a first rendering process.
  • This first rendering process is, for example, a synthesis of the acoustic field (or WFS treatment for "Wave Field Synthesis” in English), known per se.
  • the other components of the multichannel audio signal are also restored inside the sound reproduction window, according to a second rendering process (such as, for example, an intensity panoramic effect).
  • a second rendering process such as, for example, an intensity panoramic effect.
  • a compact reproduction device has certain constraints, particularly in terms of the size of the listening area that can be considered and the sound reproduction window related to the physical arrangement of the speakers on the device of restitution, which are generally smaller than with a restitution device composed of several entities scattered throughout the room or the room in which the device is placed, and as envisaged in the document WO 2012/025580 .
  • the invention responds in particular to this need by proposing a method of rendering a multichannel audio signal on a playback device equipped with a plurality of loudspeakers, these loudspeakers being arranged at fixed locations of the playback device and defining a sound reproduction spatial window with respect to a so-called reference spatial position.
  • the restitution process according to the invention is remarkable in that it comprises:
  • a step of spatial analysis of the multichannel audio signal comprising:
  • spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device.
  • the invention also relates to a system for rendering a multichannel audio signal on a rendering device equipped with a plurality of loudspeakers, these loudspeakers being arranged at fixed locations of the rendering device and defining a window spatial sound reproduction compared to a reference position, this restitution system comprising:
  • Means for spatial analysis of the multichannel audio signal comprising:
  • o means for extracting at least one sound object from the signal, and o estimating means, for each extracted sound object, of a diffuse or localized character of this sound object, and a position of this object sound with respect to the spatial window of sound reproduction of the rendering device;
  • Means for reproducing the audio signal on the plurality of loudspeakers of the rendering device able to apply to each sound object extracted from the signal audio, a processing restitution on at least one speaker of the plurality of speakers of the playback device, this restitution processing depending on the diffuse or localized nature of the sound object and its position relative to the spatial window of sound reproduction estimated during the spatial analysis step, the rendering processing comprising the creation of at least one virtual source outside the restitution space window of the rendering device, from the loudspeakers of the rendering device, when the sound object is estimated by the spatial analysis means as being diffuse or positioned outside the restitution space window of the rendering device.
  • step (respectively means) of restitution on loudspeakers is meant here the step (respectively the means) which consists of generating and supplying signals intended to supply the speakers of the rendering device. These signals will then be broadcast (i.e. transmitted) by the speakers of the playback device so as to reproduce the multichannel audio signal.
  • reference spatial position here is meant both a point in the space characterizing the position of a target listener of the audio signal, and a larger area of the space in which is (are) susceptible ( s) to find one or more auditors.
  • reference spatial position here is meant both a point in the space characterizing the position of a target listener of the audio signal, and a larger area of the space in which is (are) susceptible ( s) to find one or more auditors.
  • the invention therefore proposes to implement a spatial analysis of the multichannel audio signal to be reproduced in order to separate the sound objects composing the audio signal as a function, on the one hand, of their localized character in the space (ie discrete, generated by a localizable source) or diffuse, and secondly, their position relative to the sound reproduction window defined by the reference spatial position and the physical location of the speakers on (or in ) the rendering device with respect to this reference spatial position.
  • This separation of sound objects is exploited, in accordance with the invention, by applying rendering processes to the extracted objects which take into account their localized or diffuse characters, as well as the positions of the sources at the origin of these objects. inside or outside the sound reproduction window.
  • the invention links the restitution processes applied to the sound objects of the multichannel signal to be restored, directly to the spatial characteristics of these objects extracted during the spatial analysis of the multichannel signal. More precisely, the sound objects identified during the spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device, are advantageously restored via the speakers of the device. restitution, outside this window, through the implementation of a rendering processing including the creation of virtual sources outside this window.
  • the restitution processing applied to this sound object during the restitution step is preferentially able to restore this sound object within the sound reproduction space window of the rendering device, at the location of the source at the origin of this sound object.
  • This restitution inside the spatial window of sound reproduction can be done directly, by diffusing the sound objects on the speakers of the rendering device without resorting to complex spatial filtering processes. For example, it diffuses the object as is on one or more speakers, or by simply applying a panning effect (or "panning" in English). Such techniques are known per se and relatively simple to implement.
  • the rendering processing inside the reproduction space window can comprise the creation of one or more virtual sources from the speakers of the rendering device, inside the restitution space window. sound of the rendering device. This may be a type of WFS or derivative processing.
  • the direction or position of the virtual sources, as well as, if appropriate, their amplitude, are then determined from the estimated position of the sources at the origin of the localized sound objects extracted from the multichannel signal and their contribution (ex. sound level terms) in the multichannel signal.
  • the application, during the restitution step, of the aforementioned restitution treatments chosen according to the characteristics of the sound objects determined during the spatial analysis step, makes it possible to remove the objects that are diffuse or coming from the outside the rendering window, objects located inside the window (such objects typically include voice or dialogues).
  • the listener located at the reference spatial position in relation to the sound reproduction window offered by the rendering device, window particularly limited in the case of a compact reproduction device.
  • the listener has the feeling of being immersed in the sound stage (perception of envelopment in the sound stage).
  • the invention takes advantage of a phenomenon well known in psycho-acoustics under the name “cocktail party effect” or “cocktail party effect” in English, which reflects the ability of the human auditory system to select a sound source in a noisy environment and to treat sounds even if they are not at the heart of the object of human attention.
  • the invention thus allows a rendering the multichannel audio signal of very good quality, including on a compact playback device, while preserving the accuracy and clarity of signal sound objects located and coming from within the rendering window. It can be applied to any multichannel signal format, such as a stereo signal, 5.1, 7.1, 10.2, Higher Order Ambisonics (HOA), and so on.
  • a stereo signal such as a stereo signal, 5.1, 7.1, 10.2, Higher Order Ambisonics (HOA), and so on.
  • HOA Higher Order Ambisonics
  • processing generally carried out by the invention does not in itself aim to modify the characteristics of the sound scene of the multichannel audio signal, but promotes the intelligibility of the sound objects located in the sound reproduction window and allows to immerse the listener in the sound stage.
  • the spatial analysis step further comprises estimating the position of the sound object with respect to the center of the spatial sound reproduction window of the rendering device.
  • the invention has a preferred application, but not limited to, when the rendering device is an acoustic chamber in which the plurality of loudspeakers is arranged.
  • Such an acoustic speaker is for example a sound bar equipped with several speakers.
  • the spatial analysis step comprises a decomposition of the received audio signal into a plurality of frequency sub-bands, the extraction of said at least one sound object being performed on at least one sub-band. -frequency band.
  • frequency sub-bands eg in octave, third octave or auditory bands
  • the spatial analysis of the audio signal is in fact carried out by frequency subband: it is thus possible to better isolate the sound objects composing the multichannel audio signal. In particular, it is possible to isolate several sound objects in the multichannel audio signal, for example one per frequency subband.
  • the diffuse or localized nature of the extracted sound object is estimated from at least one evaluated correlation between two distinct channels of the multichannel audio signal.
  • the position of the extracted sound object with respect to the sound reproduction spatial window can be estimated from at least one evaluated difference in levels between two distinct channels of the multichannel audio signal.
  • the determination of the characteristics associated with each sound object extracted from the multichannel audio signal can therefore be performed very simply, by means of calculating correlations and differences. of levels between the signals distributed on the different channels of the multichannel signal.
  • the spatial analysis step comprises the determination of a Gerzon vector representative of the multichannel audio signal.
  • the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener. the reference position.
  • the determination of such a vector for a multichannel audio signal is described for example in the document US 2007/0269063.
  • the Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position. The determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal.
  • the spatial analysis step comprises a spatial decomposition of the multichannel signal into spherical harmonics.
  • Such spatial decomposition is known to those skilled in the art and described for example in WO 2012/025580. It allows a very precise spatial analysis of the multichannel audio signal and the sound objects composing it. Thus, in particular, several sound objects can be determined for the same frequency subband.
  • the restitution processing applied to this sound object uses a transaural technique of restitution of this sound object on the loudspeakers side of the rendering device.
  • This first embodiment has a preferred application in the case of a playback device equipped with a reduced number of speakers, for example a central speaker and two side speakers.
  • the plurality of speakers of the playback device comprises a central speaker and side speakers
  • this sound object is broadcast, during the restitution step, by the rendering processing, on the central loudspeaker of the device of restitution.
  • a sound object centered with respect to the reference spatial position is attached to the center of the rendering device so as to optimize its intelligibility. It is preferably restored in a direct way (that is to say without filtering spatial) on the central speaker of the playback device, so as to benefit from the natural directivity properties of the center speaker.
  • the rendering process applied during the rendering step broadcasts this sound object on the speakers of the rendering device using a panoramic effect of intensity.
  • the sound objects located and positioned inside the acoustic window are also attached to the playback device, and restored directly (that is to say without spatial filtering), within the window of playback through the intensity panning effect applied to the speakers.
  • This panoramic intensity effect applied to all the speakers of the rendering device makes it possible to better distinguish the sound objects located and positioned inside the acoustic window of the sound objects located in the center of the window.
  • the invention is however not limited to the application of the aforementioned restitution treatments; it is also possible to resort to more complex rendering processes, in particular implementing a spatial filtering of the sound objects on the speakers of the rendering device.
  • the creation of at least one virtual source outside the restitution space window of the rendering device may comprise the formation of at least one beam directed towards the outside of the beamforming space window.
  • the restitution processing applied to this object sound during the restitution step may comprise the formation of a beam directed towards the reference spatial position.
  • the creation of virtual sources allows better control and better accuracy of the sound reproduction of an audio signal than a "direct" sound reproduction (ie without spatial filtering) on the speakers of the playback device, limited by itself by the capacity of the speakers of the rendering device. It offers the possibility of having better control of the directivity of reconstructed sound sources.
  • beamforming is particularly well suited for the reproduction of signals on dense speaker networks (eg playback device equipped with 6 or more speakers), for which we have a better precision to create the sources virtual because of the existence of a larger number of degrees of freedom (related to the presence of a larger number of speakers).
  • the various steps of the rendering method are determined by computer program instructions.
  • the invention also relates to a program on an information medium, this program being capable of being implemented in a rendering system or more generally in a computer, this program comprising instructions adapted to the implementation steps of a restitution process as described above.
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other form desirable shape.
  • the invention also relates to a computer-readable or microprocessor-readable information medium, and comprising instructions of a program as mentioned above.
  • the information carrier may be any entity or device capable of storing the program.
  • the medium may comprise a means of storage, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a floppy disk or a hard disk.
  • the information medium may be a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means.
  • the program according to the invention can be downloaded in particular on an Internet type network.
  • the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the invention also relates to an acoustic enclosure comprising a restitution system according to the invention.
  • the method, the restitution system and the acoustic enclosure according to the invention present in combination all or part of the aforementioned characteristics.
  • FIG. 1 represents a reproduction system according to the invention, in a particular embodiment
  • FIGS. 2, 3A and 3B illustrate examples of spatial windows of sound reproduction for various restitution devices and reference positions
  • FIG. 4 diagrammatically represents the hardware architecture of the rendering system of FIG. 1;
  • FIG. 5 represents the main steps of a rendering method according to the invention, as they are implemented, in a particular embodiment, by the rendering system of FIG. 1.
  • FIG. 1 represents, in its environment, a system 1 for rendering a multi-channel audio signal S on a reproduction device 2, in accordance with the invention, in a particular embodiment.
  • the playback device 2 is equipped with a plurality of loudspeakers 2-1, 2-2, 2-N (N> 1). This is, in the example shown in Figure 1, a compact reproduction device.
  • the device 2 of restitution is here a compact acoustic enclosure, in other words a monobloc structure or single closed box, incorporating all the speakers 2-1, 2-2, 2-N.
  • the rendering device 2 is for example a horizontal sound bar, of length not exceeding one or two meters, inside (or on) which are arranged in fixed and close positions ( within 50cm of each other), the speakers 2-1, 2-2, 2-N.
  • the invention also applies to other types of rendering devices.
  • the invention also applies to a modular compact reproduction device consisting of several separate elements each integrating one or more speakers.
  • compact restitution device designates in fact a device of small dimensions, especially with respect to the dimensions of the room or the room in which one consider the reproduction of the audio signal using this device, and on or in which the speakers are mounted relatively close to each other.
  • the largest dimension of a compact rendering device does not generally exceed 2 meters, while the loudspeakers are mounted on the rendering device with a spacing of less than 50 cm.
  • the physical location of the loudspeakers 2-1, 2-2, 2-N defines, in a known manner, a spatial window W of sound reproduction with respect to a so-called referenced position Pref, placed in front of the reproduction device 2 (in particular with regard to the orientation of all or part of the loudspeakers and the diffusion of sounds), and modeling the position of a listener in the space taken as a reference to optimize the reproduction of the audio signal S.
  • reference position Pref The actual choice of reference position Pref depends on several factors known to those skilled in the art, and will not be described here. For a compact rendering device, this reference position Pref is chosen generally point.
  • FIG. 2 illustrates the spatial window W of sound reproduction defined by the loudspeakers 2-1, 2-2, 2-N of the reproduction device 2 and the reference position Pref.
  • the physical location of the loudspeakers 2-1, 2-2, 2-N on the rendering device 2 (and more precisely of the two loudspeakers 2-1 and 2-N located at the ends of the device 2), associated with the reference position Pref, define an angular aperture ⁇ of sound reproduction.
  • the subspace delimited by this angular aperture ⁇ corresponds to the spatial window W of sound reproduction associated with the reproduction device 2 and the reference position Pref.
  • the window W depends on the reference position Pref.
  • the position Pref is aligned with respect to the center of the reproduction device 2, so that the spatial window W is defined by the angular excursion ⁇ / 2 with respect to the axis ⁇ connecting the center of the playback device 2 at the reference position Pref;
  • FIGS. 3A and 3B respectively illustrate, as examples:
  • the spatial window W for the sound reproduction of a horizontal sound-type rendering device 2 ' provided with three loudspeakers 2-1', 2-2 ', 2-3' with respect to a spatial position Extended reference pref;
  • the spatial window W "of sound reproduction of a reproduction device 2" provided with 8 loudspeakers 2-1 ", 2-2", 2-8 "with respect to a spatial position Pref” of point reference, the 2-1 “speakers at 2-4" front while 2-5 “, 2-6” and 2-7 “, 2-8" loudspeakers are located on each side of the 2 "playback device .
  • the invention proposes a processing of a multichannel audio signal in two stages: firstly, the multichannel audio signal to be restored is analyzed spatially; then, the spatial characteristics of the signal resulting from this spatial analysis are used to optimize the restitution of the signal on the rendering device 2.
  • the system 1 of restitution according to the invention comprises:
  • Means 3 for spatial analysis of the multi-channel audio signal S including in particular means for extracting at least one sound object from the signal, and estimation, for each sound object extracted, a diffuse or localized character of this sound object, and a position of this sound object with respect to the spatial window W of sound reproduction of the playback device 2 (the extraction of sound objects and the estimation of their characteristics are generally carried out jointly); and
  • the rendering means 4 are able to apply the T-A1, T-A2, TB and TC rendering processes on the sound objects extracted from the signal S, as a function of the characteristics determined by the means 3 of spatial analysis.
  • the rendering system 1 no limitation is attached to the number of different treatments that can be applied by the rendering system 1.
  • the T-Al, T-A2, TB and TC treatments may be of the same kind (ie based on the same techniques, as per example a WFS technique or "beamforming"). However, they are adapted to the spatial characteristics of the sound objects to which they are applied and differ in that sense from each other. For example, they do not broadcast the signals on the same speakers, do not envisage the creation of virtual sources in the same subspaces (or having similar characteristics in terms of position / direction and / or amplitude ), the created beams can be dimensioned differently (eg of different widths), etc.
  • Processing means 4A capable of applying one or more rendering processes on the sound objects of the audio signal S determined to be localized and in the sound reproduction window W.
  • the processing means 4A are able to apply a T-Al processing on the sound objects generated by sources placed in the center of the window W, and a T-A2 treatment on the sound objects. placed inside the window W at a position distinct from the center;
  • Processing means 4B capable of applying a treatment TB on the sound objects of the audio signal S determined to be diffuse;
  • Processing means 4C capable of applying a T-C processing on the sound objects of the audio signal S determined as localized and outside the window W of sound reproduction.
  • T-Al, T-A2, T-B and T-C rendering treatments will be described in more detail later and illustrated by examples.
  • the spatial analysis means 3 and the audio signal reproduction means 4 are software means.
  • the rendering system 1 has the hardware architecture of a computer, as illustrated in FIG. 4.
  • It comprises in particular a processor (or microprocessor) 5, a random access memory 6, a read-only memory 7, a non-volatile flash memory 8 as well as communication means 9 able to transmit and receive signals.
  • processor or microprocessor
  • the communication means 9 comprise, on the one hand, an interface (wired or wireless) with the loudspeakers 2-1, 2-N of the reproduction device 2, as well as means for receiving an audio signal multichannel, such as the signal S for example. These means are known to those skilled in the art and will not be described further here.
  • the read-only memory 7 of the reproduction system 1 constitutes a recording medium in accordance with the invention, readable by the (micro) processor 5 and on which is recorded a computer program according to the invention, comprising instructions for performing the steps of a rendering process described later with reference to Figure 5.
  • the reproduction system 1 may be in the form of a computer or alternatively of an electronic chip or of an integrated circuit, in which the computer program comprising the instructions for the execution of the method of restitution according to the invention is incorporated.
  • system 1 of restitution may be an entity separate from the device 2 of restitution, or conversely, be integrated within the device 2 restitution.
  • the multi-channel audio signal S is supplied to the rendering system 1 via its communication means 9.
  • the format and structure of such an audio signal is known to those skilled in the art and will not be described. right here.
  • the rendering system 1 Upon reception of the signal S (step E10), the rendering system 1 initiates a first phase ⁇ of spatial analysis of the signal S carried out using its spatial analysis means 3.
  • the signal denoted Si resulting from the decomposition of the signal S and associated with the frequency sub-band BWi is itself a multichannel signal .
  • each sub-band No limitation is attached to the width of each sub-band: one can for example consider a decomposition in octave, in third of octave, or in auditory bands (ie adapted to the hearing), according to a compromise complexity / accuracy in particular.
  • the frequency subband decomposition of the signal S is carried out via a Fourier transformation applied to the signal S, and does not present any difficulty per se for the skilled person.
  • the amplitudes of the extracted sound objects are contained directly in the signals Si, and correspond respectively to the levels of the frequency subbands.
  • the extraction of the sound objects and the estimation of the aforementioned characteristics of each object are performed jointly by the means 3 of spatial analysis.
  • the spatial analysis means 3 of the rendering system 1 implement a temporal analysis of the multichannel signal Si.
  • the rendering system 1 evaluates, for each pair of distinct channels of the multichannel signal Si, the normalized correlation between these channels (i.e. between the signals representative of the channels), defined by the following equation:
  • R xy -p for p ⁇ 0 where x and y respectively denote two distinct channels of the multichannel signal Si, [.] * Denotes the complex conjugation operator, and M is a constant defining the number of signal samples on which the correlation is evaluated.
  • the rendering system 1 can simply evaluate a normalized correlation between two distinct channels of the multichannel signal Si for only a selection of pairs of predetermined channels of the signal Si.
  • this selection may include only four channel pairs, namely, the pair consisting of L and R channels, the pair consisting of Ls and Rs channels, the pair consisting of L and Ls channels and the pair consisting of R and Rs channels.
  • Each correlation R xy thus evaluated is then compared with a predefined threshold denoted THR.
  • the reproduction system 1 estimates that the signal Si (and thus a fortiori the signal S) contains a localized sound object.
  • the reproduction system 1 estimates that the signal Si contains a diffuse sound object.
  • the value of the THR threshold is determined empirically: it is preferably chosen between 0.5 and 0.8. Thus, it is possible to extract as many sound objects from the signal Si as from the pairs of channels examined or in an equivalent manner, than from the correlations evaluated between the channels of the signal Si.
  • a sound object When a sound object is estimated as located by the playback system 1, it estimates the position of this sound object with respect to the sound reproduction window W (by definition, a diffuse object has no precise position or identifiable in space, so it is not necessary to estimate its position with respect to the spatial window W of restitution).
  • the reproduction system 1 here estimates the reproduction window W from the reference position Pref and the physical locations of the speakers of the playback device 2.
  • the spatial window W can be determined geometrically by the reproduction system 1, in terms of angular excursion with respect to the axis ⁇ passing through the center of the rendering device 2 and the reference position Pref, from the knowledge of the position Pref and physical locations of the speakers of the device 2 placed at the ends (ie 2-1 and 2-N).
  • the spatial window W is associated by the reproduction system 2 with an angular excursion of ⁇ / 2 with respect to the axis ⁇ .
  • the position Pref and the physical locations of the loudspeakers of the device can be previously configured in the nonvolatile flash memory 7 of the reproduction system 1, for example during the construction of the reproduction system 1 if it is integrated in the device. 2 or during a preliminary step of setting up the reproduction system 1.
  • the window W may be estimated by the reproduction system 1 using a technique similar or identical to that described in the document E. Corteel entitled “Equalization in an extended area using multichannel inversion and wave field synthesis", Journal of the Audio Engineering Society No. 54 (12), December 2006, when the Pref position is an extended area.
  • the spatial window W may be predetermined, and stored for example in the nonvolatile flash memory 7 of the reproduction system 1.
  • the reproduction system 1 also evaluates, for each pair of distinct channels of the signal Si, the difference in levels (or energy) between these channels, for example in decibels, according to the following equation: where x and y respectively denote two distinct channels of the multichannel signal Si,
  • This direction is evaluated here in terms of angular excursion with respect to the ⁇ axis.
  • the system 1 of reproduction associates with a predefined difference in levels between two channels, for example -30 dB (respectively 30 dB), a direction of the sound object of 90 ° (respectively -90 °) compared to the axis ⁇ .
  • the directions between -90 ° and 90 ° are then estimated from an increasing interpolation function (eg an increasing linear function) defined between the two values -90 ° and 90 °.
  • the reproduction system 1 compares the direction of the sound object thus evaluated with respect to the angular excursion ⁇ / 2 defining the spatial window W, in order to determine whether the object is inside or outside.
  • the spatial window W thus, a sound object for which a direction in absolute value greater than ⁇ / 2 has been estimated with respect to the axis ⁇ , is considered by the system 1 as outside the spatial window W , while a sound object for which a direction in absolute value less than or equal to ⁇ / 2 with respect to the ⁇ axis has been estimated, is considered by the system 1 to be positioned inside the spatial window W .
  • the rendering system 1 also uses the estimated direction of the sound object to determine if this object is in the center of the spatial window W (to a delta of precision), in order to better distinguish during the restitution, the objects located in the center of the window W of the other objects located in the window W (step E40).
  • an object is considered by the rendering system 1 to be positioned in the center of the spatial window W if its direction is within an interval [0; ⁇ ] around the axis ⁇ , where ⁇ denotes a predefined angle, for example 2.5 °.
  • This step is however optional.
  • the spatial analysis phase ⁇ I comprises the determination of a Gerzon vector representative of each multichannel audio signal Si (a vector is estimated for each frequency subband BWi).
  • the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener located at the reference position Pref.
  • the determination of such a vector for a multichannel audio signal is described in US 2007/0269063 and will not be described in more detail here. It is assumed here that in the second variant embodiment, the reproduction system 1 proceeds in the same manner as described in this document.
  • the Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position.
  • the determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal, and the position of these objects with respect to the spatial window W .
  • Gerzon vector associated with a multichannel signal Si is written in the form of a directional vector, giving the direction of the sound object associated with the frequency subband BWi, and a non-directive vector (ie diffuse).
  • the sound reproduction system 1 is able to extract the localized and diffuse sound objects composing the signal S, and to determine the position of the localized objects with respect to the spatial window.
  • W from the direction of the Gerzon vectors, and in particular "directional" vectors
  • amplitude determined from the norm of the Gerzon vectors and from the contribution of the directional / non-directive vectors.
  • THR_inf a so-called lower threshold
  • THR_sup a threshold said higher
  • the two sound objects ie the localized object corresponding to the directional vector and the diffuse object corresponding to the non-directive vector
  • the amplitude associated with each sound object thus extracted is then derived from the amplitude of the corresponding directional or non-directive vector.
  • the diffuse and localized objects given by the non-directive vector and the directional vector derived from the Gerzon vector are extracted both (no prior comparison with respect to a threshold to estimate if the contribution of the one and / or or the other is significant enough to be restored) to be restored on the speakers of the device 2 restitution.
  • the direction of the vectors (i.e. directional) corresponding to the extracted sound objects is then compared with respect to the angular excursion ⁇ / 2, in order to determine their position with respect to the window W.
  • the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
  • Gerzon vectors do not provide the ability to extract more than one localized sound object per frequency subband.
  • the spatial analysis means 3 of the reproduction system 1 implement, to extract the sound objects from the signals Si and estimate their characteristics during the steps E30. and E40, a technique based on a spatial decomposition of each multichannel signal Si in spherical harmonics.
  • the sound field ⁇ ⁇ , ⁇ ) derived from each multichannel signal Si can be decomposed according to the formalism of the spherical harmonics, as follows:
  • 5 ⁇ ⁇ ( ⁇ ) denotes the coefficient (at the frequency ⁇ ) associated with the spherical harmonic ⁇ ⁇ , ⁇ ) in the decomposition, and:
  • n (kr) is a spherical Bessel function of first order n species
  • the spatial analysis means 3 apply, for example, the technique for extracting sound objects from a multichannel signal from its spatial decomposition into spherical harmonics described in document WO 2012/025580.
  • This technique is based on a representation of the matrix ⁇ ( ⁇ , ⁇ ), constructed from the coefficients fî mn (w) of the decomposition in spherical harmonics to which we have applied a Fourier transform STFT (for "Short Time Fourier Transform ) At time t, in the form of a sum of two terms, ie, a first term modeling the localized sound objects included in the signal Si, and a second term modeling diffuse sound objects.
  • STFT Short Time Fourier Transform
  • the amplitude associated with the localized sound objects is determined from the sum of the spherical harmonic coefficients associated with these objects as a function of the estimated direction.
  • the amplitude of diffuse objects is estimated from residual spherical harmonic coefficients obtained after subtracting the contribution of localized sound objects.
  • the reproduction system 1 proceeds in a manner similar to that described in the first variant for the temporal analysis of the signals Si, by comparison of their direction with respect to the angular excursion ⁇ / 2.
  • the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
  • the system 1 of restitution does not strictly concern the position of the sound objects extracted from the signals Si by relative to the rendering device 2, ie, it does not distinguish between the sound objects according to whether they are behind or in front of the playback device 2 with respect to the reference position Pref.
  • the spatial analysis performed by the rendering system 1 may be limited to sound objects located behind the rendering device 2, regardless of the spatial analysis technique selected among the aforementioned techniques in particular.
  • a frequency subband decomposition of the multichannel signal S is carried out, then the reproduction system 1 examines each frequency subband to extract the sound objects from the multichannel signal S. This allows extract more precisely the sound objects constituting the signal S (we can identify more particular sound objects).
  • this hypothesis is not limiting and one could envisage in the context of the invention to work directly on the multichannel signal S without performing decomposition into frequency subbands.
  • the reproduction system 1 extracted and identified several categories of sound objects in the multichannel signal S, namely:
  • a first category of sound objects denoted OBJLocIntW, grouping the sound objects located and located inside the spatial window W;
  • a second category of sound objects denoted OBJLocExtW, grouping the sound objects located and located outside the spatial window W;
  • OBJDiff a third category of sound objects, denoted OBJDiff, grouping the diffuse sound objects.
  • the system 1 of restitution also has, for the first and second categories of sound objects, the position of these objects in the spatial window W.
  • the reproduction system 1 has also identified, within the category of sound objects OBJLocIntW, the sound objects coming from sources positioned in the center of the spatial window W.
  • All of this information is for example stored in the RAM 6 or in the nonvolatile flash memory 7 of the system 1 for rendering in order to be used in real time.
  • the system 1 will restore the sound objects extracted from the signal S according to their category, and the characteristics of these determined objects. during steps E30 and E40.
  • the means 4 for restitution of the rendering system 1 apply four distinct processes T-A1, TA-2, TB and TC selected according to the characteristics of the sound objects extracted by the means 3 d. spatial analysis of the rendering system 1 during the phase I (step E50).
  • the sound objects identified as belonging to the first category OBJLocIntW are restored by the means 4 of restitution (and more precisely by the means 4A), by applying the treatments T- Al or T- A2 according to whether they are respectively located in the center or not of the spatial window W (step E51).
  • the processing T-Al and T-A2 restore the sound objects of the category OBJLocIntW inside the spatial window W.
  • Different types of T-Al and T-A2 treatments can be envisaged for such a reproduction. These treatments may or may not implement filtering of the sound objects before they are broadcast on all or part of the speakers of the playback device 2.
  • the playback device 2 comprises a central loudspeaker and side loudspeakers:
  • the processing T-Al may be able to broadcast the sound objects extracted from the signal S identified in the center of the spatial window W, directly on the central loudspeaker of the device 2;
  • the reproduction processing T-A2 may be able to broadcast the sound objects extracted from the signal S and positioned at a position distinct from the center of the spatial window W on the set of speakers of the rendering device 2 by using an effect intensity panning, chosen so as to preserve the position of the sound objects perceived by the listener at the reference position.
  • the T-Al and / or T-A2 rendering processes applied to the sound objects located inside the spatial window W may be more complex spatial filtering processes including for example the creation of virtual sources 10 to from the speakers of the rendering device 2 inside the spatial window W, the virtual sources being positioned in accordance with the characteristics of the sound objects estimated at steps E30 and / or E40 (that is, in directions and where appropriate, according to the amplitudes estimated in steps E30 and E40).
  • a rendering process including the creation of virtual sources at the positions identified during steps E30 and / or E40 is for example an acoustic field synthesis processing also known as WFS treatment known to those skilled in the art or a beam forming technique ( or "beamforming" in English), the beam being directed for example towards the reference position.
  • the sound objects belonging respectively to the categories OBJLocExtW and OBJDiff are restored outside the spatial window W by the means 4 of restitution (respectively by the means 4-B and 4-C), by applying the treatments TB and TC (steps E52 and E53).
  • the rendering processes TB and TC comprise the creation of at least one virtual source 11, 12 outside the spatial window W for restitution of the rendering device 2.
  • these virtual sources 11 are reconstituted from the positions of the sound objects identified in step E30, for example via a transaural technique (particularly well suited for a configuration of the device 2 of FIG. playback with a center speaker and two side speakers), a WFS or derivative technique, as described for example in the European patent application EP 1 116 572.0 unpublished, or the formation of a beam directed to the outside of the spatial window of restitution, and whose width can be configured so as to optimize the sound reproduction.
  • the T-C treatment makes it possible to create diffuse virtual sources 12.
  • beamforming CT techniques will preferably be used to create these virtual sources, for which the orientation and the width of the beams are easily controlled so as to create reflections on the walls of the room in which the device is positioned. 2 of restitution and thus create more enveloping feeling for the listener placed at the reference position.
  • the playback device 2 is a horizontal soundbar-type loudspeaker equipped with three loudspeakers 2-1, 2-2 and 2-3 (a central loudspeaker and two loudspeakers). side speakers).
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the playback system 1 during step E10 is a stereo audio signal, that is, composed of two separate channels.
  • the sound reproduction window W (and the angular excursion associated with this window), defined by the reference position Pref and the lateral speakers of the playback device 2.
  • the reference position Pref placed at a distance of 2 to 4m from the playback device 2 and a playback device of width 1m, the side loudspeakers of this device being placed at the ends of the device , the angular excursion ⁇ / 2 corresponding to the spatial window W is between 7 and 15 °; and
  • the amplitude of each sound object extracted on each frequency subband is given by the level of the signal Si on this subband.
  • the spatial analysis of the signal S also comprises, in the first example considered here, the identification E40 of the sound objects located at the center of the spatial window W by comparing the angular excursion associated with each sound object extracted from the signals Si at the interval [0; 2.5 °], a sound object being considered as being in the center of the window if its angular excursion is between 0 and 2.5 ° (in absolute value).
  • step E51 restitution inside the spatial window W of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of the restitution treatments T-Al and T-A2 following:
  • ⁇ T-Al treatment applied to the estimated sound objects in the center of the spatial window W diffusion of the sound objects directly (ie without spatial filtering) on the central speaker of the rendering device 2, in other words, the sound objects thus restored are attached to the center of the device 2 of restitution;
  • step E52 restitution outside the spatial window W, of localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), using a technique TB transaural restitution. More precisely, using the two lateral loudspeakers of the rendering device 2, transaural virtual sources placed outside the window W are created, for example at 30 ° and 60 ° (respectively at -30 ° and - 60 °) with respect to the axis ⁇ . The sound objects of the OBJLocExtW category are then broadcast through these virtual sources, in the directions determined in step E30;
  • step E53 restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a transaural T-C rendering technique. More precisely, using the two lateral loudspeakers of the rendering device 2, transaural virtual sources placed outside the window W are created at an angle greater than 60 ° (respectively less than -60 °) relative to to the axis ⁇ . The sound objects of the category OBJDiff are then diffused through these virtual sources.
  • Such techniques consist in applying a filter to each of the lateral speakers of the rendering device 2, each filter comprising a spatialization filter and a cross-propagation cancellation filter between the two loudspeakers. speakers.
  • the rendering device 2 is a compact acoustic loudspeaker of the horizontal soundbar type equipped with 15 loudspeakers 2-1, 2-2, 2-15 of a length of approximately 1 m.
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal 5.1.
  • a signal already contains intrinsically spatialization information.
  • the standard UU-R BS.775-1 defining the format of the signals 5.1 implies a center located at 0 °, L and R right channels located at +/- 30 ° with respect to the center, and left rear channels Ls and right rear Rs located at +/- 110 0 from the center.
  • the sound objects located in the center of the spatial window W are present in the central channel by definition of the format 5.1. They are therefore "extracted” easily from this already isolated central channel.
  • the reproduction system 1 then considers the signal Si 'composed of the four channels L, R, Ls and Rs of the signal Si, and the four "channel" vectors connecting the reference position Pref to the four channels L, R, Ls and Rs. It assigns each channel vector a weight corresponding to the energy of the associated channel.
  • the Gerzon vector associated with the signal Si '(or equivalent to the signal Si) is defined as the centroid of points L, R, Ls and Rs thus weighted.
  • the Gerzon vector thus defined is written in the form of a directional vector (equal to the sum of the two channel vectors adjacent to the Gerzon vector: for example, if the direction of the Gerzon vector is 15 ° relative to the ⁇ axis, the directional vector is the sum of the channel vectors associated respectively with the channels L and R), and a non-directional vector.
  • the directional vector characterizes a localized sound object of the signal Si and its position (given by the direction of the vector) with respect to the window W.
  • the reproduction system 1 compares this position with respect to the angular excursion ⁇ / 2 in a similar way in example 1, to estimate whether the sound object thus identified belongs to the OBJLocIntW category or to the OBJLocExtW category.
  • the non-directional vector characterizes a diffuse sound object of the signal Si, classified by the reproduction system 1 in the OBJDiff category.
  • the reproduction system 1 associates with each extracted sound object an amplitude evaluated from the amplitude of the corresponding vector (directional or non-directive and composing the Gerzon vector).
  • step E51 restitution inside the spatial window W of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of the restitution treatments T-Al and T-A2 following:
  • ⁇ T-A2 processing applied to non-centered sound objects located in the spatial window W scattering of sound objects using a WFS sound field synthesis technique including the creation of virtual sources via the speakers of the device 2 of restitution, these virtual sources being positioned (by acting on the delays and the gains applied to each speaker) in the directions estimated by the directional vectors extracted from the Gerzon vectors derived during the spatial analysis so as to respect the same spatial organization only when mixing the multichannel signal.
  • the amplitudes of the sound objects returned are consistent with the amplitudes evaluated in step E30;
  • step E52 restitution outside the spatial window W, of localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), using a technique WFS including the creation of six virtual sources surrounding the reference position Pref:
  • two virtual sources are positioned outside the spatial window W, among which: two virtual sources are positioned between 30 ° C. and 60 ° C. with respect to the ⁇ axis, and between -30 ° and -60 °; for example with the aid of two square waves directed towards the side walls of the room in which is placed the device 2 restitution; and two virtual sources are positioned between
  • the virtual sources thus positioned are used to restore the sound objects of the OBJLocExtW category according to the directions and amplitudes estimated in step E30;
  • step E53 restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a rendering technique WFS TC, comprising the creation of four virtual sources to the outside of the window W using, for example, four plane waves directed towards the walls of the room in which the rendering device 2 is placed so as to create two reflections on the lateral walls situated between 60 ° and 80 ° (respectively -60 ° and -80 °) with respect to the ⁇ axis.
  • a rendering technique WFS TC comprising the creation of four virtual sources to the outside of the window W using, for example, four plane waves directed towards the walls of the room in which the rendering device 2 is placed so as to create two reflections on the lateral walls situated between 60 ° and 80 ° (respectively -60 ° and -80 °) with respect to the ⁇ axis.
  • the rendering device 2 is a compact acoustic loudspeaker equipped with 8 loudspeakers 2-1, 2-2, 2-8 of width approximately 80 cm, with four frontal loudspeakers 2-1, ..., 2-4, and two speakers 2-5 and 2-6, respectively 2-7 and 2-8, located on each side of the device 2 (device similar to the device 2 "shown in Figure 3B) .
  • the position Pref is chosen punctually, centered with respect to the device 2 of restitution.
  • the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal composed of four distinct channels.
  • this step may optionally include the coding of the Si signal in an audio format of the HOA type, known per se);
  • step E51 restitution inside the spatial window W, of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of a processing Restitution TA combining WFS technique and radiation control taking into account the radiation of each loudspeaker and the influence of the loudspeaker itself containing the different loudspeakers.
  • the sound reproduction field of each object is controlled via filtering.
  • the processing TA comprises the creation of virtual sources behind the rendering device 2 via the WFS technique, and the application of a filtering to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of sound objects restored by these virtual sources is directed to the reference position and is in agreement with the amplitudes determined in step E30;
  • step E52 restitution outside the spatial window W, of the localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), by means of a processing of TB rendering as described in the European patent application not yet published EP 1116572.0 and combining:
  • a WFS technique comprising the creation of virtual sources outside the spatial window W via the formation of two thin beams reflecting on the side walls of the room in which the rendering device 2 is installed at a predetermined point position;
  • a filtering applied to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of the sound objects restored by these virtual sources is directed concentrated towards the lateral walls of the room.
  • the virtual sources thus positioned are used to restore the sound objects of the OBJLocExtW category according to the directions and amplitudes estimated in step E30;
  • step E53 restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a rendering processing TC as described in the European patent application not yet published EP 1116572.0 and combining:
  • a WFS technique comprising creating virtual sources outside the spatial window W by forming two large beams reflecting on a predetermined wide area of side walls of the room in which the retrieval device 2 is installed;
  • a filtering applied to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of the sound objects restored by these virtual sources is directed concentrated towards the side walls of the room.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

The method for playing back a multichannel audio signal (S), on a playback device (2) comprising a plurality of loudspeakers (2-l,...,2-N) arranged in fixed positions on the device and defining a spatial window of sound reproduction relative to a reference spatial position, comprises: — a spatial analysis of the audio signal comprising, for at least one sound object extracted from the signal, the estimation of a diffuse or localised character of this object and of the position thereof relative to the window; and — the playing back of the audio signal on the loudspeakers of the device during which a playback treatment (T-Al, T-A2,T-B,T-C) is applied to each sound object on at least one loudspeaker of the device, depending on the diffuse or localised character of the object and the position thereof relative to the window, and comprising the creation of at least one virtual source outside the window from the loudspeakers of the device, when the object is estimated to be diffuse or positioned outside the window.

Description

Procédé et système de restitution d'un signal audio  Method and system for rendering an audio signal
Arrière-plan de l'invention Background of the invention
L'invention se rapporte au domaine général des traitements acoustiques et de la spatialisation sonore.  The invention relates to the general field of acoustic processing and sound spatialization.
Elle concerne plus particulièrement la restitution d'un signal audio multicanal sur un dispositif de restitution déterminé, équipé d'une pluralité de haut-parleurs disposés à des emplacements fixes du dispositif de restitution.  It relates more particularly to the rendering of a multichannel audio signal on a determined rendering device, equipped with a plurality of loudspeakers arranged at fixed locations of the rendering device.
L'invention s'applique de façon privilégiée mais non limitative à un dispositif de restitution de type enceinte acoustique, aussi appelée « structure bafflante » (ou « baffling structure » en anglais). Une telle enceinte acoustique est, de façon connue, constituée d'une structure unique ou monobloc, intégrant les différents haut-parleurs utilisés pour la restitution du signal audio (les haut-parleurs ne peuvent être séparés de l'enceinte). Un exemple d'enceinte acoustique est notamment une barre de son dans laquelle sont intégrés les différents haut-parleurs.  The invention applies in a preferred but non-limiting manner to an acoustic speaker type rendering device, also known as a "baffling structure" (or "baffling structure" in English). Such acoustic chamber is, in a known manner, consisting of a single or monobloc structure, integrating the various speakers used for the reproduction of the audio signal (the speakers can not be separated from the speaker). An example of an acoustic speaker is in particular a sound bar in which the various speakers are integrated.
L'invention présente par ailleurs un intérêt particulier lorsqu'elle est appliquée à une enceinte acoustique dite compacte ou plus généralement à un dispositif de restitution compact.  The invention also has a particular interest when it is applied to a so-called compact acoustic enclosure or more generally to a compact retrieval device.
De façon connue en soi, un dispositif de restitution compact est un dispositif de petites dimensions (notamment par rapport aux dimensions de la pièce ou de la salle dans laquelle on envisage de placer le dispositif de restitution), et dans lequel les haut- parleurs sont montés relativement proches les uns des autres.  In a manner known per se, a compact rendering device is a device of small dimensions (in particular with respect to the dimensions of the room or the room in which it is envisaged to place the rendering device), and in which the loudspeakers are mounted relatively close to each other.
Il convient de noter que ce dispositif peut être monobloc (comme une enceinte acoustique) ou en variante être composé de plusieurs éléments, regroupés de sorte à former un ensemble compact, chaque élément étant équipé d'un ou de plusieurs haut-parleurs.  It should be noted that this device can be monobloc (as an acoustic speaker) or alternatively be composed of several elements, grouped together to form a compact assembly, each element being equipped with one or more speakers.
A titre illustratif, la plus grande dimension d'un dispositif de restitution compact n'excède pas en général 2 mètres, tandis que l'espacement entre les haut- parleurs, deux à deux, est inférieur à 50 centimètres.  By way of illustration, the largest dimension of a compact rendering device generally does not exceed 2 meters, while the spacing between the loudspeakers, two by two, is less than 50 centimeters.
II existe dans l'état de la technique, différentes méthodes s'employant à optimiser la restitution d'un signal audio multicanal sur un dispositif de restitution, tout en prenant en compte les limites physiques du dispositif de restitution, du fait notamment de la répartition des haut-parleurs du dispositif de restitution dans l'espace.  There exist in the state of the art, various methods seeking to optimize the rendering of a multichannel audio signal on a rendering device, while taking into account the physical limits of the rendering device, in particular because of the distribution speakers of the rendering device in the space.
Un exemple d'une telle méthode est décrit dans le document WO 2012/025580 en référence à plusieurs dispositifs de restitution équipés d'une pluralité de haut-parleurs répartis à divers endroits d'une pièce de sorte à couvrir une zone (spatiale) d'écoute étendue (cette zone d'écoute modélise les positions des auditeurs). An example of such a method is described in WO 2012/025580 with reference to several rendering devices equipped with a plurality of loudspeakers distributed at various locations in a room so as to cover a extended listening area (this listening area models listeners' positions).
Cette méthode s'appuie sur une analyse spatiale du signal audio multicanal que l'on souhaite restituer, permettant d'extraire et de localiser les objets sonores du signal audio situés à l'intérieur d'une fenêtre de restitution sonore définie à partir de la position physique des haut-parleurs du dispositif de restitution et de la zone d'écoute étendue.  This method is based on a spatial analysis of the multichannel audio signal that is to be restored, making it possible to extract and locate the sound objects of the audio signal located inside a sound reproduction window defined from the the physical position of the speakers of the playback device and the extended listening area.
Les objets sonores extraits sont restitués à l'intérieur de la fenêtre de restitution sonore, en fonction de leur localisation dans cette fenêtre, à l'aide d'un premier traitement de restitution. Ce premier traitement de restitution est par exemple un traitement de synthèse du champ acoustique (ou traitement WFS pour « Wave Field Synthesis » en anglais), connu en soi.  The extracted sound objects are restored inside the sound reproduction window, according to their location in this window, using a first rendering process. This first rendering process is, for example, a synthesis of the acoustic field (or WFS treatment for "Wave Field Synthesis" in English), known per se.
Les autres composantes du signal audio multicanal sont également restituées à l'intérieur de la fenêtre de restitution sonore, selon un second traitement de restitution (tel que par exemple, un effet panoramique d'intensité). Si le document WO 2012/025580 prend en compte, lors de l'analyse spatiale et lors de la restitution du signal audio multicanal, la répartition des haut-parleurs du dispositif de restitution par l'intermédiaire notamment de la notion de fenêtre de restitution sonore, il se restreint toutefois à l'étude de dispositifs de restitution ayant des haut-parleurs éparpillés dans l'ensemble de la pièce dans laquelle on souhaite restituer le signal, et destinés à une restitution dans une zone d'écoute étendue.  The other components of the multichannel audio signal are also restored inside the sound reproduction window, according to a second rendering process (such as, for example, an intensity panoramic effect). If the document WO 2012/025580 takes into account, during the spatial analysis and during the restitution of the multichannel audio signal, the distribution of the speakers of the rendering device, in particular through the notion of sound reproduction window. However, it is restricted to the study of rendering devices having speakers scattered throughout the room in which it is desired to restore the signal, and intended for playback in an extended listening area.
Mais le document WO 2012/025580 ne s'intéresse pas à proprement parler à la restitution d'un signal audio multicanal sur un dispositif de restitution compact.  But the document WO 2012/025580 does not concern, strictly speaking, the rendering of a multichannel audio signal on a compact rendering device.
Or, l'utilisation d'un dispositif de restitution compact présente certaines contraintes, notamment en termes de dimensions de la zone d'écoute pouvant être envisagée et de la fenêtre de restitution sonore liée à la disposition physique des haut- parleurs sur le dispositif de restitution, qui sont en général plus réduites qu'avec un dispositif de restitution composé de plusieurs entités éparpillées dans l'ensemble de la pièce ou de la salle dans laquelle est placé le dispositif, et tel qu'envisagé dans le document WO 2012/025580.  However, the use of a compact reproduction device has certain constraints, particularly in terms of the size of the listening area that can be considered and the sound reproduction window related to the physical arrangement of the speakers on the device of restitution, which are generally smaller than with a restitution device composed of several entities scattered throughout the room or the room in which the device is placed, and as envisaged in the document WO 2012/025580 .
Il existe donc un besoin d'une méthode de restitution d'un signal audio multicanal qui soit particulièrement bien adaptée aux dispositifs de restitution compacts et notamment aux enceintes acoustiques compactes, et qui permette d'optimiser le rendu du signal audio tout en maintenant l'intelligibilité et la clarté des composantes de ce signal. Objet et résumé de l'invention There is therefore a need for a method for rendering a multichannel audio signal which is particularly well suited to compact rendering devices and in particular to compact loudspeakers, and which makes it possible to optimize the rendering of the audio signal while maintaining the audio signal. intelligibility and clarity of the components of this signal. Object and summary of the invention
L'invention répond notamment à ce besoin en proposant un procédé de restitution d'un signal audio multicanal sur un dispositif de restitution équipé d'une pluralité de haut-parleurs, ces haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale de restitution sonore par rapport à une position spatiale dite de référence. Le procédé de restitution selon l'invention est remarquable en ce qu'il comprend :  The invention responds in particular to this need by proposing a method of rendering a multichannel audio signal on a playback device equipped with a plurality of loudspeakers, these loudspeakers being arranged at fixed locations of the playback device and defining a sound reproduction spatial window with respect to a so-called reference spatial position. The restitution process according to the invention is remarkable in that it comprises:
— une étape d'analyse spatiale du signal audio multicanal comprenant :  A step of spatial analysis of the multichannel audio signal comprising:
o l'extraction d'au moins un objet sonore du signal, et  o extracting at least one sound object from the signal, and
o pour chaque objet sonore extrait, l'estimation d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et o for each extracted sound object, the estimate of a diffuse or localized character of this sound object, and a position of this sound object with respect to the spatial window of sound reproduction of the rendering device; and
— une étape de restitution du signal audio sur la pluralité de haut-parleurs du dispositif de restitution, au cours de laquelle on applique, à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale, le traitement de restitution comprenant la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé au cours de l'étape d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution. A step of restoring the audio signal on the plurality of loudspeakers of the rendering device, during which each sound object extracted from the audio signal is subjected to a rendering process on at least one loudspeaker of the plurality of the reproduction device, this restitution processing depending on the diffuse or localized nature of the sound object and its position with respect to the spatial window of sound reproduction estimated during the spatial analysis step, the rendering processing comprising the creation of at least one virtual source outside the restitution space window of the rendering device, from the loudspeakers of the rendering device, when the sound object is estimated during the playback. spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device.
Corrélativement, l'invention vise également un système de restitution d'un signal audio multicanal sur un dispositif de restitution équipé d'une pluralité de haut- parleurs, ces haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale de restitution sonore par rapport à une position de référence, ce système de restitution comprenant :  Correlatively, the invention also relates to a system for rendering a multichannel audio signal on a rendering device equipped with a plurality of loudspeakers, these loudspeakers being arranged at fixed locations of the rendering device and defining a window spatial sound reproduction compared to a reference position, this restitution system comprising:
— des moyens d'analyse spatiale du signal audio multicanal comprenant :  Means for spatial analysis of the multichannel audio signal comprising:
o des moyens d'extraction d'au moins un objet sonore du signal, et o des moyens d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et  o means for extracting at least one sound object from the signal, and o estimating means, for each extracted sound object, of a diffuse or localized character of this sound object, and a position of this object sound with respect to the spatial window of sound reproduction of the rendering device; and
— des moyens de restitution du signal audio sur la pluralité de haut-parleurs du dispositif de restitution, aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale, le traitement de restitution comprenant la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé par les moyens d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution. Means for reproducing the audio signal on the plurality of loudspeakers of the rendering device, able to apply to each sound object extracted from the signal audio, a processing restitution on at least one speaker of the plurality of speakers of the playback device, this restitution processing depending on the diffuse or localized nature of the sound object and its position relative to the spatial window of sound reproduction estimated during the spatial analysis step, the rendering processing comprising the creation of at least one virtual source outside the restitution space window of the rendering device, from the loudspeakers of the rendering device, when the sound object is estimated by the spatial analysis means as being diffuse or positioned outside the restitution space window of the rendering device.
Par étape (respectivement moyens) de restitution sur des haut-parleurs, on entend ici l'étape (respectivement les moyens) qui consiste à générer et à fournir des signaux destinés à alimenter les haut-parleurs du dispositif de restitution. Ces signaux seront ensuite diffusés (i.e. émis) par les haut-parleurs du dispositif de restitution de sorte à restituer le signal audio multicanal.  By step (respectively means) of restitution on loudspeakers is meant here the step (respectively the means) which consists of generating and supplying signals intended to supply the speakers of the rendering device. These signals will then be broadcast (i.e. transmitted) by the speakers of the playback device so as to reproduce the multichannel audio signal.
Par ailleurs, par position spatiale de référence, on entend ici aussi bien un point de l'espace caractérisant la position d'un auditeur cible du signal audio, qu'une zone plus étendue de l'espace dans laquelle est (sont) susceptible(s) de se trouver un ou plusieurs auditeurs. Pour un dispositif de restitution compact, on s'orientera préférentiellement vers une position spatiale de référence ponctuelle même si le procédé de restitution selon l'invention permet d'atteindre une zone d'écoute particulièrement étendue.  Moreover, by reference spatial position, here is meant both a point in the space characterizing the position of a target listener of the audio signal, and a larger area of the space in which is (are) susceptible ( s) to find one or more auditors. For a compact rendering device, it will preferentially orientate towards a point reference spatial position even if the rendering method according to the invention makes it possible to reach a particularly large listening area.
L'invention propose donc de mettre en œuvre une analyse spatiale du signal audio multicanal à restituer visant à séparer les objets sonores composant le signal audio en fonction d'une part, de leur caractère localisé dans l'espace (c'est-à-dire discret, généré par une source localisable) ou diffus, et d'autre part, de leur position par rapport à la fenêtre de restitution sonore définie par la position spatiale de référence et par l'emplacement physique des haut-parleurs sur (ou dans) le dispositif de restitution par rapport à cette position spatiale de référence.  The invention therefore proposes to implement a spatial analysis of the multichannel audio signal to be reproduced in order to separate the sound objects composing the audio signal as a function, on the one hand, of their localized character in the space (ie discrete, generated by a localizable source) or diffuse, and secondly, their position relative to the sound reproduction window defined by the reference spatial position and the physical location of the speakers on (or in ) the rendering device with respect to this reference spatial position.
Cette séparation des objets sonores est mise à profit, conformément à l'invention, en appliquant des traitements de restitution aux objets extraits qui prennent en compte leurs caractères localisés ou diffus, ainsi que les positions des sources à l'origine de ces objets à l'intérieur ou à l'extérieur de la fenêtre de restitution sonore. Autrement dit, l'invention lie les traitements de restitution appliqués aux objets sonores du signal multicanal à restituer, directement aux caractéristiques spatiales de ces objets extraites lors de l'analyse spatiale du signal multicanal. Plus précisément, les objets sonores identifiés au cours de l'étape d'analyse spatiale comme étant diffus ou positionnés à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, sont avantageusement restitués par l'intermédiaire des haut-parleurs du dispositif de restitution, à l'extérieur de cette fenêtre, via la mise en œuvre d'un traitement de restitution comprenant la création de sources virtuelles à l'extérieur de cette fenêtre. This separation of sound objects is exploited, in accordance with the invention, by applying rendering processes to the extracted objects which take into account their localized or diffuse characters, as well as the positions of the sources at the origin of these objects. inside or outside the sound reproduction window. In other words, the invention links the restitution processes applied to the sound objects of the multichannel signal to be restored, directly to the spatial characteristics of these objects extracted during the spatial analysis of the multichannel signal. More precisely, the sound objects identified during the spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device, are advantageously restored via the speakers of the device. restitution, outside this window, through the implementation of a rendering processing including the creation of virtual sources outside this window.
En revanche, lorsqu'un objet sonore extrait est estimé comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore au cours de l'étape de restitution est préférentiellement apte à restituer cet objet sonore à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution, à l'emplacement de la source à l'origine de cet objet sonore.  On the other hand, when an extracted sound object is estimated as being localized and positioned inside the spatial window of sound reproduction of the rendering device, the restitution processing applied to this sound object during the restitution step is preferentially able to restore this sound object within the sound reproduction space window of the rendering device, at the location of the source at the origin of this sound object.
Cette restitution à l'intérieur de la fenêtre spatiale de restitution sonore peut se faire de façon directe, en diffusant les objets sonores sur les haut-parleurs du dispositif de restitution sans recourir à des procédés complexes de filtrage spatial. Par exemple, on diffuse l'objet tel quel sur un ou plusieurs haut-parleurs, ou en appliquant simplement un effet panoramique (ou « panning » en anglais) d'intensité. De telles techniques sont connues en soi et relativement simples à mettre en uvre.  This restitution inside the spatial window of sound reproduction can be done directly, by diffusing the sound objects on the speakers of the rendering device without resorting to complex spatial filtering processes. For example, it diffuses the object as is on one or more speakers, or by simply applying a panning effect (or "panning" in English). Such techniques are known per se and relatively simple to implement.
En variante, le traitement de restitution à l'intérieur de la fenêtre spatiale de restitution peut comprendre la création d'une ou de plusieurs sources virtuelles à partir des haut-parleurs du dispositif de restitution, à l'intérieur de la fenêtre spatiale de restitution sonore du dispositif de restitution. Il peut s'agir notamment d'un traitement de type WFS ou dérivé.  As a variant, the rendering processing inside the reproduction space window can comprise the creation of one or more virtual sources from the speakers of the rendering device, inside the restitution space window. sound of the rendering device. This may be a type of WFS or derivative processing.
La direction ou la position des sources virtuelles, ainsi que, le cas échéant, leur amplitude, sont alors déterminées à partir de la position estimée des sources à l'origine des objets sonores localisés extraits du signal multicanal et de leur contribution (ex. en termes de niveau sonore) dans le signal multicanal.  The direction or position of the virtual sources, as well as, if appropriate, their amplitude, are then determined from the estimated position of the sources at the origin of the localized sound objects extracted from the multichannel signal and their contribution (ex. sound level terms) in the multichannel signal.
Un tel traitement de restitution basé sur la création de sources virtuelles permet de mieux contrôler la directivité des objets sonores ainsi restitués.  Such rendering processing based on the creation of virtual sources makes it possible to better control the directivity of the sound objects thus restored.
L'application, au cours de l'étape de restitution, des traitements de restitution précités choisis en fonction des caractéristiques des objets sonores déterminées au cours de l'étape d'analyse spatiale, permet d'éloigner les objets diffus ou en provenance de l'extérieur de la fenêtre de restitution, des objets localisés à l'intérieur de la fenêtre (de tels objets incluent typiquement la voix ou les dialogues).  The application, during the restitution step, of the aforementioned restitution treatments chosen according to the characteristics of the sound objects determined during the spatial analysis step, makes it possible to remove the objects that are diffuse or coming from the outside the rendering window, objects located inside the window (such objects typically include voice or dialogues).
On augmente ainsi la largeur apparente de la scène sonore vue par l'auditeur This increases the apparent width of the sound scene seen by the listener
(ou les auditeurs) situé(s) au niveau de la position spatiale de référence par rapport à la fenêtre de restitution sonore nominale offerte par le dispositif de restitution, fenêtre particulièrement limitée dans le cas d'un dispositif de restitution compact. Autrement dit, en dépit de la compacité du dispositif de restitution, l'auditeur a le sentiment d'être immergé dans la scène sonore (perception d'enveloppement dans la scène sonore). (or listeners) located at the reference spatial position in relation to the sound reproduction window offered by the rendering device, window particularly limited in the case of a compact reproduction device. In other words, despite the compactness of the rendering device, the listener has the feeling of being immersed in the sound stage (perception of envelopment in the sound stage).
Par ailleurs, outre cet élargissement de la scène sonore perçue par l'auditeur, on établit un contraste plus marqué entre les objets sonores localisés et situés à l'intérieur de la fenêtre de restitution sonore par rapport aux objets diffus ou localisés à l'extérieur de la fenêtre. Les objets localisés et déterminés comme étant positionnés à l'intérieur de la fenêtre de restitution sont, de ce fait, restitués avec une plus grande précision et une meilleure directivité. Le contraste établi par l'invention favorise par conséquent la clarté et l'intelligibilité de ces objets sonores pour l'auditeur à la position de référence.  Moreover, in addition to this broadening of the sound stage perceived by the listener, we establish a more marked contrast between the sound objects located and located inside the sound reproduction window with respect to diffuse objects or located outside. from the window. Objects located and determined to be positioned within the rendering window are therefore rendered with greater precision and directivity. The contrast established by the invention therefore promotes the clarity and intelligibility of these sound objects for the listener at the reference position.
En d'autres mots, l'invention tire profit d'un phénomène bien connu en psycho-acoustique sous le nom d'effet « cocktail party » ou « cocktail party effect » en anglais, qui reflète la capacité du système auditif humain à sélectionner une source sonore dans un environnement bruyant et à traiter des sons même s'ils ne sont pas au cœur de l'objet de l'attention humaine.  In other words, the invention takes advantage of a phenomenon well known in psycho-acoustics under the name "cocktail party effect" or "cocktail party effect" in English, which reflects the ability of the human auditory system to select a sound source in a noisy environment and to treat sounds even if they are not at the heart of the object of human attention.
En liant les caractéristiques des objets sonores extraits du signal audio lors de l'analyse spatiale aux traitements de restitution appliqués au cours de l'étape de restitution pour restituer ces objets sur les haut-parleurs du dispositif de restitution, l'invention permet donc une restitution du signal audio multicanal de très bonne qualité, y compris sur un dispositif de restitution compact, tout en préservant la précision et la clarté des objets sonores du signal localisés et provenant de l'intérieur de la fenêtre de restitution. Elle peut s'appliquer à n'importe quel format de signal multicanal, comme par exemple à un signal stéréo, 5.1, 7.1, 10.2, HOA (Higher Order Ambisonics), etc.  By linking the characteristics of the sound objects extracted from the audio signal during the spatial analysis to the restitution treatments applied during the rendering step to restore these objects on the speakers of the reproduction device, the invention thus allows a rendering the multichannel audio signal of very good quality, including on a compact playback device, while preserving the accuracy and clarity of signal sound objects located and coming from within the rendering window. It can be applied to any multichannel signal format, such as a stereo signal, 5.1, 7.1, 10.2, Higher Order Ambisonics (HOA), and so on.
Il convient de noter que le traitement réalisé de manière générale par l'invention ne vise pas en soi à modifier les caractéristiques de la scène sonore du signal audio multicanal, mais favorise l'intelligibilité des objets sonores localisés dans la fenêtre de restitution sonore et permet d'immerger l'auditeur dans la scène sonore.  It should be noted that the processing generally carried out by the invention does not in itself aim to modify the characteristics of the sound scene of the multichannel audio signal, but promotes the intelligibility of the sound objects located in the sound reproduction window and allows to immerse the listener in the sound stage.
Dans une variante de réalisation, l'étape d'analyse spatiale comprend en outre l'estimation de la position de l'objet sonore par rapport au centre de la fenêtre spatiale de restitution sonore du dispositif de restitution.  In an alternative embodiment, the spatial analysis step further comprises estimating the position of the sound object with respect to the center of the spatial sound reproduction window of the rendering device.
De cette sorte, on peut appliquer, au cours de l'étape de restitution, un traitement de restitution distinct selon si l'objet sonore se trouve au centre de la fenêtre spatiale de restitution sonore ou à une position distincte du centre mais dans la fenêtre spatiale de restitution sonore, de sorte à mieux isoler le centre des autres objets sonores. On obtient ainsi un meilleur contraste et une meilleure intelligibilité du centre par rapport aux autres objets situés à l'intérieur de la fenêtre. On notera que le centre est souvent associé aux objets sonores tels que la voix ou les dialogues. In this way, it is possible to apply, during the restitution step, a distinct restitution treatment according to whether the sound object is in the center of the spatial sound reproduction window or at a position distinct from the center but in the window spatial sound restitution, so as to better isolate the center of other sound objects. This gives a better contrast and better intelligibility of the center compared to other objects located inside the window. Note that the center is often associated with sound objects such as voice or dialogues.
Comme mentionné précédemment, l'invention a une application privilégiée, mais non limitative, lorsque le dispositif de restitution est une enceinte acoustique dans laquelle est disposée la pluralité de haut-parleurs. Une telle enceinte acoustique est par exemple une barre son équipée de plusieurs haut-parleurs.  As mentioned above, the invention has a preferred application, but not limited to, when the rendering device is an acoustic chamber in which the plurality of loudspeakers is arranged. Such an acoustic speaker is for example a sound bar equipped with several speakers.
Dans un mode particulier de réalisation de l'invention, l'étape d'analyse spatiale comprend une décomposition du signal audio reçu en une pluralité de sous- bandes fréquentielles, l'extraction dudit au moins un objet sonore étant réalisée sur au moins une sous-bande fréquentielle.  In a particular embodiment of the invention, the spatial analysis step comprises a decomposition of the received audio signal into a plurality of frequency sub-bands, the extraction of said at least one sound object being performed on at least one sub-band. -frequency band.
Cette décomposition en sous-bandes fréquentielles (ex. en octave, en tiers d'octave ou en bandes auditives) facilite et améliore l'extraction des objets sonores constituant le signal audio. L'analyse spatiale du signal audio est en effet réalisée par sous-bande fréquentielle : on peut ainsi mieux isoler les objets sonores composant le signal audio multicanal. On a notamment la possibilité d'isoler plusieurs objets sonores dans le signal audio multicanal, par exemple un par sous-bande fréquentielle.  This decomposition into frequency sub-bands (eg in octave, third octave or auditory bands) facilitates and improves the extraction of the sound objects constituting the audio signal. The spatial analysis of the audio signal is in fact carried out by frequency subband: it is thus possible to better isolate the sound objects composing the multichannel audio signal. In particular, it is possible to isolate several sound objects in the multichannel audio signal, for example one per frequency subband.
Selon une variante de réalisation de l'invention, le caractère diffus ou localisé de l'objet sonore extrait est estimé à partir d'au moins une corrélation évaluée entre deux canaux distincts du signal audio multicanal.  According to an alternative embodiment of the invention, the diffuse or localized nature of the extracted sound object is estimated from at least one evaluated correlation between two distinct channels of the multichannel audio signal.
Par ailleurs, la position de l'objet sonore extrait par rapport à la fenêtre spatiale de restitution sonore peut être estimée à partir d'au moins une différence de niveaux évaluée entre deux canaux distincts du signal audio multicanal.  Moreover, the position of the extracted sound object with respect to the sound reproduction spatial window can be estimated from at least one evaluated difference in levels between two distinct channels of the multichannel audio signal.
La détermination des caractéristiques associées à chaque objet sonore extrait du signal audio multicanal (i.e. caractère diffus ou localisé, position par rapport à la fenêtre de restitution) peut par conséquent être réalisée de manière très simple, par le biais de calcul de corrélations et de différences de niveaux entre les signaux répartis sur les différents canaux du signal multicanal.  The determination of the characteristics associated with each sound object extracted from the multichannel audio signal (ie diffuse or localized character, position relative to the rendering window) can therefore be performed very simply, by means of calculating correlations and differences. of levels between the signals distributed on the different channels of the multichannel signal.
Selon une autre variante de réalisation, l'étape d'analyse spatiale comprend la détermination d'un vecteur de Gerzon représentatif du signal audio multicanal.  According to another variant embodiment, the spatial analysis step comprises the determination of a Gerzon vector representative of the multichannel audio signal.
De façon connue de l'homme du métier, le vecteur de Gerzon d'un signal audio multicanal est dérivé à partir des contributions respectives (direction et intensité ou énergie) des différents canaux du signal multicanal à la scène sonore perçue par l'auditeur à la position de référence. La détermination d'un tel vecteur pour un signal audio multicanal est décrite par exemple dans le document US 2007/0269063. Le vecteur de Gerzon d'un signal audio multicanal reflète la localisation spatiale du signal audio multicanal telle qu'elle est perçue par l'auditeur depuis la position de référence. La détermination de ce vecteur de Gerzon permet de s'affranchir du calcul de corrélations entre les différents canaux du signal multicanal pour déterminer le caractère diffus ou localisé des objets sonores extraits du signal. In a manner known to those skilled in the art, the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener. the reference position. The determination of such a vector for a multichannel audio signal is described for example in the document US 2007/0269063. The Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position. The determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal.
Selon une autre variante de réalisation, l'étape d'analyse spatiale comprend une décomposition spatiale du signal multicanal en harmoniques sphériques.  According to another variant embodiment, the spatial analysis step comprises a spatial decomposition of the multichannel signal into spherical harmonics.
Une telle décomposition spatiale est connue de l'homme du métier et décrite par exemple dans le document WO 2012/025580. Elle permet une analyse spatiale très précise du signal audio multicanal et des objets sonores le composant. Ainsi, notamment, plusieurs objets sonores peuvent être déterminés pour une même sous-bande fréquentielle.  Such spatial decomposition is known to those skilled in the art and described for example in WO 2012/025580. It allows a very precise spatial analysis of the multichannel audio signal and the sound objects composing it. Thus, in particular, several sound objects can be determined for the same frequency subband.
Différents traitements peuvent être envisagés dans le cadre de l'invention pour la restitution des objets sonores extraits lors de l'analyse spatiale, à l'intérieur ou à l'extérieur de la fenêtre spatiale de restitution.  Various treatments may be envisaged within the context of the invention for the restitution of the sound objects extracted during the spatial analysis, inside or outside the spatial window of restitution.
Ainsi, selon une première variante de réalisation de l'invention, dans laquelle la pluralité de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux, lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore utilise une technique transaurale de restitution de cet objet sonore sur les haut- parleurs latéraux du dispositif de restitution.  Thus, according to a first variant embodiment of the invention, in which the plurality of speakers of the rendering device comprises a central loudspeaker and lateral loudspeakers, when the sound object extracted is estimated during the spatial analysis step as being diffuse or positioned outside the restitution space window of the rendering device, the restitution processing applied to this sound object uses a transaural technique of restitution of this sound object on the loudspeakers side of the rendering device.
Cette première variante de réalisation a une application privilégiée dans le cas d'un dispositif de restitution équipé d'un nombre réduit de haut-parleurs, par exemple un haut-parleur central et deux haut-parleurs latéraux.  This first embodiment has a preferred application in the case of a playback device equipped with a reduced number of speakers, for example a central speaker and two side speakers.
Selon une deuxième variante de réalisation de l'invention dans laquelle la pluralité de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné au centre de la fenêtre spatiale de restitution du dispositif de restitution, cet objet sonore est diffusé, au cours de l'étape de restitution, par le traitement de restitution, sur le haut-parleur central du dispositif de restitution.  According to a second embodiment of the invention in which the plurality of speakers of the playback device comprises a central speaker and side speakers, when an extracted sound object is estimated during step d spatial analysis being localized and positioned in the center of the restitution space window of the rendering device, this sound object is broadcast, during the restitution step, by the rendering processing, on the central loudspeaker of the device of restitution.
Autrement dit, un objet sonore centré par rapport à la position spatiale de référence est rattaché au centre du dispositif de restitution de sorte à optimiser son intelligibilité. Il est préférentiellement restitué de façon directe (c'est-à-dire sans filtrage spatial) sur le haut-parleur central du dispositif de restitution, de sorte à bénéficier des propriétés de directivité naturelles du haut-parleur central. In other words, a sound object centered with respect to the reference spatial position is attached to the center of the rendering device so as to optimize its intelligibility. It is preferably restored in a direct way (that is to say without filtering spatial) on the central speaker of the playback device, so as to benefit from the natural directivity properties of the center speaker.
D'autres techniques de restitution d'un objet sonore centré par rapport à la position spatiale de référence peuvent bien entendu être envisagées pour maximiser son intelligibilité. Ainsi, par exemple, on peut envisager la formation d'un faisceau (aussi connu sous le nom de « beamforming ») dirigé vers la position spatiale de référence ou une technique transaurale.  Other techniques of restitution of a sound object centered with respect to the reference spatial position can of course be envisaged to maximize its intelligibility. Thus, for example, one can consider the formation of a beam (also known as "beamforming") directed to the reference spatial position or a transaural technique.
Selon une troisième variante de réalisation, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution du dispositif de restitution en une position distincte du centre de la fenêtre, le traitement de restitution appliqué au cours de l'étape de restitution diffuse cet objet sonore sur les haut-parleurs du dispositif de restitution en utilisant un effet panoramique d'intensité.  According to a third variant embodiment, when an extracted sound object is estimated during the spatial analysis step as being localized and positioned inside the restitution space window of the rendering device at a position distinct from the center in the window, the rendering process applied during the rendering step broadcasts this sound object on the speakers of the rendering device using a panoramic effect of intensity.
Ainsi, les objets sonores localisés et positionnés à l'intérieur de la fenêtre acoustique sont également rattachés au dispositif de restitution, et restitués de manière directe (c'est-à-dire sans filtrage spatial), à l'intérieur de la fenêtre de restitution par le biais de l'effet panoramique d'intensité appliqué sur les haut-parleurs. Cet effet panoramique d'intensité appliqué sur l'ensemble des haut-parleurs du dispositif de restitution permet de mieux distinguer les objets sonores localisés et positionnés à l'intérieur de la fenêtre acoustique des objets sonores situés au centre de la fenêtre.  Thus, the sound objects located and positioned inside the acoustic window are also attached to the playback device, and restored directly (that is to say without spatial filtering), within the window of playback through the intensity panning effect applied to the speakers. This panoramic intensity effect applied to all the speakers of the rendering device makes it possible to better distinguish the sound objects located and positioned inside the acoustic window of the sound objects located in the center of the window.
L'invention ne se limite toutefois pas à l'application des traitements de restitution précités ; on peut également recourir à des traitements de restitution plus complexes, mettant en uvre notamment un filtrage spatial des objets sonores sur les haut-parleurs du dispositif de restitution.  The invention is however not limited to the application of the aforementioned restitution treatments; it is also possible to resort to more complex rendering processes, in particular implementing a spatial filtering of the sound objects on the speakers of the rendering device.
Ainsi, par exemple, lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution, la création d'au moins une source virtuelle à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution peut comprendre la formation d'au moins un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution ( « beamforming »).  Thus, for example, when the sound object extracted is estimated during the spatial analysis step as being positioned outside the restitution space window of the rendering device, the creation of at least one virtual source outside the restitution space window of the rendering device may comprise the formation of at least one beam directed towards the outside of the beamforming space window.
De façon similaire, lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale comme étant localisé et positionné à l'intérieur de la fenêtre spatiale de restitution du dispositif de restitution, le traitement de restitution appliqué à cet objet sonore au cours de l'étape de restitution, peut comprendre la formation d'un faisceau dirigé vers la position spatiale de référence. De manière générale, la création de sources virtuelles permet un meilleur contrôle et une meilleure précision de la restitution sonore d'un signal audio qu'une restitution sonore « directe » (i.e. sans filtrage spatial) sur les haut-parleurs du dispositif de restitution, limitée quant à elle par la seule capacité des haut-parleurs du dispositif de restitution. Elle offre en effet la possibilité d'avoir un meilleur contrôle de la directivité des sources sonores reconstituées. Similarly, when an extracted sound object is estimated during the spatial analysis step as being localized and positioned within the restitution space window of the rendering device, the restitution processing applied to this object sound during the restitution step, may comprise the formation of a beam directed towards the reference spatial position. In general, the creation of virtual sources allows better control and better accuracy of the sound reproduction of an audio signal than a "direct" sound reproduction (ie without spatial filtering) on the speakers of the playback device, limited by itself by the capacity of the speakers of the rendering device. It offers the possibility of having better control of the directivity of reconstructed sound sources.
Par ailleurs, la formation d'un faisceau (« beamforming ») pour créer une source virtuelle à l'intérieur ou à l'extérieur de la fenêtre de restitution, permet de contrôler aisément la largeur de la source virtuelle ainsi créée. Le « beamforming » est particulièrement bien adapté pour la restitution de signaux sur des réseaux de haut- parleurs denses (ex. dispositif de restitution équipé de 6 haut-parleurs ou plus), pour lesquels on dispose d'une meilleure précision pour créer les sources virtuelles du fait de l'existence d'un nombre plus important de degrés de liberté (lié à la présence d'un nombre de haut-parleurs plus important).  Furthermore, the formation of a beamforming beam to create a virtual source inside or outside the rendering window makes it possible to easily control the width of the virtual source thus created. The "beamforming" is particularly well suited for the reproduction of signals on dense speaker networks (eg playback device equipped with 6 or more speakers), for which we have a better precision to create the sources virtual because of the existence of a larger number of degrees of freedom (related to the presence of a larger number of speakers).
On peut en outre, lors de la restitution des objets sonores, interagir plus facilement via l'utilisation de techniques de « beamforming » avec les dimensions de la pièce ou de la salle dans laquelle est placé le dispositif de restitution. Ainsi par exemple, lorsque le faisceau est dirigé vers l'extérieur de la fenêtre de restitution, on peut, en jouant sur la largeur du faisceau, élargir la surface réfléchie par les murs de la pièce et créer pour l'auditeur une meilleure sensation d'enveloppement dans la scène sonore.  It is also possible, when rendering the sound objects, to interact more easily via the use of "beamforming" techniques with the dimensions of the room or room in which the rendering device is placed. For example, when the beam is directed towards the outside of the rendering window, it is possible, by playing on the width of the beam, to widen the surface reflected by the walls of the room and to create for the listener a better feeling of envelopment in the sound stage.
Dans un mode particulier de réalisation, les différentes étapes du procédé de restitution sont déterminées par des instructions de programmes d'ordinateur.  In a particular embodiment, the various steps of the rendering method are determined by computer program instructions.
En conséquence, l'invention vise aussi un programme sur un support d'informations, ce programme étant susceptible d'être mis en œuvre dans un système de restitution ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en œuvre des étapes d'un procédé de restitution tel que décrit ci-dessus.  Accordingly, the invention also relates to a program on an information medium, this program being capable of being implemented in a rendering system or more generally in a computer, this program comprising instructions adapted to the implementation steps of a restitution process as described above.
Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.  This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other form desirable shape.
L'invention vise aussi un support d'informations lisible par un ordinateur ou par un microprocesseur, et comportant des instructions d'un programme tel que mentionné ci-dessus.  The invention also relates to a computer-readable or microprocessor-readable information medium, and comprising instructions of a program as mentioned above.
Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur. The information carrier may be any entity or device capable of storing the program. For example, the medium may comprise a means of storage, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a floppy disk or a hard disk.
D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.  On the other hand, the information medium may be a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means. The program according to the invention can be downloaded in particular on an Internet type network.
Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.  Alternatively, the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
Selon un autre aspect, l'invention vise également une enceinte acoustique comprenant un système de restitution conforme à l'invention.  According to another aspect, the invention also relates to an acoustic enclosure comprising a restitution system according to the invention.
On peut également envisager, dans d'autres modes de réalisation, que le procédé, le système de restitution et l'enceinte acoustique selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées.  It can also be envisaged, in other embodiments, that the method, the restitution system and the acoustic enclosure according to the invention present in combination all or part of the aforementioned characteristics.
Brève description des dessins Brief description of the drawings
D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent des exemples de réalisation dépourvus de tout caractère limitatif.  Other features and advantages of the present invention will emerge from the description given below, with reference to the accompanying drawings which illustrate embodiments having no limiting character.
Sur les figures :  In the figures:
— la figure 1 représente un système de restitution conforme à l'invention, dans un mode particulier de réalisation ;  FIG. 1 represents a reproduction system according to the invention, in a particular embodiment;
— les figures 2, 3A et 3B illustrent des exemples de fenêtres spatiales de restitution sonore pour divers dispositifs de restitution et positions de référence ;  FIGS. 2, 3A and 3B illustrate examples of spatial windows of sound reproduction for various restitution devices and reference positions;
— la figure 4 représente schématiquement l'architecture matérielle du système de restitution de la figure 1 ; et  FIG. 4 diagrammatically represents the hardware architecture of the rendering system of FIG. 1; and
— la figure 5 représente les principales étapes d'un procédé de restitution selon l'invention, telles qu'elles sont mises en œuvre, dans un mode particulier de réalisation, par le système de restitution de la figure 1.  FIG. 5 represents the main steps of a rendering method according to the invention, as they are implemented, in a particular embodiment, by the rendering system of FIG. 1.
Description détaillée de l'invention Detailed description of the invention
La figure 1 représente, dans son environnement, un système de restitution 1 d'un signal audio S multicanal sur un dispositif 2 de restitution, conforme à l'invention, dans un mode particulier de réalisation. Le dispositif 2 de restitution est équipé d'une pluralité de haut-parleurs 2-1, 2-2, 2-N (N>1). Il s'agit, dans l'exemple représenté sur la figure 1, d'un dispositif de restitution compact. FIG. 1 represents, in its environment, a system 1 for rendering a multi-channel audio signal S on a reproduction device 2, in accordance with the invention, in a particular embodiment. The playback device 2 is equipped with a plurality of loudspeakers 2-1, 2-2, 2-N (N> 1). This is, in the example shown in Figure 1, a compact reproduction device.
Plus précisément, le dispositif 2 de restitution est ici une enceinte acoustique compacte, autrement dit une structure monobloc ou boîte fermée unique, intégrant l'ensemble des haut-parleurs 2-1, 2-2, 2-N.  Specifically, the device 2 of restitution is here a compact acoustic enclosure, in other words a monobloc structure or single closed box, incorporating all the speakers 2-1, 2-2, 2-N.
Le dispositif de restitution 2 est par exemple une barre de son montée horizontale, de longueur n'excédant pas un ou deux mètres, à l'intérieur de (ou sur) laquelle sont disposés, à des emplacements fixes et rapprochés les uns des autres (à moins de 50cm les uns des autres), les haut-parleurs 2-1, 2-2, 2-N.  The rendering device 2 is for example a horizontal sound bar, of length not exceeding one or two meters, inside (or on) which are arranged in fixed and close positions ( within 50cm of each other), the speakers 2-1, 2-2, 2-N.
Ces hypothèses ne sont toutefois pas limitatives, et l'invention s'applique également à d'autres types de dispositifs de restitution. Ainsi, notamment l'invention s'applique aussi à un dispositif de restitution compact modulaire constitué de plusieurs éléments séparés intégrant chacun un ou plusieurs haut-parleurs.  These hypotheses are however not limiting, and the invention also applies to other types of rendering devices. Thus, in particular the invention also applies to a modular compact reproduction device consisting of several separate elements each integrating one or more speakers.
II convient de noter que la notion de dispositif de restitution compact est connue de l'homme du métier : un dispositif de restitution compact désigne en effet un dispositif de petites dimensions, notamment par rapport aux dimensions de la pièce ou de la salle dans laquelle on envisage la restitution du signal audio à l'aide de ce dispositif, et sur ou dans lequel les haut-parleurs sont montés relativement proches les uns des autres. A titre illustratif, la plus grande dimension d'un dispositif de restitution compact n'excède pas en général 2 mètres, tandis que les haut-parleurs sont montés sur le dispositif de restitution avec un espacement inférieur à 50 cm.  It should be noted that the concept of compact restitution device is known to those skilled in the art: a compact restitution device designates in fact a device of small dimensions, especially with respect to the dimensions of the room or the room in which one consider the reproduction of the audio signal using this device, and on or in which the speakers are mounted relatively close to each other. By way of illustration, the largest dimension of a compact rendering device does not generally exceed 2 meters, while the loudspeakers are mounted on the rendering device with a spacing of less than 50 cm.
L'emplacement physique des haut-parleurs 2-1, 2-2, 2-N définit, de façon connue, une fenêtre spatiale W de restitution sonore par rapport à une position dite de référence notée Pref, placée devant le dispositif de restitution 2 (par rapport notamment à l'orientation de tout ou partie des haut-parleurs et à la diffusion des sons), et modélisant la position d'un auditeur dans l'espace pris comme référence pour optimiser la restitution du signal audio S.  The physical location of the loudspeakers 2-1, 2-2, 2-N defines, in a known manner, a spatial window W of sound reproduction with respect to a so-called referenced position Pref, placed in front of the reproduction device 2 (in particular with regard to the orientation of all or part of the loudspeakers and the diffusion of sounds), and modeling the position of a listener in the space taken as a reference to optimize the reproduction of the audio signal S.
Le choix à proprement parler de la position de référence Pref dépend de plusieurs facteurs connus de l'homme du métier, et ne sera pas décrit ici. Pour un dispositif de restitution compact, cette position de référence Pref est choisie généralement ponctuelle.  The actual choice of reference position Pref depends on several factors known to those skilled in the art, and will not be described here. For a compact rendering device, this reference position Pref is chosen generally point.
La figure 2 illustre la fenêtre spatiale W de restitution sonore définie par les haut-parleurs 2-1, 2-2, 2-N du dispositif de restitution 2 et la position de référence Pref. De façon connue, l'emplacement physique des haut-parleurs 2-1, 2-2, 2-N sur le dispositif de restitution 2 (et plus précisément des deux haut-parleurs 2-1 et 2-N situés aux extrémités du dispositif de restitution 2), associé à la position de référence Pref, définissent une ouverture angulaire Ω de restitution sonore. FIG. 2 illustrates the spatial window W of sound reproduction defined by the loudspeakers 2-1, 2-2, 2-N of the reproduction device 2 and the reference position Pref. In a known manner, the physical location of the loudspeakers 2-1, 2-2, 2-N on the rendering device 2 (and more precisely of the two loudspeakers 2-1 and 2-N located at the ends of the device 2), associated with the reference position Pref, define an angular aperture Ω of sound reproduction.
Le sous-espace délimité par cette ouverture angulaire Ω correspond à la fenêtre spatiale W de restitution sonore associée au dispositif de restitution 2 et à la position de référence Pref.  The subspace delimited by this angular aperture Ω corresponds to the spatial window W of sound reproduction associated with the reproduction device 2 and the reference position Pref.
Il convient de noter que :  It should be noted that:
— la fenêtre W dépend de la position de référence Pref. Dans l'exemple de la figure 2, la position Pref est alignée par rapport au centre du dispositif de restitution 2, de sorte que la fenêtre spatiale W est définie par l'excursion angulaire Ω/2 par rapport à l'axe Δ reliant le centre du dispositif 2 de restitution à la position de référence Pref ; et  The window W depends on the reference position Pref. In the example of FIG. 2, the position Pref is aligned with respect to the center of the reproduction device 2, so that the spatial window W is defined by the angular excursion Ω / 2 with respect to the axis Δ connecting the center of the playback device 2 at the reference position Pref; and
— seul l'emplacement physique des haut-parleurs du dispositif de restitution 2 (et notamment des haut-parleurs situés aux extrémités du dispositif de restitution 2) par rapport à la position Pref est prise en compte dans la notion de fenêtre spatiale de restitution sonore. On ne s'attache pas à la puissance des haut-parleurs du dispositif de restitution 2 ou à d'autres caractéristiques qui pourraient influencer leur capacité à restituer un signal audio.  - only the physical location of the speakers of the playback device 2 (and in particular the speakers located at the ends of the playback device 2) with respect to the position Pref is taken into account in the notion of spatial window of sound reproduction . We do not focus on the power of the speakers of the playback device 2 or other features that could influence their ability to render an audio signal.
Les figures 3A et 3B illustrent respectivement, à titre d'exemples : FIGS. 3A and 3B respectively illustrate, as examples:
— la fenêtre spatiale W de restitution sonore d'un dispositif de restitution 2' de type barre de son montée horizontale, muni de trois haut-parleurs 2-1', 2-2', 2-3' par rapport à une position spatiale Pref de référence étendue ; et The spatial window W for the sound reproduction of a horizontal sound-type rendering device 2 ', provided with three loudspeakers 2-1', 2-2 ', 2-3' with respect to a spatial position Extended reference pref; and
— la fenêtre spatiale W" de restitution sonore d'un dispositif de restitution 2" muni de 8 haut-parleurs 2-1", 2-2", 2-8" par rapport à une position spatiale Pref" de référence ponctuelle, les haut-parleurs 2-1" à 2-4" étant frontaux tandis que les haut-parleurs 2-5", 2-6" et 2-7", 2-8" sont disposés de chaque côté du dispositif de restitution 2".  The spatial window W "of sound reproduction of a reproduction device 2" provided with 8 loudspeakers 2-1 ", 2-2", 2-8 "with respect to a spatial position Pref" of point reference, the 2-1 "speakers at 2-4" front while 2-5 ", 2-6" and 2-7 ", 2-8" loudspeakers are located on each side of the 2 "playback device .
Comme mentionné précédemment, l'invention propose un traitement d'un signal audio multicanal en deux temps : dans un premier temps, le signal audio multicanal à restituer est analysé spatialement ; puis, les caractéristiques spatiales du signal résultant de cette analyse spatiale sont utilisées pour optimiser la restitution du signal sur le dispositif de restitution 2.  As mentioned above, the invention proposes a processing of a multichannel audio signal in two stages: firstly, the multichannel audio signal to be restored is analyzed spatially; then, the spatial characteristics of the signal resulting from this spatial analysis are used to optimize the restitution of the signal on the rendering device 2.
Ainsi, le système 1 de restitution selon l'invention comprend :  Thus, the system 1 of restitution according to the invention comprises:
— des moyens 3 d'analyse spatiale du signal audio S multicanal comprenant notamment des moyens d'extraction d'au moins un objet sonore du signal, et d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale W de restitution sonore du dispositif de restitution 2 (l'extraction des objets sonores et l'estimation de leurs caractéristiques sont en général réalisées conjointement) ; et Means 3 for spatial analysis of the multi-channel audio signal S including in particular means for extracting at least one sound object from the signal, and estimation, for each sound object extracted, a diffuse or localized character of this sound object, and a position of this sound object with respect to the spatial window W of sound reproduction of the playback device 2 ( the extraction of sound objects and the estimation of their characteristics are generally carried out jointly); and
— des moyens 4 de restitution du signal S audio sur la pluralité de haut-parleurs 2-1, 2-N du dispositif de restitution 2, aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution 2-1, 2-N, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale.  Means 4 for restoring the audio signal S to the plurality of loudspeakers 2-1, 2-N of the reproduction device 2, able to apply to each sound object extracted from the audio signal, a restitution processing on at least one speaker of the plurality of speakers of the playback device 2-1, 2-N, this rendering process depending on the diffuse or localized nature of the sound object and its position with respect to the spatial window of sound reproduction estimated during the spatial analysis step.
Plus précisément, dans l'exemple envisagé ici, les moyens 4 de restitution sont aptes à appliquer les traitements de restitution T-Al, T-A2, T-B et T-C, sur les objets sonores extraits du signal S, en fonction des caractéristiques déterminées par les moyens 3 d'analyse spatiale. Aucune limitation n'est toutefois attachée au nombre de traitements différents pouvant être appliqués par le système 1 de restitution.  More precisely, in the example envisaged here, the rendering means 4 are able to apply the T-A1, T-A2, TB and TC rendering processes on the sound objects extracted from the signal S, as a function of the characteristics determined by the means 3 of spatial analysis. However, no limitation is attached to the number of different treatments that can be applied by the rendering system 1.
Il convient de noter que les traitements T-Al, T-A2, T-B et T-C, bien que dépendant des caractéristiques des objets sonores extraits, peuvent être de même nature (c'est-à-dire basés sur les mêmes techniques, comme par exemple une technique WFS ou « beamforming »). Toutefois, ils sont adaptés aux caractéristiques spatiales des objets sonores auxquels ils sont appliqués et diffèrent en ce sens les uns des autres. Ainsi par exemple, ils ne diffusent pas les signaux sur les mêmes haut-parleurs, n'envisagent pas la création de sources virtuelles dans les mêmes sous-espaces (ou ayant des caractéristiques similaires en termes de position/direction et/ou d'amplitude), les faisceaux créés peuvent être dimensionnés différemment (ex. de largeurs différentes), etc.  It should be noted that the T-Al, T-A2, TB and TC treatments, although depending on the characteristics of the extracted sound objects, may be of the same kind (ie based on the same techniques, as per example a WFS technique or "beamforming"). However, they are adapted to the spatial characteristics of the sound objects to which they are applied and differ in that sense from each other. For example, they do not broadcast the signals on the same speakers, do not envisage the creation of virtual sources in the same subspaces (or having similar characteristics in terms of position / direction and / or amplitude ), the created beams can be dimensioned differently (eg of different widths), etc.
Ainsi, les moyens 4 de restitution comprennent ici :  Thus, the means 4 of restitution comprise here:
— des moyens de traitement 4A aptes à appliquer un ou plusieurs traitements de restitution sur les objets sonores du signal audio S déterminés comme étant localisés et dans la fenêtre W de restitution sonore. Dans l'exemple envisagé à la figure 1, les moyens de traitement 4A sont aptes à appliquer un traitement T-Al sur les objets sonores générés par des sources placées au centre de la fenêtre W, et un traitement T-A2 sur les objets sonores placés à l'intérieur de la fenêtre W en une position distincte du centre ; — des moyens de traitement 4B aptes à appliquer un traitement T-B sur les objets sonores du signal audio S déterminés comme diffus ; et Processing means 4A capable of applying one or more rendering processes on the sound objects of the audio signal S determined to be localized and in the sound reproduction window W. In the example envisaged in FIG. 1, the processing means 4A are able to apply a T-Al processing on the sound objects generated by sources placed in the center of the window W, and a T-A2 treatment on the sound objects. placed inside the window W at a position distinct from the center; Processing means 4B capable of applying a treatment TB on the sound objects of the audio signal S determined to be diffuse; and
— des moyens de traitement 4C aptes à appliquer un traitement T-C sur les objets sonores du signal audio S déterminés comme localisés et à l'extérieur de la fenêtre W de restitution sonore.  Processing means 4C capable of applying a T-C processing on the sound objects of the audio signal S determined as localized and outside the window W of sound reproduction.
Les traitements de restitution T-Al, T-A2, T-B et T-C seront décrits plus en détails ultérieurement et illustrés par des exemples.  The T-Al, T-A2, T-B and T-C rendering treatments will be described in more detail later and illustrated by examples.
Dans le mode de réalisation décrit ici, les moyens 3 d'analyse spatiale et les moyens 4 de restitution du signal audio sont des moyens logiciels.  In the embodiment described here, the spatial analysis means 3 and the audio signal reproduction means 4 are software means.
Plus précisément, dans le mode de réalisation décrit ici, le système de restitution 1 dispose de l'architecture matérielle d'un ordinateur, telle qu'illustrée à la figure 4.  More precisely, in the embodiment described here, the rendering system 1 has the hardware architecture of a computer, as illustrated in FIG. 4.
Il comporte notamment un processeur (ou micro-processeur) 5, une mémoire vive 6, une mémoire morte 7, une mémoire flash non volatile 8 ainsi que des moyens de communication 9 aptes à émettre et à recevoir des signaux.  It comprises in particular a processor (or microprocessor) 5, a random access memory 6, a read-only memory 7, a non-volatile flash memory 8 as well as communication means 9 able to transmit and receive signals.
Ainsi, les moyens de communication 9 comprennent d'une part, une interface (filaire ou sans fil) avec les haut-parleurs 2-1, 2-N du dispositif de restitution 2, ainsi que des moyens de réception d'un signal audio multicanal, tel que le signal S par exemple. Ces moyens sont connus de l'homme du métier et ne seront pas décrits davantage ici.  Thus, the communication means 9 comprise, on the one hand, an interface (wired or wireless) with the loudspeakers 2-1, 2-N of the reproduction device 2, as well as means for receiving an audio signal multichannel, such as the signal S for example. These means are known to those skilled in the art and will not be described further here.
La mémoire morte 7 du système 1 de restitution constitue un support d'enregistrement conforme à l'invention, lisible par le (micro-)processeur 5 et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de restitution décrites ultérieurement en référence à la figure 5.  The read-only memory 7 of the reproduction system 1 constitutes a recording medium in accordance with the invention, readable by the (micro) processor 5 and on which is recorded a computer program according to the invention, comprising instructions for performing the steps of a rendering process described later with reference to Figure 5.
Il convient de noter qu'aucune limitation n'est attachée à la nature à proprement parler du système 1 de restitution. Ainsi, notamment, le système 1 de restitution peut se présenter sous la forme d'un ordinateur ou en variante d'une puce électronique ou d'un circuit intégré, dans lequel le programme d'ordinateur comprenant les instructions pour l'exécution du procédé de restitution selon l'invention est incorporé.  It should be noted that no limitation is attached to the nature of the system 1 of restitution. Thus, in particular, the reproduction system 1 may be in the form of a computer or alternatively of an electronic chip or of an integrated circuit, in which the computer program comprising the instructions for the execution of the method of restitution according to the invention is incorporated.
Par ailleurs, le système 1 de restitution peut être une entité distincte du dispositif 2 de restitution, ou au contraire, être intégré à l'intérieur du dispositif 2 de restitution.  Furthermore, the system 1 of restitution may be an entity separate from the device 2 of restitution, or conversely, be integrated within the device 2 restitution.
Nous allons maintenant décrire, en référence à la figure 5, les différentes étapes du procédé de restitution selon l'invention, dans un mode particulier de réalisation dans lequel il est mis en œuvre par le système 1 de restitution pour la restitution du signal audio S multicanal sur les haut-parleurs 2-1, 2-N du dispositif 2 de restitution. We will now describe, with reference to FIG. 5, the various steps of the rendering method according to the invention, in a particular embodiment. in which it is implemented by the rendering system 1 for the reproduction of the multi-channel audio signal S on the loudspeakers 2-1, 2-N of the playback device 2.
On suppose que le signal audio S multicanal est fourni au système 1 de restitution par l'intermédiaire de ses moyens de communication 9. Le format et la structure d'un tel signal audio est connue de l'homme du métier et ne sera pas décrite ici.  It is assumed that the multi-channel audio signal S is supplied to the rendering system 1 via its communication means 9. The format and structure of such an audio signal is known to those skilled in the art and will not be described. right here.
Sur réception du signal S (étape E10), le système 1 de restitution initie une première phase∑I d'analyse spatiale du signal S réalisée à l'aide de ses moyens 3 d'analyse spatiale.  Upon reception of the signal S (step E10), the rendering system 1 initiates a first phase Σ of spatial analysis of the signal S carried out using its spatial analysis means 3.
Plus précisément, dans le mode de réalisation décrit ici, au cours de cette première phase∑I, le système 1 de restitution décompose le signal S multicanal en une pluralité K de sous-bandes fréquentielles désignées par BW1, BWK (étape E20), chaque sous-bande fréquentielle BWi, i=l, K intégrant les différents canaux composant le signal S. Autrement dit, le signal noté Si résultant de la décomposition du signal S et associé à la sous-bande fréquentielle BWi est lui-même un signal multicanal.  More specifically, in the embodiment described here, during this first phaseΣI, the rendering system 1 decomposes the multichannel signal S into a plurality K of frequency subbands designated by BW1, BWK (step E20), each frequency sub-band BWi, i = 1, K integrating the different channels composing the signal S. In other words, the signal denoted Si resulting from the decomposition of the signal S and associated with the frequency sub-band BWi is itself a multichannel signal .
Aucune limitation n'est attachée à la largeur de chaque sous-bande : on peut par exemple envisager une décomposition en octave, en tiers d'octave, ou encore en bandes auditives (i.e. adaptées à l'audition), en fonction d'un compromis complexité/précision notamment.  No limitation is attached to the width of each sub-band: one can for example consider a decomposition in octave, in third of octave, or in auditory bands (ie adapted to the hearing), according to a compromise complexity / accuracy in particular.
La décomposition en sous-bandes fréquentielles du signal S est effectuée par l'intermédiaire d'une transformation de Fourier appliquée au signal S, et ne présente pas de difficulté en soi pour l'homme du métier.  The frequency subband decomposition of the signal S is carried out via a Fourier transformation applied to the signal S, and does not present any difficulty per se for the skilled person.
Suite à cette décomposition, le système 1 de restitution analyse les signaux Si, i=l, K associés à chaque sous-bande fréquentielle BWi, i=l, K.  Following this decomposition, the reproduction system 1 analyzes the signals Si, i = 1, K associated with each frequency subband BWi, i = 1, K.
Durant cette analyse, pour chaque sous-bande fréquentielle BWi, il extrait les objets sonores compris dans le signal Si (c'est-à-dire de manière équivalente les sons ou les éléments sonores présents dans le signal Si), et estime, pour chaque objet sonore extrait (étape E30) :  During this analysis, for each frequency subband BWi, it extracts the sound objects included in the signal Si (that is to say in an equivalent way the sounds or the sound elements present in the signal Si), and estimates, for each sound object extracted (step E30):
— s'il s'agit d'un objet localisé (l'objet est créé par une source localisée et identifiable dans l'espace) ou diffus (i.e. l'objet ne vient pas d'une source localisable, mais semble provenir de tout autour l'auditeur) ; et  - whether it is a localized object (the object is created by a localized and identifiable source in space) or diffuse (ie the object does not come from a localizable source, but seems to come from all around the listener); and
— lorsqu'il s'agit d'un objet localisé, sa position (i.e. la position de la source à l'origine de cet objet) par rapport à la fenêtre spatiale W de restitution sonore.  When it is about a localized object, its position (i.e. the position of the source at the origin of this object) relative to the spatial window W of sound reproduction.
Dans le mode de réalisation décrit ici, les amplitudes des objets sonores extraits sont contenues directement dans les signaux Si, et correspondent respectivement aux niveaux des sous-bandes fréquentielles. L'extraction des objets sonores et l'estimation des caractéristiques précitées de chaque objet (localisé/diffus, position par rapport à la fenêtre spatiale W) sont réalisées conjointement par les moyens 3 d'analyse spatiale. In the embodiment described here, the amplitudes of the extracted sound objects are contained directly in the signals Si, and correspond respectively to the levels of the frequency subbands. The extraction of the sound objects and the estimation of the aforementioned characteristics of each object (localized / diffuse, position relative to the spatial window W) are performed jointly by the means 3 of spatial analysis.
Différentes techniques peuvent être utilisées à cette fin par les moyens 3 du système 1 de restitution.  Various techniques can be used for this purpose by the means 3 of the system 1 of restitution.
Ainsi, selon une première variante de réalisation de l'invention, les moyens 3 d'analyse spatiale du système 1 de restitution mettent en œuvre une analyse temporelle du signal multicanal Si.  Thus, according to a first embodiment of the invention, the spatial analysis means 3 of the rendering system 1 implement a temporal analysis of the multichannel signal Si.
Lors de cette analyse temporelle, le système 1 de restitution évalue, pour chaque paire de canaux distincts du signal multicanal Si, la corrélation normalisée entre ces canaux (i.e. entre les signaux représentatifs des canaux), définie par l'équation suivante :  During this time analysis, the rendering system 1 evaluates, for each pair of distinct channels of the multichannel signal Si, the normalized correlation between these channels (i.e. between the signals representative of the channels), defined by the following equation:
M-p-l  M-p-l
1  1
x(m + p)y*(m) pour p x (m + p) y * (m) for p
M  M
m=0  m = 0
Rx y -p)pour p < 0 où x et y désignent respectivement deux canaux distincts du signal multicanal Si, [.]* désigne l'opérateur de conjugaison complexe, et M est une constante définissant le nombre d'échantillons de signal sur lequel la corrélation est évaluée. R xy -p) for p <0 where x and y respectively denote two distinct channels of the multichannel signal Si, [.] * Denotes the complex conjugation operator, and M is a constant defining the number of signal samples on which the correlation is evaluated.
De façon alternative, lors de l'analyse temporelle, le système 1 de restitution peut se contenter d'évaluer une corrélation normalisée entre deux canaux distincts du signal multicanal Si pour une sélection seulement de paires de canaux prédéterminés du signal Si.  Alternatively, during the time analysis, the rendering system 1 can simply evaluate a normalized correlation between two distinct channels of the multichannel signal Si for only a selection of pairs of predetermined channels of the signal Si.
Par exemple, pour un signal multicanal de format 5.1, composé d'un centre à For example, for a multichannel 5.1 format signal, consisting of a center to
0°, de canaux gauche L et droite R situés à +/- 30° par rapport au centre, et de canaux arrière gauche Ls et arrière droit Rs situés à +/-1100 par rapport au centre, cette sélection peut comprendre uniquement quatre paires de canaux, à savoir, la paire constituée des canaux L et R, la paire constituée des canaux Ls et Rs, la paire constituée des canaux L et Ls et la paire constituée des canaux R et Rs. 0 °, left L and right R channels located +/- 30 ° from the center, and left rear Ls and Rs right rear channels located at +/- 110 0 from the center, this selection may include only four channel pairs, namely, the pair consisting of L and R channels, the pair consisting of Ls and Rs channels, the pair consisting of L and Ls channels and the pair consisting of R and Rs channels.
Chaque corrélation Rx y ainsi évaluée est ensuite comparée à un seuil prédéfini noté THR. Each correlation R xy thus evaluated is then compared with a predefined threshold denoted THR.
Si la corrélation est supérieure au seuil THR, le système 1 de restitution estime que le signal Si (et donc a fortiori le signal S) contient un objet sonore localisé.  If the correlation is greater than the THR threshold, the reproduction system 1 estimates that the signal Si (and thus a fortiori the signal S) contains a localized sound object.
Au contraire, si la corrélation est inférieure au seuil THR, le système 1 de restitution estime que le signal Si contient un objet sonore diffus.  On the other hand, if the correlation is below the THR threshold, the reproduction system 1 estimates that the signal Si contains a diffuse sound object.
La valeur du seuil THR est déterminée de façon empirique : elle est choisie préférentiellement entre 0.5 et 0.8. On peut donc ainsi extraire autant d'objets sonores du signal Si que de paires de canaux examinées ou de façon équivalente, que de corrélations évaluées entre les canaux du signal Si. The value of the THR threshold is determined empirically: it is preferably chosen between 0.5 and 0.8. Thus, it is possible to extract as many sound objects from the signal Si as from the pairs of channels examined or in an equivalent manner, than from the correlations evaluated between the channels of the signal Si.
Lorsqu'un objet sonore est estimé comme localisé par le système 1 de restitution, celui-ci estime la position de cet objet sonore par rapport à la fenêtre spatiale W de restitution sonore (par définition, un objet diffus n'a pas de position précise ou identifiable dans l'espace. Il n'est donc pas nécessaire d'estimer sa position par rapport à la fenêtre W spatiale de restitution).  When a sound object is estimated as located by the playback system 1, it estimates the position of this sound object with respect to the sound reproduction window W (by definition, a diffuse object has no precise position or identifiable in space, so it is not necessary to estimate its position with respect to the spatial window W of restitution).
A cet effet, le système 1 de restitution estime ici la fenêtre spatiale W de restitution à partir de la position de référence Pref et des emplacements physiques des haut-parleurs du dispositif 2 de restitution.  For this purpose, the reproduction system 1 here estimates the reproduction window W from the reference position Pref and the physical locations of the speakers of the playback device 2.
La fenêtre spatiale W peut être déterminée géométriquement par le système 1 de restitution, en termes d'excursion angulaire par rapport à l'axe Δ passant par le centre du dispositif 2 de restitution et la position de référence Pref, à partir de la connaissance de la position Pref et des emplacements physiques des haut-parleurs du dispositif 2 placés aux extrémités (i.e. 2-1 et 2-N). Dans l'exemple représenté à la figure 2, la fenêtre spatiale W est associée par le système 2 de restitution à une excursion angulaire de Ω/2 par rapport à l'axe Δ.  The spatial window W can be determined geometrically by the reproduction system 1, in terms of angular excursion with respect to the axis Δ passing through the center of the rendering device 2 and the reference position Pref, from the knowledge of the position Pref and physical locations of the speakers of the device 2 placed at the ends (ie 2-1 and 2-N). In the example shown in FIG. 2, the spatial window W is associated by the reproduction system 2 with an angular excursion of Ω / 2 with respect to the axis Δ.
La position Pref et les emplacements physiques des haut-parleurs du dispositif peuvent être préalablement configurés dans la mémoire flash 7 non volatile du système 1 de restitution, par exemple lors de la construction du système 1 de restitution si celui-ci est intégré dans le dispositif 2 ou lors d'une étape préalable de configuration du système 1 de restitution.  The position Pref and the physical locations of the loudspeakers of the device can be previously configured in the nonvolatile flash memory 7 of the reproduction system 1, for example during the construction of the reproduction system 1 if it is integrated in the device. 2 or during a preliminary step of setting up the reproduction system 1.
En variante, la fenêtre W peut être estimée par le système 1 de restitution à l'aide d'une technique similaire ou identique à celle décrite dans le document d'E. Corteel intitulé « Equalization in extended area using multichannel inversion and wave field synthesis », Journal of the Audio Engineering Society n°54(12), décembre 2006, lorsque la position Pref est une zone étendue.  As a variant, the window W may be estimated by the reproduction system 1 using a technique similar or identical to that described in the document E. Corteel entitled "Equalization in an extended area using multichannel inversion and wave field synthesis", Journal of the Audio Engineering Society No. 54 (12), December 2006, when the Pref position is an extended area.
D'autres techniques connues de l'homme du métier peuvent bien entendu être utilisées en variante des deux techniques précitées. Par ailleurs, dans une autre variante encore, la fenêtre spatiale W peut être prédéterminée, et stockée par exemple dans la mémoire flash 7 non volatile du système 1 de restitution.  Other techniques known to those skilled in the art can of course be used alternatively of the two aforementioned techniques. Moreover, in yet another variant, the spatial window W may be predetermined, and stored for example in the nonvolatile flash memory 7 of the reproduction system 1.
Le système 1 de restitution évalue également, pour chaque paire de canaux distincts du signal Si, la différence de niveaux (ou d'énergie), entre ces canaux, par exemple en décibels, selon l'équation suivante : où x et y désignent respectivement deux canaux distincts du signal multicanal Si, ||*|| désigne la norme du signal x, P et pO désignant des constantes encadrant le nombre d'échantillons de signal sur lequel l'énergie est évaluée. The reproduction system 1 also evaluates, for each pair of distinct channels of the signal Si, the difference in levels (or energy) between these channels, for example in decibels, according to the following equation: where x and y respectively denote two distinct channels of the multichannel signal Si, || * || designates the standard of the signal x, P and pO designating constants framing the number of signal samples on which the energy is evaluated.
Les différences de niveaux ainsi obtenues lui permettent de déterminer la direction de l'objet localisé par rapport à la position de référence.  The differences in levels thus obtained allow it to determine the direction of the object located with respect to the reference position.
Cette direction est évaluée ici en termes d'excursion angulaire par rapport à l'axe Δ.  This direction is evaluated here in terms of angular excursion with respect to the Δ axis.
A cette fin, le système 1 de restitution associe à une différence de niveaux prédéfinie entre deux canaux, par exemple -30dB (respectivement de 30dB), une direction de l'objet sonore de 90° (respectivement de -90°) par rapport à l'axe Δ. Les directions comprises entre -90° et 90° sont ensuite estimées à partir d'une fonction d'interpolation croissante (ex. une fonction linéaire croissante) définie entre les deux valeurs -90° et 90°.  For this purpose, the system 1 of reproduction associates with a predefined difference in levels between two channels, for example -30 dB (respectively 30 dB), a direction of the sound object of 90 ° (respectively -90 °) compared to the axis Δ. The directions between -90 ° and 90 ° are then estimated from an increasing interpolation function (eg an increasing linear function) defined between the two values -90 ° and 90 °.
Le système 1 de restitution compare ensuite la direction de l'objet sonore ainsi évaluée par rapport à l'excursion angulaire Ω/2 définissant la fenêtre spatiale W, afin de déterminer si l'objet se trouve à l'intérieur ou à l'extérieur de la fenêtre spatiale W : ainsi, un objet sonore pour lequel on a estimé une direction en valeur absolue supérieure à Ω/2 par rapport à l'axe Δ, est considéré par le système 1 comme à l'extérieur de la fenêtre spatiale W, tandis qu'un objet sonore pour lequel on a estimé une direction en valeur absolue inférieure ou égale à Ω/2 par rapport à l'axe Δ, est considéré par le système 1 comme étant positionné à l'intérieur de la fenêtre spatiale W.  The reproduction system 1 then compares the direction of the sound object thus evaluated with respect to the angular excursion Ω / 2 defining the spatial window W, in order to determine whether the object is inside or outside. of the spatial window W: thus, a sound object for which a direction in absolute value greater than Ω / 2 has been estimated with respect to the axis Δ, is considered by the system 1 as outside the spatial window W , while a sound object for which a direction in absolute value less than or equal to Ω / 2 with respect to the Δ axis has been estimated, is considered by the system 1 to be positioned inside the spatial window W .
Dans le mode de réalisation décrit ici, le système 1 de restitution utilise également la direction estimée de l'objet sonore pour déterminer si cet objet se trouve au centre de la fenêtre spatiale W (à un delta de précision près), afin de mieux distinguer lors de la restitution, les objets situés au centre de la fenêtre W des autres objets situés dans la fenêtre W (étape E40).  In the embodiment described here, the rendering system 1 also uses the estimated direction of the sound object to determine if this object is in the center of the spatial window W (to a delta of precision), in order to better distinguish during the restitution, the objects located in the center of the window W of the other objects located in the window W (step E40).
Ainsi, un objet est considéré par le système 1 de restitution comme étant positionné au centre de la fenêtre spatiale W si sa direction est comprise dans un intervalle [0 ; δ] autour de l'axe Δ, où δ désigne un angle prédéfini, par exemple 2.5°.  Thus, an object is considered by the rendering system 1 to be positioned in the center of the spatial window W if its direction is within an interval [0; δ] around the axis Δ, where δ denotes a predefined angle, for example 2.5 °.
Cette étape est toutefois optionnelle.  This step is however optional.
Des techniques alternatives peuvent être utilisées en variante pour extraire les objets sonores des signaux Si et estimer leurs caractéristiques (caractère diffus ou localisé, direction et position par rapport à la fenêtre W, et le cas échéant, amplitude) au cours des étapes E30 et E40. Ainsi selon une deuxième variante de réalisation, la phase d'analyse spatiale ∑I comprend la détermination d'un vecteur de Gerzon représentatif de chaque signal Si audio multicanal (un vecteur est estimé pour chaque sous-bande fréquentielle BWi). Alternative techniques can alternatively be used to extract the sound objects from the signals Si and estimate their characteristics (diffuse or localized character, direction and position with respect to the window W, and, if appropriate, amplitude) during the steps E30 and E40 . Thus, according to a second variant embodiment, the spatial analysis phase ΣI comprises the determination of a Gerzon vector representative of each multichannel audio signal Si (a vector is estimated for each frequency subband BWi).
De façon connue de l'homme du métier, le vecteur de Gerzon d'un signal audio multicanal est dérivé à partir des contributions respectives (direction et intensité ou énergie) des différents canaux du signal multicanal à la scène sonore perçue par l'auditeur situé à la position de référence Pref. La détermination d'un tel vecteur pour un signal audio multicanal (ou de façon équivalente d'un vecteur de Gerzon normalisé) est décrite dans le document US 2007/0269063 et ne sera pas décrite plus en détail ici. On suppose ici que dans la deuxième variante de réalisation, le système 1 de restitution procède de manière identique à celle décrite dans ce document.  In a manner known to those skilled in the art, the Gerzon vector of a multichannel audio signal is derived from the respective contributions (direction and intensity or energy) of the different channels of the multichannel signal to the sound scene perceived by the listener located at the reference position Pref. The determination of such a vector for a multichannel audio signal (or equivalently of a standardized Gerzon vector) is described in US 2007/0269063 and will not be described in more detail here. It is assumed here that in the second variant embodiment, the reproduction system 1 proceeds in the same manner as described in this document.
Le vecteur de Gerzon d'un signal audio multicanal reflète la localisation spatiale du signal audio multicanal telle qu'elle est perçue par l'auditeur depuis la position de référence. La détermination de ce vecteur de Gerzon permet de s'affranchir du calcul de corrélations entre les différents canaux du signal multicanal pour déterminer le caractère diffus ou localisé des objets sonores extraits du signal, et la position de ces objets par rapport à le fenêtre spatiale W.  The Gerzon vector of a multichannel audio signal reflects the spatial location of the multichannel audio signal as perceived by the listener from the reference position. The determination of this Gerzon vector makes it possible to dispense with the calculation of correlations between the different channels of the multichannel signal in order to determine the diffuse or localized nature of the sound objects extracted from the signal, and the position of these objects with respect to the spatial window W .
Comme décrit dans le document US 2007/0269063, le vecteur de Gerzon associé à un signal multicanal Si s'écrit sous la forme d'un vecteur directif, donnant la direction de l'objet sonore associée à la sous-bande fréquentielle BWi, et d'un vecteur non directif (i.e. diffus).  As described in document US 2007/0269063, the Gerzon vector associated with a multichannel signal Si is written in the form of a directional vector, giving the direction of the sound object associated with the frequency subband BWi, and a non-directive vector (ie diffuse).
Autrement dit, à partir des vecteurs de Gerzon associés aux signaux Si, le système 1 de restitution sonore est capable d'extraire les objets sonores localisés et diffus composant le signal S, et de déterminer la position des objets localisés par rapport à la fenêtre spatiale W (à partir de la direction des vecteurs de Gerzon, et notamment des vecteurs « directifs »), ainsi que leur amplitude (déterminée à partir de la norme des vecteurs de Gerzon et de la contribution des vecteurs directif/non directif).  In other words, from the Gerzon vectors associated with the signals Si, the sound reproduction system 1 is able to extract the localized and diffuse sound objects composing the signal S, and to determine the position of the localized objects with respect to the spatial window. W (from the direction of the Gerzon vectors, and in particular "directional" vectors), as well as their amplitude (determined from the norm of the Gerzon vectors and from the contribution of the directional / non-directive vectors).
Il procède à cet effet de manière similaire à celle décrite pour l'analyse temporelle des signaux Si, par comparaison de la norme des vecteurs par rapport à un ou plusieurs seuils prédéfinis, et de leur direction par rapport à l'excursion angulaire Ω/2.  It does this in a manner similar to that described for the time analysis of the signals Si, by comparison of the vector standard with respect to one or more predefined thresholds, and their direction relative to the angular excursion Ω / 2 .
Plus précisément, pour chaque vecteur de Gerzon normalisé, la norme du vecteur directif et la norme du vecteur non directif sont comparées à un seuil dit inférieur, noté THR_inf, et à un seuil dit supérieur, noté THR_sup :  More precisely, for each normalized Gerzon vector, the norm of the directional vector and the norm of the nondirectional vector are compared with a so-called lower threshold, denoted THR_inf, and with a threshold said higher, noted THR_sup:
— si les normes des vecteurs directif et non directif du vecteur de Gerzon normalisé sont toutes les deux comprises entre THRjnf et THR_sup, les deux objets sonores (i.e. l'objet localisé correspondant au vecteur directif et l'objet diffus correspondant au vecteur non directif) sont extraits et restitués ; - if the norms of the directional and non-directive vectors of the normalized Gerzon vector are both between THRjnf and THR_sup, the two sound objects (ie the localized object corresponding to the directional vector and the diffuse object corresponding to the non-directive vector) are extracted and restored;
— si, en revanche, l'un des vecteurs a une norme supérieure à THR_sup, seul l'objet correspondant à ce vecteur est extrait et restitué (i.e. on restitue uniquement un objet localisé ou un objet totalement diffus). - if, on the other hand, one of the vectors has a norm superior to THR_sup, only the object corresponding to this vector is extracted and restored (i.e. one restores only a localized object or a totally diffuse object).
Les seuils THRJnf et THR_sup sont choisis de manière empirique, en fonction du compromis complexité versus perception de l'auditeur souhaité. Par exemple, THRJnf = 0.3 et THR_sup = 0.7 pour des amplitudes normalisées.  Thresholds THRJnf and THR_sup are chosen empirically, according to the complexity compromise versus perception of the desired listener. For example, THRJnf = 0.3 and THR_sup = 0.7 for normalized amplitudes.
L'amplitude associée à chaque objet sonore ainsi extrait est alors dérivée de l'amplitude du vecteur directif ou non directif correspondant.  The amplitude associated with each sound object thus extracted is then derived from the amplitude of the corresponding directional or non-directive vector.
De façon alternative, les objets diffus et localisé donnés par le vecteur non directif et le vecteur directif dérivés du vecteur de Gerzon sont extraits tous les deux (pas de comparaison préalable par rapport à un seuil pour estimer si la contribution de l'un et/ou l'autre est suffisamment significative pour être restituée) afin d'être restitués sur les haut-parleurs du dispositif 2 de restitution.  Alternatively, the diffuse and localized objects given by the non-directive vector and the directional vector derived from the Gerzon vector are extracted both (no prior comparison with respect to a threshold to estimate if the contribution of the one and / or or the other is significant enough to be restored) to be restored on the speakers of the device 2 restitution.
La direction des vecteurs (i.e. directifs) correspondant aux objets sonores extraits est ensuite comparée par rapport à l'excursion angulaire Ω/2, afin de déterminer leur position par rapport à la fenêtre W.  The direction of the vectors (i.e. directional) corresponding to the extracted sound objects is then compared with respect to the angular excursion Ω / 2, in order to determine their position with respect to the window W.
Par ailleurs, de façon similaire à l'analyse temporelle, le système 1 de restitution peut identifier les objets situés au centre de la fenêtre spatiale W, de sorte à mieux les distinguer lors de la restitution par rapport aux autres objets localisés à l'intérieur de la fenêtre spatiale W.  Moreover, similarly to the temporal analysis, the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
Il convient de noter que les techniques d'analyse s'appuyant sur la détermination des vecteurs de Gerzon n'offrent pas la possibilité d'extraire plus d'un objet sonore localisé par sous-bande fréquentielle.  It should be noted that analysis techniques based on the determination of Gerzon vectors do not provide the ability to extract more than one localized sound object per frequency subband.
Pour remédier à cette limitation, dans une troisième variante de réalisation de l'invention, les moyens 3 d'analyse spatiale du système 1 de restitution mettent en œuvre, pour extraire les objets sonores des signaux Si et estimer leurs caractéristiques au cours des étapes E30 et E40, une technique s'appuyant sur une décomposition spatiale de chaque signal multicanal Si en harmoniques sphériques.  To remedy this limitation, in a third variant embodiment of the invention, the spatial analysis means 3 of the reproduction system 1 implement, to extract the sound objects from the signals Si and estimate their characteristics during the steps E30. and E40, a technique based on a spatial decomposition of each multichannel signal Si in spherical harmonics.
De façon connue, pour chaque bande de fréquence, le champ sonore ρ τ, ω) dérivé de chaque signal multicanal Si peut être décomposé selon le formalisme des harmoniques sphériques, de la façon suivante :  In known manner, for each frequency band, the sound field ρ τ, ω) derived from each multichannel signal Si can be decomposed according to the formalism of the spherical harmonics, as follows:
+∞ n où Ymn(<p, e) désigne l'harmonique sphérique de degré m et d'ordre n définie par + ∞ n where Y mn (<p, e) designates the spherical harmonic of degree m and of order n defined by
(n - m)! ( cos(mœ) si m≥ 0  (n - m)! (cos (me) if m≥ 0
(2η + 1)εη - -Pmn(sin 6») x . , ψ . (2η + 1) ε η - -P mn (sin 6 ") x. , ψ .
(n + m) lsin(-Tn<p) si m < 0  (n + m) lsin (-Tn <p) if m <0
ηη(ω) désigne le coefficient (à la fréquence ω) associé à l'harmonique sphérique Υτη φ, θ) dans la décomposition, et : ηη (ω) denotes the coefficient (at the frequency ω) associated with the spherical harmonic Υτη φ, θ) in the decomposition, and:
i2=-l, i 2 = -l,
k est une constante, k is a constant,
(1 si n = 0  (1 if n = 0
1-2 sinon  1-2 otherwise
)n(kr) est une fonction sphérique de Bessel de première espèce d'ordre n, ) n (kr) is a spherical Bessel function of first order n species,
Pmn(sin 0) est la fonction de Legendre associée définie par : P mn (sin 0) is the associated Legendre function defined by:
dPn (sin Θ) dP n (sin Θ)
Pmn(sin 0) = P mn (sin 0) =
d(sin θ)τ où Pn(sin 6) désigne le polynôme de Legendre de première espèce d'ordre n. d (sin θ) τ where P n (sin 6) denotes the Legendre polynomial of first kind of order n.
Dans le cas particulier d'une onde plane de magnitude Opw en provenance d'une direction (<ppw, evw), les coefficients Bmn(co) de la décomposition en harmoniques sphériques sont donnés par : et sont indépendants de la fréquence. In the particular case of a plane wave of magnitude O pw coming from a direction (<p pw , e vw ), the coefficients B mn (co) of the decomposition in spherical harmonics are given by: and are independent of the frequency.
Ainsi, dans cette troisième variante de réalisation, les moyens 3 d'analyse spatiale appliquent par exemple la technique d'extraction des objets sonores d'un signal multicanal à partir de sa décomposition spatiale en harmoniques sphériques décrite dans le document WO 2012/025580.  Thus, in this third variant embodiment, the spatial analysis means 3 apply, for example, the technique for extracting sound objects from a multichannel signal from its spatial decomposition into spherical harmonics described in document WO 2012/025580.
Cette technique s'appuie sur une représentation de la matrice β(ω, ί), construite à partir des coefficients fîmn(w) de la décomposition en harmoniques sphériques auxquels on a appliqué une transformée de Fourier STFT (pour « Short Time Fourier Transform ») à l'instant t, sous la forme d'une somme de deux termes, i.e., un premier terme modélisant les objets sonores localisés compris dans le signal Si, et un second terme modélisant les objets sonores diffus. This technique is based on a representation of the matrix β (ω, ί), constructed from the coefficients fî mn (w) of the decomposition in spherical harmonics to which we have applied a Fourier transform STFT (for "Short Time Fourier Transform ) At time t, in the form of a sum of two terms, ie, a first term modeling the localized sound objects included in the signal Si, and a second term modeling diffuse sound objects.
Les directions des objets sonores localisés sont obtenues à partir de matrice de corrélation 5Ββ (ω, t) = Ε{Β(ω, t)BH ( , t) }. Une fois les objets sonores localisés extraits, leur contribution est retranchée du signal Si de sorte à obtenir, le cas échéant, les objets sonores diffus contenus dans le signal. Comme dans la deuxième variante basée sur la représentation du signal selon un vecteur de Gerzon, des seuils inférieur et supérieur peuvent être introduits pour se limiter à l'extraction d'objets sonores d'amplitude suffisante. The directions of the localized sound objects are obtained from correlation matrix 5 Ββ (ω, t) = Ε {Β (ω, t) B H (, t)}. Once the localized sound objects are extracted, their contribution is deduced from the signal Si so as to obtain, if necessary, the diffuse sound objects contained in the signal. As in the second variant based on the representation of the signal according to a Gerzon vector, lower and upper thresholds can be introduced to limit the extraction of sound objects of sufficient amplitude.
L'amplitude associée aux objets sonores localisés est déterminée à partir de la somme des coefficients d'harmoniques sphériques associés à ces objets en fonction de la direction estimée. L'amplitude des objets diffus est estimée à partir des coefficients des harmoniques sphériques résiduels obtenus après avoir retranché la contribution des objets sonores localisés.  The amplitude associated with the localized sound objects is determined from the sum of the spherical harmonic coefficients associated with these objects as a function of the estimated direction. The amplitude of diffuse objects is estimated from residual spherical harmonic coefficients obtained after subtracting the contribution of localized sound objects.
Cette technique étant décrite dans le détail dans le document WO 2012/025580, elle ne sera pas détaillée davantage ici.  This technique is described in detail in WO 2012/025580, it will not be detailed further here.
Pour déterminer la position des objets sonores localisés par rapport à la fenêtre spatiale W, le système 1 de restitution procède de manière similaire à celle décrite dans la première variante pour l'analyse temporelle des signaux Si, par comparaison de leur direction par rapport à l'excursion angulaire Ω/2.  In order to determine the position of the localized sound objects with respect to the spatial window W, the reproduction system 1 proceeds in a manner similar to that described in the first variant for the temporal analysis of the signals Si, by comparison of their direction with respect to the angular excursion Ω / 2.
Par ailleurs, de façon similaire à l'analyse temporelle, le système 1 de restitution peut identifier les objets situés au centre de la fenêtre spatiale W, de sorte à mieux les distinguer lors de la restitution par rapport aux autres objets localisés à l'intérieur de la fenêtre spatiale W.  Moreover, similarly to the temporal analysis, the rendering system 1 can identify the objects located in the center of the spatial window W, so as to better distinguish them during the restitution compared to the other objects located inside. of the W. space window
Il convient de noter que dans le mode de réalisation décrit ici (quelle que soit la technique retenue pour l'analyse spatiale), le système 1 de restitution ne s'attache pas à proprement parler à la position des objets sonores extraits des signaux Si par rapport au dispositif 2 de restitution, i.e., il n'établit pas de distinction entre les objets sonores selon si ceux-ci se situent derrière ou devant le dispositif 2 de restitution par rapport à la position de référence Pref. De façon alternative, l'analyse spatiale effectuée par le système 1 de restitution peut se limiter aux objets sonores situés derrière le dispositif 2 de restitution, quelle que soit la technique d'analyse spatiale retenue parmi les techniques précitées notamment.  It should be noted that in the embodiment described here (whatever the technique adopted for the spatial analysis), the system 1 of restitution does not strictly concern the position of the sound objects extracted from the signals Si by relative to the rendering device 2, ie, it does not distinguish between the sound objects according to whether they are behind or in front of the playback device 2 with respect to the reference position Pref. Alternatively, the spatial analysis performed by the rendering system 1 may be limited to sound objects located behind the rendering device 2, regardless of the spatial analysis technique selected among the aforementioned techniques in particular.
Par ailleurs, dans le mode de réalisation décrit ici, une décomposition en sous-bandes fréquentielles du signal multicanal S est réalisée, puis le système 1 de restitution examine chaque sous-bande fréquentielle pour extraire les objets sonores du signal multicanal S. Ceci permet d'extraire plus précisément les objets sonores constituant le signal S (on peut identifier plus d'objets sonores notamment). Toutefois, cette hypothèse n'est pas limitative et on pourrait envisager dans le cadre de l'invention de travailler directement sur le signal multicanal S sans réaliser de décomposition en sous-bandes fréquentielles. Moreover, in the embodiment described here, a frequency subband decomposition of the multichannel signal S is carried out, then the reproduction system 1 examines each frequency subband to extract the sound objects from the multichannel signal S. This allows extract more precisely the sound objects constituting the signal S (we can identify more particular sound objects). However, this hypothesis is not limiting and one could envisage in the context of the invention to work directly on the multichannel signal S without performing decomposition into frequency subbands.
A l'issue de l'analyse spatiale∑I, le système 1 de restitution a extrait et identifié plusieurs catégories d'objets sonores dans le signal multicanal S, à savoir :  At the end of the spatial analysis I, the reproduction system 1 extracted and identified several categories of sound objects in the multichannel signal S, namely:
— une première catégorie d'objets sonores, notée OBJLocIntW, regroupant les objets sonores localisés et situés à l'intérieur de la fenêtre spatiale W ; A first category of sound objects, denoted OBJLocIntW, grouping the sound objects located and located inside the spatial window W;
— une deuxième catégorie d'objets sonores, notée OBJLocExtW, regroupant les objets sonores localisés et situés à l'extérieur de la fenêtre spatiale W ; et  A second category of sound objects, denoted OBJLocExtW, grouping the sound objects located and located outside the spatial window W; and
— une troisième catégorie d'objets sonores, notée OBJDiff, regroupant les objets sonores diffus.  - a third category of sound objects, denoted OBJDiff, grouping the diffuse sound objects.
Le système 1 de restitution dispose par ailleurs, pour la première et la deuxième catégorie d'objets sonores, de la position de ces objets dans la fenêtre spatiale W.  The system 1 of restitution also has, for the first and second categories of sound objects, the position of these objects in the spatial window W.
Dans le mode de réalisation décrit ici, le système 1 de restitution a également identifié, au sein de la catégorie d'objets sonores OBJLocIntW, les objets sonores en provenance de sources positionnées au centre de la fenêtre spatiale W.  In the embodiment described here, the reproduction system 1 has also identified, within the category of sound objects OBJLocIntW, the sound objects coming from sources positioned in the center of the spatial window W.
L'ensemble de ces informations est par exemple stocké dans la mémoire vive 6 ou dans la mémoire flash 7 non volatile du système 1 de restitution afin de pouvoir être utilisé en temps réel.  All of this information is for example stored in the RAM 6 or in the nonvolatile flash memory 7 of the system 1 for rendering in order to be used in real time.
Comme mentionné précédemment, conformément à l'invention, selon une seconde phase∑II dite de restitution du signal audio multicanal S, le système 1 va restituer les objets sonores extraits du signal S en fonction de leur catégorie, et des caractéristiques de ces objets déterminées au cours des étapes E30 et E40.  As mentioned previously, in accordance with the invention, according to a second phase II referred to as restitution of the multichannel audio signal S, the system 1 will restore the sound objects extracted from the signal S according to their category, and the characteristics of these determined objects. during steps E30 and E40.
Plus précisément, dans le mode de réalisation décrit ici, les moyens 4 de restitution du système 1 de restitution appliquent quatre traitements distincts T-Al, TA-2, T-B et T-C sélectionnés en fonction des caractéristiques des objets sonores extraits par les moyens 3 d'analyse spatiale du système 1 de restitution au cours de la phase∑I (étape E50).  More precisely, in the embodiment described here, the means 4 for restitution of the rendering system 1 apply four distinct processes T-A1, TA-2, TB and TC selected according to the characteristics of the sound objects extracted by the means 3 d. spatial analysis of the rendering system 1 during the phase I (step E50).
Ainsi, dans le mode de réalisation décrit ici, les objets sonores identifiés comme appartenant à la première catégorie OBJLocIntW, sont restitués par les moyens 4 de restitution (et plus précisément par les moyens 4A), en appliquant les traitements T- Al ou T-A2 selon s'ils sont situés respectivement au centre ou non de la fenêtre spatiale W (étape E51).  Thus, in the embodiment described here, the sound objects identified as belonging to the first category OBJLocIntW, are restored by the means 4 of restitution (and more precisely by the means 4A), by applying the treatments T- Al or T- A2 according to whether they are respectively located in the center or not of the spatial window W (step E51).
Conformément à l'invention, les traitements T-Al et T-A2 restituent les objets sonores de la catégorie OBJLocIntW à l'intérieur de la fenêtre spatiale W. Différents types de traitements T-Al et T-A2 peuvent être envisagés pour une telle restitution. Ces traitements peuvent mettre en œuvre ou non un filtrage des objets sonores avant leur diffusion sur tout ou partie des haut-parleurs du dispositif 2 de restitution. According to the invention, the processing T-Al and T-A2 restore the sound objects of the category OBJLocIntW inside the spatial window W. Different types of T-Al and T-A2 treatments can be envisaged for such a reproduction. These treatments may or may not implement filtering of the sound objects before they are broadcast on all or part of the speakers of the playback device 2.
Ainsi, par exemple, lorsque le dispositif 2 de restitution comprend un haut- parleur central et des haut-parleurs latéraux :  Thus, for example, when the playback device 2 comprises a central loudspeaker and side loudspeakers:
— le traitement T-Al peut être apte à diffuser les objets sonores extraits du signal S identifiés au centre de la fenêtre spatiale W, directement sur le haut-parleur central du dispositif 2 ; et  The processing T-Al may be able to broadcast the sound objects extracted from the signal S identified in the center of the spatial window W, directly on the central loudspeaker of the device 2; and
— le traitement de restitution T-A2 peut être apte à diffuser les objets sonores extraits du signal S et positionnés à une position distincte du centre de la fenêtre spatiale W sur l'ensemble des haut-parleurs du dispositif 2 de restitution en utilisant un effet panoramique d'intensité, choisi de sorte à préserver la position des objets sonores perçue par l'auditeur à la position de référence. The reproduction processing T-A2 may be able to broadcast the sound objects extracted from the signal S and positioned at a position distinct from the center of the spatial window W on the set of speakers of the rendering device 2 by using an effect intensity panning, chosen so as to preserve the position of the sound objects perceived by the listener at the reference position.
En variante, les traitements de restitution T-Al et/ou T-A2 appliqué sur les objets sonores localisés à l'intérieur de la fenêtre spatiale W peuvent être des traitements plus complexes de filtrage spatial comprenant par exemple la création de sources virtuelles 10 à partir des haut-parleurs du dispositif 2 de restitution à l'intérieur de la fenêtre spatiale W, les sources virtuelles étant positionnées en accord avec les caractéristiques des objets sonores estimées aux étapes E30 et/ou E40 (c'est-à-dire dans les directions et le cas échéant, selon les amplitudes estimées aux étapes E30 et E40).  As a variant, the T-Al and / or T-A2 rendering processes applied to the sound objects located inside the spatial window W may be more complex spatial filtering processes including for example the creation of virtual sources 10 to from the speakers of the rendering device 2 inside the spatial window W, the virtual sources being positioned in accordance with the characteristics of the sound objects estimated at steps E30 and / or E40 (that is, in directions and where appropriate, according to the amplitudes estimated in steps E30 and E40).
La création de sources virtuelles à partir de haut-parleurs d'un dispositif de restitution est connue de l'homme du métier et ne sera pas décrite ici. Un traitement de restitution comprenant la création de sources virtuelles aux positions identifiées lors des étapes E30 et/ou E40 est par exemple un traitement de synthèse de champ acoustique aussi appelé traitement WFS connu de l'homme du métier ou une technique de formation de faisceau (ou « beamforming » en anglais), le faisceau étant dirigé par exemple vers la position de référence.  The creation of virtual sources from loudspeakers of a rendering device is known to those skilled in the art and will not be described here. A rendering process including the creation of virtual sources at the positions identified during steps E30 and / or E40 is for example an acoustic field synthesis processing also known as WFS treatment known to those skilled in the art or a beam forming technique ( or "beamforming" in English), the beam being directed for example towards the reference position.
Les objets sonores appartenant respectivement aux catégories OBJLocExtW et OBJDiff sont restitués à l'extérieur de la fenêtre spatiale W par les moyens 4 de restitution (respectivement par les moyens 4-B et 4-C), en appliquant les traitements T-B et T-C (étapes E52 et E53).  The sound objects belonging respectively to the categories OBJLocExtW and OBJDiff are restored outside the spatial window W by the means 4 of restitution (respectively by the means 4-B and 4-C), by applying the treatments TB and TC (steps E52 and E53).
Plus précisément, conformément à l'invention, les traitements de restitution T-B et T-C comprennent la création d'au moins une source virtuelle 11, 12 à l'extérieur de la fenêtre spatiale W de restitution du dispositif 2 de restitution. Pour les objets sonores de la catégorie OBJLocExtW (étape E52), ces sources virtuelles 11 sont reconstituées à partir des positions des objets sonores identifiées à l'étape E30, via par exemple une technique transaurale (particulièrement bien adaptée pour une configuration du dispositif 2 de restitution avec un haut-parleur central et deux haut-parleurs latéraux), une technique WFS ou dérivée, telle que décrite par exemple dans la demande de brevet européen EP 1 116 572.0 non publiée, ou encore la formation d'un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution, et dont la largeur peut être configurée de sorte à optimiser le rendu sonore. More precisely, in accordance with the invention, the rendering processes TB and TC comprise the creation of at least one virtual source 11, 12 outside the spatial window W for restitution of the rendering device 2. For the sound objects of the OBJLocExtW category (step E52), these virtual sources 11 are reconstituted from the positions of the sound objects identified in step E30, for example via a transaural technique (particularly well suited for a configuration of the device 2 of FIG. playback with a center speaker and two side speakers), a WFS or derivative technique, as described for example in the European patent application EP 1 116 572.0 unpublished, or the formation of a beam directed to the outside of the spatial window of restitution, and whose width can be configured so as to optimize the sound reproduction.
Pour les objets sonores de la catégorie OBJDiff (étape E53), le traitement T-C permet la création de sources virtuelles 12 diffuses. On utilisera préférentiellement à cette fin des techniques T-C de « beamforming » pour créer ces sources virtuelles, pour lesquelles on contrôle aisément l'orientation et la largeur des faisceaux de sorte à créer des réflexions sur les murs de la pièce dans laquelle est positionnée le dispositif 2 de restitution et ainsi créer davantage de sensation d'enveloppement pour l'auditeur placé à la position de référence.  For the sound objects of the OBJDiff category (step E53), the T-C treatment makes it possible to create diffuse virtual sources 12. For this purpose, beamforming CT techniques will preferably be used to create these virtual sources, for which the orientation and the width of the beams are easily controlled so as to create reflections on the walls of the room in which the device is positioned. 2 of restitution and thus create more enveloping feeling for the listener placed at the reference position.
Afin de mieux comprendre l'invention, nous allons maintenant décrire trois exemples de mise en œuvre, illustrant notamment différentes techniques d'analyse spatiale et différents traitements de restitution pouvant être envisagées au cours des différentes étapes de la figure 5.  In order to better understand the invention, we will now describe three implementation examples, illustrating in particular different spatial analysis techniques and different rendering processes that can be envisaged during the different steps of FIG.
Exemple 1 :  Example 1
Dans ce premier exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique de type barre de son horizontale équipée de trois haut-parleurs 2-1, 2-2 et 2-3 (un haut-parleur central et deux haut-parleurs latéraux).  In this first example, it is assumed that the playback device 2 is a horizontal soundbar-type loudspeaker equipped with three loudspeakers 2-1, 2-2 and 2-3 (a central loudspeaker and two loudspeakers). side speakers).
La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.  The position Pref is chosen punctually, centered with respect to the device 2 of restitution.
On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio stéréo, autrement dit, composé de deux canaux distincts.  It is further assumed that the multichannel signal S supplied to the playback system 1 during step E10 is a stereo audio signal, that is, composed of two separate channels.
Dans ce premier exemple, les étapes suivantes sont mises en œuvre par le système 1 de restitution à partir du signal S :  In this first example, the following steps are implemented by the reproduction system 1 from the signal S:
(1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de deux canaux.  (1) Decomposition of signal S into frequency subbands at step E20 using a Fourier transform applied to signal S, each frequency subband comprising a signal Si composed of two channels.
(2) Analyse spatiale∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant une analyse temporelle du signal Si au cours de l'étape E30 permettant d'extraire un objet sonore du signal Si, cette analyse temporelle incluant notamment : (2) Spatial analysisΣI of the signal S, or equivalently of each signal Si on each frequency subband including a time analysis of the signal Si at during step E30 for extracting a sound object from the signal Si, this temporal analysis including in particular:
o l'évaluation de la corrélation normalisée entre les deux canaux du signal Si et la comparaison de cette corrélation par rapport au seuil prédéfini TH afin d'estimer le caractère local ou diffus de l'objet sonore inclus dans le signal Si o l'évaluation de la différence de niveaux entre les deux canaux du signal Si, et la transformation de cette différence de niveaux en excursion angulaire par rapport à l'axe Δ reliant la position Pref au centre du dispositif 2 de restitution. On considère dans ce premier exemple qu'une différence de niveaux de -30dB (respectivement 30dB) correspond à une excursion angulaire de 90°, (respectivement -90°C), les valeurs intermédiaires étant estimées à l'aide d'une fonction linéaire entre ces deux bornes ;  o the evaluation of the normalized correlation between the two channels of the signal Si and the comparison of this correlation with respect to the predefined threshold TH in order to estimate the local or diffuse character of the sound object included in the signal Si o the evaluation the difference in levels between the two channels of the signal Si, and the transformation of this difference in levels angular excursion relative to the axis Δ connecting the position Pref in the center of the device 2 restitution. It is considered in this first example that a difference in levels of -30 dB (respectively 30 dB) corresponds to an angular excursion of 90 ° (respectively -90 ° C.), the intermediate values being estimated using a linear function. between these two terminals;
o l'estimation de la fenêtre spatiale W de restitution sonore (et de l'excursion angulaire associée à cette fenêtre), définie par la position de référence Pref et les haut-parleurs latéraux du dispositif 2 de restitution. A titre illustratif, si l'on considère une position de référence Pref placée à une distance de 2 à 4m du dispositif 2 de restitution et un dispositif de restitution de largeur lm, les haut-parleurs latéraux de ce dispositif étant placés aux extrémités du dispositif, l'excursion angulaire Ω/2 correspondant à la fenêtre spatiale W est comprise entre 7 et 15° ; et  estimating the sound reproduction window W (and the angular excursion associated with this window), defined by the reference position Pref and the lateral speakers of the playback device 2. By way of illustration, if we consider a reference position Pref placed at a distance of 2 to 4m from the playback device 2 and a playback device of width 1m, the side loudspeakers of this device being placed at the ends of the device , the angular excursion Ω / 2 corresponding to the spatial window W is between 7 and 15 °; and
o à partir de l'excursion angulaire obtenue pour l'objet sonore extrait du signal Si et l'excursion angulaire Ω/2 correspondant à la fenêtre spatiale W, la détermination de la direction de l'objet sonore et de sa position par rapport à la fenêtre W. Ainsi, si l'objet sonore extrait de Si présente une excursion angulaire inférieure ou égale à Ω/2, il est estimé comme étant positionné dans la fenêtre spatiale W. Inversement, si l'objet sonore extrait de Si a présente une excursion angulaire supérieure à Ω/2, il est estimé comme étant positionné à l'extérieur de la fenêtre spatiale W.  from the angular excursion obtained for the sound object extracted from the signal Si and the angular excursion Ω / 2 corresponding to the spatial window W, the determination of the direction of the sound object and its position with respect to the window W. Thus, if the sound object extracted from Si has an angular excursion smaller than or equal to Ω / 2, it is estimated as being positioned in the spatial window W. Conversely, if the sound object extracted from Si has present an angular excursion greater than Ω / 2, it is estimated to be positioned outside the space window W.
L'amplitude de chaque objet sonore extrait sur chaque sous-bande fréquentielle est donnée par le niveau du signal Si sur cette sous-bande.  The amplitude of each sound object extracted on each frequency subband is given by the level of the signal Si on this subband.
L'analyse spatiale du signal S comprend également, dans le premier exemple envisagé ici, l'identification E40 des objets sonores localisés au centre de la fenêtre spatiale W en comparant l'excursion angulaire associée à chaque objet sonore extrait des signaux Si à l'intervalle [0 ; 2.5°], un objet sonore étant considéré comme étant au centre de la fenêtre si son excursion angulaire est comprise entre 0 et 2.5° (en valeur absolue). The spatial analysis of the signal S also comprises, in the first example considered here, the identification E40 of the sound objects located at the center of the spatial window W by comparing the angular excursion associated with each sound object extracted from the signals Si at the interval [0; 2.5 °], a sound object being considered as being in the center of the window if its angular excursion is between 0 and 2.5 ° (in absolute value).
(3) Restitution ΣΙΙ/Ε50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale∑I : (3) ΣΙΙ / Ε50 restitution of the signal S, and more precisely sound objects extracted during the spatial analysisΣI:
o au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide des traitements de restitution T-Al et T-A2 suivants :  during step E51, restitution inside the spatial window W of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of the restitution treatments T-Al and T-A2 following:
■ traitement T-Al appliqué aux objets sonores estimés au centre de la fenêtre spatiale W : diffusion des objets sonores directement (i.e. sans filtrage spatial) sur le haut-parleur central du dispositif 2 de restitution, autrement dit, les objets sonores ainsi restitués sont rattachés au centre du dispositif 2 de restitution ;  ■ T-Al treatment applied to the estimated sound objects in the center of the spatial window W: diffusion of the sound objects directly (ie without spatial filtering) on the central speaker of the rendering device 2, in other words, the sound objects thus restored are attached to the center of the device 2 of restitution;
■ traitement T-A2 appliqué aux objets sonores non centrés localisés dans la fenêtre spatiale W : diffusion des objets sonores sur les trois haut-parleurs du dispositif 2 de restitution en utilisant un effet panoramique d'intensité ;  ■ T-A2 processing applied to the non-centered sound objects located in the spatial window W: diffusion of the sound objects on the three speakers of the rendering device 2 by using a panoramic effect of intensity;
o au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'une technique de restitution T-B transaurale. Plus précisément, on crée, à l'aide des deux haut- parleurs latéraux du dispositif 2 de restitution, des sources virtuelles transaurales placées en dehors de la fenêtre W, par exemple à 30° et 60° (respectivement à -30° et -60°) par rapport à l'axe Δ. Les objets sonores de la catégorie OBJLocExtW sont alors diffusés à travers ces sources virtuelles, dans les directions déterminées à l'étape E30 ;  during step E52, restitution outside the spatial window W, of localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), using a technique TB transaural restitution. More precisely, using the two lateral loudspeakers of the rendering device 2, transaural virtual sources placed outside the window W are created, for example at 30 ° and 60 ° (respectively at -30 ° and - 60 °) with respect to the axis Δ. The sound objects of the OBJLocExtW category are then broadcast through these virtual sources, in the directions determined in step E30;
o au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'une technique de restitution T-C transaurale. Plus précisément, on crée à l'aide des deux haut- parleurs latéraux du dispositif 2 de restitution, des sources virtuelles transaurales placées en dehors de la fenêtre W, à un angle supérieur à 60° (respectivement inférieur à -60°) par rapport à l'axe Δ. Les objets sonores de la catégorie OBJDiff sont alors diffusés à travers ces sources virtuelles.  during step E53, restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a transaural T-C rendering technique. More precisely, using the two lateral loudspeakers of the rendering device 2, transaural virtual sources placed outside the window W are created at an angle greater than 60 ° (respectively less than -60 °) relative to to the axis Δ. The sound objects of the category OBJDiff are then diffused through these virtual sources.
Les techniques de restitution transaurales sont connues de l'homme du métier, et décrites par exemple dans le document de J. Bauck et D.H. Cooper, intitulé Transaural restitution techniques are known to those skilled in the art, and described, for example, in the document by J. Bauck and D. H. Cooper, entitled
« Generalized Transaural Stereo and Applications », Journal Audio Engineering Society, vol. 44 n° 9, 1996. De telles techniques consistent à appliquer un filtre sur chacun des haut-parleurs latéraux du dispositif 2 de restitution, chaque filtre comprenant un filtre de spatialisation et un filtre d'annulation de la propagation croisée entre les deux haut-parleurs. "Generalized Transaural Stereo and Applications", Journal Audio Engineering Society, vol. No. 9, 1996. Such techniques consist in applying a filter to each of the lateral speakers of the rendering device 2, each filter comprising a spatialization filter and a cross-propagation cancellation filter between the two loudspeakers. speakers.
Exemple 2 : Example 2
Dans ce deuxième exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique compacte de type barre de son horizontale équipée de 15 haut- parleurs 2-1, 2-2, 2-15 d'une longueur d'environ lm.  In this second example, it is assumed that the rendering device 2 is a compact acoustic loudspeaker of the horizontal soundbar type equipped with 15 loudspeakers 2-1, 2-2, 2-15 of a length of approximately 1 m.
La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.  The position Pref is chosen punctually, centered with respect to the device 2 of restitution.
On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio 5.1. Un tel signal contient déjà intrinsèquement une information de spatialisation. Plus spécifiquement, la norme UU-R BS.775-1 définissant le format des signaux 5.1 sous-entend un centre situé à 0°, des canaux gauche L et droite R situés à +/- 30° par rapport au centre, et des canaux arrière gauche Ls et arrière droit Rs situés à +/-1100 par rapport au centre. It is furthermore assumed that the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal 5.1. Such a signal already contains intrinsically spatialization information. More specifically, the standard UU-R BS.775-1 defining the format of the signals 5.1 implies a center located at 0 °, L and R right channels located at +/- 30 ° with respect to the center, and left rear channels Ls and right rear Rs located at +/- 110 0 from the center.
Dans ce deuxième exemple, les étapes suivantes sont mises en œuvre par le système 1 de restitution à partir du signal S :  In this second example, the following steps are implemented by the reproduction system 1 from the signal S:
(1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de cinq canaux.  (1) Decomposition of signal S into frequency subbands at step E20 using a Fourier transform applied to signal S, each frequency subband comprising a signal Si composed of five channels.
(2) Analyse spatiale∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant, au cours de l'étape E30, la détermination d'un vecteur de Gerzon associé à chaque signal Si, de façon similaire à celle décrite dans le document US2007269063.  (2) Spatial analysisΣI of the signal S, or equivalently of each signal Si on each frequency subband comprising, during the step E30, the determination of a Gerzon vector associated with each signal Si, of similar to that described in US2007269063.
Les objets sonores situés au centre de la fenêtre spatiale W sont présents dans le canal central par définition du format 5.1. Ils sont donc « extraits » aisément à partir de ce canal central déjà isolé.  The sound objects located in the center of the spatial window W are present in the central channel by definition of the format 5.1. They are therefore "extracted" easily from this already isolated central channel.
Le système 1 de restitution considère ensuite le signal Si' composé des quatre canaux L, R, Ls et Rs du signal Si, et les quatre vecteurs « canaux » reliant la position de référence Pref aux quatre canaux L, R, Ls et Rs. Il affecte à chaque vecteur canal un poids correspondant à l'énergie du canal associé. Le vecteur de Gerzon associé au signal Si' (ou de façon équivalente au signal Si) est défini comme le barycentre des points L, R, Ls et Rs ainsi pondérés. Le vecteur de Gerzon ainsi défini s'écrit sous la forme d'un vecteur directif (égal à la somme des deux vecteurs canaux adjacents au vecteur de Gerzon : ainsi par exemple, si la direction du vecteur de Gerzon est de 15° par rapport à l'axe Δ, le vecteur directif est la somme des vecteurs canaux associés respectivement aux canaux L et R), et d'un vecteur non directif. The reproduction system 1 then considers the signal Si 'composed of the four channels L, R, Ls and Rs of the signal Si, and the four "channel" vectors connecting the reference position Pref to the four channels L, R, Ls and Rs. It assigns each channel vector a weight corresponding to the energy of the associated channel. The Gerzon vector associated with the signal Si '(or equivalent to the signal Si) is defined as the centroid of points L, R, Ls and Rs thus weighted. The Gerzon vector thus defined is written in the form of a directional vector (equal to the sum of the two channel vectors adjacent to the Gerzon vector: for example, if the direction of the Gerzon vector is 15 ° relative to the Δ axis, the directional vector is the sum of the channel vectors associated respectively with the channels L and R), and a non-directional vector.
Le vecteur directif caractérise un objet sonore localisé du signal Si et sa position (donnée par la direction du vecteur) par rapport à la fenêtre W. Le système 1 de restitution compare cette position par rapport à l'excursion angulaire Ω/2 de façon similaire à l'exemple 1, pour estimer si l'objet sonore ainsi identifié appartient à la catégorie OBJLocIntW ou à la catégorie OBJLocExtW.  The directional vector characterizes a localized sound object of the signal Si and its position (given by the direction of the vector) with respect to the window W. The reproduction system 1 compares this position with respect to the angular excursion Ω / 2 in a similar way in example 1, to estimate whether the sound object thus identified belongs to the OBJLocIntW category or to the OBJLocExtW category.
Le vecteur non directif caractérise un objet sonore diffus du signal Si, classé par le système 1 de restitution dans la catégorie OBJDiff.  The non-directional vector characterizes a diffuse sound object of the signal Si, classified by the reproduction system 1 in the OBJDiff category.
Le système 1 de restitution associe à chaque objet sonore extrait une amplitude évaluée à partir de l'amplitude du vecteur correspondant (directif ou non directif et composant le vecteur de Gerzon).  The reproduction system 1 associates with each extracted sound object an amplitude evaluated from the amplitude of the corresponding vector (directional or non-directive and composing the Gerzon vector).
(3) Restitution ΣΙΙ/Ε50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale∑I, selon les directions et amplitudes estimées à l'étape E30 :  (3) Restitution ΣΙΙ / Ε50 of the signal S, and more precisely sound objects extracted during the spatial analysisΣI, according to the directions and amplitudes estimated at the step E30:
o au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide des traitements de restitution T-Al et T-A2 suivants :  during step E51, restitution inside the spatial window W of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of the restitution treatments T-Al and T-A2 following:
■ traitement T-Al appliqué aux objets sonores estimés au centre de la fenêtre spatiale W (i.e. objets contenus dans le canal central du signal S) : diffusion des objets sonores directement (i.e. sans filtrage spatial) sur le haut-parleur central du dispositif 2 de restitution, autrement dit, les objets sonores ainsi restitués sont rattachés au centre du dispositif 2 de restitution ;  ■ T-Al processing applied to the estimated sound objects in the center of the spatial window W (ie objects contained in the central channel of the signal S): diffusion of the sound objects directly (ie without spatial filtering) on the central loudspeaker of the device 2 restitution, in other words, the sound objects thus restored are attached to the center of the device 2 restitution;
■ traitement T-A2 appliqué aux objets sonores non centrés localisés dans la fenêtre spatiale W : diffusion des objets sonores à l'aide d'une technique WFS de synthèse de champ acoustique comprenant la création de sources virtuelles via les haut-parleurs du dispositif 2 de restitution, ces sources virtuelles étant positionnées (en agissant sur les retards et les gains appliqués à chaque haut-parleur) dans les directions estimées par les vecteurs directifs extraits des vecteurs de Gerzon dérivés lors de l'analyse spatiale de sorte à respecter la même organisation spatiale que lors du mixage du signal multicanal. Les amplitudes des objets sonores restitués sont conformes aux amplitudes évaluées à l'étape E30 ; ■ T-A2 processing applied to non-centered sound objects located in the spatial window W: scattering of sound objects using a WFS sound field synthesis technique including the creation of virtual sources via the speakers of the device 2 of restitution, these virtual sources being positioned (by acting on the delays and the gains applied to each speaker) in the directions estimated by the directional vectors extracted from the Gerzon vectors derived during the spatial analysis so as to respect the same spatial organization only when mixing the multichannel signal. The amplitudes of the sound objects returned are consistent with the amplitudes evaluated in step E30;
o au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'une technique WFS comprenant la création de six sources virtuelles entourant la position de référence Pref :  during step E52, restitution outside the spatial window W, of localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), using a technique WFS including the creation of six virtual sources surrounding the reference position Pref:
deux sources virtuelles sont positionnées aux extrémités du dispositif 2 de restitution, two virtual sources are positioned at the ends of the device 2 of restitution,
■ quatre sources virtuelles sont positionnées à l'extérieur de la fenêtre spatiale W, parmi lesquelles : deux sources virtuelles sont positionnées entre 30°C et 60°C par rapport à l'axe Δ, et entre -30° et -60°, par exemple à l'aide de deux ondes places dirigées vers les murs latéraux de la pièce dans laquelle est placé le dispositif 2 de restitution ; et deux sources virtuelles sont positionnées entre entre Four virtual sources are positioned outside the spatial window W, among which: two virtual sources are positioned between 30 ° C. and 60 ° C. with respect to the Δ axis, and between -30 ° and -60 °; for example with the aid of two square waves directed towards the side walls of the room in which is placed the device 2 restitution; and two virtual sources are positioned between
135° et 150° et entre -135° et -150°, par exemple à l'aide de deux ondes places dirigées vers les murs arrière de la pièce dans laquelle est placé le dispositif 2 de restitution. 135 ° and 150 ° and between -135 ° and -150 °, for example with the aid of two square waves directed towards the rear walls of the room in which is placed the device 2 restitution.
Les sources virtuelles ainsi positionnées sont utilisées pour restituer les objets sonores de la catégorie OBJLocExtW selon les directions et les amplitudes estimées à l'étape E30 ;  The virtual sources thus positioned are used to restore the sound objects of the OBJLocExtW category according to the directions and amplitudes estimated in step E30;
o au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'une technique WFS de restitution T-C, comprenant la création de quatre sources virtuelles à l'extérieur de la fenêtre W à l'aide par exemple de quatre ondes planes dirigées vers les murs de la pièce dans laquelle est placé le dispositif 2 de restitution de manière à créer deux réflexions sur les murs latéraux situés entre 60° et 80° (respectivement -60° et -80°) par rapport à l'axe Δ.  during step E53, restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a rendering technique WFS TC, comprising the creation of four virtual sources to the outside of the window W using, for example, four plane waves directed towards the walls of the room in which the rendering device 2 is placed so as to create two reflections on the lateral walls situated between 60 ° and 80 ° (respectively -60 ° and -80 °) with respect to the Δ axis.
Les techniques de synthèse de champ acoustique ou WFS sont connues de l'homme du métier, et décrites par exemple dans le document de AJ. Berkhout et al. intituléAcoustic field synthesis techniques or WFS are known to those skilled in the art, and described for example in the AJ document. Berkhout et al. entitled
« A holographie approach to acoustic control », J. Audio. Eng. Soc. Vol. 36, 1988. De telles techniques consistent à appliquer gain et un retard à chaque haut-parleur du dispositif 2 de restitution. Elles reposent uniquement sur la position relative des sources virtuelles que l'on souhaite créer (i.e. sources ponctuelles ou ondes planes) par rapport à la position physique des différents haut-parleurs du dispositif 2 de restitution. Exemple 3 : "A holography approach to acoustic control", J. Audio. Eng. Soc. Flight. 36, 1988. Such techniques consist in applying gain and a delay to each speaker of the playback device 2. They rely solely on the relative position of the virtual sources that one wishes to create (ie point sources or plane waves) with respect to the physical position of the various speakers of the rendering device 2. Example 3
Dans ce troisième exemple, on suppose que le dispositif 2 de restitution est une enceinte acoustique compacte équipée de 8 haut-parleurs 2-1, 2-2, 2-8 de largeur environ 80cm, avec quatre haut-parleurs frontaux 2-1,..., 2-4, et deux haut-parleurs 2-5 et 2-6, respectivement 2-7 et 2-8, situés de chaque côté du dispositif 2 (dispositif similaire au dispositif 2" illustré à la figure 3B).  In this third example, it is assumed that the rendering device 2 is a compact acoustic loudspeaker equipped with 8 loudspeakers 2-1, 2-2, 2-8 of width approximately 80 cm, with four frontal loudspeakers 2-1, ..., 2-4, and two speakers 2-5 and 2-6, respectively 2-7 and 2-8, located on each side of the device 2 (device similar to the device 2 "shown in Figure 3B) .
La position Pref est choisie ponctuelle, centrée par rapport au dispositif 2 de restitution.  The position Pref is chosen punctually, centered with respect to the device 2 of restitution.
On suppose par ailleurs que le signal multicanal S fourni au système 1 de restitution au cours de l'étape E10 est un signal audio composé de quatre canaux distincts.  It is further assumed that the multichannel signal S supplied to the rendering system 1 during step E10 is an audio signal composed of four distinct channels.
Dans ce troisième exemple, les étapes suivantes sont mises en œuvre par le système 1 de restitution à partir du signal S :  In this third example, the following steps are implemented by the reproduction system 1 from the signal S:
(1) Décomposition du signal S en sous-bandes fréquentielles à l'étape E20 à l'aide d'une transformée de Fourier appliquée au signal S, chaque sous-bande fréquentielle comprenant un signal Si composé de quatre canaux. (1) Decomposition of signal S into frequency subbands at step E20 using a Fourier transform applied to signal S, each frequency subband comprising a signal Si composed of four channels.
(2) Analyse spatiale∑I du signal S, ou de façon équivalente de chaque signal Si sur chaque sous-bande fréquentielle comprenant, au cours de l'étape E30 :  (2) Spatial analysisΣI of signal S, or equivalently of each signal Si on each frequency subband comprising, during step E30:
o la décomposition spatiale en harmoniques sphériques  o Spatial decomposition in spherical harmonics
o de chaque signal Si, l'extraction des objets sonores diffus et localisés de chaque signal ainsi que la détermination de leurs caractéristiques (directions et amplitudes) selon la technique décrite dans le document WO 2012/025580 (cette étape peut éventuellement inclure le codage du signal Si dans un format audio de type HOA, connu en soi) ;  o of each signal Si, the extraction of the diffuse and localized sound objects of each signal as well as the determination of their characteristics (directions and amplitudes) according to the technique described in the document WO 2012/025580 (this step may optionally include the coding of the Si signal in an audio format of the HOA type, known per se);
o la séparation des objets sonores localisés détectés lors du balayage selon les catégories OBJLocIntW et OBJLocExtW en comparant la direction examinée dans laquelle ces objets ont été détectés par rapport à l'excursion angulaire Ω/2 associés à la fenêtre spatiale W, comme décrit précédemment pour les exemples 1 et 2 ;  o separating the localized sound objects detected during the scanning according to the categories OBJLocIntW and OBJLocExtW by comparing the direction examined in which these objects have been detected with respect to the angular excursion Ω / 2 associated with the spatial window W, as previously described for examples 1 and 2;
(3) Restitution ΣΙΙ/Ε50 du signal S, et plus précisément des objets sonores extraits lors de l'analyse spatiale∑I :  (3) ΣΙΙ / Ε50 restitution of the signal S, and more precisely sound objects extracted during the spatial analysisΣI:
o au cours de l'étape E51, restitution à l'intérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'intérieur de la fenêtre spatiale W (catégorie OBJLocIntW), à l'aide d'un traitement T-A de restitution combinant une technique WFS et un contrôle de rayonnement prenant en compte le rayonnement de chaque haut-parleur et l'influence de l'enceinte acoustique à proprement parler contenant les différents haut- parleurs. Le champ de restitution sonore de chaque objet est contrôlé par l'intermédiaire de filtrages. Un tel traitement est décrit notamment dans la demande de brevet européen non encore publiée EP 1116572.0. during step E51, restitution inside the spatial window W, of the localized sound objects estimated to be positioned inside the spatial window W (category OBJLocIntW), by means of a processing Restitution TA combining WFS technique and radiation control taking into account the radiation of each loudspeaker and the influence of the loudspeaker itself containing the different loudspeakers. The sound reproduction field of each object is controlled via filtering. Such a treatment is described in particular in the European patent application not yet published EP 1116572.0.
Ainsi, plus précisément, dans ce troisième exemple, le traitement T-A comprend la création de sources virtuelles derrière le dispositif 2 de restitution via la technique WFS, et l'application d'un filtrage aux haut- parleurs 2-1, 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée vers la position de référence et est en accord avec les amplitudes déterminées à l'étape E30 ; Thus, more specifically, in this third example, the processing TA comprises the creation of virtual sources behind the rendering device 2 via the WFS technique, and the application of a filtering to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of sound objects restored by these virtual sources is directed to the reference position and is in agreement with the amplitudes determined in step E30;
au cours de l'étape E52, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores localisés estimés comme étant positionnés à l'extérieur de la fenêtre spatiale W (catégorie OBJLocExtW), à l'aide d'un traitement de restitution T-B telle que décrit dans la demande de brevet européen non encore publiée EP 1116572.0 et combinant : in step E52, restitution outside the spatial window W, of the localized sound objects estimated to be positioned outside the spatial window W (category OBJLocExtW), by means of a processing of TB rendering as described in the European patent application not yet published EP 1116572.0 and combining:
■ une technique WFS comprenant la création de sources virtuelles à l'extérieur de la fenêtre spatiale W via la formation de deux faisceaux fins se réfléchissant sur les murs latéraux de la pièce dans laquelle est installée le dispositif 2 de restitution à une position ponctuelle prédéterminée ; et  A WFS technique comprising the creation of virtual sources outside the spatial window W via the formation of two thin beams reflecting on the side walls of the room in which the rendering device 2 is installed at a predetermined point position; and
- un filtrage appliqué aux haut-parleurs 2-1, 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée concentrée vers les murs latéraux de la pièce.  a filtering applied to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of the sound objects restored by these virtual sources is directed concentrated towards the lateral walls of the room.
Les sources virtuelles ainsi positionnées sont utilisées pour restituer les objets sonores de la catégorie OBJLocExtW selon les directions et les amplitudes estimées à l'étape E30 ;  The virtual sources thus positioned are used to restore the sound objects of the OBJLocExtW category according to the directions and amplitudes estimated in step E30;
au cours de l'étape E53, restitution à l'extérieur de la fenêtre spatiale W, des objets sonores diffus (catégorie OBJDiff), à l'aide d'un traitement de restitution T-C telle que décrit dans la demande de brevet européen non encore publiée EP 1116572.0 et combinant : during step E53, restitution outside the spatial window W of the diffuse sound objects (category OBJDiff), using a rendering processing TC as described in the European patent application not yet published EP 1116572.0 and combining:
une technique WFS comprenant la création de sources virtuelles à l'extérieur de la fenêtre spatiale W via la formation de deux faisceaux larges se réfléchissant sur une zone étendue prédéterminée des murs latéraux de la pièce dans laquelle est installée le dispositif 2 de restitution ; et a WFS technique comprising creating virtual sources outside the spatial window W by forming two large beams reflecting on a predetermined wide area of side walls of the room in which the retrieval device 2 is installed; and
un filtrage appliqué aux haut-parleurs 2-1, 2-8 du dispositif 2 déterminé de sorte que l'énergie des objets sonores restitués par ces sources virtuelles est dirigée concentrée vers les murs latéraux de la pièce.  a filtering applied to the loudspeakers 2-1, 2-8 of the device 2 determined so that the energy of the sound objects restored by these virtual sources is directed concentrated towards the side walls of the room.
Bien entendu, ces trois exemples ne sont donnés qu'à titre illustratif et d'autres configurations de dispositif de restitution, ainsi que d'autres techniques d'analyse spatiale et d'autres traitements de restitution peuvent être utilisés dans le cadre de l'invention.  Of course, these three examples are given for illustrative purposes only and other restitution device configurations, as well as other spatial analysis techniques and other restitution treatments may be used within the scope of the present invention. invention.

Claims

REVENDICATIONS
1. Procédé de restitution d'un signal audio (S) multicanal sur un dispositif (2) de restitution équipé d'une pluralité de haut-parleurs (2-l,...,2-N), lesdits haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution et définissant une fenêtre spatiale (W) de restitution sonore par rapport à une position spatiale (Pref) dite de référence, ledit procédé de restitution comprenant : Method for rendering a multichannel audio signal (S) on a reproduction device (2) equipped with a plurality of loudspeakers (2-l, ..., 2-N), said loudspeakers being arranged at fixed locations of the rendering device and defining a spatial window (W) of sound reproduction with respect to a so-called reference spatial position (Pref), said rendering method comprising:
— une étape (∑I) d'analyse spatiale du signal audio (S) multicanal comprenant :  A step (ΣI) of spatial analysis of the multichannel audio signal (S) comprising:
o l'extraction (E30) d'au moins un objet sonore du signal, et  o extracting (E30) at least one sound object from the signal, and
o pour chaque objet sonore extrait, l'estimation (E30) d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale de restitution sonore du dispositif de restitution ; et o for each extracted sound object, the estimate (E30) of a diffuse or localized character of this sound object, and a position of this sound object with respect to the sound reproduction spatial window of the rendering device; and
— une étape (∑II,E50,E51,E52,E53) de restitution du signal audio sur la pluralité (2- 1,...,2-N) de haut-parleurs du dispositif de restitution (2), au cours de laquelle on applique, à chaque objet sonore extrait du signal audio, un traitement (T-Al, T-A2,T-A step (ΣII, E50, E51, E52, E53) of restitution of the audio signal on the plurality (2- 1, ..., 2-N) of loudspeakers of the reproduction device (2), during from which is applied, to each sound object extracted from the audio signal, a treatment (T-Al, T-A2, T-
B,T-C) de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution (2), ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale de restitution sonore estimés au cours de l'étape d'analyse spatiale, B, TC) of restitution on at least one speaker of the plurality of speakers of the reproduction device (2), this rendering process depending on the diffuse or localized nature of the sound object and its position with respect to the spatial window of sound reproduction estimated during the spatial analysis step,
le traitement de restitution (T-B,T-C) comprenant la création d'au moins une source virtuelle (11,12) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé au cours de l'étape d'analyse spatiale (E50) comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.  the reproduction processing (TB, TC) comprising the creation of at least one virtual source (11, 12) outside the reproduction device space window (W), from the speakers of the device of restitution, when the sound object is estimated during the spatial analysis step (E50) as being diffuse or positioned outside the restitution space window of the rendering device.
2. Procédé selon la revendication 1 dans lequel ledit dispositif de restitution (2) est une enceinte acoustique (2) dans laquelle est disposée ladite pluralité de haut- parleurs (2-l,...,2-N). 2. Method according to claim 1 wherein said rendering device (2) is an acoustic chamber (2) in which is disposed said plurality of speakers (2-l, ..., 2-N).
3. Procédé selon la revendication 1 ou 2 dans lequel l'étape d'analyse spatiale (∑I) comprend en outre l'estimation (E40) de la position de l'objet sonore par rapport au centre de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution (2). The method of claim 1 or 2 wherein the spatial analysis step (ΣI) further comprises estimating (E40) the position of the sound object relative to the center of the spatial window (W). sound reproduction of the playback device (2).
4. Procédé selon l'une quelconque des revendications 1 à 3 dans lequel l'étape d'analyse spatiale (∑I) comprend une décomposition (E20) du signal audio reçu en une pluralité de sous-bandes fréquentielles, l'extraction (E30) dudit au moins un objet sonore étant réalisée sur au moins une sous-bande fréquentielle. 4. Method according to any one of claims 1 to 3 wherein the spatial analysis step (ΣI) comprises a decomposition (E20) of the audio signal received in a plurality of frequency subbands, the extraction (E30) of said at least one sound object being performed on at least one frequency subband.
5. Procédé selon l'une quelconque des revendications 1 à 4 dans lequel le caractère diffus ou localisé de l'objet sonore extrait est estimé à partir d'au moins une corrélation évaluée entre deux canaux distincts du signal (S) audio multicanal. 5. Method according to any one of claims 1 to 4 wherein the diffuse or localized nature of the extracted sound object is estimated from at least one evaluated correlation between two separate channels of the multichannel audio signal (S).
6. Procédé selon l'une quelconque des revendications 1 à 5 dans lequel la position de l'objet sonore extrait par rapport à la fenêtre spatiale (W) de restitution sonore est estimée à partir d'au moins une différence de niveaux évaluée entre deux canaux distincts du signal (S) audio multicanal. 6. Method according to any one of claims 1 to 5 wherein the position of the extracted sound object with respect to the spatial window (W) of sound reproduction is estimated from at least one level difference evaluated between two separate channels of the multichannel audio signal (S).
7. Procédé selon l'une quelconque des revendications 1 à 5 dans lequel l'étape d'analyse spatiale (∑I) comprend la détermination d'un vecteur de Gerzon représentatif du signal audio multicanal. The method of any one of claims 1 to 5 wherein the spatial analysis step (ΣI) comprises determining a Gerzon vector representative of the multichannel audio signal.
8. Procédé selon l'une quelconque des revendications 1 à 4 dans lequel l'étape d'analyse spatiale (∑I) comprend une décomposition spatiale du signal multicanal (S) en harmoniques sphériques. 8. Method according to any one of claims 1 to 4 wherein the spatial analysis step (ΣI) comprises a spatial decomposition of the multichannel signal (S) into spherical harmonics.
9. Procédé selon l'une quelconque des revendications 1 à 8 dans lequel lorsqu'un objet sonore extrait est estimé comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution, le traitement de restitution (T-Al, T-A2) appliqué à cet objet sonore au cours de l'étape de restitution est apte à restituer cet objet sonore à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution. 9. Method according to any one of claims 1 to 8 wherein when an extracted sound object is estimated to be located and positioned within the spatial window (W) of sound reproduction of the playback device, the processing of restitution (T-Al, T-A2) applied to this sound object during the restitution step is able to restore this sound object inside the spatial window (W) of sound reproduction of the rendering device.
10. Procédé selon la revendication 9 dans lequel ledit traitement de restitution (T-Al, T-A2) comprend la création d'au moins une source virtuelle (10) à partir des haut-parleurs (2-l,...,2-N) du dispositif de restitution (2) à l'intérieur de la fenêtre spatiale (W) de restitution sonore du dispositif de restitution. The method of claim 9 wherein said rendering processing (T-Al, T-A2) comprises creating at least one virtual source (10) from the loudspeakers (2-1, ..., 2-N) of the reproduction device (2) inside the sound reproduction space window (W) of the reproduction device.
11. Procédé selon l'une quelconque des revendications 1 à 10 dans lequel lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant positionné à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2), la création (T-B) d'au moins une source virtuelle (11) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution comprend la formation d'au moins un faisceau dirigé vers l'extérieur de la fenêtre spatiale de restitution. 11. A method according to any one of claims 1 to 10 wherein when the extracted sound object is estimated during the spatial analysis step (ΣI) as being positioned outside the spatial window (W). ) of restitution of the rendering device (2), the creation (TB) of at least one virtual source (11) outside the spatial window (W) for restitution of the rendering device comprises the formation of at least one beam directed towards the outside of the spatial window of restitution.
12. Procédé selon l'une quelconque des revendications 1 à 11 dans lequel : — la pluralité de haut-parleurs (2-l,...,2-N) du dispositif de restitution (2) comprend un haut-parleur central et des haut-parleurs latéraux ; et 12. Method according to any one of claims 1 to 11 wherein: - the plurality of speakers (2-l, ..., 2-N) of the playback device (2) comprises a central speaker and side speakers; and
— lorsque l'objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, le traitement de restitution (T-B, T-C) appliqué à cet objet sonore utilise une technique transaurale de restitution de cet objet sonore sur les haut-parleurs latéraux du dispositif de restitution.  When the extracted sound object is estimated during the spatial analysis step (ΣI) as being diffuse or positioned outside the restitution device spatial window (W), the restitution processing (TB, TC) applied to this sound object uses a transaural technique of restitution of this sound object on the side speakers of the playback device.
13. Procédé selon l'une quelconque des revendications 1 à 12 dans lequel lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2), le traitement (T-Al, T-A2) de restitution appliqué à cet objet sonore au cours de l'étape de restitution (E50,E51), comprend la formation d'un faisceau dirigé vers ladite position spatiale (Pref) de référence. The method according to any one of claims 1 to 12 wherein when an extracted sound object is estimated during the spatial analysis step (ΣI) as being localized and positioned within the spatial window (W) of restitution of the restitution device (2), the processing (T-Al, T-A2) of restitution applied to this sound object during the restitution step (E50, E51), comprises the formation of a beam directed towards said reference spatial position (Pref).
14. Procédé selon l'une quelconque des revendications 1 à 12 dans lequel :The method of any one of claims 1 to 12 wherein:
— la pluralité (2-l,...,2-N) de haut-parleurs du dispositif de restitution comprend un haut-parleur central et des haut-parleurs latéraux ; et The plurality (2-l, ..., 2-N) of speakers of the reproduction device comprises a central loudspeaker and side loudspeakers; and
— lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné au centre de la fenêtre spatiale (W) de restitution du dispositif de restitution, cet objet sonore est diffusé, au cours de l'étape de restitution (E50,E51), par le traitement de restitution (T-Al), sur le haut-parleur central du dispositif de restitution.  When an extracted sound object is estimated during the spatial analysis step (ΣI) as being localized and positioned at the center of the restitution device spatial window (W), this sound object is broadcast, during the restitution step (E50, E51), by the reproduction processing (T-Al), on the central loudspeaker of the reproduction device.
15. Procédé selon l'une quelconque des revendications 1 à 12 et 14 dans lequel lorsqu'un objet sonore extrait est estimé au cours de l'étape d'analyse spatiale (∑I) comme étant localisé et positionné à l'intérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution (2) en une position distincte du centre de la fenêtre (W), le traitement de restitution (T-A2) appliqué au cours de l'étape de restitution (E50,E51) diffuse cet objet sonore sur les haut-parleurs (2-l,...,2-IM) du dispositif de restitution en utilisant un effet panoramique d'intensité. The method according to any one of claims 1 to 12 and 14 wherein when an extracted sound object is estimated during the spatial analysis step (ΣI) as being localized and positioned within the spatial window (W) for restitution of the rendering device (2) at a position distinct from the center of the window (W), the rendering process (T-A2) applied during the restitution step (E50, E51) broadcasts this sound object on the loudspeakers (2-l, ..., 2-IM) of the rendering device using a panoramic effect of intensity.
16. Programme comportant des instructions pour l'exécution des étapes du procédé de restitution selon l'une quelconque des revendications 1 à 15 lorsque ledit programme est exécuté par un ordinateur ou par un microprocesseur. 16. Program comprising instructions for performing the steps of the method of restitution according to any one of claims 1 to 15 when said program is executed by a computer or a microprocessor.
17. Système (1) de restitution d'un signal (S) audio multicanal sur un dispositif (2) de restitution équipé d'une pluralité de haut-parleurs (2-l,...,2-N), lesdits haut-parleurs étant disposés à des emplacements fixes du dispositif de restitution (2) et définissant une fenêtre spatiale (W) de restitution sonore par rapport à une position de référence (Pref), ledit système de restitution comprenant : 17. System (1) for rendering a multichannel audio signal (S) on a reproduction device (2) equipped with a plurality of loudspeakers (2-l, ..., 2-N), said loudspeakers speakers being arranged at fixed locations of the rendering device (2) and defining a spatial window (W) of sound reproduction with respect to a reference position (Pref), said reproduction system comprising:
— des moyens (3) d'analyse spatiale du signal (S) audio multicanal comprenant : Means (3) for spatial analysis of the multichannel audio signal (S), comprising:
o des moyens d'extraction d'au moins un objet sonore du signal, et o des moyens d'estimation, pour chaque objet sonore extrait, d'un caractère diffus ou localisé de cet objet sonore, et d'une position de cet objet sonore par rapport à la fenêtre spatiale (W) de restitution sonore du dispositif de restitution ; et  o means for extracting at least one sound object from the signal, and o estimating means, for each extracted sound object, of a diffuse or localized character of this sound object, and a position of this object sound with respect to the spatial window (W) of sound reproduction of the rendering device; and
— des moyens (4,4A,4B,4C) de restitution du signal (S) audio sur la pluralité de haut- parleurs (2-l,...,2-N) du dispositif de restitution (2), aptes à appliquer à chaque objet sonore extrait du signal audio, un traitement (T-A1,T-A2,T-B,T-C) de restitution sur au moins un haut-parleur de la pluralité de haut-parleurs du dispositif de restitution, ce traitement de restitution dépendant du caractère diffus ou localisé de l'objet sonore et de sa position par rapport à la fenêtre spatiale (W) de restitution sonore estimés au cours de l'étape d'analyse spatiale,  Means (4,4A, 4B, 4C) for reproducing the audio signal (S) on the plurality of loudspeakers (2-l, ..., 2-N) of the reproduction device (2), suitable for apply to each sound object extracted from the audio signal, a processing (T-A1, T-A2, TB, TC) restitution on at least one speaker of the plurality of speakers of the playback device, this restitution process depending on the diffuse or localized nature of the sound object and its position relative to the sound reproduction space window (W) estimated during the spatial analysis step,
le traitement de restitution (T-B,T-C) comprenant la création d'au moins une source virtuelle (11,12) à l'extérieur de la fenêtre spatiale (W) de restitution du dispositif de restitution, à partir des haut-parleurs du dispositif de restitution, lorsque l'objet sonore est estimé par les moyens (3) d'analyse spatiale comme étant diffus ou positionné à l'extérieur de la fenêtre spatiale de restitution du dispositif de restitution.  the reproduction processing (TB, TC) comprising the creation of at least one virtual source (11, 12) outside the reproduction device space window (W), from the speakers of the device of restitution, when the sound object is estimated by the spatial analysis means (3) as being diffuse or positioned outside the restitution space window of the rendering device.
EP13779299.0A 2012-09-27 2013-09-25 Method and system for playing back an audio signal Active EP2901718B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1259132A FR2996094B1 (en) 2012-09-27 2012-09-27 METHOD AND SYSTEM FOR RECOVERING AN AUDIO SIGNAL
PCT/FR2013/052254 WO2014049267A1 (en) 2012-09-27 2013-09-25 Method and system for playing back an audio signal

Publications (2)

Publication Number Publication Date
EP2901718A1 true EP2901718A1 (en) 2015-08-05
EP2901718B1 EP2901718B1 (en) 2016-12-21

Family

ID=47594912

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13779299.0A Active EP2901718B1 (en) 2012-09-27 2013-09-25 Method and system for playing back an audio signal

Country Status (5)

Country Link
US (1) US9426597B2 (en)
EP (1) EP2901718B1 (en)
CN (1) CN104919821B (en)
FR (1) FR2996094B1 (en)
WO (1) WO2014049267A1 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105448312B (en) * 2014-06-12 2019-02-19 华为技术有限公司 Audio sync playback method, apparatus and system
CN105992120B (en) 2015-02-09 2019-12-31 杜比实验室特许公司 Upmixing of audio signals
EP3357259B1 (en) * 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
EP3239981B1 (en) * 2016-04-26 2018-12-12 Nokia Technologies Oy Methods, apparatuses and computer programs relating to modification of a characteristic associated with a separated audio signal
US10728691B2 (en) * 2016-08-29 2020-07-28 Harman International Industries, Incorporated Apparatus and method for generating virtual venues for a listening room
EP3297298B1 (en) * 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
CN110892735B (en) * 2017-07-31 2021-03-23 华为技术有限公司 Audio processing method and audio processing equipment
US11956616B2 (en) * 2019-03-04 2024-04-09 Steelseries France Apparatus and method for audio analysis
CN109978034B (en) * 2019-03-18 2020-12-22 华南理工大学 Sound scene identification method based on data enhancement
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
CN113068056B (en) * 2021-03-18 2023-08-22 广州虎牙科技有限公司 Audio playing method, device, electronic equipment and computer readable storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001001388A (en) 1999-06-24 2001-01-09 Idemitsu Petrochem Co Ltd Blow molding method, blow molded article and blow mold
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP2609759B1 (en) * 2010-08-27 2022-05-18 Sennheiser Electronic GmbH & Co. KG Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2485504B1 (en) * 2011-02-07 2013-10-09 Deutsche Telekom AG Generation of quiet areas within the listener zone of multi-channel playback systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2014049267A1 *

Also Published As

Publication number Publication date
CN104919821A (en) 2015-09-16
US9426597B2 (en) 2016-08-23
EP2901718B1 (en) 2016-12-21
US20150256958A1 (en) 2015-09-10
FR2996094A1 (en) 2014-03-28
WO2014049267A1 (en) 2014-04-03
CN104919821B (en) 2017-04-05
FR2996094B1 (en) 2014-10-17

Similar Documents

Publication Publication Date Title
EP2901718B1 (en) Method and system for playing back an audio signal
EP1992198B1 (en) Optimization of binaural sound spatialization based on multichannel encoding
EP1836876B1 (en) Method and device for individualizing hrtfs by modeling
EP2042001B1 (en) Binaural spatialization of compression-encoded sound data
WO2007110520A1 (en) Method for binaural synthesis taking into account a theater effect
EP3475943B1 (en) Method for conversion and stereophonic encoding of a three-dimensional audio signal
WO2010076460A1 (en) Advanced encoding of multi-channel digital audio signals
FR2992459A1 (en) METHOD FOR DEBRUCTING AN ACOUSTIC SIGNAL FOR A MULTI-MICROPHONE AUDIO DEVICE OPERATING IN A NOISE MEDIUM
WO2004086818A1 (en) Method for treating an electric sound signal
FR2776461A1 (en) METHOD FOR IMPROVING THREE-DIMENSIONAL SOUND REPRODUCTION
EP3559947B1 (en) Processing in sub-bands of an actual ambisonic content for improved decoding
EP3025514B1 (en) Sound spatialization with room effect
FR3065137A1 (en) SOUND SPATIALIZATION METHOD
EP3384688B1 (en) Successive decompositions of audio filters
EP2901717B1 (en) Method and device for generating audio signals to be delivered to a sound reproduction system
EP2957110B1 (en) Method and device for generating feed signals intended for a sound restitution system
EP3108670B1 (en) Method and device for rendering of a multi-channel audio signal in a listening zone
WO2005096268A2 (en) Method for processing audio data, in particular in an ambiophonic context
WO2009081002A1 (en) Processing of a 3d audio stream as a function of a level of presence of spatial components
FR3136072A1 (en) Signal processing method

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20150312

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RIN1 Information on inventor provided before grant (corrected)

Inventor name: NGUYEN, KHOA-VAN

Inventor name: CORTEEL, ETIENNE

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20160629

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 856405

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170115

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602013015671

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170321

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170322

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 856405

Country of ref document: AT

Kind code of ref document: T

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170421

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170321

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170421

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602013015671

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20170922

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20170930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170925

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602013015671

Country of ref document: DE

Owner name: SENNHEISER ELECTRONIC GMBH CO. KG, DE

Free format text: FORMER OWNER: SONIC EMOTION LABS, PARIS, FR

Ref country code: DE

Ref legal event code: R081

Ref document number: 602013015671

Country of ref document: DE

Owner name: SENNHEISER ELECTRONIC GMBH & CO. KG, DE

Free format text: FORMER OWNER: SONIC EMOTION LABS, PARIS, FR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170930

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20130925

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161221

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230919

Year of fee payment: 11

Ref country code: DE

Payment date: 20230906

Year of fee payment: 11