WO2010070225A1 - Codage perfectionne de signaux audionumeriques multicanaux - Google Patents

Codage perfectionne de signaux audionumeriques multicanaux Download PDF

Info

Publication number
WO2010070225A1
WO2010070225A1 PCT/FR2009/052491 FR2009052491W WO2010070225A1 WO 2010070225 A1 WO2010070225 A1 WO 2010070225A1 FR 2009052491 W FR2009052491 W FR 2009052491W WO 2010070225 A1 WO2010070225 A1 WO 2010070225A1
Authority
WO
WIPO (PCT)
Prior art keywords
sources
coding
sound
information
directivity
Prior art date
Application number
PCT/FR2009/052491
Other languages
English (en)
Inventor
Florent Jaillet
David Virette
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP09803838.3A priority Critical patent/EP2374123B1/fr
Priority to ES09803838T priority patent/ES2733878T3/es
Priority to US13/139,577 priority patent/US8964994B2/en
Publication of WO2010070225A1 publication Critical patent/WO2010070225A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to the field of coding / decoding multi-channel digital audio signals. More particularly, the present invention relates to the parametric encoding / decoding of multi-channel audio signals.
  • This type of coding / decoding is based on the extraction of spatialization parameters so that at decoding, the spatial perception of the listener can be reconstituted.
  • Such a coding technique is known as "Binaural Cue
  • Coding in English (BCC) which aims on the one hand to extract and then code the auditory spatialization indices and on the other hand to code a monophonic or stereophonic signal from a mastering of the original multichannel signal.
  • This parametric approach is a low rate coding.
  • the main advantage of this coding approach is to allow a better compression ratio than conventional multi-channel digital audio compression methods while ensuring the backward compatibility of the compressed format obtained with existing coding formats and broadcasting systems.
  • FIG. 1 describes such a coding / decoding system in which the coder 100 constructs a sum signal ("downmix" in English) S s by matrixing in
  • the 110 channels of the original multichannel signal S and provides via a parameter extraction module 120, a reduced set of parameters P which characterize the spatial content of the original multichannel signal.
  • the multichannel signal is reconstructed (S ') by a synthesis module 160 which takes into account both the sum signal and the transmitted parameters P.
  • the sum signal has a reduced number of channels. These channels can be encoded by a conventional audio encoder before transmission or storage.
  • the sum signal has two channels and is compatible with conventional stereo broadcasting. Before transmission or storage, this sum signal can thus be encoded by any conventional stereo encoder. The signal thus coded is then compatible with the devices comprising the corresponding decoder which reconstruct the sum signal while ignoring the spatial data.
  • This coding scheme is based on a tree structure that allows the processing of only a limited number of channels simultaneously.
  • this technique is satisfactory for coding and decoding signals of reduced complexity used in the audiovisual field, for example for 5.1 signals.
  • it does not make it possible to obtain a satisfactory quality for more complex multichannel signals, for example for signals originating from direct multichannel sound taps or even surround signals.
  • the present invention improves the situation.
  • the method proposes a method of encoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources.
  • the method is such that it comprises a step of decomposing the multichannel signal into frequency bands and the following steps per frequency band:
  • the information being representative of the spatial distribution of the sound source in the sound scene
  • the source-related directivity information gives not only the direction of the source but also the shape, or spatial distribution, of the source, ie the interaction that this source can have with the others. sources of the sound stage.
  • Knowing this directivity information associated with the sum signal will allow the decoder to obtain a signal of better quality which takes into account interchannel redundancies in a global manner and the probable phase oppositions between channels.
  • the sum signal from the coding according to the invention can be decoded by a standard decoder as known in the state of the art, thus providing interoperability with existing decoders.
  • the method further comprises a step of encoding secondary sources among the unselected sources of the sound scene and inserting coding information of the secondary sources in the bit stream.
  • the coding of the secondary sources will thus make it possible to provide additional precision on the decoded signal, in particular for complex signals of the type, for example, ambiophonic ones.
  • the coding information of the secondary sources may be, for example, coded spectral envelopes or coded time envelopes which may constitute parametric representations of the secondary sources.
  • the coding of secondary sources comprises the following steps:
  • pseudo-sources representing at least part of the secondary sources, by decorrelation with at least one main source and / or at least one coded secondary source;
  • part of the secondary sources or diffuse sources can then be represented by pseudo-sources. In this case, it is then possible to code this representation without increasing the coding rate.
  • the coding of the directivity information is performed by a parametric representation method.
  • This method is of low complexity and adapts particularly to the case of synthetic sound stage representing an ideal coding situation.
  • These parametric representations may comprise, for example, arrival direction information, for the reconstruction of a simulating directivity a plane wave or directivity pattern selection indicia in a dictionary of directivity shapes.
  • the coding of the directivity information is performed by a principal component analysis method delivering basic directivity vectors associated with gains allowing the reconstruction of the initial directivities.
  • the coding of the directivity information is performed by a combination of a principal component analysis method and a parametric representation method.
  • the present invention also relates to a method for decoding a multichannel audio signal representing a sound scene comprising a plurality of sound sources, from a bit stream and a sum signal.
  • the method is such that it comprises the following steps:
  • the decoding method thus makes it possible to reconstruct the multichannel signal of high quality for a faithful reproduction of the spatialized sound taking into account interchannel redundancies globally and the probable phase oppositions between channels.
  • the method further comprises the following steps:
  • the method further comprises the following step:
  • decoding the secondary sources by using a source actually transmitted and a predefined decorrelator to reconstruct pseudosources representative of at least a part of the secondary sources.
  • the method further comprises the following steps:
  • decoding secondary sources by using the source and the decorrelator index to reconstruct pseudo-sources representative of at least a part of the secondary sources. This makes it possible to find pseudo-sources representing part of the original secondary sources without degrading the sound reproduction of the decoded sound scene.
  • the present invention also relates to an encoder of a multichannel audio signal representing a sound scene having a plurality of sound sources.
  • the encoder is such that it comprises:
  • a directivity information obtaining module capable of obtaining this information by sound source of the sound scene and by frequency band, the information being representative of the spatial distribution of the sound source in the sound scene;
  • a coding module for the directivity information and a module for forming a bit stream comprising the coded directional information, the bit stream being able to be transmitted parallel to the sum signal.
  • This decoder is such that it comprises:
  • a means of storage readable by a computer or a processor, whether or not integrated into the encoder, possibly removable, stores a computer program implementing an encoding method and / or a decoding method according to the invention.
  • FIG. 1 illustrates a coding / decoding system of the state of the art of standard MPEG Surround system type
  • FIG. 2 illustrates an encoder and a coding method according to one embodiment of the invention
  • FIG. 3a illustrates a first embodiment of the coding of the directivities according to the invention
  • FIG. 3b illustrates a second embodiment of the coding of the directivities according to the invention
  • FIG. 4 represents examples of directivities used by the invention
  • FIG. 5 illustrates a decoder and a decoding method according to one embodiment of the invention
  • FIG. 6 represents an alternative embodiment of an encoder and a coding method according to the invention.
  • FIG. 7 represents an alternative embodiment of a decoder and a decoding method according to the invention.
  • FIGS. 8a and 8b respectively represent an exemplary device comprising an encoder and an exemplary device comprising a decoder according to the invention.
  • FIG. 2 illustrates in the form of a block diagram, an encoder according to one embodiment of the invention as well as the steps of a coding method according to one embodiment of the invention.
  • the encoder thus illustrated comprises a time-frequency transform module 210 which receives as input an original multichannel signal representing a sound scene comprising a plurality of sound sources.
  • This module therefore performs a step T of calculating the time-frequency transform of the original multichannel signal.
  • This transform is carried out for example by a short-term Fourier transform.
  • each of the n x channels of the original signal is window on the current time frame, then the Fourier transform F of the window signal is calculated using a fast calculation algorithm on ⁇ FFT points.
  • ⁇ FFT X n x containing the coefficients of the original multichannel signal in the frequency space.
  • the subsequent processing by the encoder is done by frequency band. This is done by cutting the matrix of coefficients X into a set of sub-matrices X j each containing the frequency coefficients in the j th band.
  • the signal is thus obtained for a given frequency band Sg.
  • a module for obtaining directional information 220 makes it possible to determine, by an OBT step, on the one hand, the directivities associated with each of the sources of the sound scene and, on the other hand, to determine the sources of the sound scene for the given frequency band.
  • the directivities are vectors of the same dimension as the number n s of channels of the multichannel signal S m .
  • Each source is associated with a vector of directivity.
  • the directivity vector associated with a source corresponds to the weighting function to be applied to this source before playing it on a loudspeaker, so as to best reproduce a direction of arrival and a source width . It is easily understood that for a very large number of regularly spaced loudspeakers, the directivity vector will faithfully represent the radiation of a sound source.
  • the vector of directivity will be obtained by the application of an inverse spherical Fourier transform on the components of the ambiophonic orders.
  • the ambiophonic signals correspond to a decomposition into spherical harmonics, hence the direct correspondence with the directivity of the sources.
  • the set of directivity vectors therefore constitutes a large amount of data that would be too expensive to transmit directly for low coding rate applications.
  • two methods of representing the directivities can for example be used.
  • the Cod.Di coding module 230 for directivity information can thus implement one of the two methods described below or a combination of the two methods.
  • a first method is a parametric modeling method that makes it possible to exploit knowledge a priori on the signal format used. It consists of transmitting only a very small number of parameters and reconstructing the directivities according to known coding schemes.
  • the associated directivity is known as a function of the direction of arrival of the sound source.
  • a search for peaks in the directivity diagram (by analogy with sinusoidal analysis, as explained for example in the document "Computer modeling of musical sound (analysis, transformation, synthesis)" by Sylvain Marchand, PhD thesis, University Bordeaux 1 , allows to detect the direction of arrival relatively faithfully.Other methods like the "matching pursuit", as presented in S.
  • a parametric representation can also use a simple form dictionary to represent the directivities.
  • FIG. 4 gives some simple forms of directivity (in azimuth) that can be used.
  • directivity in azimuth
  • FIG. 4 gives some simple forms of directivity (in azimuth) that can be used.
  • the directivities one associates with an element of the dictionary, the corresponding azimuth and a gain allowing to play on the amplitude of this vector of directivity of the dictionary.
  • One can thus, from a dictionary of form of directivity, to deduce the best form or combination of forms that will best reconstruct the initial directivity.
  • the directivity coding module 230 comprises a parametric modeling module which outputs P directionality parameters. These parameters are then quantized by the quantization module 240.
  • This first method makes it possible to obtain a very good level of compression when the scene corresponds to an ideal coding. This will be particularly the case on synthetic soundtracks. However, for complex scenes or microphonic sound, it is necessary to use more generic coding models, involving the transmission of a greater amount of information.
  • the representation of the directivity information is in the form of a linear combination of a limited number of basic directivities.
  • This method is based on the fact that the set of directivities at a given moment generally has a reduced dimension. Indeed, only a small number of sources is active at a given moment and the directivity for each source varies little with the frequency. It is thus possible to represent all the directivities in a group of frequency bands from a very small number of well-chosen basic directivities.
  • the parameters transmitted are then the basic directivity vectors for the group of bands considered, and for each directivity to be coded, the coefficients to be applied to the basic directivities to reconstruct the directivity considered.
  • PCA Principal component analysis
  • LT. Jolliffe in "Principal Component Analysis", Springer, 2002.
  • the application of the principal component analysis to the coding of the directivities is carried out as follows: firstly, a matrix of the initial directivities Di is formed, whose number of rows corresponds to the total number of sources of the sound stage, and the number of columns is the number of channels of the original multichannel. Then, one carries out properly the principal component analysis which corresponds to the diagonalization of the covariance matrix, and which gives the matrix of the eigenvectors. Finally, we select the eigenvectors carrying the most important information and corresponding to the eigenvalues of higher value.
  • the number of eigenvectors to keep may be fixed or variable in time depending on the available flow.
  • This new base thus gives the matrix D B T.
  • the representation of the directivities is therefore made from basic directivity.
  • the matrix of directivities Di is written as the linear combination of these basic directivities.
  • Di G D D B
  • D B is the matrix of the basic directivities for all the bands
  • G D the matrix of the associated gains.
  • the number of rows of this matrix represents the total number of sources of the sound stage and the number of columns represents the number of basic directivity vectors.
  • basic directivities are sent by group of considered bands, in order to more accurately represent the directivities. It is possible, for example, to provide two basic directivity groups: one for low frequencies and one for high frequencies. The limit between these two groups can for example be chosen between 5 and 7 kHz.
  • the coding module 230 comprises a main component analysis module delivering basic directivity vectors D B and associated coefficients or gain vectors G D -
  • FIG. 3a illustrates in a detailed manner, the directivity coding block 230, in a first variant embodiment.
  • This coding mode uses the two diagrams of representation of the directivities.
  • a module 310 performs parametric modeling as previously explained to provide directional parameters (P).
  • a module 320 performs principal component analysis to provide both basic directivity vectors (D B ) and associated coefficients (G D ).
  • a selection module 330 selects frequency band per frequency band, the best mode of coding for the directivity by choosing the best compromise reconstruction of the directivities / flow.
  • the choice of the representation chosen (parametric representation or by linear combination of basic directivities) is done in order to optimize the efficiency of the compression.
  • a selection criterion is, for example, the minimization of the mean squared error.
  • a perceptual weighting may possibly be used for the choice of the directivity coding mode. This weighting is intended for example to promote the reconstruction of the directivities in the frontal area, for which the ear is more sensitive.
  • the error function to be minimized in the case of the ACP encoding model can be in the following form:
  • the directivity parameters from the selection module are then quantized by a step Q by the quantization module 240 of FIG. 2.
  • the two coding modes are cascades.
  • Figure 3b illustrates in detail this block of coding.
  • a parametric modeling module 340 performs a modeling for a certain number of directivities and outputs at the same time directivity parameters (P) for the modeled directivities and unmodelled directivities or residual directivities DiR .
  • D residual directivities
  • main component analysis module 350 which outputs basic directional vectors (D B ) and associated coefficients (G D ).
  • D B basic directional vectors
  • G D associated coefficients
  • the directivity parameters, the basic directivity vectors as well as the coefficients are provided at the input of the quantization module 240 of FIG. 2.
  • Quantization Q is performed by reducing the accuracy as a function of perception data and then applying entropy coding. Also, the possibility of exploiting the redundancy between frequency bands or between successive frames can reduce the flow. Intra-frame or inter-frame predictions on the parameters can therefore be used. In general, the standard methods of quantification can be used. On the other hand, the vectors to be quantified being orthonormed, this property can be exploited during the scalar quantization of the components of the vector. Indeed, for a vector of dimension N, only N-I components will have to be quantified, the last component being able to be recalculated.
  • a construction module of a bit stream 250 inserts this coded direction information in a bit stream Fb according to the step Con.Fb.
  • the encoder as described here further comprises a selection module 260 able to select in the step Select main sources (S p ⁇ n c ) among the sources of the sound scene to be encoded (S tot ).
  • a particular embodiment uses a principal component analysis method, ACP, in each frequency band in block 220 to extract all the sources of the sound scene (S tot ).
  • ACP principal component analysis method
  • the sources of greater importance are then selected by the module 260 to constitute the main sources (S p ⁇ nc ), which are then stamped in step M by the module 270 to construct a sum signal (S Sf ,) (or "downmix" in English).
  • the number of main sources (S pr j nc ) is chosen according to the number of channels of the sum signal. This number is chosen less than or equal to the number of channels. Preferably, a number of main sources is chosen equal to the number of channels of the sum signal.
  • the matrix M is then a predefined square matrix.
  • This sum signal per frequency band undergoes an inverse time-frequency transformation T 1 by the inverse transform module 290 in order to provide a time sum signal (S s ).
  • This sum signal is then encoded by a speech coder or an audio coder of the state of the art (for example: G.729.1 or MPEG-4 AAC).
  • Secondary sources (S sec ) can be coded by a coding module
  • bit stream construction module 250 280 and added to the bit stream in the bit stream construction module 250.
  • the coding module 280 which may in one embodiment be a short-term Fourier transform coding module. These sources can then be separately encoded using the aforementioned audio or speech coders.
  • the coefficients of the transform of these secondary sources can be coded directly only in the bands considered to be important.
  • Secondary sources can be encoded by parametric representations; these representations may be in the form of spectral envelope or temporal envelope.
  • This method of encoding a multichannel signal as described is particularly interesting in that the analysis is made on windows that can be of short length.
  • this coding model causes a low algorithmic delay allowing its use in applications where control of the delay is important.
  • the encoder as described implements an additional preprocessing step P by a preprocessing module 215.
  • This module performs a basic changeover step in order to express the sound scene using the flat wave decomposition of the acoustic field.
  • the original surround signal is seen as the angular Fourier transform of a sound field.
  • the first plane wave decomposition operation therefore corresponds to taking the omnidirectional component of the ambiophonic signal as representing the zero angular frequency (this component is therefore a real component).
  • the following surround components order 1, 2, 3, etc. are combined to obtain the complex coefficients of the angular Fourier transform.
  • the first component represents the real part
  • the second component represents the imaginary part.
  • O For a two-dimensional representation, for an order O, we obtain O + 1 complex components.
  • a Short Term Fourier Transform (on the time dimension) is then applied to obtain the Fourier transforms (in the frequency domain) of each angular harmonic. This step then integrates the transformation step T of the module 210. the complete angular transform by recreating the harmonics of negative frequencies by Hermitian symmetry.
  • an inverse Fourier transform is carried out on the dimension of the angular frequencies to pass in the domain of the directivities.
  • This pre-processing step allows the coder to work in a signal space whose physical and perceptual interpretation is simplified, which makes it possible to more effectively exploit knowledge of spatial auditory perception and thus improve coding performance.
  • the encoding of the surround signals remains possible without this pre-processing step. For non-surround signals, this step is not necessary. For these signals, the knowledge of the recording system or reproduction associated with the signal makes it possible to directly interpret the signals as a plane wave decomposition of the acoustic field.
  • Figure 5 now describes a decoder and a decoding method in one embodiment of the invention.
  • This decoder receives as input the bit stream F b as constructed by the encoder described above as well as the sum signal S 5 .
  • the first decoding step consists of realizing the time-frequency transform T of the sum signal S s by the transform module 510 to obtain a sum signal per frequency band, S sf,.
  • This transform is carried out using, for example, the short-term Fourier transform. It should be noted that other transforms or filterbanks may also be used, including non-uniform filterbanks according to a perception scale (e.g. Bark). It may be noted that in order to avoid discontinuities during the reconstruction of the signal from this transform, a recovery addition method is used. For the time frame considered, the step of calculating the transform of
  • Fourier in the short term is to window each of the n f channels of the sum signal S s using a window w of length greater than the time frame, and then to calculate the Fourier transform of the window signal with the help of a fast calculation algorithm on npFT points.
  • a complex matrix F of size npF T xn f containing the coefficients of the sum signal in the frequency space is thus obtained.
  • the entire processing is done in frequency bands.
  • the matrix coefficients F is cut into a plurality of submatrices F j each containing the frequency coefficients in the j th band.
  • Different choices for the frequency division of the bands are possible.
  • symmetrical bands with respect to the zero frequency in the Fourier transform are chosen in the short term.
  • the description of the decoding steps performed by the decoder will be made for a given frequency band. The steps are of course carried out for each of the frequency bands to be processed.
  • the module 520 performs a dematrix N of the frequency coefficients of the signal transform sum of the frequency band considered so as to find the main sources of the sound scene. More specifically, the S p ⁇ ⁇ c matrix of frequency coefficients for the current frequency band of the n p ⁇ nc main sources is obtained according to the relation:
  • N is of dimension n f xn p ⁇ nc and B is a matrix of dimension n bm xn f where n bm is the number of components (or bins) frequency retained in the frequency band considered.
  • N I.
  • the number of rows of the matrix N corresponds to the number of channels of the sum signal, and the number of columns corresponds to the number of main sources transmitted.
  • the dimensions are inverted, I being an identity matrix of dimensions n p ⁇ nc xn p ⁇ nc .
  • the lines of B are the frequency components in the current frequency band, the columns correspond to the channels of the sum signal.
  • the lines of S p ⁇ n c are the frequency components in the current frequency band, and each column corresponds to a main source.
  • the number of main sources n p ⁇ nc is preferably less than or equal to the number n f of channels of the sum signal to ensure that the operation is invertible, and may possibly be different for each frequency band.
  • the number of sources to be reconstructed in the current frequency band to obtain a satisfactory reconstruction of the scene is greater than the number of channels of the sum signal.
  • additional or secondary sources are coded and then decoded from the bitstream for the current band by the module 550 for decoding the bitstream.
  • This decoding module decodes the information contained in the bit stream and in particular, the directional information and, where appropriate, the secondary sources.
  • the decoding of the secondary sources is carried out by the inverse operations that those which were carried out with the coding. Whatever the coding method that has been chosen for the secondary sources, if reconstruction data or coding information of the secondary sources has been transmitted in the bit stream for the current band, the corresponding data is decoded to reconstruct the dry matrix S frequency coefficients in the current band of the n sec secondary sources.
  • the shape of the dry matrix S is similar to the matrix S pnnc , that is, the lines are the frequency components in the current frequency band, and each column corresponds to a secondary source.
  • Ssupp according to S relation (S pntlL S mpp j therefore S is a matrix of dimension n b, n tot xn - Also, the form is identical to S p ⁇ matrices n c and S supp: lines are the frequency components in the current frequency band, each column is a source, with n tot sources in total.
  • the directivity information is extracted from the bit stream at the Decod step. Fb by the module 550.
  • the possible outputs of this decoding module of the bitstream depend on the coding methods of the directivities used in the coding. They can be in the form of basic directivity vectors D B and associated coefficients G D and / or modeling parameters P.
  • This data is then transmitted to a directional information reconstruction module 560 which performs the decoding of the directional information by reverse operations from those performed in the coding.
  • the number of directivities to be reconstructed is equal to the number n tot of sources in the frequency band considered, each source being associated with a directional vector.
  • the matrix of directivities Di is written as the linear combination of these basic directivities.
  • Di G D D B
  • D B is the matrix of the basic directivities for all the bands
  • G D the matrix of the associated gains.
  • This gain matrix has a number of lines equal to the total number of sources n tot , and a number of columns equal to the number of basic directivity vectors.
  • basic directivities are decoded by group of frequency bands considered, in order to more accurately represent the directivities.
  • group of frequency bands considered in order to more accurately represent the directivities.
  • a vector of gains associated with the basic directivities is then decoded for each band.
  • Y SD T , where Y is the reconstructed signal in the band.
  • the rows of the matrix Y are the frequency components in the current frequency band, and each column corresponds to a channel of the multichannel signal to be reconstructed.
  • the corresponding time signals are then obtained by inverse Fourier transform T ', using a fast algorithm implemented by the inverse transform module 540. This gives the multichannel signal S m on the current time frame.
  • the different time frames are then combined by conventional overlap-add (or overlap-add) method to reconstruct the complete multichannel signal.
  • temporal or frequency smoothing of the parameters can be used both for analysis and synthesis to ensure smooth transitions in the sound scene.
  • a sign of sudden change of the sound stage may be reserved in the bit stream to avoid smoothing the decoder in the case of detection of a rapid change in the composition of the sound stage.
  • conventional methods of adapting the resolution of the time-frequency analysis can be used (change in the size of the analysis and synthesis windows over time).
  • a base change module can perform a pre-processing P "1 to obtain a plane wave decomposition of the signals, a base change module 570 performs the reverse operation from the signals. in plane waves to find the original multichannel signal.
  • the coding of the embodiment described with reference to FIG. 2 makes it possible to obtain efficient compression when the complexity of the scene remains limited.
  • the complexity of the scene is greater, ie when the scene contains a high number of active sources in a frequency band, or important diffuse components, a large number of sources and associated directivity becomes necessary for to obtain a good quality of restitution of the scene. The effectiveness of compression is then reduced.
  • the encoder as represented in FIG. 6 comprises the modules 215, 210, 220, 230, 240 as described with reference to FIG. 2.
  • This encoder also includes the modules 260, 270 and 290 as described with reference to FIG.
  • This encoder comprises a coding module of the secondary sources 620, which differs from the module 280 of Figure 2 in the case where the number of secondary sources is important.
  • this coding module 620 a method of parametric coding secondary sources is implemented by this coding module 620.
  • the field is perceptibly comparable to a diffuse field, and the representation of the field by one or more statistical characteristics of the field is sufficient to reconstruct a perceptually equivalent field.
  • the spatially diffuse components of the sound scene can be perceptively reconstructed from the simple knowledge of the corresponding directivity, and by controlling the coherence of the created field. This can be done by using pseudo-sources constructed by decorrelation, from a limited number of transmitted sources and by using the diffuse component directivity estimated on the original multichannel signal. The objective is then to reconstruct a sound field statistically and perceptually equivalent to the original, even if it consists of signals whose waveforms are different.
  • a number of secondary sources are not transmitted and are replaced by pseudo-sources obtained by decorrelation of the transmitted sources, or by any other artificial source decorrelated sources transmitted. This avoids the transmission of data corresponding to these sources and significantly improves coding efficiency.
  • a source to be transmitted to the decoder and a predefined decorrelator known from both the encoder and the decoder, to be applied to the transmitted source to select pseudo-sources for the decoder, are chosen.
  • a parametric representation of the secondary sources is obtained by the coding module of the secondary sources 620 and is also transmitted to the construction module of the bitstream.
  • This parametric representation of secondary sources or diffuse sources is effected for example by a spectral envelope.
  • a time envelope can also be used.
  • the pseudo-sources are calculated by a decorrelation module 630 which calculates the decorrelated sources from at least one main source or with at least one coded secondary source to be transmitted.
  • decorrelators and several initial sources can be used, and one can select the initial source associated with a type of decorrelator giving the best reconstruction result.
  • These decorrelation data such as the index of the correlator used and the choice data of the initial source as the index of the source, are then transmitted to the building module of the bit stream to be inserted. The number of sources to transmit is reduced while maintaining a good perceptive quality of the reconstructed signal.
  • FIG. 7 represents a decoder and a decoding method adapted to the coding according to the variant embodiment described in FIG. 6.
  • This decoder comprises the modules 510, 520, 530, 540, 570, 560 as described with reference to FIG. 5. This decoder differs from that described in FIG. information decoded by the decoding module of the bit stream 720 and the decorrelation calculation block 710.
  • the module 720 obtains, in addition to directional information from sources of the sound scene and, if appropriate, decoded secondary sources, parametric representation data of certain secondary sources or diffuse sources and possibly information on the decorrelator and the transmitted sources. to use to rebuild the pseudo-sources.
  • the latter information is then used by the decorrelation module 710 which makes it possible to reconstruct the secondary pseudo-sources which will be combined with the main sources and the other potential secondary sources in the spatialization module as described with reference to FIG.
  • the encoders and decoders as described with reference to FIGS. 2, 6 and 5, 7 can be integrated into a multimedia equipment of the living room decoder type, a computer or even communication equipment such as a mobile telephone or personal electronic organizer.
  • FIG. 8a represents an example of such multimedia equipment or coding device comprising an encoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the coding method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of
  • the information being representative of the spatial distribution of the sound source in the sound scene
  • bit stream comprising the coded directional information
  • the description of FIG. 2 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module adapted to receive a multichannel signal representing a sound scene, either by a communication network, or by reading a content stored on a storage medium.
  • This multimedia equipment may also include means for capturing such a multichannel signal.
  • the device comprises an output module able to transmit a bit stream
  • FIG. 8b illustrates an example of multimedia equipment or decoding device comprising a decoder according to the invention.
  • This device comprises a PROC processor cooperating with a memory block BM having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the decoding method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of: - extraction in the bitstream and decoding information of directivities representative of the spatial distribution of the sources in the sound scene;
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the equipment.
  • the device comprises an input module adapted to receive a bit stream Fb and a sum signal S s coming for example from a communication network. These input signals can come from a reading on a storage medium.
  • the device comprises an output module capable of transmitting a multichannel signal decoded by the decoding method implemented by the equipment.
  • This multimedia equipment may also include speaker-type reproduction means or communication means capable of transmitting this multi-channel signal.
  • Such multimedia equipment may include both the encoder and the decoder according to the invention.
  • the input signal then being the original multichannel signal and the output signal, the decoded multichannel signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

La présente invention se rapporte à un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores Ce procédé est remarquable en ce qu'il comporte une étape de décomposition (T) du signal multicanal en bande de fréquence et les étapes suivantes par bande de fréquence, d'obtention (OBT) d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore, de sélection (Select) d'un ensemble de sources sonores de la scène sonore constituant des sources principales, de matriçage (M) des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux, de codage (Cod.Di) des informations de directivité et de formation (Con.Fb) d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme. La présente invention se rapporte également à un procédé de décodage apte à décoder le signal somme et les informations de directivités pour obtenir un signal multicanal, à un codeur et décodeur adaptés.

Description

Codage perfectionné de signaux audionumériques muiticanaux
La présente invention se rapporte au domaine du codage/décodage de signaux audionumériques muiticanaux. Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio muiticanaux.
Ce type de codage/décodage se base sur l'extraction de paramètres de spatialisation pour qu'au décodage, la perception spatiale de l'auditeur puisse être reconstituée. Une telle technique de codage est connu sous le nom de "Binaural Cue
Coding" en anglais (BCC) qui vise d'une part à extraire puis à coder les indices de spatialisation auditive et d'autre part à coder un signal monophonique ou stéréophonique issu d'un matriçage du signal multicanal original.
Cette approche paramétrique est un codage à bas débit. Le principal intérêt de cette approche de codage est de permettre un taux de compression meilleur que les méthodes classiques de compression de signaux audionumériques muiticanaux tout en assurant la rétrocompatibilité du format compressé obtenu avec les formats de codage et les systèmes de diffusions déjà existants.
La norme MPEG Surround décrite dans le document de la norme MPEG ISO/IEC 23003-1:2007 et dans le document de "Breebaart, J. and Hotho, G. and
Koppens, J. and Schuijers, E. and Oomen, W. and van de Par, S.," intitulé
"Background, concept, and architecture for the récent MPEG surround standard on multichannel audio compression" dans Journal of the Audio Engineering Society 55-
5 (2007) 331-351, décrit une structure de codage paramétrique tel que représentée en figure 1.
Ainsi, la figure 1 décrit un tel système de codage/décodage dans lequel le codeur 100 construit un signal somme ("downmix" en anglais) Ss par matriçage en
110 des canaux du signal multicanal original S et fournit via un module d'extraction de paramètres 120, un ensemble réduit de paramètres P qui caractérisent le contenu spatial du signal multicanal original. Au décodeur 150, le signal multicanal est reconstruit (S') par un module de synthèse 160 qui prend en compte à la fois le signal somme et les paramètres P transmis.
Le signal somme comporte un nombre réduit de canaux. Ces canaux peuvent être codés par un codeur audio classique avant transmission ou stockage.
Typiquement, le signal somme comporte deux canaux et est compatible avec une diffusion stéréo classique. Avant transmission ou stockage, ce signal somme peut ainsi être codé par n'importe quel codeur stéréo classique. Le signal ainsi codé est alors compatible avec les dispositifs comportant le décodeur correspondant qui reconstruisent le signal somme en ignorant les données spatiales.
Ce schéma de codage repose sur une structure arborescente qui ne permet le traitement que d'un nombre limité de canaux simultanément. Ainsi, cette technique est satisfaisante pour le codage et le décodage de signaux de complexité réduite utilisés dans le domaine de l'audiovisuel comme par exemple pour les signaux 5.1. Elle ne permet cependant pas d'obtenir une qualité satisfaisante pour des signaux multicanaux plus complexes comme par exemple pour les signaux issus de prises de son multicanales directes ou encore les signaux ambiophoniques.
En effet, une telle structure limite l'exploitation de la redondance intercanale qui peut exister pour les signaux complexes. De plus, les signaux multicanaux présentant des oppositions de phase, comme par exemple les signaux ambiophoniques, ne sont pas bien reconstruits par ces techniques de l'état de l'art.
Il existe donc un besoin d'une technique de codage/décodage paramétrique de signaux audio multicanaux de grande complexité qui permette de gérer à la fois les signaux présentant des oppositions de phase et de prendre en compte des redondances intercanales entre les signaux tout en étant compatible avec un codage bas débit.
La présente invention vient améliorer la situation.
A cet effet, elle propose un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le procédé est tel qu'il comporte une étape de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:
- obtention d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;
- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
- matriçage des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux; - codage des informations de directivité et formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
Ainsi, les informations de directivité associées à une source donnent non seulement la direction de la source mais également la forme, ou la répartition spatiale, de la source, c'est-à-dire l'interaction que peut avoir cette source avec les autres sources de la scène sonore.
La connaissance de ces informations de directivités associée au signal somme va permettre au décodeur d'obtenir un signal de meilleur qualité qui prend en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.
En codant séparément les informations de directivités et les sources sonores par bande de fréquence, on exploite le fait que le nombre de sources actives dans une bande de fréquence est généralement faible, ce qui augmente les performances de codage. De plus, le signal somme issu du codage selon l'invention peut être décodé par un décodeur standard tel que connu dans l'état de l'art, apportant ainsi une interopérabilité avec les décodeurs existants.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus. Dans un mode de réalisation particulier de l'invention, le procédé comporte en outre une étape de codage de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire. Le codage des sources secondaires va ainsi permettre d'apporter une précision supplémentaire sur le signal décodé, notamment pour les signaux complexes de type par exemple ambiophoniques.
Les informations de codage des sources secondaires peuvent être par exemple des enveloppes spectrales codées ou des enveloppes temporelles codées qui peuvent constituer des représentations paramétriques des sources secondaires.
Dans une variante de réalisation, le codage de sources secondaires comporte les étapes suivantes:
- construction de pseudo-sources représentant au moins une partie des sources secondaires, par décorrélation avec au moins une source principale et/ou au moins une source secondaire codée;
- codage des pseudo-sources construites; et
- insertion dans le flux binaire d'un indice de source utilisée et d'un indice de décorrélateur utilisé pour l'étape de construction.
Ceci s'applique plus particulièrement dans le cas où le signal multicanal est de grande complexité, une partie des sources secondaires ou des sources diffuses pouvant être alors représentées par des pseudo- sources. Dans ce cas de figure, il est alors possible de coder cette représentation sans pour autant augmenter le débit de codage.
Dans un mode de réalisation, le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.
Cette méthode est de faible complexité et s'adapte particulièrement au cas de scène sonore de synthèse représentant une situation de codage idéal.
Ces représentations paramétriques peuvent comporter par exemple des informations de direction d'arrivée, pour la reconstruction d'une directivité simulant une onde plane ou des indices de sélection de forme de directivité dans un dictionnaire de formes de directivités.
Dans un autre mode de réalisation, le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.
Ceci permet ainsi de coder les directivités de scènes sonores complexes dont le codage ne peut pas être représenté facilement par un modèle.
Dans encore un autre mode de réalisation le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.
Ainsi, il est par exemple possible d'effectuer en parallèle le codage par les deux méthodes et de choisir celle qui répond à un critère d'optimisation du débit de codage par exemple. II est également possible d'effectuer ces deux méthodes en cascade de façon à coder simplement une partie des directivités par la méthode de codage paramétrique et pour celle qui ne sont pas modélisées, d'effectuer un codage par la méthode d'analyse en composante principale, de façon à représenter au mieux, toutes les directivités. La répartition du débit entre les deux modèles d'encodage des directivités pouvant être choisie selon un critère de minimisation de l'erreur de reconstruction des directivités.
La présente invention se rapporte également à un procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme. Le procédé est tel qu'il comporte les étapes suivantes:
- extraction dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;
- dématriçage du signal somme pour obtenir un ensemble de sources principales; - reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.
La méthode de décodage permet ainsi de reconstruire le signal multicanal de grande qualité pour une restitution fidèle du son spatialisé prenant en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.
Dans un mode particulier de réalisation du procédé de décodage, celui-ci comporte en outre les étapes suivantes:
- extraction du flux binaire, d'informations de codage de sources secondaires codées;
- décodage des sources secondaires à partir des informations de codage extraites;
- regroupement des sources secondaires aux sources principales pour la spatialisation. Le décodage de sources secondaires apporte alors plus de précision sur la scène sonore.
Dans une variante de réalisation, le procédé comporte en outre l'étape suivante:
- décodage des sources secondaires par utilisation d'une source effectivement transmise et d'un décorrélateur prédéfini pour reconstruire des pseudosources représentatives d'au moins une partie des sources secondaires.
Dans une autre variante de réalisation, le procédé comporte en outre les étapes suivantes:
- extraction du flux binaire, d'un indice de source principale et/ou d'au moins une source secondaire codée et d'un indice d'un décorrélateur à appliquer à cette source;
- décodage des sources secondaires par utilisation de la source et de l'indice de décorrélateur pour reconstruire des pseudo- sources représentatives d'au moins une partie des sources secondaires. Ceci permet de retrouver des pseudos-sources représentant une partie des sources secondaires originales sans pour autant dégrader le rendu sonore de la scène sonore décodée.
La présente invention se rapporte également à un codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le codeur est tel qu'il comporte:
- un module de décomposition du signal multicanal en bande de fréquence;
- un module d'obtention d'informations de directivité apte à obtenir ces informations par source sonore de la scène sonore et par bande de fréquence, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;
- un module de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
- un module de matriçage des sources principales issues du module de sélection pour obtenir un signal somme avec un nombre réduit de canaux;
- un module de codage des informations de directivité et un module de formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
Elle se rapporte aussi à un décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme. Ce décodeur est tel qu'il comporte:
- un module d'extraction et de décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;
- un module de dématriçage du signal somme pour obtenir un ensemble de sources principales;
- un module de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.
Elle se rapporte enfin à un programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage tel que décrit et/ou d'un procédé de décodage tel que décrit, lorsque ces instructions sont exécutées par un processeur.
De manière plus générale, un moyen de stockage, lisible par un ordinateur ou un processeur, intégré ou non au codeur, éventuellement amovible, mémorise un programme informatique mettant en œuvre un procédé de codage et/ou un procédé de décodage selon l'invention.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:
- la figure 1 illustre un système de codage/décodage de l'état de l'art de type système normalisé MPEG Surround;
- la figure 2 illustre un codeur et un procédé de codage selon un mode de réalisation de l'invention; - la figure 3a illustre un premier mode de réalisation du codage des directivités selon l'invention;
- la figure 3b illustre un second mode de réalisation du codage des directivités selon l'invention;
- la figure 4 représente des exemples de directivités utilisées par l'invention; - la figure 5 illustre un décodeur et un procédé de décodage selon un mode de réalisation de l'invention;
- la figure 6 représente une variante de réalisation d'un codeur et d'un procédé de codage selon l'invention;
- la figure 7 représente une variante de réalisation d'un décodeur et d'un procédé de décodage selon l'invention; et
- les figures 8a et 8b représentent respectivement un exemple de dispositif comprenant un codeur et un exemple de dispositif comprenant un décodeur selon l'invention. La Figure 2 illustre sous forme de bloc diagramme, un codeur selon un mode de réalisation de l'invention ainsi que les étapes d'un procédé de codage selon un mode de réalisation de l'invention.
L'ensemble des traitements dans ce codeur est effectué par trame temporelle. Par soucis de simplification, la représentation et la description du codeur tel que représenté en figure 2 est faite en considérant le traitement effectué sur une trame temporelle fixée, sans faire apparaître la dépendance temporelle dans les notations.
Un même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal. Le codeur ainsi illustré comporte un module de transformée temps- fréquence 210 qui reçoit en entrée un signal multicanal original représentant une scène sonore comportant une pluralité de sources sonores.
Ce module effectue donc une étape T de calcul de la transformée temps- fréquence du signal multicanal original. Cette transformée est réalisée par exemple par une transformée de Fourier à court terme.
Pour cela, chacun des nx canaux du signal original est fenêtre sur la trame temporelle courante, puis la transformée de Fourier F du signal fenêtre est calculée à l'aide d'un algorithme de calcul rapide sur ΠFFT points. On obtient ainsi une matrice X complexe de taille ΠFFT X nx contenant les coefficients du signal multicanal original dans l'espace fréquentiel.
Les traitements effectués ensuite par le codeur sont effectués par bande de fréquence. Pour cela, on découpe la matrice des coefficients X en un ensemble de sous-matrices Xj contenant chacune les coefficients fréquentiels dans la jeme bande.
Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de codage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constantes dans les échelles ERB (pour "Equivalent Rectangular Bandwidth" en Anglais) ou Bark. Par soucis de simplification, la description des étapes de codage effectuée par le codeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.
En sortie du module 210, on obtient donc le signal pour une bande de fréquence donné Sg.
Un module d'obtention d'informations de directivités 220, permet de déterminer par une étape OBT, d'une part, les directivités associées à chacune des sources de la scène sonore et d'autre part de déterminer les sources de la scène sonore pour la bande de fréquence donnée. Les directivités sont des vecteurs de même dimension que le nombre ns de canaux du signal multicanal Sm.
Chaque source est associée à un vecteur de directivité. Pour un signal multicanal, le vecteur de directivité associé à une source correspond à la fonction de pondération à appliquer à cette source avant de la jouer sur un haut-parleur, de manière à reproduire au mieux une direction d'arrivée et une largeur de source. On comprend aisément que pour un nombre très important de haut- parleurs régulièrement espacés, le vecteur de directivité permettra de représenter fidèlement le rayonnement d'une source sonore.
En présence d'un signal ambiophonique, le vecteur de directivité sera obtenu par l'application d'une transformée de Fourier sphérique inverse sur les composantes des ordres ambiophoniques. En effet, les signaux ambiophoniques correspondent à une décomposition en harmoniques sphériques, d'où la correspondance directe avec la directivité des sources.
L'ensemble des vecteurs de directivité constitue donc une importante quantité de données qu'il serait trop coûteux de transmettre directement pour des applications à faible débit de codage. Pour réduire la quantité d'information à transmettre, deux méthodes de représentation des directivités peuvent par exemple être utilisées. Le module 230 de codage Cod.Di des informations de directivités peut ainsi mettre en œuvre une des deux méthodes décrites ci-après ou encore une combinaison des deux méthodes.
Une première méthode est une méthode de modélisation paramétrique qui permet d'exploiter les connaissances a priori sur le format de signal utilisé. Elle consiste à ne transmettre qu'un nombre très réduit de paramètres et à reconstruire les directivités en fonction de modèles de codage connus.
Par exemple, il s'agit d'exploiter les connaissances sur le codage des ondes planes pour des signaux de type ambiophonique pour ne transmettre que la valeur de la direction (azimut et élévation) de la source. Avec ces informations, il est alors possible de reconstruire la directivité correspondant à une onde plane provenant de cette direction.
Par exemple, pour un ordre ambiophonique défini, on connaît la directivité associée en fonction de la direction d'arrivée de la source sonore. Il existe plusieurs méthodes d'estimation des paramètres du modèle. Ainsi une recherche de pics dans le diagramme de directivité (par analogie avec l'analyse sinusoïdale, comme expliqué par exemple dans le document "Modélisation informatique du son musical (analyse, transformation, synthèse)" de Sylvain Marchand, PhD thesis, Université Bordeaux 1, permet de détecter relativement fidèlement la direction d'arrivée. D'autres méthodes comme le "matching pursuit", comme présenté dans S.
Mallat, Z. Zhang, Matching pursuit with time-frequency dictionaries, IEEE Transactions on Signal Processing 41 (1993) 3397-3415, ou l'analyse spectrale paramétrique peuvent aussi être utilisées dans ce contexte.
Une représentation paramétrique peut également utiliser un dictionnaire de forme simple pour représenter les directivités. A titre d'exemple, la figure 4 donne quelques formes simples de directivités (en azimut) pouvant être utilisées. Lors du codage des directivités, on associe à un élément du dictionnaire, l'azimut correspondant et un gain permettant de jouer sur l'amplitude de ce vecteur de directivité du dictionnaire. On peut ainsi, à partir d'un dictionnaire de forme de directivité, en déduire la meilleure forme ou la combinaison de formes qui permettra de reconstruire au mieux la directivité initiale.
Pour la mise en œuvre de cette première méthode, le module 230 de codage des directivités comporte un module de modélisation paramétrique qui donne en sortie des paramètres de directivités P. Ces paramètres sont ensuite quantifiés par le module de quantification 240.
Cette première méthode permet d'obtenir un très bon niveau de compression lorsque la scène correspond bien à un codage idéal. Ceci sera particulièrement le cas sur les scènes sonores de synthèse. Cependant pour des scènes complexes ou issues de prises de son microphoniques, il est nécessaire d'utiliser des modèles de codage plus génériques, impliquant la transmission d'une plus grande quantité d'informations.
La deuxième méthode décrite ci-dessous permet de s'affranchir de cet inconvénient. Dans cette deuxième méthode, la représentation des informations de directivité s'effectue sous forme de combinaison linéaire d'un nombre limité de directivités de base. Cette méthode s'appuie sur le fait que l'ensemble des directivités à un instant donné a généralement une dimension réduite. En effet, seul un nombre réduit de sources est active à un instant donné et la directivité pour chaque source varie peu avec la fréquence. On peut ainsi représenter l'ensemble des directivités dans un groupe de bandes de fréquences à partir d'un nombre très réduit de directivités de base bien choisies. Les paramètres transmis sont alors les vecteurs de directivité de base pour le groupe de bandes considérées, et pour chaque directivité à coder, les coefficients à appliquer aux directivités de base pour reconstruire la directivité considérée. Cette méthode est basée sur une méthode d'analyse en composante principale (ACP ou PCA en anglais pour "Principal Component Analysis"). Cet outil est largement développé par LT. Jolliffe dans "Principal Component Analysis", Springer, 2002. L'application de l'analyse en composante principale au codage des directivités s'effectue de la manière suivante: tout d'abord, on forme une matrice des directivités initiales Di, dont le nombre de lignes correspond au nombre total de sources de la scène sonore, et le nombre de colonne correspond au nombre de canaux du signal multicanal original. Ensuite, on effectue à proprement dit l'analyse en composante principale qui correspond à la diagonalisation de la matrice de covariance, et qui donne la matrice des vecteurs propres. Enfin, on sélectionne les vecteurs propres porteurs de la part d'information la plus importante et qui correspondent aux valeurs propres de plus forte valeur. Le nombre de vecteurs propres à conserver peut être fixe ou variable dans le temps en fonction du débit disponible. Cette nouvelle base donne donc la matrice DB T. Les coefficients de gain associés à cette base sont facilement calculés à partir de GD = Di.DβT. Dans ce mode de réalisation, la représentation des directivités s'effectue donc à partir de directivité de base. La matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = GDDB, OÙ DB est la matrice des directivités de base pour l'ensemble des bandes et GD la matrice des gains associés. Le nombre de lignes de cette matrice représente le nombre total de sources de la scène sonore et le nombre de colonnes représente le nombre de vecteurs de directivité de base.
Dans une variante de ce mode de réalisation, des directivités de base sont envoyées par groupe de bandes considérées, afin de représenter plus fidèlement les directivités. Il est possible par exemple de fournir deux groupes de directivité de base: une pour les basses fréquences et une pour les hautes fréquences. La limite entre ces deux groupes peut par exemple être choisie entre 5 et 7 kHz.
Pour chaque bande de fréquence, on transmet ainsi, le vecteur de gain associé aux directivités de base.
Pour ce mode de réalisation, le module de codage 230 comprend un module d'analyse en composante principale délivrant des vecteurs de directivités de base DB et des coefficients ou vecteurs de gain associés GD-
Ainsi, après ACP, un nombre limité de vecteurs de directivité sera codé et transmis. Pour cela, on utilise une quantification scalaire effectué par le module de quantification 240, des coefficients et des vecteurs de directivités de base. Le nombre de vecteurs de base à transmettre pourra être fixé, ou bien sélectionné au codeur en utilisant par exemple un seuil sur l'erreur quadratique moyenne entre la directivité originale et la directivité reconstruite. Ainsi, si l'erreur est inférieure au seuil, le ou les vecteur(s) de base jusqu'alors sélectionné(s) sont suffisant, il n'est alors pas nécessaire de coder un vecteur de base supplémentaire. Dans des variantes de réalisation, le codage des directivités est réalisé par une combinaison des deux représentations listées ci-dessus. La figure 3a illustre de façon détaillée, le bloc de codage de directivités 230, dans une première variante de réalisation.
Ce mode de codage utilise les deux schémas de représentation des directivités. Ainsi, un module 310 effectue une modélisation paramétrique comme expliqué précédemment pour fournir des paramètres de directivités (P).
Un module 320 effectue une analyse en composante principale pour fournir à la fois des vecteurs de directivités de base (DB) et des coefficients associés (GD).
Dans cette variante un module de sélection 330 choisit bande de fréquence par bande de fréquence, le meilleur mode de codage pour la directivité en choisissant le meilleur compromis reconstruction des directivités/débit.
Pour chaque directivité, le choix de la représentation retenue (représentation paramétrique ou par combinaison linéaire de directivités de base) se fait de manière à optimiser l'efficacité de la compression. Un critère de sélection est par exemple la minimisation de l'erreur quadratique moyenne. Une pondération perceptuelle peut éventuellement être utilisée pour le choix du mode de codage de la directivité. Cette pondération a pour but par exemple de favoriser la reconstruction des directivités dans la zone frontale, pour laquelle l'oreille est plus sensible. Dans ce cas, la fonction d'erreur à minimiser dans le cas du modèle de codage par ACP peut se mettre sous la forme suivante:
E = (W(Di - GDDB))2
Avec Di, les directivités originales et W, la fonction de pondération perceptuelle.
Les paramètres de directivités issus du module de sélection sont ensuite quantifiés par une étape Q par le module de quantification 240 de la figure 2. Dans une seconde variante du bloc de codage 230, les deux modes de codage sont cascades. La figure 3b illustre en détails ce bloc de codage. Ainsi, dans cette variante de réalisation, un module 340 de modélisation paramétrique effectue une modélisation pour un certain nombre de directivités et fournit en sortie à la fois des paramètres de directivités (P) pour les directivités modélisés et des directivités non modélisés ou directivités résiduelles DiR.
Ces directivités résiduelles (DiR) sont codées par un module d'analyse en composante principale 350 qui fournit en sortie des vecteurs de directivités de base (DB) et des coefficients associés (GD). Les paramètres de directivités, les vecteurs de directivités de base ainsi que les coefficients sont fournis en entrée du module de quantification 240 de la figure 2.
La quantification Q est effectuée en réduisant la précision en fonction de données sur la perception, puis en appliquant un codage entropique. Aussi, des possibilités d'exploitation de la redondance entre bandes fréquentielles ou entre trames successives peuvent permettre de réduire le débit. Des prédictions intra- trames ou inter-trames sur les paramètres peuvent donc être utilisées. De manière générale, les méthodes classiques de quantification pourront être utilisées. D'autre part, les vecteurs à quantifier étant orthonormés, cette propriété pourra être exploitée lors de la quantification scalaire des composantes du vecteur. En effet, pour un vecteur de dimension N, seul N-I composantes devront être quantifiées, la dernière composante pouvant être recalculée.
En revenant à la description de la figure 2, en sortie du quantificateur 240, un module de construction d'un flux binaire 250 insère ces informations de directivités codées dans un flux binaire Fb selon l'étape Con.Fb. Le codeur tel que décrit ici comprend en outre un module de sélection 260 apte à sélectionner à l'étape Select des sources principales (Snc) parmi les sources de la scène sonore à coder (Stot).
Pour cela, un mode de réalisation particulier utilise une méthode d'analyse en composante principale, ACP, dans chaque bande de fréquence dans le bloc 220 pour extraire toutes les sources de la scène sonore (Stot). Cette analyse permet de classer les sources en sous-bandes par ordre d'importance selon le niveau d'énergie par exemple.
Les sources de plus grande importance (donc de plus grande énergie) sont alors sélectionnées par le module 260 pour constituer les sources principales (Spπnc), qui sont ensuite matricées à l'étape M par le module 270 pour construire un signal somme (SSf,) (ou "downmix" en anglais).
Le nombre de sources principales (Sprjnc) est choisi en fonction du nombre de canaux du signal somme. Ce nombre est choisi inférieur ou égal au nombre de canaux. De préférence, on choisit un nombre de sources principales égal au nombre de canaux du signal somme. La matrice M est alors une matrice carrée prédéfinie.
Ce signal somme par bande de fréquence subit une transformée temps- fréquence inverse T1 par le module de transformée inverse 290 afin de fournir un signal somme temporel (Ss). Ce signal somme est ensuite encodé par un codeur de parole ou un codeur audio de l'état de l'art (par exemple: G.729.1 ou MPEG-4 AAC). Les sources secondaires (Ssec) peuvent être codées par un module de codage
280 et ajoutées au flux binaire dans le module de construction de flux binaire 250.
Pour ces sources secondaires, c'est-à-dire les sources qui ne sont pas transmises directement dans le signal somme, il existe différentes alternatives de traitements. Ces sources étant considérées comme non essentielles à la scène sonore, elles peuvent ne pas être transmises.
Il est cependant possible de coder une partie ou la totalité de ces sources secondaires par le module de codage 280 qui peut dans un mode de réalisation être un module de codage par transformée de Fourier à court terme. Ces sources peuvent ensuite être codées séparément en utilisant les codeurs audio ou de parole précités.
Dans une variante de ce codage, on peut ne coder directement les coefficients de la transformée de ces sources secondaires que dans les bandes dont on estime qu'elles sont importantes. Les sources secondaires peuvent être codées par des représentations paramétriques; ces représentations peuvent être sous la forme d'enveloppe spectrale ou d'enveloppe temporelle.
Ces représentations sont codées à l'étape Cod.Ssec du module 280 et insérées à l'étape Con.Fb dans le flux binaire. Ces représentations paramétriques constituent alors des informations de codage des sources secondaires.
Ce procédé de codage d'un signal multicanal tel que décrit est particulièrement intéressant par le fait que l'analyse est faite sur des fenêtres pouvant être de faible longueur. Ainsi, ce modèle de codage entraîne un faible retard algorithmique permettant son utilisation dans des applications où la maitrise du retard est importante.
Dans le cas de certains signaux multicanaux notamment de type ambiophonique, le codeur tel que décrit met en œuvre une étape supplémentaire de pré-traitement P par un module de pré-traitement 215. Ce module effectue une étape de changement de base afin d'exprimer la scène sonore en utilisant la décomposition en onde planes du champ acoustique.
Le signal ambiophonique original est vue comme la transformée de Fourier angulaire d'un champ sonore. Ainsi les différentes composantes représentent les valeurs pour les différentes fréquences angulaires. La première opération de décomposition en ondes planes correspond donc à prendre la composante omnidirectionnelle du signal ambiophonique comme représentant la fréquence angulaire nulle (cette composante est donc bien une composante réelle). Ensuite, les composantes ambiophonique suivantes (ordre 1, 2, 3, etc ..) sont combinées pour obtenir les coefficients complexes de la transformée de Fourier angulaire. Pour une description plus précise du format ambiophonique, on pourra se référer à la thèse de Jérôme Daniel, intitulé "Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia" 2001 , Paris 6.
Ainsi, pour chaque ordre ambiophonique supérieur à 1 (en 2-dimensions), la première composante représente la partie réelle, et la deuxième composante représente la partie imaginaire. Pour une représentation bidimensionnelle, pour un ordre O, on obtient O+l composantes complexes. Une Transformée de Fourier à Court Terme (sur la dimension temporelle) est ensuite appliquée pour obtenir les transformées de Fourier (dans le domaine fréquentiel) de chaque harmonique angulaire cette étape intègre alors l'étape de transformation T du module 210. Ensuite, on construit la transformée angulaire complète en recréant les harmoniques de fréquences négatives par symétrie hermitienne. Enfin, on effectue une transformée de Fourier inverse sur la dimension des fréquences angulaires pour passer dans le domaine des directivités. Cette étape de pré-traitement permet au codeur de travailler dans un espace de signaux dont l'interprétation physique et perceptive est simplifiée, ce qui permet d'exploiter plus efficacement les connaissances sur la perception auditive spatiale et ainsi améliorer les performances de codage. Le codage des signaux ambiophoniques reste cependant possible sans cette étape de pré-traitement. Pour les signaux non-issus des techniques ambiophoniques, cette étape n'est pas nécessaire. Pour ces signaux, la connaissance du système de captation ou de restitution associé au signal permet d'interpréter directement les signaux comme une décomposition en ondes planes du champ acoustique.
La figure 5 décrit à présent un décodeur et un procédé de décodage dans un mode de réalisation de l'invention.
Ce décodeur reçoit en entrée le flux binaire Fb tel que construit par le codeur décrit précédemment ainsi que le signal somme S5.
De la même façon que pour le codeur, l'ensemble des traitements est effectué par trame temporelle. Pour simplifier les notations, la description du décodeur qui suit décrit uniquement le traitement effectué sur une trame temporelle fixée et ne fait pas apparaître la dépendance temporelle dans les notations. Dans le décodeur, ce même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal. Pour retrouver les sources sonores, la première étape de décodage consiste à réaliser la transformée temps-fréquence T du signal somme Ss par le module de transformée 510 pour obtenir un signal somme par bande de fréquence, Ssf,.
Cette transformée est réalisée en utilisant par exemple la transformée de Fourier à court terme. Il faut noter que d'autres transformée ou bancs de filtres peuvent être également utilisés, et notamment des bancs de filtres non uniformes suivant une échelle de perception (e.g. Bark). On peut noter que de manière à éviter des discontinuités lors de la reconstruction du signal à partir de cette transformée, on utilise une méthode d'addition recouvrement. Pour la trame temporelle considérée, l'étape de calcul de la transformée de
Fourier à court terme consiste à fenêtrer chacun des nf canaux du signal somme Ss à l'aide d'une fenêtre w de longueur supérieure à la trame temporelle, puis à calculer la transformée de Fourier du signal fenêtre à l'aide d'un algorithme de calcul rapide sur npFT points. On obtient ainsi une matrice F complexe de taille npFT x nf contenant les coefficients du signal somme dans l'espace fréquentiel.
Dans la suite, l'ensemble du traitement s'effectue par bandes de fréquence. Pour cela, on découpe la matrice des coefficients F en un ensemble de sous-matrices Fj contenant chacune les coefficients fréquentiels dans la jeme bande. Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de décodage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constante dans les échelles ERB ou Bark. Par soucis de simplification, la description des étapes de décodage effectuée par le décodeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.
Le module 520 effectue un dématriçage N des coefficients fréquentiels de la transformée du signal somme de la bande de fréquence considérée de façon à retrouver les sources principales de la scène sonore. Plus précisément, la matrice Sπc des coefficients fréquentiels pour la bande de fréquence courante des npπnc sources principales est obtenue selon la relation :
SPπnc=BN, où N est de dimension nf x npπnc et B est une matrice de dimension nbmx nf où nbm est le nombre de composantes (ou bins) fréquentielles retenues dans la bande de fréquence considérée.
N est calculé pour permettre l'inversion de la matrice de mixage M utilisée au codeur. On a donc la relation suivante: MN=I.
Le nombre de lignes de la matrice N correspond au nombre de canaux du signal somme, et le nombre de colonnes correspond au nombre de sources principales transmises. Pour la matrice M, les dimensions sont inversées, I étant une matrice identité de dimensions npπnc x npπnc.
Les lignes de B sont les composantes fréquentielles dans la bande de fréquence courante, les colonnes correspondent aux canaux du signal somme. Les lignes de Spπnc sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source principale.
Il faut noter que le nombre de sources principales nnc est de préférence inférieur ou égale au nombre nf de canaux du signal somme pour assurer que l'opération soit inversible, et peut éventuellement être différent pour chaque bande de fréquence. Lorsque la scène est complexe, il peut arriver que le nombre de sources à reconstruire dans la bande de fréquence courante pour obtenir une reconstruction satisfaisante de la scène soit supérieur au nombre de canaux du signal somme.
Dans ce cas, des sources supplémentaires ou secondaires sont codées puis décodées à partir du flux binaire pour la bande courante par le module 550 de décodage du flux binaire.
Ce module de décodage décode les informations contenues dans le flux binaire et notamment, les informations de directivités et le cas échéant les sources secondaires.
Le décodage des sources secondaires s'effectue par les opérations inverses que celles qui ont été effectuées au codage. Quelque soit la méthode de codage qui a été retenue pour les sources secondaires, si des données de reconstruction ou informations de codage des sources secondaires ont été transmises dans le flux binaire pour la bande courante, les données correspondantes sont décodées pour reconstruire la matrice Ssec des coefficients fréquentiels dans la bande courante des nsec sources secondaires. La forme de la matrice Ssec est similaire à la matrice Spnnc, c'est à dire que les lignes sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source secondaire.
On peut ainsi construire la matrice complète S des coefficients fréquentiels de l'ensemble des ntot=nprinc+nSec sources nécessaires à la reconstruction du signal multicanal dans la bande considérée, obtenue en regroupant les deux matrices Spπnc et
Ssupp suivant la relation S = (SpntlL Smpp j . S est donc une matrice de dimension nb,n x ntot- Aussi, la forme est identique aux matrices Snc et Ssupp : les lignes sont les composantes fréquentielles dans la bande de fréquence courante, chaque colonne est une source, avec ntot sources au totale.
En parallèle de la reconstruction des sources qui vient d'être décrite, on réalise la reconstruction des directivités.
Les informations de directivités sont extraites du flux binaire à l'étape Decod. Fb par le module 550. Les sorties possibles de ce module de décodage du flux binaire dépendent des méthodes de codage des directivités utilisées au codage. Elles peuvent être sous forme de vecteurs de directivités de base DB et de coefficients associés GD et/ou des paramètres de modélisation P.
Ces données sont alors transmises à un module de reconstructions des informations de directivités 560 qui effectue le décodage des informations de directivités par des opérations inverses de celles effectuées au codage.
Le nombre de directivités à reconstruire est égal au nombre ntot de sources dans la bande de fréquence considérée, chaque source étant associée à un vecteur de directivité. Dans le cas de la représentation des directivités à partir de directivité de base, la matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = GDDB, OÙ DB est la matrice des directivités de base pour l'ensemble des bandes et GD la matrice des gains associés. Cette matrice de gain a un nombre de lignes égal au nombre total de sources ntot, et un nombre de colonnes égal au nombre de vecteurs de directivité de base.
Dans une variante de ce mode de réalisation, des directivités de base sont décodés par groupe de bandes de fréquence considérées, afin de représenter plus fidèlement les directivités. Comme expliqué pour le codage, on peut par exemple fournir deux groupes de directivités de base: un pour les basses fréquences et un pour les hautes fréquences. Un vecteur de gains associés aux directivités de base est ensuite décodé pour chaque bande.
Au final on reconstruit autant de directivités que de sources. Ces directivités sont regroupées dans une matrice Di où les lignes correspondent aux valeurs d'angle (autant de valeur d'angle que de canaux dans le signal multicanal à reconstruire), et chaque colonne correspond à la directivité de la source correspondante, c'est à dire que la colonne r de Di donne la directivité de la source qui est dans la colonne r de S. A partir de la matrice S des coefficients des sources et de la matrice D des directivités associées les coefficients fréquentiels du signal multicanal reconstruit dans la bande sont calculés dans le module de spatialisation 530 à l'étape SPAT., selon la relation:
Y=SDT, où Y est le signal reconstruit dans la bande. Les lignes de la matrice Y sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à un canal du signal multicanal à reconstruire. En reproduisant le même traitement dans chacune des bandes fréquentielles, on reconstruit les transformées de Fourier complètes des canaux du signal à reconstruire pour la trame temporelle courante. Les signaux temporels correspondants sont alors obtenues par transformée de Fourier inverse T ', à l'aide d'un algorithme rapide mis en œuvre par le module de transformée inverse 540. On obtient ainsi le signal multicanal Sm sur la trame temporelle courante. Les différentes trames temporelles sont ensuite combinées par méthode classique d'addition avec recouvrement (ou "overlap-add" en anglais) pour reconstruire le signal multicanal complet. De manière générale, des lissages temporels ou fréquentiels des paramètres pourront être utilisés aussi bien à l'analyse qu'à la synthèse pour assurer des transitions douces dans la scène sonore. Une signalisation de changement brutal de la scène sonore pourra être réservée dans le flux binaire pour éviter les lissages du décodeur dans le cas d'une détection d'un changement rapide de la composition de la scène sonore. D'autre part, des méthodes classiques d'adaptation de la résolution de l'analyse temps-fréquence peuvent être utilisées (changement de taille des fenêtres d'analyse et de synthèse au cours du temps).
De la même manière qu'au codeur, un module de changement de base peut effectuer un pré-traitement P"1 pour obtenir une décomposition en ondes planes des signaux, un module de changement de base 570 effectue l'opération inverse à partir des signaux en ondes planes pour retrouver le signal multicanal original.
Le codage du mode de réalisation décrit en référence à la figure 2 permet d'obtenir une compression efficace lorsque la complexité de la scène reste limitée. Lorsque la complexité de la scène est plus grande, c'est à dire lorsque la scène contient un nombre élevé de sources actives dans une bande de fréquence, ou d'importantes composantes diffuses, un nombre important de sources et de directivité associées devient nécessaire pour obtenir une bonne qualité de restitution de la scène. L'efficacité de la compression est alors amoindrie.
Une variante de réalisation du procédé de codage et d'un codeur mettant en œuvre ce procédé est décrite en référence à la figure 6. Cette variante de réalisation permet d'améliorer l'efficacité de codage pour les scènes complexes.
Pour cela, le codeur tel que représenté en figure 6 comporte les modules 215, 210, 220, 230, 240 tels que décrits en référence à la figure 2.
Il comporte également les modules 260, 270 et 290 tel que décrit en référence à la figure 2. Ce codeur comporte cependant un module de codage des sources secondaires 620, qui diffère du module 280 de la figure 2 dans le cas où le nombre de sources secondaires est important.
Dans ce cas de figure, une méthode de codage paramétrique des sources secondaires est mis en œuvre par ce module de codage 620.
Pour cela, on prend en compte les limites de la perception auditive spatiale.
Dans les bandes de fréquence où le nombre de sources secondaires est important, le champ est perceptivement assimilable à un champ diffus, et la représentation du champ par une ou plusieurs caractéristiques statistiques du champ est suffisante pour reconstruire un champ perceptivement équivalent.
Ce principe est assimilable au principe plus classiquement utilisé en codage audio pour la représentation des composantes bruitée. Ces composantes sont en effet couramment codées sous la forme de bruit blanc filtré avec des caractéristiques de filtrage variant dans le temps. Pour reconstruire de manière perceptivement satisfaisante ces composantes, seule la connaissance des caractéristiques du filtrage (l'enveloppe spectrale) est nécessaire, n'importe quel bruit blanc pouvant être utilisé lors de la reconstruction.
Dans le cadre de la présente invention, on utilise le fait que les composantes spatialement diffuses de la scène sonore peuvent être perceptivement reconstruites à partir de la simple connaissance de la directivité correspondante, et en contrôlant la cohérence du champ créé. Ceci peut être fait en utilisant des pseudo-sources construites par décorrélation, à partir d'un nombre limité de sources transmises et en utilisant les directivités des composantes diffuses estimées sur le signal multicanal original. L'objectif est alors de reconstruire un champ sonore statistiquement et perceptivement équivalent à l'original, même s'il est constitué de signaux dont les formes d'ondes sont différentes.
Ainsi, pour mettre en œuvre cette méthode, un certain nombre de sources secondaires ne sont pas transmises et sont remplacées par des pseudo-sources obtenues par décorrélation des sources transmises, ou par toute autre source artificielle décorrélée des sources transmises. On évite ainsi la transmission des données correspondant à ces sources et on améliore de manière significative l'efficacité du codage.
Dans un premier mode de réalisation, on choisit une source à transmettre au décodeur et un décorrélateur prédéfini connu à la fois du codeur et du décodeur, à appliquer à la source transmise pour construire, au décodeur des pseudo- sources.
Dans ce mode de réalisation, il n'est donc pas nécessaire de transmettre des données de décorrélation mais au moins une source servant de base à cette décorrélation doit être transmise (de façon effective et non paramétrique).
Dans un deuxième mode de réalisation, une représentation paramétrique des sources secondaires est obtenue par le module de codage des sources secondaires 620 et est également transmise au module de construction du flux binaire.
Cette représentation paramétrique des sources secondaires ou de sources diffuses s'effectue par exemple par une enveloppe spectrale. Une enveloppe temporelle peut également être utilisée. Dans une variante de ce mode de réalisation, les pseudo-sources sont calculées par un module 630 de décorrélation qui calcule les sources décorrélées à partir d'au moins une source principale ou avec au moins une source secondaire codée à transmettre.
Plusieurs décorrélateurs et plusieurs sources initiales peuvent être utilisés, et on peut sélectionner la source initiale associée à un type de décorrélateur donnant le meilleur résultat de reconstruction. Ces données de décorrélation comme par exemple l'indice du corrélateur utilisé et les données de choix de la source initiale comme l'indice de la source, sont ensuite transmis au module de construction du flux binaire pour y être insérée. Le nombre de sources à transmettre est donc réduit tout en gardant une bonne qualité perceptive du signal reconstruit.
La figure 7 représente un décodeur et un procédé de décodage adapté au codage selon la variante de réalisation décrite en figure 6.
Ce décodeur comporte les modules 510, 520, 530, 540, 570, 560 tels que décrit en référence à la figure 5. Ce décodeur diffère de celui décrit en figure 5 par les informations décodées par le module de décodage du flux binaire 720 et par le bloc de calcul de décorrélation 710.
En effet, le module 720 obtient outre des informations de directivités des sources de la scène sonore et le cas échéant des sources secondaires décodées, des données de représentation paramétriques de certaines sources secondaires ou sources diffuses et éventuellement des informations sur le décorrélateur et les sources transmises à utiliser pour reconstruire les pseudo-sources.
Ces dernières informations sont alors utilisées par le module de décorrélation 710 qui permet de reconstruire les pseudo-sources secondaires qui seront combinées aux sources principales et aux autres sources secondaires potentielles dans le module de spatialisation comme décrit en référence à la figure 5.
Les codeurs et décodeurs tels que décrit en référence aux figures 2, 6 et 5, 7 peuvent être intégrés à un équipement multimédia de type décodeur de salon, ordinateur ou encore équipement de communication tel qu'un téléphone mobile ou agenda électronique personnel.
La figure 8a représente un exemple d'un tel équipement multimédia ou dispositif de codage comportant un codeur selon l'invention. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de
- décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:
- obtention d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;
- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales; - matriçage des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux;
- codage des informations de directivité et formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir un signal multicanal représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal. Le dispositif comporte un module de sortie apte à transmettre un flux binaire
Fb et un signal somme Ss issus du codage du signal multicanal.
De la même façon, la figure 8b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.
Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de: - extraction dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;
- dématriçage du signal somme pour obtenir un ensemble de sources principales;
- reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées. Typiquement, la description de la figure 5 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir un flux binaire Fb et un signal somme Ss provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.
Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en œuvre par l'équipement. Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal.
Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.

Claims

REVENDICATIQNS
1. Procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte une étape de décomposition (T) du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:
- obtention (OBT) d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore; - sélection (Select) d'un ensemble de sources sonores de la scène sonore constituant des sources principales;
- matriçage (M) des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux;
- codage (Cod.Di) des informations de directivité et formation (Con.Fb) d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
2. Procédé de codage selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de codage (Cod Ssec) de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire.
3. Procédé selon la revendication 2, caractérisé en ce que les informations de codage des sources secondaires sont des enveloppes spectrales codées des sources secondaires.
4. Procédé selon la revendication 2, caractérisé en ce que le codage de sources secondaires comporte les étapes suivantes: - construction de pseudo-sources représentant au moins une partie des sources secondaires, par décorrélation avec au moins une source principale et/ou au moins une source secondaires codée;
- codage des pseudo-sources construites; et - insertion dans le flux binaire d'un indice de source utilisée et d'un indice de décorrélateur utilisé pour l'étape de construction.
5. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.
6. Procédé selon la revendication 5, caractérisé en ce que la représentation paramétrique comporte des informations de direction d'arrivée, pour la reconstruction d'une directivité simulant une onde plane.
7. Procédé selon la revendication 5, caractérisé en ce que la représentation paramétrique comporte des indices de sélection de forme de directivité dans un dictionnaire de formes de directivités.
8. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.
9. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.
10. Procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme, caractérisé en ce qu'il comporte les étapes suivantes:
- extraction (decod.Fb) dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;
- dématriçage (N) du signal somme pour obtenir un ensemble de sources principales;
- reconstruction (SPAT) du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.
11. Procédé de décodage selon la revendication 10, caractérisé en ce qu'il comporte en outre les étapes suivantes:
- extraction du flux binaire, d'informations de codage de sources secondaires codées; - décodage des sources secondaires à partir des informations de codage extraites;
- regroupement des sources secondaires aux sources principales pour la spatialisation.
12. Procédé de décodage selon la revendication 11, caractérisé en ce qu'il comporte en outre l'étape suivante:
- décodage des sources secondaires par utilisation d'une source effectivement transmise et d'un décorrélateur prédéfini pour reconstruire des pseudosources représentatives d'au moins une partie des sources secondaires.
13. Procédé de décodage selon la revendication 11, caractérisé en ce qu'il comporte en outre les étapes suivantes:
- extraction du flux binaire, d'un indice de source principale et/ou d'au moins une source secondaire codée et d'un indice d'un décorrélateur à appliquer à cette source; - décodage des sources secondaires par utilisation de la source et de l'indice de décorrélateur pour reconstruire des pseudo-sources représentatives d'au moins une partie des sources secondaires.
14. Codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte:
- un module (210) de décomposition du signal multicanal en bande de fréquence;
- un module (220) d'obtention d'informations de directivité apte à obtenir ces informations par source sonore de la scène sonore et par bande de fréquence, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;
- un module (260) de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales; - un module (270) de matriçage des sources principales issues du module de sélection pour obtenir un signal somme avec un nombre réduit de canaux;
- un module (230) de codage des informations de directivité et un module de formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.
15. Décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme, caractérisé en ce qu'il comporte:
- un module (550) d'extraction et de décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;
- un module (520) de dématriçage du signal somme pour obtenir un ensemble de sources principales;
- un module (530) de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.
16. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 9 et/ou d'un procédé de décodage selon l'une des revendications 10 à 13, lorsque ces instructions sont exécutées par un processeur.
PCT/FR2009/052491 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumeriques multicanaux WO2010070225A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP09803838.3A EP2374123B1 (fr) 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumeriques multicanaux
ES09803838T ES2733878T3 (es) 2008-12-15 2009-12-11 Codificación mejorada de señales de audio digitales multicanales
US13/139,577 US8964994B2 (en) 2008-12-15 2009-12-11 Encoding of multichannel digital audio signals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0858560 2008-12-15
FR0858560 2008-12-15

Publications (1)

Publication Number Publication Date
WO2010070225A1 true WO2010070225A1 (fr) 2010-06-24

Family

ID=40679401

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/052491 WO2010070225A1 (fr) 2008-12-15 2009-12-11 Codage perfectionne de signaux audionumeriques multicanaux

Country Status (4)

Country Link
US (1) US8964994B2 (fr)
EP (1) EP2374123B1 (fr)
ES (1) ES2733878T3 (fr)
WO (1) WO2010070225A1 (fr)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120070007A1 (en) * 2010-09-16 2012-03-22 Samsung Electronics Co., Ltd. Apparatus and method for bandwidth extension for multi-channel audio
CN105580072A (zh) * 2013-05-29 2016-05-11 高通股份有限公司 用于声场的空间分量的压缩的量化步长
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2647005B1 (fr) * 2010-12-03 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dispositif et procédé de codage audio spatial basé sur la géométrie
US9495591B2 (en) 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same
EP2665208A1 (fr) 2012-05-14 2013-11-20 Thomson Licensing Procédé et appareil de compression et de décompression d'une représentation de signaux d'ambiophonie d'ordre supérieur
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CA2880028C (fr) * 2012-08-03 2019-04-30 Thorsten Kastner Decodeur et procede destine a un concept generalise d'informations parametriques spatiales de codage d'objets audio pour des cas de mixage reducteur/elevateur multicanaux
US9396732B2 (en) * 2012-10-18 2016-07-19 Google Inc. Hierarchical deccorelation of multichannel audio
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
EP2860728A1 (fr) * 2013-10-09 2015-04-15 Thomson Licensing Procédé et appareil de codage et de décodage d'informations secondaires directionnelles
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US20150264483A1 (en) * 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
CN105336332A (zh) * 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US9940937B2 (en) 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US10559303B2 (en) * 2015-05-26 2020-02-11 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US9666192B2 (en) 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10070094B2 (en) 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
US9959880B2 (en) 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
US9832587B1 (en) 2016-09-08 2017-11-28 Qualcomm Incorporated Assisted near-distance communication using binaural cues
ES2834083T3 (es) 2016-11-08 2021-06-16 Fraunhofer Ges Forschung Aparato y método para la mezcla descendente o mezcla ascendente de una señal multicanal usando compensación de fase
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US11164606B2 (en) 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US10469968B2 (en) 2017-10-12 2019-11-05 Qualcomm Incorporated Rendering for computer-mediated reality systems
US10999693B2 (en) 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
US11062713B2 (en) 2018-06-25 2021-07-13 Qualcomm Incorported Spatially formatted enhanced audio data for backward compatible audio bitstreams
US11081116B2 (en) 2018-07-03 2021-08-03 Qualcomm Incorporated Embedding enhanced audio transports in backward compatible audio bitstreams
US10924876B2 (en) 2018-07-18 2021-02-16 Qualcomm Incorporated Interpolating audio streams
US11798569B2 (en) 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
US11128976B2 (en) 2018-10-02 2021-09-21 Qualcomm Incorporated Representing occlusion when rendering for computer-mediated reality systems
US11019449B2 (en) 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
US10972853B2 (en) 2018-12-21 2021-04-06 Qualcomm Incorporated Signalling beam pattern with objects
US11184731B2 (en) 2019-03-20 2021-11-23 Qualcomm Incorporated Rendering metadata to control user movement based audio rendering
US11122386B2 (en) 2019-06-20 2021-09-14 Qualcomm Incorporated Audio rendering for low frequency effects
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11354085B2 (en) 2019-07-03 2022-06-07 Qualcomm Incorporated Privacy zoning and authorization for audio rendering
US10972852B2 (en) 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11937065B2 (en) 2019-07-03 2024-03-19 Qualcomm Incorporated Adjustment of parameter settings for extended reality experiences
US11432097B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US11140503B2 (en) 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
US11356793B2 (en) 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US11317236B2 (en) 2019-11-22 2022-04-26 Qualcomm Incorporated Soundfield adaptation for virtual reality audio
US11356796B2 (en) 2019-11-22 2022-06-07 Qualcomm Incorporated Priority-based soundfield coding for virtual reality audio
US11089428B2 (en) 2019-12-13 2021-08-10 Qualcomm Incorporated Selecting audio streams based on motion
US11967329B2 (en) 2020-02-20 2024-04-23 Qualcomm Incorporated Signaling for rendering tools
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
US11750998B2 (en) 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
US11601776B2 (en) 2020-12-18 2023-03-07 Qualcomm Incorporated Smart hybrid rendering for augmented reality/virtual reality audio
KR20240025550A (ko) * 2021-05-27 2024-02-27 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 오디오 지향성 코딩

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104882A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
US20070269063A1 (en) * 2006-05-17 2007-11-22 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104882A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
US20070269063A1 (en) * 2006-05-17 2007-11-22 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BREEBAART, J.; HOTHO, G.; KOPPENS, J.; SCHUIJERS, E.; OOMEN, W.; VAN DE PAR, S.: "Background, concept, and architecture for the recent MPEG surround standard on multichannel audio compression", AUDIO ENGINEERING SOCIETY, vol. 55-5, 2007, pages 331 - 351, XP040508249
I.T. JOLLIFFE: "Principal Component Analysis", 2002, SPRINGER
S. MALLAT; Z. ZHANG: "Matching pursuit with time-frequency dictionaries", IEEE TRANSACTIONS ON SIGNAL PROCESSING, vol. 41, 1993, pages 3397 - 3415
SYLVAIN MARCHAND: "Modélisation informatique du son musical", PHD THESIS

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120070007A1 (en) * 2010-09-16 2012-03-22 Samsung Electronics Co., Ltd. Apparatus and method for bandwidth extension for multi-channel audio
US8976970B2 (en) * 2010-09-16 2015-03-10 Samsung Electronics Co., Ltd. Apparatus and method for bandwidth extension for multi-channel audio
CN105580072A (zh) * 2013-05-29 2016-05-11 高通股份有限公司 用于声场的空间分量的压缩的量化步长
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US11146903B2 (en) 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
US11962990B2 (en) 2013-05-29 2024-04-16 Qualcomm Incorporated Reordering of foreground audio objects in the ambisonics domain
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals

Also Published As

Publication number Publication date
US20110249821A1 (en) 2011-10-13
ES2733878T3 (es) 2019-12-03
EP2374123B1 (fr) 2019-04-10
US8964994B2 (en) 2015-02-24
EP2374123A1 (fr) 2011-10-12

Similar Documents

Publication Publication Date Title
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d'un signal audio multi-canal selon une analyse en composante principale
EP2539892B1 (fr) Compression de flux audio multicanal
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
KR101854964B1 (ko) 구면 조화 계수들의 변환
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
EP3427260B1 (fr) Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal
EP2691952B1 (fr) Allocation par sous-bandes de bits de quantification de paramètres d'information spatiale pour un codage paramétrique
EP2143102B1 (fr) Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
EP2168121B1 (fr) Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
EP2656342A1 (fr) Codage/decodage paramétrique stéréo amélioré pour les canaux en opposition de phase
EP2489039A1 (fr) Codage/décodage paramétrique bas débit optimisé
WO2017103418A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d'un signal audio multicanal
FR3049084A1 (fr)
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2022003275A1 (fr) Codage optimise d'une information representative d'une image spatiale d'un signal audio multicanal
WO2023232823A1 (fr) Titre: codage audio spatialisé avec adaptation d'un traitement de décorrélation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09803838

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13139577

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009803838

Country of ref document: EP