WO2014072513A1 - Nichtlineare inverse kodierung von multikanal-signalen - Google Patents

Nichtlineare inverse kodierung von multikanal-signalen Download PDF

Info

Publication number
WO2014072513A1
WO2014072513A1 PCT/EP2013/073526 EP2013073526W WO2014072513A1 WO 2014072513 A1 WO2014072513 A1 WO 2014072513A1 EP 2013073526 W EP2013073526 W EP 2013073526W WO 2014072513 A1 WO2014072513 A1 WO 2014072513A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
gain
coding device
signal
coding
Prior art date
Application number
PCT/EP2013/073526
Other languages
English (en)
French (fr)
Inventor
Clemens Par
Original Assignee
Stormingswiss Sàrl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stormingswiss Sàrl filed Critical Stormingswiss Sàrl
Priority to JP2015541175A priority Critical patent/JP2016501456A/ja
Priority to AU2013343445A priority patent/AU2013343445A1/en
Priority to CN201380070069.5A priority patent/CN105229730A/zh
Priority to KR1020157015177A priority patent/KR20150101999A/ko
Priority to RU2015121941A priority patent/RU2015121941A/ru
Priority to EP13789019.0A priority patent/EP2917908A1/de
Priority to US14/441,898 priority patent/US20150371644A1/en
Priority to SG11201504514WA priority patent/SG11201504514WA/en
Publication of WO2014072513A1 publication Critical patent/WO2014072513A1/de
Priority to HK16107907.9A priority patent/HK1220034A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • upmixing Obtaining higher order signals (with a higher number of output channels) from lower order signals (with fewer channels) is an important part of audio technology. This is referred to as "upmixing".
  • the present invention provides the audio coding advanced options, spatial
  • Coding process - do not need to be constantly added to the data stream.
  • the system works independently of the choice of a suitable codec for the compression of
  • Base Audio Coder Such codecs describe, for example, valid or in-progress standards that have become known as MP3, AAC, HE-AAC or USAC.
  • inverse coding is understood to mean a technical procedure that involves one or more methods or one or more
  • Audio signals generated by the specific application of functionally interdependent gains and delays are related to the specific application of functionally interdependent gains and delays.
  • EP1850629 or WO2009138205 or WO2011009649 or WO2011009650 or WO2012016992 or WO2012032178 generates spatial audio signals whose individual channels have no different modulation. Such a uniform modulation is necessary to achieve a uniform image of the phantom sound sources. This applies, for example, as FIG. 6F, FIG. 7F and FIG. 8F of WO2012032178 for a 5.1 surround signal, also for the inverse coding of
  • Multi-channel signals For example, from ITU-R BS.775-1 are so-called
  • Matrix Surround Downmixing involves the use of 90 ° filters known in the art.
  • Such downmixing techniques may be adaptive by adjusting the levels of specific channels over time
  • Loudspeaker arrangements are known from the literature, which are compared with commercially available surround arrangements such 5.1 or 7.1, where the speakers are in one plane, also provide speakers outside this plane. These are partly own
  • Speaker signals which is usually a
  • WO2011009649 describes a system in which two panoramic potentiometers of an MS matrix are connected downstream within a device or a method for linear inverse coding, wherein each panoramic potentiometer has two
  • Busbar signals forms. Such an arrangement allows any increase or decrease in the degree of correlation and leads to an increase or
  • the first output of the MS matrix if the first Panoramic potentiometer is effective, in a predetermined ratio the two channels of the first
  • Pan potentiometer is effective, fed in a predetermined ratio to the two channels of the second busbar signal.
  • Audio signals or the levels used in the downmix may be wholly or partially derived, or may be determined in whole or in part independently of these.
  • the inverse coding already take place on the basis of their differently controlled output channels. In both cases we speak, if such a technical step
  • the non-linear inverse coding therefore has no uniform energy density with slightly changed
  • Phantom sound source formation contradicts the ostensible postulate of the most homogeneous stereo base between adjacent speakers for the production of phantom sound sources.
  • the present invention thus utilizes this principle in a targeted manner.
  • punctiform sound sources compared to the perception of phantom sound sources between the speakers.
  • the nonlinear inverse coding thus ensures that a correct distribution or weighting of these punctiform sound sources as well as the formed phantom sound sources between the
  • Loudspeakers takes place.
  • the perception of the depth graduation of phantom sound sources can be obtained
  • Phantom sound source based signals substantially depends on the loudness of a loudspeaker signal as well as the perceived spatiality.
  • perceived spatiality can be directly controlled by an inverse coding, without the need for additional technical means such as artificial reverberation.
  • the levels of the output signals of an inverse coding can vary in a time-dependent manner, for example in the case of an adaptive downmix method, or else remain constant over time, this
  • Busbar signals are formed. Rather, these amplification factors only affect the channel to which they are applied. The technical effect is thus not the arbitrary increase or decrease of the degree of correlation of two equally weighted channels. Also, with non-linear inverse coding, if a gain factor of the final level correction is at least one
  • Output signal converges to 0, unlike WO2011009649, the audio information of this signal inevitably lost, and it is thus no longer the lossless increase or decrease in the image width on the stereo base between two speakers, but to the, in their simplicity convenient, purposeful uniform Weighting of perceived point sound sources
  • Busbar signals forms to consider as part of a linear inverse coding on the
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that either: a gain of one of the two output signals
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that either: a gain of one of the two output signals
  • An embodiment shows a device / a
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that the non-linear inverse coding is performed on the basis of signals of a downmix.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that the downmix is formed on the basis of one or more gains, which are the factor 0.5 or the factor
  • An exemplary embodiment shows a device / a method for the non-linear inverse coding of an audio signal, characterized in that the downmix is formed in addition to means for forming sum signals by means of further technical means.
  • One embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for directly reproducing the downmix on loudspeakers are used.
  • An exemplary embodiment shows a device / method for the non-linear inverse coding of an audio signal, characterized in that means for obtaining further signals from previously existing or formed signals are used.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means are used for summing signals.
  • An embodiment shows an apparatus / method for non-linear inverse coding of a Audio signal, characterized in that means for subtracting signals are used.
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means for the correlation comparison of signals are used.
  • An exemplary embodiment shows a device / method for the non-linear inverse coding of an audio signal, characterized in that means for normalizing signals are used based on the levels of previously existing or formed signals.
  • One embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means are used for summing signals respectively with non-adjacent loudspeaker channels.
  • An embodiment shows an apparatus / method for non-linear inverse encoding of an audio signal, characterized in that means are used to form a fictitious loudspeaker.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for coding the downmix by means of a base audio coder are used.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means are used to form signals for a loudspeaker arrangement of the form Hamasaki 22.2 or for a subset of such a loudspeaker arrangement.
  • An exemplary embodiment shows a device / method for the non-linear inverse coding of an audio signal, characterized in that means for determining the position of phantom sound sources are used.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for a signal analysis or means for the determination of algebraic invariants are used.
  • One embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means for a Karhunen-Loeve transformation (KLT) or Principal Component Analysis (PCA) are used.
  • KLT Karhunen-Loeve transformation
  • PCA Principal Component Analysis
  • An exemplary embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for optimizing the determination of algebraic invariants are used by means of a Karhunen-Loeve transformation (KLT) or Principal Component Analysis (PCA).
  • KLT Karhunen-Loeve transformation
  • PCA Principal Component Analysis
  • One embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that either: a gain of the non-linear inverse coding has the same factor of a gain used in the downmix or a multiple of this gain; or:
  • At least one of the two gains (60001, 60002) of the nonlinear inverse coding has or has the same factor of a gain used in the downmix
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that the
  • non-linear inverse coding means for optimization using the corresponding linear inverse coding.
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means for the immediate optimization of one or more
  • An embodiment shows an apparatus / method for nonlinear inverse encoding of an audio signal, characterized in that means for optimizing one or more parameters of the nonlinear or associated linear inverse
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means for optimizing one or more parameters of the nonlinear or associated linear inverse coding are used on the basis of a target correlation k.
  • An embodiment shows an apparatus / method for non-linear inverse encoding of an audio signal, characterized in that means are used to determine the nature of the signal.
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means are used for the determination of speech or vocal signals or transients.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for determining the target correlation k based on
  • One embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means are used to provide either nonlinear inverse coding: specify a target correlation k> +0.51 for voice or vocal recordings; or:
  • One embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means are used to provide for nonlinear linear inverse coding either:
  • An embodiment shows a device / a
  • Method for the non-linear inverse coding of an audio signal characterized in that for a non-linear or associated linear inverse coding means are used for their optimization, which in turn use a signal section smaller than or equal to 40 ms.
  • An embodiment shows an apparatus / method for the non-linear inverse coding of an audio signal, characterized in that for a non-linear or associated linear inverse coding means are used for their optimization, the in turn means for weighting the fictional
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for optimizing one or more parameters of a nonlinear or associated linear inverse
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that means for level correction of signals based on the respective speaker positions are used.
  • An embodiment shows a device / method for non-linear inverse coding of an audio signal, characterized in that a
  • Panoramic potentiometer is used.
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for varying the gain (717) with the factor ⁇ are used.
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that
  • An embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that means for storing or transmitting one or more parameters of a non-linear or associated
  • An exemplary embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that it has fewer output channels than a multi-channel signal.
  • An exemplary embodiment shows a device / method for the non-linear inverse coding of an audio signal, characterized in that it has more output channels than an audio signal
  • An embodiment shows an apparatus / method for nonlinear inverse coding of an audio signal, characterized in that the
  • Speaker arrangement takes place, which corresponds to the format of the respective signal.
  • One embodiment shows an apparatus / method for non-linear inverse coding of an audio signal, characterized in that either: means for wave field synthesis are used; or: Means may be used for Head Related Transfer Functions (HRTFs) or Binaural Room Impulse Responses (BRIRs).
  • HRTFs Head Related Transfer Functions
  • BRIRs Binaural Room Impulse Responses
  • FIG. 1 shows the loudspeaker arrangement of the format Hamasaki 22.2 of the Japanese transmitter NHK.
  • FIG. 2 shows the example of a downmix matrix for the Hamasaki 22.2 format.
  • FIG. 3 shows a loudspeaker arrangement for a
  • FIG. 4 shows the example of a downmix matrix for a 12.1 signal. This in turn makes one
  • FIG. 5 shows the example of a circuit for the non-linear inverse coding of an audio signal.
  • FIG. 6 shows another example of a non-linear inverse coding circuit of FIG
  • Audio signal where l 2 .
  • FIG. Figure 7 illustrates a matrix for extraction of
  • FIG. Fig. 8 shows a further example (shown in Fig. 7) of the extraction of a signal by means of correlation comparison.
  • FIG. Figure 9 shows a normalization of signals (shown in Figure 8) based on known levels of the original multi-channel signal.
  • FIG. 10 shows a (following in FIG. 9)
  • FIG. Figure 11 shows the matrix of two non-linear inverse encodings (following Figure 10).
  • FIG. 12 shows the following (shown in FIG. 11)
  • FIG. Fig. 13 shows the attenuation characteristic of a prior art pan potentiometer. This attenuation curve can also be used in multichannel coding as the basis for the calculation of level corrections.
  • FIG. 14 shows the second example of a matrix for extracting signals by means of
  • FIG. Fig. 15 shows a normalization of signals obtained (in Fig. 14) from known levels of sum signals.
  • FIG. Fig. 16 shows a (following in Fig. 15)
  • FIG. Figure 17 shows the matrix of two non-linear inverse codings (following Figure 16).
  • FIG. 18 shows the following (shown in FIG. 17)
  • FIG. 19 shows the block diagram of a circuit for optimizing linear or non-linear inverse coding.
  • FIG. 20 shows by way of example the header information as well as the downmix for - based on a
  • FIG. 21 shows the downmix matrix for the downmix of 3/2 source material according to ITU-R BS.775-1, Table 2.
  • a downmix matrix is defined, which may contain various technical means (such as those described by Faller and Schlllebeeckx, supra) and in functional dependence on a signal analysis of the respective multi-channel signal (for example, by means of the State of the art Karhunen Loeve transformation (KLT) or Principal Component Analysis (PCA) or by algebraic invariants according to EP1850629, WO2009138205, WO2011009649,
  • KLT Karhunen Loeve transformation
  • PCA Principal Component Analysis
  • WO2011009650, WO2012016992 and WO2012032178 can be determined or optimized (we speak in the following of an "adaptive downmix") or a priori
  • FIG. 2 the example of a downmix for Hamasaki 22.2, which consists of a total of four stereo signals with the following loudspeaker arrangement (see FIG. 1): FL '-F', BL '-BR', TpFL '-TpFR', TpBL '-TpBR' ,
  • the illustrated matrix is similar to the prior art matrix of FIG. 21, although the rows are to be read as columns and vice versa the columns as rows.
  • TpC with a level reduced by -6 dB (corresponding to a multiplication of the signal level by a factor of 0.5) is mixed with TpFL ', TpFR', TpBL 'and TpBR', respectively
  • Playback of the downmix leads to the psychoacoustic phenomenon of localization of such a speaker TpC (henceforth called “fictional TpC”);
  • the same principle of operation can also be applied to other loudspeakers, sometimes using different level differences (henceforth called “fictitious loudspeakers”, see below).
  • short-term cross-correlation will be used for extraction by means of correlation comparison, which will be discussed frequently in the following
  • BtFC is mixed with -3dB reduced level respectively BtFL 'and BtFR'.
  • BtFL ' is then mixed with the level reduced by -3dB each to FL' and BR ', and then BtFR' is mixed in with FRD and BL 'reduced by -3dB, respectively.
  • BtFL then approximately approximates the correlated fraction of FL 'and BR', BtFR approximately the correlated fraction of FR 'and BL', and BtFC approximately correlates
  • Correlation comparison extracted signal which leads to the basic problem of the fundamental impossibility of an absolute reconstruction of a signal of higher order from a signal of lower order exclusively by means of correlation comparison.
  • nonlinear inverse coding opens up completely new perspectives!
  • a mitigation of the problem can be brought about, for example, if the absolute levels of the previously existing or stepwise obtained signals are known, and thus, since the degree of correlation +1 for the signal components in question, draw conclusions about the respective level of the correlated signal components in all affected channels:
  • the correlated signal component with absolute level p of BtFL which was respectively mixed with FL '(with known absolute level p 2 ) and BR' (with known absolute level p 3 ) with the absolute level p - 3dB, allows its approximate extraction by means of Correlation comparison, now the resulting signal BtFL * the absolute level p
  • the correlated signal portion with absolute level p 4 of BtFR admixed with each of FR '(with known absolute level p 5 ) and BIZ (with known absolute level p 6 ) with absolute level p 4 - 3dB allows its approximate extraction by means of correlation comparison, whereby now the resulting signal BtFR * has the absolute level p 4 and its subtraction with the absolute level p - 3dB of FR 'with the absolute level p 5 or its subtraction with the absolute level p 4 - 3dB of BL' with the absolute level p 6 the respective resulting channels - but only approximately - the
  • a downmix matrix may be the factor
  • Downmix is a 7.1 surround signal, can be defined in the same manner as in the above example, a fictional TpC.
  • TpFL and TpBL are summed with the level reduced by -3dB, respectively, and the resultant sum is mixed with each level reduced by -3dB, respectively, FL 'and BL'.
  • TpFR and TpBR are summed with the level reduced by -3dB, respectively, and the resulting sum mixed with the levels reduced by -3dB, respectively, to FR 'and BR'.
  • the associated downmix matrix is FIG. 4 to remove.
  • the sum of TpFL, TpBL and TpC or the sum of TpFR, TpBR and TpC can be extracted approximately with the above-described correlation comparison of FL 'and BL' or FR 'or BR'. This is for the respective inverse coding of these sums
  • TpFR * and TpBR * are of crucial importance.
  • Both illustrated downmix matrices are concrete examples based on ITU-R BS.775-1; however, level adjustments other than -3dB and -6dB are, as will be appreciated, readily possible and desirable in the specific case.
  • Tonstudiotechnik. Volume I - Saur: Kunststoff 1987 shows on page 375 the attenuation curve of a state of the art belonging to panoramic potentiometer (see FIG. 13). This attenuation curve can also be called
  • automatic or adaptive downmix related levels may be wholly or partially derived, or may be determined in whole or in part independently of these.
  • the optimization of the nonlinear inverse coding of a downmix generated by any technical means can already take place on the basis of their differently controlled output channels.
  • Computing capacity for decoding and playback of audio data is available - yet high quality multichannel signals can be reproduced.
  • Speaker arrangement which corresponds to the display format of the resulting multi-channel signal, via a speaker assembly that simulates such a display format (for example by means of the prior art - based on the principle of Huygens - wave field synthesis) or even done via headphones or speakers that in this case, the loudspeaker positions are simulated by means of known prior art Head Related Transfer Functions (HRTFs) or Binaural Room Impulse Responses (BRIRs).
  • HRTFs Head Related Transfer Functions
  • BRIRs Binaural Room Impulse Responses
  • FIG. 5 The example of a basic circuit according to the invention for non-linear inverse coding is shown in FIG. 5 shown, which is characterized by the downstream
  • FIG. 6 shows the downstream connection of two different gains (60001, 60002), which are for example the non-linear one Inverse coding of complex multi-channel signals prove to be extremely beneficial.
  • gains 50001, 60001, 60002
  • EP1850629 For the basic operation of both circuits is, apart from just mentioned, in FIG. 5 and FIG. 6 illustrated gains (50001, 60001, 60002), on EP1850629,
  • FIG. 7 illustrates the extraction by means of
  • FIG. Figure 8 illustrates the correlation comparison between BtFL 'and BtFR', resulting in BtFC '.
  • FIG. Figure 11 now illustrates the nonlinear inverse coding of FL '', yielding FL '''andFLc'.
  • FRc ' also appears amplified by a factor of 0.7071.
  • FL '''andFR''' are normalized to the known levels of the original signals of the same name, which finally results in FL * and FR * .
  • the channels FLc 'and FRc' are then adjusted to the normalized signals FL * and FR * so that all level ratios of the non-linear inverse coding are maintained (thus the gains each with the factor 0.7071 in relation to the current level of these channels for these remain effective), and finally conclude FLc * and FRc * .
  • the means or methodologies thus used for this non-linear inverse coding again comprise:
  • FIG. 14 illustrates the approximate extraction of the above-described sum TpL 'of TpFL, TpBL and TpC by means of correlation comparison of FL' and BL 'and also the approximate extraction of those described above Sum TpR 'of TpFR, TpBR and TpC using
  • TpFL normalizes the original level of the sum of TpFL, TpBL and TpC and yields TpL ''.
  • TpR ' is also normalized to the original level of the sum of TpFR, TpBR and TpC and yields TpR' '.
  • TpL '' is subtracted with -3dB reduced level from each of FL 'and BL', resulting in finally FL * and BL * .
  • TpR '' is subtracted from FR 'and BR' at -3dB of reduced level, resulting in finally FR * and BR * .
  • FIG. Figure 17 now illustrates the non-linear inverse coding of TpL '', resulting in TpFL '' and TpBL ''.
  • TpBL '' appears amplified by a factor of 0.7071. Likewise finds one
  • TpR '' nonlinear inverse coding of TpR '', resulting in TpFR '' and TpBR ''.
  • TpBR '' also appears amplified by a factor of 0.7071.
  • TpFL '' and TpFR '' are normalized to the known levels of the original signals of the same name, resulting in TpFL * and TpFR * .
  • the channels TpBL '' and TpBR '' are then adapted to the thus normalized signals TpFL * and TpFR * so that all levels of the non-linear inverse encoding are maintained
  • nonlinear inverse decoding whose parameters are to be determined in such a way that the highest possible approximation of the resulting signal to the
  • the degree of correlation r of those original signal pairs is determined on the basis of the short-term cross-correlation, which are to be approximated in the sequence by non-linear inverse coding. It is on WO2011009649, page 12 (line 7) to page 13 (line 10), as well as on
  • this degree of correlation r may be negative or in an environment of zero. This would lead to a strongly decorrelated signal in an inverse coding, which starts from a single-channel input signal, but at the same time to strong artifacts in the case of transients, vocal or vocal recordings.
  • the specified lower limits for the specific signal types may also be between -0.10 and -0.15
  • the linear or nonlinear inverse coded signal is then optimized so that be on the basis of
  • Short-term cross-correlation correlate certain r with the set target correlation k matches.
  • the position of the phantom sound sources is determined in the case of the original signal pair or the linear or nonlinear inverse coded signal to be optimized, for example with the state-of-the-art Karhunen-Loeve transformation (KLT) or Principal Component Analysis (PCA). or also its algebraic invariants according to EP1850629, WO2009138205, WO2011009649, WO2011009650, WO2012016992 and WO2012032178. A combination of the just mentioned methods is also possible.
  • KLT Karhunen-Loeve transformation
  • PCA Principal Component Analysis
  • a Karhunen-Loeve transformation can first be carried out on a signal section of, for example, 40 ms of the original signal pair, with the aid of which the linkage A (WO 2212016992 on page 4 (line 22) to page 5 (line 2) t) or several links / i A (t), 2 A (t), ..., f p A (t) of at least two signals 5 1 (t), s 2 (t), ⁇ / s m (or their transfer functions t ⁇ s ⁇ t), t 2 (s 2 (t)),
  • KLT Karhunen-Loeve transformation
  • Peak is located at the origin of the complex number plane and its axis of symmetry perpendicular to the complex plane
  • WO2012016992 page 10 (line 21) to page 12 (line 3) and, for example, according to the figures to WO2012016992, described in detail from page 19 (line 1) to page 78 (line 15) optimized.
  • WO2012016992 (FIG.1B, 3A, 4A, 5A, 6A, 7A, 7B, 8A) a gain in accordance with FIG. 5 or FIG. Insert 6 of the present application and thus directly optimize the already non-linear inverse coded signal.
  • encoded signal can be considered or optimized in an optional fifth step with respect to the main reflections and the reverb tail.
  • a signal cutout of 40 ms is generally sufficient to keep the latency of the entire coding correspondingly low and nevertheless to record all essential parameters.
  • Correlation degree r coincides with the specified target correlation k
  • Transparency is assessed less with respect to the absolute position of the phantom sound sources than with respect to the energy density of the sound field, and
  • Nonlinear inverse coding in particular the advantage of a homogeneous stereo base, the optimization - in particular with regard to degree of correlation, location of the phantom sound sources and the main reflections and the reverb tail - much easier.
  • FIG.14 for example, FIG.14, FIG.15, FIG.16, FIG.17, FIG.18;
  • Coding may be transmitted once for each signal segment (e.g., every second).
  • the permanent transfer for example, to a sample or a frame or its sections, although
  • This increase or decrease of the total level can, in particular, take into account the peculiarities of a base audio coder, which is based on the subjective
  • Loudness impression of a multi-channel signal can exert significant influence.
  • DRC Dynamic Range Control
  • a higher order signal may be derived with any speaker arrangement, as non-existent channels, for example, by linear or nonlinear inverse coding, can be derived from existing or
  • a “non-linear inverse coding” is characterized by the superficial not useful additional downstream of at least one gain (50001) in the left or in the right output channel of an arrangement for an "inverse coding” or “linear inverse coding
  • Embodiments are part of the invention.
  • a gain in the sense of the claims may mean both a gain factor greater or less than 1, i.
  • a gain in the sense of the invention can also mean a weakening.
  • Two signals based on a multi-channel signal may both directly be two channels of the multi-channel signal, or one (or both) of the two signals may be based on the combination of two channels of the multi-channel signal. The same applies to signals that are based on a downmix signal.
  • encoding includes the notion of encoding as well as decoding.
  • upmix describes the formation of a higher number of channels from a smaller number of channels.
  • downmix describes the formation of a smaller number of channels from a higher number of channels.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Upmix-oder Kodiervorrichtungeines Audiosignals aufweisend: eine inverse Kodierungsvorrichtung zur Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem Eingangssignal; gekennzeichnet durch einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (50001); oder einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (60001) und einen der inversen Kodierungsvorrichtung in dem zweiten Kanal nachgeschalteten zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.

Description

NICHTLINEARE INVERSE KODIERUNG VON MULTI KANAL- SIGNALEN
Die Gewinnung von Signalen höherer Ordnung (mit einer höheren Anzahl von Ausgangskanälen) aus Signalen niedrigerer Ordnung (mit einer geringeren Anzahl von Kanälen) stellt einen wichtigen Teil der Audiotechnik dar. Diese wird als „Upmixing" bezeichnet.
Ebenso stellt die effiziente Kodierung von Multikanal- Signalen mit naturgemäß hoher Bandbreite für zum Stand der Technik gehörende psychoakustische Kodierverfahren eine große Herausforderung dar. Insbesondere Formate wie das von japanischen Sender NHK entwickelte
dreidimensionale System Hamasaki 22.2 benötigen hohe permanente räumliche Bitraten („Spatial Bitrates") .
Sollen derartige dreidimensionale Systeme in bestehende Daten eingebettet werden, oder sind die Anforderungen an die Rechenleistung des dekodierenden Systems so gestaltet, dass nur wenig Kapazität für die Dekodierung und Wiedergabe von Audiodaten zur Verfügung stehen („Low Computational Complexity Systems") , versagen zum Stand der Technik gehörende psychoakustische
Kodierverfahren .
Die Patentanmeldungen und Publikationen zu
psychakustischen und insbesondere räumlichen
Kodierverfahren sind zahllos. Auf eine extensive
Darstellung muss demnach verzichtet werden. Ein
gemeinsames Merkmal stellen jedoch permanente Spatial Bitrates dar, die einem Decoder übermittelt werden müssen, um entsprechende Multikanal-Signale extrahieren zu können. Die vorliegende Erfindung gibt der Audiokodierung erweiterte Möglichkeiten an die Hand, räumliche
Audiosignale anhand von nur wenigen Parametern gültig zu definieren, die - im Gegensatz zu bekannten psychoakustischen und insbesondere räumlichen
Kodierverfahren - dem Datenstrom nicht ständig hinzugefügt werden müssen. Insbesondere arbeitet das System unabhängig von der Wahl eines passenden Codecs zur Kompression von
Audiodaten („Base Audio Coder"). Solche Codecs umschreiben beispielsweise gültige oder in Arbeit befindliche Standards, die als MP3, AAC, HE-AAC oder USAC bekannt geworden sind.
Unter „inverser Kodierung" wird im folgenden ein technischer Ablauf verstanden, der sich eines oder mehrerer Verfahren oder einer oder mehrerer
Vorrichtungen der Ansprüche der Anmeldungen EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 bedient. Die eben genannten Dokumente werden hiermit als Referenz eingeführt .
Insbesondere wird unter „inverser Kodierung" ein technischer Vorgang beschrieben, der räumliche
Audiosignale durch die spezifische Anwendung von funktional voneinander abhängigen Gains und Delays generiert.
Insbesondere bauen die in EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 beschriebenen Systeme auf dem Prinzip einheitlicher Energiedichte zur gültigen Erzeugung von Phantomschallquellen auf. Insbesondere werden in
EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 räumliche Audiosignale generiert, deren einzelne Kanäle keine unterschiedliche Aussteuerung aufweisen. Eine solche einheitliche Aussteuerung ist notwendig, um eine gleichmäßige Abbildung der Phantomschallquellen zu erreichen. Dies gilt, wie beispielsweise FIG. 6F, FIG. 7F und FIG. 8F von WO2012032178 für ein 5.1 Surround- Signal zeigen, auch für die inverse Kodierung von
Multikanal-Signalen . Beispielsweise aus ITU-R BS.775-1 sind sogenannte
Downmix-Verfahren bekannt (siehe Fig. 21). Hierbei handelt sich um ein Additionsschema zur Verringerung der Kanalanzahl, bei dem teilweise der Pegel
spezifischer Kanäle verringert wird, beispielweise um - 3dB (was einer Multiplikation des Signalpegels mit dem
Faktor 1/V2 oder gerundet 0.7071 entspricht) bzw. -6dB (was einer Multiplikation des Signalpegels mit dem Faktor 0.5000 entspricht) . Solche Additionsschemata können andere Pegel für spezifische Kanäle aufweisen, die auch in funktionaler Abhängigkeit von einer Signalanalyse - etwa der zum Stand der Technik gehörenden Karhunen-Loeve- Transformation (KLT) oder Principal Component Analysis (PCA) oder mittels algebraischer Invarianten gemäss EP1850629, W02009138205 , W02011009649 , W02011009650 , WO2012016992 und WO2012032178 - bestimmt bzw. optimiert werden können oder auch um weitere spezifische
technische Mittel bereichert sein können:
So schlugen etwa Faller und Schillebeeckx auf der 130th AES Convention in London in P4-5 ("Improved ITU and
Matrix Surround Downmixing") die Verwendung von aus dem Stand der Technik bekannten 90°-Filtern vor.
Insgesamt stellen derartige Downmix-Verfahren die
Grundlage für die Wiedergabe von Signalen mit einer höheren Anzahl von Audiokanälen ("Signale höherer
Ordnung") auf Wiedergabesystem mit einer geringeren Anzahl von Audiokanälen ("Signale niedrigerer Ordnung") dar und liefern im weiteren die Voraussetzung für die Reduktion der Bandbreite von Audiosignalen, wie sie aus der Audiokodierung etwa für Standards wie MPEG Surround bekannt sind.
Derartige Downmix-Verfahren können adaptiv sein, indem die Pegel spezifischer Kanäle über den zeitlichen
Verlauf sich verändern („adaptiver Downmix") , oder dieselben Pegel spezifischer Kanäle bleiben über den zeitlichen Verlauf hinweg konstant und sind demzufolge nicht-adaptiv („automatischer Downmix").
Insbesondere können derartige Downmix-Verfahren für eine direkte akustische Wiedergabe des Downmix
optimiert sein, oder diese Downmix-Verfahren sind rein für eine Reduktion der Bandbreite von Audiosignalen bestimmt.
Aus der Literatur sind Lautsprecheranordnungen bekannt, die gegenüber marktüblichen Surround-Anordnungen wie 5.1 oder 7.1, bei denen sich die Lautsprecher in einer Ebene befinden, auch Lautsprecher ausserhalb dieser Ebene vorsehen. Diese stellen teilweise eigene
Standards dar, wie etwa das vom japanischen Sender NHK entwickelte dreidimensionale System Hamasaki 22.2, aus dem sich die meisten der heute bekannten
Multikanalverfahren ableiten lassen. Es handelt sich dabei insgesamt um hochkomplexe Systeme, bei denen sich die Bildung unzähliger Phantomschallquellen zwischen jeweils benachbarten Lautsprechern beobachten lässt.
Insgesamt führt die inverse Kodierung von Surround- Signalen wie 5.1 oder 7.1 oder auch von
dreidimensionalen Systemen unvermeidlich zu
Lautsprechersignalen, die in der Regel eine
einheitliche Aussteuerung und somit unnatürlich hohe Energiedichte aufweisen. Allerdings ist gemäss Stand der Technik eine solche Energiedichte notwendig, um entsprechende Phantomschallquellenbildung zu
ermöglichen. In der Folge bezeichnen wir ein solches Vorgehen deshalb als "lineare inverse Kodierung".
Insbesondere beschreibt WO2011009649 ein System, bei dem innerhalb einer Vorrichtung oder eines Verfahrens zur linearen inversen Kodierung zwei Panorama- Potentiometer einer MS-Matrix nachgeschaltet werden, wobei jeder Panorama-Potentiometer zwei
Sammelschienensignale bildet. Eine solche Anordnung gestattet die beliebige Erhöhung oder Erniedrigung des Korrelationsgrades und führt zu einer Erhöhung oder
Erniedrigung der Abbildungsbreite auf der Stereobasis zwischen zwei Lautsprechern. Allerdings wird das erste Ausgangssignal der MS-Matrix, sofern der erste Panorama-Potentiometer wirksam ist, in einem zuvor bestimmten Verhältnis den zwei Kanälen des ersten
Sammelschienensignals zugeführt. Ebenso wird das zweite Ausgangssignal der MS-Matrix, sofern der zweite
Panorama-Potentiometer wirksam ist, in einem zuvor bestimmten Verhältnis den zwei Kanälen des zweiten Sammelschienensignals zugeführt.
OFFENBARUNG DER ERFINDUNG
Erfindungsgemäss wurde jedoch unerwartet und entgegen bisheriger Erfahrung festgestellt, dass es zwar
einerseits möglich ist, aus Audiosignalen oder aus einem mit beliebigen technischen Mitteln erzeugten Downmix abgeleiteten Signalen ein Eingangssignal für eine linearen inversen Kodierung zu wählen, um
zusätzliche Kanäle, und somit gegenüber dem Grundsignal oder dem Downmix ein Signal höherer Ordnung, zu
erzeugen („Upmixing" oder „Kodierung"), andererseits die durch lineare inverse Kodierung erzeugten
Audiokanäle mit unterschiedlichen Pegeln wiederzugeben, wobei diese Pegel aus den Pegeln der verwendeten
Audiosignale oder den beim Downmix verwendeten Pegeln ganz oder teilweise abgeleitet sein können, oder auch ganz oder teilweise unabhängig von diesen bestimmt werden können. Alternativ kann die inverse Kodierung bereits anhand ihrer unterschiedlich ausgesteuerten Ausgangskanäle stattfinden. In beiden Fällen sprechen wir, sofern ein derartiger technischer Schritt
stattfindet, von einer "nichtlinearen inversen
Kodierung" . Die nichtlineare inverse Kodierung weist demnach keine einheitliche Energiedichte bei leicht veränderter
Phantomschallquellenbildung auf und widerspricht somit dem vordergründigen Postulat einer möglichst homogenen Stereobasis zwischen benachbarten Lautsprechern zur Erzeugung von Phantomschallquellen.
Allerdings trägt diese uneinheitliche Energiedichte zu einem natürlichen Höreindruck bei, der bei wachsender Anzahl von Eingangskanälen sich zunehmend der
Transparenz nähert. Das menschliche Gehör beurteilt die Transparenz bei wachsender Anzahl von Eingangskanälen demnach weniger hinsichtlich der absoluten Lage der Phantomschallquellen, sondern vielmehr hinsichtlich der Energiedichte des generierten Schallfeldes. Die
vorliegende Erfindung macht sich dieses Prinzip somit gezielt zunutze.
Insbesondere überwiegt bei zunehmender Anzahl der
Wiedergabekanäle die unmittelbare psychoakustische Lokalisation der Lautsprecher, also annähernd
punktförmiger Schallquellen, gegenüber der Wahrnehmung von Phantomschallquellen zwischen den Lautsprechern. Die nichtlineare inverse Kodierung sorgt somit dafür, dass auch für diesen Fall eine korrekte Verteilung bzw. Gewichtung dieser punktförmigen Schallquellen als auch der gebildeten Phantomschallquellen zwischen den
Lautsprechern erfolgt. Im weiteren lässt sich trotz Anwendung eines Downmix- Verfahrens die Wahrnehmung der Tiefenstaffelung von Phantomschallquellen erhalten, die bei
Phantomschallquellen-basierten Signalen im wesentlichen von der Lautheit eines Lautsprechersignals als auch von der wahrgenommenen Räumlichkeit abhängt. Diese
wahrgenommene Räumlichkeit lässt sich unmittelbar durch eine inverse Kodierung steuern, ohne dass zusätzliche technische Mittel wie beispielsweise eine künstliche Verhallung notwendig werden.
Insbesondere lässt sich durch geeignete Wahl der Pegel der Ausgangssignale einer inversen Kodierung eine nichtlineare inverse Kodierung die wahrgenommene
Räumlichkeit auch dann erhalten, wenn eine
Virtualisierung der Wiedergabekanäle über Kopfhörer mittels Head Related Transfer Functions (HRTFs) oder binauralen Raumimpulsen (Binaural Room Impulse
Responses , BRIRs) erfolgt, die mitunter mit
wesentlichen räumlichen Wahrnehmungsverlusten behaftet sein können.
Die Pegel der Ausgangssignale einer inversen Kodierung können zeitabhängig variieren, dies beispielsweise im Falle eines adaptiven Downmix-Verfahrens , oder auch im zeitlichen Verlauf konstant bleiben, dies
beispielsweise im Falle eines nicht-adaptiven Downmix- Verfahrens . Auch die umgekehrten Fälle, also das Nicht- Variieren der Pegel der Ausgangssignale einer inversen Kodierung im Falle eines adaptiven Downmix-Verfahrens oder das Variieren der Pegel der Ausgangssignale einer inversen Kodierung im Falle eines nicht-adaptiven
Downmix-Verfahrens sind bei diesen Beispielen
grundsätzlich möglich, um eine möglichst korrekte
Bildung der wahrgenommenen punktförmigen Schallquellen als auch der gebildeten Phantomschallquellen zwischen den Lautsprechern zu ermöglichen. Insbesondere beschreibt der Erfindungsgegenstand gegenüber WO2011009649 kein System, bei dem, sofern die Pegel anhand eines Verstärkungsfaktors ungleich 1 geregelt werden, zwangsläufig jeweils zwei
Sammelschienensignale gebildet werden. Vielmehr wirken diese Verstärkungsfaktoren ausschliesslich auf jenen Kanal, auf den sie angewandt werden. Die technische Wirkung ist somit nicht die beliebige Erhöhung oder Erniedrigung des Korrelationsgrades zweier gleich gewichteter Kanäle. Auch gehen bei der nichtlinearen inversen Kodierung, sofern ein Verstärkungsfaktor der abschliessenden Pegelkorrektur wenigstens eines
Ausgangssignals gegen 0 konvergiert, anders als bei WO2011009649, die Audioinformationen dieses Signals unweigerlich verloren, und es handelt sich somit nicht mehr um die verlustfreie Erhöhung oder Erniedrigung der Abbildungsbreite auf der Stereobasis zwischen zwei Lautsprechern, sondern um die, in ihrer Einfachheit zweckmässige, gezielte einheitliche Gewichtung von wahrgenommenen punktförmigen Schallquellen
(Lautsprechern) als auch der zwischen diesen
Lautsprechern gebildeten Phantomschallquellen. Vielmehr sind die zwei Panorama-Potentiometer, welche bei WO2011009649 einer MS-Matrix nachgeschaltet werden, wobei jeder Panorama-Potentiometer zwei
Sammelschienensignale bildet, als Teil einer linearen inversen Kodierung zu betrachten, auf deren
Ausgangssignale in wenigstem einen Fall zusätzlich ein Verstärkungsfaktor gemäss der nichtlinearen inversen Kodierung angewandt werden kann - und somit insgesamt eine Form der Gewichtung erzielt wird, die anhand dieser beiden Panorama-Potentiometer allein nicht möglich ist.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain einem der beiden Ausgangssignale
nachgeschaltet wird; oder: jeweils ein Gain je einem der beiden Ausgangssignale nachgeschaltet wird, wobei diese beiden Gains unterschiedlich sind.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain einem der beiden Ausgangssignale
nachgeschaltet wird; oder: jeweils ein Gain je einem der beiden Ausgangssignale nachgeschaltet wird, wobei diese beiden Gains unterschiedlich sind. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein
Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain (50001) den Faktor 0.5 oder den Faktor
1/V2 aufweist; oder: mindestens einer der beiden Gains (60001, 60002) den Faktor 0.5 oder den Faktor
1/V2 aufweist .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass die nichtlineare inverse Kodierung anhand von Signalen eines Downmix erfolgt. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass der Downmix anhand von einem Gain oder mehreren Gains gebildet wird, welche den Faktor 0.5 oder den Faktor
1/V2 aufweisen.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass der Downmix neben Mitteln zur Bildung von Summensignalen anhand weiterer technischer Mittel gebildet wird.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur unmittelbaren Wiedergabe des Downmix auf Lautsprechern verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Gewinnung weiterer Signale aus vorgängig vorhandenen oder gebildeten Signalen verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Summierung von Signalen verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Subtraktion von Signalen verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für den Korrelationsvergleich von Signalen verwendet werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Normierung von Signalen anhand der Pegel vorgängig vorhandener oder gebildeter Signale verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Summierung von Signalen jeweils mit nichtbenachbarten Lautsprecherkanälen verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bildung eines fiktiven Lautsprechers verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für die Kodierung des Downmix mittels eines Base Audio Coder verwendet werden. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bildung von Signalen für eine Lautsprecheranordnung der Form Hamasaki 22.2 oder für eine Teilmenge einer solchen Lautsprecheranordnung verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung der Lage von Phantomschallquellen verwendet werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für eine Signalanalyse oder Mittel für die Bestimmung algebraischer Invarianten verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für eine Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung der Bestimmung algebraischer Invarianten anhand einer Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain der nichtlinearen inversen Kodierung denselben Faktor eines beim Downmix verwendeten Gain aufweist oder ein Vielfaches dieses Gain darstellt; oder:
mindestens einer der beiden Gains (60001, 60002) der nichtlinearen inversen Kodierung denselben Faktor eines beim Downmix verwendeten Gain aufweist oder ein
Vielfaches dieses Gain darstellt.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass zur
Optimierung eines oder mehrerer Parameter der
nichtlinearen inversen Kodierung Mittel zur Optimierung anhand der zugehörigen linearen inversen Kodierung verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur unmittelbaren Optimierung von ein oder mehreren
Parametern der nichtlinearen inversen Kodierung
verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von ein oder mehreren Parametern der nichtlinearen oder zugehörigen linearen inversen
Kodierung anhand des Korrelationsgrades r verwendet werden . Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von ein oder mehreren Parametern der nichtlinearen oder zugehörigen linearen inversen Kodierung anhand einer Zielkorrelation k verwendet werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung der Beschaffenheit des Signals verwendet werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung von Sprache oder vokalen Signalen oder Transienten verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Festlegung der Zielkorrelation k anhand der
Beschaffenheit des Signals verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel verwendet werden, um für eine nichtlineare inverse Kodierung entweder: bei Sprach- oder Vokalaufnahmen eine Zielkorrelation k > +0.51 festzulegen; oder:
bei Transienten eine Zielkorrelation k > +0.25
festzulegen; oder:
bei sonstigen Signalen eine Zielkorrelation k > 0.00 festzulegen .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel verwendet werden, um für die einer nichtlinearen zugehörige lineare inverse Kodierung entweder:
bei Sprach- oder Vokalaufnahmen eine Zielkorrelation k > +0.66 festzulegen; oder:
bei Transienten eine Zielkorrelation k > +0.40
festzulegen; oder:
bei sonstige Signale eine Zielkorrelation k > 0.00 festzulegen . Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein
Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass für eine nichtlineare oder zugehörige lineare inverse Kodierung Mittel zu deren Optimierung verwendet werden, die ihrerseits einen Signalabschnitt kleiner gleich 40ms verwenden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass für eine nichtlineare oder zugehörige lineare inverse Kodierung Mittel zu deren Optimierung verwendet werden, die ihrerseits Mittel zur Gewichtung der fiktiven
Öffnungswinkel α bzw. ß verwenden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen linearen inversen
Kodierung anhand der Hauptreflexionen oder der
Hallfahne verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Pegelkorrektur von Signalen anhand der jeweiligen Lautsprecherpositionen verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass ein
Panorama-Potentiometer verwendet wird.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Variation des Gain (717) mit dem Faktor λ verwendet werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass
unterschiedliche Lautsprecherabstände durch wenigstens einen Gain und wenigstens einen Delay kompensiert werden .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Speicherung oder Übertragung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen
linearen inversen Kodierung verwendet werden.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass diese gegenüber einem Mehrkanal-Signal weniger Ausgangskanäle aufweist .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass diese gegenüber einem Audiosignal mehr Ausgangskanäle
aufweist .
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass die
Signalwiedergabe nicht anhand einer
Lautsprecheranordnung erfolgt, welche dem Format des jeweiligen Signals entspricht.
Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: Mittel zur Wellenfeldsynthese verwendet werden; oder: Mittel für Head Related Transfer Functions (HRTFs) oder Binaural Room Impulse Responses (BRIRs) verwendet werden .
BESCHREIBUNG DER ABBILDUNGEN
Verschiedene Ausführungsformen der vorliegenden
Erfindung werden im folgenden beispielhaft beschrieben, wobei auf folgende Zeichnungen Bezug genommen wird:
• FIG. 1 zeigt die Lautsprecheranordnung des Formats Hamasaki 22.2 des japanischen Sender NHK.
• FIG. 2 zeigt das Beispiel einer Downmix-Matrix für das Format Hamasaki 22.2.
• FIG. 3 zeigt eine Lautsprecheranordnung für ein
12.1 Signal, welche eine Teilmenge der
Lautsprecheranordnung für Hamasaki 22.2 darstellt.
• FIG. 4 zeigt das Beispiel einer Downmix-Matrix für ein 12.1 Signal. Dieses stellt wiederum eine
Teilmenge der Lautsprechersignale für Hamasaki
22.2 dar .
• FIG. 5 zeigt das Beispiel einer Schaltung für die nichtlineare inverse Kodierung eines Audiosignals.
• FIG. 6 zeigt ein weiteres Beispiel einer Schaltung für die nichtlineare inverse Kodierung eines
Audiosignals, wobei l2.
• FIG. 7 stellt eine Matrix zur Extraktion von
Signalen mittels Korrelationsvergleiches anhand des in FIG. 2 dargestellten Downmix dar.
• FIG. 8 zeigt ein (auf FIG. 7 folgendes) weiteres Beispiel der Extraktion eines Signals mittels Korrelationsvergleiches . FIG. 9 zeigt eine (auf FIG. 8 folgende) Normierung von Signalen anhand bekannter Pegel des originalen Multikanal-Signals .
FIG. 10 zeigt eine (auf FIG. 9 folgende)
approximative Wiedergewinnung von Signalen anhand der Substraktion gewonnener benachbarter Signale, deren Pegel zuvor um -3dB korrigiert wurden.
FIG. 11 zeigt die (auf FIG. 10 folgende) Matrix zweier nichtlinearer inverser Kodierungen.
FIG. 12 zeigt die (auf FIG. 11 folgende)
abschliessende Normalisierung der anhand zweier nichtlinearer inverser Kodierungen gewonnenen Signale .
FIG. 13 zeigt den Dämpfungsverlauf eines zum Stand der Technik gehörigenden Panorama-Potentiometers. Dieser Dämpfungsverlauf kann in der Multikanal- Kodierung auch als Grundlage für die Berechung von Pegelkorrekturen herangezogen werden.
FIG. 14 zeigt das zweite Beispiel einer Matrix zur Extraktion von Signalen mittels
Korrelationsvergleiches anhand des in FIG. 4 dargestellten Downmix.
FIG. 15 zeigt eine Normierung von (in FIG. 14) gewonnenen Signalen anhand bekannter Pegel von Summensignalen .
FIG. 16 zeigt eine (auf FIG. 15 folgende)
approximative Wiedergewinnung von Signalen anhand der Substraktion näherungsweise gewonnener
Summensignale, deren Pegel zuvor um -3dB
korrigiert wurden.
FIG. 17 zeigt die (auf FIG. 16 folgende) Matrix zweier nichtlinearer inverser Kodierungen. • FIG. 18 zeigt die (auf FIG. 17 folgende)
abschliessende Normalisierung von je zwei anhand zweier nichtlinearer inverser Kodierungen
gewonnenen Signalen.
· FIG. 19 zeigt das Blockdiagramm einer Schaltung zur Optimierung linearer oder nichtlinearer inverser Kodierungen.
• FIG. 20 zeigt beispielhaft die Header-Information sowie den Downmix für ein - anhand einer
nichtlinearen inversen Kodierung - komprimiertes
12.1 Signal .
• FIG. 21 zeigt die Downmix-Matrix für den Downmix von 3/2-Quellmaterial gemäss ITU-R BS.775-1, Table 2.
DETAILLIERTE BESCHREIBUNG
Betrachtet wird in der Folge eine Anordnung, die
Hamasaki 22.2 oder einer Teilmenge dieser Anordnung entspricht (siehe FIG. 1) . Diese Anordnung ist
beispielhaft zu verstehen, da der Erfindungsgegenstand sich auf jedes beliebige Multikanalsystem mit drei oder mehr Lautsprechern in beliebiger Position anwenden lässt .
In einem ersten Schritt wird eine Downmix-Matrix definiert, die unterschiedlichste technische Mittel enthalten kann (so beispielsweise jene, welche Faller und Schlllebeeckx, siehe oben, beschreiben) und in funktionaler Abhängigkeit von einer Signalanalyse des jeweiligen Multikanal-Signals (beispielsweise etwa mittels der zum Stand der Technik gehörenden Karhunen- Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) oder mittels algebraischer Invarianten gemäss EP1850629, WO2009138205, WO2011009649,
WO2011009650, WO2012016992 und WO2012032178) bestimmt bzw. optimiert werden kann (wir sprechen in der Folge von einem „adaptiven Downmix") oder a priori
(beispielsweise analog zu Table 2 von ITU-R BS.775-1, siehe FIG. 21) festgelegt wird (wir sprechen in der Folge von einem „automatischen Downmix") .
Eine technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, ist ebenfalls möglich. Aufgrund der Unzahl möglicher adaptiver oder
automatischer Downmix-Matrizen sowie technischer
Kombinationen von Elementen eines adaptiven Downmix und Elementen eines automatischen Downmix (für Hamasaki 22.2 beträgt diese - bei der reichlich theoretischen Betrachtung von einheitlichen Signalpegeln - für n Downmix-Kanäle beispielsweise bereits
22!
(22 - )\ ' wobei - bei zusätzlicher Betrachtung unterschiedlicher Pegel für die summierten Signale - bereits unendlich viele Möglichkeiten resultieren) , müssen wir uns mit FIG. 2 auf das Beispiel eines Downmixes für Hamasaki 22.2 beschränken, der aus insgesamt vier Stereosignalen mit folgender Lautsprecheranordnung besteht (siehe FIG. 1): FL' -FR', BL' -BR' , TpFL' -TpFR' , TpBL' -TpBR' . Die dargestellte Matrix ist in gleicher Weise wie die aus dem Stand der Technik bekannte Matrix der FIG. 21 zu lesen, wobei allerdings die Zeilen als Spalten und umgekehrt die Spalten als Zeilen zu lesen sind.
Insbesondere wird in vorliegendem Beispiel TpC mit um -6dB verringertem Pegel (was einer Multiplikation des Signalpegels mit dem Faktor 0.5 entspricht) jeweils TpFL' , TpFR' , TpBL' und TpBR' zugemischt, was bei
Wiedergabe des Downmix zum psychoakustischen Phänomen der Lokalisation eines solchen Lautsprechers TpC führt (im folgenden deshalb "fiktiver TpC" genannt) ; gleiches Wirkungsprinzip lässt sich, teilweise unter Verwendung anderer Pegelunterschiede, auch auf andere Lautsprecher anwenden (im folgenden deshalb "fiktive Lautsprecher" genannt, siehe auch unten) .
Für eine Extraktion mittels Korrelationsvergleiches, von der im folgenden des öfteren die Rede sein wird, werden beispielsweise die Kurzzeit-Kreuzkorrelation
Figure imgf000024_0001
für das Interval [-Γ,Γ] sowie die Signale x(t), y(t) betrachtet, und werden nur jene korrelierten
Signalanteile von x(t) und y(t) extrahiert, für welche r = +1 gilt .
Da nur benachbarte Lautsprecher Phantomschallquellen erzeugen, lassen sich mittels Korrelationsvergleich beispielsweise näherungsweise auch BtFL, BtFC und BtFR als BtFL*, BtFC* und BtFR* extrahieren:
Hierzu wird zuerst BtFC mit um -3dB verringertem Pegel jeweils BtFL' und BtFR' zugemischt. BtFL' wird sodann mit um -3dB verringertem Pegel jeweils FL' und BR' zugemischt, und BtFR' sodann mit um -3dB verringertem Pegel jeweils FR' und BL' zugemischt. BtFL stellt dann näherungsweise den korrelierten Anteil von FL' und BR' , BtFR näherungsweise der korrelierte Anteil von FR' und BL' dar, und BtFC näherungsweise den korrelierten
Anteil der beiden zuletzt genannten korrelierten
Anteile . Problematisch stellen sich bei einem solchen Vorgehen nur jene korrelierten Anteile dar, die vor unserem Downmix in FL, BR sowie FR und BL bereits enthalten waren und somit mit extrahiert und ausschliesslich auf BtFL*, BtFR* sowie BtFC* verlagert würden.
Gleiches gilt übrigens für jedes mittels
Korrelationsvergleiches extrahierte Signal, was zum Grundproblem der grundsätzlichen Unmöglichkeit einer absoluten Rekonstruktion eines Signals höherer Ordnung aus einem Signal niedrigerer Ordnung ausschliesslich mittels Korrelationsvergleiches führt. Hier vermag die nichtlineare inverse Kodierung völlig neue Perspektiven zu eröffnen! Eine Milderung des Problems lässt sich herbeiführen, sofern beispielsweise die absoluten Pegel der vorgängig vorhandenen oder schrittweise gewonnenen Signale bekannt sind, und sich somit, da der Korrelationsgrad für die fraglichen Signalanteile in jedem Falle +1 beträgt, Rückschlüsse auf den jeweiligen Pegel der korrelierten Signalanteile in allen betroffenen Kanälen ziehen lassen:
So ermöglicht etwa der korrelierte Signalanteil mit absolutem Pegel p von BtFL, der jeweils FL' (mit bekanntem absoluten Pegel p2) und BR' (mit bekanntem absoluten Pegel p3) mit dem absoluten Pegel p — 3dB zugemischt wurde, seine näherungsweiser Extraktion mittels Korrelationsvergleiches, wobei nunmehr das resultierende Signal BtFL* den absoluten Pegel p
aufweist und dessen Subtraktion mit dem absoluten Pegel -L— 3dB von FL' mit dem absoluten Pegel p2 bzw. dessen Subtraktion mit dem absoluten Pegel p — 3dB von BR' mit dem absoluten Pegel p3 den jeweilig resultierenden Kanälen - allerdings nur näherungsweise - die
ursprünglichen korrelierten Signalanteile erhält. Ebenso ermöglicht etwa der korrelierte Signalanteil mit absolutem Pegel p4 von BtFR, der jeweils FR' (mit bekanntem absoluten Pegel p5) und BIZ (mit bekanntem absoluten Pegel p6) mit dem absoluten Pegel p4— 3dB zugemischt wurde, seine näherungsweiser Extraktion mittels Korrelationsvergleiches, wobei nunmehr das resultierende Signal BtFR* den absoluten Pegel p4 aufweist und dessen Subtraktion mit dem absoluten Pegel p — 3dB von FR' mit dem absoluten Pegel p5 bzw. dessen Subtraktion mit dem absoluten Pegel p4— 3dB von BL' mit dem absoluten Pegel p6 den jeweilig resultierenden Kanälen - allerdings nur näherungsweise - die
ursprünglichen korrelierten Signalanteile erhält. BtFC wird anschliessend durch den
Korrelationsvergleich von BtFL* und BtFR* extrahiert.
Insbesondere kann eine Downmix-Matrix dem Umstand
Rechnung tragen, dass der erzielte Downmix sich
unmittelbar als Signal niedrigerer Ordnung auf einer spezifischen Lautsprecheranordnung wiedergeben lässt:
Wird beispielsweise ein 12.1 Signal betrachtet, das eine Teilmenge der Lautsprecher für Hamasaki 22.2 darstellt (FL, FC, FR, LFE2, SiL, SiR, BL, BR, TpFL, TpFR, TpBL, TpBR, TpC; siehe FIG. 3), und dessen
Downmix ein 7.1 Surround-Signal sein soll, lässt sich in gleicher Weise wie in obigem Beispiel ein fiktiver TpC definieren.
Insbesondere werden TpFL und TpBL mit jeweils um -3dB verringertem Pegel summiert und die resultierende Summe mit jeweils um -3dB verringertem Pegel jeweils FL' und BL' zugemischt. In gleicher Weise werden TpFR und TpBR mit jeweils um -3dB verringertem Pegel summiert und die resultierende Summe mit jeweils um -3dB verringertem Pegel jeweils FR' und BR' zugemischt.
Die zugehörige Downmix-Matrix ist FIG. 4 zu entnehmen.
Während bei Surround 7.1 nunmehr üblicherweise die korrelierten Anteile von FL und BL bzw. von FR und BR auf SiL bzw. SiR zu liegen kommen, liegt bei der vorliegenden Downmix-Matrix nunmehr die Summe von je zwei Lautsprechern des Top Layer auf FL' und BL' bzw. FR' und BR' des Middle Layer, was insbesondere der psychoakustischen Tatsache optimiert Rechnung trägt, dass die Lautsprecher des Top Layer vorteilhaft
indirekten Schall wiedergeben, und der resultierende Downmix diesen nunmehr auf die sich bevorzugt dafür eignenden Lautsprecher verlagert - und sich somit ebenso vorteilhaft unmittelbar auf einem 7.1 Surround- System wiedergeben lässt.
Anderseits lässt sich die Summe von TpFL, TpBL und TpC bzw. die Summe von TpFR, TpBR und TpC unschwer mit oben beschriebenem Korrelationsvergleich von FL' und BL' bzw. FR' bzw. BR' näherungsweise extrahieren. Dies ist für die jeweilige inverse Kodierung dieser Summen
(siehe unten) und somit für die approximative
Rekonstruktion der Signale für TpFL* und TpBL* bzw.
TpFR* und TpBR* von ausschlaggebender Bedeutung.
Beide dargestellten Downmix-Matrizen stellen konkrete Beispiele dar, die sich an ITU-R BS.775-1 orientieren; andere Pegelkorrekturen als -3dB und -6dB sind, wie leicht einzusehen ist, jedoch unschwer möglich und im konkreten Fall wünschenswert.
Derartig veränderte Pegelkorrekturen können
beispielsweise auftreten, wenn asymmetrische Winkel - bei Multimedia-Anwendungen etwa aufgrund der
Berücksichtigung einer optimalen Stereobasis für FLc, FRc bei vergrössertem Bildschirm - für die jeweilige Lautsprecherkonfiguration auftreten, oder ein adaptiver Downmix (siehe oben) oder auch eine technische
Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, angewandt werden. Dickreiter (Michael Dickreiter: Handbuch der
Tonstudiotechnik. Band I. - Saur: München 1987) zeigt auf Seite 375 den Dämpfungsverlauf eines zum Stand der Technik gehörigenden Panorama-Potentiometers (siehe FIG. 13) . Dieser Dämpfungsverlauf kann auch als
Grundlage für die Errechnung der oben erwähnten, veränderten Pegelkorrekturen herangezogen werden. Während beispielsweise bei einem Winkel von 30° zwischen FC und FLc, wobei der Winkel zwischen FL und FC 60° beträgt, FLc sowohl FC als auch FL mit jeweils -3dB zugemischt wird (Position 0°), wird beispielsweise bei einem vergrössterten Winkel von 45° zwischen FC und FLc, wobei der Winkel zwischen FL und FC wiederum 60° beträgt, FLc nunmehr FC mit -7dB zugemischt sowie FL mit -ldB zugemischt (Position 15° = 45° - 30°) .
Bei ausschliesslicher Wiedergabe der so gewonnenen Signale FC und FL' wird somit die Phantomschallquelle eines fiktiven FLc gebildet. Zugleich lässt sich durch Extraktion mittels Korrelationsvergleiches bei
bekannten Pegelkorrekturen vorgängig vorhandener oder schrittweise gewonnener Signale FLc wiederum unschwer näherungsweise errechen und FC sowie FL vor jeweiliger Zumischung von FLc wiederum näherungsweise herstellen. Dieses Prinzip lässt sich verallgemeinert auf eine beliebige Anzahl benachbarter Lautsprecher ausdehnen (siehe auch obige Ausführungen zum „fiktiven
Lautsprecher") . Im weiteren ermöglicht es,
Lautsprecherpositionen nachträglich zu verändern
(„Flexible Rendering") . Unter Verwendung der inversen Kodierung ist im übrigen ebenfalls ein solches Flexible Rendering möglich; in diesem Falle wird beispielsweise der Gain 717 der FIG. 5 bzw. 6 bei vergrössertem Lautsprecherabstand
proportional erhöht bzw. bei verringertem
Lautsprecherabstand proportional erniedrigt.
Unterschiedliche Lautsprecherabstände lassen sich zudem durch entsprechende Gains und Delays kompensieren, sodass unschwer einzusehen ist, dass Signale für beliebige Anordnungen von wenigstens drei Lautsprechern sich aus einem gegebenen beliebigen Signal beliebiger Ordnung ableiten lassen, dies unter Verwendung
folgender Prinzipien:
• die Summierung von Signalen,
• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,
• die Extraktion von Signalen mittels
KorrelationsVergleiches ,
• die Anwendung von Pegelkorrekturen für vorgängig vorhandene oder schrittweise gewonnene Signale,
• die Normierung von gewonnenen Signalen anhand
bekannter Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,
• die Gewinnung weiterer Signale anhand der
jeweiligen Subtraktion vorgängig vorhandener oder schrittweise gewonnener Signale jeweils mit oder ohne Pegelkorrekturen,
• die Gewinnung von Signalen anhand von inverser Kodierung, • die Anpassung des Pegels weiterer Kanäle an die Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,
• gegebenenfalls die Korrektur unterschiedlicher
Lautsprecherabstände mittels Gains und Delays,
• die Gewinnung weiterer Signale aus vorgängig
vorhandenen oder schrittweise gewonnenen Signalen.
Nichtlineare inverse Kodierung
Ein wesentliches Merkmal der nichtlinearen inversen Kodierung beruht auf der unerwarteten, entgegen
bisheriger Erfahrung festgestellten Tatsache, dass es zwar einerseits möglich ist, einen mit beliebigen technischen Mitteln erzeugten Downmix einer linearen inversen Kodierung zu unterwerfen, um gegenüber dem Downmix ein Signal höherer Ordnung zu erzeugen,
andererseits die durch lineare inverse Kodierung erzeugten Audiokanäle in unterschiedlichen Pegeln wiederzugeben, wobei diese Pegel aus den beim
automatischen oder adaptiven Downmix verwandten Pegeln ganz oder teilweise abgeleitet sein können, oder auch ganz oder teilweise unabhängig von diesen bestimmt werden können. Alternativ dazu kann die Optimierung der nichtlinearen inversen Kodierung eines mit beliebigen technischen Mitteln erzeugten Downmix bereits anhand ihrer unterschiedlich ausgesteuerten Ausgangskanäle stattfinden .
In beiden Fällen lassen sich anhand eines automatischen oder adaptiven Downmix oder auch einer technischen Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, neuerlich Signale höherer Ordnung errechnen, was einerseits die effiziente Einbettung von Signalen höherer Ordnung in Signale niedrigerer Ordnung
ermöglicht (die als Downmix idealerweise unmittelbar wiedergegeben werden können) , oder - sofern die
Anforderungen an die Rechenleistung des dekodierenden Systems sich so gestalten, dass nur wenig
Rechenkapazität für die Dekodierung und Wiedergabe von Audiodaten zur Verfügung steht - dennoch qualitativ hochwertige Multikanal-Signale wiedergegeben werden können .
Eine solche Wiedergabe kann über eine
Lautsprecheranordnung, die dem Wiedergabeformat des resultierenden Multikanal-Signals entspricht, über eine Lautsprecheranordnung, die ein solches Wiedergabeformat simuliert (beispielsweise mittels der zum Stand der Technik gehörenden - auf dem Prinzip von Huygens beruhenden - Wellenfeldsynthese) oder auch so über Kopfhörer oder Lautsprecher erfolgen, dass in diesem Falle die Lautsprecherpositionen mittels aus dem Stand der Technik bekannten Head Related Transfer Functions (HRTFs) oder binauralen Raumimpulsen (Binaural Room Impulse Responses , BRIRs) simuliert werden.
Das Beispiel einer erfindungsgemässen Grundschaltung zur nichtlinearen inversen Kodierung ist in FIG. 5 abgebildet, welche sich durch die Nachschaltung
wenigstens eines Gains (50001) im linken oder rechten
Ausgangskanal kennzeichnet. FIG. 6 zeigt dahingegen die Nachschaltung zweier unterschiedlicher Gains (60001, 60002), die sich beispielsweise für die nichtlineare inverse Kodierung von komplexen Multikanal-Signalen als äusserst vorteilhaft erweisen. Für die grundsätzliche Funktionsweise beider Schaltungen wird, abgesehen von eben genannten, in FIG. 5 und FIG. 6 dargestellten Gains (50001, 60001, 60002), auf EP1850629,
WO2009138205, WO2011009649, WO2011009650, WO2012016992 und WO2012032178 verwiesen.
Der Einfachheit halber verwenden wir im Folgenden für je einen Ausgangskanal einer nichtlinearen inversen Kodierung gemäss FIG. 5 bzw. FIG 6 die Bezeichnung
, wobei bei fehlendem Gain mit dem Faktor lj im jeweiligen Ausgangskanal /[(l) geschrieben wird.
Desgleichen bezeichnen wir jene Kanäle, anhand derer eine Extraktion mittels Korrelationsvergleiches
stattfindet, mit „k=+l". Wird das Ergebnis
abschliessend anhand bekannter Pegel vorgängig
vorhandener oder schrittweise gewonnener Signale normiert, bezeichnen wir diesen Vorgang mit „absl". Wird ein Kanal an ein derartig normiertes Signal so angeglichen, dass einerseits deren Pegelverhältnisse erhalten bleiben sollen, und anderseits der Gain lj von in Bezug auf den nunmehrigen Pegel dieses Kanals für diesen wirksam sein soll, schreiben wir
Das Beispiel einer nichtlinearen inversen Kodierung, hier anhand der in FIG. 2 dargestellten Downmix-Matrix, stellen mit obigen Vorbemerkungen die in numerisch aufsteigender Reihenfolge sukzessive auszuführenden Matrizen der FIG. 7 bis FIG. 12 dar. Diese Matrizen sind analog zur in FIG. 2 dargestellten und oben erläuterten Downmix-Matrix zu lesen, dies unter
Einbindung der oben erläuterten Bezeichnungen /[(//) bzw. „k=+l", „absl" sowie FIG. 7 veranschaulicht die Extraktion mittels
Korrelationsvergleiches von FL' und FR' , woraus FC resultiert, von FL' und BL' , woraus Sil/ resultiert, von FR' und BR' , woraus SiR' resultiert, von BL' und BR' , woraus BC resultiert, von TpFL' und TpFR' , woraus TpFC resultiert, von TpFL' und TpBL', woraus TpSiL' resultiert, von von TpFR' und TpBR' , woraus TpSiR' resultiert, von TpBL' und TpBR' , woraus TpBC
resultiert, von FL' und BR' , woraus BtFL' resultiert, und schliesslich von FR' und BL' , woraus BtFR'
resultiert.
FIG. 8 veranschaulicht den Korrelationsvergleich zwischen BtFL' und BtFR', woraus BtFC' resultiert. FC' , Sil/ , SiR' , BC' , TpFC , TpSiL' , TpSiR' , TpBC ,
BtFC werden in FIG. 9 abschliessend auf die bekannten Pegel der gleichnamigen Originalsignale normiert.
Diese normierten Signale FC*, Sil/, SiR*, BC*, TpFC*, TpSiL*, TpSiR*, TpBC*, BtFC* werden nunmehr mit wiederum um -3dB verringertem Pegel von den jeweilig
benachbarten Signalen desselben Layers subtrahiert, womit sich gemäss FIG. 10 FL'', FR'', BL*, BR*, TpFL*, TpFR*, TpBL*, TpBR*, BtFL* und BtFR* ergeben.
FIG. 11 veranschaulicht nunmehr die nichtlineare inverse Kodierung von FL' ' , womit sich FL' ' ' und FLc' ergeben. FLc' erscheint mittels eines Gain um den Faktor 0.7071 verstärkt. Ebenso findet eine
nichtlineare inverse Kodierung von FR' ' statt, womit sich FR''' und FRc' ergeben. FRc' erscheint ebenfalls mittels eines Gain um den Faktor 0.7071 verstärkt.
In FIG. 12 werden abschliessend FL''' und FR''' auf die bekannten Pegel der gleichnamigen Originalsignale normiert, womit sich abschliessend FL* und FR* ergeben. Die Kanäle FLc' und FRc' werden sodann an die derartig normierten Signale FL* und FR* so angeglichen, dass sämtliche Pegelverhältnisse der nichtlinearen inversen Kodierung erhalten bleiben (somit die Gains jeweils mit dem Faktor 0.7071 in Bezug auf den nunmehrigen Pegel dieser Kanäle für diese wirksam bleiben) , und ergeben nunmehr abschliessend FLc* und FRc*.
Die demnach für diese nichtlineare inverse Kodierung verwandten Mittel bzw. Methodiken umfassen wiederum:
• die Summierung von Signalen,
• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,
• die Extraktion von Signalen mittels
KorrelationsVergleiches ,
• die Anwendung von Pegelkorrekturen für vorgängig vorhandene oder schrittweise gewonnene Signale,
• die Normierung von gewonnenen Signalen anhand
bekannter Pegel vorgängig vorhandener oder
schrittweise gewonnener Signale,
• die Gewinnung weiterer Signale anhand der
jeweiligen Subtraktion vorgängig vorhandener oder schrittweise gewonnener Signale jeweils mit oder ohne Pegelkorrekturen,
• die Gewinnung von Signalen anhand von inverser
Kodierung,
• die Anpassung des Pegels weiterer Kanäle an die Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,
• gegebenenfalls die Korrektur unterschiedlicher
Lautsprecherabstände mittels Gains und Delays (siehe oben) ,
• die Gewinnung weiterer Signale aus vorgängig
vorhandenen oder schrittweise gewonnenen Signalen.
Aus FIG. 5 und FIG. 6 lässt sich im weiteren für das obige Beispiel eines dreidimensionalen Systems 12.1 (welches eine Teilmenge des Systems Hamasaki 22.2 darstellt) unschwer das Beispiel einer zugehörigen nichtlinearen inverse Dekodierung eines Downmix-Signals gemäss FIG. 4 ableiten, wobei wiederum mit obigen
Vorbemerkungen in numerisch aufsteigender Reihenfolge sukzessive die Matrizen der FIG. 14 bis FIG. 18
auszuführen sind. Diese Matrizen sind analog zur in FIG. 4 dargestellten und oben erläuterten Downmix- Matrix zu lesen, dies wiederum unter Einbindung der oben erläuterten Bezeichnungen bzw. /[(I), „k=+l",
„absl" sowie ^(Z)*.
FIG. 14 stellt die näherungsweise Extraktion der oben beschriebenen Summe TpL' von TpFL, TpBL und TpC mittels Korrelationsvergleiches von FL' und BL' dar und ebenso die näherungsweise Extraktion der oben beschriebenen Summe TpR' von TpFR, TpBR und TpC mittels
Korrelationsvergleiches von FR' und BR' .
Gemäss FIG. 15 wird TpL' anschliessend am
ursprünglichen Pegel der Summe von TpFL, TpBL und TpC normiert und ergibt TpL' ' . Ebenso wird TpR' gleichfalls am ursprünglichen Pegel der Summe von TpFR, TpBR und TpC normiert und ergibt TpR' ' .
In FIG. 16 wird nunmehr TpL'' mit um -3dB verringertem Pegel jeweils von FL' und BL' subtrahiert, womit sich abschliessend FL* und BL* ergeben. Ebenso wird TpR'' mit um -3dB verringertem Pegel jeweils von FR' und BR' subtrahiert, womit sich abschliessend FR* und BR* ergeben .
FIG. 17 veranschaulicht nunmehr die nichtlineare inverse Kodierung von TpL' ' , womit sich TpFL' ' und TpBL'' ergeben. TpBL'' erscheint mittels eines Gain um den Faktor 0.7071 verstärkt. Ebenso findet eine
nichtlineare inverse Kodierung von TpR' ' statt, womit sich TpFR'' und TpBR'' ergeben. TpBR'' erscheint ebenfalls mittels eines Gain um den Faktor 0.7071 verstärkt .
In FIG. 18 werden abschliessend TpFL'' und TpFR'' auf die bekannten Pegel der gleichnamigen Originalsignale normiert, womit sich abschliessend TpFL* und TpFR* ergeben. Die Kanäle TpBL'' und TpBR'' werden sodann an die derartig normierten Signale TpFL* und TpFR* so angeglichen, dass sämtliche Pegelverhältnisse der nichtlinearen inversen Kodierung erhalten bleiben
(somit die Gains jeweils mit dem Faktor 0.7071 in Bezug auf den nunmehrigen Pegel dieser Kanäle für diese wirksam bleiben) , und ergeben nunmehr abschliessend TpBL* und TpBR* .
Insbesondere finden wiederum die oben beschriebenen Prinzipien eines fiktiven TpC Anwendung.
Insgesamt umfassen die für diese nichtlineare inverse Kodierung verwandten Mittel bzw. Methodiken wiederum:
• die Summierung von Signalen,
• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,
• die Extraktion von Signalen mittels
KorrelationsVergleiches ,
• die Anwendung von Pegelkorrekturen für vorgängig vorhandene oder schrittweise gewonnene Signale,
• die Normierung von gewonnenen Signalen anhand
bekannter Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,
• die Gewinnung weiterer Signale anhand der
jeweiligen Subtraktion vorgängig vorhandener oder schrittweise gewonnener Signale jeweils mit oder ohne Pegelkorrekturen,
• die Gewinnung von Signalen anhand von inverser Kodierung,
• die Anpassung des Pegels weiterer Kanäle an die Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,
• gegebenenfalls die Korrektur unterschiedlicher Lautsprecherabstände mittels Gains und Delays (siehe oben) , • die Gewinnung weiterer Signale aus vorgängig vorhandenen oder schrittweise gewonnenen Signalen.
Approximation bestehender Multikanal-Signale mittels linearer oder nichtlinearer inverser Dekodierung
Es ist naheliegend, vor einer linearen oder
nichtlinearen inversen Dekodierung ausgehend, deren Parameter so zu bestimmen, dass eine möglichst hohe Approximation des resultierenden Signals an das
ursprüngliche Multikanal-Signal erreicht wird.
Derartige Signal-Approximationen anhand einer linearen inversen Kodierung sind bereits mit den referentiellen Dokumenten EP1850629, WO2009138205, WO2011009649,
WO2011009650, WO2012016992 und WO2012032178
ausführlichst behandelt worden.
Für sämtliche beschriebenen Approximationen oder
Optimierungen wird im folgenden für den Fall einer Approximation oder Optimierung anhand einer
nichtlinearen inversen Kodierung stillschweigend vorausgesetzt, dass neben den bekannten Parametern der zugehörigen linearen inversen Kodierung sich auch die Gains (50001, 60001, 60002) der FIG. 5 und FIG. 6 in diese Approximation oder Optimierung einbeziehen lassen. So sind beispielsweise in FIG. 1B von
WO2012016992 jeweils in L und R jeweils ein Gain (60001 und 60002) gemäss der FIG. 6 der vorliegenden Anmeldung zu setzen und anstelle von „new φ or f or α or ß"
vielmehr „new φ or f or α or ß or Ii or I2" zu setzen. In einem ersten Schritt wird der automatische oder adaptive Downmix oder auch eine technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, definiert, und werden anhand dieses Downmix oder dieser technischen Kombination jene Signale gebildet, welche die
Eingangssignale der jeweiligen nichtlinearen inversen Kodierung darstellen. In einem zweiten Schritt wird anhand der Kurzzeit- Kreuzkorrelation jeweils der Korrelationsgrad r jener originalen Signalpaare bestimmt, welche in der Folge durch nichtlineare inverse Kodierung approximiert werden sollen. Es sei hierzu auf WO2011009649, Seite 12 (Zeile 7) bis Seite 13 (Zeile 10), sowie auf
WO2011009650, Seite 17 (Zeile 16) bis Seite 19 (Zeile 8 ) , verwiesen .
Sofern es sich um diskrete Signale handelt, kann dieser Korrelationsgrad r negativ sein oder in einer Umgebung von 0 liegen. Dies würde bei einer inversen Kodierung, die von einem einkanaligen Eingangssignal ausgeht, zu einem zwar stark dekorrelierten Signal, jedoch bei Transienten, Stimm- oder Vokalaufnahmen zugleich zu starken Artefakten führen.
Es ist demnach in einem dritten Schritt zielführend, die in WO2011009650 (beispielsweise FIG. 1)
dargestellte Zielkorrelation k so nach oben zu
korrigieren, dass Artefakte möglichst vermieden werden.
Eine solche Korrektur ist von der Art des Signals abhängig. Als ein Richtwert für die artefaktfreie lineare inverse Kodierung beispielsweise von Sprache oder vokalen Darbietungen ist k > +0.66 anzunehmen, für die artefaktfreie lineare inverse Kodierung
beispielsweise von Musik oder Geräuschen mit starken Transienten k > +0.40 und für artefaktfreie lineare inverse Kodierung beispielsweise von Musik oder
Geräuschen ohne starke Transienten k > 0.00.
Die technische Bestimmung, zu welcher Kategorie ein invers zu kodierendes Audiosignal zu zählen ist, ist
Stand der Technik, und es wird deshalb nicht weiter auf diese eingegangen. In der Regel wird es genügen, die menschliche Stimme sowie starke Transienten zu
detektieren, und für Werte des jeweiligen
Korrelationsgrades r unterhalb der genannten
Untergrenzen ebendiese Untergrenze für die
Zielkorrelation k festzusetzen.
So wird in der linearen inversen Kodierung
beispielsweise für ein vokales Signal mit dem
Korrelationsgrad r = +0.45 die zugehörige
Zielkorrelation mit der genannten Untergrenze k = +0.66 festgesetzt, für ein Signal mit Transienten, welches den Korrelationsgrad r = +0.15 aufweist, die zugehörige Zielkorrelation mit der genannten Untergrenze k = 0.40, und für ein sonstiges Signal mit dem Korrelationsgrad r =—0.15 die zugehörige Zielkorrelation mit der
genannten Untergrenze fc = 0.00. Liegt der Korrelationsgrad r eines Signal bestimmter Beschaffenheit oberhalb der für es opportunen Untergrenze, gilt hingegen für die Zielkorrelation k = r.
Die genannten Untergrenzen gelten wie erwähnt
insbesondere für die lineare inverse Kodierung. In der nichtlinearen inversen Kodierung können bei Signalen etwa der Ordnung 7 (beispielsweise Surround 7.1, sofern der LFE-Kanal nicht mitgezählt wird) oder höher die genannten Untergrenzen für die spezifischen Signaltypen auch um einen Wert zwischen -0.10 bis -0.15
herabgesetzt werden, ohne dass genannte Artefakte schlussendlich auftreten.
Das linear oder nichtlinear invers kodierte Signal wird anschliessend so optimiert, dass sein anhand der
Kurzzeit-Kreuzkorrelation bestimmter Korrelationsgrad r mit der festgelegten Zielkorrelation k übereinstimmt.
Es sei hierzu nochmals auf WO2011009649, Seite 12
(Zeile 7) bis Seite 13 (Zeile 10), sowie auf
WO2011009650, Seite 17 (Zeile 16) bis Seite 19 (Zeile
8 ) , verwiesen .
In einem optionalen vierten Schritt wird die Lage der Phantomschallquellen beim originalen Signalpaar bzw. beim zu optimierenden, linear oder nichtlinear invers kodierten Signal etwa mit der zum Stand der Technik gehörenden Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) bestimmt - oder auch dessen algebraische Invarianten gemäss EP1850629, WO2009138205, WO2011009649, WO2011009650, WO2012016992 und WO2012032178. Eine Kombination der soeben genannten Verfahren ist ebenfalls möglich. So lässt sich etwa auf einem Signalabschnitt von beispielsweise 40ms des originalen Signalpaars zuerst eine Karhunen-Loeve-Transformation (KLT) ausführen, anhand derer dann gezielt die in WO2012016992 auf Seite 4 (Zeile 22) bis Seite 5 (Zeile 2) genannte Verknüpfung A(t) oder mehrere Verknüpfungen /iA(t), 2 A(t), ..., fp A (t) von mindestens zwei Signalen 51(t), s2(t), ···/ sm( bzw. von deren Transferfunktionen t^s^t) , t2(s2(t)),
tm(sm( ) oder auch die beliebig definierbare Abbildung #( oder die beliebig definierbaren Abbildungen /i#(t), 2#( ' · · ·/ / #( von einem Signal s#(t) oder mehreren Signalen s1#(t), s2#(t), s/2#(t) - auf der komplexen
Zahlenebene betrachtet bzw. deren Projektion auf das Relief, das durch die Norm aller Punkte der komplexen Zahlenebene definiert ist (den Einheitskegel, dessen
Spitze im Ursprung der komplexen Zahlenebene liegt und dessen Symmetrieachse lotrecht zur komplexen
Zahlenebene liegt) - beispielsweise so mehrfach
definiert und anschliessend parallel zueinander betrachtet werden, dass jeweils eine der
Hauptkomponenten der Karhunen-Loeve-Transformation eine Teilmenge der in WO2012016992 auf Seite 7 (Zeilen 17 bis 22) bzw. auf Seite 10 (Zeilen 11 bis 20)
beschriebenen Ebene darstellt.
Anschliessend werden die algebraischen Invarianten des originalen Signalpaars bzw. zu optimierenden, linear oder nichtlinear invers kodierten Signals gemäss
WO2012016992, Seite 10 (Zeile 21) bis Seite 12 (Zeile 3) bestimmt und beispielsweise gemäss den Figuren zu WO2012016992, ausführlich beschrieben von Seite 19 (Zeile 1) bis Seite 78 (Zeile 15), optimiert. In WO2012016992 (FIG. 1B, FIG. 3A, FIG. 4A, FIG. 5A, FIG. 6A, FIG. 7A, FIG. 7B, FIG. 8A) lässt sich jeweils optional unmittelbar in L oder R ein Gain gemäss FIG. 5 oder FIG. 6 der vorliegenden Anmeldung einfügen und somit unmittelbar das bereits nichtlinear invers kodierte Signal optimieren.
Das jeweils betrachtete originale Signalpaar bzw. das zu optimierende, linear oder nichtlinear invers
kodierte Signal lässt sich in einem optionalen fünften Schritt hinsichtlich der Hauptreflexionen sowie der Hallfahne betrachten bzw. optimieren. Hierfür reicht im allgemeinen ein Signalausschnitt von 40ms aus, um die Latenz der gesamten Kodierung entsprechend niedrig zu halten und dennoch sämtliche wesentlichen Parameter zu erfassen .
Ab Seite 28 (Zeile 14) wird bis Seite 36 (Zeile 8) in WO2012032178 die technische Umsetzung einer solchen räumlichen Optimierung beschrieben, welche einem idealen Äquivalent des genannten fünften Schrittes entspricht . Ein Blockschaltbild genannter Optimierungsschritte zeigt FIG. 19.
Alle genannten Schritte lassen sich in veränderter Reihenfolge oder ganz oder teilweise in anders
kombinierten Teilschritten durchführen - oder können auch als solche ganz oder teilweise weggelassen werden. Neben der eben genannten Optimierung können zusätzlich oder alternativ auch eine oder mehrere der in EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 beschriebenen
Optimierungen angewendet werden.
So lässt sich beispielsweise zur Optimierung des vorerst linear invers kodierten Signals (sodass sein anhand der Kurzzeit-Kreuzkorrelation bestimmter
Korrelationsgrad r mit der festgelegten Zielkorrelation k übereinstimmt) vorteilhaft der in WO2012032178 von Seite 25 (Zeile 5) bis Seite 28 (Zeile 13) beschriebene Algorithmus zur Gewichtung der fiktiven Öffnungswinkel α und ß bei zuvor festgelegter Zielkorrelation k als zusätzlicher Bestandteil des dritten Schritts einfügen. Es ist dann nur noch das geeignete Gewicht p zu
bestimmen, bevor der vierte und fünfte Schritt
ausgeführt werden. In einer alternativen, vereinfachten technischen Lösung ersetzt derselbe Algorithmus zugleich ganz den vierten und fünften Schritt. In der Praxis lassen sich so bei einer abschliessenden nichtlinearen inversen Kodierung unter Beibehaltung der Parameter der linearen inversen Kodierung mit einer derartigen Anordnung bereits hervorragende Ergebnisse erzielen.
Interessanterweise liefert demnach die Optimierung anhand einer linearen inversen Kodierung ganz
erstklassige Ergebnisse, sofern bei der anschliessenden nichtlinearen inversen Kodierung die Parameter der linearen inversen Kodierung unter Hinzufügung eines Gain (50001) gemäss FIG. 5 oder unter Hinzufügung von Gains (60001, 60002) gemäss FIG. 6 beibehalten werden. Dies ist auf die Tatsache zurückzuführen, dass das menschliche Gehör bei wachsender Kanalanzahl die
Transparenz weniger hinsichtlich der absoluten Lage der Phantomschallquellen als vielmehr hinsichtlich der Energiedichte des Schallfeldes beurteilt, und
insbesondere bei zunehmender Anzahl der
Wiedergabekanäle die unmittelbare psychoakustische Lokalisation der Lautsprecher, also annähernd
punktförmiger Schallquellen, gegenüber der Wahrnehmung von Phantomschallquellen zwischen den Lautsprechern überwiegt, auf die eine veränderte Wahl der Parameter der inversen Kodierung, welche vielmehr die absolute Lage der Phantomschallquellen auf der Stereobasis zwischen zwei Lautsprechern definiert, selbst keinen wesentlichen Einfluss mehr ausübt.
Dieser Sachverhalt stellt eine deutliche Vereinfachung des Gesamtsystems dar, denn gegenüber einer
nichtlinearen inversen Kodierung weist die lineare inverse Kodierung insbesondere den Vorteil einer homogenen Stereobasis auf, die eine Optimierung - insbesondere hinsichtlich Korrelationsgrad, Lage der Phantomschallquellen und der Hauptreflexionen sowie der Hallfahne - wesentlich erleichtert.
Parameter der nichtlinearen inversen Kodierung eines Multikanal-Signals mit oder ohne Base Audio Coder
Aus dem automatischen oder adaptiven Downmix oder auch einer technischen Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, sowie aus der oben geschilderten Approximation bestehender Multikanal-Signale mittels linearer oder nichtlinearer inverser Kodierung lässt sich ein - hinsichtlich der Bandbreite des originalen Multikanal-Signals - wesentlich reduziertes Datenformat für ebendieses Multikanal-Signal ableiten, welches neben dem - eventuell mit Base Audio Coders
komprimierten - Downmix im einzelnen folgende
Informationen enthalten kann:
• Struktur der Downmixmatrix (beispielsweise FIG.
4) ,
• Absolute Pegel der originalen als auch der
schrittweise im Downmix generierten Signale
(beispielsweise in FIG. 20 mit pi, p2, ···, pn bezeichnet) ;
• Form und Parameter der jeweils verwendeten
inversen Kodierungen (beispielsweise alle Gains und Delays gemäss FIG. 5, die mit jeder inversen Kodierung Ji, J2 variieren können) ,
• Struktur des Decoders und Form der Dekodierung
(beispielsweise FIG. 14, FIG. 15, FIG. 16. FIG. 17, FIG. 18);
• Gegebenenfalls Art der verwendeten Base Audio
Coders (beispielsweise in FIG. 20 HE-AAC und
HE-AAC v2), die Form der Enkodierung sowie die jeweils zugehörigen Bitraten.
Es ist unschwer einzusehen, dass diese Daten, die in optimierter Darstellung äusserst geringe Bitraten aufweisen, anders als die aus dem Stand der Technik bekannten permanenten Spatial Bitrates ausschliesslich als Header-Information oder (zur erhöhten Sicherheit) auch als Datenpuls gespeichert oder übertragen werden können. Die Verstärkungsfaktoren, Pegel und/oder die anderen Parameter für die nichtlineare inverse
Kodierung können für jeden Signalabschnitt (z.B. jede Sekunde) einmal übertragen werden. (Die permanente Übertragung, beispielsweise auf ein Sample oder einen Frame oder dessen Abschnitte bezogen, obgleich
unpraktisch, ist selbstverständlich ebenfalls möglich, insbesondere, wenn sich die Pegel der Ausgangskanäle einer inversen Kodierung über den zeitlichen Verlauf hinweg, etwa aufgrund der Anwendung eines adaptiven Downmix, verändern sollen.)
Das konkrete Beispiel eines solchen möglichen
Datenformats zeigt FIG. 20.
Loudness-Korrektur eines anhand einer nichtlinearen inversen Kodierung gewonnenen Multikanal-Signals mit oder ohne Base Audio Coder und Dynamic Range Control (DRC)
Tatsächlich ist es wünschenswert, die Pegel der
Ausgangskanäle eines anhand einer nichtlinearen inversen Kodierung gewonnenen Multikanal-Signals um einen einheitlichen Wert anzuheben oder zu verringern, um denselben subjektiven Lautheitseindruck zu erzeugen wie beim ursprünglichen Multikanal-Signal vor der nichtlinearen inversen Kodierung. Diese Anhebung oder Verringerung des Gesamtpegels kann beispielsweise anhand der absoluten Pegel von originalen oder von schrittweise im Downmix generierten Signalen erfolgen oder anhand von Messungen oder Berechnungen der subjektiv wahrgenommenen Lautheit („Loudness"), beispielsweise anhand von Methodiken, wie sie ITU-R BS .1770-3 : 2012 beschreibt. Eine solche Anhebung oder Verringerung kann zeitlich konstant erfolgen oder im zeitlichen Ablauf stetig oder nicht-stetig angepasst werden.
Diese Anhebung oder Verringerung des Gesamtpegels kann insbesondere die Besonderheiten eines Base Audio Coder berücksichtigen, der auf den subjektiven
Lautheitseindruck eines Multikanal-Signals wesentlichen Einfluss ausüben kann.
Ebenso können auf ein Multikanal-Signal die Methodiken eines sogenannten Dynamic Range Control (DRC) angewandt werden, das unter einer Unzahl von Gesichtspunkten auf die Aussteuerung eines Multikanalsignals so Einfluss nimmt, dass der Zuhörer ein optimiertes Ergebnis wahrnimmt . Ableitung von beliebigen Signalen höherer oder
niedrigerer Ordnung aus einem Multikanal-Signal
Nach obigen Ausführungen ist leicht einzusehen, dass aus einem beliebiges Multikanal-Signal ein Signal höherer Ordnung mit beliebiger Lautsprecheranordnung abgeleitet werden kann, da nichtvorhandene Kanäle beispielsweise mittels linearer oder nichtlinearer inverser Kodierung sich anhand bestehender oder
generierter Lautsprechersignale ableiten lassen.
Ebenso ist leicht einzusehen, dass aus einem beliebigen Multikanal-Signal sich ein Signal niedrigerer Ordnung mit beliebiger Lautsprecheranordnung gewinnen lässt, da vorhandene Kanäle mittels eines automatischen oder adaptiven Downmix - oder einer technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält - reduziert werden können, und für die Bestimmung der jeweiligen
Signalpegel vorgängig vorhandener oder schrittweise gewonnener Signale der Dämpfungsverlauf eines zum Stand der Technik gehörigen Panorama-Potentiometers verwendet werden kann. Die Anwendung einer linearen oder
nichtlinearen inversen Kodierung zur Optimierung der jeweils abgebildeten Phantomschallquellen und der
Energiedichte des Schallfeldes ist dabei ebenfalls denkbar .
Zusammenfassend kann folgendes festgehalten werden. Unter „inverser Kodierung" und insbesondere „linearer inverser Kodierung" wird ein technischer Vorgang beschrieben, der räumliche Audiosignale durch die spezifische Anwendung von funktional voneinander abhängigen Gains und Delays generiert. Insbesondere kann eine solche „inverse Kodierung" oder „lineare inverse Kodierung" ein Summierungselement , eine MS- Matrix und einen diesem Summierungselement
nachgeschalteten Gain oder zwei, der MS-Matrix
nachgeschaltete Panorama-Potentiometer enthalten.
Eine „nichtlineare inverse Kodierung" kennzeichnet sich durch die vordergründig nicht zweckmässige zusätzliche Nachschaltung wenigstens eines Gain (50001) im linken oder auch im rechten Ausgangskanal einer Anordnung für eine „inverse Kodierung" oder „lineare inverse
Kodierung" . Die Erfindung ist nicht auf das beschriebene
Ausführungsbeispiel beschränkt, sondern alle im
Schutzbereich der Erfindung liegenden
Ausführungsbeispiele sind Teil der Erfindung.
Anstelle der nichtlinearen inversen Kodierung in der Upmixvorrichtung in Anspruch 31 kann alternativ auch eine lineare inverse Kodierung oder andere Verfahren der Pseudostereophonisierung verwendet werden.
Eine Verstärkung im Sinne der Ansprüche kann sowohl einen Verstärkungsfaktor grösser oder kleiner 1 bedeuten, d.h. eine Verstärkung im Sinne der Erfindung kann auch eine Abschwächung bedeuten.
Zwei Signale, die auf einem Multikanalsignal basieren, können sowohl direkt zwei Kanäle des Multikanalsignals sein oder eines (oder beide) der zwei Signale kann (können jeweils) auf der Kombination von zwei Kanälen des Multikanalsignals basieren. Das gleiche gilt für Signale, die auf einem Downmixsignal basieren.
Der Begriff der Kodierung beinhaltet den Begriff der Enkodierung als auch der Dekodierung.
Der Begriff des Upmix umschreibt die Bildung einer höheren Anzahl von Kanälen aus einer geringeren Anzahl von Kanälen. Der Begriff des Downmix umschreibt die Bildung einer geringeren Anzahl von Kanälen aus einer höheren Anzahl von Kanälen.

Claims

PATENTA S PRÜCHE
1. Upmix- oder Kodiervorrichtung eines Audiosignals aufweisend :
eine inverse Kodierungsvorrichtung zur
Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem
Eingangs signal ;
gekennzeichnet durch
einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (50001); oder einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (60001) und einen der inversen Kodierungsvorrichtung in dem zweiten Kanal nachgeschalteten zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.
2. Upmix- oder Kodiervorrichtung nach Anspruch 1 ausgebildet, den mit dem ersten Gain (50001, 60001) verstärkten ersten Kanal ohne Kombination mit dem zweiten Kanal auszugeben oder weiterzuverarbeiten, und/oder den mit dem zweiten Gain (60002) verstärkten zweiten Kanal ohne Kombination mit dem ersten Kanal auszugeben oder weiterzuverarbeiten.
3. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 2, wobei der erste Gain (50001, 60001) und/oder der zweite Gain (60002) in Abhängigkeit zumindest eines Parameters eines Downmixes, welcher zur Erzeugung des Eingangskanals verwendet wurde, gewählt sind/ist .
4. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 2, aufweisend eine
Optimierungsvorrichtung ausgebildet, den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) in Abhängigkeit des ersten Kanals und/oder des zweiten Kanals einzustellen.
5. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 3, wobei der erste Gain (50001, 60001) und/oder der zweite Gain (60002) fest eingestellt ist.
6. Upmix- oder Kodiervorrichtung nach Anspruch 5, wobei der Wert des ersten Gains (50001, 60001) 0.5 oder
1/V2 entspricht.
7. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 6, aufweisend eine der inversen
Kodierungsvorrichtung und dem ersten Gain in dem ersten Kanal und dem zweiten Kanal nachgeschalteten
Pegelkorrekturvorrichtung, die ausgebildet ist, die Pegel des ersten Kanals und des zweiten Kanals in
Abhängigkeit zumindest eines Parameters eines
Downmixes, welcher zur Erzeugung des Eingangskanals verwendet wurde, oder in Abhängigkeit eines empfangenen Pegels anzupassen.
8. Upmix- oder Kodiervorrichtung nach Anspruch 3, 5, 6 oder 7,
wobei das Eingangssignal aus zwei Signalen, die auf einem Multikanalsignal basieren, durch gewichtete Addition erzeugt ist, und der zumindest eine Parameter des Downmixes der Gewichtung der zwei Signale oder der Ausgangssignale entspricht.
9. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1, 2, 3 oder 7, aufweisend eine
Empfangsvorrichtung zum Empfangen des Eingangssignals und eines ersten Werts und/oder eines zweiten Werts, wobei der erste Gain nach dem empfangenen ersten Wert und/oder der zweite Gain nach dem empfangenen zweiten Wert eingestellt werden/wird.
10. Upmix- oder Kodiervorrichtung nach einem der
Ansprüche 1 bis 9, wobei die inverse
Kodierungsvorrichtung ausgebildet ist, auf der Basis von mit dem Eingangssignal empfangenen Parametern den ersten Kanal und den zweiten Kanal zu bestimmen.
11. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 10, wobei die inverse
Kodierungsvorrichtung ausgebildet ist, auf der Basis eines Winkels zwischen einer Schallquelle und einer Hauptachse eines Mikrophons, eines fiktiven linken
Öffnungswinkels, eines fiktiven rechten Öffnungswinkels und einer Richtcharakteristik für das Eingangssignal zumindest einen ersten Gain der inversen
Kodiervorrichtung und zumindest einen Delay der
inversen Kodiervorrichtung zu bestimmen, und ein erstes Zwischensignal und ein zweites Zwischensignal auf der Basis des mindestens einen Delays und des zumindest einen Gain der inversen Kodiervorrichtung zu bestimmen, und den ersten Kanal und den zweiten Kanal auf der Basis des ersten Zwischensignals und des zweiten
Zwischensignals zu bestimmen.
12. Upmix- oder Kodiervorrichtung nach Anspruch 11, wobei die inverse Kodierungsvorrichtung ausgebildet ist, auf der Basis zumindest eines Gewichtungsfaktors den ersten Kanal und den zweite Kanal jeweils durch gewichtete Addition und/oder gewichtete Subtraktion des ersten und zweiten Zwischensignals zu erzeugen.
13. Upmix- oder Kodiervorrichtung nach Anspruch 11 oder 12, wobei die inverse Kodiervorrichtung
ausgebildet ist, zwei Delays auf der Basis des Winkels zwischen der Schallquelle und der Hauptachse des
Mikrophons, des linken Öffnungswinkels, des rechten Öffnungswinkels und der Richtcharakteristik zu
bestimmen und diese zwei Delays durch einen gemeinsamen Zeitfaktor (s) zu korrigieren.
14. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 11 bis 13, wobei der Winkel zwischen der Schallquelle und der Hauptachse des Mikrophons, der linke Öffnungswinkel, der rechte Öffnungswinkel
und/oder die Richtcharakteristik konstant sind.
15. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 14, aufweisend eine
Optimierungsvorrichtung zum Bestimmen eines geeigneten Werts für den ersten Gain (50001, 60001) und/oder für den zweiten Gain (60002) und/oder für Parameter der linearen inversen Kodierung.
16. Upmix- oder Kodiervorrichtung nach Anspruch 15, wobei die Optimierungsvorrichtung ausgebildet ist, den Korrelationsgrad der aus dem Downmix rekonstruierten zwei Kanäle oder der dem Downmix zugrundeliegenden zwei Signale zu bestimmen, und den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) und/oder der Parameter der linearen inversen Kodierung in Abhängigkeit des Korrelationsgrads zu bestimmen.
17. Upmix- oder Kodiervorrichtung nach Anspruch 16, wobei die Optimierungsvorrichtung ausgebildet ist, den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) und/oder der Parameter der linearen inversen Kodierung in Abhängigkeit eines
Zielkorrelationsgrads zu bestimmen.
18. Upmix- oder Kodiervorrichtung nach Anspruch 19, wobei die Optimierungsvorrichtung ausgebildet ist, den Zielkorrelationsgrad anhand der Beschaffenheit der zwei Kanäle, der Beschaffenheit des ersten Downmixkanals , der Beschaffenheit der dem ersten Downmixkanal
zugrundeliegenden zwei Signale und/oder anhand der Beschaffenheit der Kanäle des dem ersten Downmixkanals zugrundeliegenden Multikanalsignals zu bestimmen.
19. Upmix- oder Kodiervorrichtung nach Anspruch 18, wobei der Zielkorrelationsgrad
für Sprach- oder Vokalaufnahmen grösser gleich plus Nullkommafünfeins (>+0,51) ist, insbesondere grösser gleich plus Nullkommasechssechs (>+0,66), und/oder
für Transienten grösser gleich plus
Nullkommazweifünf (>0,25) ist, insbesondere grösser gleich plus Nullkommavier (>0,40) ist, und/oder
bei sonstigen Signalen grösser gleich minus Nullkommafünfzehn (>—0,15) ist, insbesondere grösser gleich Null (>0) .
20. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 15 bis 19, wobei die Optimierungsvorrichtung eine Vergleichsvorrichtung aufweist zum Vergleichen der zwei Kanäle mit den dem ersten Downmixkanal
zugrundeliegenden zwei Signale zum Bestimmen eines geeigneten Werts für den ersten Gain (50001, 60001) und/oder für den zweiten Gain (60002) und/oder für Parameter der linearen inversen Kodierung.
21. Upmix- oder Kodiervorrichtung nach einer der Ansprüche 1 bis 20, wobei Mittel zur Bestimmung der Lage von Phantomschallquellen verwendet werden.
22. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 21, wobei Mittel für eine Signalanalyse oder Mittel für die Bestimmung algebraischer
Invarianten verwendet werden.
23. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 22, wobei Mittel für eine Karhunen- Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.
24. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 23, wobei Mittel zur Optimierung der Bestimmung algebraischer Invarianten anhand einer
Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.
25. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 24, wobei Mittel zur Optimierung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen linearen inversen Kodierung anhand einer der Hauptreflexionen oder der Hallfahne verwendet werden .
26. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 25, wobei Mittel zur Pegel- und
Zeitkorrektur von Signalen anhand der jeweiligen
Lautsprecherpositionen verwendet werden.
27. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 26, wobei entweder Mittel zur
Wellenfeldsynthese oder Mittel für Head Related
Transfer Functions (HRTFs) oder Mittel für Binaural Room Impulse Responses (BRIRs) verwendet werden.
28. Kodiervorrichtung eines Audiosignals
aufweisend :
einen Downmixer zum Erzeugen eines Downmixkanals durch gewichtete Addition zweier Signale, die auf einem Multikanalsignal basieren,
gekennzeichnet durch,
eine Optimierungsvorrichtung zum Bestimmen einer für eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 geeigneten Wert für den ersten Gain (50001, 60001) und/oder den zweiten Gain (60002) .
29. Kodiervorrichtung nach Anspruch 28, wobei die Optimierungsvorrichtung eine Upmix- oder
Kodiervorrichtung nach einem der Ansprüche 1 bis 27 zum Rekonstruieren der zwei Signale aus dem Downmixsignal zur Bestimmung des geeigneten Werts aufweist.
30. Kodiervorrichtung nach Anspruch 28 oder 29, wobei die Optimierungsvorrichtung ausgebildet ist, die Gewichtung der zwei Signale für den ersten Downmixkanal zu optimieren.
31. Speichermittel aufweisend ein Downmixsignal, basierend auf einem Multikanalsignal , gekennzeichnet durch einen Wert für einen ersten Gain für eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27.
32. Speichermittel nach Anspruch 31, weiter
aufweisend Pegel von Kanälen des Multikanalsignals oder Pegel von Kanälen des Downmixsignals .
33. System aufweisend:
Kodiervorrichtung zum Erzeugen eines
Downmixkanals auf der Basis zweier Signale, die auf einem Multikanalsignal basieren,
gekennzeichnet durch
Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 ausgebildet zum Rekonstruieren der zwei Signale aus dem ersten Downmixkanal.
34. System nach Anspruch 33, wobei die
Kodierungsvorrichtung eine Kodierungsvorrichtung nach einem der Ansprüche 28 bis 30 ist.
35. Verfahren zum Upmixen oder Kodieren eines Audiosignals aufweisend die Schritte: Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem
Eingangssignal ;
gekennzeichnet durch
Multiplikation des ersten Kanals mit einem ersten Gain (50001); oder
Multiplikation des ersten Kanals mit einem ersten Gain (60001) und des zweiten Kanals mit einem zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.
36. Verfahren zum Kodieren eines Audiosignals aufweisend die Schritte:
Erzeugen eines ersten Downmixkanals durch gewichtete Addition zweier Signale, die auf einem
Multikanalsignal basieren,
gekennzeichnet durch,
Bestimmen einer für ein Upmixen oder Kodieren nach Anspruch 26 geeigneten Wert für den ersten Gain (50001, 60001) und/oder den zweiten Gain (60002) .
37. Computerprogram ausgebildet, bei Ausführung auf einem Prozessor, die Schritte eines Verfahrens nach Anspruch 35 oder 36 auszuführen.
38. Upmix- oder Kodiervorrichtung zum Upmixen eines Downmixsignals mit einer ersten Anzahl von Kanälen auf ein Multikanalsignal mit einer grösseren zweiten Anzahl an Kanälen, aufweisend:
Korrelationsvergleichsvorrichtung zum Erzeugen mindestens eines Zwischenkanals aus mindestens zwei Kanälen, die auf Kanälen des Downmixsignals basieren, durch Extrahieren der korrelierten Anteile der zwei Kanäle,
Ausgabevorrichtung zum Erzeugen des
Multikanalsignal auf der Basis der Kanäle des
Downmixsignals und der Zwischenkanäle;
gekennzeichnet durch
eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 zum Erzeugen zumindest eines weiteren Kanals durch nicht lineare inverse Kodierung auf der Basis des Zwischenkanals oder eines der zwei Kanäle .
39. Upmix- oder Kodiervorrichtung nach Anspruch 38, wobei die Korrelationsvergleichsvorrichtung ausgebildet ist, das mindestens eine Zwischensignal an einen empfangenen Pegel anzupassen.
40. Upmix- oder Kodiervorrichtung nach Anspruch 38 oder 39, wobei die Korrelationsvergleichsvorrichtung ausgebildet ist, einen Kanal des Downmixsignals durch den Zwischenkanal zu korrigieren.
41. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 38 bis 40, wobei das Downmixsignal vier
Kanäle einer ersten Ebene mit einem vorderen rechten, einem hinteren rechten, einem hinteren linken und einem vorderen linken Kanal aufweist, und die
Korrelationsvergleichsvorrichtung ausgebildet ist, aus den vier Kanälen des Downmixsignals einen vorderen zentralen, einen hinteren zentralen, einen linken zentralen und einen rechten zentralen Kanal zu bilden.
42. Upmix- oder Kodiervorrichtung nach Anspruch 41, wobei die Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 20 ausgebildet ist, einen Kanal zwischen dem vorderen zentralen und dem vorderen linken Kanal aus dem vorderen linken Kanal zu bilden und/oder einen Kanal zwischen dem vorderen zentralen und dem vorderen rechten Kanal aus dem vorderen rechten Kanal zu bilden.
PCT/EP2013/073526 2012-11-09 2013-11-11 Nichtlineare inverse kodierung von multikanal-signalen WO2014072513A1 (de)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2015541175A JP2016501456A (ja) 2012-11-09 2013-11-11 多チャンネル信号の非線形逆コーディング
AU2013343445A AU2013343445A1 (en) 2012-11-09 2013-11-11 Non-linear inverse coding of multichannel signals
CN201380070069.5A CN105229730A (zh) 2012-11-09 2013-11-11 多信道信号的非线性逆编码
KR1020157015177A KR20150101999A (ko) 2012-11-09 2013-11-11 다채널 신호의 비선형 역부호화
RU2015121941A RU2015121941A (ru) 2012-11-09 2013-11-11 Нелинейное обратное кодирование многоканальных сигналов
EP13789019.0A EP2917908A1 (de) 2012-11-09 2013-11-11 Nichtlineare inverse kodierung von multikanal-signalen
US14/441,898 US20150371644A1 (en) 2012-11-09 2013-11-11 Non-linear inverse coding of multichannel signals
SG11201504514WA SG11201504514WA (en) 2012-11-09 2013-11-11 Non-linear inverse coding of multichannel signals
HK16107907.9A HK1220034A1 (zh) 2012-11-09 2016-07-06 多信道信號的非線性逆編碼

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH2300/12 2012-11-09
CH23002012 2012-11-09

Publications (1)

Publication Number Publication Date
WO2014072513A1 true WO2014072513A1 (de) 2014-05-15

Family

ID=47360247

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2013/073526 WO2014072513A1 (de) 2012-11-09 2013-11-11 Nichtlineare inverse kodierung von multikanal-signalen

Country Status (10)

Country Link
US (1) US20150371644A1 (de)
EP (1) EP2917908A1 (de)
JP (1) JP2016501456A (de)
KR (1) KR20150101999A (de)
CN (1) CN105229730A (de)
AU (1) AU2013343445A1 (de)
HK (1) HK1220034A1 (de)
RU (1) RU2015121941A (de)
SG (1) SG11201504514WA (de)
WO (1) WO2014072513A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016030545A2 (de) 2014-08-29 2016-03-03 Clemens Par Vergleich oder optimierung von signalen anhand der kovarianz algebraischer invarianten
CN106796792A (zh) * 2014-07-30 2017-05-31 弗劳恩霍夫应用研究促进协会 用于增强音频信号的装置和方法、声音增强***
EP3937515A1 (de) 2020-07-06 2022-01-12 Clemens Par Invarianzgesteuerter elektroakustischer übertrager

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX365274B (es) * 2015-06-17 2019-05-29 Sony Corp Dispositivo de transmisión, método de transmisión, dispositivo de recepción, y método de recepción.
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互***的音频对象编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011009649A1 (de) * 2009-07-22 2011-01-27 Stormingswiss Gmbh Vorrichtung und verfahren zur verbesserung stereophoner oder pseudostereophoner audiosignale

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
GB9211756D0 (en) * 1992-06-03 1992-07-15 Gerzon Michael A Stereophonic directional dispersion method
KR20070001267A (ko) * 2004-04-09 2007-01-03 닛본 덴끼 가부시끼가이샤 음성 통신 방법 및 장치
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
EP2081400B1 (de) * 2006-04-27 2013-11-27 BlackBerry Limited Tragbare elektronische Vorrichtung mit verborgenen, von einer Tonquelle versetzten Tonöffnungen
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
CN101652810B (zh) * 2006-09-29 2012-04-11 Lg电子株式会社 用于处理混合信号的装置及其方法
CN101478296B (zh) * 2009-01-05 2011-12-21 华为终端有限公司 一种多声道***中的增益控制方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011009649A1 (de) * 2009-07-22 2011-01-27 Stormingswiss Gmbh Vorrichtung und verfahren zur verbesserung stereophoner oder pseudostereophoner audiosignale

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAMASAKI KIMIO ET AL: "The 22.2 Multichannel Sound System and Its Application", AES CONVENTION 118; MAY 2005, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 May 2005 (2005-05-01), XP040507214 *
PASI OJALA ET AL: "Further information on Nokia binaural decoder", 76. MPEG MEETING; 03-04-2006 - 07-04-2006; MONTREUX; (MOTION PICTUREEXPERT GROUP OR ISO/IEC JTC1/SC29/WG11),, no. M13231, 29 March 2006 (2006-03-29), XP030041900, ISSN: 0000-0239 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796792A (zh) * 2014-07-30 2017-05-31 弗劳恩霍夫应用研究促进协会 用于增强音频信号的装置和方法、声音增强***
WO2016030545A2 (de) 2014-08-29 2016-03-03 Clemens Par Vergleich oder optimierung von signalen anhand der kovarianz algebraischer invarianten
EP3937515A1 (de) 2020-07-06 2022-01-12 Clemens Par Invarianzgesteuerter elektroakustischer übertrager
WO2022008092A1 (de) 2020-07-06 2022-01-13 Clemens Par Invarianzgesteuerter elektroakustischer übertrager

Also Published As

Publication number Publication date
SG11201504514WA (en) 2015-07-30
CN105229730A (zh) 2016-01-06
US20150371644A1 (en) 2015-12-24
RU2015121941A (ru) 2017-01-10
AU2013343445A1 (en) 2015-07-02
EP2917908A1 (de) 2015-09-16
KR20150101999A (ko) 2015-09-04
HK1220034A1 (zh) 2017-04-21
JP2016501456A (ja) 2016-01-18

Similar Documents

Publication Publication Date Title
EP1854334B1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
DE102006050068B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
WO2014072513A1 (de) Nichtlineare inverse kodierung von multikanal-signalen
DE602005002942T2 (de) Verfahren zur darstellung von mehrkanal-audiosignalen
DE69633633T2 (de) Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung
DE602004004168T2 (de) Kompatible mehrkanal-codierung/-decodierung
DE602005006385T2 (de) Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
EP2206113B1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
DE4328620C1 (de) Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
EP2036400B1 (de) Erzeugung dekorrelierter signale
EP2005421B1 (de) Vorrichtung und verfahren zum erzeugen eines umgebungssignals
DE102013223201B3 (de) Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE102005014477A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
DE102007011436B4 (de) Vorrichtung und Verfahren zum Formen eines digitalen Audiosignals
WO2015128379A1 (de) Kodierung und dekodierung eines niederfrequenten kanals in einem audiomultikanalsignal
DE102023209048A1 (de) Verfahren und system zum verlagern von lautstärkeanpassungen von audiokomponenten
EP3937515A1 (de) Invarianzgesteuerter elektroakustischer übertrager
DE102017121876A1 (de) Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals
CH708710A1 (de) Ableitung von Multikanalsignalen aus zwei oder mehreren Grundsignalen.

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201380070069.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13789019

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2015541175

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2013789019

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20157015177

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2015121941

Country of ref document: RU

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2013343445

Country of ref document: AU

Date of ref document: 20131111

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14441898

Country of ref document: US