EP3330966A1 - Improved frequency band extension in an audio frequency signal decoder - Google Patents
Improved frequency band extension in an audio frequency signal decoder Download PDFInfo
- Publication number
- EP3330966A1 EP3330966A1 EP17206563.3A EP17206563A EP3330966A1 EP 3330966 A1 EP3330966 A1 EP 3330966A1 EP 17206563 A EP17206563 A EP 17206563A EP 3330966 A1 EP3330966 A1 EP 3330966A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- band
- frequency
- tonal
- low band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 238000002156 mixing Methods 0.000 claims abstract description 10
- 239000000737 potassium alginate Substances 0.000 claims abstract description 7
- 230000006872 improvement Effects 0.000 claims abstract description 5
- 239000000728 ammonium alginate Substances 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 11
- 230000005284 excitation Effects 0.000 description 47
- 230000015572 biosynthetic process Effects 0.000 description 29
- 238000003786 synthesis reaction Methods 0.000 description 29
- 238000001914 filtration Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 16
- 230000004044 response Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 10
- 238000012952 Resampling Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 241000897276 Termes Species 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 101150080038 Sur-8 gene Proteins 0.000 description 2
- 240000008042 Zea mays Species 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 101150093826 par1 gene Proteins 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 101150114085 soc-2 gene Proteins 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000006677 Appel reaction Methods 0.000 description 1
- 241001080024 Telles Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 229940082150 encore Drugs 0.000 description 1
- 235000021183 entrée Nutrition 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K3/00—Apparatus for stamping articles having integral means for supporting the articles to be stamped
- B41K3/54—Inking devices
- B41K3/56—Inking devices using inking pads
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/02—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images
- B41K1/04—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images with multiple stamping surfaces; with stamping surfaces replaceable as a whole
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/08—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
- B41K1/10—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having movable type-carrying bands or chains
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/08—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
- B41K1/12—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having adjustable type-carrying wheels
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/36—Details
- B41K1/38—Inking devices; Stamping surfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/36—Details
- B41K1/38—Inking devices; Stamping surfaces
- B41K1/40—Inking devices operated by stamping movement
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41K—STAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
- B41K1/00—Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
- B41K1/36—Details
- B41K1/38—Inking devices; Stamping surfaces
- B41K1/40—Inking devices operated by stamping movement
- B41K1/42—Inking devices operated by stamping movement with pads or rollers movable for inking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Definitions
- the present invention relates to the field of coding / decoding and audio-frequency signal processing (such as speech, music or other signals) for their transmission or storage.
- the invention relates to a method and a device for extending the frequency band in a decoder or a processor performing an audio-frequency signal improvement.
- the state of the art audio signal coding (mono) consists of perceptual encoding by transform or subband, with parametric high frequency band replication coding (SBR for Spectral). Band Replication in English).
- SBR parametric high frequency band replication coding
- 3GPP AMR-WB Adaptive Multi-Rate Wideband codec (decoder and decoder), which operates at an input / output frequency of 16 kHz and in which the signal is divided into two sub-bands, the low band (0-6.4 kHz) which is sampled at 12.8 kHz and coded by CELP model and the high band (6.4-7 kHz) which is parametrically reconstructed by " band extension " ( or BWE for "Bandwidth Extension” with or without additional information depending on the mode of the current frame.
- band extension or BWE for "Bandwidth Extension
- the limitation of the coded band of the AMR-WB codec at 7 kHz is essentially related to the fact that the transmit frequency response of the broadband terminals has been approximated at the time of standardization (ETSI / 3GPP then ITU-T T) according to the frequency mask defined in the ITU-T P.341 standard and more precisely by using a so-called "P341" filter defined in the ITU-T G.191 standard. which cuts frequencies above 7 kHz (this filter respects the mask defined in P.341).
- a signal sampled at 16 kHz may have a defined audio band of 0 to 8000 Hz; the AMR-WB codec thus introduces a limitation of the high band in comparison with the theoretical bandwidth of 8 kHz.
- the 3GPP AMR-WB speech codec was standardized in 2001 mainly for circuit-mode (CS) telephony applications over GSM (2G) and UMTS (3G). This same codec was also standardized in 2003 in the ITU-T as Recommendation G.722.2 "Wideband coding speech at around 16kbit / s using Adaptive Multi-Rate Wideband (AMR-WB)".
- the principle of band extension in the AMR-WB codec is rather rudimentary. Indeed, the high band (6.4-7 kHz) is generated by formatting a white noise through a temporal envelope (applied in the form of gains per subframe) and frequency (by the application of a linear prediction synthesis filter or LPC for "Linear Predictive Coding").
- This band extension technique is illustrated in figure 1 .
- correction information is transmitted by the encoder AMR-WB and decoded (blocks 107, 108) in order to refine the estimated gain per subframe (4 bits every 5ms, ie 0.8 kbit / s) .
- the AMR-WB decoding algorithm has been improved in part with the development of the ITU-T G.718 scalable codec that was standardized in 2008.
- ITU-T G.718 includes an interoperable mode, for which core coding is compatible with 12.65 kbit / s G.722.2 (AMR-WB) coding; in addition, the G.718 decoder has the distinction of being able to decode a bit stream AMR-WB / G.722.2 at all possible bit rates of the AMR-WB codec (6.6 to 23.85 kbit / s).
- the band extension in the AMR-WB and / or G.718 codecs is still limited in several respects.
- the synthesis of high frequencies by shaped white noise is a very limited model of the signal in the frequency band above 6.4 kHz. Only the 6.4-7 kHz band is artificially re-synthesized, whereas in practice a wider band (up to 8 kHz) is theoretically possible at the sampling frequency of 16 kHz, which can potentially improve the quality of the signals, if they are not pretreated by a P.341 (50-7000 Hz) filter as defined in the ITU-T Software Tool Library (Standard G.191).
- the present invention improves the situation.
- band extension will be taken in a broad sense and will include not only the case of the extension of a subband at high frequencies but also the case of a replacement of subbands used. zero (type "noise filling" in transform coding).
- tonal components and a surround signal extracted from the signal resulting from the decoding of the low band makes it possible to perform the band extension with a signal model adapted to the true nature of the band. signal contrary to the use of artificial noise.
- the quality of the band extension is thus improved and in particular for certain types of signals such as music signals.
- the signal decoded in the low band has a part corresponding to the sound environment that can be transposed into high frequency so that a mix of harmonic components and the existing environment ensures a high band reconstructed consistent.
- the band extension is performed in the field of excitation and the decoded low band signal is a decoded low band excitation signal.
- the advantage of this embodiment is that a transformation without windowing (or equivalently with an implicit rectangular window of the length of the frame) is possible in the field of excitation. In this case no artifact (block effects) is audible.
- this control factor allows the combining step to adapt to the characteristics of the signal to optimize the relative proportion of the ambient signal in the mixture.
- the energy level is thus controlled to avoid audible artifacts.
- the decoded low band signal undergoes a subband decomposition step by transform or filterbank, the extraction and combining steps then being performed in the frequency domain or in subbands. .
- the implementation of the band extension in the frequency domain makes it possible to obtain a fineness of frequency analysis which is not available with a temporal approach, and also makes it possible to have a frequency resolution sufficient to detect the tonal components. .
- this function includes a re-sampling of the signal by adding samples to the spectrum of this signal.
- Other ways of extending the signal are however possible, for example by translation in a sub-band processing.
- This device has the same advantages as the method described above, which it implements.
- the invention relates to a decoder comprising a device as described.
- the invention relates to a storage medium, readable by a processor, integrated or not integrated with the band expansion device, possibly removable, storing a computer program implementing a band extension method as described above.
- the figure 3 illustrates an example of a decoder, compatible with the norm AMR-WB / G.722.2 in which one finds a postprocessing similar to that introduced in G.718 and described with reference to the figure 2 and an improved tape extension according to the extension method of the invention, implemented by the tape extension device illustrated by block 309.
- the CELP decoding (BF for low frequencies) always operates at the internal frequency of 12.8 kHz, as in AMR-WB and G.718, and the band extension (HF for high frequencies) subject of the invention operating at the frequency of 16 kHz, the synthesis BF and HF are combined (block 312) at the frequency fs after adequate resampling (blocks 307 and 311).
- the combination of the low and high bands can be done at 16 kHz, after resampling the low band of 12.8 to 16 kHz, before resampling the combined signal at the frequency fs.
- This example decoder operates in the field of excitation and therefore comprises a step of decoding the low band excitation signal.
- the band extension device and the band extension method within the meaning of the invention also operates in a field different from the field of excitation and in particular with a low band decoded direct signal or a filter-weighted signal. perceptual.
- the decoder described makes it possible to extend the decoded low band (50-6400 Hz by taking into account the high-pass filtering at 50 Hz at the decoder, 0-6400 Hz in the general case ) to an extended band whose width varies, ranging from approximately 50-6900 Hz to 50-7700 Hz depending on the mode implemented in the current frame.
- the excitation for the high frequencies and generated in the frequency domain in a band of 5000 to 8000 Hz, to allow bandpass filtering of width 6000 to 6900 or 7700 Hz whose slope is not too stiff in the upper band rejected.
- the high band synthesis part is realized in block 309 representing the band extension device according to the invention and which is detailed in FIG. figure 5 in one embodiment.
- a delay (block 310) is introduced to synchronize the outputs of the blocks 306 and 309 and the high band synthesized at 16 kHz is resampled from 16 kHz to the frequency fs (output of block 311).
- the extension method of the invention implemented in block 309 according to the first embodiment introduces preferentially no additional delay with respect to the low band reconstructed at 12.8 kHz; however, in variants of the invention (for example using a time / frequency transformation with overlap), a delay may be introduced.
- the low and high bands are then combined (added) in block 312 and the resulting synthesis is post-processed by high-order 50 Hz (type IIR) high-pass filtering whose coefficients depend on the frequency fs (block 313) and output post-processing with optional noise gate application similar to G.718 (block 314).
- high-order 50 Hz type IIR
- the band extension device according to the invention illustrated by the block 309 according to the embodiment of the decoder of the figure 5 , implements a band extension method (in the broad sense) described now with reference to the figure 4 .
- This extension device can also be independent of the decoder and can implement the method described in FIG. figure 4 to perform a band extension of an existing audio signal stored or transmitted to the device, with an analysis of the audio signal to extract for example an excitation and an LPC filter.
- This device receives as input a decoded signal in a first so-called low-band frequency band u ( n ) which may be in the field of excitation or that of the signal.
- a step of subband decomposition (E401b) by time frequency transform or filter bank is applied to the low band decoded signal to obtain the spectrum of the decoded low band signal U (k) for a implemented in the frequency domain.
- a step E401a for extending the decoded low band signal in a second frequency band greater than the first frequency band, to obtain an extended low band decoded signal U HB 1 ( k ), can be performed on this decoded low band signal before or after the analysis step (subband decomposition).
- This extension step may comprise both a resampling step and an extension step or simply a translation step or frequency transposition as a function of the signal obtained at the input. It will be noted that in variants, step E401a may be performed at the end of the treatment described in FIG. figure 4 , i.e. on the combined signal, this processing being then mainly performed on the low band signal before expansion, the result being equivalent.
- a step E402 for extracting a room signal ( U HBA ( k )) and tonal components (y (k)) is performed from the decoded ( U ( k )) or decoded and extended ( U HB 1 ( k )) .
- Ambience is defined here as the residual signal that is obtained by suppressing in the existing signal the main (or dominant) harmonics (or tonal components).
- the high band (> 6 kHz) contains ambient information that is generally similar to that in the low band.
- step E403 The tonal components and the surround signal are then adaptively combined using energy level control factors in step E403 to obtain a so-called combined signal ( U HB 2 ( k )) .
- the extension step E401a can then be implemented if it has not already been performed on the decoded low band signal.
- the combination of these two types of signals makes it possible to obtain a combined signal with characteristics more adapted to certain types of signals, such as musical signals, and richer in frequency content and in the extended frequency band corresponding to the entire band of signals. frequency including the first and the second frequency band.
- the band extension according to the method improves the quality for this type of signals compared to the extension described in the AMR-WB standard.
- a synthesis step which corresponds to the analysis at 401b, is performed at E404b to bring the signal back to the time domain.
- an energy level adjustment step of the high band signal can be performed at E404a, before and / or after the synthesis step, by applying gain and / or adequate filtering. This step will be explained in more detail in the embodiment described in figure 5 for blocks 501 to 507.
- the band extension device 500 is now described with reference to the figure 5 illustrating both this device but also processing modules suitable for implementation in a decoder interoperable type with an AMR-WB coding.
- This device 500 implements the band extension method described above with reference to FIG. figure 4 .
- the processing block 510 receives a decoded low band signal ( u ( n )) .
- the band extension uses the decoded excitation at 12.8 kHz (exc2 or u ( n )) at the output of the block 302 of the figure 3 .
- This signal is decomposed into frequency subbands by the subband decomposition module 510 (which implements step E401b of the figure 4 ) which generally performs a transform or applies a bank of filters, to obtain a sub-band decomposition U (k) of the signal u ( n ) .
- a transformation without windowing (or equivalently with an implicit rectangular window of the length of the frame) is possible when the processing is performed in the field of excitation, and not the domain of the signal. In this case no artefact (block effects) is audible, which is an important advantage of this embodiment of the invention.
- the DCT-IV transformation is implemented by FFT according to the algorithm called " Evolved DCT (EDCT)" described in the article by DM Zhang, HT Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149 , and implemented in ITU-T G.718 Annex B and G.729.1 Annex E.
- EDCT Evolved DCT
- the DCT-IV transformation may be replaced by other short-term time-frequency transformations of the same length and in the field of excitation or in the domain of the signal, as an FFT (for "Fast Fourier Transform” in English ) or a DCT-II ( Discrete Cosine Transform - Type II).
- FFT Fast Fourier Transform
- DCT-II Discrete Cosine Transform - Type II
- MDCT for "Modified Discrete Cosine Tranform”
- the delay T in the block 310 of the figure 3 should be adjusted (reduced) adequately according to the additional delay due to the analysis / synthesis by this transform.
- the subband decomposition is performed by the application of a real or complex filter bank, for example of the PQMF (Pseudo-QMF) type.
- a real or complex filter bank for example of the PQMF (Pseudo-QMF) type.
- PQMF Pulseudo-QMF
- the preferred embodiment in the invention can be applied by producing for example a transform of each subband and calculating the ambient signal in the range of absolute values, the tonal components always being obtained by difference between the signal (in absolute value) and the ambient signal.
- the complex module of the samples will replace the absolute value.
- the invention will be applied in a system using two subbands, the low band being analyzed by transform or filterbank.
- Block 511 implements step E401a of the figure 4 , that is, the extension of the decoded low band signal.
- the original spectrum is conserved, in order to be able to apply a gradual attenuation response of the high-pass filter in this frequency band and also to avoid introducing audible defects. during the step of adding the low frequency synthesis to the high frequency synthesis.
- the generation of the oversampled extended spectrum is carried out in a frequency band ranging from 5 to 8 kHz, thus including a second frequency band (6.4-8 kHz) greater than the first frequency band. (0-6.4 kHz).
- the extension of the decoded low band signal is performed at least on the second frequency band but also on a part of the first frequency band.
- This approach preserves the original spectrum in this band and avoids introducing distortions in the 5000-6000 Hz band during the addition of HF synthesis with BF synthesis - particularly the signal phase (implicitly represented in the DCT-IV domain) in this band is preserved.
- the band 6000-8000 Hz of U HB 1 ( k ) is here defined by copying the 4000-6000 Hz band of U (k) since the value of start_band is preferably fixed at 160.
- the value of start_band can be made adaptive around the value of 160, without changing the nature of the invention.
- the details of the adaptation of the value start_band are not described here because they go beyond the scope of the invention without changing the scope.
- the high band (> 6 kHz) contains background information that is naturally similar to that in the low band.
- Ambience is defined here as the residual signal that is obtained by suppressing in the existing signal the main (or dominant) harmonics.
- level of harmonicity in the 6000-8000 Hz band is generally correlated to that of the lower frequency bands.
- This decoded and extended low band signal is provided at the input of the extension device 500 and in particular at the input of the module 512.
- the block 512 for extracting tonal components and a room signal implements the step E402 of the figure 4 in the frequency domain.
- This calculation therefore involves an implicit detection of the tonal components.
- the tonal parts are thus implicitly detected using the intermediate term y (i) representing an adaptive threshold.
- the detection condition being y ( i )> 0.
- the absolute value of the spectral values will be replaced for example by the square of the spectral values, without changing the principle of the invention; in this case a square root will be needed to return to the signal domain, which is more complex to achieve.
- the combination module 513 performs a step of combining by adaptive mixing of the ambient signal and the tonal components.
- a power level control factor is calculated based on the total energy of the decoded (or decoded and extended) low band signal and the tonal components.
- ⁇ is calculated so as to keep the same level of ambient signal with respect to the energy of the tonal components in the consecutive bands of the signal.
- N ( k 1 , k 2 ) is the set of indices k for which the index coefficient k is classified as being associated with the tonal components.
- This set can be obtained for example by detecting the local peaks in U ' ( k ) verifying
- the calculation of ⁇ may be replaced by other methods.
- the postman ⁇ as a function of a linear regression from these different parameters by limiting its value between 0 and 1.
- the linear regression could for example be estimated in a supervised manner by estimating the factor ⁇ by giving the original high band in a base d 'learning. It will be noted that the method of calculating ⁇ does not limit the nature of the invention.
- ⁇ and ⁇ are possible within the scope of the invention.
- the block 501 At the output of the band extension device 500, the block 501, in a particular embodiment, optionally carries out a dual operation of application of bandpass filter frequency response and deemphasis filtering (or deemphasis filtering). ) in the frequency domain.
- the deemphasis filtering may be performed in the time domain, after the block 502 or even before the block 510; however, in this case, the bandpass filtering performed in the block 501 may leave some low frequency components of very low levels which are amplified by de-emphasis, which may slightly discern the decoded low band. For this reason, it is preferred here to perform the deemphasis in the frequency domain.
- the HF synthesis is not de-emphasized.
- the high-frequency signal is on the contrary de-emphasized so as to bring it back to a domain coherent with the low-frequency signal (0-6.4 kHz) coming out of block 305 of the figure 3 . This is important for the estimation and subsequent adjustment of the energy of the HF synthesis.
- the de-emphasis can be performed in an equivalent manner in the time domain after inverse DCT.
- band-pass filtering is applied with two separate parts: one fixed high-pass, the other adaptive low-pass (flow-rate function).
- This filtering is performed in the frequency domain.
- bandpass filtering can be adapted by defining a single filtering step combining the high-pass and low-pass filtering.
- the bandpass filtering may be performed in an equivalent manner in the time domain (as in block 112 of the present invention). figure 1 ) with different filter coefficients according to the flow rate, after a reverse DCT step.
- this step it is advantageous to carry out this step directly in the frequency domain because the filtering is carried out in the field of LPC excitation and therefore the problems of circular convolution and edge effects are very limited in this field. .
- the block 502 performs the synthesis corresponding to the analysis carried out in the block 510.
- the realization of the block 503 differs from that of the block 101 of the figure 1 because the energy at the current frame is taken into account in addition to that of the sub-frame. This makes it possible to have the ratio of the energy of each subframe with respect to the energy of the frame. Energy ratios (or relative energies) are compared rather than the absolute energies between low band and high band.
- this scaling step makes it possible to keep in the high band the energy ratio between the subframe and the frame in the same way as in the low band.
- Blocks 505 and 506 are useful for adjusting the level of the LPC synthesis filter (block 507), here depending on the tilt of the signal. Other methods of calculating the gain g HB 2 ( m ) are possible without changing the nature of the invention.
- this filtering can be done in the same way as that described for block 111 of the figure 1 of the AMR-WB decoder, however the order of the filter goes to 20 at the rate of 6.6, which does not significantly change the quality of the synthesized signal.
- the coding of the low band (0-6.4 kHz) may be replaced by a CELP coder other than that used in AMR-WB, for example the CELP coder in G.718 to 8. kbit / s.
- a CELP coder other than that used in AMR-WB, for example the CELP coder in G.718 to 8. kbit / s.
- other encoders in wide band or operating at frequencies higher than 16 kHz in which the coding of the low band operates at an internal frequency at 12.8 kHz could be used.
- the invention can be obviously adapted to other sampling frequencies than 12.8 kHz, when a low frequency encoder operates at a sampling frequency lower than that of the original or reconstructed signal.
- the low band decoding does not use a linear prediction, it does not have an excitation signal to be extended, in this case it will be possible to carry out an LPC analysis of the reconstructed signal in the current frame and calculate an LPC excitation. so as to be able to apply the invention.
- the excitation or the low band signal ( u ( n )) is resampled, for example by linear interpolation or cubic "spline", of 12.8 to 16 kHz before transformation (for example DCT-IV) of length 320.
- This variant has the defect of being more complex, because the transform (DCT-IV) of the excitation or the signal is then calculated on a larger length and resampling is not performed in the transform domain.
- the figure 6 represents an exemplary hardware embodiment of a band extension device 600 according to the invention. This may be an integral part of an audio-frequency signal decoder or equipment receiving decoded or non-decoded audio signals.
- This type of device comprises a PROC processor cooperating with a memory block BM having a memory storage and / or work MEM.
- a PROC processor cooperating with a memory block BM having a memory storage and / or work MEM.
- Such a device comprises an input module E adapted to receive a decoded audio signal or extracted in a first frequency band said low band brought into the frequency domain ( U ( k )) . It comprises an output module S adapted to transmit the extension signal in a second frequency band ( U HB 2 ( k )) for example to a filter module 501 of the figure 5 .
- the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the band extension method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps for extracting (E402) tonal components and a surround signal from a signal derived from the decoded low band signal ( U ( k )), combining (E403) the tonal components (y (k)) and the ambient signal ( U HBA ( k )) by adaptive mixing using energy level control factors to obtain an audio signal, said combined signal ( U HB 2 ( k )), of extension (E401a) on at least one second frequency band greater than the first frequency band of the low band decoded signal before the extraction step or the combined signal after the combining step.
- a computer program comprising code instructions for implementing the steps of the band extension method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps for extracting (E402) tonal components and a surround signal from a signal derived from the
- the description of the figure 4 takes the steps of an algorithm of such a computer program.
- the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
- the memory MEM generally records all the data necessary for the implementation of the method.
- the device thus described can also comprise the low band decoding functions and other processing functions described for example in figure 5 and 3 in addition to the band extension functions according to the invention.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
L'invention se rapport à un procédé d'extension de bande de fréquence d'un signal audiofréquence lors d'un processus de décodage ou d'amélioration comportant une étape d'obtention du signal décodé dans une première bande de fréquence dite bande basse, le procédé étant caractérisé en ce qu'il comporte les étapes suivantes :
- Extraction (E402) de composantes tonales et d'un signal d'ambiance à partir du signal issu du signal bande basse décodé ;
- Combinaison (E403) des composantes tonales et du signal d'ambiance par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit combiné ;
- Extension (E401a) sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence du signal décodé bande basse avant l'étape d'extraction pour former un signal bande basse décodé étendu U HB1(k),
et selon lequel l'étape d'extraction (E402) des composantes tonales et du signal d'ambiance comporte les opérations suivantes :
(a) calcul de l'énergie tonale du signal de bande basse décodé étendu ;
(b) calcul de l'ambiance en valeur absolue correspondant au niveau moyen du spectre raie par raie et calcul de l'énergie des parties tonales dominantes dans le spectre hautes fréquences.The invention relates to a method of extending the frequency band of an audiofrequency signal during a decoding or improvement process comprising a step of obtaining the decoded signal in a first so-called low band frequency band, the method being characterized in that it comprises the following steps:
- Extraction (E402) of tonal components and a room signal from the signal from the decoded low band signal;
- Combining (E403) the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain a combined audio signal;
- Extending (E401a) on at least one second frequency band higher than the first frequency band of the decoded low band signal before the extracting step to form an extended decoded low band signal U HB 1 ( k ),
and wherein the step of extracting (E402) the tonal components and the surround signal comprises the following operations:
(a) calculating the tonal energy of the extended decoded low band signal;
(b) calculating the absolute value atmosphere corresponding to the average level of the line-by-line spectrum and calculating the energy of the dominant tonal parts in the high-frequency spectrum.
L'invention se rapporte également à un dispositif d'extension de bande de fréquence mettant en oeuvre le procédé décrit et un décodeur comportant un tel dispositif. The invention also relates to a frequency band extension device implementing the method described and a decoder comprising such a device.
Description
La présente invention se rapporte au domaine du codage/décodage et du traitement de signaux audiofréquences (comme des signaux de parole, de musique ou autres) pour leur transmission ou leur stockage.The present invention relates to the field of coding / decoding and audio-frequency signal processing (such as speech, music or other signals) for their transmission or storage.
Plus particulièrement, l'invention concerne un procédé et un dispositif d'extension de bande de fréquence dans un décodeur ou un processeur réalisant une amélioration de signal audiofréquence.More particularly, the invention relates to a method and a device for extending the frequency band in a decoder or a processor performing an audio-frequency signal improvement.
De nombreuses techniques existent pour compresser (avec perte) un signal audiofréquence comme la parole ou la musique.Many techniques exist to compress (with loss) an audiofrequency signal such as speech or music.
Les méthodes classiques de codage pour les applications conversationnelles sont en général classifiées en codage de forme d'onde (MIC pour "Modulation par Impulsion et codage", MICDA pour "Modulation par Impulsion et Codage Différentiel Adaptatif", codage par transformée...), codage paramétrique (LPC pour "Linear Prédictive Coding" en anglais, codage sinusoïdal...) et codage hybride paramétrique avec une quantification des paramètres par "analyse par synthèse" dont le codage CELP (pour "Code Excited Linear Prédiction" en anglais) est l'exemple le plus connu.Conventional methods of coding for conversational applications are generally classified in waveform coding (MIC for "pulse modulation and coding", ADPCM for "Pulse Modulation and Adaptive Differential Coding", transform coding ...). , parametric coding (LPC for "Linear Predictive Coding" in English, sinusoidal coding ...) and parametric hybrid coding with a quantification of the parameters by "analysis by synthesis" whose coding CELP (for "Code Excited Linear Prediction" in English) is the best known example.
Pour les applications non conversationnelles, l'état de l'art en codage de signal audio (mono) est constitué par le codage perceptuel par transformée ou en sous-bandes, avec un codage paramétrique des hautes fréquences par réplication de bande (SBR pour Spectral Band Replication en anglais).
Une revue des méthodes classiques de codage de parole et audio se trouve dans les ouvrages
A review of conventional speech and audio coding methods can be found in the books
On s'intéresse ici plus particulièrement au codec (codeur et décodeur) normalisé 3GPP AMR-WB (pour "Adaptive Multi-Rate Wideband" en anglais) qui fonctionne à une fréquence d'entrée/sortie de 16 kHz et dans lequel le signal est divisé en deux sous-bandes, la bande basse (0-6.4 kHz) qui est échantillonnée à 12.8 kHz et codée par modèle CELP et la bande haute (6.4-7 kHz) qui est reconstruite de façon paramétrique par « extension de bande » (ou BWE pour "Bandwidth Extension" en anglais) avec ou sans information supplémentaire selon le mode de la trame courante. On peut noter ici que la limitation de la bande codée du codec AMR-WB à 7kHz est essentiellement liée au fait que la réponse en fréquence en émission des terminaux en bande élargie a été approximée au moment de la normalisation (ETSI/3GPP puis UIT-T) selon le masque fréquentiel défini dans la norme UIT-T P.341 et plus précisément en utilisant un filtre dit « P341 » défini dans la norme UIT-T G.191 qui coupe les fréquences au-dessus de 7 kHz (ce filtre respecte le masque défini dans P.341). Cependant, en théorie, il est bien connu qu'un signal échantillonné à 16 kHz peut avoir une bande audio définie de 0 à 8000 Hz ; le codec AMR-WB introduit donc une limitation de la bande haute en comparaison à la largeur de bande théorique de 8 kHz.Of particular interest here is the 3GPP AMR-WB ("Adaptive Multi-Rate Wideband") codec (decoder and decoder), which operates at an input / output frequency of 16 kHz and in which the signal is divided into two sub-bands, the low band (0-6.4 kHz) which is sampled at 12.8 kHz and coded by CELP model and the high band (6.4-7 kHz) which is parametrically reconstructed by " band extension " ( or BWE for "Bandwidth Extension" with or without additional information depending on the mode of the current frame. It can be noted here that the limitation of the coded band of the AMR-WB codec at 7 kHz is essentially related to the fact that the transmit frequency response of the broadband terminals has been approximated at the time of standardization (ETSI / 3GPP then ITU-T T) according to the frequency mask defined in the ITU-T P.341 standard and more precisely by using a so-called "P341" filter defined in the ITU-T G.191 standard. which cuts frequencies above 7 kHz (this filter respects the mask defined in P.341). However, in theory, it is well known that a signal sampled at 16 kHz may have a defined audio band of 0 to 8000 Hz; the AMR-WB codec thus introduces a limitation of the high band in comparison with the theoretical bandwidth of 8 kHz.
Le codec de parole 3GPP AMR-WB a été normalisé en 2001 principalement pour les applications de téléphonie en mode circuit (CS) sur GSM (2G) et UMTS (3G). Ce même codec a été aussi normalisé en 2003 à l'UIT-T en tant que recommandation G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".The 3GPP AMR-WB speech codec was standardized in 2001 mainly for circuit-mode (CS) telephony applications over GSM (2G) and UMTS (3G). This same codec was also standardized in 2003 in the ITU-T as Recommendation G.722.2 "Wideband coding speech at around 16kbit / s using Adaptive Multi-Rate Wideband (AMR-WB)".
Il comprend neuf débits, appelés modes, de 6.6 à 23.85 kbit/s, et comprend des mécanismes de transmission continue (DTX pour "Discontinuous Transmission") avec détection d'activité vocale (VAD pour "Voice Activity Detection") et génération de bruit de confort (CNG pour "Confort Noise Generation") à partir de trames de description de silence (SID pour "Silence Insertion Descriptor"), ainsi que des mécanismes de correction de trames perdues (FEC pour "Frame Erasure Concealment", parfois appelé PLC pour "Packet Loss Concealment").It includes nine speeds, called modes, from 6.6 to 23.85 kbit / s, and includes continuous transmission mechanisms (DTX for "Discontinuous Transmission") with Voice Activity Detection (VAD) and noise generation. of comfort (CNG for "Comfort Noise Generation") from silence description frames (SID for "Silence Insertion Descriptor"), as well as mechanisms for the correction of lost frames (FEC for "Frame Erasure Concealment", sometimes called PLC for "Packet Loss Concealment").
On ne reprend pas ici les détails de l'algorithme de codage et de décodage AMR-WB, une description détaillée de ce codec se trouve dans les spécifications 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) et UIT-T-G.722.2 (et les Annexes et Appendice correspondantes) ainsi que dans l'article de
Le principe de l'extension de bande dans le codec AMR-WB est assez rudimentaire. En effet, la bande haute (6.4-7 kHz) est générée en mettant en forme un bruit blanc par le biais d'une enveloppe temporelle (appliquée sous la forme de gains par sous-trame) et fréquentielle (par l'application d'un filtre de synthèse de prédiction linéaire ou LPC pour "Linear Prédictive Coding"). Cette technique d'extension de bande est illustrée à la
Un bruit blanc, u HB1(n), n = 0,···,79, est généré à 16 kHz par sous-trame de 5 ms par générateur congruentiel linéaire (bloc 100). Ce bruit u HB1(n) est mis en forme dans le temps par application de gains par sous-trame ; cette opération est décomposée en deux étapes de traitement (blocs 102, 106 ou 109) :
- Un premier facteur est calculé (bloc 101) pour mettre le bruit blanc u HB1(n) (bloc 102) à un niveau semblable à celui de l'excitation, u(n), n = 0,···,63, décodée à 12.8 kHz dans la bande basse :
- A first factor is calculated (block 101) to set the white noise u HB 1 ( n ) (block 102) to a level similar to that of the excitation, u ( n ) , n = 0, ···, 63, decoded at 12.8 kHz in the low band:
On peut noter ici que la normalisation des énergies se fait en comparant des blocs de taille différente (64 pour u(n) et 80 pour u HB1(n)), sans compensation des différences de fréquences d'échantillonnage (12.8 ou 16 kHz).
- L'excitation dans la bande haute est ensuite obtenue (
bloc 106 ou 109) sous la forme :bloc 103 filtre le signal décodé en bande basse par un filtre passe-haut ayant une fréquence de coupure à 400 Hz pour obtenir un signal ŝhp (n), n = 0,···,63 - ce filtre passe-haut élimine l'influence des très basses fréquences qui peuvent biaiser l'estimation faite dans le bloc 104 - puis on calcule le « tilt » (indicateur de pente spectrale) noté etilt du signal ŝhp (n) par autocorrélation normalisée (bloc 104):
- The excitation in the high band is then obtained (
block 106 or 109) in the form:block 103 filters the low-band decoded signal by a high-pass filter having a cut-off frequency at 400 Hz to obtain a signal ŝ hp ( n ), n = 0, ···, 63 - this filter high pass eliminates the influence of the very low frequencies which can bias the estimate made in the block 104 - then one calculates the "tilt" (indicator of spectral slope) noted e tilt of the signal ŝ hp ( n ) by autocorrelation normalized ( block 104):
A 23.85 kbit/s, une information de correction est transmise par le codeur AMR-WB et décodée (blocs 107, 108) afin d'affiner le gain estimé par sous-trame (4 bits toutes les 5ms, soit 0.8 kbit/s).At 23.85 kbit / s, correction information is transmitted by the encoder AMR-WB and decoded (
L'excitation artificielle uHB (n) est ensuite filtrée (bloc 111) par un filtre de synthèse LPC de fonction de transfert 1/AHB (z) et fonctionnant à la fréquence d'échantillonnage de 16 kHz. La réalisation de ce filtre dépend du débit de la trame courante:
- A 6.6 kbit/s, le
filtre 1/AHB (z) est obtenu en pondérant par un facteur γ=0.9 un filtre LPC d'ordre 20, 1/Âext (z) qui « extrapole » le filtre LPC d'ordre 16, 1/Â(z), décodé dans la bande basse (à 12.8 kHz) - les détails de l'extrapolation dans le domaine des paramètres ISF (pour "Imittance Spectral Frequency" en anglais) sont décrits dans la norme G.722.2 à la section 6.3.2.1; dans ce cas, - Aux débits > 6.6 kbit/s, le
filtre 1/AHB (z) est d'ordre 16 et correspond simplement à :filtre 1/Â(z/γ) est utilisé à 16 kHz, ce qui résulte en un étalement (par homothétie) de la réponse en fréquence de ce filtre de [0, 6.4 kHz] à [0, 8 kHz].
- At 6.6 kbit / s, the
filter 1 / A HB ( z ) is obtained by weighting by a factor γ = 0.9 an LPC filter oforder 20, 1 / Â ext ( z ) which "extrapolates" the order LPC filter. 16, 1 / Â ( z ) , decoded in the low band (at 12.8 kHz) - the details of the extrapolation in the domain of the ISF parameters (for "Imittance Spectral Frequency") are described in the G.722.2 standard in section 6.3.2.1; in that case, - At rates> 6.6 kbit / s, the
filter 1 / A HB ( z ) is oforder 16 and simply corresponds to:filter 1 / Â ( z / γ ) is used at 16 kHz, which results in a spread (by homothety) of the frequency response of this filter from [0, 6.4 kHz] to [0 , 8 kHz].
On peut identifier plusieurs inconvénients à la technique d'extension de bande du codec AMR-WB :
- Le signal dans la bande haute est un bruit blanc mis en forme (par gains temporels par sous-trame, par filtrage par 1/AHB (z) et filtrage passe-bande), ce qui n'est pas un bon modèle général du signal dans la bande 6.4-7 kHz. Il existe par exemple des signaux de musique très harmoniques pour lesquels la bande 6.4-7 kHz contient des composantes sinusoïdales (ou tones) et aucun bruit (ou peu de bruit), pour ces signaux l'extension de bande du codec AMR-WB dégrade fortement la qualité.
- Le filtre passe-bas à 7 kHz (bloc 113) introduit un décalage de près de 1 ms entre les bandes basses et hautes, ce qui peut potentiellement dégrader la qualité de certains signaux en désynchronisant légèrement les deux bandes à 23.85 kbit/s - cette désynchronisation peut également poser problème lors d'une commutation de débit de 23.85 kbit/s à d'autres modes.
- L'estimation de gains par sous-trame (
101, 103 à 105) n'est pas optimale. Pour partie, elle se base sur une égalisation de l'énergie « absolue » par sous-trame (bloc 101) entre des signaux à des fréquences différentes : l'excitation artificielle à 16 kHz (bruit blanc) et un signal à 12.8 kHz (excitation ACELP décodée). On peut noter en particulier que cette approche induit implicitement une atténuation de l'excitation bande haute (par un ratio 12.8/16=0.8) ; en fait, on notera également qu'aucune désaccentuation (ou déemphase) n'est effectuée sur la bande haute dans le codec AMR-WB, ce qui induit implicitement une amplification relative proche de 0.6 (qui correspond à la valeur de la réponse en fréquence de 1/(1-0.68z -1) à 6400 Hz). En fait, les facteurs de 1/0.8 et de 0.6 se compensent approximativement.bloc - Sur la parole, les tests de caractérisation du codec 3GPP AMR-WB documentés dans le rapport 3GPP TR 26.976 ont montré que le mode à 23.85 kbit/s a une qualité moins bonne qu'à 23.05 kbit/s, sa qualité est en fait similaire à celle du mode à 15.85 kbit/s. Ceci montre en particulier que le niveau du signal HF artificiel doit être contrôlé de façon très prudente, car la qualité est dégradée à 23.85 kbit/s alors que les 4 bits par trame sont sensés permettre de mieux approcher l'énergie des hautes fréquences originales.
- La limitation de la bande codée à 7 kHz résulte de l'application d'un modèle strict de la réponse en émission des terminaux acoustiques (filtre P.341 dans la norme UIT-T G.191). Or, pour une fréquence d'échantillonnage de 16 kHz, les fréquences dans la bande 7-8 kHz restent importantes, en particulier pour les signaux de musique, pour assurer un bon niveau de qualité.
- The signal in the high band is white noise formatted (by temporal gains per subframe, by filtering by 1 / A HB ( z ) and bandpass filtering), which is not a good general pattern of the signal in the 6.4-7 kHz band. There are, for example, very harmonic music signals for which the 6.4-7 kHz band contains sinusoidal components (or tones) and no noise (or little noise), for these signals the band extension of the AMR-WB codec degrades. strongly the quality.
- The 7 kHz low-pass filter (block 113) introduces an offset of almost 1 ms between the low and high bands, which can potentially degrade the quality of some signals by slightly desynchronizing the two bands at 23.85 kbit / s - this Desynchronization can also be a problem when switching from 23.85 kbit / s to other modes.
- The estimation of gains per subframe (block 101, 103 to 105) is not optimal. In part, it is based on an equalization of the "absolute" energy per sub-frame (block 101) between signals at different frequencies: the artificial excitation at 16 kHz (white noise) and a signal at 12.8 kHz ( ACELP excitation decoded). It can be noted in particular that this approach implicitly induces an attenuation of the high band excitation (by a ratio 12.8 / 16 = 0.8); in fact, it will also be noted that no deemphasis (or deemphasis) is performed on the high band in the AMR-WB codec, which implicitly induces a relative amplification close to 0.6 (which corresponds to the value of the frequency response from 1 / (1-0.68 z -1 ) to 6400 Hz). In fact, the factors of 1 / 0.8 and 0.6 compensate each other approximately.
- On the talk, the 3GPP AMR-WB codec characterization tests documented in the 3GPP TR 26.976 report showed that the 23.85 kbit / sa mode is not as good as 23.05 kbit / s, its quality is actually similar to that of the 15.85 kbit / s mode. This shows in particular that the level of artificial RF signal must be controlled very carefully, because the quality is degraded to 23.85 kbit / s while the 4 bits per frame are supposed to better approach the energy of the original high frequencies.
- The limitation of the 7 kHz coded band results from the application of a strict model of the emission response of acoustic terminals (filter P.341 in ITU-T G.191). However, for a sampling frequency of 16 kHz, frequencies in the band 7-8 kHz remain important, especially for music signals, to ensure a good level of quality.
L'algorithme de décodage AMR-WB a été amélioré en partie avec le développement du codec scalable UIT-T G.718 qui a été normalisé en 2008.The AMR-WB decoding algorithm has been improved in part with the development of the ITU-T G.718 scalable codec that was standardized in 2008.
La norme UIT-T G.718 comprend un mode dit interopérable, pour lequel le codage coeur est compatible avec le codage G.722.2 (AMR-WB) à 12.65 kbit/s ; de plus, le décodeur G.718 a la particularité de pouvoir décoder un train binaire AMR-WB/G.722.2 à tous les débits possibles du codec AMR-WB (de 6.6 à 23.85 kbit/s).ITU-T G.718 includes an interoperable mode, for which core coding is compatible with 12.65 kbit / s G.722.2 (AMR-WB) coding; in addition, the G.718 decoder has the distinction of being able to decode a bit stream AMR-WB / G.722.2 at all possible bit rates of the AMR-WB codec (6.6 to 23.85 kbit / s).
Le décodeur interopérable G.718 en mode bas délai (« low delay » en anglais) (G.718-LD) est illustré à la
- L'extension de bande (décrite par exemple dans la clause 7.13.1 de la recommandation G.718, bloc 206) est identique à celle du décodeur AMR-WB, sauf que le filtre passe-bande 6-7 kHz et le filtre de synthèse 1/AHB(z) (
blocs 111 et 112) sont en ordre inversé. De plus, à 23.85 kbit/s les 4 bits transmis par sous-trames par le codeur AMR-WB ne sont pas utilisés dans le décodeur G.718 interopérable ; la synthèse des hautes fréquences (HF) à 23.85 kbit/s est donc identique à 23.05 kbit/s ce qui évite le problème connu de qualité du décodage AMR-WB à 23.85 kbit/s. A fortiori, le filtre passe-bas à 7 kHz (bloc 113) n'est pas utilisé, et le décodage spécifique du mode à 23.85 kbit/s est omis (blocs 107 à 109).
- The band extension (described for example in clause 7.13.1 of Recommendation G.718, block 206) is identical to that of the AMR-WB decoder, except that the 6-7 kHz band-pass filter and
Synthesis 1 / A HB (z) (blocks 111 and 112) are in reverse order. In addition, at 23.85 kbit / s the 4 bits transmitted by AMR-WB encoder subframes are not used in the interoperable G.718 decoder; the synthesis of high frequencies (HF) at 23.85 kbit / s is therefore identical to 23.05 kbit / s which avoids the known problem of quality of AMR-WB decoding at 23.85 kbit / s. A fortiori, the low-pass filter at 7 kHz (block 113) is not used, and the specific decoding mode 23.85 kbit / s is omitted (blocks 107 to 109).
Cependant l'extension de bande dans les codecs AMR-WB et/ou G.718 (mode interopérable) reste encore limitée sur plusieurs aspects.
En particulier, la synthèse de hautes fréquences par bruit blanc mis en forme (par une approche temporelle de type source-filtre LPC) est un modèle très limité du signal dans la bande des fréquences supérieures à 6.4 kHz.
Seule la bande 6.4-7 kHz est re-synthétisée de façon artificielle, alors qu'en pratique une bande plus large (jusqu'à 8 kHz) est en théorie possible à la fréquence d'échantillonnage de 16 kHz, ce qui peut potentiellement améliorer la qualité des signaux, s'ils ne sont pas prétraités par un filtre de type P.341 (50-7000 Hz) tel que définie dans la Software Tool Library (norme G.191) de l'UIT-T.However, the band extension in the AMR-WB and / or G.718 codecs (interoperable mode) is still limited in several respects.
In particular, the synthesis of high frequencies by shaped white noise (by a temporal approach of the LPC source-filter type) is a very limited model of the signal in the frequency band above 6.4 kHz.
Only the 6.4-7 kHz band is artificially re-synthesized, whereas in practice a wider band (up to 8 kHz) is theoretically possible at the sampling frequency of 16 kHz, which can potentially improve the quality of the signals, if they are not pretreated by a P.341 (50-7000 Hz) filter as defined in the ITU-T Software Tool Library (Standard G.191).
Il existe donc un besoin pour améliorer l'extension de bande dans un codec de type AMR-WB ou une version interopérable de ce codec ou plus généralement pour améliorer l'extension de bande d'un signal audio, notamment pour améliorer le contenu fréquentiel de l'extension de bande.There is therefore a need to improve the band extension in an AMR-WB type codec or an interoperable version of this codec or more generally to improve the band extension of an audio signal, in particular to improve the frequency content of the band extension.
La présente invention vient améliorer la situation.The present invention improves the situation.
L'invention propose à cet effet, un procédé d'extension de bande de fréquence d'un signal audiofréquence lors d'un processus de décodage ou d'amélioration comportant une étape d'obtention du signal décodé dans une première bande de fréquence dite bande basse. Le procédé est tel qu'il comporte les étapes suivantes:
- extraction de composantes tonales et d'un signal d'ambiance à partir d'un signal issu du signal bande basse décodé;
- combinaison des composantes tonales et du signal d'ambiance par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit signal combiné;
- extension sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence du signal décodé bande basse avant l'étape d'extraction ou du signal combiné après l'étape de combinaison.
- extracting tonal components and a room signal from a signal from the decoded low band signal;
- combining the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain an audio signal, called a combined signal;
- extending on at least a second frequency band higher than the first frequency band of the low band decoded signal before the extraction step or the combined signal after the combining step.
On notera que par la suite l'« extension de bande » sera prise au sens large et inclura non seulement le cas de l'extension d'une sous-bande en hautes fréquences mais également le cas d'un remplacement de sous-bandes mises à zéro (de type « noise filling » en codage par transformée).
Ainsi, à la fois la prise en compte de composantes tonales et d'un signal d'ambiance extrait du signal issu du décodage de la bande basse permet d'effectuer l'extension de bande avec un modèle de signal adapté à la vraie nature du signal contrairement à l'utilisation d'un bruit artificiel. La qualité de l'extension de bande est ainsi améliorée et notamment pour certains types de signaux comme les signaux de musique.It will be noted that later on the "band extension" will be taken in a broad sense and will include not only the case of the extension of a subband at high frequencies but also the case of a replacement of subbands used. zero (type "noise filling" in transform coding).
Thus, both the taking into account of tonal components and a surround signal extracted from the signal resulting from the decoding of the low band makes it possible to perform the band extension with a signal model adapted to the true nature of the band. signal contrary to the use of artificial noise. The quality of the band extension is thus improved and in particular for certain types of signals such as music signals.
En effet, le signal décodé dans la bande basse comporte une partie correspondant à l'ambiance sonore qui peut être transposée en haute fréquence de telle sorte qu'un mixage des composantes harmoniques et de l'ambiance existante permet d'assurer une bande haute reconstruite cohérente.Indeed, the signal decoded in the low band has a part corresponding to the sound environment that can be transposed into high frequency so that a mix of harmonic components and the existing environment ensures a high band reconstructed consistent.
On remarquera que même si l'invention est motivée par l'amélioration de la qualité de l'extension de bande dans le contexte du codage AMR-WB interopérable, les différents modes de réalisation s'appliquent au cas plus général de l'extension de bande d'un signal audio, en particulier dans un dispositif d'amélioration effectuant une analyse du signal audio pour extraire les paramètres nécessaires à l'extension de bande.It will be noted that even if the invention is motivated by the improvement of the quality of the band extension in the context of the interoperable AMR-WB coding, the different embodiments apply to the more general case of the extension of band of an audio signal, in particular in an enhancement device performing an analysis of the audio signal to extract the parameters necessary for the band extension.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé d'extension défini ci-dessus.The various particular embodiments mentioned below may be added independently or in combination with each other, to the steps of the extension method defined above.
Dans un mode de réalisation, l'extension de bande est effectuée dans le domaine de l'excitation et le signal bande basse décodé est un signal d'excitation bande basse décodé.In one embodiment, the band extension is performed in the field of excitation and the decoded low band signal is a decoded low band excitation signal.
L'avantage de ce mode de réalisation est qu'une transformation sans fenêtrage (ou de façon équivalente avec une fenêtre rectangulaire implicite de la longueur de la trame) est possible dans le domaine de l'excitation. Dans ce cas aucun artefact (effets de bloc) n'est alors audible.The advantage of this embodiment is that a transformation without windowing (or equivalently with an implicit rectangular window of the length of the frame) is possible in the field of excitation. In this case no artifact (block effects) is audible.
Dans un premier mode de réalisation, l'extraction des composantes tonales et du signal d'ambiance s'effectue selon les étapes suivantes :
- détection des composantes tonales dominantes du signal bande basse décodé ou décodé et étendu, dans le domaine fréquentiel ;
- calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
Dans un deuxième mode de réalisation, de faible complexité, l'extraction des composantes tonales et du signal d'ambiance s'effectue selon les étapes suivantes :
- obtention du signal d'ambiance par calcul d'une valeur moyenne du spectre du signal bande basse décodé ou décodé et étendu ;
- obtention des composantes tonales par soustraction du signal d'ambiance calculé au signal bande basse décodé ou décodé et étendu.
- detection of the dominant tone components of the decoded or decoded and extended bass band signal, in the frequency domain;
- calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.
In a second embodiment, of low complexity, the extraction of the tonal components and the ambient signal is carried out according to the following steps:
- obtaining the ambient signal by calculating an average value of the spectrum of the decoded or decoded and extended low band signal;
- obtaining the tonal components by subtracting the calculated ambient signal from the decoded or decoded and extended low band signal.
L'application de ce facteur de contrôle permet à l'étape de combinaison de s'adapter aux caractéristiques du signal pour optimiser la proportion relative de signal d'ambiance dans le mélange. Le niveau d'énergie est ainsi contrôlé de façon à éviter les artefacts audibles.The application of this control factor allows the combining step to adapt to the characteristics of the signal to optimize the relative proportion of the ambient signal in the mixture. The energy level is thus controlled to avoid audible artifacts.
Dans un mode de réalisation préféré, le signal bande basse décodé subit une étape de décomposition en sous-bandes par transformée ou par banc de filtres, les étapes d'extraction et de combinaison s'effectuant alors dans le domaine fréquentiel ou en sous-bandes.In a preferred embodiment, the decoded low band signal undergoes a subband decomposition step by transform or filterbank, the extraction and combining steps then being performed in the frequency domain or in subbands. .
La mise en oeuvre de l'extension de bande dans le domaine fréquentiel permet d'obtenir une finesse d'analyse en fréquence dont on ne dispose pas avec une approche temporelle, et permet aussi d'avoir une résolution fréquentielle suffisante pour détecter les composantes tonales.The implementation of the band extension in the frequency domain makes it possible to obtain a fineness of frequency analysis which is not available with a temporal approach, and also makes it possible to have a frequency resolution sufficient to detect the tonal components. .
Dans un mode de réalisation détaillé, le signal bande basse décodé et étendu est obtenu selon l'équation suivante:
La présente invention vise également un dispositif d'extension de bande de fréquence d'un signal audiofréquence, le signal ayant été décodé dans une première bande de fréquence dite bande basse. Le dispositif est tel qu'il comporte:
- un module d'extraction de composantes tonales et d'un signal d'ambiance à partir d'un signal issu du signal bande basse décodé;
- un module de combinaison des composantes tonales et du signal d'ambiance par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit signal combiné;
- un module d'extension sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence mis en oeuvre sur le signal décodé bande basse avant le module d'extraction ou sur le signal combiné après le module de combinaison.
- a module for extracting tonal components and a room signal from a signal derived from the decoded low band signal;
- a combination module of the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain an audio signal, said combined signal;
- an extension module on at least a second frequency band greater than the first frequency band implemented on the decoded low band signal before the extraction module or on the combined signal after the combination module.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en oeuvre.This device has the same advantages as the method described above, which it implements.
L'invention vise un décodeur comportant un dispositif tel que décrit.The invention relates to a decoder comprising a device as described.
Elle vise un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé d'extension de bande tel que décrit, lorsque ces instructions sont exécutées par un processeur.It is directed to a computer program comprising code instructions for performing the steps of the tape extension method as described, when these instructions are executed by a processor.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif d'extension de bande, éventuellement amovible, mémorisant un programme informatique mettant en oeuvre un procédé d'extension de bande tel que décrit précédemment.Finally, the invention relates to a storage medium, readable by a processor, integrated or not integrated with the band expansion device, possibly removable, storing a computer program implementing a band extension method as described above.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
- la
figure 1 illustre une partie d'un décodeur de type AMR-WB mettant en oeuvre des étapes d'extension de bande de fréquence de l'état de l'art et tel que décrit précédemment; - la
figure 2 illustre un décodeur de type interopérable G.718-LD à 16kHz selon l'état de l'art et tel que décrit précédemment; - la
figure 3 illustre un décodeur interopérable avec le codage AMR-WB et intégrant un dispositif d'extension de bande selon un mode de réalisation de l'invention; - la
figure 4 illustre sous forme d'organigramme, les étapes principales d'un procédé d'extension de bande selon un mode de réalisation de l'invention; - la
figure 5 illustre un mode de réalisation dans le domaine fréquentiel d'un dispositif d'extension de bande selon l'invention intégré dans un décodeur; et - la
figure 6 illustre une réalisation matérielle d'un dispositif d'extension de bande selon l'invention.
- the
figure 1 illustrates a part of an AMR-WB type decoder implementing frequency band extension steps of the state of the art and as described above; - the
figure 2 illustrates an interoperable decoder G.718-LD type 16kHz according to the state of the art and as described above; - the
figure 3 illustrates an interoperable decoder with the AMR-WB encoding and incorporating a band extension device according to one embodiment of the invention; - the
figure 4 illustrates in flowchart form the main steps of a band extension method according to one embodiment of the invention; - the
figure 5 illustrates an embodiment in the frequency domain of a band extension device according to the invention integrated in a decoder; and - the
figure 6 illustrates a hardware embodiment of a band extension device according to the invention.
La
Contrairement au décodage AMR-WB qui fonctionne avec une fréquence d'échantillonnage de sortie de 16 kHz et au décodage G.718 qui fonctionne à 8 ou 16 kHz, on considère ici un décodeur qui peut fonctionner avec un signal de sortie (synthèse) à la fréquence fs = 8, 16, 32 ou 48 kHz. A noter qu'on suppose ici que le codage a été effectué selon l'algorithme AMR-WB avec une fréquence interne de 12.8 kHz pour le codage CELP en bande basse et à 23.85 kbit/s un codage de gain par sous-trame à la fréquence de 16 kHz, mais des variantes interopérables du codeur AMR-WB sont également possibles ; même si l'invention est décrite ici au niveau du décodage, on suppose ici que le codage peut aussi fonctionner avec un signal d'entrée à la fréquence fs = 8, 16, 32 ou 48 kHz et des opérations de ré-échantillonnage adéquates, dépassant le cadre de l'invention, sont mises en oeuvre au codage en fonction de la valeur de fs. On peut noter que quand fs=8 kHz au décodeur, dans le cas d'un décodage compatible avec AMR-WB, il n'est pas nécessaire d'étendre la bande basse 0-6.4 kHz, car la bande audio reconstruite à la fréquence fs est limitée à 0-4000 Hz.Unlike AMR-WB decoding which operates with an output sampling frequency of 16 kHz and G.718 decoding which operates at 8 or 16 kHz, a decoder is considered here which can operate with an output signal (synthesis) at the frequency fs = 8, 16, 32 or 48 kHz. Note that it is assumed here that the coding was performed according to the AMR-WB algorithm with an internal frequency of 12.8 kHz for the low-band CELP coding and at 23.85 kbit / s a sub-frame gain coding at the frequency of 16 kHz, but interoperable variants of the AMR-WB encoder are also possible; even if the invention is described here at the decoding level, it is assumed here that the coding can also operate with an input signal at the frequency fs = 8, 16, 32 or 48 kHz and appropriate resampling operations, beyond the scope of the invention, are implemented in coding as a function of the value of fs. It can be noted that when fs = 8 kHz at the decoder, in the case of a decoding compatible with AMR-WB, it is not necessary to extend the low band 0-6.4 kHz, because the audio band reconstructed at the frequency fs is limited to 0-4000 Hz.
A la
Le décodage selon la
- Démultiplexage des paramètres codés (bloc 300) en cas de trame correctement reçue (bfi=0 où bfi est le « bad frame indicator » valant 0 pour une trame reçue et 1 pour une trame perdue).
- Décodage des paramètres ISF avec interpolation et conversion en coefficients LPC (bloc 301) comme décrit dans la clause 6.1 de la norme G.722.2.
- Décodage de l'excitation CELP (bloc 302), avec une partie adaptative et fixe pour reconstruire l'excitation (exc ou u'(n)) dans chaque sous-trame de longueur 64 à 12.8 kHz:
bloc 303. Dans des variantes qui peuvent être mises en oeuvre pour l'invention, les post-traitements appliqués à l'excitation peuvent être modifiés (par exemple, la dispersion de phase peut être améliorée) ou ces post-traitements peuvent être étendus (par exemple, une réduction du bruit inter-harmonique peut être mise en oeuvre), sans affecter la nature du procédé d'extension de bande selon l'invention. - Filtrage de synthèse
par 1/Â(z) (bloc 303) où le filtre LPC décodé Â(z)est d'ordre 16 - Post-traitement bande étroite (bloc 304) selon la clause 7.3 de G.718 si fs=8 kHz.
- Désaccentuation (bloc 305)
par le filtre 1/(1-0.68z -1) - Post-traitement des basses fréquences (bloc 306) tel que décrit à la clause 7.14.1.1 de G.718. Ce traitement introduit un retard qui est pris en compte dans le décodage de la bande haute (>6.4 kHz).
- Ré-échantillonnage de la fréquence interne de 12.8 kHz à la fréquence de sortie fs (bloc 307). Plusieurs réalisations sont possibles. Sans perte de généralité, on considère ici à titre d'exemple que si fs=8
ou 16 kHz, le ré-échantillonnage décrit dans la clause 7.6 de G.718 est repris ici, et si fs=32 ou 48 kHz, des filtres à réponse impulsionnelle finie (FIR) supplémentaires sont utilisés. - Calcul des paramètres du "noise gate" (bloc 308) qui est réalisé de façon préférentielle comme décrit dans la clause 7.14.3 de G.718.
On peut noter que l'utilisation des
On notera également que le décodage de la bande basse décrit ci-dessus suppose une trame courante dite « active » avec un débit entre 6.6 et 23.85 kbit/s. En fait, quand le mode DTX (transmission continue en français) est activé, certaines trames peuvent être codées comme « inactives » et dans ce cas on peut soit transmettre un descripteur de silence (sur 35 bits) soit ne rien transmettre. En particulier, on rappelle que la trame SID du codeur AMR-WB décrit plusieurs paramètres : paramètres ISF moyennés sur 8 trames, énergie moyenne sur 8 trames, "flag de dithering" pour la reconstruction de bruit non stationnaire. Dans tous les cas, au décodeur, on retrouve le même modèle de décodage que pour une trame active, avec une reconstruction de l'excitation et d'un filtre LPC pour la trame courante, ce qui permet d'appliquer l'invention même sur des trames inactives. Le même constat s'applique pour le décodage de « trames perdues » (ou FEC, PLC) dans lequel le modèle LPC est appliqué.Decoding according to the
- Demultiplexing the coded parameters (block 300) in the case of a correctly received frame ( bfi = 0 where bfi is the " bad frame indicator " worth 0 for a received frame and 1 for a lost frame).
- Decoding ISF parameters with interpolation and conversion to LPC coefficients (block 301) as described in clause 6.1 of G.722.2.
- CELP excitation decoding (block 302), with an adaptive and fixed part to reconstruct the excitation (exc or u ' ( n )) in each subframe of length 64 to 12.8 kHz:
filter synthetic 1 /  (z) inblock 303. in alternative embodiments that can be implemented to the invention, the post-processing applied to the excitation can be modified (e.g., the phase dispersion can be improved) or these post-treatments can be extended (for example, inter-harmonic noise reduction can be implemented), without affecting the nature of the band extension method according to the invention. - Synthetic filtering by 1 /  (z) (block 303) where the decoded LPC filter  (z) is of
order 16 - Aftertreatment narrow band (block 304) according to clause 7.3 of G.718 if fs = 8 kHz.
- Deactivation (block 305) by the
filter 1 / (1-0.68 z -1 ) - Low frequency post-processing (block 306) as described in clause 7.14.1.1 of G.718. This processing introduces a delay which is taken into account in the decoding of the high band (> 6.4 kHz).
- Resampling of the internal frequency from 12.8 kHz to the output frequency fs (block 307). Several achievements are possible. Without loss of generality, we consider here as an example that if fs = 8 or 16 kHz, the resampling described in clause 7.6 of G.718 is repeated here, and if fs = 32 or 48 kHz, filters Finite Impulse Response (FIR) are used.
- Calculation of the " noise gate " parameters (block 308) which is preferably performed as described in clause 7.14.3 of G.718.
It can be noted that the use of
Note also that the decoding of the low band described above assumes a current frame called "active" with a rate between 6.6 and 23.85 kbit / s. In fact, when the DTX (Continuous Transmission in French) mode is activated, some frames can be coded as "inactive" and in this case you can either transmit a silence descriptor (on 35 bits) or not transmit anything. In particular, it is recalled that the SID frame of the AMR-WB encoder describes several parameters: ISF parameters averaged over 8 frames, average energy over 8 frames, "dithering flag" for the non-stationary noise reconstruction. In all cases, at the decoder, we find the same decoding model as for an active frame, with a reconstruction of the excitation and an LPC filter for the current frame, which makes it possible to apply the invention itself to inactive frames. The same applies for the decoding of "lost frames" (or FEC, PLC) in which the LPC model is applied.
Cet exemple de décodeur fonctionne dans le domaine de l'excitation et comporte donc une étape de décodage du signal d'excitation bande basse. Le dispositif d'extension de bande et le procédé d'extension de bande au sens de l'invention fonctionne également dans un domaine différent du domaine de l'excitation et notamment avec un signal direct décodé en bande basse ou un signal pondéré par un filtre perceptuel.This example decoder operates in the field of excitation and therefore comprises a step of decoding the low band excitation signal. The band extension device and the band extension method within the meaning of the invention also operates in a field different from the field of excitation and in particular with a low band decoded direct signal or a filter-weighted signal. perceptual.
Contrairement au décodage AMR-WB ou G.718, le décodeur décrit permet d'étendre la bande basse décodée (50-6400 Hz en tenant en compte du filtrage passe-haut à 50 Hz au décodeur, 0-6400 Hz dans le cas général) à une bande étendue dont la largeur varie, allant approximativement de 50-6900 Hz à 50-7700 Hz en fonction du mode mis en oeuvre dans la trame courante. On peut ainsi parler d'une première bande de fréquence de 0 à 6400Hz et d'une deuxième bande de fréquence de 6400 à 8000Hz. En réalité, dans le mode de réalisation privilégié, l'excitation pour les hautes fréquences et généré dans le domaine fréquentiel dans une bande de 5000 à 8000 Hz, pour permettre un filtrage passe-bande de largeur 6000 à 6900 ou 7700 Hz dont la pente n'est pas trop raide dans la bande supérieure rejetée.Unlike the AMR-WB or G.718 decoding, the decoder described makes it possible to extend the decoded low band (50-6400 Hz by taking into account the high-pass filtering at 50 Hz at the decoder, 0-6400 Hz in the general case ) to an extended band whose width varies, ranging from approximately 50-6900 Hz to 50-7700 Hz depending on the mode implemented in the current frame. We can talk about a first frequency band from 0 to 6400Hz and a second frequency band from 6400 to 8000Hz. In fact, in the preferred embodiment, the excitation for the high frequencies and generated in the frequency domain in a band of 5000 to 8000 Hz, to allow bandpass filtering of width 6000 to 6900 or 7700 Hz whose slope is not too stiff in the upper band rejected.
La partie synthèse bande haute est réalisée dans le bloc 309 représentant le dispositif d'extension de bande selon l'invention et qui est détaillé à la
Afin d'aligner les bandes basses et hautes décodées, un retard (bloc 310) est introduit pour synchroniser les sorties des blocs 306 et 309 et la bande haute synthétisée à 16 kHz est ré-échantillonnée de 16 kHz à la fréquence fs (sortie de bloc 311). La valeur du retard T devra être adaptée pour les autres cas (fs=32, 48 kHz) en fonction des traitements mis en oeuvre. On rappelle que quand fs=8 kHz, il n'est pas nécessaire d'appliquer les blocs 309 à 311 car la bande du signal en sortie du décodeur est limité à 0-4000 Hz.In order to align the decoded low and high bands, a delay (block 310) is introduced to synchronize the outputs of the
A noter que le procédé d'extension de l'invention mis en oeuvre dans le bloc 309 selon le premier mode de réalisation n'introduit de façon préférentielle aucun retard supplémentaire par rapport à la bande basse reconstruite à 12.8 kHz ; cependant, dans des variantes de l'invention (par exemple en utilisant une transformation temps/fréquence avec recouvrement), un retard pourra être introduit. Ainsi, de façon générale la valeur de T dans le bloc 310 devra être ajustée en fonction de la mise en oeuvre spécifique. Par exemple dans le cas où le post-traitement des basses fréquences (bloc 306) n'est pas utilisé, le retard à introduire pour fs=16 kHz pourra être fixé à T=15.It should be noted that the extension method of the invention implemented in
Les bandes basse et haute sont ensuite combinées (ajoutées) dans le bloc 312 et la synthèse obtenue est post-traitée par filtrage passe-haut à 50 Hz (de type IIR) d'ordre 2 dont les coefficients dépendent de la fréquence fs (bloc 313) et post-traitement de sortie avec application optionnelle du "noise gate" de façon similaire à G.718 (bloc 314).The low and high bands are then combined (added) in
Le dispositif d'extension de bande selon l'invention, illustré par le bloc 309 selon le mode de réalisation du décodeur de la
Ce dispositif d'extension peut également être indépendant du décodeur et peut mettre en oeuvre le procédé décrit à la
Ce dispositif reçoit en entrée un signal décodé dans une première bande de fréquence dite bande basse u(n) qui peut être dans le domaine de l'excitation ou dans celui du signal. Dans le mode de réalisation décrit ici, une étape de décomposition en sous-bandes (E401b) par transformée temps fréquence ou banc de filtres est appliquée au signal décodé bande basse pour obtenir le spectre du signal décodé bande basse U(k) pour une mise en oeuvre dans le domaine fréquentiel.This extension device can also be independent of the decoder and can implement the method described in FIG.
This device receives as input a decoded signal in a first so-called low-band frequency band u ( n ) which may be in the field of excitation or that of the signal. In the embodiment described here, a step of subband decomposition (E401b) by time frequency transform or filter bank is applied to the low band decoded signal to obtain the spectrum of the decoded low band signal U (k) for a implemented in the frequency domain.
Une étape E401a d'extension du signal décodé bande basse dans une deuxième bande de fréquence supérieure à la première bande de fréquence, pour obtenir un signal décodé bande basse étendu U HB1(k), peut être effectuée sur ce signal décodé bande basse avant ou après l'étape d'analyse (décomposition en sous-bandes). Cette étape d'extension peut comporter à la fois une étape de ré-échantillonnage et une étape d'extension ou simplement une étape de translation ou transposition fréquentielle en fonction du signal obtenu en entrée. On notera que dans des variantes, l'étape E401a pourra être effectuée à la fin du traitement décrit à la
Cette étape est détaillée ultérieurement dans le mode de réalisation décrit en référence à la
Une étape E402 d'extraction d'un signal d'ambiance (UHBA (k)) et de composantes tonales (y(k)) est effectuée à partir du signal bande basse décodé (U(k)) ou décodé et étendu (U HB1(k)). On définit ici l'ambiance comme le signal résiduel qui est obtenu en supprimant dans le signal existant les harmoniques (ou composantes tonales) principales (ou dominantes).A step E402 for extracting a room signal ( U HBA ( k )) and tonal components (y (k)) is performed from the decoded ( U ( k )) or decoded and extended ( U HB 1 ( k )) . Ambience is defined here as the residual signal that is obtained by suppressing in the existing signal the main (or dominant) harmonics (or tonal components).
Dans la plupart des signaux en bande élargie (échantillonnés à 16 kHz), la bande haute (>6 kHz) contient une information d'ambiance qui est en général similaire à celle présente dans la bande basse.In most broadband signals (sampled at 16 kHz), the high band (> 6 kHz) contains ambient information that is generally similar to that in the low band.
L'étape d'extraction des composantes tonales et du signal d'ambiance comprend par exemple les étapes suivantes:
- détection des composantes tonales dominantes du signal bande basse décodé (ou décodé et étendu), dans le domaine fréquentiel; et
- calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
- obtention du signal d'ambiance par calcul d'une moyenne du signal bande basse décodé (ou décodé et étendu); et
- obtention des composantes tonales par soustraction du signal d'ambiance calculé au signal bande basse décodé (ou décodé et étendu).
- detection of the dominant tone components of the decoded (or decoded and extended) low band signal in the frequency domain; and
- calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.
- obtaining the ambient signal by calculating an average of the decoded (or decoded and extended) low band signal; and
- obtaining the tonal components by subtracting the calculated ambient signal from the decoded (or decoded and extended) low band signal.
Les composantes tonales et le signal d'ambiance sont ensuite combinés de façon adaptative à l'aide de facteurs de contrôle de niveau d'énergie à l'étape E403 pour obtenir un signal dit combiné (U HB2(k)). L'étape d'extension E401a peut alors être mise en oeuvre si elle n'a pas été déjà effectuée sur le signal bande basse décodé.The tonal components and the surround signal are then adaptively combined using energy level control factors in step E403 to obtain a so-called combined signal ( U HB 2 ( k )) . The extension step E401a can then be implemented if it has not already been performed on the decoded low band signal.
Ainsi, la combinaison de ces deux types de signaux permet d'obtenir un signal combiné avec des caractéristiques plus adaptées à certains types de signaux comme des signaux musicaux et plus riche en contenu fréquentiel et dans la bande de fréquence étendue correspondant à toute la bande de fréquence incluant la première et la deuxième bande de fréquence.Thus, the combination of these two types of signals makes it possible to obtain a combined signal with characteristics more adapted to certain types of signals, such as musical signals, and richer in frequency content and in the extended frequency band corresponding to the entire band of signals. frequency including the first and the second frequency band.
L'extension de bande selon le procédé améliore la qualité pour ce type de signaux par rapport à l'extension décrite dans la norme AMR-WB.The band extension according to the method improves the quality for this type of signals compared to the extension described in the AMR-WB standard.
Le fait d'utiliser une combinaison de signal d'ambiance et de composantes tonales permet d'enrichir ce signal d'extension pour le rendre plus proche des caractéristiques du vrai signal et non pas d'un signal artificiel.Using a combination of surround signal and tonal components enriches this extension signal to make it closer to the characteristics of the real signal and not to an artificial signal.
Cette étape de combinaison sera détaillée ultérieurement en référence à la
Une étape de synthèse, qui correspond à l'analyse en 401b, est effectuée en E404b pour ramener le signal dans le domaine temporel.A synthesis step, which corresponds to the analysis at 401b, is performed at E404b to bring the signal back to the time domain.
De façon optionnelle, une étape d'ajustement de niveau d'énergie du signal bande haute peut être effectuée en E404a, avant et/ou après l'étape de synthèse, par application d'un gain et/ou par filtrage adéquat. Cette étape sera expliquée plus en détails dans le mode de réalisation décrit à la
Dans un exemple de réalisation, le dispositif d'extension de bande 500 est décrit maintenant en référence à la
Ainsi, le bloc de traitement 510 reçoit un signal bande basse décodé (u(n)). Dans un mode de réalisation particulier, l'extension de bande utilise l'excitation décodée à 12.8 kHz (exc2 ou u(n)) en sortie du bloc 302 de la
Ce signal est décomposé en sous-bandes de fréquence par le module de décomposition en sous-bandes 510 (qui met en oeuvre l'étape E401b de la
Dans un mode de réalisation particulier, une transformée de type DCT-IV (pour "Discrete Cosine Transform" - Type IV en anglais) (bloc 510) est appliquée sur la trame courante de 20 ms (256 échantillons), sans fenêtrage, ce qui revient à transformer directement u(n) avec n = 0,···,255 selon la formule suivante :
Une transformation sans fenêtrage (ou de façon équivalente avec une fenêtre rectangulaire implicite de la longueur de la trame) est possible lorsque le traitement est effectué dans le domaine de l'excitation, et non le domaine du signal. Dans ce cas aucun artefact (effets de bloc) n'est audible, ce qui constitue un avantage important de ce mode de réalisation de l'invention.A transformation without windowing (or equivalently with an implicit rectangular window of the length of the frame) is possible when the processing is performed in the field of excitation, and not the domain of the signal. In this case no artefact (block effects) is audible, which is an important advantage of this embodiment of the invention.
Dans ce mode de réalisation, la transformation DCT-IV est mise en oeuvre par FFT suivant l'algorithme dit « Evolved DCT (EDCT) » décrit dans l'article de
Dans des variantes de l'invention et sans perte de généralité, la transformation DCT-IV pourra être remplacée par d'autres transformations temps-fréquences court-terme de même longueur et dans le domaine de l'excitation ou dans le domaine du signal, comme une FFT (pour "Fast Fourier Transform" en anglais) ou une DCT-II (Discrete Cosine Transform - Type II). De façon alternative, on pourra remplacer la DCT-IV sur la trame par une transformation avec recouvrement-addition et fenêtrage de longueur supérieure à la longueur de la trame courante, par exemple en utilisant une MDCT (pour "Modified Discrete Cosine Tranform" en anglais). Dans ce cas le retard T dans le bloc 310 de la
Dans un autre mode de réalisation, la décomposition en sous-bandes est effectuée par l'application d'un banc de filtres, par exemple de type PQMF (Pseudo-QMF) réels ou complexes. Pour certains bancs de filtres, on obtient, pour chaque sous-bande dans une trame donnée, non pas une valeur spectrale mais une série de valeurs temporelles associée à la sous-bande ; dans ce cas, le mode de réalisation privilégié dans l'invention peut être appliqué en réalisant par exemple une transformée de chaque sous-bande et en calculant le signal d'ambiance dans le domaine des valeurs absolues, les composantes tonales étant toujours obtenues par différence entre le signal (en valeur absolue) et le signal d'ambiance. Dans le cas d'un banc de filtre complexe, le module complexe des échantillons remplacera la valeur absolue.In another embodiment, the subband decomposition is performed by the application of a real or complex filter bank, for example of the PQMF (Pseudo-QMF) type. For some filterbanks, for each subband in a given frame, not a spectral value but a series of time values associated with the subband are obtained; in this case, the preferred embodiment in the invention can be applied by producing for example a transform of each subband and calculating the ambient signal in the range of absolute values, the tonal components always being obtained by difference between the signal (in absolute value) and the ambient signal. In the case of a complex filter bank, the complex module of the samples will replace the absolute value.
Dans d'autres modes de réalisation, l'invention sera appliqué dans un système utilisant deux sous-bandes, la bande basse étant analysé par transformée ou par banc de filtres.In other embodiments, the invention will be applied in a system using two subbands, the low band being analyzed by transform or filterbank.
Dans le cas d'une DCT, le spectre DCT, U(k), de 256 échantillons couvrant la bande 0-6400 Hz (à 12.8 kHz), est ensuite étendu (bloc 511) en un spectre de 320 échantillons couvrant la bande 0-8000 Hz (à 16 kHz) sous la forme suivante :
Le bloc 511 met en oeuvre l'étape E401a de la
Dans la bande de fréquence correspondant aux échantillons allant des indices 200 à 239, le spectre original est conservé, pour pouvoir y appliquer une réponse d'atténuation progressive du filtre passe-haut dans cette bande de fréquence et aussi pour ne pas introduire de défauts audibles lors de l'étape d'addition de la synthèse basse fréquence à la synthèse haute fréquence.In the frequency band corresponding to the samples ranging from
On notera que dans ce mode de réalisation, la génération du spectre étendu sur-échantillonné s'effectue dans une bande de fréquence allant de 5 à 8 kHz incluant donc une deuxième bande de fréquence (6.4-8kHz) supérieure à la première bande de fréquence (0-6.4 kHz).It should be noted that in this embodiment, the generation of the oversampled extended spectrum is carried out in a frequency band ranging from 5 to 8 kHz, thus including a second frequency band (6.4-8 kHz) greater than the first frequency band. (0-6.4 kHz).
Ainsi, l'extension du signal bande basse décodé s'effectue au moins sur la deuxième bande de fréquence mais aussi sur une partie de la première bande de fréquence.Thus, the extension of the decoded low band signal is performed at least on the second frequency band but also on a part of the first frequency band.
Bien évidemment, les valeurs définissant ces bandes de fréquences peuvent être différentes selon le décodeur ou le dispositif de traitement dans lequel l'invention s'applique.Of course, the values defining these frequency bands may be different depending on the decoder or the processing device in which the invention applies.
De plus, le bloc 511 réalise un filtrage passe-haut implicite dans la bande 0-5000 Hz puisque les 200 premiers échantillons de U HB1(k) sont mis à zéro ; comme expliqué plus tard, ce filtrage passe-haut peut également être complété par une partie d'atténuation progressive des valeurs spectrales d'indices k = 200,···,255 dans la bande 5000-6400 Hz, cette atténuation progressive est mise en oeuvre dans le bloc 501 mais pourrait être réalisée séparément en dehors du bloc 501. De façon équivalente et dans des variantes de l'invention, la mise en oeuvre du filtrage passe-haut séparée en blocs de coefficients d'indice k = 0,···,199 mis à zéro, de coefficients k = 200,···,255 atténués, dans le domaine transformé, pourra donc être effectué en une seule étape.In addition, block 511 performs high pass filtering implicit in the 0-5000 Hz band since the first 200 samples of U HB 1 ( k ) are set to zero; as explained later, this high-pass filtering can also be completed by a progressive attenuation part of the spectral values of indices k = 200, ···, 255 in the band 5000-6400 Hz, this progressive attenuation is set in
Dans cet exemple de réalisation et selon la définition de U HB1(k), on remarque que la bande 5000-6000 Hz de U HB1(k) (qui correspond aux indices k = 200,···,239) est copiée à partir de la bande 5000-6000 Hz de U(k). Cette approche permet de conserver le spectre original dans cette bande et elle évite d'introduire des distorsions dans la bande 5000-6000 Hz lors de l'addition de la synthèse HF avec la synthèse BF - en particulier la phase du signal (implicitement représentée dans le domaine DCT-IV) dans cette bande est préservée.In this exemplary embodiment and according to the definition of U HB 1 ( k ), it is noted that the 5000-6000 Hz band of U HB 1 ( k ) (which corresponds to the indices k = 200, ···, 239) is copied from the 5000-6000 Hz U ( k ) band . This approach preserves the original spectrum in this band and avoids introducing distortions in the 5000-6000 Hz band during the addition of HF synthesis with BF synthesis - particularly the signal phase (implicitly represented in the DCT-IV domain) in this band is preserved.
La bande 6000-8000 Hz de U HB1(k) est ici définie en copiant la bande 4000-6000 Hz de U(k) puisque la valeur de start_band est fixée préférentiellement à 160.The band 6000-8000 Hz of U HB 1 ( k ) is here defined by copying the 4000-6000 Hz band of U (k) since the value of start_band is preferably fixed at 160.
Dans une variante du mode de réalisation, la valeur de start_band pourra être rendue adaptative autour de la valeur de 160, sans modifier la nature de l'invention. Les détails de l'adaptation de la valeur start_band ne sont pas décrits ici car ils dépassent le cadre de l'invention sans en changer la portée.In a variant of the embodiment, the value of start_band can be made adaptive around the value of 160, without changing the nature of the invention. The details of the adaptation of the value start_band are not described here because they go beyond the scope of the invention without changing the scope.
Dans la plupart des signaux en bande élargie (échantillonnés à 16 kHz), la bande haute (>6 kHz) contient une information d'ambiance qui est naturellement similaire à celle présente dans la bande basse. On définit ici l'ambiance comme le signal résiduel qui est obtenu en supprimant dans le signal existant les harmoniques principales (ou dominantes).Le niveau d'harmonicité dans la bande 6000-8000 Hz est généralement corrélé à celui des bandes de fréquences inférieures.In most wideband signals (sampled at 16 kHz), the high band (> 6 kHz) contains background information that is naturally similar to that in the low band. Ambience is defined here as the residual signal that is obtained by suppressing in the existing signal the main (or dominant) harmonics. level of harmonicity in the 6000-8000 Hz band is generally correlated to that of the lower frequency bands.
Ce signal bande basse décodé et étendu est fourni en entrée du dispositif d'extension 500 et notamment en entrée du module 512. Ainsi le bloc 512 d'extraction de composantes tonales et d'un signal d'ambiance, met en oeuvre l'étape E402 de la
Dans un mode de réalisation particulier, l'extraction des composantes tonales et du signal d'ambiance (dans la bande 6000-8000 Hz) est effectuée selon opérations suivantes:
- Calcul de l'énergie totale du signal bande basse décodé étendu enerHB :
- Calcul de l'ambiance (en valeur absolue) qui correspond ici au niveau moyen du spectre lev(i) (raie par raie) et calcul de l'énergie enertonal des parties tonales dominantes (dans le spectre hautes fréquences)
En général fb(i)=i-7 et fn(i)=i+7, cependant les 7 premiers et derniers indices ( i=0,···,6 et i=L-7,···,L-1) demandent un traitement spécial et sans perte de généralité on définit alors :
- Calculation of the total energy of the extended decoded low band signal ener HB :
- Calculation of the atmosphere (in absolute value) which here corresponds to the average level of the spectrum lev (i) (line by line) and calculating the energy ener tonal dominant tonal portions (in the high frequency spectrum)
In general fb ( i ) = i -7 and fn ( i ) = i +7, however the first and last 7 indices ( i = 0, ···, 6 and i = L -7, ···, L - 1) require a special treatment and without loss of generality we define then:
On calcule également le signal résiduel:
Ce calcul fait donc intervenir une détection implicite des composantes tonales. Les parties tonales sont donc implicitement détectées à l'aide du terme intermédiaire y(i) représentant un seuil adaptatif. La condition de détection étant y(i) >0. Dans des variantes de l'invention cette condition pourra être changée par exemple en définissant un seuil adaptatif fonction de l'enveloppe locale du signal ou sous la forme y(i)>lev(i)+xdB où x a une valeur prédéfinie (par exemple x=10 dB).
L'énergie des parties tonales dominantes est définie par l'équation suivante:
This calculation therefore involves an implicit detection of the tonal components. The tonal parts are thus implicitly detected using the intermediate term y (i) representing an adaptive threshold. The detection condition being y ( i )> 0. In variants of the invention this condition can be changed for example by defining an adaptive threshold depending on the local envelope of the signal or in the form y ( i )> lev ( i ) + xdB where x has a predefined value (by example x = 10 dB).
The energy of the dominant tonal parts is defined by the following equation:
D'autres méthodes d'extraction du signal d'ambiance peuvent bien sûr être envisagées. Par exemple, ce signal d'ambiance peut être extrait d'un signal basse fréquence ou éventuellement une autre bande de fréquence (ou plusieurs bandes de fréquence).
La détection des pics ou composantes tonales pourra être faite différemment.
L'extraction de ce signal d'ambiance pourrait également être fait sur l'excitation décodé mais pas étendu, c'est-à-dire avant l'étape d'extension ou de translation spectrale, c'est-à-dire par exemple sur une portion du signal basse fréquence plutôt que directement sur le signal haute fréquence.
Dans une variante de réalisation, l'extraction des composantes tonales et du signal d'ambiance s'effectue dans un ordre différent et selon les étapes suivantes :
- détection des composantes tonales dominantes du signal bande basse décodé (ou décodé et étendu), dans le domaine fréquentiel ;
- calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
The detection of peaks or tonal components can be done differently.
The extraction of this ambient signal could also be done on the decoded but not extended excitation, that is to say before the extension or spectral translation step, that is to say, for example on a portion of the low frequency signal rather than directly on the high frequency signal.
In an alternative embodiment, the extraction of the tonal components and the ambient signal is performed in a different order and according to the following steps:
- detection of the dominant tone components of the decoded (or decoded and extended) low band signal in the frequency domain;
- calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.
Dans d'autres variantes de l'invention, la valeur absolue des valeurs spectrales sera remplacée par exemple le carré des valeurs spectrales, sans changer le principe de l'invention ; dans ce cas une racine carrée sera nécessaire pour revenir au domaine du signal, ce qui est plus complexe à réaliser.In other variants of the invention, the absolute value of the spectral values will be replaced for example by the square of the spectral values, without changing the principle of the invention; in this case a square root will be needed to return to the signal domain, which is more complex to achieve.
Le module de combinaison 513 effectue une étape de combinaison par mixage adaptatif du signal d'ambiance et des composantes tonales. Pour cela, un facteur Γ de contrôle du niveau d'ambiance est défini par l'équation suivante :
Pour obtenir le signal étendu, on obtient d'abord le signal combiné en valeurs absolues pour i=0...L-1:
Dans le bloc 513 de mixage adaptatif, un facteur de contrôle du niveau d'énergie est calculé en fonction de l'énergie totale du signal bande basse décodé (ou décodé et étendu) et des composantes tonales.
Dans un mode de réalisation préféré du mixage adaptatif, l'ajustement d'énergie est effectué de la façon suivante:
Le facteur d'ajustement est défini par l'équation suivante:
To obtain the extended signal, we first obtain the combined signal in absolute values for i = 0 ... L -1 :
In the
In a preferred embodiment of the adaptive mixing, the energy adjustment is performed as follows:
The adjustment factor is defined by the following equation:
Et où N(k 1,k 2) est l'ensemble des indices k pour lesquels le coefficient d'indice k est classifié comme étant associé aux composantes tonales. Cet ensemble peut être par exemple obtenu en détectant les pics locaux dans U'(k) vérifiant |U'(k)|>lev(k) ou lev(k) est calculé comme le niveau moyen du spectre raie par raie.
On peut noter que d'autres méthodes de calcul de l'énergie des composantes tonales sont possibles, par exemple en prenant la valeur médiane du spectre sur la bande considérée.
On fixe β de telle sorte que le ratio entre l'énergie des composantes tonales dans les bandes 4-6 kHz et 6-8 kHz soit le même qu'entre les bandes 2-4 kHz et 4-6 kHz :
Dans des variantes de l'invention, le calcul de β pourra être remplacé par d'autres méthodes. Par exemple, dans une variante, on pourra extraire (calculer) différents paramètres (ou « features » en anglais) caractérisant le signal en bande basse, dont un paramètre « tilt » similaire à celui calculé dans le codec AMR-WB, et on estimera le facteur β en fonction d'une régression linéaire à partir de ces différents paramètres en limitant sa valeur entre 0 et 1. La régression linéaire pourra par exemple être estimée de façon supervisée en estimant le facteur β en se donnant la bande haute originale dans une base d'apprentissage. On notera que le mode de calcul de β ne limite pas la nature de l'invention.And where N ( k 1 , k 2 ) is the set of indices k for which the index coefficient k is classified as being associated with the tonal components. This set can be obtained for example by detecting the local peaks in U ' ( k ) verifying | U '( k ) |> lev ( k ) or lev ( k ) is calculated as the average level of the line spectrum per line.
It may be noted that other methods of calculating the energy of the tonal components are possible, for example by taking the median value of the spectrum on the band considered.
Β is fixed so that the ratio between the energy of the tonal components in the 4-6 kHz and 6-8 kHz bands is the same as between the 2-4 kHz and 4-6 kHz bands:
In variants of the invention, the calculation of β may be replaced by other methods. For example, in one variant, it will be possible to extract (calculate) different parameters (or "features" in English) characterizing the low band signal, including a "tilt" parameter similar to that calculated in the AMR-WB codec, and it will be estimated the postman β as a function of a linear regression from these different parameters by limiting its value between 0 and 1. The linear regression could for example be estimated in a supervised manner by estimating the factor β by giving the original high band in a base d 'learning. It will be noted that the method of calculating β does not limit the nature of the invention.
Ensuite, le paramètre β peut être utilisé pour calculer γ en tenant compte du fait qu'un signal avec un signal d'ambiance rajouté dans une bande donnée est perçu en général comme plus fort qu'un signal harmonique à la même énergie dans la même bande. Si on définit α comme la quantité de signal d'ambiance rajouté au signal harmonique :
A la sortie du dispositif d'extension de bande 500, le bloc 501, dans un mode de réalisation particulier réalise de façon optionnelle, une double opération d'application de réponse en fréquence de filtre passe-bande et de filtrage de désaccentuation (ou déemphase) dans le domaine fréquentiel.At the output of the
Dans une variante de l'invention, le filtrage de désaccentuation pourra être réalisé dans le domaine temporel, après le bloc 502 voire avant le bloc 510 ; cependant, dans ce cas, le filtrage passe-bande réalisé dans le bloc 501 peut laisser certaines composantes basses fréquences de très faibles niveaux qui se voient amplifier par désaccentuation, ce qui peut modifier de façon légèrement perceptible la bande basse décodée. Pour cette raison, on préfère ici réaliser la désaccentuation dans le domaine fréquentiel. Dans le mode de réalisation privilégié, les coefficients d'indice k=0,···,199 sont mis à zéro, ainsi la désaccentuation est limitée aux coefficients supérieurs.
L'excitation est d'abord désaccentuée selon l'équation suivante :
On note que la désaccentuation est appliquée en deux phases pour k = 200,···,255 correspondant à la bande de fréquence 5000-6400 Hz, où la réponse 1/(1-0.68z -1) est appliquée comme à 12.8 kHz, et pour k = 256,···,319 correspondant à la bande de fréquence 6400-8000 Hz, où la réponse est étendue de 16 kHz ici à une valeur constante dans la bande 6.4-8 kHz.In a variant of the invention, the deemphasis filtering may be performed in the time domain, after the
The excitation is first de-emphasized according to the following equation:
It is noted that the de-emphasis is applied in two phases for k = 200, ···, 255 corresponding to the frequency band 5000-6400 Hz, where the
On peut noter que dans le codec AMR-WB la synthèse HF n'est pas désaccentuée. Dans le mode de réalisation présenté ici, le signal haute-fréquence est au contraire désaccentué de manière à le ramener dans un domaine cohérent avec le signal basse-fréquence (0-6.4 kHz) qui sort du bloc 305 de la
Dans une variante du mode de réalisation, afin de réduire la complexité, on pourra fixer Gdeemph (k) à une valeur constante indépendante de k, en prenant par exemple Gdeemph (k)=0.6 ce qui correspond approximativement à la valeur moyenne de Gdeemph (k) pour k = 200,···,319 dans les conditions du mode de réalisation décrit ci-dessus.In a variant of the embodiment, in order to reduce the complexity, it is possible to fix G deemph ( k ) to a constant value independent of k, taking for example G deemph ( k ) = 0.6 which corresponds approximately to the average value of G deemph ( k ) for k = 200, ···, 319 under the conditions of the embodiment described above.
Dans une autre variante du mode de réalisation du décodeur, la désaccentuation pourra être réalisée de façon équivalente dans le domaine temporel après DCT inverse.In another variant of the embodiment of the decoder, the de-emphasis can be performed in an equivalent manner in the time domain after inverse DCT.
En plus de la désaccentuation, un filtrage passe-bande est appliqué avec deux parties séparées : l'une passe-haut fixe, l'autre passe-bas adaptative (fonction du débit).In addition to de-emphasis, band-pass filtering is applied with two separate parts: one fixed high-pass, the other adaptive low-pass (flow-rate function).
Ce filtrage est effectué dans le domaine fréquentiel.This filtering is performed in the frequency domain.
Dans le mode de réalisation privilégiée, on calcule la réponse partielle de filtre passe-bas dans le domaine fréquentiel comme suit:
On notera aussi que le filtrage passe-bande pourra être adapté en définissant une seule étape de filtrage combinant les filtrages passe-haut et passe-bas.Note also that the bandpass filtering can be adapted by defining a single filtering step combining the high-pass and low-pass filtering.
Dans un autre mode de réalisation, le filtrage passe-bande pourra être réalisé de façon équivalente dans le domaine temporel (comme dans le bloc 112 de la
Le bloc 502 de transformée inverse réalise une DCT inverse sur 320 échantillons pour trouver le signal haute-fréquence échantillonnée à 16 kHz. Sa mise en oeuvre est identique au bloc 510, car la DCT-IV est orthonormée, sauf que la longueur de la transformée est de 320 au lieu de 256, et on obtient:
Dans le cas où le bloc 510 n'est pas une DCT, mais une autre transformation ou décomposition en sous-bandes, le bloc 502 réalise la synthèse correspondante à l'analyse réalisée dans le bloc 510.In the case where the
Le signal échantillonné à 16 kHz est ensuite de façon optionnelle mis à l'échelle par des gains définis par sous-trame de 80 échantillons (bloc 504).
Dans un mode de réalisation privilégié, on calcule d'abord (bloc 503) un gain gHB1(m) par sous-trame par des ratios d'énergie des sous-trames tel que dans chaque sous-trame d'indice m=0, 1, 2 ou 3 de la trame courante:
Le bloc 504 effectue la mise à l'échelle du signal combiné (comprise dans l'étape E404a de la
In a preferred embodiment, a gain g HB1 (m) per sub-frame is first calculated (block 503) by sub-frame energy ratios such that in each sub-frame of index m = 0 , 1, 2 or 3 of the current frame:
On notera que la réalisation du bloc 503 diffère de celle du bloc 101 de la
Ainsi, cette étape de mise à l'échelle permet de conserver dans la bande haute le ratio d'énergie entre la sous-trame et la trame de la même façon que dans la bande basse.Thus, this scaling step makes it possible to keep in the high band the energy ratio between the subframe and the frame in the same way as in the low band.
De façon optionnelle, le bloc 506 effectue ensuite la mise à l'échelle du signal (comprise dans l'étape E404a de la
Enfin, le signal, uHB'(n) ou uHB"(n), est filtrée par le module de filtrage 507 qui peut être réalisé ici en prenant comme fonction de transfert 1/Â(z/γ), où γ =0.9 à 6.6 kbit/s et γ =0.6 aux autres débits, ce qui limite l'ordre du filtre à l'ordre 16.
Dans une variante, ce filtrage pourra être réalisé de la même façon que ce qui est décrit pour le bloc 111 de la
In a variant, this filtering can be done in the same way as that described for
Dans des variantes de réalisation de l'invention, le codage de la bande basse (0-6.4 kHz) pourra être remplacé par un codeur CELP autre que celui utilisé dans AMR-WB, comme par exemple le codeur CELP dans G.718 à 8 kbit/s. Sans perte de généralité d'autres codeurs en bande élargie ou fonctionnant à des fréquences supérieurs à 16 kHz, dans lesquels le codage de la bande basse fonctionne à une fréquence interne à 12.8 kHz pourraient être utilisés. Par ailleurs, l'invention peut être adaptée de façon évidente à d'autres fréquences d'échantillonnage que 12.8 kHz, lorsqu'un codeur de basses fréquences fonctionne à une fréquence d'échantillonnage inférieure à celle du signal original ou reconstruit. Lorsque le décodage en bande basse n'utilise pas de prédiction linéaire, on ne dispose pas d'un signal d'excitation à étendre, dans ce cas on pourra réaliser une analyse LPC du signal reconstruit dans la trame courante et on calculera une excitation LPC de manière à pouvoir appliquer l'invention.In alternative embodiments of the invention, the coding of the low band (0-6.4 kHz) may be replaced by a CELP coder other than that used in AMR-WB, for example the CELP coder in G.718 to 8. kbit / s. Without loss of generality other encoders in wide band or operating at frequencies higher than 16 kHz, in which the coding of the low band operates at an internal frequency at 12.8 kHz could be used. Moreover, the invention can be obviously adapted to other sampling frequencies than 12.8 kHz, when a low frequency encoder operates at a sampling frequency lower than that of the original or reconstructed signal. When the low band decoding does not use a linear prediction, it does not have an excitation signal to be extended, in this case it will be possible to carry out an LPC analysis of the reconstructed signal in the current frame and calculate an LPC excitation. so as to be able to apply the invention.
Enfin, dans une autre variante de l'invention, l'excitation ou le signal bande basse ( u(n)) est ré-échantillonnée, par exemple par interpolation linéaire ou "spline" cubique, de 12.8 à 16 kHz avant transformation (par exemple DCT-IV) de longueur 320. Cette variante a le défaut d'être plus complexe, car la transformée (DCT-IV) de l'excitation ou du signal est alors calculée sur une plus grande longueur et le ré-échantillonnage n'est pas effectué dans le domaine de la transformée.Finally, in another variant of the invention, the excitation or the low band signal ( u ( n )) is resampled, for example by linear interpolation or cubic "spline", of 12.8 to 16 kHz before transformation (for example DCT-IV) of length 320. This variant has the defect of being more complex, because the transform (DCT-IV) of the excitation or the signal is then calculated on a larger length and resampling is not performed in the transform domain.
De plus, dans des variantes de l'invention, tous les calculs nécessaires à l'estimation des gains (GHBN, g HB1(m), g HB2(m), gHBN, ...) pourront être effectués dans un domaine logarithmique.Moreover, in variants of the invention, all the calculations necessary for the estimation of the gains ( G HBN , g HB 1 ( m ), g HB 2 ( m ), g HBN , ...) can be made in a logarithmic domain.
La
Ce type de dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Un tel dispositif comporte un module d'entrée E apte à recevoir un signal audio décodé ou extrait dans une première bande de fréquence dite bande basse ramené dans le domaine fréquentiel (U(k)). Il comporte un module de sortie S apte à transmettre le signal d'extension dans une deuxième bande de fréquence (U HB2(k)) par exemple à un module de filtrage 501 de la
Such a device comprises an input module E adapted to receive a decoded audio signal or extracted in a first frequency band said low band brought into the frequency domain ( U ( k )) . It comprises an output module S adapted to transmit the extension signal in a second frequency band ( U HB 2 ( k )) for example to a
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de d'extension de bande au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction (E402) de composantes tonales et d'un signal d'ambiance à partir d'un signal issu du signal bande basse décodé (U(k)), de combinaison (E403) des composantes tonales (y(k)) et du signal d'ambiance (UHBA (k)) par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit signal combiné (U HB2 (k)), d'extension (E401a) sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence du signal décodé bande basse avant l'étape d'extraction ou du signal combiné après l'étape de combinaison.The memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the band extension method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps for extracting (E402) tonal components and a surround signal from a signal derived from the decoded low band signal ( U ( k )), combining (E403) the tonal components (y (k)) and the ambient signal ( U HBA ( k )) by adaptive mixing using energy level control factors to obtain an audio signal, said combined signal ( U HB 2 ( k )), of extension (E401a) on at least one second frequency band greater than the first frequency band of the low band decoded signal before the extraction step or the combined signal after the combining step.
Typiquement, la description de la
La mémoire MEM enregistre de manière générale, toutes les données nécessaires à la mise en oeuvre du procédé.The memory MEM generally records all the data necessary for the implementation of the method.
Dans un mode possible de réalisation, le dispositif ainsi décrit peut également comporter les fonctions de décodage bande basse et autre fonctions de traitement décrites par exemple en
Claims (9)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
HRP20231164TT HRP20231164T1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
RS20230844A RS64614B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
SI201531958T SI3330966T1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1450969A FR3017484A1 (en) | 2014-02-07 | 2014-02-07 | ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER |
PCT/FR2015/050257 WO2015118260A1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
EP15705687.0A EP3103116B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
Related Parent Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP15705687.0A Division-Into EP3103116B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
EP15705687.0A Division EP3103116B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
Publications (2)
Publication Number | Publication Date |
---|---|
EP3330966A1 true EP3330966A1 (en) | 2018-06-06 |
EP3330966B1 EP3330966B1 (en) | 2023-07-26 |
Family
ID=51014390
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP17206563.3A Active EP3330966B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
EP17206569.0A Active EP3327722B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
EP15705687.0A Active EP3103116B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
EP17206567.4A Active EP3330967B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP17206569.0A Active EP3327722B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
EP15705687.0A Active EP3103116B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio signal decoder |
EP17206567.4A Active EP3330967B1 (en) | 2014-02-07 | 2015-02-04 | Improved frequency band extension in an audio frequency signal decoder |
Country Status (21)
Country | Link |
---|---|
US (5) | US10043525B2 (en) |
EP (4) | EP3330966B1 (en) |
JP (4) | JP6625544B2 (en) |
KR (5) | KR102380487B1 (en) |
CN (4) | CN108022599B (en) |
BR (2) | BR122017027991B1 (en) |
DK (2) | DK3103116T3 (en) |
ES (2) | ES2878401T3 (en) |
FI (1) | FI3330966T3 (en) |
FR (1) | FR3017484A1 (en) |
HR (2) | HRP20231164T1 (en) |
HU (2) | HUE062979T2 (en) |
LT (2) | LT3103116T (en) |
MX (1) | MX363675B (en) |
PL (4) | PL3330967T3 (en) |
PT (2) | PT3330966T (en) |
RS (2) | RS64614B1 (en) |
RU (4) | RU2682923C2 (en) |
SI (2) | SI3330966T1 (en) |
WO (1) | WO2015118260A1 (en) |
ZA (3) | ZA201606173B (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2951819T3 (en) * | 2013-01-29 | 2017-08-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer medium for synthesizing an audio signal |
FR3017484A1 (en) | 2014-02-07 | 2015-08-14 | Orange | ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP3382702A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
CN109688531B (en) * | 2017-10-18 | 2021-01-26 | 宏达国际电子股份有限公司 | Method for acquiring high-sound-quality audio conversion information, electronic device and recording medium |
EP3518562A1 (en) | 2018-01-29 | 2019-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels |
EP3903309B1 (en) * | 2019-01-13 | 2024-04-24 | Huawei Technologies Co., Ltd. | High resolution audio coding |
KR102308077B1 (en) * | 2019-09-19 | 2021-10-01 | 에스케이텔레콤 주식회사 | Method and Apparatus for Artificial Band Conversion Based on Learning Model |
CN113192517B (en) * | 2020-01-13 | 2024-04-26 | 华为技术有限公司 | Audio encoding and decoding method and audio encoding and decoding equipment |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010044722A1 (en) * | 2000-01-28 | 2001-11-22 | Harald Gustafsson | System and method for modifying speech signals |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4307557B2 (en) | 1996-07-03 | 2009-08-05 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | Voice activity detector |
SE9700772D0 (en) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
JP4135240B2 (en) * | 1998-12-14 | 2008-08-20 | ソニー株式会社 | Receiving apparatus and method, communication apparatus and method |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
JP4792613B2 (en) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | Information processing apparatus and method, and recording medium |
DE10041512B4 (en) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Method and device for artificially expanding the bandwidth of speech signals |
WO2003003345A1 (en) * | 2001-06-29 | 2003-01-09 | Kabushiki Kaisha Kenwood | Device and method for interpolating frequency components of signal |
DE60214027T2 (en) * | 2001-11-14 | 2007-02-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | CODING DEVICE AND DECODING DEVICE |
ATE331280T1 (en) * | 2001-11-23 | 2006-07-15 | Koninkl Philips Electronics Nv | BANDWIDTH EXTENSION FOR AUDIO SIGNALS |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
AU2002319903A1 (en) * | 2002-06-28 | 2004-01-19 | Pirelli Pneumatici S.P.A. | System and monitoring characteristic parameters of a tyre |
US6845360B2 (en) * | 2002-11-22 | 2005-01-18 | Arbitron Inc. | Encoding multiple messages in audio data and detecting same |
CA2603246C (en) * | 2005-04-01 | 2012-07-17 | Qualcomm Incorporated | Systems, methods, and apparatus for anti-sparseness filtering |
US8145478B2 (en) * | 2005-06-08 | 2012-03-27 | Panasonic Corporation | Apparatus and method for widening audio signal band |
FR2888699A1 (en) * | 2005-07-13 | 2007-01-19 | France Telecom | HIERACHIC ENCODING / DECODING DEVICE |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
CN101089951B (en) * | 2006-06-16 | 2011-08-31 | 北京天籁传音数字技术有限公司 | Band spreading coding method and device and decode method and device |
JP5141180B2 (en) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | Frequency band expanding apparatus, frequency band expanding method, reproducing apparatus and reproducing method, program, and recording medium |
KR101379263B1 (en) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | Method and apparatus for decoding bandwidth extension |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
US8041577B2 (en) * | 2007-08-13 | 2011-10-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for expanding audio signal bandwidth |
EP2186087B1 (en) * | 2007-08-27 | 2011-11-30 | Telefonaktiebolaget L M Ericsson (PUBL) | Improved transform coding of speech and audio signals |
US8588427B2 (en) * | 2007-09-26 | 2013-11-19 | Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US9275648B2 (en) * | 2007-12-18 | 2016-03-01 | Lg Electronics Inc. | Method and apparatus for processing audio signal using spectral data of audio signal |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
US8554551B2 (en) * | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
DE102008015702B4 (en) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for bandwidth expansion of an audio signal |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
KR101381513B1 (en) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | Apparatus for encoding and decoding of integrated voice and music |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
TR201808500T4 (en) * | 2008-12-15 | 2018-07-23 | Fraunhofer Ges Forschung | Audio encoder and bandwidth extension decoder. |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
RU2452044C1 (en) * | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Apparatus, method and media with programme code for generating representation of bandwidth-extended signal on basis of input signal representation using combination of harmonic bandwidth-extension and non-harmonic bandwidth-extension |
CN101990253A (en) * | 2009-07-31 | 2011-03-23 | 数维科技(北京)有限公司 | Bandwidth expanding method and device |
JP5493655B2 (en) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | Voice band extending apparatus and voice band extending program |
RU2568278C2 (en) * | 2009-11-19 | 2015-11-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Bandwidth extension for low-band audio signal |
JP5589631B2 (en) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | Voice processing apparatus, voice processing method, and telephone apparatus |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
KR101826331B1 (en) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | Apparatus and method for encoding and decoding for high frequency bandwidth extension |
CA2903681C (en) * | 2011-02-14 | 2017-03-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
US20140019125A1 (en) * | 2011-03-31 | 2014-01-16 | Nokia Corporation | Low band bandwidth extended |
WO2013066238A2 (en) | 2011-11-02 | 2013-05-10 | Telefonaktiebolaget L M Ericsson (Publ) | Generation of a high band extension of a bandwidth extended audio signal |
CN104321815B (en) * | 2012-03-21 | 2018-10-16 | 三星电子株式会社 | High-frequency coding/high frequency decoding method and apparatus for bandwidth expansion |
US9228916B2 (en) * | 2012-04-13 | 2016-01-05 | The Regents Of The University Of California | Self calibrating micro-fabricated load cells |
KR101897455B1 (en) * | 2012-04-16 | 2018-10-04 | 삼성전자주식회사 | Apparatus and method for enhancement of sound quality |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
FR3017484A1 (en) * | 2014-02-07 | 2015-08-14 | Orange | ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER |
-
2014
- 2014-02-07 FR FR1450969A patent/FR3017484A1/en active Pending
-
2015
- 2015-02-04 CN CN201711459701.1A patent/CN108022599B/en active Active
- 2015-02-04 JP JP2016549732A patent/JP6625544B2/en active Active
- 2015-02-04 RS RS20230844A patent/RS64614B1/en unknown
- 2015-02-04 PL PL17206567.4T patent/PL3330967T3/en unknown
- 2015-02-04 EP EP17206563.3A patent/EP3330966B1/en active Active
- 2015-02-04 FI FIEP17206563.3T patent/FI3330966T3/en active
- 2015-02-04 PT PT172065633T patent/PT3330966T/en unknown
- 2015-02-04 US US15/117,100 patent/US10043525B2/en active Active
- 2015-02-04 RU RU2016136008A patent/RU2682923C2/en active
- 2015-02-04 SI SI201531958T patent/SI3330966T1/en unknown
- 2015-02-04 HU HUE17206563A patent/HUE062979T2/en unknown
- 2015-02-04 LT LTEP15705687.0T patent/LT3103116T/en unknown
- 2015-02-04 EP EP17206569.0A patent/EP3327722B1/en active Active
- 2015-02-04 EP EP15705687.0A patent/EP3103116B1/en active Active
- 2015-02-04 KR KR1020177037706A patent/KR102380487B1/en active IP Right Grant
- 2015-02-04 CN CN201711459702.6A patent/CN107993667B/en active Active
- 2015-02-04 SI SI201531646T patent/SI3103116T1/en unknown
- 2015-02-04 WO PCT/FR2015/050257 patent/WO2015118260A1/en active Application Filing
- 2015-02-04 ES ES15705687T patent/ES2878401T3/en active Active
- 2015-02-04 MX MX2016010214A patent/MX363675B/en unknown
- 2015-02-04 RU RU2017144523A patent/RU2763547C2/en active
- 2015-02-04 KR KR1020167024350A patent/KR102380205B1/en active IP Right Grant
- 2015-02-04 ES ES17206563T patent/ES2955964T3/en active Active
- 2015-02-04 KR KR1020227007471A patent/KR102510685B1/en active IP Right Grant
- 2015-02-04 PL PL17206569.0T patent/PL3327722T3/en unknown
- 2015-02-04 CN CN201580007250.0A patent/CN105960675B/en active Active
- 2015-02-04 HU HUE15705687A patent/HUE055111T2/en unknown
- 2015-02-04 CN CN201711459695.XA patent/CN108109632B/en active Active
- 2015-02-04 PT PT157056870T patent/PT3103116T/en unknown
- 2015-02-04 DK DK15705687.0T patent/DK3103116T3/en active
- 2015-02-04 KR KR1020177037700A patent/KR20180002906A/en not_active IP Right Cessation
- 2015-02-04 KR KR1020177037710A patent/KR102426029B1/en active IP Right Grant
- 2015-02-04 EP EP17206567.4A patent/EP3330967B1/en active Active
- 2015-02-04 DK DK17206563.3T patent/DK3330966T3/en active
- 2015-02-04 RU RU2017144522A patent/RU2763481C2/en active
- 2015-02-04 HR HRP20231164TT patent/HRP20231164T1/en unknown
- 2015-02-04 PL PL17206563.3T patent/PL3330966T3/en unknown
- 2015-02-04 PL PL15705687T patent/PL3103116T3/en unknown
- 2015-02-04 BR BR122017027991-2A patent/BR122017027991B1/en active IP Right Grant
- 2015-02-04 BR BR112016017616-2A patent/BR112016017616B1/en active IP Right Grant
- 2015-02-04 RS RS20210945A patent/RS62160B1/en unknown
- 2015-02-04 LT LTEP17206563.3T patent/LT3330966T/en unknown
- 2015-02-04 RU RU2017144521A patent/RU2763848C2/en active
-
2016
- 2016-09-06 ZA ZA2016/06173A patent/ZA201606173B/en unknown
-
2017
- 2017-12-11 ZA ZA2017/08366A patent/ZA201708366B/en unknown
- 2017-12-11 ZA ZA2017/08368A patent/ZA201708368B/en unknown
-
2018
- 2018-01-12 US US15/869,560 patent/US10668760B2/en active Active
- 2018-06-18 US US16/011,153 patent/US10730329B2/en active Active
-
2019
- 2019-06-07 JP JP2019107009A patent/JP6775065B2/en active Active
- 2019-06-07 JP JP2019107007A patent/JP6775063B2/en active Active
- 2019-06-07 JP JP2019107008A patent/JP6775064B2/en active Active
-
2020
- 2020-07-13 US US16/926,818 patent/US11312164B2/en active Active
- 2020-07-27 US US16/939,104 patent/US11325407B2/en active Active
-
2021
- 2021-07-23 HR HRP20211187TT patent/HRP20211187T1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010044722A1 (en) * | 2000-01-28 | 2001-11-22 | Harald Gustafsson | System and method for modifying speech signals |
Non-Patent Citations (1)
Title |
---|
ANNADANA RAGHURAM ET AL: "New Enhancements to the Audio Bandwidth Extension Toolkit (ABET)", AES CONVENTION 124; MAY 2008, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 May 2008 (2008-05-01), XP040508704 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3020043B1 (en) | Optimized scale factor for frequency band extension in an audiofrequency signal decoder | |
EP3327722B1 (en) | Improved frequency band extension in an audio frequency signal decoder | |
EP3014611B1 (en) | Improved frequency band extension in an audio signal decoder | |
WO2014009657A1 (en) | Processing method for improving the quality of audio frequency signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: TUEP Ref document number: P20231164T Country of ref document: HR |
|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED |
|
AC | Divisional application: reference to earlier application |
Ref document number: 3103116 Country of ref document: EP Kind code of ref document: P |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
AX | Request for extension of the european patent |
Extension state: BA ME |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
17P | Request for examination filed |
Effective date: 20181206 |
|
RBV | Designated contracting states (corrected) |
Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: KONINKLIJKE PHILIPS N.V. |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
17Q | First examination report despatched |
Effective date: 20201215 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
INTG | Intention to grant announced |
Effective date: 20230301 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
P01 | Opt-out of the competence of the unified patent court (upc) registered |
Effective date: 20230527 |
|
AC | Divisional application: reference to earlier application |
Ref document number: 3103116 Country of ref document: EP Kind code of ref document: P |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602015084843 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: DK Ref legal event code: T3 Effective date: 20230919 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: FP |
|
REG | Reference to a national code |
Ref country code: PT Ref legal event code: SC4A Ref document number: 3330966 Country of ref document: PT Date of ref document: 20231004 Kind code of ref document: T Free format text: AVAILABILITY OF NATIONAL TRANSLATION Effective date: 20230929 |
|
REG | Reference to a national code |
Ref country code: SE Ref legal event code: TRGR |
|
REG | Reference to a national code |
Ref country code: NO Ref legal event code: T2 Effective date: 20230726 |
|
REG | Reference to a national code |
Ref country code: GR Ref legal event code: EP Ref document number: 20230401686 Country of ref document: GR Effective date: 20231113 |
|
REG | Reference to a national code |
Ref country code: SK Ref legal event code: T3 Ref document number: E 42396 Country of ref document: SK |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2955964 Country of ref document: ES Kind code of ref document: T3 Effective date: 20231211 |
|
REG | Reference to a national code |
Ref country code: EE Ref legal event code: FG4A Ref document number: E023691 Country of ref document: EE Effective date: 20230925 |
|
REG | Reference to a national code |
Ref country code: HU Ref legal event code: AG4A Ref document number: E062979 Country of ref document: HU |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: T1PR Ref document number: P20231164 Country of ref document: HR |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: UEP Ref document number: 1592896 Country of ref document: AT Kind code of ref document: T Effective date: 20230726 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20231164 Country of ref document: HR Payment date: 20240123 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: LU Payment date: 20240226 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GR Payment date: 20240221 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IS Payment date: 20240229 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: LT Payment date: 20240122 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IE Payment date: 20240220 Year of fee payment: 10 Ref country code: NL Payment date: 20240226 Year of fee payment: 10 Ref country code: ES Payment date: 20240308 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: AT Payment date: 20240220 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: MC Payment date: 20240226 Year of fee payment: 10 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602015084843 Country of ref document: DE |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SM Payment date: 20240226 Year of fee payment: 10 Ref country code: RO Payment date: 20240125 Year of fee payment: 10 Ref country code: HU Payment date: 20240130 Year of fee payment: 10 Ref country code: FI Payment date: 20240226 Year of fee payment: 10 Ref country code: EE Payment date: 20240226 Year of fee payment: 10 Ref country code: DE Payment date: 20240228 Year of fee payment: 10 Ref country code: CZ Payment date: 20240123 Year of fee payment: 10 Ref country code: CY Payment date: 20240202 Year of fee payment: 10 Ref country code: BG Payment date: 20240226 Year of fee payment: 10 Ref country code: GB Payment date: 20240220 Year of fee payment: 10 Ref country code: PT Payment date: 20240122 Year of fee payment: 10 Ref country code: SK Payment date: 20240123 Year of fee payment: 10 Ref country code: CH Payment date: 20240301 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SI Payment date: 20240122 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: TR Payment date: 20240123 Year of fee payment: 10 Ref country code: SE Payment date: 20240226 Year of fee payment: 10 Ref country code: RS Payment date: 20240126 Year of fee payment: 10 Ref country code: PL Payment date: 20240123 Year of fee payment: 10 Ref country code: NO Payment date: 20240220 Year of fee payment: 10 Ref country code: LV Payment date: 20240228 Year of fee payment: 10 Ref country code: IT Payment date: 20240222 Year of fee payment: 10 Ref country code: HR Payment date: 20240123 Year of fee payment: 10 Ref country code: FR Payment date: 20240226 Year of fee payment: 10 Ref country code: DK Payment date: 20240226 Year of fee payment: 10 Ref country code: BE Payment date: 20240226 Year of fee payment: 10 Ref country code: MT Payment date: 20240226 Year of fee payment: 10 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20240429 |