WO2014034697A1 - 復号方法、復号装置、プログラム、及びその記録媒体 - Google Patents

復号方法、復号装置、プログラム、及びその記録媒体 Download PDF

Info

Publication number
WO2014034697A1
WO2014034697A1 PCT/JP2013/072947 JP2013072947W WO2014034697A1 WO 2014034697 A1 WO2014034697 A1 WO 2014034697A1 JP 2013072947 W JP2013072947 W JP 2013072947W WO 2014034697 A1 WO2014034697 A1 WO 2014034697A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
decoding
decoded speech
unit
Prior art date
Application number
PCT/JP2013/072947
Other languages
English (en)
French (fr)
Inventor
祐介 日和▲崎▼
守谷 健弘
登 原田
優 鎌本
勝宏 福井
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to EP13832346.4A priority Critical patent/EP2869299B1/en
Priority to CN201380044549.4A priority patent/CN104584123B/zh
Priority to KR1020157003110A priority patent/KR101629661B1/ko
Priority to JP2014533035A priority patent/JPWO2014034697A1/ja
Priority to US14/418,328 priority patent/US9640190B2/en
Priority to PL13832346T priority patent/PL2869299T3/pl
Priority to ES13832346T priority patent/ES2881672T3/es
Publication of WO2014034697A1 publication Critical patent/WO2014034697A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Definitions

  • the present invention relates to a decoding method, a decoding device, a program, and a recording medium for decoding a code obtained by digitally encoding a signal sequence such as sound or video such as voice or music with a small amount of information.
  • FIG. 1 is a block diagram showing a configuration of a conventional coding apparatus 1.
  • FIG. 2 is a flowchart showing the operation of the encoding device 1 of the prior art.
  • the encoding apparatus 1 includes a linear prediction analysis unit 101, a linear prediction coefficient encoding unit 102, a synthesis filter unit 103, a waveform distortion calculation unit 104, a codebook search control unit 105, a gain A codebook unit 106, a drive excitation vector generation unit 107, and a synthesis unit 108 are provided.
  • the operation of each component of the encoding device 1 will be described.
  • x F (n) is input.
  • the linear prediction analysis unit 101 may be replaced with a non-linear one.
  • the linear prediction coefficient encoding unit 102 acquires the linear prediction coefficient a (i), quantizes and encodes the linear prediction coefficient a (i), and combines the combined filter coefficient a ⁇ (i) and the linear prediction coefficient code. Is generated and output (S102). Note that a ⁇ (i) means a superscript hat for a (i). The linear prediction coefficient encoding unit 102 may be replaced with a non-linear one.
  • the synthesis filter unit 103 acquires a synthesis filter coefficient a ⁇ (i) and a drive excitation vector candidate c (n) generated by a drive excitation vector generation unit 107 described later.
  • the synthesis filter unit 103 performs linear filter processing on the drive excitation vector candidate c (n) using the synthesis filter coefficient a ⁇ (i) as a filter coefficient, and generates and outputs an input signal candidate x F ⁇ (n) ( S103).
  • x ⁇ means a superscript hat of x.
  • the synthesis filter unit 103 may be replaced with a non-linear one.
  • the waveform distortion calculation unit 104 acquires an input signal sequence x F (n), a linear prediction coefficient a (i), and an input signal candidate x F ⁇ (n).
  • the waveform distortion calculation unit 104 calculates the distortion d of the input signal sequence x F (n) and the input signal candidate x F ⁇ (n) (S104).
  • the distortion calculation is often performed in consideration of the linear prediction coefficient a (i) (or the synthesis filter coefficient a ⁇ (i)).
  • the codebook search control unit 105 acquires the distortion d and selects a driving excitation code, that is, a gain code, a periodic code, and a fixed (noise) code used in a gain codebook unit 106 and a driving excitation vector generation unit 107 described later.
  • Output S105A
  • the distortion d is the minimum or a value equivalent to the minimum (S105BY)
  • the process proceeds to step S108, and the synthesis unit 108 described later executes the operation.
  • step S105BN if the distortion d is not the minimum value or the value corresponding to the minimum value (S105BN), steps S106, S107, S103, and S104 are sequentially executed, and the process returns to step S105A, which is the operation of this configuration unit. Therefore, as long as the branch of step S105BN is entered, steps S106, S107, S103, S104, and S105A are repeatedly executed, so that the codebook search control unit 105 finally receives the input signal sequence x F (n) and the input signal. A driving excitation code is selected and outputted so that the distortion d of the candidate x F ⁇ (n) is the minimum or the minimum (S105BY).
  • Gain codebook 106 obtains the excitation code, quantization gain (gain candidates) by the gain code in the excitation code g a, and outputs the g r (S106).
  • ⁇ Drive excitation vector generation unit 107 Excitation vector generating section 107, excitation code and a quantization gain (gain candidates) g a, and obtains the g r, the period code and a fixed code contained in the excitation code, drive the length of one frame A sound source vector candidate c (n) is generated (S107).
  • the drive excitation vector generation unit 107 is generally composed of an adaptive codebook and a fixed codebook not shown in the figure.
  • the adaptive codebook is based on a periodic code and stores the previous driving excitation vector immediately before stored in the buffer (the driving excitation vector for one to several frames immediately before quantization) with a length corresponding to a certain period.
  • a time-series vector candidate corresponding to the periodic component of speech is generated and output.
  • the adaptive codebook selects a period that reduces the distortion d in the waveform distortion calculation unit 104.
  • the selected period generally corresponds to the pitch period of voice.
  • the fixed codebook generates and outputs candidates for a time-series code vector having a length corresponding to one frame corresponding to a non-periodic component of speech based on the fixed code. These candidates are either one of a predetermined number of candidate vectors stored according to the number of bits for encoding independent of the input speech, or pulses are arranged according to a predetermined generation rule. Or one of the generated vectors.
  • the fixed codebook originally corresponds to a non-periodic component of speech, but particularly in speech sections with strong pitch periodicity, such as vowel sections, the pitch period or adaptive codebook is added to the above prepared candidate vectors.
  • a fixed code vector may be obtained by applying a comb filter having a period corresponding to the pitch used in, or by cutting out and repeating a vector in the same manner as in the adaptive codebook.
  • the drive excitation vector generation unit 107 outputs the gain candidates g a , output from the gain codebook unit 23 to the time series vector candidates c a (n) and c r (n) output from the adaptive codebook and the fixed codebook.
  • Gr is multiplied and added to generate a drive excitation vector candidate c (n).
  • only the adaptive codebook or only the fixed codebook may be used.
  • the synthesizing unit 108 acquires the linear prediction coefficient code and the driving excitation code, and generates and outputs a code that combines the linear prediction coefficient code and the driving excitation code (S108). The code is transmitted to the decoding device 2.
  • FIG. 3 is a block diagram showing a configuration of a conventional decoding device 2 corresponding to the encoding device 1.
  • FIG. 4 is a flowchart showing the operation of the conventional decoding device 2.
  • the decoding device 2 includes a separation unit 109, a linear prediction coefficient decoding unit 110, a synthesis filter unit 111, a gain codebook unit 112, a drive excitation vector generation unit 113, and a post-processing unit 114.
  • the operation of each component of the decoding device 2 will be described.
  • the code transmitted from the encoding device 1 is input to the decoding device 2.
  • the separation unit 109 acquires a code, and separates and extracts the linear prediction coefficient code and the driving excitation code from the code (S109).
  • the linear prediction coefficient decoding unit 110 acquires the linear prediction coefficient code, and uses the decoding method corresponding to the encoding method performed by the linear prediction coefficient encoding unit 102 to generate the synthesis filter coefficient a ⁇ (i) from the linear prediction coefficient code. Decode (S110).
  • the synthesis filter unit 111 performs the same operation as the synthesis filter unit 103 described above. Therefore, the synthesis filter unit 111 acquires the synthesis filter coefficient a ⁇ (i) and the driving sound source vector c (n). Synthesis filter 111, the excitation vector c (n) to the synthesis filter coefficients a ⁇ (i) performs a linear filtering process for the coefficients of the filter, the x F ⁇ (n) (decoding apparatus, the synthetic signal sequence x F ⁇ (n)) is generated and output (S111).
  • the gain codebook unit 112 performs the same operation as the gain codebook unit 106 described above. Therefore, the gain codebook unit 112 acquires the driving excitation code and uses the gain code in the driving excitation code to calculate g a , g r (in the decoding apparatus, the decoding gains g a , g r ). Generate and output (S112).
  • the drive excitation vector generation unit 113 performs the same operation as the drive excitation vector generation unit 107 described above. Therefore, excitation vector generator 113, excitation code and decoding a gain g a, and obtains the g r, the period code and a fixed code contained in the excitation code, one frame length of c (n) (In the decoding apparatus, it is referred to as drive excitation vector c (n)) is generated and output (S113).
  • the post-processing unit 114 acquires the composite signal sequence x F ⁇ (n).
  • the post-processing unit 114 performs processing of spectrum enhancement and pitch enhancement on the synthesized signal sequence x F ⁇ (n), and generates and outputs an output signal sequence z F (n) in which quantization noise is audibly reduced ( S114).
  • CELP Code-Excited Linear Prediction
  • Coding schemes based on speech generation models such as the CELP coding scheme can realize high-quality coding with a small amount of information, but there are background noise environments such as offices and streets.
  • background noise environments such as offices and streets.
  • the voice recorded in step 1 hereinafter referred to as “noise-superimposed voice”
  • the background noise is different in nature from the voice, resulting in quantization distortion that does not apply to the model, and unpleasant sound.
  • the present invention provides a decoding method capable of realizing a natural reproduced sound even if the input signal is a noise-superimposed voice in a voice coding system based on a voice generation model such as a CELP system. Objective.
  • the decoding method of the present invention includes a speech decoding step, a noise generation step, and a noise addition step.
  • a speech decoding step a decoded speech signal is obtained from the input code.
  • a noise generation step a noise signal that is a random signal is generated.
  • a signal obtained by performing signal processing on the noise signal based on at least one of the power corresponding to the decoded speech signal of the past frame and the spectral envelope corresponding to the decoded speech signal of the current frame is used as an output signal.
  • the decoding method of the present invention in a speech coding method based on a speech generation model such as a CELP system, even if an input signal is a noise-superimposed speech, the quantization distortion caused by not being applied to the model By masking, it becomes difficult to perceive an unpleasant sound, and a more natural reproduction sound can be realized.
  • a speech generation model such as a CELP system
  • 1 is a block diagram illustrating a configuration of a coding apparatus according to a first embodiment.
  • 3 is a flowchart showing the operation of the encoding apparatus according to the first embodiment.
  • FIG. 3 is a block diagram illustrating a configuration of a control unit of the encoding apparatus according to the first embodiment.
  • 6 is a flowchart illustrating an operation of a control unit of the encoding apparatus according to the first embodiment.
  • the block diagram which shows the structure of the decoding apparatus of Example 1 and its modification The flowchart which shows operation
  • FIG. 5 is a block diagram showing the configuration of the encoding device 3 of this embodiment.
  • FIG. 6 is a flowchart showing the operation of the encoding device 3 of this embodiment.
  • FIG. 7 is a block diagram illustrating a configuration of the control unit 215 of the encoding device 3 according to the present embodiment.
  • FIG. 8 is a flowchart showing the operation of the control unit 215 of the encoding device 3 of this embodiment.
  • the encoding apparatus 3 of the present embodiment includes a linear prediction analysis unit 101, a linear prediction coefficient encoding unit 102, a synthesis filter unit 103, a waveform distortion calculation unit 104, and a codebook search control unit. 105, a gain codebook unit 106, a drive excitation vector generation unit 107, a synthesis unit 208, and a control unit 215.
  • the only difference from the encoding device 1 of the prior art is that the combining unit 108 in the conventional example is the combining unit 208 in the present embodiment and the control unit 215 is added. Therefore, the operation of each component having the same number as that of the conventional encoding device 1 is as described above, and the description thereof is omitted.
  • operations of the control unit 215 and the synthesis unit 208 which are differences from the conventional technology, will be described.
  • the control unit 215 acquires the input signal sequence x F (n) in units of frames and generates a control information code (S215). More specifically, as shown in FIG. 7, the control unit 215 includes a low-pass filter unit 2151, a power addition unit 2152, a memory 2153, a flag addition unit 2154, and a voice section detection unit 2155.
  • the low-pass filter unit 2151 obtains an input signal sequence x F (n) in units of frames including a plurality of consecutive samples (one frame is a signal sequence of L points from 0 to L ⁇ 1), and the input signal sequence x F (n) is filtered using a low-pass filter (low-pass filter) to generate and output a low-pass input signal sequence x LPF (n) (SS2151).
  • a low-pass filter low-pass filter
  • FIR Finite_Impulse_Response
  • the power addition unit 2152 acquires the low-pass input signal sequence x LPF (n), and uses the power addition value of the x LPF (n) as the low-pass signal energy e LPF (0). For example, the calculation is performed by the following equation (SS2152).
  • a VAD Voice_Activity_Detection
  • the voice section detection may detect a vowel section.
  • the VAD method is, for example, ITU-T_G. 729_Annex_B (reference non-patent document 1) or the like is used to detect silence and compress information.
  • the speech segment detection unit 2155 performs speech segment detection using the low-pass signal energy e LPF (0) to e LPF (M) and the speech segment detection flags clas (0) to clas (N) (SS2155). ). Specifically, the speech segment detection unit 2155 has all the parameters of the low-pass signal energy eLPF (0) to eLPF (M) larger than a predetermined threshold value, and the speech segment detection flags clas (0) to clas (N).
  • control information indicating that the category of the signal of the current frame is a noise-superimposed speech is generated as a control information code, and the synthesis unit 208 (SS2155). If the above condition is not met, control information of one frame past is taken over. That is, if the input signal sequence in the past of one frame is a noise-superimposed speech, the current frame is also a noise-superimposed speech. If the past one frame is not a noise-superimposed speech, the current frame is also not a noise-superimposed speech.
  • the initial value of the control information may or may not be a value indicating noise superimposed speech. For example, the control information is output as a binary value (1 bit) indicating whether the input signal sequence is a noise superimposed speech or not.
  • ⁇ Synthesizer 208> The operation of the combining unit 208 is the same as that of the combining unit 108 except that a control information code is added to the input. Therefore, the synthesis unit 208 acquires the control information code, the linear prediction code, and the driving excitation code, and generates a code by combining these (S208).
  • FIG. 9 is a block diagram showing the configuration of the decoding device 4 (4 ') of the present embodiment and its modification.
  • FIG. 10 is a flowchart showing the operation of the decoding device 4 (4 ') according to the present embodiment and its modification.
  • FIG. 11 is a block diagram illustrating a configuration of the noise adding unit 216 of the decoding device 4 according to the present embodiment and its modification.
  • FIG. 12 is a flowchart showing the operation of the noise adding unit 216 of the decoding device 4 of the present embodiment and its modification.
  • the decoding device 4 of the present embodiment includes a separation unit 209, a linear prediction coefficient decoding unit 110, a synthesis filter unit 111, a gain codebook unit 112, a driving excitation vector generation unit 113, A processing unit 214, a noise addition unit 216, and a noise gain calculation unit 217 are provided.
  • the difference from the conventional decoding apparatus 3 is that the separation unit 109 in the conventional example is the separation unit 209 in the present embodiment, and the post-processing unit 114 in the conventional example is the post-processing unit 214 in the present embodiment. This is only the point where the noise adding unit 216 and the noise gain calculating unit 217 are added.
  • ⁇ Separation unit 209 The operation of the separation unit 209 is the same as that of the separation unit 109 except that a control information code is added to the output. Therefore, the separation unit 209 acquires a code from the encoding device 3, and separates and extracts the control information code, the linear prediction coefficient code, and the driving excitation code from the code (S209). Thereafter, steps S112, S113, S110, and S111 are executed.
  • the noise gain calculator 217 the combined signal sequence x F ⁇ (n) to obtain the, if the interval the current frame is not a speech segment, such as a noise section, for example the noise gain using the following equation g n Is calculated (S217).
  • the noise gain g n may be updated by the following equation by exponential averaging with a noise gain obtained in the past frame.
  • the initial value of the noise gain g n may be a predetermined value such as 0, or may be a value obtained from a composite signal sequence x F ⁇ (n) of a certain frame.
  • is a forgetting factor satisfying 0 ⁇ ⁇ 1, and determines an exponential decay time constant.
  • Noise gain g n may be a formula (4) or equation (5).
  • VAD Voice_Activity_Detection
  • Noise addition section 216 synthesis filter coefficients a ⁇ (i) and the control information code synthetic signal sequence x F ⁇ (n) and acquires the noise gain g n, after the noise addition processing signal sequence x F ⁇ '(n ) Is generated and output (S216).
  • the noise adding unit 216 includes a noise superimposed speech determination unit 2161, a synthetic high-pass filter unit 2162, and a noise added post-processing signal generation unit 2163.
  • the noise superimposed speech determination unit 2161 decodes the control information from the control information code to determine whether or not the current frame category is noise superimposed speech, and when the current frame is noise superimposed speech (S2161BY). ), An L-point signal sequence of randomly generated white noise having an amplitude value between ⁇ 1 and 1 is generated as a normalized white noise signal sequence ⁇ (n) (SS2161C).
  • the synthesis high-pass filter unit 2162 obtains the normalized white noise signal sequence ⁇ (n), a high-pass filter (high-pass filter), and a filter in which the synthesis filter is blunted to approximate the noise shape.
  • IIR Infinite_Impulse_Response
  • FIR Finite_Impulse_Response
  • a filter obtained by combining a high-pass filter (high-pass filter) and a filter obtained by blunting the synthesis filter may be expressed as the following equation, where H (z) is used.
  • H HPF (z) indicates a high-pass filter
  • a ⁇ (Z / ⁇ n ) indicates a filter in which the synthesis filter is blunted.
  • q represents the linear prediction order, for example, 16.
  • ⁇ n is a parameter for dulling the synthesis filter in order to approximate the outline of noise, and is set to 0.8, for example.
  • the reason for using the high-pass filter is as follows.
  • a coding system based on a speech generation model such as a CELP coding system many bits are allocated to a frequency band with a large energy, so that the sound quality tends to deteriorate as the frequency increases due to the characteristics of speech. . Therefore, by using a high-pass filter, it is possible to add a lot of noise to the high frequency range where the sound quality is deteriorated and not add a noise to the low frequency range where the deterioration of the sound quality is small. This makes it possible to create a more natural sound with little deterioration in hearing.
  • noisy processed signal generation unit 2163 the combined signal sequence x F ⁇ (n), the high pass normalized noise signal sequence [rho HPF (n), to obtain the noise gain g n described above, for example, the noise by the following equation
  • the post-addition-processed signal sequence x F ⁇ ′ (n) is calculated (SS2163).
  • C n is a predetermined constant for adjusting the magnitude of noise to be added, such as 0.04.
  • the noise superimposed speech determination unit 2161 determines that the current frame is not the noise superimposed speech in substep SS2161B (SS2161BN), substeps SS2161C, SS2162, and SS2163 are not executed.
  • the noisy speech determination unit 2161 the combined signal sequence x F ⁇ obtains (n), and outputs the x F ⁇ a (n) as it is noisy processed signal sequence x F ⁇ 'as (n) (SS2161D).
  • the post-noise addition signal sequence x F ⁇ (n) output from the noise superimposed speech determination unit 2161 becomes the output of the noise addition unit 216 as it is.
  • the post-processing unit 214 is the same as the post-processing unit 114 except that the input is replaced with the post-noise added signal sequence from the combined signal sequence. Therefore, the post-processing unit 214 obtains the noise-added signal sequence x F ⁇ ′ (n), performs spectral enhancement and pitch enhancement processing on the noise-added signal sequence x F ⁇ ′ (n), An output signal sequence z F (n) in which the quantization noise is audibly reduced is generated and output (S214).
  • the decoding device 4 ′ of the present modification includes a separation unit 209, a linear prediction coefficient decoding unit 110, a synthesis filter unit 111, a gain codebook unit 112, and a drive excitation vector generation unit 113. , A post-processing unit 214, a noise adding unit 216, and a noise gain calculating unit 217 ′.
  • the only difference from the decoding device 4 of the first embodiment is that the noise gain calculation unit 217 in the first embodiment is a noise gain calculation unit 217 ′ in this modification.
  • the noise gain calculation unit 217 ′ obtains the noise-added signal sequence x F ⁇ ′ (n) instead of the synthesized signal sequence x F ⁇ (n), and the current frame is not a voice interval such as a noise interval. if an interval, for example, to calculate the noise gain g n using the following equation (S217 '). As before, the noise gain g n may be calculated by the formula (3 '). As before, the calculation formula for noise gain g n may be a formula (4 ') or Formula (5').
  • the input signal is Even if it is a noise-superimposed speech, it is difficult to perceive an unpleasant sound by masking the quantization distortion that does not apply to the model, and a more natural reproduced sound can be realized.
  • the encoding device (encoding method) and decoding device (decoding method) of the present invention are described above. It is not limited to the concrete method illustrated in Example 1 and its modification.
  • the operation of the decoding device of the present invention will be described in another expression.
  • the procedure (exemplified as steps S209, S112, S113, S110, and S111 in the first embodiment) up to the generation of the decoded speech signal (illustrated as the composite signal sequence x F ⁇ (n) in the first embodiment) is one. It can be regarded as a speech decoding step.
  • a step of generating a noise signal (exemplified as sub-step SS2161C in the first embodiment) will be referred to as a noise generation step. Further, a step of generating a signal after noise addition processing (illustrated as sub-step SS2163 in the first embodiment) is referred to as a noise addition step.
  • a more general decoding method including a speech decoding step, a noise generation step, and a noise addition step can be found.
  • a decoded speech signal (exemplified as x F ⁇ (n)) is obtained from the input code.
  • a noise signal that is a random signal (exemplified as a normalized white noise signal sequence ⁇ (n) in the first embodiment) is generated.
  • the filter in the spectral envelope (Example 1 a power corresponding to the decoded speech signal of the past frame (illustrated as noise gain g n in Example 1) and corresponds to the decoded speech signal of the current frame A ⁇ ( z), A ⁇ (z / ⁇ n ) or a signal processing based on at least one of them, and a signal obtained by performing processing on the noise signal (illustrated as ⁇ (n)), and decoding and output signals (x F ⁇ 'exemplified as (n) in example 1) speech signal (x F ⁇ (n) as illustrated) and the noise addition processing after signal obtained by adding the.
  • the spectrum envelope corresponding to the decoded speech signal of the current frame is the spectrum envelope parameter of the current frame obtained in the speech decoding step (a ⁇ (i) in the first embodiment).
  • a spectrum envelope illustrated as A ⁇ (z / ⁇ n ) in the first embodiment.
  • the spectral envelope corresponding to the decoded speech signal of the current frame described above is a spectral envelope (in Example 1) based on the spectral envelope parameter (illustrated as a ⁇ (i)) of the current frame obtained in the speech decoding step.
  • a ⁇ (z) may be exemplified).
  • a spectral envelope (filter A ⁇ (z), A ⁇ (z / ⁇ n ) or the like corresponding to the decoded speech signal of the current frame is added to the noise signal (illustrated as ⁇ (n)).
  • the noise addition processing after signal obtained by adding the decoded speech signal may be an output signal .
  • a spectrum envelope corresponding to the decoded speech signal of the current frame is given to the noise signal, and the low band is suppressed or the high band is emphasized (exemplified in Formula (6) and the like in the first embodiment).
  • the signal after noise addition processing obtained by adding the received signal and the decoded audio signal may be used as the output signal.
  • the noise signal is given a spectrum envelope corresponding to the decoded speech signal of the current frame, and the power corresponding to the decoded speech signal of the past frame is multiplied to suppress the low range or emphasize the high range.
  • a signal after noise addition processing obtained by adding the signal expressed in (Equation (6), (8), etc.) and the decoded speech signal may be used as the output signal.
  • the noise addition step described above may be performed by using a signal after adding noise as a result of adding a signal obtained by adding a spectrum envelope corresponding to the decoded speech signal of the current frame to the noise signal and the decoded speech signal. Good.
  • the noise addition step described above uses, as an output signal, a signal after noise addition processing obtained by adding a signal obtained by multiplying the power corresponding to the decoded audio signal of the past frame by the noise signal and the decoded audio signal. Also good.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads a program stored in its own recording medium and executes a process according to the read program.
  • the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition. It is good.
  • ASP Application Service Provider
  • the program in this embodiment includes information provided for processing by an electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。入力された符号から復号音声信号を得る音声復号ステップと、ランダムな信号である雑音信号を生成する雑音生成ステップと、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を雑音信号に対して行って得られる信号と、復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップとを含む。

Description

復号方法、復号装置、プログラム、及びその記録媒体
 本発明は、例えば音声や音楽などの音響、映像等の信号系列を少ない情報量でディジタル符号化した符号を復号する復号方法、復号装置、プログラム、及びその記録媒体に関する。
 現在、音声を高能率に符号化する方法として、例えば、入力信号(特に音声)に含まれる5~200ms程度の一定間隔の各区間(フレーム)の入力信号系列を処理対象とし、その1フレームの音声を、周波数スペクトルの包絡特性を表す線形フィルタの特性と、そのフィルタを駆動するための駆動音源信号との2つの情報に分離し、それぞれを符号化する手法が提案されている。この手法における駆動音源信号を符号化する方法として、音声のピッチ周期(基本周波数)に対応すると考えられる周期成分と、それ以外の成分に分離して符号化する符号駆動線形予測符号化(Code-Excited_Linear_Prediction:CELP)が知られている(非特許文献1)。
 図1、図2を参照して従来技術の符号化装置1について説明する。図1は従来技術の符号化装置1の構成を示すブロック図である。図2は、従来技術の符号化装置1の動作を示すフローチャートである。図1に示すように、符号化装置1は線形予測分析部101と、線形予測係数符号化部102と、合成フィルタ部103と、波形歪み計算部104と、符号帳検索制御部105と、ゲイン符号帳部106と、駆動音源ベクトル生成部107と、合成部108とを備える。以下、符号化装置1の各構成部の動作について説明する。
<線形予測分析部101>
 線形予測分析部101には、時間領域の入力信号x(n)(n=0,…,L-1,Lは1以上の整数)に含まれる連続する複数サンプルからなるフレーム単位の入力信号系列x(n)が入力される。線形予測分析部101は、入力信号系列x(n)を取得して、入力音声の周波数スペクトル包絡特性を表す線形予測係数a(i)(iは予測次数、i=1,…,P,Pは1以上の整数)を計算する(S101)。線形予測分析部101は非線形なものに置き換えてもよい。
<線形予測係数符号化部102>
 線形予測係数符号化部102は、線形予測係数a(i)を取得して、当該線形予測係数a(i)を量子化および符号化して、合成フィルタ係数a^(i)と線形予測係数符号を生成、出力する(S102)。なお、a^(i)は、a(i)の上付きハットを意味する。線形予測係数符号化部102は非線形なものに置き換えてもよい。
<合成フィルタ部103>
 合成フィルタ部103は、合成フィルタ係数a^(i)と、後述する駆動音源ベクトル生成部107が生成する駆動音源ベクトル候補c(n)とを取得する。合成フィルタ部103は、駆動音源ベクトル候補c(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、入力信号候補x^(n)を生成、出力する(S103)。なお、x^は、xの上付きハットを意味する。合成フィルタ部103は非線形なものに置き換えてもよい。
<波形歪み計算部104>
 波形歪み計算部104は、入力信号系列x(n)と線形予測係数a(i)と入力信号候補x^(n)とを取得する。波形歪み計算部104は、入力信号系列x(n)と入力信号候補x^(n)の歪みdを計算する(S104)。歪み計算は、線形予測係数a(i)(または合成フィルタ係数a^(i))を考慮にいれて行われることが多い。
<符号帳検索制御部105>
 符号帳検索制御部105は、歪みdを取得して、駆動音源符号、すなわち後述するゲイン符号帳部106および駆動音源ベクトル生成部107で用いるゲイン符号、周期符号および固定(雑音)符号を選択、出力する(S105A)。ここで、歪みdが最小、または最小に準ずる値であれば(S105BY)、ステップS108に遷移して、後述する合成部108が動作を実行する。一方、歪みdが最小、または最小に準ずる値でなければ(S105BN)、ステップS106、S107、S103、S104が順次実行されて、本構成部の動作であるステップS105Aに帰還する。従って、ステップS105BNの分岐に入る限り、ステップS106、S107、S103、S104、S105Aが繰り返し実行されることで、符号帳検索制御部105は、最終的に入力信号系列x(n)と入力信号候補x^(n)の歪みdが最小または最小に準ずるような駆動音源符号を選択、出力する(S105BY)。
<ゲイン符号帳部106>
 ゲイン符号帳部106は、駆動音源符号を取得して、駆動音源符号中のゲイン符号により量子化ゲイン(ゲイン候補)g,gを出力する(S106)。
<駆動音源ベクトル生成部107>
 駆動音源ベクトル生成部107は、駆動音源符号と量子化ゲイン(ゲイン候補)g,gを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さの駆動音源ベクトル候補c(n)を生成する(S107)。駆動音源ベクトル生成部107は、一般に、図に示していない適応符号帳と固定符号帳から構成されることが多い。適応符号帳は、周期符号に基づき、バッファに記憶された直前の過去の駆動音源ベクトル(既に量子化された直前の1~数フレーム分の駆動音源ベクトル)を、ある周期に相当する長さで切り出し、その切り出したベクトルをフレームの長さになるまで繰り返すことによって、音声の周期成分に対応する時系列ベクトルの候補を生成、出力する。上記「ある周期」として、適応符号帳は波形歪み計算部104における歪みdが小さくなるような周期が選択する。選択された周期は、一般には音声のピッチ周期に相当することが多い。固定符号帳は、固定符号に基づき、音声の非周期成分に対応する1フレーム分の長さの時系列符号ベクトルの候補を生成、出力する。これらの候補は入力音声とは独立に符号化のためのビット数に応じて、あらかじめ指定された数の候補ベクトルを記憶したうちの1つであったり、あらかじめ決められた生成規則によってパルスを配置して生成されたベクトルの1つであったりする。なお、固定符号帳は、本来音声の非周期成分に対応するものであるが、特に母音区間など、ピッチ周期性の強い音声区間では、上記あらかじめ用意された候補ベクトルに、ピッチ周期または適応符号帳で用いるピッチに対応する周期を持つ櫛形フィルタをかけたり、適応符号帳での処理と同様にベクトルを切り出して繰り返したりして固定符号ベクトルとすることもある。駆動音源ベクトル生成部107は、適応符号帳および固定符号帳から出力された時系列ベクトルの候補c(n)およびc(n)にゲイン符号帳部23から出力されるゲイン候補g,gを乗算して加算し、駆動音源ベクトルの候補c(n)を生成する。実際の動作中には適応符号帳のみまたは固定符号帳のみが用いられる場合もある。
<合成部108>
 合成部108は、線形予測係数符号と駆動音源符号とを取得して、線形予測係数符号と駆動音源符号をまとめた符号を生成、出力する(S108)。符号は復号装置2へ伝送される。
 次に、図3、図4を参照して従来技術の復号装置2について説明する。図3は符号化装置1に対応する従来技術の復号装置2の構成を示すブロック図である。図4は従来技術の復号装置2の動作を示すフローチャートである。図3に示すように、復号装置2は、分離部109と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部114とを備える。以下、復号装置2の各構成部の動作について説明する。
<分離部109>
 符号化装置1から送信された符号は復号装置2に入力される。分離部109は符号を取得して、当該符号から、線形予測係数符号と、駆動音源符号とを分離して取り出す(S109)。
<線形予測係数復号部110>
 線形予測係数復号部110は、線形予測係数符号を取得して、線形予測係数符号化部102が行う符号化方法と対応する復号方法により、線形予測係数符号から合成フィルタ係数a^(i)を復号する(S110)。
<合成フィルタ部111>
 合成フィルタ部111は、前述した合成フィルタ部103と同じ動作をする。従って、合成フィルタ部111は、合成フィルタ係数a^(i)と、駆動音源ベクトルc(n)とを取得する。合成フィルタ部111は、駆動音源ベクトルc(n)に合成フィルタ係数a^(i)をフィルタの係数とする線形フィルタ処理を行い、x^(n)(復号装置においては、合成信号系列x^(n)と呼ぶものとする)を生成、出力する(S111)。
<ゲイン符号帳部112>
 ゲイン符号帳部112は、前述したゲイン符合帳部106と同じ動作をする。従って、ゲイン符号帳部112は、駆動音源符号を取得して、駆動音源符号中のゲイン符号によりg,g(復号装置においては、復号ゲインg,gと呼ぶものとする)を生成、出力する(S112)。
<駆動音源ベクトル生成部113>
 駆動音源ベクトル生成部113は、前述した駆動音源ベクトル生成部107と同じ動作をする。従って、駆動音源ベクトル生成部113は、駆動音源符号と復号ゲインg,gを取得して、駆動音源符号に含まれる周期符号および固定符号により、1フレーム分の長さのc(n)(復号装置においては、駆動音源ベクトルc(n)と呼ぶものとする)を生成、出力する(S113)。
<後処理部114>
 後処理部114は、合成信号系列x^(n)を取得する。後処理部114は、スペクトル強調やピッチ強調の処理を合成信号系列x^(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列z(n)を生成、出力する(S114)。
M.R. Schroeder and B.S. Atal,"Code-Excited Linear Prediction(CELP):High Quality Speech at Very Low Bit Rates",IEEE Proc. ICASSP-85,pp.937-940,1985.
 このようなCELP系符号化方式をはじめとする音声の生成モデルに基づく符号化方式は、少ない情報量で高品質な符号化を実現することができるが、オフィスや街頭など、背景雑音のある環境で録音された音声(以下、「雑音重畳音声」と言う。)が入力されると、背景雑音は音声とは性質が異なるため、モデルに当てはまらないことによる量子化歪みが発生し、不快な音が知覚される問題があった。そこで本発明では、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。
 本発明の復号方法は、音声復号ステップと、雑音生成ステップと雑音付加ステップとを含む。音声復号ステップにおいて、入力された符号から復号音声信号を得る。雑音生成ステップにおいて、ランダムな信号である雑音信号を生成する。雑音付加ステップにおいて、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする。
 本発明の復号方法によれば、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。
従来技術の符号化装置の構成を示すブロック図。 従来技術の符号化装置の動作を示すフローチャート。 従来技術の復号装置の構成を示すブロック図。 従来技術の復号装置の動作を示すフローチャート。 実施例1の符号化装置の構成を示すブロック図。 実施例1の符号化装置の動作を示すフローチャート。 実施例1の符号化装置の制御部の構成を示すブロック図。 実施例1の符号化装置の制御部の動作を示すフローチャート。 実施例1およびその変形例の復号装置の構成を示すブロック図。 実施例1およびその変形例の復号装置の動作を示すフローチャート。 実施例1およびその変形例の復号装置の雑音付加部の構成を示すブロック図。 実施例1およびその変形例の復号装置の雑音付加部の動作を示すフローチャート。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 図5から図8を参照して実施例1の符号化装置3について説明する。図5は本実施例の符号化装置3の構成を示すブロック図である。図6は本実施例の符号化装置3の動作を示すフローチャートである。図7は本実施例の符号化装置3の制御部215の構成を示すブロック図である。図8は本実施例の符号化装置3の制御部215の動作を示すフローチャートである。
 図5に示す通り、本実施例の符号化装置3は、線形予測分析部101と、線形予測係数符号化部102と、合成フィルタ部103と、波形歪み計算部104と、符号帳検索制御部105と、ゲイン符号帳部106と、駆動音源ベクトル生成部107と、合成部208と、制御部215とを備える。従来技術の符号化装置1との差分は、従来例における合成部108が本実施例において合成部208となっている点、制御部215が加えられた点のみである。従って、従来技術の符号化装置1と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である制御部215、合成部208の動作について説明する。
<制御部215>
 制御部215は、フレーム単位の入力信号系列x(n)を取得して、制御情報符号を生成する(S215)。より詳細には、制御部215は、図7に示すように、ローパスフィルタ部2151、パワー加算部2152、メモリ2153、フラグ付与部2154、音声区間検出部2155を備える。ローパスフィルタ部2151は、連続する複数サンプルからなるフレーム単位の入力信号系列x(n)(1フレームを0~L-1のL点の信号系列とする)を取得して、入力信号系列x(n)をローパスフィルタ(低域通過フィルタ)を用いてフィルタリング処理して低域通過入力信号系列xLPF(n)を生成、出力する(SS2151)。フィルタリング処理には、無限インパルス応答(IIR:Infinite_Impulse_Response)フィルタと有限インパルス応答(FIR:Finite_Impulse_Response)フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。
 次に、パワー加算部2152は、低域通過入力信号系列xLPF(n)を取得して、当該xLPF(n)のパワーの加算値を、低域通過信号エネルギーeLPF(0)として、例えば次式で計算する(SS2152)。
Figure JPOXMLDOC01-appb-M000001
 パワー加算部2152は、計算した低域通過信号エネルギーを、過去の所定フレーム数M(例えばM=5)に渡りメモリ2153に記憶する(SS2152)。例えば、パワー加算部2152は、現在のフレームより1フレーム過去からのMフレーム過去のフレームまでの低域通過信号エネルギーをeLPF(1)~eLPF(M)としてメモリ2153に記憶する。
 次に、フラグ付与部2154は、現フレームが音声が発話された区間(以下、「音声区間」と称す)であるか否かを検出し、音声区間検出フラグclas(0)に値を代入する(SS2154)。例えば、音声区間ならばclas(0)=1、音声区間でないならばclas(0)=0とする。音声区間検出には、一般的に用いられているVAD(Voice_Activity_Detection)法でもよいし、音声区間が検出できればそれ以外の方法でもよい。また、音声区間検出は母音区間を検出するものであってもよい。VAD法は例えば、ITU-T_G.729_Annex_B(参考非特許文献1)などで無音部分を検出して情報圧縮するために用いられている。
 フラグ付与部2154は、音声区間検出フラグclasを、過去の所定フレーム数N(例えばN=5)に渡りメモリ2153に記憶する(SS2152)。例えば、フラグ付与部2154は、現在のフレームより1フレーム過去からのNフレーム過去のフレームまでの音声区間検出フラグをclas(1)~clas(N)としてメモリ2153に記憶する。
(参考非特許文献1)A Benyassine, E Shlomot, H-Y Su, D Massaloux, C Lamblin, J-P Petit, ITU-T recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications. IEEE Communications Magazine 35(9), 64-73 (1997).
 次に、音声区間検出部2155は、低域通過信号エネルギーeLPF(0)~eLPF(M)および音声区間検出フラグclas(0)~clas(N)を用いて音声区間検出を行う(SS2155)。具体的には、音声区間検出部2155は、低域通過信号エネルギーeLPF(0)~eLPF(M)の全てのパラメータが所定の閾値より大きく、音声区間検出フラグclas(0)~clas(N)の全てのパラメータが0である(音声区間でないまたは母音区間でない)とき、現フレームの信号のカテゴリが雑音重畳音声であることを示す値(制御情報)を制御情報符号として生成し、合成部208に出力する(SS2155)。上記条件に当てはまらない場合は、1フレーム過去の制御情報を引き継ぐ。つまり、1フレーム過去の入力信号系列が雑音重畳音声であれば、現フレームも雑音重畳音声であるとし、1フレーム過去が雑音重畳音声でないとすれば、現フレームも雑音重畳音声でないとする。制御情報の初期値は雑音重畳音声を示す値であってもよいし、そうでなくてもよい。例えば、制御情報は、入力信号系列が雑音重畳音声かそうでないかの2値(1ビット)で出力される。
<合成部208>
 合成部208の動作は入力に制御情報符号が加わったこと以外は合成部108と同じである。従って、合成部208は、制御情報符号と、線形予測符号と、駆動音源符号とを取得して、これらをまとめて符号を生成する(S208)。
 次に、図9から図12を参照して実施例1の復号装置4について説明する。図9は本実施例およびその変形例の復号装置4(4’)の構成を示すブロック図である。図10は本実施例およびその変形例の復号装置4(4’)の動作を示すフローチャートである。図11は本実施例およびその変形例の復号装置4の雑音付加部216の構成を示すブロック図である。図12は本実施例およびその変形例の復号装置4の雑音付加部216の動作を示すフローチャートである。
 図9に示す通り、本実施例の復号装置4は、分離部209と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部214と、雑音付加部216と、雑音ゲイン計算部217とを備える。従来技術の復号装置3との差分は、従来例における分離部109が本実施例において分離部209となっている点、従来例における後処理部114が本実施例において後処理部214となっている点、雑音付加部216、雑音ゲイン計算部217が加えられた点のみである。従って、従来技術の復号装置2と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である分離部209、雑音ゲイン計算部217、雑音付加部216、後処理部214の動作について説明する。
<分離部209>
 分離部209の動作は、出力に制御情報符号が加わった以外、分離部109と同じである。従って、分離部209は、符号化装置3から符号を取得して、当該符号から制御情報符号と、線形予測係数符号と、駆動音源符号とを分離して取り出す(S209)。以下、ステップS112、S113、S110、S111が実行される。
<雑音ゲイン計算部217>
 次に、雑音ゲイン計算部217は、合成信号系列x^(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgを計算する(S217)。
Figure JPOXMLDOC01-appb-M000002
過去フレームで求めた雑音ゲインを用いた指数平均により雑音ゲインgを次式で更新してもよい。
Figure JPOXMLDOC01-appb-M000003

雑音ゲインgの初期値は0等の所定の値であってもよいし、あるフレームの合成信号系列x^(n)から求めた値であってもよい。εは0<ε≦1を満たす忘却係数であり、指数関数的な減衰の時定数を決定する。例えばε=0.6として、雑音ゲインgを更新する。雑音ゲインgの計算式は式(4)や式(5)であってもよい。
Figure JPOXMLDOC01-appb-M000004

現在のフレームが雑音区間などの音声区間でない区間かどうかの検出には、非特許文献2などの一般的に用いられているVAD(Voice_Activity_Detection)法でもよいし、音声区間でない区間が検出できればそれ以外の方法でもよい。
<雑音付加部216>
 雑音付加部216は、合成フィルタ係数a^(i)と制御情報符号と合成信号系列x^(n)と雑音ゲインgを取得して、雑音付加処理後信号系列x^’(n)を生成、出力する(S216)。
 より詳細には、雑音付加部216は、図11に示すように、雑音重畳音声判定部2161と、合成ハイパスフィルタ部2162と、雑音付加処理後信号生成部2163とを備える。雑音重畳音声判定部2161は、制御情報符号から、制御情報を復号して、現在のフレームのカテゴリが雑音重畳音声であるか否かを判定し、現在のフレームが雑音重畳音声である場合(S2161BY)、振幅の値が-1から1の間の値をとるランダムに発生させた白色雑音のL点の信号系列を正規化白色雑音信号系列ρ(n)として生成する(SS2161C)。次に、合成ハイパスフィルタ部2162は、正規化白色雑音信号系列ρ(n)を取得して、ハイパスフィルタ(高域通過フィルタ)と、雑音の概形に近づけるために合成フィルタを鈍らせたフィルタを組合せたフィルタを用いて、正規化白色雑音信号系列ρ(n)をフィルタリング処理して、高域通過正規化雑音信号系列ρHPF(n)を生成、出力する(SS2162)。フィルタリング処理には、無限インパルス応答(IIR:Infinite_Impulse_Response)フィルタと有限インパルス応答(FIR:Finite_Impulse_Response)フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。例えば、ハイパスフィルタ(高域通過フィルタ)と合成フィルタを鈍らせたフィルタを組合せたフィルタをH(z)として、次式のようにしてもよい。
Figure JPOXMLDOC01-appb-M000005
ここで、HHPF(z)はハイパスフィルタ、A^(Z/γ)は合成フィルタを鈍らせたフィルタを示す。qは線形予測次数を表し、例えば16とする。γは雑音の概形に近づけるために合成フィルタを鈍らせるパラメータで、例えば0.8とする。
 ハイパスフィルタを用いる理由は、次の通りである。CELP系符号化方式をはじめとする音声の生成モデルに基づく符号化方式では、エネルギーの大きい周波数帯域に多くのビットが配分されるので、音声の特性上、高域ほど音質が劣化しがちである。そこで、ハイパスフィルタを用いることで、音質が劣化している高域に雑音を多く付加し、音質の劣化が小さい低域には雑音を付加しないようにすることができる。これにより、聴感上劣化の少ない、より自然な音を作ることができる。
 雑音付加処理後信号生成部2163は、合成信号系列x^(n)、高域通過正規化雑音信号系列ρHPF(n)、前述した雑音ゲインgを取得して、例えば次式により雑音付加処理後信号系列x^’(n)を計算する(SS2163)。
Figure JPOXMLDOC01-appb-M000006
ここで、Cは0.04等の付加する雑音の大きさを調整する所定の定数とする。
 一方、サブステップSS2161Bにおいて、雑音重畳音声判定部2161が現在のフレームが雑音重畳音声でないと判断した場合(SS2161BN)、サブステップSS2161C、SS2162、SS2163は実行されない。この場合、雑音重畳音声判定部2161は、合成信号系列x^(n)を取得して、当該x^(n)をそのまま雑音付加処理後信号系列x^’(n)として出力する(SS2161D)。雑音重畳音声判定部2161から出力される雑音付加処理後信号系列x^(n)は、そのまま雑音付加部216の出力となる。
<後処理部214>
 後処理部214は、入力が合成信号系列から雑音付加処理後信号系列に置き換わったこと以外は、後処理部114と同じである。従って、後処理部214は、雑音付加処理後信号系列x^’(n)を取得して、スペクトル強調やピッチ強調の処理を雑音付加処理後信号系列x^’(n)に施し、量子化ノイズを聴覚的に低減させた出力信号系列z(n)を生成、出力する(S214)。
[変形例1]
 以下、図9、図10を参照して実施例1の変形例に係る復号装置4’について説明する。図9に示すように、本変形例の復号装置4’は、分離部209と、線形予測係数復号部110と、合成フィルタ部111と、ゲイン符号帳部112と、駆動音源ベクトル生成部113と、後処理部214と、雑音付加部216と、雑音ゲイン計算部217’とを備える。実施例1の復号装置4との差分は、実施例1における雑音ゲイン計算部217が本変形例において雑音ゲイン計算部217’となっている点のみである。
<雑音ゲイン計算部217’>
 雑音ゲイン計算部217’は、合成信号系列x^(n)の代わりに、雑音付加処理後信号系列x^’(n)を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインgを計算する(S217’)。
Figure JPOXMLDOC01-appb-M000007
前述同様、雑音ゲインgを式(3’)で計算してもよい。
Figure JPOXMLDOC01-appb-M000008
前述同様、雑音ゲインgの計算式は式(4’)や式(5’)であってもよい。
Figure JPOXMLDOC01-appb-M000009
 このように、本実施例および変形例の符号化装置3、復号装置4(4’)によれば、CELP系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。
 前述した実施例1及びその変形例では、符号化装置、復号装置の具体的な計算、出力方法を記載したが、本発明の符号化装置(符号化方法)、復号装置(復号方法)は前述の実施例1及びその変形例に例示した具体的な方法に限定されない。以下、本発明の復号装置の動作を別の表現で記載する。本発明における復号音声信号(実施例1において合成信号系列x^(n)として例示)を生成するまでの手順(実施例1においてステップS209、S112、S113、S110、S111として例示)をひとつの音声復号ステップと捉えることができる。また、雑音信号を生成するステップ(実施例1においてサブステップSS2161Cとして例示)を雑音生成ステップと呼ぶこととする。さらに、雑音付加処理後信号を生成するステップ(実施例1においてサブステップSS2163として例示)を雑音付加ステップと呼ぶこととする。
 この場合、音声復号ステップと雑音生成ステップと雑音付加ステップとを含む、より一般化された復号方法を見出すことができる。音声復号ステップでは、入力された符号から復号音声信号(x^(n)として例示)を得る。雑音生成ステップでは、ランダムな信号である雑音信号(実施例1において、正規化白色雑音信号系列ρ(n)として例示)を生成する。雑音付加ステップでは、過去のフレームの復号音声信号に対応するパワー(実施例1において雑音ゲインgとして例示)と現在のフレームの復号音声信号に対応するスペクトル包絡(実施例1においてフィルタA^(z)やA^(z/γ)またはこれらを含むフィルタとして例示)との少なくとも何れかに基づく信号処理を雑音信号(ρ(n)として例示)に対して行って得られる信号と、復号音声信号(x^(n)として例示)とを加算して得た雑音付加処理後信号(実施例1においてx^’(n)として例示)を出力信号とする。
 本発明の復号方法のバリエーションとしてさらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ(実施例1ではa^(i)として例示)に対応するスペクトル包絡を鈍らせたスペクトル包絡(実施例1においてA^(z/γ)として例示)であってもよい。
 さらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ(a^(i)として例示)に基づくスペクトル包絡(実施例1においてA^(z)として例示)であってもよい。
 さらに、前述の雑音付加ステップは、雑音信号(ρ(n)として例示)に現在のフレームの復号音声信号に対応するスペクトル包絡(フィルタA^(z)やA^(z/γ)などを例示)が与えられ過去のフレームの復号音声信号に対応するパワー(gとして例示)を乗算された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
 さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調(実施例1において式(6)などに例示)された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
 さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調(式(6)、(8)などに例示)された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
 さらに、前述の雑音付加ステップは、現在のフレームの復号音声信号に対応するスペクトル包絡を雑音信号に与えた信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
 さらに、前述の雑音付加ステップは、過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。
 また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
 なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (18)

  1.  入力された符号から復号音声信号を得る音声復号ステップと、
     ランダムな信号である雑音信号を生成する雑音生成ステップと、
     過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップと、
    を含むことを特徴とする復号方法。
  2.  前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
     前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
    ことを特徴とする請求項1に記載の復号方法。
  3.  前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
     前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
    ことを特徴とする請求項1に記載の復号方法。
  4.  前記雑音付加ステップは、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項1から3の何れかに記載の復号方法。
  5.  前記雑音付加ステップは、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項1から3の何れかに記載の復号方法。
  6.  前記雑音付加ステップは、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項1から3の何れかに記載の復号方法。
  7.  前記雑音付加ステップは、
     前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項1から3の何れかに記載の復号方法。
  8.  前記雑音付加ステップは、
     前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項1に記載の復号方法。
  9.  入力された符号から復号音声信号を得る音声復号部と、
     ランダムな信号である雑音信号を生成する雑音生成部と、
     過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加部と、
    を含むことを特徴とする復号装置。
  10.  前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
     前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
    ことを特徴とする請求項9に記載の復号装置。
  11.  前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
     前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
    ことを特徴とする請求項9に記載の復号装置。
  12.  前記雑音付加部は、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項9から11の何れかに記載の復号装置。
  13.  前記雑音付加部は、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項9から11の何れかに記載の復号装置。
  14.  前記雑音付加部は、
     前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項9から11の何れかに記載の復号装置。
  15.  前記雑音付加部は、
     前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項9から11の何れかに記載の復号装置。
  16.  前記雑音付加部は、
     前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
    ことを特徴とする請求項9に記載の復号装置。
  17.  請求項1から請求項8のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラム。
  18.  請求項1から請求項8のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
PCT/JP2013/072947 2012-08-29 2013-08-28 復号方法、復号装置、プログラム、及びその記録媒体 WO2014034697A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
EP13832346.4A EP2869299B1 (en) 2012-08-29 2013-08-28 Decoding method, decoding apparatus, program, and recording medium therefor
CN201380044549.4A CN104584123B (zh) 2012-08-29 2013-08-28 解码方法、以及解码装置
KR1020157003110A KR101629661B1 (ko) 2012-08-29 2013-08-28 복호 방법, 복호 장치, 프로그램 및 그 기록매체
JP2014533035A JPWO2014034697A1 (ja) 2012-08-29 2013-08-28 復号方法、復号装置、プログラム、及びその記録媒体
US14/418,328 US9640190B2 (en) 2012-08-29 2013-08-28 Decoding method, decoding apparatus, program, and recording medium therefor
PL13832346T PL2869299T3 (pl) 2012-08-29 2013-08-28 Sposób dekodowania, urządzenie dekodujące, program i nośnik pamięci dla niego
ES13832346T ES2881672T3 (es) 2012-08-29 2013-08-28 Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012188462 2012-08-29
JP2012-188462 2012-08-29

Publications (1)

Publication Number Publication Date
WO2014034697A1 true WO2014034697A1 (ja) 2014-03-06

Family

ID=50183505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/072947 WO2014034697A1 (ja) 2012-08-29 2013-08-28 復号方法、復号装置、プログラム、及びその記録媒体

Country Status (8)

Country Link
US (1) US9640190B2 (ja)
EP (1) EP2869299B1 (ja)
JP (1) JPWO2014034697A1 (ja)
KR (1) KR101629661B1 (ja)
CN (3) CN107945813B (ja)
ES (1) ES2881672T3 (ja)
PL (1) PL2869299T3 (ja)
WO (1) WO2014034697A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6911939B2 (ja) * 2017-12-01 2021-07-28 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN109286470B (zh) * 2018-09-28 2020-07-10 华中科技大学 一种主动非线性变换信道加扰传输方法
JP7218601B2 (ja) * 2019-02-12 2023-02-07 日本電信電話株式会社 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954600A (ja) * 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JP2000235400A (ja) * 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2004302258A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音声復号化装置および音声復号化方法
JP2008134649A (ja) * 1995-10-26 2008-06-12 Sony Corp 音声信号の再生方法及び装置
JP2008151958A (ja) * 2006-12-15 2008-07-03 Sharp Corp 信号処理方法、信号処理装置及びプログラム
WO2008108082A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声復号装置および音声復号方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01261700A (ja) * 1988-04-13 1989-10-18 Hitachi Ltd 音声符号化方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JP3568255B2 (ja) * 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
JP2806308B2 (ja) * 1995-06-30 1998-09-30 日本電気株式会社 音声復号化装置
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
GB2322778B (en) * 1997-03-01 2001-10-10 Motorola Ltd Noise output for a decoded speech signal
FR2761512A1 (fr) * 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6301556B1 (en) * 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6122611A (en) * 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
CN1149534C (zh) * 1998-12-07 2004-05-12 三菱电机株式会社 声音解码装置和声音解码方法
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
WO2001052241A1 (en) 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US7392179B2 (en) * 2000-11-30 2008-06-24 Matsushita Electric Industrial Co., Ltd. LPC vector quantization apparatus
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP4657570B2 (ja) * 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
US20060116874A1 (en) * 2003-10-24 2006-06-01 Jonas Samuelsson Noise-dependent postfiltering
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101304261B (zh) * 2007-05-12 2011-11-09 华为技术有限公司 一种频带扩展的方法及装置
CN101308658B (zh) * 2007-05-14 2011-04-27 深圳艾科创新微电子有限公司 一种基于片上***的音频解码器及其解码方法
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
AU2009267532B2 (en) * 2008-07-11 2013-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for calculating a number of spectral envelopes
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
KR101624019B1 (ko) * 2011-02-14 2016-06-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코덱에서 잡음 생성

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954600A (ja) * 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JP2008134649A (ja) * 1995-10-26 2008-06-12 Sony Corp 音声信号の再生方法及び装置
JP2000235400A (ja) * 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2004302258A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音声復号化装置および音声復号化方法
JP2008151958A (ja) * 2006-12-15 2008-07-03 Sharp Corp 信号処理方法、信号処理装置及びプログラム
WO2008108082A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声復号装置および音声復号方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Annex B: a silence compression scheme for use with G.729 optimized for V70 digital simultaneous voice and data applications", IEEE COMMUNICATIONS MAGAZINE, vol. 35, no. 9, 1997, pages 64 - 73
M.R. SCHROEDER; B.S. ATAL: "Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low Bit Rates", IEEE PROC. ICASSP-85, 1985, pages 937 - 940, XP000560465
See also references of EP2869299A4

Also Published As

Publication number Publication date
EP2869299A1 (en) 2015-05-06
KR101629661B1 (ko) 2016-06-13
CN104584123A (zh) 2015-04-29
EP2869299B1 (en) 2021-07-21
CN107945813B (zh) 2021-10-26
CN108053830B (zh) 2021-12-07
CN107945813A (zh) 2018-04-20
ES2881672T3 (es) 2021-11-30
EP2869299A4 (en) 2016-06-01
KR20150032736A (ko) 2015-03-27
JPWO2014034697A1 (ja) 2016-08-08
US20150194163A1 (en) 2015-07-09
PL2869299T3 (pl) 2021-12-13
CN108053830A (zh) 2018-05-18
US9640190B2 (en) 2017-05-02
CN104584123B (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
KR101761629B1 (ko) 오디오 신호 처리 방법 및 장치
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
KR101350285B1 (ko) 신호를 부호화 및 복호화하는 방법, 장치 및 시스템
JP3357795B2 (ja) 音声符号化方法および装置
EP1096476B1 (en) Speech signal decoding
WO2014034697A1 (ja) 復号方法、復号装置、プログラム、及びその記録媒体
JP2006011091A (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPWO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
JP6001451B2 (ja) 符号化装置及び符号化方法
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
KR20080034818A (ko) 부호화/복호화 장치 및 방법
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JPH08272394A (ja) 音声符号化装置
JP2004061558A (ja) 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
JP3598112B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
TW201435862A (zh) 合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式
JP3576805B2 (ja) 音声符号化方法及びシステム並びに音声復号化方法及びシステム
JP3773509B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法
JPH05158496A (ja) 音声符号化方式
JP2005284317A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005284314A (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13832346

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2013832346

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2014533035

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14418328

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20157003110

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE