WO2006046546A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006046546A1
WO2006046546A1 PCT/JP2005/019578 JP2005019578W WO2006046546A1 WO 2006046546 A1 WO2006046546 A1 WO 2006046546A1 JP 2005019578 W JP2005019578 W JP 2005019578W WO 2006046546 A1 WO2006046546 A1 WO 2006046546A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
frame
short
window
unit
Prior art date
Application number
PCT/JP2005/019578
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to BRPI0517513-5A priority Critical patent/BRPI0517513A/pt
Priority to CN200580035271XA priority patent/CN101061533B/zh
Priority to AT05799362T priority patent/ATE537536T1/de
Priority to US11/577,638 priority patent/US8326606B2/en
Priority to JP2006543162A priority patent/JP5100124B2/ja
Priority to EP05799362A priority patent/EP1793372B1/en
Publication of WO2006046546A1 publication Critical patent/WO2006046546A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • the present invention relates to a speech encoding apparatus and speech encoding method.
  • transform coding that transforms a time signal into a frequency domain and codes transform coefficients can efficiently remove redundancy included in the time signal.
  • the transform code ⁇ can realize a code ⁇ in which quantization distortion is hardly perceived even at a low bit rate.
  • MDCT Modified Discrete Cosine Transform
  • analysis frames are arranged and analyzed so that the current analysis frame and the analysis frames before and after it are superimposed.
  • the half of the analysis length of the converted coefficients needs to be the target of the sign key, so that efficient sign key can be obtained by using MDCT.
  • the current frame and the adjacent frame are overlapped and added at the time of synthesis, there is a feature that discontinuity at the frame boundary is unlikely to occur even when different quantization distortion occurs in each frame. .
  • the target signal is multiplied by the analysis window and synthesis window, which are window functions.
  • the portion located at the overlap with the adjacent frame is inclined (slope).
  • the length of this overlapping section (that is, the length of the slope) and the delay force required for buffering the input frame MDCT analysis This corresponds to the length of the delay generated by the Z synthesis. If this delay becomes large in two-way communication, it takes time until the response from the communication partner terminal reaches the terminal itself, and smooth conversation cannot be established. Therefore, the delay should be as short as possible [0005]
  • a conventional MDCT will be described.
  • Non-Patent Document 1 proposes a sin window represented by Equation (2).
  • the sin window is shown in Fig. 1.
  • the spectral characteristics of the sin window can be analyzed with high accuracy because the side lobes are sufficiently attenuated.
  • Non-Patent Document 2 proposes a method of performing MDCT analysis Z synthesis using a window represented by Expression (3) as a window that satisfies the condition of Expression (1).
  • N is the length of the analysis window
  • L is the length of the overlapping section.
  • Figure 2 shows the window represented by Equation (3).
  • the overlap interval is L, so the delay due to this window is expressed as L. Therefore, it is possible to suppress the occurrence of delay by setting the overlapping section L short.
  • Non-patent document 1 Takehiro Moriya, "Speech coding", The Institute of Electronics, Information and Communication Engineers, October 20, 1998, pp.36-38
  • Non-Patent Document 2 M. Iwadare, et al, "A 128 kb / s Hi-Fi Audio CODEC Based on Adaptive Transform Coding with Adaptive Block Size MDCT,” IEEE Journal on Selected Areas in Communications, Vol. 10, No. l, pp.138— ⁇ 44, Jan. 1992.
  • the overlapping interval of adjacent analysis frames becomes the length of 1Z2 of the analysis frame.
  • the analysis frame length is N, so the overlap interval is NZ2. Therefore, on the synthesizing side, in order to synthesize signals located in NZ2 to N-1, signals cannot be synthesized unless the information of the next analysis frame is obtained.
  • MDCT analysis cannot be performed in the next analysis frame until the sample value located at (3NZ2) —1 is obtained, and only after the sample at position (3NZ2) —1 is obtained. MDCT analysis is performed, and it is possible to synthesize signals from NZ2 to N-1 using the conversion coefficient of the analysis frame. Therefore, when using the sin window, a delay of NZ2 length occurs.
  • An object of the present invention is to provide an audio encoding device and an audio encoding method that can suppress a delay amount to a low delay and reduce connection distortion.
  • the speech coding apparatus is a first encoding unit that obtains two types of transform coefficients in the frequency domain by performing MDCT analysis on one frame of a speech signal in the time domain with both a long analysis length and a short analysis length.
  • a configuration comprising an analyzing means and an encoding means for encoding the two kinds of transform coefficients is adopted. The invention's effect
  • the delay amount can be suppressed to a low delay, and the connection distortion can be reduced.
  • FIG. 3 is a block diagram showing a configuration of a speech encoding apparatus and a speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 is a signal state transition diagram of the speech coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 6 shows an analysis window according to the first embodiment of the present invention.
  • FIG. 7 is a block diagram showing the configuration of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 8 is a signal state transition diagram of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 9 is an operation explanatory diagram of the speech coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 10 is a diagram showing an analysis window according to the first embodiment of the present invention.
  • FIG. 11 shows an analysis window according to the first embodiment of the present invention.
  • FIG. 12 shows an analysis window according to Embodiment 2 of the present invention.
  • FIG. 13 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 14 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 2 of the present invention.
  • the speech encoding apparatus includes a frame configuration unit 10, an analysis unit 20, and a transform coefficient encoding unit 30.
  • the speech decoding apparatus also includes a transform coefficient decoding unit 50, a synthesis unit 60, and a frame connection unit 70.
  • the frame configuration unit 10 frames an input speech signal in the time domain.
  • the analysis unit 20 converts the framed time domain audio signal into a frequency domain signal by MDC T analysis.
  • the transform coefficient encoding unit 30 encodes the transform coefficient obtained by the analysis unit 20 and outputs a coding parameter. This code parameter is sent to the speech decoding apparatus via the transmission path.
  • transform coefficient decoding unit 50 decodes the encoding parameter sent via the transmission path.
  • the synthesizer 60 generates a time domain signal from the decoded transform coefficient by MDCT synthesis.
  • the frame connection unit 70 connects the time domain signals so as to prevent discontinuity between adjacent frames! / And outputs a decoded speech signal.
  • FIG. 4 A more detailed configuration of the speech coding apparatus is as shown in FIG. 4, and signal state transitions are as shown in FIG.
  • Signals A to G shown in FIG. 4 correspond to signals A to G shown in FIG.
  • the frame configuration unit 10 determines the analysis frame section for long analysis (long analysis frame) and the analysis frame section for short analysis (short analysis frame). It is done. Then, the frame construction unit 10 outputs the long analysis frame signal B to the windowing unit 211 of the long analysis unit 21 and outputs the short analysis frame signal C to the windowing unit 221 of the short analysis unit 22.
  • the long analysis frame length (long analysis window length) and the short analysis frame length (short analysis window length) are preliminarily determined.
  • the long analysis frame length is Ml and the short analysis frame length is defined. The length of 1 m is assumed to be M2 (M1> M2). Thus, the resulting delay is M2Z2.
  • the windowing unit 211 multiplies the analysis window (analysis window length) Ml long analysis frame signal B by the analysis window, and the signal D multiplied by this analysis window is used as the MDCT unit 212. Output to.
  • the long analysis window shown in Fig. 6 is used as the analysis window.
  • This long analysis window is designed as the analysis length Ml and the overlap section M2Z2 based on Eq. (3).
  • MDCT section 212 performs MDCT on signal D in accordance with equation (4). Then, the MDCT unit 212 outputs the transform coefficient F obtained by the MDCT to the transform coefficient code key unit 30.
  • ⁇ sl (i); 0 ⁇ i ⁇ Ml ⁇ is the time signal included in the long analysis frame
  • ⁇ XI (k) 0 ⁇ k ⁇ MlZ2 ⁇ is the conversion coefficient obtained by the long analysis. Represents F.
  • the windowing unit 221 multiplies the short analysis frame signal C of analysis length (analysis window length) M2 by the analysis window, and the signal E multiplied by this analysis window is MDCT. Output to section 222.
  • the short analysis window shown in Fig. 6 is used as the analysis window.
  • This short analysis window is designed as analysis length M2 (M2 ⁇ M1) based on equation (2).
  • MDCT section 222 performs MDCT on signal E according to equation (5). Then, the MDCT unit 222 outputs the transform coefficient G obtained by this MDCT to the transform coefficient code key unit 30.
  • ⁇ s2 (i); 0 ⁇ i ⁇ M2 ⁇ is the time signal included in the short analysis frame
  • ⁇ X2 (k); 0 ⁇ k ⁇ M2Z2 ⁇ is the conversion obtained by the short analysis. Represents the coefficient G.
  • Transform coefficient sign key unit 30 encodes transform coefficient F: ⁇ XI (k) ⁇ and transform coefficient G: ⁇ X2 (k) ⁇ , and time-multiplexes and outputs the respective encoding parameters. .
  • the conversion coefficient code The sign key unit 30 encodes the transform coefficient ⁇ X2 (k) ⁇ with higher accuracy (smaller quantization error) than the sign y of the transform coefficient ⁇ XI (k) ⁇ .
  • the transform coefficient encoding unit 30 sets the number of sign bits per transform coefficient of the transform coefficient ⁇ X2 (k) ⁇ higher than the number of sign keys per transform coefficient of the transform coefficient ⁇ XI (k) ⁇ .
  • the transform coefficient ⁇ XI (k) ⁇ and the transform coefficient ⁇ X2 (k) ⁇ are encoded. That is, the transform coefficient sign key unit 30 performs sign key that reduces the quantization distortion of the transform coefficient ⁇ X2 (k) ⁇ relative to the transform coefficient ⁇ XI (k) ⁇ .
  • the encoding method described in Japanese Patent Laid-Open No. 2003-323199 can be used as the encoding method in the transform coefficient encoding unit 30.
  • FIG. 7 A more detailed configuration of the speech decoding apparatus is as shown in FIG. 7, and signal state transitions are as shown in FIG. Signals A to I shown in FIG. 7 correspond to signals A to I shown in FIG.
  • the transform coefficient decoding unit 50 receives the decoded transform coefficient (length analysis) ⁇ Xlq (k); 0 ⁇ k ⁇ Ml / 2 ⁇ : A and decoding transform coefficient (short analysis) ⁇ X2q (k); 0 ⁇ k ⁇ M2Z2 ⁇ : B is decoded.
  • the transform coefficient decoding unit 50 outputs the decoded transform coefficient ⁇ Xlq (k) ⁇ : A to the IMDCT unit 611 of the long synthesis unit 61, and the decoded transform coefficient ⁇ X2q (k) ⁇ : B is a short synthesis. Output to IMDCT part 621 of part 62.
  • the IMDCT unit 611 performs IMDCT (inverse conversion of MDCT performed in the MDCT unit 212) on the decoded transform coefficient ⁇ Xlq (k) ⁇ to generate a long synthesized signal C.
  • the long composite signal C is output to the windowing unit 612.
  • the windowing unit 612 multiplies the long composite signal C by a composite window and outputs a signal E multiplied by the composite window to the intra-frame connection unit 71.
  • the long analysis window shown in FIG.
  • the IMDCT unit 621 performs IM DCT (inverse transformation of MDCT performed in the MDCT unit 222) on the decoded transform coefficient ⁇ X2q (k) ⁇ to generate a short synthesis signal D And the short composite signal D is output to the windowing unit 622.
  • IM DCT inverse transformation of MDCT performed in the MDCT unit 222
  • the windowing unit 622 multiplies the short synthesized signal D by a synthesis window, and outputs a signal F multiplied by the synthesis window to the intra-frame connection unit 71.
  • the short analysis window shown in FIG. 6 is used for the synthesis window, similar to the windowing section 221 of the speech encoding apparatus.
  • the n-th frame decoded signal G is generated by the intra-frame connecting unit 71, and then the n-th frame decoded signal G and the n-1th frame are decoded by the inter-frame connecting unit 73.
  • the corresponding sections of signal H are superimposed and added to generate a decoded speech signal.
  • in-frame connection section 71 generates a decoded signal ⁇ sq (i); 0 ⁇ i ⁇ Ml ⁇ : G of the nth frame by superimposing and adding corresponding sections of signal E and signal F.
  • the interframe connection unit 73 superimposes and adds the corresponding sections of the decoded signal G of the nth frame and the decoded signal H of the (n ⁇ 1) th frame buffered in the buffer 72! Generate I. Thereafter, the decoded signal G of the nth frame is stored in the notifier 72 for processing of the next frame (n + 1 frame).
  • FIG. 9 shows the correspondence between each frame of the audio signal and the analysis position in the analysis unit 20.
  • the analysis of the audio signal in one frame interval (the unit that generates the sign key parameter) is always performed by combining the long analysis and the short analysis even for the V deviation frame. Done.
  • MDCT analysis is performed with a combination of long, analysis length (long analysis) and short !, analysis length (short analysis), and the conversion coefficient obtained by short analysis is quantized.
  • the quantization error it is possible to remove the redundancy efficiently by increasing the analysis length with a short delay, and to reduce the quantization distortion of the transform coefficient of the short analysis. can do. Therefore, the delay amount can be suppressed to a low delay of M2Z2, and the connection distortion can be reduced.
  • the short analysis window is arranged behind the long analysis window in FIG. 6, but for example, as shown in FIG.
  • the long analysis window may be arranged behind the short analysis window in terms of time. Even with the arrangement as shown in FIG. 10, as in the arrangement shown in FIG. 6, the delay amount can be suppressed to a low delay and the connection distortion can be reduced.
  • the short analysis window is designed based on Equation (2), but the relationship between the analysis length M2 of the short analysis window and the analysis length Ml of the long analysis window is M2 ⁇ Ml. If so, the window represented by Equation (3) may be used as the short analysis window. In other words, a window designed as analysis length M2 based on equation (3) may be used as the short analysis window. An example of this is shown in FIG. Of such an analysis window Also in the configuration, the delay amount can be suppressed to a low delay, and the connection distortion can be reduced.
  • the speech signal input to the speech coder is a word head or a transition part whose characteristics change abruptly, time resolution rather than frequency resolution is required.
  • time resolution rather than frequency resolution is required.
  • the voice quality is improved when all analysis frames are analyzed by the short analysis frame.
  • the MDCT analysis performed for each frame is performed according to the characteristics of the input speech signal.
  • a mode in which long analysis and short analysis are combined (long / short mixed analysis mode)
  • (2) and (2) Switch between the short analysis multiple times mode (all short analysis mode).
  • Figure 12 shows an example of the analysis Z composition window used for each frame in full short analysis mode.
  • the long / short mixed analysis mode is as described in the first embodiment.
  • FIG. 13 shows the configuration of the speech coding apparatus according to Embodiment 2 of the present invention.
  • the speech coding apparatus according to the present embodiment further includes a determination unit 15, a multiplexing unit 35, a SW (switch) 11, and a SW12 in addition to the configuration of the first embodiment (FIG. 4).
  • a determination unit 15 the same components as those in FIG.
  • a multiplexing unit 35 the same components as those in FIG. Note that the output from the frame construction unit 10 to the analysis unit 20 and the output from the analysis unit 20 to the transform coefficient code unit 30 are actually performed in parallel as shown in FIG. It shall be indicated by one signal line.
  • the determination unit 15 analyzes the input audio signal and determines the characteristics of the signal.
  • the characteristic determination the temporal change in the feature value of the audio signal is monitored, and when the change amount is less than a predetermined amount, it is determined as a stationary part, and when the change amount exceeds a predetermined amount, it is determined as an unsteady part.
  • the feature amount of the audio signal include short section power and short section spectrum.
  • the determination unit 15 switches the analysis mode of the MDCT analysis between the long / short mixed analysis mode and the all short analysis mode according to the determination result. That is, when the input audio signal is a stationary part, the determination unit 15 connects SW11 and SW12 to the analysis unit 20 side, and performs MDCT analysis in the long / short mixed analysis mode using the analysis unit 20. On the other hand, if the input audio signal is an unsteady part, connect SW11 and SW12 to the short analysis part 25 side. The MDCT analysis is performed in the full-short analysis mode using the full-short analysis unit 25. By this switching, the frame of the audio signal is analyzed by a combination of the long analysis and the short analysis as in the first embodiment when it is a stationary part, and the short analysis is repeated a plurality of times when it is an unsteady part. Done.
  • the full-short analysis unit 25 uses the analysis window represented by the equation (2) when the analysis window length is M2, and the equation ( The analysis is performed by MDCT shown in 5).
  • the determination unit 15 encodes determination information indicating whether it is a stationary part or an unsteady part and outputs it to the multiplexing unit 35. This determination information is multiplexed by the multiplexing unit 35 and multiplexed with the coding parameter output from the transform coefficient coding unit 30.
  • FIG. 14 shows the configuration of the speech decoding apparatus according to Embodiment 2 of the present invention.
  • the speech decoding apparatus according to the present embodiment further includes a separation unit 45, a decision information decoding unit 55, an all-short combining unit 65, SW21, in addition to the configuration of Embodiment 1 (FIG. 7). SW22 is provided.
  • FIG. 14 the same components as those in FIG. Note that the output from the transform coefficient decoding unit 50 to the combining unit 60 and the output from the combining unit 60 to the intra-frame connecting unit 71 are actually forces performed in parallel as shown in FIG. For the sake of convenience, it shall be indicated by one signal line.
  • Separating section 45 separates the input code parameter into an encoding parameter representing determination information and an encoding parameter representing a transform coefficient, and each of determination information decoding section 55 and transform coefficient decoding key Output to part 50.
  • the determination information decoding unit 55 decodes the input determination information. Then, when the determination information indicates a stationary part, the determination information decoding unit 55 connects SW21 and SW22 to the combining unit 60 side, and generates a combined signal using the combining unit 60. Note that the generation of the synthesized signal using the synthesizer 60 is as described in the first embodiment. On the other hand, when the determination information indicates an unsteady part, SW21 and SW22 are connected to the all-short synthesizer 65 side, and a synthesized signal is generated using the all-short synthesizer 65. The all-short combining unit 65 performs IMDCT processing on each of a plurality of decoding transform coefficients (short analysis) in one frame to generate a combined signal.
  • the input audio signal in one frame, is stable at the stationary part. If the input audio signal is an unsteady part (when the input audio signal changes rapidly), the audio signal of that frame is analyzed. Since all analysis is performed in a short analysis and the time resolution is improved, optimal MDCT analysis can be performed according to the characteristics of the input audio signal, and the audio quality can be kept good even when the characteristics of the input audio signal change. Can do.
  • the overlapping section in the long / short mixed analysis mode and the overlapping section in the all short analysis mode are made the same.
  • transitions such as LONG—START—WINDOW or LONG_STOP_WINDOW described in ISO / IEC IS 13818-7
  • Information technology ——Generic coding of moving pictures and associated audio information—-Part 7: Advanced Audio Coding (AAC)
  • each of the above embodiments can be applied to an extended layer of a hierarchical code with two or more layers.
  • the speech encoding apparatus and speech decoding apparatus are mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus or a wireless communication base station apparatus used in a mobile communication system. It is also possible.
  • Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI non-linear LSI depending on the difference in the power integration level of LSI.
  • the method of circuit integration is not limited to LSI, but is a dedicated circuit or general-purpose processor. It may be realized with. You may use an FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the present invention can be applied to the use of a communication device in a mobile communication system, a packet communication system using the Internet protocol, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

 遅延量を低遅延に抑え、かつ、接続歪を緩和することができる音声符号化装置。この装置では、長分析部(21)において、窓掛け部(211)が、分析長M1の長分析フレーム信号に対して分析窓を乗じ、この分析窓を乗じた信号をMDCT部(212)に出力し、MDCT部(212)が、入力された信号にMDCTを施して長分析フレームの変換係数を得て変換係数符号化部(30)に出力する。一方、短分析部(22)では、窓掛け部(221)が、分析長M2(M2<M1)の短分析フレーム信号に対して分析窓を乗じ、この分析窓を乗じた信号をMDCT部(222)に出力し、MDCT部(222)が、入力された信号にMDCTを施して短分析フレームの変換係数を得て変換係数符号化部(30)に出力する。変換係数符号化部(30)は、これらの変換係数を符号化して出力する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関する。
背景技術
[0002] 音声符号化にお!ヽて、時間信号を周波数領域に変換し変換係数を符号ィ匕する変 換符号化は、時間信号に含まれる冗長性を効率的に除去できる。また、変換符号ィ匕 では、周波数領域で表される人間の聴覚特性を利用することにより、低ビットレートに しても量子化歪が知覚され難い符号ィ匕を実現することが可能である。
[0003] 近年の変換符号化には、重ね合わせ直交変換 (LOT; Lapped Orthogonal Transfer m)と呼ばれる変換技術が利用されることが多い。これは、ブロック内だけの直交性だ けでなく、隣り合うブロックとの直交性を考慮した直交基底に基づき変換を行うもので あり、その代表的な手法として MDCT (Modified Discrete Cosine Transform)が挙げ られる。 MDCTでは現分析フレームとその前後の分析フレームとを重ね合わせるよう にして分析フレームを配置し分析を行う。この際、変換後の係数のうち、分析長の半 分の係数のみを符号ィ匕の対象とすればよいため、 MDCTを用いることにより効率的 な符号ィ匕が行える。また、合成時には現フレームと隣接するフレームとを重ね合わせ 加算するため、フレーム毎に異なる量子化歪が発生する状況においてもフレーム境 界での不連続が発生しにく ヽと 、う特徴がある。
[0004] 通常、 MDCTによる分析 Z合成を行う際には窓関数である分析窓および合成窓を それぞれ対象信号に乗じる。このとき用いる分析窓/合成窓は、隣接フレームとの重 ね合わせに位置する部分が傾斜 (スロープ)して 、る。この重ね合わせ区間の長さ( つまり、スロープの長さ)と入力フレームのバッファリングに必要な遅延力 MDCT分 析 Z合成により発生する遅延の長さに相当する。双方向通信においてこの遅延が大 きくなると、通信相手端末からのレスポンスが自端末に届くまでに時間が力かってしま い、円滑な会話が成り立たなくなる。そのため、遅延はできるだけ短いことが望ましい [0005] 以下、従来の MDCTについて説明する。
[0006] MDCTに使用される分析窓 Z合成窓は、式(1)で表される条件を満たす場合に完 全再構成 (量子化歪がない前提で変換による歪が 0になる)を実現する。
(0 · ^ ( + ^ + ) - ( + N/2) = 1
(0≤ / < N) 式(1)の条件を満たす代表的な窓として、非特許文献 1では、式 (2)で表される sin 窓が提案されている。また、この sin窓を図示すると図 1のようになる。このような sin窓 を用いる場合、 sin窓のスペクトル特性はサイドローブが十分に減衰されるため、精度 よくスペクトルを分析することが可能である。
Figure imgf000004_0001
また、非特許文献 2では、式(1)の条件を満たす窓として式 (3)で表される窓を用い て MDCT分析 Z合成を行う方法が提案されている。ここで、 Nは分析窓の長さ、 Lは 重ね合わせ区間の長さを示している。また、式(3)で表される窓を図示すると図 2のよ うになる。このような窓を用いた場合、重ね合わせ区間が Lとなるため、この窓による 遅延は Lと表される。よって、重ね合わせ区間 Lを短く設定することにより遅延の発生 を抑制することが可能になる。
( 3 )
Figure imgf000005_0001
非特許文献 1 :守谷健弘著、「音声符号化」、(社)電子情報通信学会、 1998年 10月 20 日、 pp.36- 38
非特許文献 2 : M. Iwadare, et al, "A 128 kb/s Hi-Fi Audio CODEC Based on Adap tive Transform Coding with Adaptive Block Size MDCT," IEEE Journal on Selected Areas in Communications, Vol. 10, No.l, pp.138—丄 44, Jan. 1992.
発明の開示
発明が解決しょうとする課題
[0009] 式(2)で表される sin窓を用いると、図 1に示すように、隣接する分析フレームの重ね 合わせ区間が分析フレームの 1Z2の長さになる。この例では、分析フレーム長が N であるので、重ね合わせ区間は NZ2となる。よって、合成側では、 NZ2〜N— 1に 位置する信号を合成するには次の分析フレームの情報が得られなければ信号を合 成することができない。つまり、(3NZ2)— 1に位置するサンプル値が得られるまで 次の分析フレームで MDCT分析を行うことができず、(3NZ2)— 1の位置のサンプ ルが得られて初めて次の分析フレームで MDCT分析が行われ、その分析フレーム の変換係数を用いて NZ2〜N—1の信号を合成することが可能になる。従って、 sin 窓を用いる場合には、 NZ2の長さの遅延が発生することになる。
[0010] 一方、式(3)で表される窓を用いると、重ね合わせ区間 Lが短いためにフレーム間 の不連続が生じやす ヽ。現分析フレームと次分析フレーム各々で MDCT分析を行 い、その変換係数を量子化する場合、各々独立に量子化が行われるため、現分析フ レームと次分析フレームとではそれぞれ異なる量子化歪が発生する。量子化歪が付 加された変換係数を時間領域に逆変換すると、その時間信号には合成フレーム全体 にわたつて量子化歪が付加されることになる。つまり、現合成フレームの量子化歪と 次の合成フレームの量子化歪は無相関に発生する。そのため、重ね合わせ区間が 短い場合、合成フレーム間の隣接部分において、量子化歪に起因する復号信号の 不連続性が十分に吸収できず、フレーム間の接続歪が知覚されてしまう。この傾向は 、重ね合わせ区間 Lを短くするほどに顕著に発生する。
[0011] 本発明の目的は、遅延量を低遅延に抑え、かつ、接続歪を緩和することができる音 声符号化装置および音声符号化方法を提供することである。
課題を解決するための手段
[0012] 本発明の音声符号化装置は、時間領域の音声信号の 1フレームを長い分析長と短 い分析長の双方で MDCT分析して、周波数領域の 2種の変換係数を得る第 1の分 析手段と、前記 2種の変換係数を符号化する符号化手段と、を具備する構成を採る。 発明の効果
[0013] 本発明によれば、遅延量を低遅延に抑え、かつ、接続歪を緩和することができる。
図面の簡単な説明
[0014] [図 1]従来の分析窓を示す図
[図 2]従来の分析窓を示す図
[図 3]本発明の実施の形態 1に係る音声符号化装置および音声復号化装置の構成 を示すブロック図
[図 4]本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図
[図 5]本発明の実施の形態 1に係る音声符号化装置の信号状態遷移図
[図 6]本発明の実施の形態 1に係る分析窓を示す図
[図 7]本発明の実施の形態 1に係る音声復号ィ匕装置の構成を示すブロック図
[図 8]本発明の実施の形態 1に係る音声復号化装置の信号状態遷移図
[図 9]本発明の実施の形態 1に係る音声符号化装置の動作説明図
[図 10]本発明の実施の形態 1に係る分析窓を示す図
[図 11]本発明の実施の形態 1に係る分析窓を示す図 [図 12]本発明の実施の形態 2に係る分析窓を示す図
[図 13]本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図
[図 14]本発明の実施の形態 2に係る音声復号ィ匕装置の構成を示すブロック図 発明を実施するための最良の形態
[0015] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0016] (実施の形態 1)
本発明の実施の形態 1に係る音声符号化装置および音声復号化装置の構成は図 3に示すようになる。この図に示すように、音声符号化装置は、フレーム構成部 10、 分析部 20、変換係数符号化部 30を備える。また、音声復号化装置は、変換係数復 号化部 50、合成部 60、フレーム接続部 70を備える。
[0017] 音声符号化装置において、フレーム構成部 10は、入力される時間領域の音声信 号をフレーム化する。分析部 20は、フレーム化された時間領域の音声信号を MDC T分析により周波数領域信号に変換する。変換係数符号化部 30は、分析部 20によ り得られた変換係数を符号化し符号化パラメータを出力する。この符号ィ匕パラメータ は、伝送路を介して音声復号化装置へ送られる。
[0018] 音声復号化装置において、変換係数復号ィ匕部 50は、伝送路を介して送られてきた 符号化パラメータを復号する。合成部 60は、復号された変換係数から MDCT合成 により時間領域信号を生成する。フレーム接続部 70は、隣接するフレーム間で不連 続が生じな!/、ように時間領域信号を接続して復号音声信号を出力する。
[0019] 次いで、音声符号化装置についてより詳細に説明する。音声符号化装置のより詳 細な構成は図 4に示すようになり、信号の状態遷移は図 5に示すようになる。なお、図 4に示す信号 A〜Gは、図 5に示す信号 A〜Gにそれぞれ対応する。
[0020] フレーム構成部 10に音声信号 Aが入力されると、フレーム構成部 10にて長分析用 の分析フレーム区間 (長分析フレーム)および短分析用の分析フレーム区間 (短分析 フレーム)が定められる。そして、フレーム構成部 10は、長分析フレーム信号 Bを長分 析部 21の窓掛け部 211に出力し、短分析フレーム信号 Cを短分析部 22の窓掛け部 221に出力する。なお、長分析フレーム長 (長分析窓長)と短分析フレーム長 (短分 析窓長)はあら力じめ定められており、ここでは長分析フレーム長を Ml、短分析フレ 一ム長を M2 (M1 >M2)として説明する。よって、生じる遅延は、 M2Z2となる。
[0021] 長分析部 21では、窓掛け部 211が、分析長 (分析窓長) Mlの長分析フレーム信 号 Bに対して分析窓を乗じ、この分析窓を乗じた信号 Dを MDCT部 212に出力する 。分析窓には、図 6に示す長分析窓を用いる。この長分析窓は、式 (3)を基に、分析 長 Ml、重ね合わせ区間 M2Z2として設計したものである。
[0022] MDCT部 212は、式(4)に従って信号 Dに対して MDCTを施す。そして、 MDCT 部 212は、この MDCTにより得られる変換係数 Fを変換係数符号ィ匕部 30に出力する 。なお、式 (4)において、 {sl (i) ; 0≤i< Ml }は長分析フレームに含まれる時間信号 、 {XI (k) ;0≤k<MlZ2}は長分析により得られる変換係数 Fを表す。
Figure imgf000008_0001
[0023] 一方、短分析部 22では、窓掛け部 221が、分析長 (分析窓長) M2の短分析フレー ム信号 Cに対して分析窓を乗じ、この分析窓を乗じた信号 Eを MDCT部 222に出力 する。分析窓には、図 6に示す短分析窓を用いる。この短分析窓は、式 (2)を基に、 分析長 M2 (M2< M1)として設計したものである。
[0024] MDCT部 222は、式(5)に従って信号 Eに対して MDCTを施す。そして、 MDCT 部 222は、この MDCTにより得られる変換係数 Gを変換係数符号ィ匕部 30に出力す る。なお、式(5)において、 {s2 (i) ; 0≤i< M2}は短分析フレームに含まれる時間信 号、 {X2 (k) ; 0≤k< M2Z2}は短分析により得られる変換係数 Gを表す。
[数 5] ,
■·· 5
Figure imgf000008_0002
[0025] 変換係数符号ィ匕部 30は、変換係数 F : {XI (k) }および変換係数 G : {X2 (k) }を符 号化し、それぞれの符号化パラメータを時間多重して出力する。この際、変換係数符 号ィ匕部 30は、変換係数 {X2 (k) }に対し、変換係数 {XI (k) }の符号ィ匕に比べより精 度の高い (より量子化誤差の小さい)符号化を行う。例えば、変換係数符号化部 30は 、変換係数 {X2 (k) }の変換係数当りの符号ィ匕ビット数を変換係数 {XI (k) }の変換 係数当りの符号ィ匕ビット数より高く設定して、変換係数 {XI (k) }および変換係数 {X2 (k) }を符号化する。すなわち、変換係数符号ィ匕部 30では、変換係数 {XI (k) }に比 ベ変換係数 {X2 (k) }の量子化歪みが小さくなる符号ィ匕を行う。なお、変換係数符号 化部 30での符号ィ匕方法は、例えば特開 2003— 323199号公報に記載された符号 化方法等を用いることができる。
[0026] 次いで、音声復号化装置についてより詳細に説明する。音声復号化装置のより詳 細な構成は図 7に示すようになり、信号の状態遷移は図 8に示すようになる。なお、図 7に示す信号 A〜Iは、図 8に示す信号 A〜Iにそれぞれ対応する。
[0027] 変換係数復号ィ匕部 50に符号ィ匕パラメータが入力されると、変換係数復号ィ匕部 50 にて復号変換係数 (長分析) {Xlq (k) ;0≤k< Ml/2}: Aと復号変換係数 (短分析) {X2q (k) ;0≤k< M2Z2} : Bとが復号される。そして、変換係数復号ィ匕部 50は、復 号変換係数 {Xlq (k) }: Aを長合成部 61の IMDCT部 611に出力し、復号変換係数 {X2q (k) } : Bを短合成部 62の IMDCT部 621に出力する。
[0028] 長合成部 61では、 IMDCT部 611が、復号変換係数 {Xlq (k) }に対して IMDCT( MDCT部 212で行われた MDCTの逆変換)を行って長合成信号 Cを生成し、この 長合成信号 Cを窓掛け部 612に出力する。
[0029] 窓掛け部 612は、長合成信号 Cに対して合成窓を乗じ、この合成窓を乗じた信号 E をフレーム内接続部 71に出力する。合成窓には、音声符号化装置の窓掛け部 211 同様、図 6に示す長分析窓を用いる。
[0030] 一方、短合成部 62では、 IMDCT部 621が、復号変換係数 {X2q (k) }に対して IM DCT (MDCT部 222で行われた MDCTの逆変換)を行って短合成信号 Dを生成し 、この短合成信号 Dを窓掛け部 622に出力する。
[0031] 窓掛け部 622は、短合成信号 Dに対して合成窓を乗じ、この合成窓を乗じた信号 F をフレーム内接続部 71に出力する。合成窓には、音声符号化装置の窓掛け部 221 同様、図 6に示す短分析窓を用いる。 [0032] そして、フレーム内接続部 71にて第 nフレームの復号信号 Gを生成し、次に、フレ ーム間接続部 73にて第 nフレームの復号信号 Gと第 n—1フレームの復号信号 Hの 対応する区間を重ね合わせ加算して復号音声信号を生成する。すなわち、フレーム 内接続部 71では、信号 Eと信号 Fの対応する区間を重ね合わせ加算して第 nフレー ムの復号信号 {sq (i) ;0≤i< Ml } : Gを生成する。そして、フレーム間接続部 73では 、第 nフレームの復号信号 Gとバッファ 72にバッファリングされて!/、る第 n— 1フレーム の復号信号 Hの対応する区間を重ね合わせ加算して復号音声信号 Iを生成する。そ の後、第 nフレームの復号信号 Gは、次フレーム(第 n+ 1フレーム)の処理のために ノ ッファ 72に格納される。
[0033] 次いで、図 9に、音声信号の各フレームと分析部 20での分析位置の対応関係を示 す。図 9に示すように、本実施の形態では、 1フレーム区間 (符号ィ匕パラメータを生成 する単位)の音声信号の分析は、 Vヽずれのフレームも必ず長分析と短分析の組み合 わせにより行われる。
[0034] このように、本実施の形態では、 MDCT分析を長 、分析長 (長分析)と短!、分析長( 短分析)の組み合わせで行い、かつ、短分析により得られる変換係数の量子化誤差 が小さくなるように符号ィ匕処理を行うため、遅延が短い状態で分析長を長くとって冗 長性を効率的に取り除くことができるとともに、短分析の変換係数の量子化歪を小さく することができる。よって、遅延量を M2Z2という低遅延に抑え、かつ、接続歪を緩和 することができる。
[0035] なお、 1フレーム区間における長分析窓と短分析窓の配置について、図 6では短分 析窓を長分析窓より時間的に後方に配置するようにしているが、例えば図 10に示す ように、長分析窓を短分析窓より時間的に後方に配置するようにしてもよい。図 10に 示すような配置にしても、図 6に示す配置と同様に、遅延量を低遅延に抑え、かつ、 接続歪を緩和することができる。
[0036] また、本実施の形態では、短分析窓を式 (2)を基に設計したが、短分析窓の分析 長 M2と長分析窓の分析長 Mlとの関係が M2< Mlとなっていれば、式(3)で表さ れる窓を短分析窓として用いてもよい。つまり、式 (3)を基に、分析長 M2として設計 した窓を短分析窓として用いてもよい。この一例を図 11に示す。このような分析窓の 構成においても、遅延量を低遅延に抑え、かつ、接続歪を緩和することができる。
[0037] (実施の形態 2)
音声符号化装置に入力される音声信号が語頭部や、特性が急激に変化する遷移 部である場合、周波数分解能よりもむしろ時間分解能が必要とされる。そのような音 声信号に対しては、分析フレームが全て短分析フレームにより分析される方が音声 品質が向上する。
[0038] そこで、本実施の形態では、各フレームに対して行う MDCT分析を、入力音声信 号の特性に応じて、(1)長分析と短分析の組み合わせで行うモード (長短混合分析モ ード)と (2)短分析を繰り返し複数回行うモード (全短分析モード)とで切り替えて行う。 全短分析モードのときに各フレームに対して使用する分析 Z合成窓の例を図 12に 示す。なお、長短混合分析モードについては、実施の形態 1で説明したとおりである
[0039] 本発明の実施の形態 2に係る音声符号化装置の構成を図 13に示す。この図に示 すように、本実施の形態に係る音声符号化装置は、実施の形態 1の構成(図 4)にさら に判定部 15、多重化部 35、 SW (スィッチ) 11、 SW12を備える。図 13において図 4 と同一の構成には同一符号を付して説明を省略する。なお、フレーム構成部 10から 分析部 20への出力および分析部 20から変換係数符号ィ匕部 30への出力は実際に は図 4に示すように並列的に行われるが、ここでは図示の便宜上 1本の信号線で示 すものとする。
[0040] 判定部 15は、入力音声信号を分析して信号の特性を判定する。特性判定では、音 声信号の特徴量の時間的な変化を監視し、その変化量が所定量未満の場合には定 常部、所定量以上の場合には非定常部であると判定する。音声信号の特徴量として は、例えば、短区間パワー、短区間スペクトルなどが挙げられる。
[0041] そして、判定部 15は、判定結果に応じて MDCT分析の分析モードを長短混合分 析モードと全短分析モードとで切り替える。すなわち、判定部 15は、入力された音声 信号が定常部である場合は、 SW11および SW12を分析部 20側に接続して、分析 部 20を使用して長短混合分析モードで MDCT分析を行う。一方、入力された音声 信号が非定常部である場合は、 SW11および SW12を全短分析部 25側に接続して 、全短分析部 25を使用して全短分析モードで MDCT分析を行う。この切替えにより 、音声信号のフレームは、定常部である場合には実施の形態 1のように長分析と短分 祈の組み合わせで分析され、非定常部である場合には短分析を繰り返し複数回行 われる。
[0042] 判定部 15により全短分析モードが選択された場合には、全短分析部 25は、分析 窓長を M2としたときの式(2)で表される分析窓を用い、式(5)に示される MDCTに より分析を行う。
[0043] また、判定部 15は、定常部であるか非定常部であるかを示す判定情報を符号化し て多重化部 35に出力する。この判定情報は、多重化部 35により、変換係数符号ィ匕 部 30から出力される符号化パラメータと多重されて出力される。
[0044] 一方、本発明の実施の形態 2に係る音声復号化装置の構成を図 14に示す。この図 に示すように、本実施の形態に係る音声復号化装置は、実施の形態 1の構成(図 7) にさらに分離部 45、判定情報復号化部 55、全短合成部 65、 SW21、 SW22を備え る。図 14において図 7と同一の構成には同一符号を付して説明を省略する。なお、 変換係数復号ィ匕部 50から合成部 60への出力および合成部 60からフレーム内接続 部 71への出力は実際には図 7に示すように並列的に行われる力 ここでは図示の便 宜上 1本の信号線で示すものとする。
[0045] 分離部 45は、入力される符号ィ匕パラメータを判定情報を表す符号化パラメータと変 換係数を表す符号化パラメータに分離し、それぞれ判定情報復号化部 55と変換係 数復号ィ匕部 50に出力する。
[0046] 判定情報復号化部 55は、入力された判定情報を復号する。そして、判定情報復号 化部 55は、判定情報が定常部を示す場合は、 SW21および SW22を合成部 60側に 接続して、合成部 60を使用して合成信号を生成する。なお、合成部 60を使用した合 成信号の生成については、実施の形態 1で説明したとおりである。一方、判定情報が 非定常部を示す場合は、 SW21および SW22を全短合成部 65側に接続して、全短 合成部 65を使用して合成信号を生成する。全短合成部 65は、 1フレームにおける複 数の復号変換係数 (短分析)それぞれに IMDCT処理を施して合成信号を生成する。
[0047] このように、本実施の形態では、 1フレームにおいて、入力音声信号が定常部で安 定している場合はそのフレームの音声信号を長分析および短分析の組合せで分析 し、入力音声信号が非定常部である場合 (入力音声信号が急激に変化する場合)は そのフレームの音声信号を全て短分析で分析して時間分解能を上げるため、入力音 声信号の特性に応じて最適な MDCT分析を行うことができ、入力音声信号の特性が 変化する場合でも音声品質を良好に保つことができる。
[0048] また、本実施の形態では、長短混合分析モードの重ね合わせ区間と全短分析モー ドの重ね合わせ区間を同一にする。よって、例えば ISO/IEC IS 13818-7 Information technology—― Generic coding of moving pictures and associated audio information― - Part 7: Advanced Audio Coding (AAC)に記載されている LONG— START— WINDOW または LONG_STOP_WINDOWのような遷移用の分析フレームを用いる必要がない。
[0049] また、長短混合分析モードか全短分析モードかを判定する別の方法として、次フレ ームとの接続部に位置する信号の原信号に対する SNRの大きさによって判定する 方法が挙げられる。この判定方法を用いることにより、接続部の SNRによって次フレ ームの分析モードを決定することができるため、分析モードの誤判定を減らすことが できる。
[0050] なお、上記各実施形態は、レイヤ数が 2以上の階層符号ィ匕の拡張レイヤに対して 適用可能である。
[0051] また、上記各実施の形態に係る音声符号化装置、音声復号化装置を、移動体通信 システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線 通信装置に搭載することも可能である。
[0052] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説 明したが、本発明はソフトウェアで実現することも可能である。
[0053] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを 含むように 1チップィ匕されてもょ 、。
[0054] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0055] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもよい。
[0056] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0057] 本明細書は、 2004年 10月 26日出願の特願 2004— 311143に基づくものである
。この内容はすべてここに含めておく。
産業上の利用可能性
[0058] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] 時間領域の音声信号の 1フレームを長 ヽ分析長と短!ヽ分析長の双方で MDCT分 祈して、周波数領域の 2種の変換係数を得る第 1の分析手段と、
前記 2種の変換係数を符号化する符号化手段と、
を具備する音声符号化装置。
[2] 前記符号化手段は、前記長い分析長により得られる第 1の変換係数に対する符号 化に比べより精度の高い符号ィ匕を前記短い分析長により得られる第 2の変換係数に 対して行う、
請求項 1記載の音声符号化装置。
[3] 前記音声信号が定常部または非定常部のいずれであるかを判定する判定手段と、 非定常部である場合に、前記 1フレームを前記短い分析長で繰り返し複数回 MDC T分析する第 2の分析手段と、
をさらに具備する請求項 1記載の音声符号化装置。
[4] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。
[5] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。
[6] 時間領域の音声信号の 1フレームを長 ヽ分析長と短!ヽ分析長の双方で MDCT分 祈して、周波数領域の 2種の変換係数を得る分析工程と、
前記 2種の変換係数を符号化する符号化工程と、
を具備する音声符号化方法。
PCT/JP2005/019578 2004-10-26 2005-10-25 音声符号化装置および音声符号化方法 WO2006046546A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
BRPI0517513-5A BRPI0517513A (pt) 2004-10-26 2005-10-25 aparelho de codificação de som e processo de sua realização
CN200580035271XA CN101061533B (zh) 2004-10-26 2005-10-25 语音编码装置和语音编码方法
AT05799362T ATE537536T1 (de) 2004-10-26 2005-10-25 Sprachkodierungsvorrichtung und sprachkodierungsverfahren
US11/577,638 US8326606B2 (en) 2004-10-26 2005-10-25 Sound encoding device and sound encoding method
JP2006543162A JP5100124B2 (ja) 2004-10-26 2005-10-25 音声符号化装置および音声符号化方法
EP05799362A EP1793372B1 (en) 2004-10-26 2005-10-25 Speech encoding apparatus and speech encoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004311143 2004-10-26
JP2004-311143 2004-10-26

Publications (1)

Publication Number Publication Date
WO2006046546A1 true WO2006046546A1 (ja) 2006-05-04

Family

ID=36227786

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019578 WO2006046546A1 (ja) 2004-10-26 2005-10-25 音声符号化装置および音声符号化方法

Country Status (8)

Country Link
US (1) US8326606B2 (ja)
EP (1) EP1793372B1 (ja)
JP (1) JP5100124B2 (ja)
KR (1) KR20070068424A (ja)
CN (1) CN101061533B (ja)
AT (1) ATE537536T1 (ja)
BR (1) BRPI0517513A (ja)
WO (1) WO2006046546A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016945A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems and methods for modifying a window with a frame associated with an audio signal
JP2010538315A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 過渡状態検出器およびオーディオ信号の符号化を支援する方法
WO2011013983A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2013210656A (ja) * 2006-10-18 2013-10-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandte Forschung E V 合成フィルターバンク、フィルタリング方法及びコンピュータプログラム
JP2016513283A (ja) * 2013-02-20 2016-05-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチオーバーラップ部分を使用して符号化済み信号を生成し又は符号化済みオーディオ信号を復号化するための装置及び方法
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1793372B1 (en) * 2004-10-26 2011-12-14 Panasonic Corporation Speech encoding apparatus and speech encoding method
KR20080049085A (ko) 2005-09-30 2008-06-03 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
JP5173800B2 (ja) * 2006-04-27 2013-04-03 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
EP2101322B1 (en) * 2006-12-15 2018-02-21 III Holdings 12, LLC Encoding device, decoding device, and method thereof
WO2009047675A2 (en) * 2007-10-10 2009-04-16 Koninklijke Philips Electronics N.V. Encoding and decoding of an audio signal
CN101604983B (zh) * 2008-06-12 2013-04-24 华为技术有限公司 编解码装置、***及其方法
KR101250309B1 (ko) * 2008-07-11 2013-04-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
EP3373297B1 (en) * 2008-09-18 2023-12-06 Electronics and Telecommunications Research Institute Decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder
WO2011047887A1 (en) 2009-10-21 2011-04-28 Dolby International Ab Oversampling in a combined transposer filter bank
CN102243872A (zh) * 2010-05-10 2011-11-16 炬力集成电路设计有限公司 对音频数字信号进行编码、解码的方法及***
CN103229235B (zh) * 2010-11-24 2015-12-09 Lg电子株式会社 语音信号编码方法和语音信号解码方法
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US9548061B2 (en) 2011-11-30 2017-01-17 Dolby International Ab Audio encoder with parallel architecture
KR101390551B1 (ko) * 2012-09-24 2014-04-30 충북대학교 산학협력단 저 지연 변형된 이산 코사인 변환 방법
KR20140075466A (ko) * 2012-12-11 2014-06-19 삼성전자주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
KR20180081504A (ko) * 2015-11-09 2018-07-16 소니 주식회사 디코드 장치, 디코드 방법, 및 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268608A (ja) * 1993-03-11 1994-09-22 Sony Corp 圧縮データ記録及び/又は再生若しくは伝送及び/又は受信装置、圧縮データの圧縮データ記録及び/又は再生若しくは伝送及び/又は受信方法、及び記録媒体
JP2000500247A (ja) * 1996-07-11 2000-01-11 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. 可聴信号のコーディングおよびデコーディング方法
JP2003066998A (ja) * 2001-08-28 2003-03-05 Mitsubishi Electric Corp 音響信号符号化装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
US5839110A (en) * 1994-08-22 1998-11-17 Sony Corporation Transmitting and receiving apparatus
US5701389A (en) * 1995-01-31 1997-12-23 Lucent Technologies, Inc. Window switching based on interblock and intrablock frequency band energy
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6138120A (en) * 1998-06-19 2000-10-24 Oracle Corporation System for sharing server sessions across multiple clients
JP2000134106A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
DE19921122C1 (de) * 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US20020147652A1 (en) * 2000-10-18 2002-10-10 Ahmed Gheith System and method for distruibuted client state management across a plurality of server computers
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
JP2003216188A (ja) 2002-01-25 2003-07-30 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法、符号化装置、及び記憶媒体
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
JP2004252068A (ja) 2003-02-19 2004-09-09 Matsushita Electric Ind Co Ltd デジタルオーディオ信号の符号化装置及び方法
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7315822B2 (en) * 2003-10-20 2008-01-01 Microsoft Corp. System and method for a media codec employing a reversible transform obtained via matrix lifting
EP1793372B1 (en) * 2004-10-26 2011-12-14 Panasonic Corporation Speech encoding apparatus and speech encoding method
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268608A (ja) * 1993-03-11 1994-09-22 Sony Corp 圧縮データ記録及び/又は再生若しくは伝送及び/又は受信装置、圧縮データの圧縮データ記録及び/又は再生若しくは伝送及び/又は受信方法、及び記録媒体
JP2000500247A (ja) * 1996-07-11 2000-01-11 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. 可聴信号のコーディングおよびデコーディング方法
JP2003066998A (ja) * 2001-08-28 2003-03-05 Mitsubishi Electric Corp 音響信号符号化装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016945A3 (en) * 2006-07-31 2008-04-10 Qualcomm Inc Systems and methods for modifying a window with a frame associated with an audio signal
JP2009545780A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
WO2008016945A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems and methods for modifying a window with a frame associated with an audio signal
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
USRE45339E1 (en) 2006-10-18 2015-01-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2013210656A (ja) * 2006-10-18 2013-10-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandte Forschung E V 合成フィルターバンク、フィルタリング方法及びコンピュータプログラム
USRE45526E1 (en) 2006-10-18 2015-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
USRE45277E1 (en) 2006-10-18 2014-12-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
USRE45276E1 (en) 2006-10-18 2014-12-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
USRE45294E1 (en) 2006-10-18 2014-12-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP2010538315A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 過渡状態検出器およびオーディオ信号の符号化を支援する方法
US9064490B2 (en) 2009-07-27 2015-06-23 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for processing an audio signal using window transitions for coding schemes
USRE47536E1 (en) 2009-07-27 2019-07-23 Dolby Laboratories Licensing Corporation Alias cancelling during audio coding mode transitions
WO2011013983A3 (en) * 2009-07-27 2011-04-28 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US9082399B2 (en) 2009-07-27 2015-07-14 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for processing an audio signal using window transitions for coding schemes
US9214160B2 (en) 2009-07-27 2015-12-15 Industry-Academic Cooperation Foundation, Yonsei University Alias cancelling during audio coding mode transitions
USRE49813E1 (en) 2009-07-27 2024-01-23 Dolby Laboratories Licensing Corporation Alias cancelling during audio coding mode transitions
WO2011013983A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8892427B2 (en) 2009-07-27 2014-11-18 Industry-Academic Cooperation Foundation, Yonsei University Method and an apparatus for processing an audio signal
USRE48916E1 (en) 2009-07-27 2022-02-01 Dolby Laboratories Licensing Corporation Alias cancelling during audio coding mode transitions
US9947329B2 (en) 2013-02-20 2018-04-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US10685662B2 (en) 2013-02-20 2020-06-16 Fraunhofer-Gesellschaft Zur Foerderung Der Andewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US10832694B2 (en) 2013-02-20 2020-11-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
US10354662B2 (en) 2013-02-20 2019-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
US11621008B2 (en) 2013-02-20 2023-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US11682408B2 (en) 2013-02-20 2023-06-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
JP2016513283A (ja) * 2013-02-20 2016-05-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチオーバーラップ部分を使用して符号化済み信号を生成し又は符号化済みオーディオ信号を復号化するための装置及び方法

Also Published As

Publication number Publication date
KR20070068424A (ko) 2007-06-29
BRPI0517513A (pt) 2008-10-14
EP1793372A1 (en) 2007-06-06
CN101061533A (zh) 2007-10-24
ATE537536T1 (de) 2011-12-15
EP1793372B1 (en) 2011-12-14
JP5100124B2 (ja) 2012-12-19
EP1793372A4 (en) 2008-01-23
JPWO2006046546A1 (ja) 2008-05-22
US20080065373A1 (en) 2008-03-13
CN101061533B (zh) 2011-05-18
US8326606B2 (en) 2012-12-04

Similar Documents

Publication Publication Date Title
WO2006046546A1 (ja) 音声符号化装置および音声符号化方法
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
US7769584B2 (en) Encoder, decoder, encoding method, and decoding method
KR101340233B1 (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
KR101192241B1 (ko) 입력 데이터 스트림의 믹싱과 그로부터 출력 데이터 스트림의 생성
KR100608062B1 (ko) 오디오 데이터의 고주파수 복원 방법 및 그 장치
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP5215994B2 (ja) 損失エンコ−ドされたデータ列および無損失拡張データ列を用いた、原信号の無損失エンコードのための方法および装置
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
RU2408089C2 (ru) Декодирование кодированных с предсказанием данных с использованием адаптации буфера
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
WO2008072737A1 (ja) 符号化装置、復号装置およびこれらの方法
KR101647576B1 (ko) 스테레오 오디오 신호 인코더
JP2011528134A (ja) 音声/オーディオ統合信号の符号化/復号化装置
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP2008261904A (ja) 符号化装置、復号化装置、符号化方法および復号化方法
JP2010506207A (ja) エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品
WO2008066071A1 (en) Decoding apparatus and audio decoding method
WO2009157213A1 (ja) 音響信号復号装置および音響信号復号装置におけるバランス調整方法
JP5068429B2 (ja) オーディオデータ変換方法およびその装置
WO2010098120A1 (ja) チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
JPH10260699A (ja) 音声符号化方法および装置
KR101421256B1 (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법
CN112352277A (zh) 编码装置及编码方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV LY MD MG MK MN MW MX MZ NA NG NO NZ OM PG PH PL PT RO RU SC SD SG SK SL SM SY TJ TM TN TR TT TZ UG US UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS IT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006543162

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580035271.X

Country of ref document: CN

Ref document number: 2005799362

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11577638

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 576/MUMNP/2007

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 1020077009506

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005799362

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11577638

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0517513

Country of ref document: BR