WO2007029304A1 - オーディオ符号化装置及びオーディオ符号化方法 - Google Patents

オーディオ符号化装置及びオーディオ符号化方法 Download PDF

Info

Publication number
WO2007029304A1
WO2007029304A1 PCT/JP2005/016271 JP2005016271W WO2007029304A1 WO 2007029304 A1 WO2007029304 A1 WO 2007029304A1 JP 2005016271 W JP2005016271 W JP 2005016271W WO 2007029304 A1 WO2007029304 A1 WO 2007029304A1
Authority
WO
WIPO (PCT)
Prior art keywords
bits
frame
divisions
block length
audio signal
Prior art date
Application number
PCT/JP2005/016271
Other languages
English (en)
French (fr)
Inventor
Yoshiteru Tsuchinaga
Masanao Suzuki
Miyuki Shirakawa
Takashi Makiuchi
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP05776793A priority Critical patent/EP1933305B1/en
Priority to PCT/JP2005/016271 priority patent/WO2007029304A1/ja
Priority to KR1020087004552A priority patent/KR100979624B1/ko
Priority to JP2007534206A priority patent/JP4454664B2/ja
Publication of WO2007029304A1 publication Critical patent/WO2007029304A1/ja
Priority to US12/073,276 priority patent/US7930185B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the present invention relates to an audio encoding device and an audio encoding method, and in particular, an information communication field such as a mobile phone and the Internet, a digital broadcasting field such as a television, and an audio signal by an AV device such as an MD-DVD.
  • an information communication field such as a mobile phone and the Internet
  • a digital broadcasting field such as a television
  • an audio signal by an AV device such as an MD-DVD.
  • adaptive transform encoding is mainly used.
  • Adaptive transform coding is a coding scheme that uses human auditory characteristics to reduce highly redundant information and sound data that does not cause problems with hearing, and compresses the amount of information.
  • MPEG2 AAC Motion Picture Experts Group-2 Advanced Audio Coding
  • ISO / IEC International Standardization Organization / International Electrotechnique
  • cal Commission International standardization organization Z International Electrotechnical Commission
  • a time domain analog audio signal is sampled and converted into a digital value, and a digital value is divided into a predetermined number of samples to generate a frame.
  • one frame is assigned two block lengths, LONG block (1024 samples) or SHORT block (128 samples), and adapts LONG or SHORT blocks according to the nature of the audio signal. Are switched, and the sign ⁇ is performed for each block.
  • FIG. 8 is a diagram showing the relationship between the LONG block and the SHORT block.
  • One frame is also composed of 1024 sampling powers.
  • the LONG block is the same as the section of one frame, and the SHORT block is the section consisting of 128 sampling values that divide one frame into eight.
  • FIG. 9 is a diagram showing a schematic configuration of a conventional AAC encoder.
  • the AAC encoder 100 includes an acoustic analysis unit 101, a block length selection unit 102, and a code key unit 103.
  • the acoustic analysis unit 101 obtains an FFT vector from the input signal by FFT (Fast Fourier Transform) analysis, obtains a perceptual entropy from the FFT spectrum, and transmits it to the block length selection unit 102.
  • FFT Fast Fourier Transform
  • Perceptual entropy is a parameter that represents the number of bits required for quantization.
  • the block length selection unit 102 sets a threshold value based on the received perceptual entropy.
  • the SHORT block is selected. If the perceptual entropy does not exceed the threshold, the LONG block is selected.
  • the code key unit 103 codes the corresponding frame of the input signal in units of LONG blocks and selects the selected block. If the length is a SHORT block, the corresponding frame of the input signal is encoded in SHORT block units.
  • one frame is subjected to an orthogonal transform in units of LONG blocks or SHORT blocks to obtain orthogonal transform coefficients, and the orthogonal transform coefficients are quantized for each frequency band within the allowable number of bits.
  • Quantized value power A bit stream is generated and transmitted.
  • one frame of the input signal is a stationary signal with almost no change in amplitude or frequency (the waveform is close to a sine wave), the signal change amount is small and the information amount is not large. Therefore, it is desirable to encode one frame at a time, that is, in units of LONG blocks. (If there is no significant change in the amplitude or frequency and the interval continues, the entire interval is encoded. It is more efficient)
  • attack sound a signal whose amplitude or frequency changes sharply in the frame
  • the frame is encoded with a LONG block
  • the original The input signal generates a strong noise called pre-echo, which causes deterioration of sound quality.
  • FIG. 10 is a diagram showing the input signal before the sign including the attack sound.
  • the frame fl of the input signal includes an attack sound and a stationary signal.
  • FIG. 11 is a diagram showing pre-echo. Decoded sound (frame fla) when frame fl is encoded with LONG block.
  • the frame fl includes an attack sound and a stationary signal, and includes a signal having significantly different components.
  • the magnitude of the error generated by the attack sound force, the quantization error (the fine power in the figure, Distortion will be applied (overlapped) to the entire frame fl.
  • the quantization error superimposed before the attack sound is a noise called pre-echo. It becomes a signal and becomes harsh for the user, causing sound quality degradation.
  • the quantization error superimposed on the attack sound itself is buried in the attack sound itself, so it has little auditory effect.
  • the pre-echo is a problem that subjectively affects the hearing and causes deterioration of the sound quality, and it is important to suppress the pre-echo in the audio code processing.
  • FIG. 12 is a diagram showing the decoded sound when encoded with the SHORT block.
  • frame fl should be encoded with a SHORT block. This is because if the encoding is performed with the SHORT block, the quantization error generated in the block b including the attack sound is closed in the block b and does not affect other blocks.
  • the SHO RT block is selected (in the attack sound, the number of quantization bits at the time of sign-up is large.
  • the perceptual entropy of a frame that includes noise is higher than the threshold value, and the SH ORT block is selected.) Pre-echo is suppressed by encoding in SHORT block units.
  • Patent Document 1 an audio encoding technique that creates a bitstream in which pre-echo is suppressed has been proposed.
  • Patent Document 1 Japanese Patent Laid-Open No. 2005-3835 (paragraph numbers [0028] to [0045], FIG. 1) Disclosure of the Invention
  • FIG. 13 is a diagram showing the operation concept of the bit reservoir.
  • the horizontal axis represents the frame and the vertical axis represents the number of quantization bits, which represents the number of quantization bits used in each frame.
  • the In graph G2 the horizontal axis represents the frame and the vertical axis represents the number of reserved bits. When each frame is quantized, it represents the number of surplus bits existing in the bit reservoir at that time.
  • the average number of quantization bits is 100 bits.
  • the average number of quantized bits is an index for determining the number of surplus bits, and is calculated according to the transmission bit rate.
  • the required number of quantization bits is less than the average number of quantization bits when the frame is quantized, the lower number of bits is accumulated as the number of surplus bits. In addition, when the required number of quantization bits exceeds the average number of quantization bits, the accumulated number of surplus bits is used for the surplus number of bits.
  • the number of quantization bits in frame 1 is 100, so the number of surplus bits is 0 because it is equal to the average number of quantization bits.
  • frames 2 and 3 are frames encoded with LONG blocks, and frame 4 is S
  • the LONG block has a small number of bits required for quantization, so that the number of surplus bits is accumulated.
  • the SHORT block is selected and encoded in order to suppress pre-coherence, but it is necessary for encoding.
  • the lack of bits will cause more severe sound quality degradation than pre-echo (sound quality degradation caused by insufficient bits seems to be stronger than pre-echo).
  • the auditory entropy threshold for selecting a LONG block or a SHORT block is determined according to the number of surplus bits controlled by the bit reservoir.
  • the LONG block is selected instead of the SHORT block to prevent deterioration of the sound quality.
  • the present invention has been made in view of the above points, and an audio encoding device that has improved the sound quality degradation caused by pre-echo and bit deficiency by determining the optimum block length and performing code decoding.
  • the purpose is to provide.
  • Another object of the present invention is to provide an audio coding method that improves the sound quality deterioration caused by pre-coherence and bit deficiency by determining the optimum block length and performing coding. It is.
  • the acoustic analyzer 11 that calculates perceptual entropy, which is a parameter representing the number, and the number of sign bits when the audio signal is coded are monitored to determine the number of surplus bits that can be used in the current frame.
  • a frame division number determination unit 13 for determining the number of divisions for dividing one frame of the audio signal into N from 1 to N;
  • An orthogonal transform unit 14 that divides one frame by the divided number and performs orthogonal transform of the audio signal in divided block length units to obtain orthogonal transform coefficients, and a quantum that quantizes the orthogonal transform coefficients in block length units
  • An audio encoding device 10 including an encoding unit 15 is provided.
  • the acoustic analysis unit 11 analyzes the audio signal and obtains perceptual entropy that is a parameter representing the number of bits necessary for quantization.
  • the code bit number monitoring unit 12 monitors the number of code bits when the audio signal is encoded, and obtains the number of surplus bits that can be used in the current frame.
  • the frame division number determination unit 13 determines the number of divisions for dividing one frame of the audio signal into N from 1 to N based on the combination of the perceptual entropy and the number of surplus bits.
  • the orthogonal transform unit 14 divides one frame by the determined number of divisions and performs orthogonal transform of the audio signal in units of the divided block lengths to obtain orthogonal transform coefficients.
  • the quantization unit 15 quantizes the orthogonal transform coefficient in block length units.
  • the audio encoding device of the present invention obtains the number of divisions for dividing N frames of an audio signal from 1 to N based on a combination of perceptual entropy and the number of surplus bits, and obtains the obtained divisions.
  • One frame is divided by the number, the orthogonal transform coefficient is obtained by performing orthogonal transform of the audio signal in divided block length units, and the orthogonal transform coefficient is quantized in block length units.
  • FIG. 1 is a principle diagram of an audio encoding device.
  • FIG. 2 is a diagram showing a conversion map.
  • FIG. 3 is a diagram showing an example of frame division.
  • FIG. 4 is a principle diagram of an audio encoding device.
  • FIG. 5 is a diagram showing an example of grouping.
  • FIG. 6 is a diagram showing an example of grouping.
  • FIG. 7 is a diagram showing a processing waveform of a code voice.
  • A is an input signal waveform
  • B is a waveform encoded by a SHORT block in a bit shortage state
  • C is a diagram showing an encoded waveform according to the present invention.
  • FIG. 8 is a diagram showing the relationship between a LONG block and a SHORT block.
  • FIG. 9 is a diagram showing a schematic configuration of a conventional AAC encoder.
  • FIG. 10 is a diagram showing an input signal before a sign including an attack sound.
  • FIG. 11 is a diagram showing pre-echo.
  • FIG. 12 is a diagram showing a decoded sound when encoding is performed with a SHORT block.
  • FIG. 13 is a diagram showing an operation concept of a bit reservoir.
  • FIG. 1 is a diagram illustrating the principle of an audio encoding device.
  • the audio encoding device 10 includes an acoustic analysis unit 11, a code bit number monitoring unit 12, a frame division number determination unit 13, an orthogonal transformation unit 14, a quantization unit 15, and a bit stream generation unit 16. Is a device that encodes audio signals.
  • the acoustic analysis unit 11 deciphers the input audio signal by FFT (Fast Fourier Transform) and obtains the FFT spectrum, and the perceptual entropy PE (PE is one of acoustic parameters) from the FFT spectrum. (Omitted)
  • FFT Fast Fourier Transform
  • PE perceptual entropy PE
  • Perceptual entropy PE is a parameter that represents the number of bits required to quantize (the total number of bits required to quantize the frame so that the listener does not perceive noise). Bit number).
  • the perceptual entropy PE has a characteristic that it takes a large value when the signal level rapidly increases like an attack sound.
  • parameters such as masking thresholds are actually required. The description is omitted because they are not directly related to the present invention.
  • the sign bit number monitoring unit 12 uses an average quantization bit set in advance at the time of sign key.
  • the number of code bits after quantization (consumed amount of code bits) is calculated for each frame, and the number of bits that can be used in the current frame is determined as the number of surplus bits. Ask.
  • the frame division number determination unit 13 sets the audio signal 1 to a code block length that suppresses sound quality degradation caused by pre-echo and bit deficiency. Determine the number of divisions to divide the frame from 1 to N.
  • N l
  • one block length is a LONG block
  • one block length is a force to be a SHORT block. It is not limited to the number of divisions of a LONGZSHORT block.
  • N is an arbitrary number, and one frame is divided into arbitrary block lengths.
  • the orthogonal transform unit 14 divides one frame by the determined number of divisions, performs orthogonal transform of the audio signal in units of the divided block lengths, and obtains orthogonal transform coefficients (frequency spectrum). Specifically, MDCT (Modified Discrete Cosine Transform) is performed as the orthogonal transform, and MDCT coefficients are obtained as orthogonal transform coefficients.
  • MDCT Modified Discrete Cosine Transform
  • the case of the LONG block and the case of the SHORT block will be described.
  • the MDC T coefficient is obtained by the MDCT of 1024 points.
  • the SHORT block is selected, the MDCT coefficient is obtained by 128 points of MDCT.
  • the SHORT block there are 8 SHORT blocks in one frame, so 8 sets of MDCT coefficients are obtained. These MDCT coefficients (frequency spectrum) are transmitted to the quantization unit 15 at the subsequent stage.
  • the quantization unit 15 quantizes the MDCT coefficients obtained in units of the divided block lengths. At this time, optimize the quantization by adjusting the number of bits so that the total number of bits finally output does not exceed the number of bits allowed in the current block.
  • the bit stream generation unit 16 generates a bit stream by placing the quantization value obtained by the quantization unit 15 on the transmission format, and transmits the bit stream through the transmission path.
  • the frame division number determination unit 13 performs acoustic analysis.
  • a frame division number N is obtained according to the value of the perceptual entropy PE input from the unit 11 and the number of surplus bits input from the code bit number monitoring unit 12, and is output to the orthogonal transform unit 14.
  • the relationship between the perceptual entropy PE and the number of frame divisions N relative to the number of surplus bits is as follows.
  • the perceptual entropy PE if the perceptual entropy PE is a small value, the corresponding frame is mostly composed of stationary signals. If the perceptual entropy PE is a large value, the corresponding frame includes a signal with a large change such as an attack sound. If the code block length is increased at this time, the sound quality is deteriorated by the pre-echo.
  • the coding block length is short, and a large number of bits are required at the time of quantization. Sound quality degradation occurs.
  • the frame division number determination unit 13 determines the perceptual entropy PE and the surplus bit so that the code block length is suppressed to suppress the sound quality degradation caused by pre-echo and bit deficiency. Number of divisions depending on the combination with the number
  • FIG. 2 is a diagram showing a conversion map.
  • the vertical axis of the transformation map Ml is perceptual entropy, and the horizontal axis is the number of surplus bits. If the maximum number of divisions per frame is Nmax, boundary lines l to Nmax-1 that determine the number of divisions N are set.
  • the boundaries of the blocks to be divided in the transformation map Ml are not limited to equal intervals.
  • the boundary can be determined according to the position of the change point in the input signal.
  • the orthogonal transform unit 14 divides the input signal of one frame into N blocks according to the block division number N, and obtains a frequency spectrum by MDCT for each block.
  • the quantization unit 15 quantizes the MDCT coefficients in block units.
  • FIG. 3 is a diagram showing an example of frame division. This shows a case where the number of divisions determined by the frame division number determination unit 13 is four.
  • the block length of one of the LONG block and the short block divided into 8 is MDCT and quantized! /, But in the audio encoding device 10, depending on the perceptual entropy PE and the number of surplus bits Thus, it is possible to divide one frame into an arbitrary number with the number of divisions that becomes a code key block length that suppresses sound quality degradation caused by pre-echo and bit shortage. Then, MDCT and quantization are performed for each divided block length.
  • the audio encoding device 10 obtains the number of divisions for dividing one frame of an audio signal into N as many as N, based on the combination of the perceptual entropy PE and the number of surplus bits.
  • one frame is divided by the determined number of divisions, MDCT coefficients are obtained by performing MDCT of the audio signal in divided block length units, and MDCT coefficients are quantized in divided block length units. .
  • a SHORT block is selected in order to suppress pre-echo in a frame having a large change signal such as an attack sound.
  • a SHORT block is selected in order to suppress pre-echo in a frame having a large change signal such as an attack sound.
  • the SHORT block (one frame is divided into 8 blocks) is simply changed to the ONG block (not divided)! V, when the LONG block is selected because the bit is insufficient when encoding the frame in which the signal exists, the sound quality deterioration due to pre-echo occurs even if the sound quality deterioration can be avoided due to the bit shortage. As a result, the sound quality deterioration was not properly suppressed.
  • the division is performed so that the code encoding block length is suppressed based on the combination of the perceptual entropy PE and the number of surplus bits and suppresses sound quality degradation caused by pre-echo and bit shortage.
  • the number N is obtained, and the block length divided by an arbitrary number is generated (an arbitrary block length is generated by an arbitrary number of divisions including only a SHORT block or a LONG block). MDCT and quantum Therefore, sound quality degradation can be greatly improved even when audio coding is performed under low bit rate conditions where the compression rate is high.
  • the audio encoding device 20 includes an acoustic analysis unit 21, an encoded bit number monitoring unit 22, a frame division number determination unit 23, an orthogonal transform unit 24, a quantization unit 25, and a bit stream generation unit 26, and It is an apparatus that performs encoding.
  • the acoustic analysis unit 21 performs FFT analysis on the input audio signal (Input—sig (n)) to obtain an FFT spectrum, and obtains a perceptual entropy PE that is one of acoustic parameters from the FFT spectrum.
  • the sign bit number monitoring unit 22 uses an excess or deficiency in the number of code key bits after quantization with respect to the average quantization bit number set in advance during the sign key (consumption amount of the code key number). ) For each frame, and the number of bits that can be used in the current frame as the number of surplus bits (Available—bit).
  • the frame division number determining unit 23 sets the code signal block length to 1 to suppress the sound quality degradation that occurs due to pre-echo and bit deficiency. The number of divisions for dividing the frame is determined.
  • the determined number of divisions (Block—Num) is output to the orthogonal transform unit 24.
  • MDCT transformation
  • the quantization unit 25 quantizes the first orthogonal transform coefficient in units of one frame.
  • the acoustic analysis unit 21 calculates perceptual entropy ⁇ based on the human auditory characteristics and outputs it to the frame division number determination unit 23.
  • the sign bit count monitoring unit 22 calculates the available bit number Available-bit usable in the current frame and outputs it to the frame division number determination unit 23. Available—The bit is obtained using the following equation (1).
  • average—bit is the average number of quantized bits that are set in advance during sign ⁇
  • Reserve—bit is the number of bits stored in the bit reservoir.
  • Quant—bit is the number of encoded bits after quantization in the previous frame
  • Prev—Reserve—bit is Reserve—bit in the previous frame
  • Reserve—bit is the current number of quantization bits relative to the average number of bits. Expressed in excess or deficiency in the frame.
  • bitrate X frame length no / freq ... bitrate is the encoding bit rate [bps]
  • frame-length is the frame length [1024 samples]
  • freq is the sampling frequency [Hz] of the input signal.
  • the frame division number determination unit 23 determines the division number N (Block—Num) according to the perceptual entropy PE obtained by the acoustic analysis unit 21 and the Available—bit obtained by the encoded bit number monitoring unit 22. Output to orthogonal transform unit 24.
  • the number of divisions is obtained using the conversion map Ml shown in FIG.
  • boundary lines 1 to 7 are preliminarily set (the interval and the number of boundary lines can be set arbitrarily), and the perceptual entropy PE and the number of surplus bits Available—bit
  • T-transform to generate 8 sets of MDCT coefficients (MDCT_SHORT).
  • FIG. 5 is a diagram showing an example of grouping.
  • a frame is divided into 8 by SHORT block units, and one group is divided into 8 blocks divided by 2 to 7 minimum block length force division numbers.
  • the block lengths are grouped into 5 groups as shown in the figure.
  • the MDCT coefficients in the grouping units of loops gl to g5 are output to the quantization unit 25 in the subsequent stage, and the MDCT coefficients in the group gl and the MDCT coefficients in the group g2 are quantized. Is quantized.
  • FIG. 6 shows an example of grouping.
  • the group boundary can be set so that the block length near the signal change point is as short as possible.
  • the grouping boundary should be set so that the block length near the minimum block length # 6 is as short as possible. It is set. In this way, pre-echo can be further reduced by setting the grouping boundary so that the block length near the signal change point is as short as possible.
  • the MDCT coefficient (MDCT_SHORT) is quantized.
  • the quantized value is obtained by quantizing the MDCT coefficient of the maximum number of division units (8 sets).
  • each grouped SHORT block MDCT coefficient (MDCT—SHORT) is quantized into grouping units to obtain a quantized value.
  • the quantization unit 25 quantizes the MDCT coefficient for each frequency band in any of the above cases.
  • the LONG block 1024 MDCT coefficients are quantized for each frequency band
  • 128 MDCT coefficients are quantized for each frequency band.
  • optimal quantization is performed by adjusting the quantization error and the number of bits so that the total number of bits finally output is less than the number of used bits allowed in the current block.
  • the spectrum quantization value is output to the bit stream generation unit 26.
  • bit stream generation unit 26 The bit stream generation unit 26 generates a bit stream by placing the quantization value obtained by the quantization unit 15 on the transmission format, and transmits the bit stream through the transmission path.
  • FIG. 7 shows the processing waveform of the encoded speech.
  • FIG. 6 shows the processing waveform of the code voice measured in the present invention
  • A is the input signal waveform
  • B is the waveform coded in the SHORT block when the bit is insufficient
  • C is the present invention. Is a waveform of the sign.
  • the input signal (A) includes an attack sound.
  • the SHORT block is selected in spite of the shortage of bits in such an input signal, as shown in (B), the waveform of the attack sound part is significantly distorted, resulting in a large deterioration in sound quality. .
  • the audio encoding devices 10 and 20 can be applied to, for example, a 1-segment digital radio broadcasting system or a musical sound download service system.
  • the code key block length is set so as to suppress the sound quality degradation caused by the pre-echo and the bit shortage. Therefore, even if it is used under severe conditions with a high compression rate and low bit rate as described above, sound quality degradation can be greatly improved. A high-quality audio code can be performed.
  • the block length (number of block divisions) can be determined. This makes it possible to avoid significant sound quality degradation due to the selection of SHORT blocks when there are insufficient bits.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 プリエコー及びビット不足から生じる音質劣化を改善する。  音響分析部(11)は、オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める。符号化ビット数監視部(12)は、オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める。フレーム分割数決定部(13)は、知覚エントロピーと余剰ビット数との組み合わせにもとづいて、オーディオ信号の1フレームを、1からNまでN分割するための分割数を決定する。直交変換部(14)は、決定した分割数で1フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行って直交変換係数を求める。量子化部(15)は、ブロック長単位で直交変換係数の量子化を行う。                                                                               

Description

明 細 書
オーディオ符号化装置及びオーディオ符号化方法
技術分野
[0001] 本発明は、オーディオ符号化装置及びオーディオ符号化方法に関し、特に携帯電 話やインターネット等の情報通信分野、テレビ等のディジタル放送分野、さらに MD- DVDのような AV機器によるオーディオ信号の蓄積'記録分野で使用される、オーデ ィォ信号の符号化を行うオーディオ符号化装置及びオーディオ符号化方法に関する 背景技術
[0002] 近年、インターネットやディジタル地上波放送等の通信分野、または DVDゃシリコ ンオーディオ等の AV機器の急速な普及に伴 、、オーディオ信号を効率よく圧縮す るオーディオ符号ィ匕技術に対する需要が高まって 、る。
[0003] オーディオ符号化方式としては、適応変換符号化が主に用いられて!/ヽる。適応変 換符号化は、人間の聴覚特性を利用して、冗長度の高い情報や聴感上問題のない 音のデータを削減して、情報量を圧縮する符号ィ匕方式のことである。
[0004] 適応変換符号ィ匕方式の基本的な符号ィ匕処理は以下の流れで行われる。
•時間領域のオーディオ信号を周波数領域へ変換する。
•周波数軸上の信号を人間の聴覚の周波数分解能に対応する周波数帯域で区切る
•人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量を計 算する。
•各周波数帯域に割り振られた情報量にしたがい、周波数軸上の信号を量子化する
[0005] 一方、適応変換符号化方式の中でも、 MPEG2 AAC (Moving Pictures Experts G roup-2 Advanced Audio Coding)は、地上波ディジタル放送にも採用されており、近 年注目を浴びている符号化方式である。なお、 MPEG2 AAC (以下、単に AAC)は 、 ISO/IEC (International Standardization Organization/ International Electro techni cal Commission:国際標準化機構 Z国際電気標準会議)で標準化された符号ィ匕方 式であり、詳細は ISO/IEC 13818- 7の Part 7, "Advanced Audio Coding (AAC)に記 載されている。
[0006] AACエンコーダでは、時間領域のアナログのオーディオ信号をサンプリングしてデ イジタル値に変換し、ディジタル値を所定のサンプリング数に分割してフレームを生 成する。
[0007] また、 1つのフレームは、 LONGブロック(1024サンプル)または SHORTブロック(12 8サンプル)の 2種類のブロック長が割り当てられ、オーディオ信号の性質に応じて、 L ONGまたは SHORTのブロックを適応的に切り替えて、ブロック毎に符号ィ匕が行われる
[0008] 図 8は LONGブロックと SHORTブロックの関係を示す図である。 1フレームは、 1024 個のサンプリング値力も構成される。 LONGブロックは、 1フレームの区間そのままで あり、 SHORTブロックは、 1フレームを 8個に分割した 128個のサンプリング値からなる 区間である。
[0009] したがって、フレームを符号化する場合、 LONGブロックを選択した場合には、 1フレ ーム単位で符号ィ匕処理を行うことになり、 SHORTブロックを選択した場合は、 1フレー ムの 1/8単位で符号ィ匕処理を行うことになる。
[0010] 図 9は従来の AACエンコーダの概略構成を示す図である。 AACエンコーダ 100は 、音響分析部 101、ブロック長選択部 102、符号ィ匕部 103から構成される。
音響分析部 101は、入力信号を FFT(Fast Fourier Transform)分析により FFTス ベクトルを求め、 FFTスペクトルから知覚エントロピーを求めて、ブロック長選択部 10 2へ送信する。知覚エントロピーとは、量子化するのに必要なビット数を表すパラメ一 タである。
[0011] ブロック長選択部 102は、受信した知覚エントロピーがあら力じめ設定したしきい値
(定数)を超えれば SHORTブロックを選択し、知覚エントロピーがしきい値を越えなけ れば LONGブロックを選択する。
[0012] 符号ィ匕部 103は、ブロック長選択部 102で選択されたブロック長が LONGブロックな らば、入力信号の該当フレームを LONGブロック単位で符号ィ匕し、選択されたブロック 長が SHORTブロックならば、入力信号の該当フレームを SHORTブロック単位で符号 化する。
[0013] 符号化処理では、 1フレームを LONGブロック単位または SHORTブロック単位で直 交変換を行って直交変換係数を求め、直交変換係数を許容されたビット数の範囲内 で周波数バンド毎に量子化し、量子化値力 ビットストリームを生成して送信する。
[0014] ここで、入力信号の 1フレームが、振幅や周波数がほとんど変化しない定常的な信 号 (波形としては正弦波に近いもの)の場合は、信号変化量が小さく情報量も大きく はないので、 1フレームまとめて、すなわち LONGブロック単位で符号化することが望 まし 、 (振幅や周波数に大きな変化がな 、区間が続 、て 、る場合は、その区間をまと めて符号ィ匕した方が効率がょ 、)。
[0015] なお、定常区間では、符号ィ匕時の量子化ビット数が大きくないので、定常信号の占 める割合が大きいフレームの知覚エントロピー(量子化に必要なビット数を表すパラメ ータ)は、しきい値を下回ることになつて、 LONGブロックが選択されることになる。
[0016] これに対して、フレーム内に振幅または周波数が急峻に変化する信号 (以下、ァタ ック音とも呼ぶ)が存在する場合に、そのフレームを LONGブロックで符号ィ匕すると、 元の入力信号にはな力つたプリエコー (pre-echo)と呼ばれる雑音が発生し、音質劣 化の原因となる。
[0017] 以下、図 10〜図 12を用いてプリエコーについて説明する。なお、図 10〜図 12で は、横軸を時間、縦軸を振幅とする。図 10はアタック音を含む符号ィ匕前の入力信号 を示す図である。入力信号のフレーム flには、アタック音と、定常信号とが含まれて いる。
[0018] 図 11はプリエコーを示す図である。フレーム flを LONGブロックで符号化したときの 復号音 (フレーム f la)を示している。フレーム flは、アタック音と定常信号とが存在し て、成分が大きく異なる信号が含まれている。このようなフレーム flを LONGブロック で符号ィ匕して、周波数軸上で量子化すると、図 11に示すように、アタック音力 生じ た誤差量の大き 、量子化誤差(図中の細力 、歪)が、フレーム fl全体に乗る(重畳す る)こと〖こなる。
[0019] この場合、アタック音の手前に重畳した量子化誤差は、プリエコーと呼ばれる雑音 信号となり、ユーザにとって耳障りなものとなって、音質劣化を引き起こす。また、ァタ ック音そのものに重畳した量子化誤差は、アタック音自身に埋もれてしまうため、聴覚 上影響を与えることはほとんどない。
[0020] さらに、アタック音の後段にも量子化誤差は重畳するので、これも雑音信号 (ポスト エコー (post-echo)と呼ばれる)となるが、大きな音の直後に少しの長さの雑音信号が 生じても人間の聴覚では感じとることができないので、通常はポストエコーも問題視さ れることはない。
[0021] したがって、主観的に聴覚に影響を与えて、音質劣化を引き起こす問題となるのは プリエコーであり、オーディオ符号ィ匕処理においては、このプリエコーを抑制すること が重要となる。
[0022] 図 12は SHORTブロックで符号化したときの復号音を示す図である。プリエコーを抑 制するには、フレーム flを SHORTブロックで符号化すればよい。 SHORTブロックで符 号化すれば、アタック音が含まれるブロック bで生じた量子化誤差は、ブロック b内で 閉じたものとなり、他のブロックに影響を与えないからである。
[0023] したがって、アタック音のような急峻な信号がフレーム内に存在する場合には、 SHO RTブロックを選択し (アタック音では、符号ィ匕時の量子化ビット数が大きいので、ァタ ック音が含まれるフレームの知覚エントロピ一は、しきい値を上回ることになつて、 SH ORTブロックが選択される)、 SHORTブロック単位で符号化を行うことでプリエコーを 抑制している。
[0024] 従来技術として、プリエコーを抑制したビットストリームを作成するオーディオ符号ィ匕 技術が提案されている (例えば、特許文献 1)。
特許文献 1:特開 2005 - 3835号公報 (段落番号〔0028〕〜〔0045〕,第 1図) 発明の開示
発明が解決しょうとする課題
[0025] AACエンコーダのようなオーディオ符号化装置では、通常、量子化ビットの増減を 吸収して、擬似的な可変ビットレート制御を行うビットリザーバ機能が設けられている。 図 13はビットリザーバの動作概念を示す図である。図中のグラフ G1は、横軸がフレ ーム、縦軸が量子化ビット数であり、各フレームで使用した量子化ビット数を表してい る。また、グラフ G2は、横軸がフレーム、縦軸がリザーブビット数であり、各フレームが 量子化された際に、そのときビットリザーバに存在する余剰ビット数を表している。
[0026] ここで、平均量子化ビット数が 100ビットとする。平均量子化ビット数は、余剰ビット 数を決める指標であって、伝送ビットレートに応じて算出されるものである。
フレームの量子化時に、必要な量子化ビット数が平均量子化ビット数を下回る場合 は、下回った分のビット数は余剰ビット数として蓄積される。また、必要な量子化ビット 数が平均量子化ビット数を上回る場合、上回った分のビット数に対しては、蓄積して おいた余剰ビット数が使用される。
[0027] 図では例えば、フレーム 1の量子化ビット数は 100なので、平均量子化ビット数と等 しいため、余剰ビット数は 0である。フレーム 2の量子化ビット数は 80で、平均量子化 ビット数に対して 20下回るので、このときの余剰ビット数は 20 ( = 100— 80)となる。
[0028] フレーム 3の量子化ビット数は 70であり、このときの余剰ビット数は、フレーム 2です でに蓄積されて 、る余剰分も含めて 50 ( = 100- 70 + 20)となる。
フレーム 4の量子化ビット数は 120であり、平均量子化ビット数を 20上回る。このよう な場合、超過した 20はフレーム 3のときに蓄積されていた余剰ビット数 50から使用さ れる。したがって、このときの余剰ビット数は 30 ( = 50— 20)となる。以降同様にして、 フレームに割り当てられるビット数の増減の吸収を行って可変ビットレート制御が行わ れる。
[0029] なお、フレーム 2、 3が LONGブロックで符号化されるフレームであり、フレーム 4が S
HORTブロックで符号化されるフレームであるとすると、 LONGブロックは、量子化に要 するビット数が小さ 、ので、余剰ビット数が蓄積される。
[0030] 一方、 SHORTブロックのように、量子化に要するビット数が大き 、場合は、 LONGブ ロックのときに蓄積されている余剰ビット数が SHORTブロックの量子化時に回されて 使用されること〖こなる。
[0031] ここで、圧縮率が低ぐ量子化ビット数を多く割り当てることが可能な高ビットレート条 件では、フレーム内にアタック音のような変化の大きい信号が存在して、知覚ェントロ ピーが高!、値を示す場合、 SHORTブロックを選択して符号ィ匕すればプリエコーが抑 制され、かつ、ビットリザーバの平均量子化ビット数の値も大きいので、ビットリザーバ のビット不足も生じることはな 、。
[0032] しかし、圧縮率を高めて、量子化ビット数を多く割り当てることができない低ビットレ ート条件では、ビットリザーバの平均量子化ビット数の値が小さ!/、ので (使用できるビ ット数が元々少な 、と 、うこと)、知覚エントロピーが大き 、値のときに SHORTブロック を選択すると、すぐに余剰ビット数が消費されてビット不足状態を生じ、著しい音質劣 化が生じるといった問題があった。
[0033] したがって、アタック音のような変化の大きい信号が存在するフレームで、プリェコ 一を抑制するために SHORTブロックを選択して符号ィ匕して ヽるにもかかわらず、符号 化に必要なビットが不足しているために、プリエコーよりも激しい音質劣化が生じてし まうことになる(ビット不足で生じる音質劣化は、プリエコーよりも強い音質劣化と感じ られる)。
[0034] 一方、近年では、 48kHzサンプリングステレオ信号を 96kbps以下(圧縮率 1Z16 以上)で符号ィ匕するような低ビットレート条件の放送などが開始されている (例えば、 携帯電話機向けの地上波ディジタル放送(1セグメント放送)などである)。
[0035] なお、 48kHzサンプリングステレオ信号を何ら圧縮せずに伝送しょうとすると、 48k Hzサンプリングステレオ信号は、 1秒間〖こ 48000サンプルあって、 1サンプルを 16bit で表現し、 2chで伝送するならば、 48000 X 16 X 2 = 1536kbpsとなる。 1536kbpsの 1 Z16が 96kbpsである(一般に MP3 (MPEG Audio Layer 3)形式のプレーヤ機器で は、 CDの 44. 1kHzの信号をおよそ 128kbpsまで圧縮して CDの音質を再現してい る力 上記のような携帯電話機向けの地上波ディジタル放送では、 48kHzを 128kb psよりもさらに低い 96kbps以下まで圧縮しているので、圧縮率は非常に高ぐ音質 劣化を抑制するには難し ヽ領域で符号化して ヽることがゎカゝる)。
[0036] このような低ビットレート条件での放送 ·通信サービスでは、使用できるビット数が少 ないため、アタック音のような変化の大きい信号が存在したり、または変化の大きい信 号が連続して続くような場合には、ビットリザーバに蓄積される余剰ビット数の消費量 が増加し、急激なビット不足が発生する。
[0037] 特に多くのビット数を必要とする SHORTブロックでのビット不足は、符号ィ匕性能を大 幅に低下させ、プリエコーが発生して 、るときよりも著しく音質を劣化させてしまう。 これにより、低ビットレート条件でサービスを行う地上波ディジタル放送などの分野 で、従来の AACエンコーダによるオーディオ信号の符号ィ匕処理を行うと、入力信号 に応じて正確に SHORTブロックを選択して符号ィ匕して 、るにもかかわらず、大きな音 質劣化が生じてしまうといった問題があった。
[0038] 一方、上記の従来技術 (特開 2005— 3835号公報)では、ビットリザーバによって 制御されている余剰ビット数に応じて LONGブロックまたは SHORTブロックを選択する 際の聴覚エントロピーしきい値を決定し、これにより、余剰ビット数が足りない場合は、 アタック音が存在するフレームであっても、 SHORTブロックを選択せずに、 LONGブロ ックを選択するようにして音質劣化の防止を行って 、る。
[0039] しかし、この従来技術は、プリエコーよりも音質が悪くなるビット不足状態での SHOR Tブロックの選択をやめて、単純に LONGブロックに切り替える技術であるので、結局 、 LONGブロック符号ィ匕時に発生するプリエコーによる音質劣化についての問題は再 び表面化することになり、音質劣化抑制のための最適な解決方法とはいえない。
[0040] 本発明はこのような点に鑑みてなされたものであり、最適なブロック長を決定して符 号ィ匕を行って、プリエコー及びビット不足力 生じる音質劣化を改善したオーディオ 符号化装置を提供することを目的とする。
[0041] また、本発明の他の目的は、最適なブロック長を決定して符号ィ匕を行って、プリェコ 一及びビット不足力 生じる音質劣化を改善したオーディオ符号ィ匕方法を提供するこ とである。
課題を解決するための手段
[0042] 本発明では上記課題を解決するために、図 1に示すような、オーディオ信号の符号 化を行うオーディオ符号化装置 10において、オーディオ信号を分析して、量子化す るのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部 1 1と、オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用 可能なビット数である余剰ビット数を求める符号ィ匕ビット数監視部 12と、知覚ェントロ ピーと余剰ビット数との組み合わせにもとづ 、て、プリエコー及びビット不足力 生じ る音質劣化を抑制する符号ィ匕ブロック長となるように、オーディオ信号の 1フレームを 、 1から Nまで N分割するための分割数を決定するフレーム分割数決定部 13と、決定 された分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の 直交変換を行って直交変換係数を求める直交変換部 14と、ブロック長単位で直交 変換係数の量子化を行う量子化部 15と、を有することを特徴とするオーディオ符号 化装置 10が提供される。
[0043] ここで、音響分析部 11は、オーディオ信号を分析して、量子化するのに必要なビッ ト数を表すパラメータである知覚エントロピーを求める。符号ィ匕ビット数監視部 12は、 オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使用可能 なビット数である余剰ビット数を求める。フレーム分割数決定部 13は、知覚エントロピ 一と余剰ビット数との組み合わせにもとづいて、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数を決定する。直交変換部 14は、決定された分割数で 1フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行つ て直交変換係数を求める。量子化部 15は、ブロック長単位で直交変換係数の量子 化を行う。
発明の効果
[0044] 本発明のオーディオ符号化装置は、知覚エントロピーと余剰ビット数との組み合わ せにもとづいて、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割 数を求め、求めた分割数で 1フレームを分割し、分割されたブロック長単位でオーデ ィォ信号の直交変換を行って直交変換係数を求め、ブロック長単位で直交変換係数 の量子化を行う構成とした。これにより、最適なブロック長を決定して符号ィ匕を行うこと ができ、プリエコー及びビット不足力も生じる音質劣化を改善して、オーディオ信号符 号ィ匕品質の向上を図ることが可能になる。
[0045] 本発明の上記および他の目的、特徴および利点は本発明の例として好ま U、実施 の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
図面の簡単な説明
[0046] [図 1]オーディオ符号ィ匕装置の原理図である。
[図 2]変換マップを示す図である。
[図 3]フレーム分割例を示す図である。
[図 4]オーディオ符号ィ匕装置の原理図である。 [図 5]グループ化の一例を示す図である。
[図 6]グループ化の一例を示す図である。
[図 7]符号ィ匕音声の処理波形を示す図である。(A)は入力信号波形、(B)はビット不 足状態のときに SHORTブロックで符号ィ匕した波形、(C)は本発明による符号化波形 を示す図である。
[図 8]LONGブロックと SHORTブロックの関係を示す図である。
[図 9]従来の AACエンコーダの概略構成を示す図である。
[図 10]アタック音を含む符号ィ匕前の入力信号を示す図である。
[図 11]プリエコーを示す図である。
[図 12]SHORTブロックで符号ィ匕したときの復号音を示す図である。
[図 13]ビットリザーバの動作概念を示す図である。
発明を実施するための最良の形態
[0047] 以下、本発明の実施の形態を図面を参照して説明する。図 1はオーディオ符号ィ匕 装置の原理図である。第 1の実施の形態のオーディオ符号化装置 10は、音響分析 部 11、符号ィ匕ビット数監視部 12、フレーム分割数決定部 13、直交変換部 14、量子 化部 15、ビットストリーム生成部 16から構成され、オーディオ信号の符号化を行う装 置である。
[0048] 音響分析部 11は、入力されたオーディオ信号を FFT (Fast Fourier Transform)分 祈して FFTスペクトルを求め、 FFTスペクトルから音響パラメータの 1つである知覚ェ ントロピー PE (PEは Perceptual Entropyの略)を求める。
[0049] 知覚エントロピー PEとは、量子化するのに必要なビット数を表すパラメータのことで ある(リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必 要な総ビット数である)。
[0050] また、知覚エントロピー PEは、上述したように、アタック音のように信号レベルが急 激に増大するところでは大きな値をとるという特性がある。なお、音響パラメータとして は、マスキングしきい値などのパラメータも実際には求める力 本発明とは直接関係 ないので説明は省略する。
[0051] 符号ィ匕ビット数監視部 12は、符号ィ匕の際にあらかじめ設定される平均量子化ビット 数(図 13で上述)に対する量子化後の符号ィ匕ビット数の過不足 (符号ィ匕ビット数の消 費量)をフレーム毎に求め、現フレームで使用可能なビット数を余剰ビット数として求 める。
[0052] フレーム分割数決定部 13は、知覚エントロピー PEと余剰ビット数との組み合わせに もとづいて、プリエコー及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック 長となるように、オーディオ信号の 1フレームを、 1から Nまで N分割するための分割数 を決定する。
[0053] 例えば、 N= lなら、 1つのブロック長は LONGブロックとなり、 N = 8なら、 1つのブロ ック長は SHORTブロックとなる力 LONGZSHORTブロックの分割数に限らず、ォー ディォ符号化装置 10では、 Nは任意の数であり、 1フレームを任意のブロック長に分 割する。
[0054] 直交変換部 14は、決定された分割数で 1フレームを分割し、分割されたブロック長 単位でオーディオ信号の直交変換を行って直交変換係数 (周波数スペクトル)を求 める。直交変換としては、具体的には MDCT (Modified Discrete Cosine Transform) を行い、直交変換係数として MDCT係数を求める。
[0055] 直交変換部 14の動作例として、 LONGブロックの場合と SHORTブロックの場合につ いて説明すると、 LONGブロックが選択された場合は、 1024点の MDCTにより MDC T係数を求める。また、 SHORTブロックが選択された場合は、 128点の MDCTにより MDCT係数を求める。なお、 SHORTブロックでは、 1フレーム中 SHORTブロックは 8 ブロックあるので、 MDCT係数は 8組求まることになる。そして、これらの MDCT係数 (周波数スペクトル)は、後段の量子化部 15へ送信される。
[0056] 量子化部 15は、分割されたブロック長単位で求められた MDCT係数の量子化を 行う。このとき、最終的に出力される総ビット数力 現ブロックで許される使用ビット数 を超えないように、ビット数を調整して最適化な量子化を実現する。ビットストリーム生 成部 16は、量子化部 15で求められた量子化値を送信フォーマットに乗せて、ビットス トリームを生成し、伝送路を通じて送信する。
[0057] 次にフレーム分割数決定部 13における、オーディオ信号 1フレームを分割するとき の分割数の決定方法について説明する。フレーム分割数決定部 13では、音響分析 部 11から入力された知覚エントロピー PEと、符号ィ匕ビット数監視部 12から入力され た余剰ビット数との値に応じてフレームの分割数 Nを求めて、直交変換部 14へ出力 する。
[0058] ここで、知覚エントロピー PEと余剰ビット数に対するフレームの分割数 Nの関係は、 知覚エントロピー PEについては、知覚エントロピー PEが小さな値ならば、該当フレー ムは、定常信号がほとんどを占めており、知覚エントロピー PEが大きな値ならば該当 フレームには、アタック音のような変化の大きな信号が含まれており、このとき符号ィ匕 ブロック長を長くすると、プリエコーによって音質劣化が生じる。
[0059] したがって、知覚エントロピー PEが大きい場合には、プリエコーによる音質劣化を 抑制するために、符号化ブロック長は短く(フレームの分割数 Nを多く)することが必 要である。
[0060] 一方、余剰ビット数につ 、ては、符号化ブロック長が短 、と、量子化時のビット数を 多く要し、このとき使用可能な余剰ビット数が少ないと、ビット不足状態となって音質 劣化が生じる。
[0061] したがって、余剰ビット数が少ない場合には、ビット不足による音質劣化を抑制する ために、符号ィ匕ブロック長を長く(フレームの分割数 Nを少なく)することが必要である 上記の知覚エントロピー PEと余剰ビット数との関係を考慮して、プリエコー及びビッ ト不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるように、フレーム分割数 決定部 13では、知覚エントロピー PEと余剰ビット数との組み合わせに応じて分割数
Nを求めるための変換マップを有して!/、る。
[0062] 図 2は変換マップを示す図である。変換マップ Mlの縦軸は知覚エントロピー、横軸 は余剰ビット数である。また、 1フレームの最大分割数を Nmaxとすると、分割数 Nを決 める境界ライン l〜Nmax— 1が設定されている。
[0063] 変換マップ Mlを用いることにより、余剰ビット数が a、知覚エントロピー PEの値が b の場合の組合せによる C= (a, b)の位置に応じて、分割数 Nを決定することができる( 図では分割数 = 5が求められて 、る)。
[0064] なお、変換マップ Mlの分割するブロックの境界は、等間隔に限定するものではなく 、また別の方法として入力信号における変化点の位置に応じて境界を決めることもで きる。また、分割数を Block— Num、余剰ビット数を Available— bit、知覚エントロピーを PEとして、 Block— Num=F (Available— bit, PE)のような関数 Fとして表現することもで きる。
[0065] 一方、直交変換部 14は、ブロック分割数 Nに応じて、 1フレームの入力信号を N個 のブロックに分割し、それぞれのブロックに対して MDCTにより周波数スペクトルを求 める。また、量子化部 15では、ブロック単位の MDCT係数を量子化する。
[0066] 図 3はフレーム分割例を示す図である。フレーム分割数決定部 13で決定された分 割数が 4の場合を示している。従来では、 LONGブロックと、 8分割した SHORTブロッ クとの 、ずれかのブロック長を MDCTして量子化して!/、たが、オーディオ符号化装 置 10では、知覚エントロピー PEと余剰ビット数に応じて、プリエコー及びビット不足か ら生じる音質劣化を抑制する符号ィ匕ブロック長となるような分割数で、 1フレームを任 意の数に分割することができる。そして、分割したブロック長単位で MDCT、量子化 を行う。
[0067] 図では、 1フレームが 1024サンプルであれば、分割数 =4なので、 1ブロック長は 2 56サンプルであり、このブロック長単位で MDCT、量子化が行われることになる。 以上説明したように、オーディオ符号化装置 10では、知覚エントロピー PEと余剰ビ ット数との組み合わせにもとづいて、オーディオ信号の 1フレームを、 1力も Nまで N分 割するための分割数を求め、求めた分割数で 1フレームを分割し、分割されたブロッ ク長単位でオーディオ信号の MDCTを行って MDCT係数を求め、分割されたブロッ ク長単位で MDCT係数の量子化を行う構成とした。
[0068] 従来技術 (例えば、特開 2005— 3835号公報)においては、アタック音のような変 化の大き 、信号が存在するフレームでは、プリエコーを抑制するために SHORTブロ ックを選択して符号化すると、符号ィ匕に必要なビットが不足して、プリエコーよりも激し V、音質劣化が生じてしまうので、ビット不足状態では LONGブロックを選択して符号ィ匕 を行っていた。
[0069] したがって、従来技術では、単に SHORTブロック(1フレームを 8ブロックに分割)とし ONGブロック(分割しな 、)の切り替えのみを行って!/、るだけであるので、変化の大き V、信号が存在するフレームの符号化時に、ビット不足状態だからと 、つて LONGブロ ックを選択した場合には、ビット不足により音質劣化は回避できても、プリエコーによ る音質劣化が生じてしまい、適切な音質劣化抑制が行われていな力つた。
[0070] 一方、オーディオ符号ィ匕装置 10においては、知覚エントロピー PEと余剰ビット数と の組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制す る符号ィ匕ブロック長となるような分割数 Nを求めて、任意の数で分割されたブロック長 を生成し(SHORTブロックや LONGブロックだけでなぐ任意の分割数による任意のブ ロック長を生成する)、そのブロック長単位で MDCT及び量子化を行うので、圧縮率 が高ぐ低ビットレート条件下でのオーディオ符号ィ匕時でも、音質劣化を大幅に改善 することが可能になる。
[0071] 次に第 2の実施の形態のオーディオ符号化装置について説明する。図 4はオーデ ィォ符号化装置の原理図である。オーディオ符号化装置 20は、音響分析部 21、符 号化ビット数監視部 22、フレーム分割数決定部 23、直交変換部 24、量子化部 25、 ビットストリーム生成部 26から構成され、オーディオ信号の符号化を行う装置である。
[0072] 音響分析部 21は、入力されたオーディオ信号 (Input— sig(n))を FFT分析して FFT スペクトルを求め、 FFTスペクトルから音響パラメータの 1つである知覚エントロピー P Eを求める。
[0073] 符号ィ匕ビット数監視部 22は、符号ィ匕の際にあらかじめ設定される平均量子化ビット 数に対する量子化後の符号ィ匕ビット数の過不足 (符号ィ匕ビット数の消費量)をフレー ム毎に求め、現フレームで使用可能なビット数を余剰ビット数 (Available— bit)として 求める。
[0074] フレーム分割数決定部 23は、知覚エントロピー PEと余剰ビット数との組み合わせに もとづいて、プリエコー及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック 長となるように、オーディオ信号の 1フレームを分割する分割数を決定する。
[0075] なお、以降ではオーディオ符号ィ匕装置 20の機能を AACエンコーダに適用したもの として、最大分割数 =8とする(最小ブロック長 = SHORTブロック)。そして、決定した 分割数 (Block— Num)は、直交変換部 24へ出力される。
[0076] 直交変換部 24は、分割数を Nとした際に、 N= 1の場合は、 1フレーム単位で直交 変換 (MDCT)を行って第 1の直交変換係数を求める。また、最大分割数を Nmaxとし た際に、 N = Nmaxの場合は、最大分割数で 1フレームを分割し、最大分割されたブ ロック長単位でオーディオ信号の直交変換を行って第 2の直交変換係数を求める。さ らに、 1 < Nく Nmaxの場合は、最大分割数で 1フレームを分割して第 2の直交変換 係数を求め、分割数 Nで第 2の直交変換係数をグループ化する。
[0077] 量子化部 25は、 N = 1の場合は、第 1の直交変換係数を 1フレーム単位で量子化し 、 N = Nmaxの場合は、第 2の直交変換係数を最大分割されたブロック長単位で量子 化する。さらに、 l < N < Nmaxの場合は、第 2の直交変換係数をグループ化単位で 量子化する。
[0078] 次にオーディオ符号ィ匕装置 20の詳細動作について説明する。図 4において、 102
4サンプルの入力信号 Input— sig (n) (η=0 · · · 1023)力 1フレームとして直交変換部 2
4と音響分析部 21へと入力される。
[0079] 〔音響分析部 21〕
音響分析部 21では、人間の聴覚特性にもとづいて、知覚エントロピー ΡΕを求め、 フレーム分割数決定部 23へ出力する。
[0080] 〔符号化ビット数監視部 22〕
符号ィ匕ビット数監視部 22は、現フレームで使用可能な余剰ビット数 Available— bitを 求めて、フレーム分割数決定部 23へ出力する。 Available— bitは以下の式(1)を用い て求められる。
[0081] Available一 Dit = average一 bit + Reserve一 bit · · · ( 1)
average— bitは、符号ィ匕の際にあら力じめ設定される平均量子化ビット数であり、 Re serve— bitは、ビットリザーバに蓄積されているビット数であって、次式で求められる。
[0082] Reserve一 bit = Prev一 Reserve一 bit + ^average一 bit― quant一 bit J · · · (2)
quant— bitは、前フレームでの量子化後の符号化ビット数、 Prev— Reserve— bitは、 前フレームでの Reserve— bitであり、 Reserve— bitは平均ビット数に対する量子化ビッ ト数の現フレームでの過不足分で表される。
[0083] なお、 average— bitは、式(3)で求められる。
average bit = (bitrate X frame lengthノ/ freq · · · \3) bitrateは、符号化ビットレート [bps]、 frame— lengthはフレーム長 [1024サンプル]、 fre qは入力信号のサンプリング周波数 [Hz]である。
[0084] 〔フレーム分割数決定部 23〕
フレーム分割数決定部 23は、音響分析部 21で求めた知覚エントロピー PEと、符号 化ビット数監視部 22で求めた Available— bitに応じて、分割数 N (Block— Num)を決 定し、直交変換部 24へ出力する。
[0085] 分割数は、上述の図 2に示した変換マップ Mlを使用して求める。すなわち、変換 マップ Mlには、あら力じめ境界線 1から境界線 7が設定されており(境界線の間隔及 び本数は任意に設定可能)、知覚エントロピー PEと余剰ビット数 Available— bitの組 み合わせによるマップ上の位置 C= (Available— bit, PE)に応じて分割数 Nを決定す る。
[0086] 〔直交変換部 24〕
直交変換部 24は、 Block— Num= 1の場合には LONGブロックとして入力信号 102
4点の MDCT変換により、 MDCT係数(MDCT— LONG)を求める(第 1の直交変換 係数 = (MDCT一 LONG) )。
[0087] Block— Num=8の場合には(Nmax=8)、入力信号を SHORTブロック単位の 128 点毎に MDCT変換し、 MDCT係数(MDCT— SHORT)を 8組生成する(第 2の直交 変換係数 = (MDCT— SHORT) )。
[0088] 1 < Block_Num< 8の場合には、ー且、(MDCT— SHORT)を求める。すなわち、 B1 ock— Num = 8のときと同様に、入力信号を SHORTブロック単位の 128点毎に MDC
T変換し、 MDCT係数(MDCT_SHORT)を 8組生成する。
[0089] そして、この 8組の MDCT係数を、あらかじめ定めておいたパターンでグループ化 して、 Block— Num組の MDCT係数を生成する。例えば、 Block— Num = 5であったな らば、 8組の MDCT係数を組み合わせて 5組にグループ化する。
[0090] 図 5はグループ化の一例を示す図である。 1フレームを SHORTブロック単位で 8分 割し、 8分割された 1つの最小ブロック長力 分割数 2〜7でグループィ匕されている様 子を示している。
[0091] 例えば、分割数が 5の場合、ブロック長は図に示すような 5組にグループ化され、グ ループ gl〜g5のグループ化単位で MDCT係数は、後段の量子化部 25へ出力され て、グループ glの MDCT係数の量子化、グループ g2の MDCT係数の量子化とい つたように、グループ化単位での量子化が行われる。
[0092] 図 6はグループ化の一例を示す図である。図に示すように、信号変化点の近傍のブ ロック長ができるだけ短くなるように、グループィ匕の境界を設定することもできる。 図では例えば、最小ブロック長 # 6の近傍に、アタック音のような変化の大きな信号 が含まれる場合には、最小ブロック長 # 6近傍のブロック長ができるだけ短くなるよう に、グループ化の境界を設定している。このように、信号変化点の近傍のブロック長 ができるだけ短くなるように、グループ化の境界を設定することで、プリエコーの低減 化をさらに図ることが可能になる。
[0093] 〔量子化部 25〕
量子ィ匕部 25は、 Block— Num= lの場合には、 MDCT係数(MDCT— LONG)を量 子化する。すなわち、 1フレーム単位の MDCT係数を量子化して量子化値を求める
[0094] Block_Num=8の場合には、 MDCT係数(MDCT_SHORT)を量子化する。すな わち、最大分割数単位 (8組)の MDCT係数を量子化して量子化値を求める。
1 < Block— Numく 8の場合には、グループ化された各 SHORTブロック MDCT係数 (MDCT— SHORT)を、グループ化単位に量子化して量子化値を求める。
[0095] なお、量子化部 25では、上記のいずれの場合分けにおいても、周波数バンド毎に MDCT係数を量子化する。すなわち、 LONGブロックの場合なら 1024個の MDCT 係数を周波数バンド毎に量子化し、 SHORTブロックの場合なら 128個の MDCT係数 を周波数バンド毎に量子化する。また、グループィ匕されている場合、例えば、図 5の グループ glの場合なら、 256 (= 128 X 2)個の MDCT係数を周波数バンド毎に量 子化する。
[0096] また、このとき最終的に出力される総ビット数力 現ブロックで許される使用ビット数 を下回るように、量子化誤差とビット数を調整して最適な量子化を行う。
そして、スペクトル量子化値をビットストリーム生成部 26へ出力する。
[0097] 〔ビットストリーム生成部 26〕 ビットストリーム生成部 26は、量子化部 15で求められた量子化値を送信フォーマツ トに乗せて、ビットストリームを生成し、伝送路を通じて送信する。
[0098] 次にオーディオ符号化装置 20の効果について説明する。図 7は符号化音声の処 理波形を示す図である。本発明で実測した符号ィ匕音声の処理波形を示しており、 (A )は入力信号波形、 (B)はビット不足状態のときに SHORTブロックで符号ィ匕した波形 、(C)は本発明による符号ィ匕波形である。
[0099] (A)の入力信号には、アタック音が含まれている。このような入力信号をビット不足 状態にもかかわらず、 SHORTブロックを選択した場合には、(B)に示すように、ァタツ ク音部の波形が著しく歪んでおり、大きな音質劣化が生じている。
[0100] 一方、本発明のように適切なブロック長に分割して符号ィ匕した場合、 (C)に示すよう に、アタック音部の波形改善が得られていることがわかる。なお、アタック音部の前後 でプリエコー(図中の細かい歪)が発生する力 このプリエコーはわずかな雑音であり 主観的に感じられるものではない。
[0101] このように、プリエコー及びビット不足力 生じる両方の音質劣化を抑制することが でき、リスナーが感じる主観的な音質劣化を大幅に改善することができる。
次にオーディオ符号化装置 10、 20の適用分野について説明する。オーディオ符 号化装置 10、 20は、例えば、 1セグディジタルラジオ放送システムや楽音ダウンロー ドサービスシステムなどに適用可能である。
[0102] 1セグ放送では、従来の地上波ディジタルテレビ放送に比べ伝送帯域が狭い(=伝 送レートが低い)ため、従来よりも情報量の圧縮が必要である。さらにモパイル端末で は、無線で電波を伝送する際に生じるエラー (情報欠落)を抑制するため、符号化情 報に冗長性を持たせて伝送を行う。したがって、冗長性をもたせる分、さらに高い情 報量の圧縮が要求されて 、る。
[0103] 一方、携帯端末への楽音ダウンロードサービスなどでは、携帯端末に搭載されて!、 る記憶媒体のメモリ容量やデータ通信量に伴う課金などのユーザにとっての制約が あるため、より圧縮率が高ぐかつ音質が良い情報量の圧縮が要求されている。
[0104] オーディオ符号化装置 10、 20では、知覚エントロピー PEと余剰ビット数に応じて、 プリエコー及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるよう にフレームを適応的に分割して符号ィ匕を行うので、上記のような、圧縮率が高ぐ低 ビットレートの厳しい条件下において使用しても、音質劣化を大幅に改善することが でき、高品質なオーディオ符号ィ匕を行うことが可能になる。
[0105] 以上説明したように、本発明によれば、音響分析によって得られた知覚エントロピー
(入力信号の変化の度合い)とその時点で使用可能なビット数を監視することにより、 ビット不足による音質劣化を事前に予測し、入力信号に対して、使用可能なビット数 を考慮した最適なブロック長 (ブロック分割数)を決定することができる。これにより、ビ ット不足状態での SHORTブロック選択による著しい音質劣化を回避することが可能に なる。
[0106] また、最大分割数 Nmaxで直交変換した際の周波数スペクトルをグループィ匕するこ とにより、符号ィ匕方式の規格によって分割数が限定される場合でも(例えば、 AACェ ンコーダでは、 1フレームを SHORTブロックにするには、最大分割数 =8)、擬似的に N分割の符号ィ匕を実行することが可能になる。
[0107] さらに、入力信号における変化点の位置に応じて、ブロック境界を決めることにより 、分割数 Nが少な 、場合でも変化点で生じるプリエコーを低減ィ匕することが可能にな る。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が 当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用 例に限定されるものではなぐ対応するすべての変形例および均等物は、添付の請 求項およびその均等物による本発明の範囲とみなされる。
符号の説明
[0108] 10 オーディオ符号化装置
11 音響分析部
12 符号ィ匕ビット数監視部
13 フレーム分割数決定部
14 直交変換部
15 量子化部
16 ビットストリーム生成部 PE 知覚エントロピー

Claims

請求の範囲
[1] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕装置において、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータ である知覚エントロピーを求める音響分析部と、
前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使 用可能なビット数である余剰ビット数を求める符号ィ匕ビット数監視部と、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ 、て、プリエコー 及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ 一ディォ信号の 1フレームを、 1から Nまで N分割するための分割数を決定するフレー ム分割数決定部と、
決定された前記分割数で 1フレームを分割し、分割されたブロック長単位で前記ォ 一ディォ信号の直交変換を行って直交変換係数を求める直交変換部と、
前記ブロック長単位で前記直交変換係数の量子化を行う量子化部と、 を有することを特徴とするオーディオ符号ィ匕装置。
[2] 前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プ リエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくな るように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制す るために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピ 一と前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを 特徴とする請求の範囲第 1項記載のオーディオ符号化装置。
[3] オーディオ信号の符号化を行うオーディオ符号化装置にお!ヽて、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータ である知覚エントロピーを求める音響分析部と、
前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使 用可能なビット数である余剰ビット数を求める符号ィ匕ビット数監視部と、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ 、て、プリエコー 及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ 一ディォ信号の 1フレームを分割する分割数を決定するフレーム分割数決定部と、 前記分割数を Nとした際に、 N= lの場合は、 1フレーム単位で直交変換を行って 第 1の直交変換係数を求め、最大分割数を Nmaxとした際に、 N = Nmaxの場合は、 前記最大分割数で 1フレームを分割し、最大分割されたブロック長単位で前記ォー ディォ信号の直交変換を行って第 2の直交変換係数を求め、 1 < N< Nmaxの場合 は、前記最大分割数で 1フレームを分割して前記第 2の直交変換係数を求め、分割 数 Nで前記第 2の直交変換係数をグループィヒする直交変換部と、
N= lの場合は、前記第 1の直交変換係数を 1フレーム単位で量子化し、 N = Nma Xの場合は、前記第 2の直交変換係数を最大分割されたブロック長単位で量子化し、 1 < N< Nmaxの場合は、前記第 2の直交変換係数をグループ化単位で量子化する 量子化部と、
を有することを特徴とするオーディオ符号ィ匕装置。
[4] 前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プ リエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくな るように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制す るために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピ 一と前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを 特徴とする請求の範囲第 3項記載のオーディオ符号化装置。
[5] 前記直交変換部は、前記オーディオ信号の変化点近傍のブロック長が短くなるよう にグループィ匕の境界を設定することを特徴とする請求の範囲第 3項記載のオーディ ォ符号化装置。
[6] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕方法にぉ 、て、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータ である知覚エントロピーを求め、
前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使 用可能なビット数である余剰ビット数を求め、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ 、て、プリエコー 及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ 一ディォ信号の 1フレームを、 1から Nまで N分割するための分割数を決定し、 決定された前記分割数で 1フレームを分割し、分割されたブロック長単位で前記ォ 一ディォ信号の直交変換を行って直交変換係数を求め、
前記ブロック長単位で前記直交変換係数の量子化を行うことを特徴とするオーディ ォ符号化方法。
[7] 前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制 するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が 少な 、場合は、ビット不足力 生じる音質劣化を抑制するために前記分割数を少なく してブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する 前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 6項 記載のオーディオ符号化方法。
[8] オーディオ信号の符号ィ匕を行うオーディオ符号ィ匕方法にぉ 、て、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータ である知覚エントロピーを求め、
前記オーディオ信号を符号ィ匕した際の符号ィ匕ビット数を監視して、現フレームで使 用可能なビット数である余剰ビット数を求め、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづ 、て、プリエコー 及びビット不足力 生じる音質劣化を抑制する符号ィ匕ブロック長となるように、前記ォ 一ディォ信号の 1フレームを分割する分割数を決定し、
前記分割数を Nとした際に、 N= lの場合は、 1フレーム単位で直交変換を行って 第 1の直交変換係数を求め、
最大分割数を Nmaxとした際に、 N = Nmaxの場合は、前記最大分割数で 1フレーム を分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行つ て第 2の直交変換係数を求め、
l <N<NmaXの場合は、前記最大分割数で 1フレームを分割して前記第 2の直交 変換係数を求め、分割数 Nで前記第 2の直交変換係数をグループ化し、
N= 1の場合は、前記第 1の直交変換係数を 1フレーム単位で量子化し、
N = Nmaxの場合は、前記第 2の直交変換係数を最大分割されたブロック長単位で 量子化し、 1 < N< Nmaxの場合は、前記第 2の直交変換係数をグループ化単位で量子化す ることを特徴とするオーディオ符号ィ匕方法。
[9] 前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制 するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が 少な 、場合は、ビット不足力 生じる音質劣化を抑制するために前記分割数を少なく してブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する 前記分割数の関係を定めた変換マップを有することを特徴とする請求の範囲第 8項 記載のオーディオ符号化方法。
[10] 前記オーディオ信号の変化点近傍のブロック長が短くなるようにグループィ匕の境界 を設定することを特徴とする請求の範囲第 8項記載のオーディオ符号ィ匕方法。
PCT/JP2005/016271 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法 WO2007029304A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP05776793A EP1933305B1 (en) 2005-09-05 2005-09-05 Audio encoding device and audio encoding method
PCT/JP2005/016271 WO2007029304A1 (ja) 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法
KR1020087004552A KR100979624B1 (ko) 2005-09-05 2005-09-05 오디오 부호화 장치 및 오디오 부호화 방법
JP2007534206A JP4454664B2 (ja) 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法
US12/073,276 US7930185B2 (en) 2005-09-05 2008-03-03 Apparatus and method for controlling audio-frame division

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/016271 WO2007029304A1 (ja) 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/073,276 Continuation US7930185B2 (en) 2005-09-05 2008-03-03 Apparatus and method for controlling audio-frame division

Publications (1)

Publication Number Publication Date
WO2007029304A1 true WO2007029304A1 (ja) 2007-03-15

Family

ID=37835441

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/016271 WO2007029304A1 (ja) 2005-09-05 2005-09-05 オーディオ符号化装置及びオーディオ符号化方法

Country Status (5)

Country Link
US (1) US7930185B2 (ja)
EP (1) EP1933305B1 (ja)
JP (1) JP4454664B2 (ja)
KR (1) KR100979624B1 (ja)
WO (1) WO2007029304A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008135A (ja) * 2009-06-29 2011-01-13 Fujitsu Ltd 情報処理装置およびプログラム
WO2013151004A1 (ja) * 2012-04-02 2013-10-10 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP2014531064A (ja) * 2011-10-27 2014-11-20 エルジー エレクトロニクスインコーポレイティド 音声信号符号化方法及び復号化方法とこれを利用する装置
JP2017058663A (ja) * 2015-09-15 2017-03-23 カシオ計算機株式会社 波形データ構造、波形データ格納装置、波形データ格納方法、波形データ取り出し装置、波形データ取り出し方法および電子楽器
WO2024055829A1 (zh) * 2022-09-15 2024-03-21 抖音视界有限公司 音频编码方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5182792B2 (ja) * 2007-10-07 2013-04-17 アルパイン株式会社 マルチコアプロセッサ制御方法及び装置
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
CN103325373A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
US10210854B2 (en) * 2015-09-15 2019-02-19 Casio Computer Co., Ltd. Waveform data structure, waveform data storage device, waveform data storing method, waveform data extracting device, waveform data extracting method and electronic musical instrument

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139089A (ja) * 1985-12-13 1987-06-22 Nippon Telegr & Teleph Corp <Ntt> ベクトル量子化方式
JPH0360529A (ja) * 1989-07-29 1991-03-15 Sony Corp 量子化装置及び量子化方法
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
JP2003345398A (ja) * 2002-05-27 2003-12-03 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法
JP2005003835A (ja) 2003-06-11 2005-01-06 Canon Inc オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3252005B2 (ja) 1993-03-08 2002-01-28 パイオニア株式会社 適応ブロック長変換符号化のブロック長選択装置
JP4499197B2 (ja) 1997-07-03 2010-07-07 ソニー株式会社 ディジタル信号符号化装置及び方法、復号化装置及び方法、並びに伝送方法
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
SG120118A1 (en) * 2003-09-15 2006-03-28 St Microelectronics Asia A device and process for encoding audio data
US7627481B1 (en) * 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139089A (ja) * 1985-12-13 1987-06-22 Nippon Telegr & Teleph Corp <Ntt> ベクトル量子化方式
JPH0360529A (ja) * 1989-07-29 1991-03-15 Sony Corp 量子化装置及び量子化方法
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
JP2003345398A (ja) * 2002-05-27 2003-12-03 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法
JP2005003835A (ja) 2003-06-11 2005-01-06 Canon Inc オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), vol. 3, 7 May 2001 (2001-05-07), pages 1365 - 1368
LITAO GANG ET AL.: "MP3 resistant oblivious steganography", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP), 7 May 2001 (2001-05-07)
See also references of EP1933305A4

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008135A (ja) * 2009-06-29 2011-01-13 Fujitsu Ltd 情報処理装置およびプログラム
JP2014531064A (ja) * 2011-10-27 2014-11-20 エルジー エレクトロニクスインコーポレイティド 音声信号符号化方法及び復号化方法とこれを利用する装置
CN104025189B (zh) * 2011-10-27 2016-10-12 Lg电子株式会社 编码语音信号的方法、解码语音信号的方法,及使用其的装置
US9672840B2 (en) 2011-10-27 2017-06-06 Lg Electronics Inc. Method for encoding voice signal, method for decoding voice signal, and apparatus using same
WO2013151004A1 (ja) * 2012-04-02 2013-10-10 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5738480B2 (ja) * 2012-04-02 2015-06-24 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置及びプログラム
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5734519B2 (ja) * 2012-06-15 2015-06-17 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP2017058663A (ja) * 2015-09-15 2017-03-23 カシオ計算機株式会社 波形データ構造、波形データ格納装置、波形データ格納方法、波形データ取り出し装置、波形データ取り出し方法および電子楽器
JP2017138629A (ja) * 2015-09-15 2017-08-10 カシオ計算機株式会社 データ構造、データ格納装置、データ取り出し装置および電子楽器
WO2024055829A1 (zh) * 2022-09-15 2024-03-21 抖音视界有限公司 音频编码方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JPWO2007029304A1 (ja) 2009-03-12
EP1933305B1 (en) 2011-12-21
EP1933305A4 (en) 2009-08-26
JP4454664B2 (ja) 2010-04-21
US20080154589A1 (en) 2008-06-26
KR100979624B1 (ko) 2010-09-01
US7930185B2 (en) 2011-04-19
EP1933305A1 (en) 2008-06-18
KR20080032240A (ko) 2008-04-14

Similar Documents

Publication Publication Date Title
WO2007029304A1 (ja) オーディオ符号化装置及びオーディオ符号化方法
US7277849B2 (en) Efficiency improvements in scalable audio coding
US6122618A (en) Scalable audio coding/decoding method and apparatus
US6349284B1 (en) Scalable audio encoding/decoding method and apparatus
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
CN103415884B (zh) 用于执行霍夫曼编码的装置和方法
KR100908117B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
CN110706715B (zh) 信号编码和解码的方法和设备
JP2002517025A (ja) スケーラブル音声コーダとデコーダ
JPH11317675A (ja) オ―ディオ情報処理方法
JP2000324183A (ja) 通信装置と通信方法
WO2008065487A1 (en) Method, apparatus and computer program product for stereo coding
JP2004029761A (ja) 音声信号を送信およびパックするためのデジタル符号化方法およびアーキテクチャ
EP1187101B1 (en) Method and apparatus for preclassification of audio material in digital audio compression applications
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
KR100908116B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100975522B1 (ko) 스케일러블 오디오 복/부호화 방법 및 장치
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
JP2001109497A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
Lai et al. A NMR Optimized Bitrate Transcoder for MPEG-2/4 LC-AAC

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007534206

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005776793

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005776793

Country of ref document: EP