WO2009153995A1 - 量子化装置、符号化装置およびこれらの方法 - Google Patents

量子化装置、符号化装置およびこれらの方法 Download PDF

Info

Publication number
WO2009153995A1
WO2009153995A1 PCT/JP2009/002780 JP2009002780W WO2009153995A1 WO 2009153995 A1 WO2009153995 A1 WO 2009153995A1 JP 2009002780 W JP2009002780 W JP 2009002780W WO 2009153995 A1 WO2009153995 A1 WO 2009153995A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
coefficient
quantization
vector signal
power
Prior art date
Application number
PCT/JP2009/002780
Other languages
English (en)
French (fr)
Inventor
利幸 森井
江原 宏幸
吉田 幸司
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2010517730A priority Critical patent/JP5425066B2/ja
Priority to EP09766443.7A priority patent/EP2293292B1/en
Priority to RU2010151983/08A priority patent/RU2486609C2/ru
Priority to US12/990,697 priority patent/US8473288B2/en
Publication of WO2009153995A1 publication Critical patent/WO2009153995A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the present invention relates to a quantization apparatus that quantizes a value related to a transform coefficient when performing stereo encoding by applying principal component analysis transform, an encoding apparatus that performs stereo encoding using the transform coefficient, and a method thereof. .
  • Speech coding is used for communication applications that use narrowband speech in the telephone band (200 Hz to 3.4 kHz).
  • Monaural audio narrowband audio codecs are widely used in communications applications such as mobile telephones, teleconferencing equipment and recently voice communications over packet networks (eg, the Internet).
  • a monaural signal that is the sum of a left channel signal and a right channel signal and a side signal that is a difference between the left channel signal and the right channel signal are obtained, and the monaural signal and the side signal are encoded.
  • a method of encoding each signal is known (see Patent Document 1 and Patent Document 2).
  • the left channel signal and the right channel signal are signals representing sounds coming from human ears, and the monaural signal can represent the common part of the left channel signal and the right channel signal, and the side signal represents the left channel signal. And the spatial difference between the right channel signal and the right channel signal.
  • the left channel signal L and the right channel signal R of a stereo signal are expressed by using the two weighting factors W 1 and W 2 as shown in the equations (1-1) and (1-2),
  • a method for converting to a monaural signal M and a side signal S is disclosed.
  • x 1 and i indicate the left channel signal L
  • x 2 and i indicate the right channel signal R
  • y 1 and i indicate the monaural signal M
  • y 2 and i indicate the side signal S.
  • I is an index indicating time.
  • the left channel signal L and the right channel signal R are signals that enter from the left and right sides of the person's head and have high correlation. Therefore, a signal that represents most of the left and right signals is obtained by the monaural signal M, and the side signal S Thus, a signal representing a spatial difference component between the left and right signals can be obtained.
  • appropriate encoding according to the respective characteristics becomes possible, and the left channel signal L and The redundancy is less than when the right channel signal R is encoded as it is, and high-quality encoding can be realized at a low bit rate.
  • W 1 and W 2 can be obtained from the relationship of the equations (3-1) and (3-2). Therefore, instead of the two weighting factors W 1 and W 2 , it is only necessary to notify the decoding side of the rotation angle ⁇ , so that the encoding efficiency is improved as compared with the case of notifying the two weighting factors W 1 and W 2 . be able to. Further, instead of the rotation angle ⁇ , one of the two weighting factors W 1 and W 2 may be notified to the decoding side. This is because the two weighting factors W 1 and W 2 satisfy the relationship of the expression (2), and if one of them is known, the other is also known.
  • Patent Document 2 discloses a method of obtaining the weighting factor by principal component analysis and notifying one of the two weighting factors to the decoding side. Specifically, an iterative method using Oja rules is described.
  • Non-Patent Document 1 and Non-Patent Document 2 disclose a method for performing principal component analysis using KL transform (Karhunen-Loeve-Transform). Specifically, an algorithm for obtaining a rotation angle for converting two vectors by KL conversion is disclosed.
  • Non-Patent Document 2 discloses a method for obtaining the rotation angle ⁇ from the power of the first signal, the power of the second signal, and the correlation value between the first signal and the second signal.
  • the rotation angle ⁇ is derived by an algorithm for obtaining an eigenvector (an element sum of squares is 1) by eigenvalue expansion using a two-dimensional correlation matrix. By separating the obtained rotation angle ⁇ and transmitting it, signal separation and coding can be performed efficiently.
  • An example of quantization is scalar quantization using a table.
  • the power C 11 of the input left channel signal L, the power C 22 of the right channel signal R, and the correlation value C 12 are calculated using equations (4-1) to (4-3).
  • Non-Patent Document 2 discloses a rotation angle calculation method by PCA (Principal Component Analysis), which is one of the methods for obtaining a coefficient of KL conversion.
  • Formula (5) shows the calculation formula for the rotation angle disclosed in Non-Patent Document 2.
  • the quantization code corresponding to the rotation angle closest to the rotation angle ⁇ obtained by Expression (5) is notified to the decoding side from a plurality of sets in which the rotation angle and the quantization code are associated in advance.
  • the encoding efficiency can be improved as compared with the case where the two transform coefficients W 1 and W 2 required when performing the principal component analysis are notified.
  • Non-Patent Document 2 efficient encoding is performed by quantizing the rotation angle when two vectors (signal or spectrum) are converted into different vectors by principal component analysis.
  • Non-Patent Document 1 discloses an example in which the quantization target is the coefficient itself of KL transform instead of the rotation angle.
  • the quantization method disclosed in Non-Patent Document 2 requires a calculation such as division and trigonometric function in calculating the rotation angle ⁇ . There is a problem. Also, the quantization method disclosed in Non-Patent Document 1 must eventually calculate coefficients by principal component analysis, which requires division and square root calculation. There is a problem that there are many.
  • the present invention has been made in view of such a point, and reduces the amount of calculation when quantizing values related to transform coefficients of principal component analysis transformation when performing principal encoding by applying principal component analysis transformation. It is an object of the present invention to provide a quantization apparatus that can perform the encoding, an encoding apparatus that performs stereo encoding using the transform coefficient, and a method thereof.
  • a quantization apparatus is a quantization apparatus that quantizes a value related to a transform coefficient when principal component analysis transform is performed on a first vector signal and a second vector signal, wherein the first vector signal has power, A power of two vector signals, a power / correlation calculating means for calculating a correlation value between the first vector signal and the second vector signal, a power of the first vector signal, and a power of the second vector signal.
  • Intermediate value calculation means for calculating a result obtained by performing the difference calculation used as an intermediate value, and a code for holding a plurality of numbered pairs of first coefficient and second coefficient related to the conversion coefficient
  • the encoding device of the present invention rotates the first vector signal and the second vector signal using the quantization device and the transform coefficient corresponding to the code selected by the quantization means,
  • a configuration is provided that includes a conversion unit that obtains a monaural signal and a side signal, a first encoding unit that encodes the monaural signal, and a second encoding unit that encodes the side signal.
  • the quantization method of the present invention is a quantization method for quantizing a value related to a transform coefficient when principal component analysis transform is performed on a first vector signal and a second vector signal, the power of the first vector signal, A step of calculating a power of two vector signals, a correlation value between the first vector signal and the second vector signal, and a difference calculation using the power of the first vector signal and the power of the second vector signal Calculating the result obtained by performing as an intermediate value, and reading the first number read from a codebook that holds a plurality of numbered pairs of the first coefficient and the second coefficient related to the transform coefficient An addition result of a first multiplication result obtained by multiplying a coefficient by the correlation value and a second multiplication result obtained by multiplying the second coefficient by the intermediate value is calculated as a reference value, Reference value Based on of it come, and to have a step of selecting the number as a code.
  • the main component analysis transformation is applied to perform stereo coding without performing arithmetic processing such as trigonometric function and division. Since the quantization code corresponding to the transform coefficient can be obtained, it is possible to reduce the amount of calculation when quantizing the value related to the transform coefficient of the principal component analysis transform.
  • the block diagram which shows the structure of the encoding apparatus containing the quantization apparatus which concerns on one embodiment of this invention The figure which shows an example of the table hold
  • the block diagram which shows the structure of the decoding apparatus which concerns on the said one embodiment The figure which shows an example of the table hold
  • two vectors input to the quantization device are a left channel signal and a right channel signal in a stereo signal.
  • FIG. 1 is a block diagram showing a main configuration of an encoding apparatus including a quantization apparatus according to the present embodiment. 1 mainly includes a quantizing device 110, a transforming unit 120, a monaural coding unit 130, a side coding unit 140, and a multiplexing unit 150.
  • the quantization apparatus 110 acquires the transform coefficients W 1 and W 2 used when the principal component analysis is performed in the transform unit 120 from the left channel signal L and the right channel signal R in the stereo signal, and the obtained transform coefficient W 1. , W 2 are output to the conversion unit 120. Further, the quantization device 110 acquires the quantization code corresponding to the transform coefficients W 1 and W 2 and outputs the acquired quantization code to the multiplexing unit 150.
  • the internal configuration of the quantization device 110 will be described later.
  • the conversion unit 120 uses the transform coefficients W 1 and W 2 output from the quantization device 110 to convert the left channel signal L and the right channel signal R into Equations (6-1) and (6-2). Thus, the signal is converted into a monaural signal M and a side signal S.
  • Equations (6-1) and (6-2) x 1 and i indicate the left channel signal L, and x 2 and i indicate the right channel signal R. Further, y 1 and i indicate the monaural signal M, and y 2 and i indicate the side signal S.
  • I is an index indicating time.
  • the conversion unit 120 outputs the monaural signal M to the monaural encoding unit 130 and outputs the side signal S to the side encoding unit 140.
  • the monaural encoding unit 130 encodes the monaural signal M and outputs the obtained encoded data to the multiplexing unit 150.
  • the side encoding unit 140 encodes the side signal S and outputs the obtained encoded data to the multiplexing unit 150.
  • the multiplexing unit 150 multiplexes the encoded data of the monaural signal M, the encoded data of the side signal S, and the quantization code, and outputs a multiplexed bit stream.
  • the quantization apparatus 110 includes a power / correlation calculation unit 111, an intermediate value calculation unit 112, a codebook 113, and a quantization unit 114.
  • the power / correlation calculation unit 111 uses the expressions (7-1) to (7-3) to input the power C 11 of the input left channel signal L, the power C 22 of the right channel signal R, and the correlation value to calculate the C 12.
  • the power / correlation calculation unit 111 outputs the powers C 11 and C 22 and the correlation value C 12 to the intermediate value calculation unit 112, and outputs the correlation value C 12 to the quantization unit 114.
  • the intermediate value calculation unit 112 calculates the intermediate value C 1122 from Expression (8) using the powers C 11 and C 22 , and outputs the intermediate value C 1122 to the quantization unit 114.
  • the code book 113 holds a plurality of coefficients ⁇ 1, n , ⁇ 2, n used in the quantization unit 114.
  • FIG. 2 shows an example of a table held by the code book 113.
  • FIG. 2 is an example of a table used when the coefficients ⁇ 1, n and ⁇ 2, n are scalar-coded with 3 bits. As shown in FIG. 2, the table is numbered with coefficients ⁇ 1, n , ⁇ 2, n .
  • the numerical value of the number is described in FIG. 2 in the binary system, it is not actually necessary to store this numerical value in the memory, and the order of the coefficients (the number indicating the order) is used as a code.
  • FIG. 2 shows an example in which the codebook 113 holds coefficients ⁇ 1, n , ⁇ 2, n and conversion coefficients W 1 , W 2 corresponding to the coefficients ⁇ 1, n , ⁇ 2, n in advance. Has been.
  • the quantization unit 114 selects, from the codebook 113, coefficients ⁇ 1, n and ⁇ 2, n that maximize the cost function E expressed by the equation (9).
  • the quantization unit 114 outputs the numbers of the selected coefficients ⁇ 1, n and ⁇ 2, n as codes (quantization codes) to the multiplexing unit 150. Further, the quantization unit 114 outputs the transform coefficients W 1 and W 2 corresponding to the selected coefficients ⁇ 1, n and ⁇ 2, n to the transform unit 120.
  • conversion section 120 converts left channel signal L and right channel signal R into monaural signal M and side signal S using equations (6-1) and (6-2). .
  • the conversion unit 120 performs KL conversion.
  • equation (12) is obtained.
  • equation (13) is obtained.
  • the coefficients ⁇ 1, n and ⁇ 2, n are quantized and notified to the decoding side. Therefore, the codebook 113 holds the coefficients ⁇ 1, n and ⁇ 2, n and the quantization code in association with each other.
  • the coefficients ⁇ 1, n , ⁇ 2, n and the rotation angle ⁇ have the relationship of the equations (14-1) and (14-2), so that on the decoding side, the quantization code is used.
  • the coefficients ⁇ 1, n , ⁇ 2, n and the rotation angle ⁇ can be associated with each other on a one-to-one basis.
  • the quantization unit 114 selects a quantization code associated with the coefficients ⁇ 1, n , ⁇ 2, n that maximizes the cost function E represented by Expression (9). As a result, it is possible to obtain a quantized code corresponding to a transform coefficient when performing stereo coding by applying principal component analysis transform without performing arithmetic processing such as trigonometric function and division. The amount of calculation can be reduced.
  • Equation (9) there is a relationship such as Equation (15-1) and Equation (15-2) between the coefficients ⁇ 1, n and ⁇ 2, n and the transformation coefficients W 1 , W 2. Therefore, the codebook 113 holds the conversion coefficients W 1 and W 2 corresponding to the coefficients ⁇ 1, n and ⁇ 2, n in advance in a table format. Thereby, the quantization unit 114 can immediately acquire the transform coefficients W 1 and W 2 corresponding to the selected coefficients ⁇ 1, n , ⁇ 2 and n, and does not need to calculate the transform coefficients W 1 and W 2. Therefore, the amount of calculation required for principal component analysis can be further reduced.
  • FIG. 3 is a block diagram showing a main configuration of a decoding apparatus that decodes a bitstream transmitted from encoding apparatus 100 according to the present embodiment.
  • the decoding device 200 shown in FIG. 3 mainly includes a separation unit 210, a monaural decoding unit 220, a side decoding unit 230, an inverse quantization device 240, and an inverse transform unit 250.
  • the separation unit 210 separates the bit stream into encoded data of the monaural signal M, encoded data of the side signal S, and quantization code. Separation section 210 then outputs the encoded data of monaural signal M to monaural decoding section 220, outputs the encoded data of side signal S to side decoding section 230, and outputs the quantized code to inverse quantization apparatus 240. To do.
  • the monaural decoding unit 220 decodes the encoded data of the monaural signal M, and outputs the obtained monaural regeneration signal M ′ to the inverse conversion unit 250.
  • the side decoding unit 230 decodes the encoded data of the side signal S and outputs the obtained side regeneration signal S ′ to the inverse conversion unit 250.
  • the inverse quantization device 240 calculates weighting factors W 1 and W 2 from the rotation angle ⁇ corresponding to the quantization code, and outputs the obtained weighting factors W 1 and W 2 to the inverse transform unit 250. Note that the internal configuration of the inverse quantization apparatus 240 will be described later.
  • the inverse transform unit 250 uses the weight coefficients W 1 and W 2 , the monaural regeneration signal M ′, and the side regeneration signal S ′ to regenerate the left channel from Equation (16-1) and Equation (16-2).
  • a signal L ′ and a right channel regeneration signal R ′ are obtained.
  • x ′ 1, i indicates the left channel regeneration signal L ′
  • x ′ 2, i indicates the right channel regeneration signal R ′.
  • y ′ 1, i indicates the monaural regeneration signal M ′
  • y ′ 2, i indicates the side regeneration signal S ′.
  • I is an index indicating time.
  • the inverse quantization device 240 has a codebook 241 and an inverse quantization unit 242.
  • the codebook 241 holds a plurality of sets of rotation angles and quantization codes.
  • FIG. 4A shows an example of a table held by the code book 241.
  • FIG. 4A is an example of a table used when a rotation angle is 3 bits and scalar encoding is performed. As illustrated in FIG. 4A, the rotation angle and the quantization code are associated with each other in the table.
  • the coefficients ⁇ 1, n , ⁇ 2, n and the rotation angle ⁇ have the relationship of the equations (14-1) and (14-2), so the table includes the coefficients
  • the rotation angle and the quantization code are associated with each other such that ⁇ 1, n , ⁇ 2, n and the rotation angle ⁇ have a one-to-one correspondence through the quantization code.
  • the inverse quantization unit 242 selects the rotation angle ⁇ corresponding to the quantization code, and uses the selected rotation angle ⁇ and Equations (17-1) and (17-2) to weight factors W 1 , W 2. And the obtained weighting factors W 1 and W 2 are output to the inverse transform unit 250.
  • the codebook 241 holds the transform coefficients W 1 and W 2 corresponding to the rotation angles ⁇ 1 to ⁇ 8 in advance, and the inverse quantization device 240 reverses the transform coefficients W 1 and W 2 corresponding to the quantization code.
  • the inverse conversion unit 250 can omit the calculations of the equations (17-1) and (17-2).
  • FIG. 4B shows an example of a table in which quantization codes, rotation angles ⁇ 1 to ⁇ 8, and transform coefficients W 1 and W 2 are associated with each other.
  • the quantization code associated with the coefficients ⁇ 1, n , ⁇ 2, n that maximizes the cost function E represented by Expression (9) is selected.
  • the same quantization code on the encoding side and the decoding side includes coefficients ⁇ 1, n , ⁇ 2, n and a rotation angle ⁇ satisfying the relationship of Expression (14-1) and Expression (14-2).
  • the quantization code corresponding to the rotation angle ⁇ is notified to the decoding side as in the conventional case, so that the conventional configuration is not changed without changing the configuration on the decoding side. Can be used.
  • the codebook 113 holds a table in which the quantization code and the conversion coefficients W 1 and W 2 corresponding to the quantization code are associated with each other, and the quantization unit 114 has the conversion unit 120. It was designed to output the transform coefficients W 1, W 2, the present invention is not limited thereto.
  • the codebook 113 holds a table in which the coefficients ⁇ 1, n , ⁇ 2, n and the quantization code are associated, and the conversion unit 120 converts the quantization code and the conversion corresponding to the quantization code.
  • a table in which the coefficients W 1 and W 2 are associated may be held.
  • the quantization unit 114 outputs the quantization code associated with the coefficients ⁇ 1, n , ⁇ 2, n that maximizes the cost function E represented by the equation (9) to the conversion unit 120,
  • the conversion unit 120 may perform principal component analysis conversion using the conversion coefficients W 1 and W 2 corresponding to the quantization code.
  • the inverse transform unit 250 may hold a table in which the quantization code is associated with the transform coefficients W 1 and W 2 corresponding to the quantization code.
  • the decoded sound decoded by the conventional decoding device is only slightly different from the conventional decoded sound in digital samples, and the encoding method according to the present embodiment is theoretical. In particular, it was verified that the conventional features were not lost at all.
  • the two stereo signals are represented using the names of the left channel signal and the right channel signal.
  • a more general first channel signal, second channel signal, or first vector signal can also be used.
  • the present invention may use a frequency spectrum on the frequency axis as an input vector.
  • a partial section of a signal on the time axis or the frequency axis may be used as an input vector. This is because the present invention does not depend on vector properties such as the type of vector.
  • the decoding apparatus according to the above embodiment has been described by taking as an example the case where the bit stream transmitted by the encoding apparatus according to the above embodiment is received and processed.
  • the present invention is not limited to this, and the bitstream received and processed by the decoding apparatus according to the above embodiment is an encoding apparatus capable of generating a bitstream that can be processed by the decoding apparatus according to the above embodiment. As long as it is sent.
  • the present invention is also effective when the information encoded on the encoding side is stored in a recording medium. is there. Audio signals are often used by being stored in a recording medium such as a memory or a disk, and the present invention is also effective in that case.
  • the encoded information may be printed on a medium such as a print code, and the encoded information printed on the decoding side may be read.
  • the present invention is not limited in the number of channels, and is effective even in the case of multi-channels such as 5.1 ch, with a time difference from a fixed channel. If a correlated channel is clarified, it can be applied as it is.
  • the above description is an illustration of a preferred embodiment of the present invention, and the scope of the present invention is not limited to this.
  • the present invention can be applied to any system as long as the system includes an encoding device and a decoding device.
  • the encoding device and the decoding device according to the present invention can be mounted on a communication terminal device and a base station device in a mobile communication system, whereby a communication terminal device and a base having the same operational effects as described above.
  • a station apparatus and a mobile communication system can be provided.
  • the present invention can also be realized by software.
  • the function according to the present invention can be realized by describing the algorithm according to the present invention in a programming language, storing the program in a memory, and causing the information processing means to execute the same function as the encoding apparatus according to the present invention. it can.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI LSI
  • IC system LSI
  • super LSI ultra LSI
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the quantization device, the coding device, and these methods according to the present invention are suitable for use in mobile phones, IP phones, video conferences, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 主成分分析変換を適用してステレオ符号化を行う場合において、主成分分析変換の変換係数に関する値を量子化する際の計算量を削減する量子化装置、符号化装置およびこれらの方法を開示する。量子化装置(110)は、左チャネル信号のパワC11、右チャネル信号のパワC22、左チャネル信号と右チャネル信号との相関値C12を算出するパワ・相関計算部(111)と、パワC11とパワC22の差である中間値C1122を算出する中間値計算部(112)と、主成分分析変換の変換係数に関する係数γ1,n,γ2,nおよび符号の組を、複数保持する符号帳(113)と、係数γ1,nに相関値C12を乗算し得られる第1の乗算結果と、係数γ1,nに中間値C1122を乗算して得られる第2の乗算結果との加算結果を、コスト関数Eとして算出し、コスト関数Eが最大となる係数γ1,n,γ2,nを選択し、選択した係数γ1,n,γ2,nに対応する符号を量子化符号として取得する量子化部(114)と、を備える。

Description

量子化装置、符号化装置およびこれらの方法
 本発明は、主成分分析変換を適用してステレオ符号化を行う際の変換係数に関する値を量子化する量子化装置、当該変換係数を用いてステレオ符号化を行う符号化装置およびこれらの方法に関する。
 音声符号化は、電話帯域(200Hz~3.4kHz)の狭帯域音声を使用する通信用途に用いられる。モノラル音声の狭帯域音声コーデックは、移動電話、遠隔会議機器や最近ではパケットネットワーク(たとえば、インターネット)上での音声通信などの通信用途に広く使用されている。
 近年、通信ネットワークのブロードバンド化に伴い、音声通信に対して臨場感や音楽に対する品質の高さが求められるようになり、このニーズに応えるために、ステレオ音声の符号化技術を用いた音声通信システムの開発が進められている。
 従来から、ステレオ音声を符号化する方法として、左チャネル信号と右チャネル信号との和であるモノラル信号と、左チャネル信号と右チャネル信号との差であるサイド信号とを求め、モノラル信号とサイド信号とをそれぞれ符号化する方法が知られている(特許文献1および特許文献2参照)。
 左チャネル信号と右チャネル信号とは、人間のそれぞれの耳から入る音を表す信号であり、モノラル信号によって左チャネル信号と右チャネル信号との共通部分を表すことができ、サイド信号によって左チャネル信号と右チャネル信号との空間的な違いを表すことができる。
 左チャネル信号と右チャネル信号との相関性が高いことから、これらの信号をモノラル信号とサイド信号とに変換してから符号化する方が、直接符号化するよりも、モノラル信号とサイド信号との特徴に応じた適切な符号化が可能になり、冗長性を少なくすることができ、低ビットレートで高品質な符号化を実現することができる。
 特許文献2には、ステレオ信号の左チャネル信号Lおよび右チャネル信号Rを、2つの重み係数W、Wを用いて、式(1-1)、式(1-2)のように、モノラル信号Mおよびサイド信号Sに変換する方法が開示されている。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1-1)、式(1-2)において、x1,iは、左チャネル信号Lを示し、x2,iは、右チャネル信号Rを示す。また、y1,iは、モノラル信号Mを示し、y2,iは、サイド信号Sを示す。また、iは、時間を示すインデックスである。
 左チャネル信号Lと右チャネル信号Rとは、人の頭の左右両側からそれぞれ入る信号であり、相関が高いことから、モノラル信号Mによって左右の信号の大部分を表す信号を求め、サイド信号Sによって左右の信号の空間的な違いの成分を表す信号を求めることができる。このように、左チャネル信号Lと右チャネル信号Rとを、モノラル信号Mとサイド信号Sとに変換することにより、それぞれの特徴に応じた適切な符号化が可能になり、左チャネル信号Lと右チャネル信号Rとをそのまま符号化する場合よりも冗長性が少なく、低ビットレートで高品質な符号化が実現できる。
 このとき、2つの重み係数W、Wを、式(2)の関係を満たすように設定すると、式(1-1)、式(1-2)は、左チャネル信号Lおよび右チャネル信号Rベクトルを回転させることと等価になる。
Figure JPOXMLDOC01-appb-M000002
 この場合の回転角度αと重み係数W、Wとの関係を、式(3-1)、式(3-2)に示す。
Figure JPOXMLDOC01-appb-M000003
 復号側では、回転角度αがわかれば、式(3-1)、式(3-2)の関係からW、Wを得ることができる。したがって、2つの重み係数W、Wに代えて、回転角度αを復号側に通知すればよいので、2つの重み係数W、Wを通知する場合に比べ、符号化効率を向上させることができる。また、回転角度αに代えて、2つの重み係数W、Wのうちいずれか一方を復号側に通知するようにしてもよい。2つの重み係数W、Wは、式(2)の関係を満たすので、いずれか一方がわかれば他方もわかるからである。
 特許文献2には、上記重み係数を主成分分析により求め、2つの重み係数のうちいずれか一方を復号側に通知する方法が開示されている。具体的には、Ojaのルールを使用した繰り返し方法が記載されている。
 さらに、非特許文献1および非特許文献2には、KL変換(Karhunen-Loeve Transform)を用いて、主成分分析を行う方法が開示されている。具体的には、2つのベクトルを変換するための回転角度をKL変換で求めるアルゴリズムが開示されている。例えば、非特許文献2には、第1信号のパワ、第2信号のパワ、および、第1信号と第2信号との相関値から回転角度θを求める方法が開示されている。回転角度θは、2次元相関行列を用いた固有値展開による固有ベクトル(要素の2乗和が1)を求めるアルゴリズムにより導かれる。得られた回転角度θを量子化して伝送するという方法により、信号の分離と符号化を効率良く行うことができる。量子化の一例としては、テーブルを利用したスカラ量子化が挙げられる。
 以下、非特許文献2に記載される量子化方法について説明する。
 先ず、式(4-1)~式(4-3)を用いて、入力される左チャネル信号LのパワC11、右チャネル信号RのパワC22、および、相関値C12を算出する。
Figure JPOXMLDOC01-appb-M000004
 さらに、パワC11、C22および相関値C12用いて、回転角度αを算出する。非特許文献2には、KL変換の係数を求める方法の1つであるPCA(Principal Component Analysis)による回転角度の算出方法が開示されている。非特許文献2に開示されている回転角度の算出式を式(5)に示す。
Figure JPOXMLDOC01-appb-M000005
 そして、予め回転角度と量子化符号とが対応付けられた複数の組から、式(5)によって得られた回転角度αに最も近い回転角度に対応した量子化符号を、復号側に通知する。これにより、主成分分析を行う際に必要となる2つの変換係数W、Wを通知する場合に比べ、符号化効率を向上させることができる。
 このように、非特許文献2では、2つのベクトル(信号またはスペクトル)を主成分分析により異なるベクトルに変換する際の回転角度を量子化することにより、効率的な符号化を行う。また、非特許文献1には、回転角度に代え、量子化対象をKL変換の係数そのものとする例が開示されている。
特開2001-255892号公報 特表2005-522721号公報
Yang,他"High-Fidelity Multichannel Audio Coding With Karhunen-Loeve Transform" IEEE Trans. Speech and Audio processing, VOL 11, No.4, JULY 2003 Virette,他"PANAMETRIC CODING OF STEREO AUDIO BASED ON PRINCIPAL COMPONENT ANALYSIS",Proc. of the Comference on Digital Audio Effects(DAFx-06), September  18-20, 2006
 しかしながら、非特許文献2に開示されている量子化方法は、式(5)から明らかなように、回転角度αの算出において、除算および三角関数等の計算が必要となるため、計算量が多いという課題がある。また、非特許文献1に開示されている量子化方法も、結局主成分分析により係数を計算しなくてはならず、除算や平方根の計算が必要となり、上記非特許文献2と同様に計算量が多いという課題を有する。
 本発明はかかる点に鑑みてなされたものであり、主成分分析変換を適用してステレオ符号化を行う場合において、主成分分析変換の変換係数に関する値を量子化する際の計算量を削減することができる量子化装置、当該変換係数を用いてステレオ符号化を行う符号化装置およびこれらの方法を提供することを目的とする。
 本発明の量子化装置は、第1ベクトル信号および第2ベクトル信号を主成分分析変換する際の変換係数に関する値を量子化する量子化装置であって、前記第1ベクトル信号のパワ、前記第2ベクトル信号のパワ、および、前記第1ベクトル信号と前記第2ベクトル信号との相関値を算出するパワ・相関算出手段と、前記第1ベクトル信号のパワと前記第2ベクトル信号のパワとを用いた差分演算を行って得られる結果を中間値として算出する中間値算出手段と、前記変換係数に関する、番号付けられた、第1の係数と第2の係数との組を、複数保持する符号帳と、前記第1の係数に前記相関値を乗算し得られる第1の乗算結果と、前記第2の係数に前記中間値を乗算して得られる第2の乗算結果との加算結果を、参照値として算出し、前記参照値の大きさに基づいて、前記番号を符号として選択する量子化手段と、を具備する構成を採る。
 本発明の符号化装置は、上記量子化装置と、前記量子化手段により選択された前記符号に対応する前記変換係数を用いて、前記第1ベクトル信号および前記第2ベクトル信号を回転させて、モノラル信号およびサイド信号を得る変換手段と、前記モノラル信号を符号化する第1符号化手段と、前記サイド信号を符号化する第2符号化手段と、を具備する構成を採る。
 本発明の量子化方法は、第1ベクトル信号および第2ベクトル信号を主成分分析変換する際の変換係数に関する値を量子化する量子化方法であって、前記第1ベクトル信号のパワ、前記第2ベクトル信号のパワ、および、前記第1ベクトル信号と前記第2ベクトル信号との相関値を算出するステップと、前記第1ベクトル信号のパワと前記第2ベクトル信号のパワとを用いた差分演算を行って得られる結果を中間値として算出するステップと、前記変換係数に関する、番号付けられた、第1の係数と第2の係数との組を複数保持する符号帳から読み出した前記第1の係数に前記相関値を乗算し得られる第1の乗算結果と、前記第2の係数に前記中間値を乗算して得られる第2の乗算結果との加算結果を、参照値として算出し、前記参照値の大きさに基づいて、前記番号を符号として選択するステップと、を有するようにした。
 本発明によれば、主成分分析変換を適用してステレオ符号化を行う場合において、三角関数、除算等の演算処理を行うことなく、主成分分析変換を適用してステレオ符号化を行う際の変換係数に対応する量子化符号を得ることができるので、主成分分析変換の変換係数に関する値を量子化する際の計算量を削減することができる。
本発明の一実施の形態に係る量子化装置を含む符号化装置の構成を示すブロック図 上記一実施の形態に係る符号化装置が備える符号帳に保持されるテーブルの一例を示す図 上記一実施の形態に係る復号装置の構成を示すブロック図 上記一実施の形態に係る復号装置が備える符号帳に保持されるテーブルの一例を示す図 上記一実施の形態に係る復号装置が備える符号帳に保持されるテーブルの一例を示す図
 以下、本発明の一実施の形態について、図面を用いて説明する。なお、本実施の形態では、量子化装置に入力される2つのベクトルが、ステレオ信号における左チャネル信号と右チャネル信号である場合を例に説明する。
 図1は、本実施の形態に係る量子化装置を含む符号化装置の要部構成を示すブロック図である。図1に示す符号化装置100は、量子化装置110と、変換部120と、モノラル符号化部130と、サイド符号化部140と、多重化部150とから主に構成される。
 量子化装置110は、ステレオ信号における左チャネル信号Lおよび右チャネル信号Rから、変換部120において主成分分析を行う際に用いられる変換係数WおよびWを取得し、取得した変換係数W、Wを変換部120に出力する。また、量子化装置110は、変換係数WおよびWに対応する量子化符号を取得し、取得した量子化符号を多重化部150に出力する。なお、量子化装置110の内部構成については、後述する。
 変換部120は、量子化装置110から出力される変換係数W、Wを用いて、左チャネル信号Lおよび右チャネル信号Rを、式(6-1)および式(6-2)を用いて、モノラル信号M、および、サイド信号Sに変換する。
Figure JPOXMLDOC01-appb-M000006
 なお、式(6-1)、式(6-2)において、x1,iは、左チャネル信号Lを示し、x2,iは、右チャネル信号Rを示す。また、y1,iは、モノラル信号Mを示し、y2,iは、サイド信号Sを示す。また、iは、時間を示すインデックスである。
 そして、変換部120は、モノラル符号化部130にモノラル信号Mを出力し、サイド符号化部140にサイド信号Sを出力する。
 モノラル符号化部130は、モノラル信号Mを符号化し、得られた符号化データを多重化部150に出力する。サイド符号化部140は、サイド信号Sを符号化し、得られた符号化データを多重化部150に出力する。
 多重化部150は、モノラル信号Mの符号化データ、サイド信号Sの符号化データおよび量子化符号を多重化し、多重化後のビットストリームを出力する。
 次いで、量子化装置110の内部構成について説明する。
 量子化装置110は、パワ・相関計算部111、中間値計算部112、符号帳113および量子化部114を有する。
 パワ・相関計算部111は、式(7-1)~式(7-3)を用いて、入力される左チャネル信号LのパワC11、右チャネル信号RのパワC22、および、相関値C12を算出する。
Figure JPOXMLDOC01-appb-M000007
 パワ・相関計算部111は、パワC11、C22、および、相関値C12を中間値計算部112に出力し、相関値C12を量子化部114に出力する。
 中間値計算部112は、パワC11、C22を用いて、式(8)より中間値C1122を算出し、中間値C1122を量子化部114に出力する。
Figure JPOXMLDOC01-appb-M000008
 符号帳113は、量子化部114において用いられる係数γ1,n,γ2,nを複数保持する。図2に、符号帳113が保持するテーブルの一例を示す。図2は、係数γ1,nおよびγ2,nが3ビットでスカラ符号化される場合に用いられるテーブルの一例である。図2に示すように、テーブルには、係数γ1,n,γ2,nに番号が付けられている。なお、図2には2進法で番号の数値を記載しているが、実際にはこの数値をメモリに記憶することは必要なく、係数の順番(順序を示す番号)を符号とする。また、図2は、符号帳113が、係数γ1,n,γ2,nと、係数γ1,n,γ2,nに対応する変換係数W、Wを予め保持する例が示されている。
 量子化部114は、式(9)によって表されるコスト関数Eを最大とする係数γ1,nおよびγ2,nを、符号帳113から選択する。
Figure JPOXMLDOC01-appb-M000009
 さらに、量子化部114は、選択した係数γ1,nおよびγ2,nの番号を符号(量子化符号)として多重化部150に出力する。また、量子化部114は、選択した係数γ1,nおよびγ2,nに対応する変換係数W、Wを変換部120に出力する。
 例えば、係数γ1,n,γ2,nが、(γ1,n,γ2,n)=(g31,g32)の場合に、式(9)のコスト関数Eが最大となる場合、量子化部114は、量子化符号として、上記係数γ1,nおよびγ2,nの組に対応する番号「010」を選択して多重化部150に出力する。また、量子化部114は、選択した量子化符号「010」に対応する変換係数(W,W)=(ω31,ω32)を変換部120に出力する。
 以下、係数γ1,nおよびγ2,nと変換係数W、Wとの関係について説明する。
 上述したように、変換部120は、式(6-1)および式(6-2)を用いて、左チャネル信号Lおよび右チャネル信号Rを、モノラル信号M、および、サイド信号Sに変換する。このようにして、変換部120は、KL変換を行う。ここで、KL変換係数と回転角度αとの間には、式(10-1)、式(10-2)のような関係がある。したがって、W,Wは、式(10-3)を満たす。
Figure JPOXMLDOC01-appb-M000010
 式(9)で表されるコスト関数Eは、式(10-3)を用いて、式(11)のようにKL変換係数Wのみを用いた式に書き替えられる。
Figure JPOXMLDOC01-appb-M000011
 ここで、上記式(11)をWで偏微分すると、式(12)を得る。
Figure JPOXMLDOC01-appb-M000012
 さらに、上記式(12)の右辺に、式(10-1)を代入し、両辺にsin(α)を乗算すると、式(13)を得る。
Figure JPOXMLDOC01-appb-M000013
 上述したように、本実施の形態では、量子化部114において、式(9)で表されるコスト関数Eが最大となる係数γ1,nおよびγ2,nを選択する。これは、式(13)=0となるような係数γ1,nおよびγ2,nを選択したことと等価になる。
 ここで、式(5)を、式(13)に代入すると、式(13)=0となる。本発明者らは、この点に着目した。すなわち、コスト関数Eは、変換係数Wに対して極値を取り、式(5)から得られる回転角度αの場合に最大となる。したがって、コスト関数が最大となる係数γ1,nおよびγ2,nに対応する変換係数W、Wを用いてKL変換を行うことは、式(5)から得られる回転角度αを式(10-1)、式(10-2)に代入し、変換係数W、Wを算出し、KL変換を行うことと等価となる。そのため、回転角度αを量子化して復号側に通知することは、コスト関数Eが最大となる係数γ1,nおよびγ2,nを量子化して復号側に通知することと、理論的に等しい。
 本実施の形態では、係数γ1,nおよびγ2,nを量子化して復号側に通知する。そのため、符号帳113には、係数γ1,nおよびγ2,nと、量子化符号とを、対応付けて保持するようにする。
 なお、係数γ1,n,γ2,nと回転角度αと間には、式(14-1)、式(14-2)の関係があるので、復号側では、量子化符号を介して、係数γ1,n,γ2,nと回転角度αとを1対1に対応付けることができる。
Figure JPOXMLDOC01-appb-M000014
 このように、量子化部114は、式(9)で表されるコスト関数Eが最大となる係数γ1,n,γ2,nに対応付けられた量子化符号を選択する。これにより、三角関数、除算等の演算処理を行うことなく、主成分分析変換を適用してステレオ符号化を行う際の変換係数に対応する量子化符号を得ることができるので、量子化に伴う計算量を削減することができる。
 なお、式(9)から、係数γ1,nおよびγ2,nと変換係数W、Wの間には、式(15-1)、式(15-2)のような関係があるので、符号帳113に、予め、係数γ1,nおよびγ2,nに対応する変換係数W、Wをテーブル形式で保持するようにする。これにより、量子化部114は、選択した係数γ1,n,γ2,nに対応する変換係数W、Wを直ちに取得することができ、変換係数W、Wの計算が不要となるので、主成分分析に要する計算量をさらに削減することができる。
Figure JPOXMLDOC01-appb-M000015
 次いで、本実施の形態に係る復号装置について説明する。
 図3は、本実施の形態に係る符号化装置100から送信されるビットストリームを復号する復号装置の要部構成を示すブロック図である。図3に示す復号装置200は、分離部210と、モノラル復号部220と、をサイド復号部230と、逆量子化装置240と、逆変換部250とから主に構成される。
 分離部210は、ビットストリームを、モノラル信号Mの符号化データと、サイド信号Sの符号化データと、量子化符号とに分離する。そして、分離部210は、モノラル信号Mの符号化データをモノラル復号部220に出力し、サイド信号Sの符号化データをサイド復号部230に出力し、量子化符号を逆量子化装置240に出力する。
 モノラル復号部220は、モノラル信号Mの符号化データを復号し、得られたモノラル再生成信号M’を逆変換部250に出力する。
 サイド復号部230は、サイド信号Sの符号化データを復号し、得られたサイド再生成信号S’を逆変換部250に出力する。
 逆量子化装置240は、量子化符号に対応する回転角度αから、重み係数W、Wを算出し、得られた重み係数W、Wを逆変換部250に出力する。なお、逆量子化装置240の内部構成については、後述する。
 逆変換部250は、重み係数W、W、モノラル再生成信号M’およびサイド再生成信号S’を用いて、式(16-1)、式(16-2)から、左チャネル再生成信号L’および右チャネル再生成信号R’を得る。
Figure JPOXMLDOC01-appb-M000016
 なお、式(16-1)、式(16-2)において、x’1,iは、左チャネル再生成信号L’を示し、x’2,iは、右チャネル再生成信号R’を示す。また、y’1,iは、モノラル再生成信号M’を示し、y’2,iは、サイド再生成信号S’を示す。また、iは、時間を示すインデックスである。
 次いで、逆量子化装置240の内部構成について説明する。
 逆量子化装置240は、符号帳241および逆量子化部242を有する。
 符号帳241は、回転角度および量子化符号の組を複数保持する。図4Aに、符号帳241が保持するテーブルの一例を示す。図4Aは、回転角度が3ビットでスカラ符号化される場合に用いられるテーブルの一例である。図4Aに示すように、テーブルには、回転角度と量子化符号とが対応付けられている。
 なお、上述したように、係数γ1,n,γ2,nと回転角度αと間には、式(14-1)、式(14-2)の関係があるので、テーブルには、係数γ1,n,γ2,nと回転角度αとが、量子化符号を介して、1対1に対応するように、回転角度と量子化符号とが対応付けられている。
 逆量子化部242は、量子化符号に対応する回転角度αを選択し、選択した回転角度αと式(17-1)、式(17-2)を用いて、重み係数W、Wを算出し、得られた重み係数W、Wを、逆変換部250に出力する。
Figure JPOXMLDOC01-appb-M000017
 なお、符号帳241が、予め、回転角度α1~α8に対応する変換係数W、Wを保持し、逆量子化装置240が、量子化符号に対応する変換係数W、Wを逆変換部250に出力する場合には、逆変換部250は、式(17-1)、式(17-2)の計算を省くことができる。図4Bに、量子化符号と、回転角度α1~α8と、変換係数W、Wとが対応付けられたテーブルの一例を示す。
 以上のように、本実施の形態では、式(9)で表されるコスト関数Eが最大となる係数γ1,n,γ2,nに対応付けられた量子化符号を選択する。これにより、三角関数、除算等の演算処理を行うことなく、主成分分析変換を適用してステレオ符号化を行う際の変換係数に対応する量子化符号を得ることができるので、量子化に伴う計算量を削減することができる。
 また、符号化側と復号側とで、同一の量子化符号には、式(14-1)、式(14-2)の関係を満たす係数γ1,n,γ2,nと回転角度αとを対応付けておくようにすることにより、復号側には、従来と同様に回転角度αに対応した量子化符号が通知されることになるので、復号側の構成に変更を加えることなく従来の復号装置を用いることができる。
 なお、以上の説明では、符号帳113が、量子化符号と、量子化符号に対応する変換係数W、Wとが対応付けられたテーブルを保持し、量子化部114が、変換部120に変換係数W、Wを出力するようにしたが、本発明はこれに限られない。例えば、符号帳113が、係数γ1,n,γ2,nと、量子化符号とが対応付けられたテーブルを保持し、変換部120が、量子化符号と、量子化符号に対応する変換係数W、Wとが対応付けられたテーブルを保持するようにしてもよい。この場合、量子化部114が、式(9)で表されるコスト関数Eが最大となる係数γ1,n,γ2,nに対応付けられた量子化符号を変換部120に出力し、変換部120が当該量子化符号に対応する変換係数W、Wを用いて主成分分析変換を行うようにしてもよい。
 また、逆変換部250が、量子化符号と、量子化符号に対応する変換係数W、Wとが対応付けられたテーブルを保持するようにしてもよい。
 本発明の効果を検証するために実証実験を行った。その結果、KL変換の係数の量子化ビット数が4ビット程度では、非特許文献2の方法と比べて約2/5と大幅に少ない計算量で量子化が実現出来ることが検証された。
 また、従来の復号装置によって復号化された復号化音は、従来の復号化音とデジタルデータとして僅かなサンプルに僅かの差が見られるのみであり、本実施の形態に係る符号化方法が理論的に従来の特長を全く失わせていないことが検証された。
 上記大きな効果が得られた理由としては、本実施の形態では、三角関数(約25ステップ)、除算(約18ステップ)、または平方根(約25ステップ)など、計算量が多い演算を行わずに済むことと、符号帳が比較的小さい(4ビット:16種類)ことが挙げられる。
 なお、上記実施の形態では、左チャネル信号、右チャネル信号という名称を用いて2つのステレオ信号を表したが、より一般的な第1チャネル信号、第2チャネル信号、又は第1ベクトル信号、第2ベクトル信号という名称を用いることもできる。
 また、上記実施の形態では量子化装置の入力ベクトルが、時間軸上の信号である場合について説明したが、本発明は、周波数軸上の周波数スペクトルを入力ベクトルとしてもよい。また、時間軸上または周波数軸上の信号の部分区間を入力ベクトルとしてもよい。本発明は、ベクトルの種類等、ベクトルの性質に依存しないからである。
 また、上記実施の形態に係る復号装置は、上記実施の形態に係る符号化装置が送信したビットストリームを受信して処理を行う場合を例にとって説明した。しかし、本発明はこれに限定されず、上記実施の形態に係る復号装置が受信して処理するビットストリームは、上記実施の形態に係る復号装置で処理可能なビットストリームを生成可能な符号化装置が送信したものであればよい。
 また、上記実施の形態では、符号化側から復号側に符号化した情報を伝送する場合について説明したが、本発明は、符号化側において符号化した情報を記録媒体に格納する場合も有効である。オーディオ信号はメモリやディスクなどの記録媒体に蓄積されて用いられる場合も多く、本発明はその場合にも有効である。また、符号化した情報を、印刷コード等の媒体に印字して、復号側で印字された符号化情報を読み取るようにしてもよい。
 また、上記実施の形態では2チャネルの場合について示したが、本発明は、チャネル数について限定はなく、5.1chなどの多チャネルの場合にも有効であり、固定するチャネルと時間差を伴った相関のあるチャネルを明らかにすればそのまま適用することができる。
 なお、以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置、復号装置を有するシステムであればどのような場合にも適用することができる。
 また、本発明に係る符号化装置および復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
 また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置等と同様の機能を実現することができる。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
 また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
 2008年6月19日出願の特願2008-161020に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明に係る量子化装置、符号化装置およびこれらの方法は、携帯電話、IP電話、テレビ会議等に用いるに好適である。
 100 符号化装置
 110 量子化装置
 120 変換部
 130 モノラル符号化部
 140 サイド符号化部
 150 多重化部
 111 パワ・相関計算部
 112 中間値計算部
 113,241 符号帳
 114 量子化部
 200 復号装置
 210 分離部
 220 モノラル復号部
 230 サイド復号部
 240 逆量子化装置
 242 逆量子化部
 250 逆変換部

Claims (5)

  1.  第1ベクトル信号および第2ベクトル信号を主成分分析変換する際の変換係数に関する値を量子化する量子化装置であって、
     前記第1ベクトル信号のパワ、前記第2ベクトル信号のパワ、および、前記第1ベクトル信号と前記第2ベクトル信号との相関値を算出するパワ・相関算出手段と、
     前記第1ベクトル信号のパワと前記第2ベクトル信号のパワとを用いた差分演算を行って得られる結果を中間値として算出する中間値算出手段と、
     前記変換係数に関する、番号付けられた、第1の係数と第2の係数との組を、複数保持する符号帳と、
     前記第1の係数に前記相関値を乗算し得られる第1の乗算結果と、前記第2の係数に前記中間値を乗算して得られる第2の乗算結果との加算結果を、参照値として算出し、前記参照値の大きさに基づいて、前記番号を符号として選択する量子化手段と、
     を具備する量子化装置。
  2.  前記量子化手段は、
     前記参照値を最大とする、前記第1の係数および前記第2の係数の組に対応する前記番号を前記符号として選択する、
     請求項1に記載の量子化装置。
  3.  前記第1の係数は、前記変換係数に対応する回転角αを用いて、式(1)で表され、前記第2の係数は、前記回転角αを用いて、式(2)で表される、
     請求項1に記載の量子化装置。
    Figure JPOXMLDOC01-appb-M000018
  4.  請求項1に記載の量子化装置と、
     前記量子化手段により選択された前記符号に対応する前記変換係数を用いて、前記第1ベクトル信号および前記第2ベクトル信号を回転させて、モノラル信号およびサイド信号を得る変換手段と、
     前記モノラル信号を符号化する第1符号化手段と、
     前記サイド信号を符号化する第2符号化手段と、
     を具備する符号化装置。
  5.  第1ベクトル信号および第2ベクトル信号を主成分分析変換する際の変換係数に関する値を量子化する量子化方法であって、
     前記第1ベクトル信号のパワ、前記第2ベクトル信号のパワ、および、前記第1ベクトル信号と前記第2ベクトル信号との相関値を算出するステップと、
     前記第1ベクトル信号のパワと前記第2ベクトル信号のパワとを用いた差分演算を行って得られる結果を中間値として算出するステップと、
     前記変換係数に関する、番号付けられた、第1の係数と第2の係数との組を複数保持する符号帳から読み出した前記第1の係数に前記相関値を乗算し得られる第1の乗算結果と、前記符号帳から読み出した前記第2の係数に前記中間値を乗算して得られる第2の乗算結果との加算結果を、参照値として算出し、前記参照値の大きさに基づいて、前記番号を符号として選択するステップと、
     を有する量子化方法。
PCT/JP2009/002780 2008-06-19 2009-06-18 量子化装置、符号化装置およびこれらの方法 WO2009153995A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010517730A JP5425066B2 (ja) 2008-06-19 2009-06-18 量子化装置、符号化装置およびこれらの方法
EP09766443.7A EP2293292B1 (en) 2008-06-19 2009-06-18 Quantizing apparatus, quantizing method and encoding apparatus
RU2010151983/08A RU2486609C2 (ru) 2008-06-19 2009-06-18 Квантователь, кодер и их способы
US12/990,697 US8473288B2 (en) 2008-06-19 2009-06-18 Quantizer, encoder, and the methods thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008161020 2008-06-19
JP2008-161020 2008-06-19

Publications (1)

Publication Number Publication Date
WO2009153995A1 true WO2009153995A1 (ja) 2009-12-23

Family

ID=41433913

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/002780 WO2009153995A1 (ja) 2008-06-19 2009-06-18 量子化装置、符号化装置およびこれらの方法

Country Status (5)

Country Link
US (1) US8473288B2 (ja)
EP (1) EP2293292B1 (ja)
JP (1) JP5425066B2 (ja)
RU (1) RU2486609C2 (ja)
WO (1) WO2009153995A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015129785A (ja) * 2014-01-06 2015-07-16 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
RU2486609C2 (ru) * 2008-06-19 2013-06-27 Панасоник Корпорейшн Квантователь, кодер и их способы
SG11201502613XA (en) 2012-10-05 2015-05-28 Fraunhofer Ges Forschung An apparatus for encoding a speech signal employing acelp in the autocorrelation domain
RU2665287C2 (ru) * 2013-12-17 2018-08-28 Нокиа Текнолоджиз Ой Кодер звукового сигнала

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01240032A (ja) * 1988-03-22 1989-09-25 Toshiba Corp 適応kl変換符号化方式及びその復号化方式
JP2001255892A (ja) 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2004029708A (ja) * 2002-05-08 2004-01-29 Samsung Electronics Co Ltd 音声信号に対するベクトル量子化及びデコーディング装置とその方法
JP2005522721A (ja) 2002-04-10 2005-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオ信号の符号化
WO2007087117A1 (en) * 2006-01-20 2007-08-02 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
WO2007104883A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
JP2008161020A (ja) 2006-12-26 2008-07-10 Brother Ind Ltd 磁石埋込型回転電機

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2756399B1 (fr) * 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
DE60331535D1 (de) * 2002-04-10 2010-04-15 Koninkl Philips Electronics Nv Kodierung und Dekodierung für mehrkanalige Signale
AU2003244932A1 (en) * 2002-07-12 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
CN1820306B (zh) * 2003-05-01 2010-05-05 诺基亚有限公司 可变比特率宽带语音编码中增益量化的方法和装置
WO2005098821A2 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
BRPI0509108B1 (pt) * 2004-04-05 2019-11-19 Koninklijke Philips Nv método para codificar uma pluralidade de sinais de entrada, codificador para codificar uma pluralidade de sinais de entrada, método de decodificar dados, e decodificador
EP1821287B1 (en) * 2004-12-28 2009-11-11 Panasonic Corporation Audio encoding device and audio encoding method
PL1866911T3 (pl) * 2005-03-30 2010-12-31 Koninl Philips Electronics Nv Skalowalne, wielokanałowe kodowanie dźwięku
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
CN101185123B (zh) * 2005-05-31 2011-07-13 松下电器产业株式会社 可扩展编码装置及可扩展编码方法
JP3981399B1 (ja) 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
WO2007104882A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
WO2008126382A1 (ja) * 2007-03-30 2008-10-23 Panasonic Corporation 符号化装置および符号化方法
JP5363488B2 (ja) * 2007-09-19 2013-12-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・オーディオのジョイント強化
RU2486609C2 (ru) * 2008-06-19 2013-06-27 Панасоник Корпорейшн Квантователь, кодер и их способы

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01240032A (ja) * 1988-03-22 1989-09-25 Toshiba Corp 適応kl変換符号化方式及びその復号化方式
JP2001255892A (ja) 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2005522721A (ja) 2002-04-10 2005-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオ信号の符号化
JP2004029708A (ja) * 2002-05-08 2004-01-29 Samsung Electronics Co Ltd 音声信号に対するベクトル量子化及びデコーディング装置とその方法
WO2007087117A1 (en) * 2006-01-20 2007-08-02 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
WO2007104883A1 (fr) * 2006-03-15 2007-09-20 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
JP2008161020A (ja) 2006-12-26 2008-07-10 Brother Ind Ltd 磁石埋込型回転電機

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Proc. of the 9th Int. Conference on Digital Audio Effects, 2006.09.18", article MANUEL BRIAND ET AL.: "PARAMETRIC CODING OF STEREO AUDIO BASED ON PRINCIPAL COMPONENT ANALYSIS", pages: DAFX-1 - DAFX-7, XP002579979 *
VIRETTE: "PARAMETRIC CODING OF STEREO AUDIO BASED ON PRINCIPAL COMPONENT ANALYSIS", PROC. OF THE CONFERENCE ON DIGITAL AUDIO EFFECTS, 18 September 2006 (2006-09-18)
YANG: "High-Fidelity Multichannel Audio Coding With Karhunen-Loeve Transform", IEEE TRANS. SPEECH AND AUDIO PROCESSING, vol. 11, no. 4, July 2003 (2003-07-01)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015129785A (ja) * 2014-01-06 2015-07-16 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2009153995A1 (ja) 2011-11-24
JP5425066B2 (ja) 2014-02-26
EP2293292A1 (en) 2011-03-09
EP2293292A4 (en) 2012-05-23
US20110125495A1 (en) 2011-05-26
RU2010151983A (ru) 2012-06-27
RU2486609C2 (ru) 2013-06-27
EP2293292B1 (en) 2013-06-05
US8473288B2 (en) 2013-06-25

Similar Documents

Publication Publication Date Title
CN112735447B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN1503572A (zh) 多个因式分解可逆变换的逐次浮现无损嵌入式音频编码器
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JPWO2006046587A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP5425066B2 (ja) 量子化装置、符号化装置およびこれらの方法
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
WO2006035810A1 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US20090041255A1 (en) Scalable encoding device and scalable encoding method
KR20070090217A (ko) 스케일러블 부호화 장치 및 스케일러블 부호화 방법
JP2024512953A (ja) 空間音声ストリームの結合
JP2019512739A (ja) 入力信号を処理する符号化装置及び符号化信号を処理する復号化装置
CN111149157A (zh) 使用经扩展参数对高阶立体混响系数的空间关系译码
US8271275B2 (en) Scalable encoding device, and scalable encoding method
WO2009122757A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2010020333A (ja) スケーラブル符号化装置およびスケーラブル復号化装置
WO2010098120A1 (ja) チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
CN116762127A (zh) 量化空间音频参数
US8949117B2 (en) Encoding device, decoding device and methods therefor
EP4278347A1 (en) Transforming spatial audio parameters
CN116508098A (zh) 量化空间音频参数
CN115410585A (zh) 音频数据编解码方法和相关装置及计算机可读存储介质
CN112352277A (zh) 编码装置及编码方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09766443

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010517730

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12990697

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2009766443

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010151983

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE