JPH0519798A - Signal processor - Google Patents

Signal processor

Info

Publication number
JPH0519798A
JPH0519798A JP3172635A JP17263591A JPH0519798A JP H0519798 A JPH0519798 A JP H0519798A JP 3172635 A JP3172635 A JP 3172635A JP 17263591 A JP17263591 A JP 17263591A JP H0519798 A JPH0519798 A JP H0519798A
Authority
JP
Japan
Prior art keywords
value
quantized
circuit
threshold value
bark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3172635A
Other languages
Japanese (ja)
Other versions
JP3336619B2 (en
Inventor
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP17263591A priority Critical patent/JP3336619B2/en
Publication of JPH0519798A publication Critical patent/JPH0519798A/en
Application granted granted Critical
Publication of JP3336619B2 publication Critical patent/JP3336619B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE:To enable high-efficiency encoding with high compressibility by quantizing and transmitting only representative values among plural spectra present within the width of one burke of an orthogonally converted voice signal. CONSTITUTION:A bit allocation calculating circuit 8 finds the number of bits allocated to one sample in each burke from the ratio of the threshold value and RMS value (floating coefficient) quantized by a parameter quantizer 7 and the threshold value, RMS value, and the number of bits allocated to one sample in each burke are supplied to an adaptive quantizer 10. Data after orthogonal conversion by an orthogonal converting circuit 3 are supplied to a fast Fourier transforming circuit 9 and averaged within a critical band; and the adaptive quantizer 10 quantizes representative values in each critical band and sends the result from a representative value output terminal 11, and the threshold value and RMS value quantized by the parameter quantizer 7 are sent as additional information from an output terminal 13.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声信号を高能率符号
化して伝送させる信号処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal processing device for highly efficient encoding and transmitting a voice signal.

【0002】[0002]

【従来の技術】音声信号(オーディオ信号)の高能率符
号化においては、入力した音声信号を時間軸又は周波数
軸で複数のチャンネルに分割すると共に、各チャンネル
毎のビット数を適応的に割当てるビットアロケーション
(ビット割当て)による符号化技術がある。例えば、オ
ーディオ信号等のビット割当てによる符号化技術には、
時間軸上のオーディオ信号を複数の周波数帯域に分割し
て符号化する帯域分割符号化(サブ・バンド・コーディ
ング:SBC)や、時間軸の信号を周波数軸上の信号に
変換(直交変換)して複数の周波数帯域に分割し各帯域
毎で適応的に符号化するいわゆる適応変換符号化(AT
C)、或いはサブ・バンド・コーディングといわゆる適
応予測符号化(APC)とを組合せ、時間軸の信号を帯
域分割して各帯域信号をベースバンド(低域)に変換し
た後複数次の線形予測分析を行って予測符号化するいわ
ゆる適応ビット割当て(APC−AB)等の符号化技術
がある。
2. Description of the Related Art In high-efficiency coding of a voice signal (audio signal), the input voice signal is divided into a plurality of channels on a time axis or a frequency axis, and the number of bits for each channel is adaptively assigned. There is a coding technique by allocation (bit allocation). For example, in encoding technology by bit allocation of audio signals, etc.,
Band division coding (sub-band coding: SBC) that divides an audio signal on the time axis into a plurality of frequency bands and encodes it, or converts a signal on the time axis to a signal on the frequency axis (orthogonal conversion) Are divided into a plurality of frequency bands and adaptively coded in each band, so-called adaptive transform coding (AT
C), or sub-band coding and so-called adaptive predictive coding (APC) are combined, the time axis signal is band-divided, each band signal is converted to baseband (low band), and then multiple-order linear prediction is performed. There is a coding technique such as so-called adaptive bit allocation (APC-AB) that performs analysis and predictive coding.

【0003】ここで、これらの高能率符号化の内で、例
えば、適応変換符号化においては、時間軸のオーディオ
信号を、高速フーリエ変換(FFT)或いは離散的余弦
変換(DCT)等の直交変換によって、時間軸に直交す
る軸(周波数軸)に変換し、その後複数の帯域に分割し
て、これら分割された各帯域のFFT係数,DCT係数
等を適応的なビット割当てによって量子化(再量子化)
している。高速フーリエ変換の適応変換符号化における
再量子化の一例としては、図5に示すように、信号を高
速フーリエ変換した後の例えばFFT振幅値Am等をブ
ロック(ブロックB1,B2‥‥)分けして、これら各
ブロック毎に再量子化する際に必要となる付加情報を算
出し、この付加情報を用いてブロック毎に再量子化する
と共に、付加情報自体も量子化させる手法がある。
Here, of these high-efficiency codings, for example, in adaptive transform coding, an audio signal on the time axis is subjected to orthogonal transform such as fast Fourier transform (FFT) or discrete cosine transform (DCT). Is converted into an axis (frequency axis) orthogonal to the time axis, then divided into a plurality of bands, and the FFT coefficients, DCT coefficients, etc. of the respective divided bands are quantized (requantized) by adaptive bit allocation. )
is doing. As an example of requantization in the adaptive transform coding of the fast Fourier transform, as shown in FIG. 5, for example, the FFT amplitude value Am after the signal is fast Fourier transformed is divided into blocks (blocks B1, B2 ...). Then, there is a method of calculating additional information required when requantizing each of these blocks, requantizing each block using this additional information, and quantizing the additional information itself.

【0004】[0004]

【発明が解決しようとする課題】ところで、このような
直交変換によって時間軸に直交する軸に変換処理する高
能率符号化では、一般にバーク毎のパワーよりマスキン
グ・スレッショルドを求め、そのマスキング・スレッシ
ョルドレベル以下に量子化ノイズが抑えられるように、
周波数軸上でのダイナミック・ビット・アロケーション
を行っていた。ここで、1バークの幅は人間の聴覚の特
性(人間が聞き分けられる能力)より決められるもの
で、1バーク毎の上述した処理を行うことで、聴覚のマ
スキング効果(同時刻マスキング)を利用した高能率符
号化が行われる。
By the way, in high-efficiency coding in which conversion is performed on an axis orthogonal to the time axis by such orthogonal transformation, generally, the masking threshold is obtained from the power of each bark, and the masking threshold level is obtained. In order to suppress the quantization noise,
It was doing dynamic bit allocation on the frequency axis. Here, the width of 1 bark is determined by the characteristics of human hearing (the ability of human beings to perceive), and the masking effect of hearing (masking at the same time) was used by performing the above-described processing for each bark. High efficiency coding is performed.

【0005】しかしながら、従来のこの種の符号化技術
では、マスキング効果などの聴覚の特性を最大限に利用
しているとは言えなかった。
However, it cannot be said that the conventional encoding technique of this type makes maximum use of the auditory characteristics such as the masking effect.

【0006】本発明の目的は、聴覚の特性を利用した1
バーク毎の処理による高能率符号化が、より高い圧縮率
でできる信号処理装置を提供することにある。
An object of the present invention is to utilize the characteristics of hearing.
It is to provide a signal processing device capable of high-efficiency encoding by processing for each bark with a higher compression rate.

【0007】[0007]

【課題を解決するための手段】本発明は、直交変換によ
り音声信号を高能率符号化して伝送する信号処理装置に
おいて、直交変換された音声信号の1バークの幅の中に
存在する複数個のスペクトルの内の代表値だけを量子化
して伝送するようにしたものである。
SUMMARY OF THE INVENTION The present invention is a signal processing apparatus for highly efficient encoding and transmitting a voice signal by orthogonal transformation, wherein a plurality of signals present within one bark width of the orthogonally transformed speech signal are present. Only the representative value in the spectrum is quantized and transmitted.

【0008】[0008]

【作用】このようにしたことで、一層の高能率符号化が
行われて、より圧縮効率が向上し、伝送レートをより低
くすることができる。そして、受信側では代表値の補間
処理等で各バークの中のエネルギーが元に復元され、元
の音声信号の復元ができる。ここで、人間の聴覚は各バ
ーク内の周波数成分を特定する能力がないので、各バー
クの中のエネルギーが変わらない場合には、聴感上は音
質劣化を感じることがなく、実質的に音質劣化のない良
好な音声の再生が可能になる。
By doing so, higher efficiency coding is performed, the compression efficiency is further improved, and the transmission rate can be lowered. Then, on the receiving side, the energy in each bark is restored by the interpolation processing of the representative value, etc., and the original audio signal can be restored. Here, since human hearing does not have the ability to specify the frequency component in each bark, if the energy in each bark does not change, the sound quality is not perceived by the auditory sense, and the sound quality is not substantially deteriorated. It is possible to reproduce good sound without any noise.

【0009】[0009]

【実施例】以下、本発明の一実施例を図1〜図4を参照
して説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to FIGS.

【0010】本例においては、音声信号の送出側(エン
コーダ側)を図1に示すように構成し、音声信号の受信
側(デコーダ側)を図2に示すように構成する。
In this example, the audio signal sending side (encoder side) is configured as shown in FIG. 1, and the audio signal receiving side (decoder side) is configured as shown in FIG.

【0011】まず、音声信号を高能率符号化するエンコ
ーダ側の構成について説明すると、図1において、1は
音声信号の入力端子を示し、この入力端子1に得られる
デジタル音声信号(デジタルオーディオ信号)をピッチ
予測回路2に供給し、時間軸上のピッチ予測が行われた
データを窓がけ・直交変換回路3に供給し、適当な窓が
けが行われ、直交変換が施される。このときの窓がけと
しては、入力信号のサンプリング周波数fS を例えば4
8kHzとすると、例えば図3に示すように、1024
サンプルを1単位として窓がけを行う。この場合、オー
バーラップする範囲を1/16として、64サンプルず
つオーバーラップさせている。
First, the structure of the encoder side for high-efficiency encoding a voice signal will be described. In FIG. 1, reference numeral 1 denotes an input terminal of the voice signal, and a digital voice signal (digital audio signal) obtained at the input terminal 1 Is supplied to the pitch prediction circuit 2, and the data on which the pitch prediction on the time axis has been performed is supplied to the windowing / orthogonal transformation circuit 3, where appropriate windowing is performed and orthogonal transformation is performed. As the windowing at this time, the sampling frequency f S of the input signal is set to, for example, 4
At 8 kHz, for example, as shown in FIG.
Windowing is performed with the sample as one unit. In this case, the overlapping range is set to 1/16, and 64 samples are overlapped.

【0012】そして、直交変換が施されたデータをスペ
クトル強度計算回路4に供給し、各スペクトルの強度
(パワー)を算出する。本例においては、高速フーリエ
変換(FFT)処理を行うので、各係数の(実部)2
(虚部)2 で強度を算出する。このときの各スペクトル
の強度データは、バーク積分回路5に供給され、クリテ
ィカルバンド毎に積分されて、バークスペクトルの強度
が算出される。このときには、次式による積分が行われ
る。
Then, the orthogonally transformed data is supplied to the spectrum intensity calculation circuit 4, and the intensity (power) of each spectrum is calculated. In this example, since the fast Fourier transform (FFT) processing is performed, (real part) 2 + of each coefficient
Calculate the strength with (imaginary part) 2 . The intensity data of each spectrum at this time is supplied to the Bark integrating circuit 5 and integrated for each critical band to calculate the intensity of the Bark spectrum. At this time, integration according to the following equation is performed.

【0013】[0013]

【数1】 [Equation 1]

【0014】そして、このバークスペクトルの強度分布
に基づいて、マスキング・スレッショルド及びRMS値
計算回路6で、マスキング・スレッショルドの値を各バ
ーク帯域毎に求める。この際には、聴覚の最小可聴カー
ブより求めたアブソリュート・スレッショルドを考慮し
て求める。ここで求めたマスキング・スレッショルドの
値は、各バークの帯域幅で割ってから平方根をとって、
各サンプル当たりの実効値としておく。また、RMS値
(フローティング係数)も、このマスキング・スレッシ
ョルド及びRMS値計算回路6で求めておく。
Then, based on the intensity distribution of the bark spectrum, the masking threshold and RMS value calculation circuit 6 obtains the masking threshold value for each bark band. In this case, the absolute threshold obtained from the minimum audible curve of hearing is taken into consideration. The masking threshold value obtained here is divided by the bandwidth of each bark, and the square root is taken.
Set the effective value for each sample. The RMS value (floating coefficient) is also calculated by the masking threshold and RMS value calculation circuit 6.

【0015】次に、マスキング・スレッショルド及びR
MS値計算回路6で求めたスレッショルド値及びRMS
値をパラメータ量子化器7に供給し、スレッショルド値
及びRMS値を量子化する。このとき、RMS値は各バ
ークの強度をそのバーク内のサンプル数で割って平方根
をとり、サンプル当たりの実効値として量子化する。
Next, the masking threshold and R
Threshold value and RMS obtained by the MS value calculation circuit 6
The value is supplied to the parameter quantizer 7, and the threshold value and the RMS value are quantized. At this time, the RMS value is quantized as the effective value per sample by dividing the intensity of each bark by the number of samples in the bark and taking the square root.

【0016】そして、パラメータ量子化器7で量子化さ
れたスレッショルド値及びRMS値のレシオから、ビッ
トアロケーション計算回路8で各バーク内の1サンプル
に割り振るビット数を求める。そして、パラメータ量子
化器7で量子化されたスレッショルド値及びRMS値
と、ビットアロケーション計算回路8で求めた各バーク
内の1サンプルに割り振るビット数の値とを、後述する
適応量子化器10に供給する。
Then, from the ratio of the threshold value and the RMS value quantized by the parameter quantizer 7, the bit allocation calculating circuit 8 finds the number of bits to be allocated to one sample in each bark. Then, the threshold value and the RMS value quantized by the parameter quantizer 7 and the value of the number of bits allocated to one sample in each bark obtained by the bit allocation calculation circuit 8 are applied to the adaptive quantizer 10 described later. Supply.

【0017】そして、窓がけ・直交変換回路3で直交変
換が施されたデータを高速フーリエ変換(FFT)回路
9に供給し、クリティカルバンド内でのデシメンション
(平均化,平滑化)を行う。そして、高速フーリエ変換
回路9でデシメンションされたデータを適応量子化器1
0に供給し、量子化を行う。ここで本例においては、適
応量子化器10で各クリティカルバンド内の代表値の量
子化を行う。
Then, the data subjected to the orthogonal transformation by the windowing / orthogonal transformation circuit 3 is supplied to the fast Fourier transform (FFT) circuit 9 to perform the decimation (averaging, smoothing) within the critical band. Then, the data decimated by the fast Fourier transform circuit 9 is applied to the adaptive quantizer 1
It is supplied to 0 and quantization is performed. Here, in this example, the adaptive quantizer 10 quantizes the representative value in each critical band.

【0018】そして、量子化された各クリティカルバン
ド内の代表値を、代表値出力端子11から伝送させる。
また、付加情報としてパラメータ量子化器7で量子化さ
れたスレッショルド値とRMS値とを、付加情報出力端
子12から伝送させる。
Then, the quantized representative value in each critical band is transmitted from the representative value output terminal 11.
Further, the threshold value and the RMS value quantized by the parameter quantizer 7 as the additional information are transmitted from the additional information output terminal 12.

【0019】次に、このような構成のエンコーダにて処
理されるデータについて説明すると、まず各バーク(即
ち各クリティカルバンド:臨界帯域)の一覧を表1に示
す。
Next, the data processed by the encoder having such a configuration will be described. First, Table 1 shows a list of each bark (that is, each critical band: critical band).

【0020】[0020]

【表1】 [Table 1]

【0021】ここで、例えばサンプリング周波数fS
32kHzとし、1024サンプルのFFTを行ったと
すると、0〜16kHzの周波数範囲fに対して512
点のスペクトルが存在する。このとき、スペクトルのス
ペーシングは31.25Hz(=16000/512)
となる。ここで、オーディオ信号のときには、主な成分
は殆どの場合5kHz以下に集中し、特に2kHz〜3
kHzにエネルギーが集中している。
Here, for example, the sampling frequency f S =
Assuming that the frequency is 32 kHz and the FFT of 1024 samples is performed, 512 is obtained for the frequency range f of 0 to 16 kHz.
There is a spectrum of points. At this time, the spectral spacing is 31.25 Hz (= 16000/512)
Becomes Here, in the case of an audio signal, most of the main components are concentrated at 5 kHz or less, especially 2 kHz to 3
Energy is concentrated at kHz.

【0022】いま、1kHzの存在するクリティカルバ
ンド(バーク)について考えると、上述の〔表1〕より
No.9のクリティカルバンドに1kHzが存在する。
このNo.9のクリティカルバンドは、920Hzから
1080Hzまでの幅があり、スペクトルとしては5〜
6本存在する。例えば図4のAに示すように、5本のス
ペクトルx1 ,x2 ,x3 ,x4 ,x5 が存在したとす
る。このとき、本例のエンコーダでは図4のBに示すよ
うに、平滑化された5本のスペクトルy1 ,y 2
3 ,y4 ,y5 とする。そして本例においては、平滑
化によりy1 =y2 =y3 ,y4 =y5 となっているの
で、スペクトルy1 とスペクトルy4 との量子化値だけ
を代表値として伝送させる。
At present, there is a critical band of 1 kHz.
Considering the band (bark), from the above [Table 1]
No. There is 1 kHz in the critical band of 9.
This No. The critical band of 9 is from 920Hz
There is a width up to 1080Hz, and the spectrum is 5
There are six. For example, as shown in A of FIG.
Vector x1, X2, X3, XFour, XFiveThere existed
It At this time, in the encoder of this example, as shown in B of FIG.
, The five smoothed spectra y1, Y 2
y3, YFour, YFiveAnd And in this example, smooth
By conversion, y1= Y2= Y3, YFour= YFiveHas become
And the spectrum y1And spectrum yFourOnly the quantized value of and
Is transmitted as a representative value.

【0023】ここで、スペクトルxからスペクトルyへ
の変換処理例を示すと、各クリティカルバンド内及び平
滑化する帯域内(図4のAのx1 〜x3 の帯域及びx4
〜x 5 の帯域)でのエネルギーは、変換によって影響を
受けないようにする必要があるので、〔数2〕式及び
〔数3〕式の処理が行われる。
From spectrum x to spectrum y
An example of the conversion processing of
In the slipping zone (x in FIG. 4A)1~ X3Bandwidth and xFour
~ X FiveEnergy in the band) is affected by the conversion
Since it is necessary to not receive it, [Equation 2] and
The processing of the formula 3 is performed.

【0024】[0024]

【数2】 [Equation 2]

【0025】[0025]

【数3】 [Equation 3]

【0026】この〔数2〕式及び〔数3〕式より、スペ
クトルy1 とスペクトルy4 とは、〔数4〕式及び〔数
5〕式で示される。
From the equations (2) and (3), the spectra y 1 and y 4 are represented by the equations (4) and (5).

【0027】[0027]

【数4】 [Equation 4]

【0028】[0028]

【数5】 [Equation 5]

【0029】この〔数4〕式及び〔数5〕式で示される
スペクトルy1 とスペクトルy4 とが、各サンプル当た
りの実効値になる。そして、この代表値y1 ,y4 とク
リティカルバンドのrms値との関係が、次式で示され
る。
The spectra y 1 and y 4 shown in the equations (4) and (5) are effective values for each sample. The relation between the representative values y 1 and y 4 and the rms value of the critical band is shown by the following equation.

【0030】[0030]

【数6】 [Equation 6]

【0031】つまり、1個のクリティカルバンドをn個
のサブバンドに分割して平滑化するのであれば、そのク
リティカルバンド全体のRMS値及びn−1個の代表値
より、n個目の代表値が求まる。そして、この代表値
を、量子化済のスレッショルド値とRMS値とに基づい
て決められた1サンプル当たりのビット数で、量子化す
ることで、伝送されるデータが決まる。
That is, if one critical band is divided into n sub-bands for smoothing, the n-th representative value is obtained from the RMS value of the entire critical band and the n-1 representative values. Is required. Then, the representative value is quantized with the number of bits per sample determined based on the quantized threshold value and the RMS value, so that the data to be transmitted is determined.

【0032】ここで、平滑化する例を次の〔表2〕に示
す。
An example of smoothing is shown in the following [Table 2].

【0033】[0033]

【表2】 [Table 2]

【0034】この〔表2〕のバークNo.は〔表1〕の
バークNo.に対応したものである。この〔表2〕にお
いては、平滑化により括る数の例を、平滑化例1と平滑
化例2との2種類示していて、例えば図4に示したN
o.9のクリティカルバンドの場合には、2本のスペク
トルを括ると共に3本のスペクトルを括ることが平滑化
例1より判る。また、No.13以降のクリティカルバ
ンドの場合には、平滑化例1と平滑化例2とが選択でき
るが、実際にはNo.9のクリティカルバンドからN
o.12のクリティカルバンドまでで平滑化例1で括
り、No.13以降のクリティカルバンドでは平滑化例
2で括るのが好ましい。
Bark No. of this [Table 2]. Is the bark No. of [Table 1]. It corresponds to. In this [Table 2], there are shown two types of numbers to be grouped by smoothing, that is, smoothing example 1 and smoothing example 2, and for example, N shown in FIG.
o. In the case of the critical band of 9, it can be seen from Smoothing Example 1 that two spectra are bound together and three spectra are bound together. In addition, No. In the case of the critical band of 13 or later, smoothing example 1 and smoothing example 2 can be selected. N from the 9 critical bands
o. The smoothing up to the critical band of No. 12 is tied up in the smoothing example 1, and It is preferable to group the critical bands after 13 with smoothing example 2.

【0035】この〔表2〕より判るように、本来は全帯
域で各クリティカルバンドのスペクトル本数を合計した
512本のスペクトルの量子化値を伝送する必要がある
のに、平滑化例1だけで括った場合には62本のスペク
トルの量子化値を伝送するだけで良く、上述したように
平滑化例1と平滑化例2とを組み合わせた場合にも、1
04本のスペクトルの量子化値を伝送するだけで良い。
従って、伝送信号のデータ量を大幅に少なくすることが
でき、より高い圧縮率の高能率符号化が行われるように
なる。
As can be seen from [Table 2], originally, it is necessary to transmit the quantized values of 512 spectra, which is the total number of spectra in each critical band in all bands, but only in smoothing example 1. In the case of bundling, it is sufficient to transmit the quantized values of 62 spectra, and even when the smoothing example 1 and the smoothing example 2 are combined as described above, 1
It is only necessary to transmit the quantized values of the 04 spectra.
Therefore, the data amount of the transmission signal can be significantly reduced, and high efficiency encoding with a higher compression rate can be performed.

【0036】なお、本例においては入力信号のピッチ予
測を行ってから圧縮処理を行うようにしたので、より効
果的に高能率符号化が行われる。
In this example, since the pitch prediction of the input signal is performed before the compression processing, high efficiency coding is performed more effectively.

【0037】次に、このようにして平滑化されて量子化
されたデータを受信するデコーダについて図2を参照し
て説明すると、図中21は各クリティカルバンド内の代
表値の量子化値が伝送される代表値入力端子を示し、2
2はこの値の付加情報(スレッショルド値及びRMS値
の量子化値)が伝送される付加情報入力端子を示す。そ
して、両入力端子21,22に得られるデータを適応逆
量子化器23に供給し、各クリティカルバンド内の代表
値を得、この代表値を係数補間回路24で補間処理す
る。このときには、各クリティカルバンド内のエネルギ
ーを変化させない必要があり、例えば代表値をそのまま
繰り返して補間させる。そして、補間されたデータを逆
変換・窓がけ重ね合わせ回路25に供給し、周波数軸を
時間軸に逆変換すると共に窓がけされたデータを重ね合
わせる。そして、この逆変換・窓がけ重ね合わせ回路2
5で処理されたデータをピッチ逆予測回路26に供給し
て、元のデジタルオーディオ信号を復元し、音声信号出
力端子27にこのデジタルオーディオ信号を供給する。
Next, a decoder for receiving the data thus smoothed and quantized will be described with reference to FIG. 2. In FIG. 2, reference numeral 21 denotes a quantized value of a representative value within each critical band. 2 shows the typical value input terminal
Reference numeral 2 denotes an additional information input terminal to which additional information of this value (quantized value of threshold value and RMS value) is transmitted. Then, the data obtained at both input terminals 21 and 22 are supplied to the adaptive inverse quantizer 23 to obtain a representative value in each critical band, and the representative value is interpolated by the coefficient interpolating circuit 24. At this time, it is necessary not to change the energy in each critical band, and for example, the representative value is repeated as it is and interpolated. Then, the interpolated data is supplied to the inverse conversion / windowing and superimposing circuit 25, the frequency axis is inversely converted to the time axis, and the windowed data is superposed. Then, this inverse transformation / windowing superposition circuit 2
The data processed in step 5 is supplied to the pitch inverse prediction circuit 26 to restore the original digital audio signal, and this digital audio signal is supplied to the audio signal output terminal 27.

【0038】このようにしてデコードされたデジタルオ
ーディオ信号は、各クリティカルバンド内のエネルギー
が元のオーディオ信号と同じであるので、このオーディ
オ信号を再生したときの聴感上の音質劣化が最小限に抑
えられ、実際には聴覚の周波数成分特定能力の低下があ
るので、ほとんど音質劣化がない。即ち、人間の聴覚は
1バーク内のエネルギーが不変であれば、そのバーク内
のスペクトルの位置を特定することが困難であるので、
上述した高能率符号化が行われて伝送された音声を再生
させても、実質的な音質劣化につながらない。
Since the digital audio signal decoded in this way has the same energy in each critical band as the original audio signal, the sound quality deterioration in the auditory sense when the audio signal is reproduced is minimized. However, since the ability to identify the frequency component of hearing is actually reduced, there is almost no deterioration in sound quality. That is, it is difficult for human hearing to identify the position of the spectrum within a bark if the energy within one bark is invariant.
Even if the voice transmitted by the high efficiency encoding described above is reproduced, it does not lead to substantial sound quality deterioration.

【0039】なお、上述実施例においては、付加情報と
してマスキング・スレッショルド値を伝送するようにし
たが、量子化済のRMS値より作成されたスレッショル
ド値であればデコーダ側でもこのRMS値より得ること
が可能であるので、スレッショルド値は伝送させなくて
も良く、この場合には付加情報の伝送レートが低くな
り、より伝送レートを低くさせることができるようにな
る。
In the above embodiment, the masking threshold value is transmitted as the additional information. However, if the threshold value is created from the quantized RMS value, the decoder side can also obtain it from this RMS value. Since it is possible to transmit the threshold value, it is not necessary to transmit the threshold value. In this case, the transmission rate of the additional information is reduced, and the transmission rate can be further reduced.

【0040】また、上述実施例においては、入力信号の
ピッチ予測を行ってから圧縮処理を行うようにしたが、
ピッチ予測をしないで圧縮処理を行うようにしても良
い。但し、ピッチ予測をした方が、より効果的に高能率
符号化が行われる。
Further, in the above-mentioned embodiment, the compression processing is performed after the pitch prediction of the input signal is performed.
The compression process may be performed without pitch prediction. However, high-efficiency coding is more effectively performed by pitch prediction.

【0041】また、エンコーダ側のバーク積分回路5で
積分されたスペクトルを、ラウドネス変換などの聴感補
正をしてから、マスキング・スレッショルド及びRMS
値計算回路6に供給するようにしても良い。
Further, the spectrum integrated by the Bark integration circuit 5 on the encoder side is subjected to auditory correction such as loudness conversion, and then masking threshold and RMS.
It may be supplied to the value calculation circuit 6.

【0042】また、上述実施例においては、FFTで直
交変換するようにしたが、他の変換処理を施す高能率符
号化にも適用できる。例えば、DCT(離散的余弦変
換)やMDCT(Modified DCT)による高
能率符号化にも適用できる。この場合、例えばDCTを
適用したときには、エンコーダのスペクトル強度計算回
路4での計算が、(実部)2 だけで行われる(DCTの
場合には虚部がない)。また、スペクトル強度の積分処
理も、DCTの場合には〔数1〕式の代わりに次式の演
算が行われる。
Further, in the above-mentioned embodiment, the FFT is used for the orthogonal transform, but the present invention can be applied to the high-efficiency coding which performs other transform processing. For example, it can be applied to high-efficiency coding by DCT (Discrete Cosine Transform) or MDCT (Modified DCT). In this case, for example, when the DCT is applied, the calculation in the spectrum intensity calculation circuit 4 of the encoder is performed only by the (real part) 2 (there is no imaginary part in the case of the DCT). Also, in the integration processing of the spectrum intensity, the calculation of the following equation is performed instead of the equation 1 in the case of DCT.

【0043】[0043]

【数7】 [Equation 7]

【0044】さらに、上述実施例ではエンコーダで高能
率符号化されたデータの伝送系については何も説明しな
かったが、有線系,無線系による各種伝送システムが適
用できると共に、エンコーダで高能率符号化されたデー
タを各種記録媒体に記録させた後、この記録媒体からの
再生信号をデコーダで復元させるようにしても良い。何
れの場合でも、本例ではビットレートが大幅に低減され
ているので、伝送効率(記録効率)が良い。
Further, in the above-mentioned embodiment, no description has been made on the transmission system of the data highly encoded by the encoder. However, various transmission systems such as a wired system and a wireless system can be applied and the high efficiency encoding by the encoder is possible. After the converted data is recorded on various recording media, the reproduction signal from the recording media may be restored by the decoder. In any case, in this example, the bit rate is significantly reduced, so that the transmission efficiency (recording efficiency) is good.

【0045】[0045]

【発明の効果】本発明によると、人間の聴覚の周波数成
分特定能力の低下を利用した一層の高能率符号化が行わ
れて、より圧縮効率が向上し、伝送レートをより低くす
ることができる。この場合、伝送データの受信側では、
本発明による圧縮で聴感上は音質劣化を感じることがな
く、実質的に音質劣化のない良好な音声の再生が可能に
なる。
According to the present invention, more efficient coding is performed by utilizing the deterioration of human auditory frequency component identifying ability, so that the compression efficiency is further improved and the transmission rate can be further lowered. .. In this case, on the receiving side of the transmitted data,
By the compression according to the present invention, the sound quality is not perceptually deteriorated and it is possible to reproduce a good voice substantially without the sound quality deterioration.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例によるエンコーダを示す構成
図である。
FIG. 1 is a configuration diagram showing an encoder according to an embodiment of the present invention.

【図2】本発明の一実施例によるデコーダを示す構成図
である。
FIG. 2 is a block diagram showing a decoder according to an exemplary embodiment of the present invention.

【図3】一実施例による窓がけ状態を示す説明図であ
る。
FIG. 3 is an explanatory diagram showing a windowing state according to an embodiment.

【図4】一実施例によるスペクトルの例を示す説明図で
ある。
FIG. 4 is an explanatory diagram showing an example of a spectrum according to an embodiment.

【図5】適応変換符号化のブロックを示す説明図であ
る。
FIG. 5 is an explanatory diagram showing blocks of adaptive transform coding.

【符号の説明】[Explanation of symbols]

1 音声信号入力端子 2 ピッチ予測回路 3 窓がけ・直交変換回路 4 スペクトル強度計算回路 5 バーク積分回路 6 マスキング・スレッショルド及びRMS値計算回路 7 パラメータ量子化器 8 ビットアロケーション計算回路 9 高速フーリエ変換回路 10 適応量子化器 11 代表値出力端子 12 付加情報出力端子 21 代表値入力端子 22 付加情報入力端子 23 適応逆量子化器 24 係数補間回路 25 逆変換・窓がけ重ね合わせ回路 26 ピッチ逆予測回路 27 音声信号出力端子 1 voice signal input terminal 2 pitch prediction circuit 3 windowing / orthogonal transformation circuit 4 spectrum intensity calculation circuit 5 Bark integration circuit 6 masking threshold and RMS value calculation circuit 7 parameter quantizer 8 bit allocation calculation circuit 9 fast Fourier transform circuit 10 Adaptive quantizer 11 Representative value output terminal 12 Additional information output terminal 21 Representative value input terminal 22 Additional information input terminal 23 Adaptive dequantizer 24 Coefficient interpolation circuit 25 Inverse transformation / windowing superposition circuit 26 Pitch inverse prediction circuit 27 Voice Signal output terminal

Claims (1)

【特許請求の範囲】 【請求項1】 直交変換により音声信号を高能率符号化
して伝送する信号処理装置において、 上記直交変換された音声信号の1バークの幅の中に存在
する複数個のスペクトルの内の代表値だけを量子化して
伝送するようにした信号処理装置。
Claim: What is claimed is: 1. A signal processing device for high-efficiency encoding a voice signal by orthogonal transformation and transmitting the same, wherein a plurality of spectra existing within a width of 1 bark of the orthogonally transformed voice signal. A signal processing device that quantizes and transmits only a representative value of the above.
JP17263591A 1991-07-12 1991-07-12 Signal processing device Expired - Lifetime JP3336619B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17263591A JP3336619B2 (en) 1991-07-12 1991-07-12 Signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17263591A JP3336619B2 (en) 1991-07-12 1991-07-12 Signal processing device

Publications (2)

Publication Number Publication Date
JPH0519798A true JPH0519798A (en) 1993-01-29
JP3336619B2 JP3336619B2 (en) 2002-10-21

Family

ID=15945538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17263591A Expired - Lifetime JP3336619B2 (en) 1991-07-12 1991-07-12 Signal processing device

Country Status (1)

Country Link
JP (1) JP3336619B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242690A (en) * 1992-06-19 1993-09-21 Toshiba Corp Eeprom
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
WO2003007480A1 (en) * 2001-07-13 2003-01-23 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
JP2005513576A (en) * 2001-12-27 2005-05-12 フランス テレコム How to characterize an audio signal
CN105181107A (en) * 2015-09-08 2015-12-23 国家海洋技术中心 High resolution underwater acoustic signal real-time spectrum analyzing system
KR20230155433A (en) 2021-03-17 2023-11-10 도소 가부시키가이샤 Metal member-polyarylene sulfide resin member composite and method for producing the same

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242690A (en) * 1992-06-19 1993-09-21 Toshiba Corp Eeprom
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
WO2003007480A1 (en) * 2001-07-13 2003-01-23 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
AU2002318813B2 (en) * 2001-07-13 2004-04-29 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
US7260541B2 (en) 2001-07-13 2007-08-21 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
JP2005513576A (en) * 2001-12-27 2005-05-12 フランス テレコム How to characterize an audio signal
CN105181107A (en) * 2015-09-08 2015-12-23 国家海洋技术中心 High resolution underwater acoustic signal real-time spectrum analyzing system
KR20230155433A (en) 2021-03-17 2023-11-10 도소 가부시키가이샤 Metal member-polyarylene sulfide resin member composite and method for producing the same

Also Published As

Publication number Publication date
JP3336619B2 (en) 2002-10-21

Similar Documents

Publication Publication Date Title
JP3446216B2 (en) Audio signal processing method
JP3278900B2 (en) Data encoding apparatus and method
JP2756515B2 (en) Perceptual encoding method of audible signal and audio signal transmission method
JP3134455B2 (en) High efficiency coding apparatus and method
JP3277692B2 (en) Information encoding method, information decoding method, and information recording medium
US6415251B1 (en) Subband coder or decoder band-limiting the overlap region between a processed subband and an adjacent non-processed one
US6604069B1 (en) Signals having quantized values and variable length codes
JPH08190764A (en) Method and device for processing digital signal and recording medium
US6097880A (en) Digital signal processing method, digital signal processing apparatus, digital signal recording method, digital signal recording apparatus, recording medium, digital signal transmission method and digital signal transmission apparatus
US5781586A (en) Method and apparatus for encoding the information, method and apparatus for decoding the information and information recording medium
JPH07336233A (en) Method and device for coding information, method and device for decoding information
KR100303580B1 (en) Transmitter, Encoding Device and Transmission Method
JP3189401B2 (en) Audio data encoding method and audio data encoding device
JP3557674B2 (en) High efficiency coding method and apparatus
JP3336619B2 (en) Signal processing device
KR20040053501A (en) Method for encoding stereo audio, apparatus thereof, method for decoding audio stream and apparatus thereof
JP3134363B2 (en) Quantization method
JPH11330974A (en) Encoding method and device, decoding method and device, digital signal recording method and device, recording medium and digital transmitting method and device
KR100340368B1 (en) High Efficiency Encoder, Decoder and Digital Data Derivation Method
JP3134383B2 (en) Method and apparatus for highly efficient encoding of digital data
JPH04302533A (en) High-efficiency encoding device for digital data
JP3060576B2 (en) Digital signal encoding method
JP3200886B2 (en) Audio signal processing method
JPH07221649A (en) Method and device for encoding information, method and device for decoding information, information recording medium and information transmission method
JPH08237130A (en) Method and device for signal coding and recording medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080809

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090809

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100809

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110809

Year of fee payment: 9

EXPY Cancellation because of completion of term