JP2586043B2 - Multi-pulse encoder - Google Patents

Multi-pulse encoder

Info

Publication number
JP2586043B2
JP2586043B2 JP62118475A JP11847587A JP2586043B2 JP 2586043 B2 JP2586043 B2 JP 2586043B2 JP 62118475 A JP62118475 A JP 62118475A JP 11847587 A JP11847587 A JP 11847587A JP 2586043 B2 JP2586043 B2 JP 2586043B2
Authority
JP
Japan
Prior art keywords
pulse
quantization
pulses
analysis frame
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62118475A
Other languages
Japanese (ja)
Other versions
JPS63282795A (en
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP62118475A priority Critical patent/JP2586043B2/en
Priority to CA000566749A priority patent/CA1328694C/en
Priority to AU16122/88A priority patent/AU598433B2/en
Priority to US07/194,372 priority patent/US4881267A/en
Priority to GB8811531A priority patent/GB2204766B/en
Publication of JPS63282795A publication Critical patent/JPS63282795A/en
Application granted granted Critical
Publication of JP2586043B2 publication Critical patent/JP2586043B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はマルチパルス符号化装置に関し、特に分析フ
レームごとの音声電力(以下単に電力という)情報に対
応してマルチパルス数とその量子化ビット数の配分を制
御し、一定の符号化総ビット数のもとでの合成音質の改
善を図ったマルチパルス符号化装置に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multi-pulse coding apparatus, and more particularly to a multi-pulse number and its quantization bit corresponding to speech power (hereinafter simply referred to as power) information for each analysis frame. The present invention relates to a multi-pulse encoding apparatus that controls the distribution of numbers and improves the synthesized sound quality under a fixed total number of encoded bits.

〔従来の技術〕[Conventional technology]

音声信号の符号化において、音声信号の分析フームご
との音源情報を振幅と位置情報を適宜設定した複数のパ
ルス列、すなわちマルチパルスで表現するマルチパルス
符号化装置は近時よく知られている。
2. Description of the Related Art In encoding a speech signal, a multi-pulse encoding apparatus that expresses sound source information for each analysis frame of a speech signal by a plurality of pulse trains in which amplitude and position information are appropriately set, that is, a multi-pulse, is well known recently.

マルチパルス符号化装置において、マルチパルスを決
定すべき振幅と位置情報の量子化は極めて重要な問題で
あり、この量子化の内容が直接合成音の品質を左右す
る。
In a multi-pulse encoding device, quantization of amplitude and position information for determining a multi-pulse is a very important problem, and the content of this quantization directly affects the quality of synthesized speech.

一般に、分析フレームにおける大電力の有声音は線形
予測性が強く期待でき、従って殆んどの場合比較的少な
いマルチパルス数で良好な合成音質を得ることができ
る。また、その反面、量子化ノイズに対しては敏感であ
り、必要な細かさの量子化ステップを確保することが必
要となる。
In general, a high-power voiced sound in an analysis frame can be expected to have strong linear predictability, and therefore, in most cases, good synthesized sound quality can be obtained with a relatively small number of multi-pulses. On the other hand, it is sensitive to quantization noise, and it is necessary to secure a necessary fine quantization step.

一方、一般的に言って、分析フレームにおける小電力
の無声音は線形予測性が弱く、良好な合成音質を確保す
るためには比較多くのマルチパルス数を必要とし、反面
量子化ノイズは敏感であり細かい量子化ステップは必要
としない。
On the other hand, generally speaking, low-power unvoiced sound in an analysis frame has poor linear predictability, requires a relatively large number of multi-pulses in order to ensure good synthesized sound quality, and on the other hand, quantization noise is sensitive. No fine quantization steps are required.

以上の背景から、一定数の符号化総ビット数のもと
で、マルチパルスの数とその量子化ビット数をどのよう
配分するかについては電力情報の大小に対応する最適な
トレードオフが存在し、マルチパルス数を削減した場合
の合成音質劣化と、量子化ビット数を削減した場合の音
質劣化とを電力情報と組合せて考慮してマルチパルス数
を分析フレームごとに最適決定することが望ましい。
From the above background, there is an optimal trade-off for how to allocate the number of multi-pulses and the number of quantization bits under a certain number of total coding bits, corresponding to the magnitude of power information. It is desirable to determine the number of multi-pulses optimally for each analysis frame by considering the combined sound quality degradation when the number of multi-pulses is reduced and the sound quality degradation when the number of quantization bits is reduced in combination with power information.

〔発明が解決しようとする問題点〕[Problems to be solved by the invention]

上述した従来のマルチパルス符号化装置は、分析フレ
ームごとに立てるべきマルチパルスの数を固定としてお
り、従って分析フレームごとの電力情報が無視され、最
適のマルチパルス数と量子化ビット数の組合せから逸脱
し、その分合成音質の劣化が避けられないという欠点が
ある。
The above-described conventional multi-pulse encoding apparatus fixes the number of multi-pulses to be established for each analysis frame, and therefore ignores power information for each analysis frame, and determines the optimal combination of the number of multi-pulses and the number of quantization bits. However, there is a disadvantage that the synthesized sound quality deteriorates.

本発明の目的は上述した欠点を除去し、分析フレーム
ごとの電力情報にもとづいてマルチパルスの数を制御
し、合成音質を著しく改善しうるマルチパルス符号化装
置を提供することにある。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a multi-pulse encoding apparatus which eliminates the above-mentioned disadvantages, controls the number of multi-pulses based on power information for each analysis frame, and can significantly improve synthesized speech quality.

〔問題点を解決するための手段〕[Means for solving the problem]

本発明の装置は、マルチパルス符号化装置において、
分析フレームごとの音声電力が大もしくは小となるのに
対応してフレームごとに設定すべきマルチパルスの個数
をあらかじめ設定した比率で削減もしくは増大せしめる
とともにその量子化ビット数を符号化総ビット数の枠内
で前記マルチパルスの削減もしくは増大に対応して増大
もしくは削減するように制御しつつマルチパルスを設定
するマルチパルス設定手段を備えて構成される。
The device of the present invention is a multi-pulse encoding device,
The number of multi-pulses to be set for each frame is reduced or increased at a preset ratio in accordance with the audio power of each analysis frame being large or small, and the number of quantized bits is reduced by the total number of bits for encoding. A multi-pulse setting means for setting a multi-pulse while controlling the multi-pulse to increase or reduce in accordance with the reduction or increase of the multi-pulse within the frame is provided.

〔実施例〕〔Example〕

次に図面を参照して本発明を詳細に説明する。第1図
は本発明の一実施例のブロック図である。第1図に示す
実施例のマルチパルス符号化装置は分析側と合成側から
構成され、分析側は音声信号の音源情報としてのマルチ
パルスならびにスペクトル包絡情報を分析・抽出し、合
成側は分析側から提供されるマルチパルスとスペクトル
包絡情報を利用して音声信号を合成する。
Next, the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram of one embodiment of the present invention. The multi-pulse encoding apparatus according to the embodiment shown in FIG. 1 comprises an analyzing side and a synthesizing side. The analyzing side analyzes and extracts multi-pulses and spectrum envelope information as sound source information of an audio signal, and the synthesizing side is an analyzing side. A speech signal is synthesized by using the multi-pulse and the spectrum envelope information provided from the.

分析側は、A−Dコンバータ1、マルチパルス算出器
2、LPC(Linear Predicton−Coefficient)分析器3、
K量子化器4、K復合化器5、パルス数決定・量子化器
6、最大振幅検索器7、量子化器(μ255)8、復号化
器(μ255)9、多重化器10を備えて構成され、また合
成側は多重化分離器11、パルス復号化器12、復号化器
(μ255)13、K復号化器14、LPC合成フィルタ15、D−
Aコンバータ16等を備えて構成される。
On the analysis side, an A / D converter 1, a multi-pulse calculator 2, an LPC (Linear Predicton-Coefficient) analyzer 3,
It comprises a K quantizer 4, a K decoder 5, a pulse number determination / quantizer 6, a maximum amplitude searcher 7, a quantizer (μ255) 8, a decoder (μ255) 9, and a multiplexer 10. The demultiplexer 11 includes a demultiplexer 11, a pulse decoder 12, a decoder (μ255) 13, a K decoder 14, an LPC synthesis filter 15,
An A converter 16 and the like are provided.

第1図にもとづいて実施例の説明を行なうに先立ち、
第3図によって本発明の基本的概念を説明する。
Prior to describing the embodiment with reference to FIG.
FIG. 3 explains the basic concept of the present invention.

第3図は本発明の基本的内容を示す概念図である。 FIG. 3 is a conceptual diagram showing the basic contents of the present invention.

分析側では、音声入力からマルチパルス算出手段17に
よって分析フレームごとに設定すべき最大マルチパルス
数を検索し、その振幅、位置情報をパルス数決定・量子
化手段に提供する。この場合の最大マルチパルス数は、
マルチパルス符号化装置の運用目的にもとづく設計条件
等から決定される。
On the analysis side, the maximum number of multi-pulses to be set for each analysis frame is searched from the voice input by the multi-pulse calculation means 17, and the amplitude and position information are provided to the pulse number determination / quantization means. The maximum number of multi-pulses in this case is
It is determined from design conditions and the like based on the operation purpose of the multi-pulse encoder.

LPC分析手段18は、マルチパルス算出に必要なLPC係
数、たとえばKパラメータ(偏自己相関係数)を所定の
次数で抽出しマルチパルス算出手段17に供給する。
The LPC analysis means 18 extracts an LPC coefficient required for multipulse calculation, for example, a K parameter (partial autocorrelation coefficient) in a predetermined order, and supplies the LPC coefficient to the multipulse calculation means 17.

電力算出手段19は、分析フレームごとの電力を算出し
これをパルス数決定・量子化手段21に供給する。
The power calculation means 19 calculates the power for each analysis frame and supplies the calculated power to the pulse number determination / quantization means 21.

パルス数決定・量子化手段21は、分析フレームごとの
電力が大電力であるか小電力であるかに従って最大マル
チパルス数の枠内で利用すべきマルチパルスをそれぞれ
あらかじめ設定する数に制御しつつ、これに対応して量
子化ステップで量子化したうえ、これを多重化手段22に
供給する。こうして分析フレームごとの電力情報にもと
づいてパルス数と量子化ステップを制御されたマルチパ
ルスが多重化手段に音源情報として提供され、一方係数
量子化手段20はLPC分析手段18から受けたLPC係数を符号
化しスペクトル包絡情報として多重化手段22に供給す
る。多重化手段22は、入力したマルチパルスとLPC係数
とを適宜組合せて多重化し、これを伝送路を介して合成
側に送出する。
The pulse number determination / quantization means 21 controls the number of multi-pulses to be used within the maximum number of multi-pulses according to whether the power of each analysis frame is high power or low power, while controlling the number of multi-pulses to a preset number. , Corresponding to this, is quantized in a quantization step, and is supplied to the multiplexing means 22. Thus, a multi-pulse in which the number of pulses and the quantization step are controlled based on the power information for each analysis frame is provided to the multiplexing means as sound source information, while the coefficient quantization means 20 converts the LPC coefficients received from the LPC analysis means 18 The encoded data is supplied to the multiplexing means 22 as spectrum envelope information. The multiplexing means 22 multiplexes the input multi-pulse and the LPC coefficient by appropriately combining them, and sends the multiplexed signal to the combining side via a transmission path.

このようにして、分析フレームごとの電力情報をとり
入れてマルチパルス数とその量子化ステップの配分の最
適化を図った分析が行なわれるが、かかるマルチパルス
決定をさらに詳述すれば次のとおりである。
In this way, the analysis is performed in which the power information for each analysis frame is taken in to optimize the number of multi-pulses and the distribution of the quantization steps. Such multi-pulse determination is described in more detail below. is there.

すなわち、分析フレームの電力が有音声で大電力であ
る場合、この有音声から抽出したLPC係数によって形成
される合成フィルタのインパルス応答持続時間は比較的
に長く、これは有音声のスペクトル包絡が明瞭で鋭い極
を有することに起因する。この場合は、比較的少数のマ
ルチパルスで音声をよく近似し合成しうる代りに量子化
ステップには敏感で、この分、量子化ステップ数の増大
が必要となる。
In other words, when the power of the analysis frame is voiced and high power, the impulse response duration of the synthesis filter formed by the LPC coefficients extracted from the voiced speech is relatively long, which means that the spectrum envelope of the voiced speech is clear. Due to having sharp poles. In this case, instead of being able to approximate and synthesize speech with a relatively small number of multi-pulses, the speech is sensitive to the quantization step, and the number of quantization steps must be increased accordingly.

一方、分析フレームの電力が無声音で小電力である場
合、インパルス応答持続時間は比較的短く、このため、
有声音の場合とは逆に比較的多数のマルチパルスが無声
音の特徴表現に必要となる。無声音はもともと雑音的音
声であり、合成音に雑音が重畳しても聴感的にはさほど
音質劣化につながらない。つまり、量子化ステップには
比較的鈍感で比較的粗な量子化ステップとすることが可
能となるのである。
On the other hand, if the power of the analysis frame is unvoiced and low power, the impulse response duration is relatively short,
Contrary to the case of voiced sounds, a relatively large number of multi-pulses are required for expressing the characteristics of unvoiced sounds. Unvoiced sound is a noise-like sound by nature, and even if noise is superimposed on a synthesized sound, the sound quality does not significantly degrade in auditory sense. That is, the quantization step can be made relatively insensitive and relatively coarse.

さて、合成側では、多重化分離手段23によって多重化
分離したマルチパルスはパルス復号化手段24によって復
号化されLPC合成フィルタ26に供給される。一方、LPC係
数は係数復号化手段25によって復号化したうえLPC合成
フィルタ26のフィルタ係数として供給される。全極型デ
ィジタルフィルタを利用するLPC合成フィルタ26はこれ
によって合成音声を発生する。
On the synthesizing side, the multi-pulse multiplexed and demultiplexed by the demultiplexing unit 23 is decoded by the pulse decoding unit 24 and supplied to the LPC synthesis filter 26. On the other hand, the LPC coefficients are decoded by the coefficient decoding means 25 and supplied as filter coefficients of the LPC synthesis filter 26. The LPC synthesis filter 26 using the all-pole digital filter thereby generates synthesized speech.

以上、本発明の概念について説明した。次に、再び第
1図に戻って実施例の説明を続行する。
The concept of the present invention has been described above. Next, returning to FIG. 1, the description of the embodiment will be continued.

分析側では、A−Dコンバータ1で音声入力を所定の
高域遮断周波数のLPF(Low Pass Filter)を通したあと
8KHzのサンプリング周波数で量子化し、分析フレーム単
位でマルチパルス算出器2とLPC分析器3に供給する。
On the analysis side, the audio input is passed through an LPF (Low Pass Filter) having a predetermined high cutoff frequency by the A / D converter 1.
It is quantized at a sampling frequency of 8 KHz and supplied to the multi-pulse calculator 2 and the LPC analyzer 3 in analysis frame units.

マルチパルス算出器2は、あらかじめ設定した最大数
のマルチパルスを分析フレームごとに算出しこれをパル
ス数決定・量子化器6と最大振幅検索器7に供給する。
The multi-pulse calculator 2 calculates a preset maximum number of multi-pulses for each analysis frame, and supplies this to the pulse number determination / quantizer 6 and the maximum amplitude searcher 7.

また、LPC分析器3は、分析フレームごとの量子化音
声からKパラメータをLPC係数として抽出し、これをK
量子化4に提供して量子化を施される。この量子化され
たKパラメータはK復号化器5と多重化器10に供給さ
れ、K復合化器5で復号化されたKパラメータはマルチ
パルス検索に利用するためマルチパルス算出器2に供給
される。K復号化器5は、後述する合成側のK復号化器
14に等しい構成で、復号化処理にもとづく量子化誤差の
影響を分析側と合成側でほぼ同一状態とすることができ
る。
The LPC analyzer 3 extracts a K parameter as an LPC coefficient from the quantized speech for each analysis frame,
The quantization is provided to the quantization 4. The quantized K parameter is supplied to a K decoder 5 and a multiplexer 10, and the K parameter decoded by the K decoder 5 is supplied to a multi-pulse calculator 2 for use in a multi-pulse search. You. The K decoder 5 is a K-decoder on the synthesizing side to be described later.
With a configuration equal to 14, the effect of the quantization error based on the decoding process can be made almost the same on the analysis side and the synthesis side.

マルチパルス算出器2は、公知のマルチパルス検索手
段、本実施例の場合は相関領域処理手段によって分析フ
レームごとにマルチパルスを所定の個数算出する。
The multi-pulse calculator 2 calculates a predetermined number of multi-pulses for each analysis frame by a known multi-pulse search unit, in this embodiment, a correlation region processing unit.

第2図は第1図の実施例のマルチパルス算出器1を詳
細に示すブロック図であり、聴感重み付フィルタ101、K
/α変換器102、減衰係数算出器103、相互相関算出器10
4、インパルス応答算出器105、自己相関算出器106、一
時メモリ107、相互相関補正器108、最大値検索器109、
一時メモリ110等を備え、相関領域処理手法によってマ
ルチパルス列を算出する。
FIG. 2 is a block diagram showing in detail the multi-pulse calculator 1 of the embodiment of FIG.
/ α converter 102, attenuation coefficient calculator 103, cross-correlation calculator 10
4, impulse response calculator 105, autocorrelation calculator 106, temporary memory 107, cross-correlation corrector 108, maximum value searcher 109,
It includes a temporary memory 110 and the like, and calculates a multi-pulse train by a correlation area processing method.

A−Dコンバータ1から供給された量子化音声は聴感
重み付フィルタ101に入力され、またK復号化器5から
供給される復号化KパラメータはK/α変換器102に入力
される。
The quantized voice supplied from the A / D converter 1 is input to the perceptual weighting filter 101, and the decoded K parameter supplied from the K decoder 5 is input to the K / α converter 102.

聴感重み付フィルタ101は、マルチパルス検索の前処
理として、入力する量子化音声の量子化雑音スペクトル
を入力音声のスペクトルに近接するように処理し、人間
の聴覚特性としてのマスキング効果による実効的雑音低
減を図るフィルタで、このフィルタ係数はLPC係数のi
次のαパラメータαiとγαiとにもとづいて決定さ
れる。ここでiはLPC分析次数、γは0<γ<1の範囲
で決定される減衰係数で、前述した聴感重みを決定する
ものである。
The perceptual weighting filter 101 processes the quantized noise spectrum of the input quantized voice so as to be close to the spectrum of the input voice as preprocessing of the multi-pulse search, and the effective noise due to the masking effect as a human auditory characteristic. This filter is used to reduce the filter coefficient.
It is determined based on the following α parameter αi and γ i αi. Here, i is the LPC analysis order, and γ is an attenuation coefficient determined in the range of 0 <γ <1, and determines the above-mentioned audibility weight.

K/α変換器102は、Kパラメータをαパラメータに変
換してこれを聴感重み付フィルタ101と減衰係数算出器1
03に供給、減衰係数算出器103からはγαiが聴感重
み付フィルタ101とインパルス応答算出器105に供給され
る。
The K / α converter 102 converts the K parameter into an α parameter, and converts this into an audibility weighting filter 101 and an attenuation coefficient calculator 1.
Γ i αi is supplied from the attenuation coefficient calculator 103 to the auditory weighting filter 101 and the impulse response calculator 105.

聴感重み付フィルタ101の出力は相互相関算出器104に
出力される。
The output of the perceptual weighting filter 101 is output to the cross-correlation calculator 104.

インパルス応答算出器105は、γαiをフィルタ係
数とする音声合成フィルタのインパルス応答を算出し、
これを相互相関算出器104に提供して聴感重み付量子化
音声との相互相関をとり、その結果を分析フレームごと
に一時メモリ107に送出する。
The impulse response calculator 105 calculates an impulse response of a speech synthesis filter using γ i αi as a filter coefficient,
This is provided to the cross-correlation calculator 104 to obtain a cross-correlation with the perceptual weighted quantized speech, and the result is sent to the temporary memory 107 for each analysis frame.

自己相関算出器106は、前記インパルス応答の自己相
関をとり、これを相互相関補正器108に供給する。
The autocorrelation calculator 106 calculates the autocorrelation of the impulse response and supplies the autocorrelation to the cross-correlation corrector 108.

さて、分析フレーム内のi番目のパルスの振幅と位置
は次の(1)式で示されるgi(mi)として得られる。
Now, the amplitude and position of the i-th pulse in the analysis frame are obtained as gi (mi) represented by the following equation (1).

(1)式において、giとmiはそれぞれ分析フレーム内
のi番目のパルスの振幅と位置、glとmlはそれぞれ直前
に検索された最大値パルスの振幅と位置データ、Rhhは
音声合成フィルタのインパルス応答の自己相関係数、
hsは音声入力波形と前記インパルス応答との相互相関係
数である。この(1)式の示す具体的内容は、glとmlで
表わされる。パルスの次にmiの位置に立てるパルスの振
幅としてはgi(mi)が最適であり、またこのgi(mi)を
得るには位置miにおけるhsに対して直前の最大値パル
スから得られる分子第2項の補正をhs(mi)に施した
ものをRhh(0)で正規化しつつ、その絶対値の最大な
ものを見出す形式で行なうことができるということであ
る。
In the equation (1), gi and mi are the amplitude and position of the i-th pulse in the analysis frame, gl and ml are the amplitude and position data of the maximum value pulse searched immediately before, and Rhh is the impulse of the speech synthesis filter. Autocorrelation coefficient of the response,
hs is a cross-correlation coefficient between the speech input waveform and the impulse response. The specific contents of the expression (1) are represented by gl and ml. Gi (mi) is the optimal amplitude of the pulse to be set at the position of mi next to the pulse, and to obtain gi (mi), the numerator of the numerator obtained from the immediately preceding maximum pulse with respect to hs at position mi That is, while the one obtained by performing the two-term correction on hs (mi) is normalized by Rhh (0), it can be performed in a form to find the one having the largest absolute value.

一時メモリ107に格納された分析フレームごとのhs
は、先ず最大値検索器109で最大値を検索され相互相関
補正器108に提供される。このhsは自己相関算出器106
から提供されるRhh(0)で正規化されて第1パルスと
して一時メモリ107と110に供給され、一時メモリ107に
格納されている当該hsはこの第1パルスに書替えられ
る。
Hs for each analysis frame stored in temporary memory 107
Is first searched for the maximum value by a maximum value search unit 109 and provided to a cross-correlation corrector 108. This hs is calculated by the autocorrelation calculator 106
Are supplied to the temporary memories 107 and 110 as a first pulse after being normalized by Rhh (0) provided by the controller, and the hs stored in the temporary memory 107 is rewritten to the first pulse.

次に、相関相関補正器108は第2パルスを決定するた
めの補正を行なう。この第2パルスの検索は、一時メモ
リ107から第1パルスを除いた分析フレームの残り全h
sを読出した最大値検索器109がそれらの中で最大なもの
を見出し、そのときのgiとmiとを相互相関補正器108に
提供することから開始される。
Next, the correlation corrector 108 performs a correction for determining the second pulse. The search for the second pulse is performed by retrieving all remaining h of the analysis frame except the first pulse from the temporary memory 107.
The process starts when the maximum value search unit 109 that has read s finds the largest one among them, and provides gi and mi at that time to the cross-correlation corrector 108.

相互相関補正器108は、一時メモリ107からは直前に検
出した第1パルスのglとmlとを読出し、また自己相関算
出器106からは前述したRhh(0)とRhh(|ml−mi|)に
関するデータを得て補正ならびにその後正規化処理を行
ない、これが第2パルスとして一時メモリ110に提供さ
れるとともに一時メモリ107に提供され、当該hsはこ
の第2パルスに書替えられる。
Correlation corrector 108 reads out the gl and ml of the first pulse detected immediately before the temporary memory 107, also a Rhh described above is from the autocorrelation calculator 106 (0) Rhh (| m l -m i The data regarding |) is obtained, corrected and then normalized, and this is provided as a second pulse to the temporary memory 110 and also to the temporary memory 107, and the corresponding hs is rewritten to this second pulse.

このあと同様にして第3〜第nまでのパルスが次次に
検索され、一時メモリ110に分析フレームごとに格納さ
れる。一時メモリ110からは、このマルチパルスが分析
フレームごとにパルス数決定・量子化器6および最大振
幅検索器7に供給される。
Thereafter, similarly, the third to n-th pulses are sequentially searched and stored in the temporary memory 110 for each analysis frame. The multi-pulse is supplied from the temporary memory 110 to the pulse number determination / quantizer 6 and the maximum amplitude searcher 7 for each analysis frame.

最大振幅検索器7は、マルチパルス算出器2から入力
したマルチパルス列に対し分析フレームごとにその最大
値を検索し、その結果を量子化器(μ255)に供給す
る。この最大値の検索は、パルス数決定・量子化器7に
おいて分析フレームごとの最適マルチパルスの数を決定
する際に必要な電力情報を、マルチパルスの最大振幅を
利用する形式で抽出するために行なうものである。
The maximum amplitude searcher 7 searches the multipulse train input from the multipulse calculator 2 for the maximum value for each analysis frame, and supplies the result to a quantizer (μ255). The search for the maximum value is performed in order to extract power information necessary for determining the optimum number of multi-pulses for each analysis frame in the pulse number determination / quantizer 7 in a format using the maximum amplitude of the multi-pulse. It is what you do.

量子化器(μ255)8は、最大振幅検索器7から提契
された分析フレームごとのマルチパルス最大値に、CCIT
T勧告のμ−Law PCM(CCITT,Volume III−Rec.G.777 Ta
ble2a〜2b,p375〜376)にもとづく7ビット量子化を施
す。
The quantizer (μ255) 8 applies the CCIT to the multi-pulse maximum value for each analysis frame
T-Recommended μ-Law PCM (CCITT, Volume III-Rec.G.777 Ta
7-bit quantization based on ble2a-2b, p375-376).

このμ−255 PCMによれば、正負の極性を含めて8ビ
ットで最大振幅を量子化することとなるが、本実施例の
如くマルチパルスの最大値を量子化しようとする場合に
は極性表現を必要としないので7ビットですむことにな
る。この7ビットのうち上位3ビットがμ−Law形式で
量子化する最大振幅の量子化特性の対数部分を、また下
位4ビットが線形部分に割当てられる。電力情報を加味
して実施するマルチパルスの決定ならびにその量子化
は、上述した上位3ビット分を利用して行なわれる。
According to the μ-255 PCM, the maximum amplitude is quantized by 8 bits including the positive and negative polarities. However, when quantizing the maximum value of the multi-pulse as in the present embodiment, the polar expression is used. , So only 7 bits are needed. Of these 7 bits, the upper 3 bits are assigned to the logarithmic part of the maximum amplitude quantization characteristic quantized in the μ-Law format, and the lower 4 bits are assigned to the linear part. The determination of the multi-pulse to be performed in consideration of the power information and the quantization thereof are performed using the above-mentioned upper three bits.

第4図は第1図の実施例におけるマルチパルス最大振
幅の量子化の基本的内容を表記して示す説明図である。
FIG. 4 is an explanatory diagram showing the basic contents of the quantization of the multi-pulse maximum amplitude in the embodiment of FIG.

上位3ビットの000から111によって表現される最大振
幅値の量子化2進値ならびに符号化数値を示し、たとえ
ば最大振幅値が0〜31の量子化2進値に入るものは上位
3ビットの111で表現し符号としては7となることを示
す。こうして0〜8159までの量子化2進値を8ステッ
プ,3ビットで対数的に指定する。
Indicates the quantized binary value and the coded numerical value of the maximum amplitude value represented by the upper 3 bits 000 to 111. For example, those whose maximum amplitude value falls within the quantized binary value of 0 to 31 are the upper 3 bits 111 And the sign is 7. In this way, the quantized binary values from 0 to 8159 are specified logarithmically in 8 steps and 3 bits.

量子化器(μ255)8の出力は、復号化器(μ255)9
とパルス数決定・量子化器6ならびに多重化器10に供給
される。
The output of the quantizer (μ255) 8 is output to the decoder (μ255) 9
Are supplied to the pulse number determination / quantizer 6 and the multiplexer 10.

復号化器(μ255)9は、量子化された最大振幅を復
号化しこれをパルス数決定・量子化器6に供給する。
The decoder (μ255) 9 decodes the quantized maximum amplitude and supplies it to the pulse number determination / quantizer 6.

パルス数決定・量子化器6は、こうして入力した分析
フレームごとの復号化最大振幅によって分析フレームご
とのマルチパルスの正規化を行ない、一方、量子化器
(μ255)8から直接受ける量子化最大振幅を利用して
分析フレームごとの電力を算出、正規化マルチパルスと
この電力情報にもとづいて最大マルチパルス数を分析フ
レームごとに決定する。電力情報を利用して行なう最適
マルチパルス数の決定は、マルチパルス符号化装置の運
用目的、経験的資料等にもとづいてあらかじめ設定する
判定基準によって行なわれる。
The pulse number determination / quantizer 6 normalizes the multi-pulse for each analysis frame based on the decoding maximum amplitude for each analysis frame input as described above, while the quantization maximum amplitude directly received from the quantizer (μ255) 8. Is used to calculate the power for each analysis frame, and the maximum number of multipulses is determined for each analysis frame based on the normalized multipulse and this power information. The determination of the optimum number of multi-pulses to be performed using the power information is performed according to a criterion set in advance based on the operation purpose of the multi-pulse encoder, empirical data, and the like.

パルス数決定・量子化器6に、こうして決定された分
析フレームごとのマルチパルスに対し、振幅と位置の量
子化を一定の割当総ビット数の枠内で実施する。
The pulse number determination / quantizer 6 performs the quantization of the amplitude and the position of the multi-pulse for each analysis frame determined in this manner within a frame of a fixed total number of bits.

第5図は第1図の実施例におけるマルチパルス量子化
の一例を表記して示す説明図である。
FIG. 5 is an explanatory diagram showing an example of multi-pulse quantization in the embodiment of FIG.

第5図は、マルチパルスの最大振幅が第4図の符号で
示す0〜1,2〜3,4〜5,7〜7の範囲にまたがるNo.1〜No.
4の4通りの場合を例として表記している。この場合、
たとえば0,1の符号の組合せで示すNo.1の場合は、その
分析フレームの最大振幅が第4図の8159〜2015の範囲に
ある場合である。
FIG. 5 shows No. 1 to No. 1 in which the maximum amplitude of the multi-pulse is in the range of 0 to 1, 2 to 3, 4 to 5, and 7 to 7 indicated by reference numerals in FIG.
Four cases of 4 are shown as examples. in this case,
For example, the case of No. 1 indicated by a combination of signs 0 and 1 is a case where the maximum amplitude of the analysis frame is in the range of 8159 to 2015 in FIG.

パルス数はNo.1からNo.4に電力が増大するに従って1
2,16,24,36と増大し、これに対応して振幅量子化に割当
てるビット数は6,4,2,1ビット、また位置量子化に割当
てるビット数も6,54,3と減少する。これら振幅と位置量
子化に要する全体のビット数は144ビットで一定であ
る。この144ビットは、分析フレーム長さ20mSECとする
ときマルチパルスのビットレートが7200ビット/秒であ
り、本実施例のマルチパルス符号化装置では全体として
9600ビット/秒のデータレートで運用し、残りの2400ビ
ット/秒がスペクトル包絡パラメータと分析フレーム番
号に割当てられる。
The number of pulses increases from No. 1 to No. 4 as the power increases.
2,16,24,36 and the number of bits allocated to amplitude quantization is correspondingly reduced to 6,4,2,1 bits, and the number of bits allocated to position quantization is also reduced to 6,54,3. . The total number of bits required for these amplitude and position quantization is constant at 144 bits. This 144 bits is a multi-pulse bit rate of 7200 bits / sec when the analysis frame length is 20 mSEC, and the multi-pulse encoder of the present embodiment as a whole
Operating at a data rate of 9600 bits / sec, the remaining 2400 bits / sec are allocated to the spectral envelope parameters and analysis frame numbers.

第5図ではマルチパルスの最大数は分析フレーム当り
36個であり、No.4の場合の振幅量子化は1ビットであ
る。つまり、この場合は極性符号のみが指定される。ま
た、No.3の場合は2ビットだけ振幅量子化に利用され
る。かかる1ビットもしくは2ビット程度の振幅量子化
の実施には多少の工夫が必要であり、その内容を次に示
す。
In Fig. 5, the maximum number of multipulses is per analysis frame
The number is 36, and the amplitude quantization in the case of No. 4 is 1 bit. That is, in this case, only the polarity code is specified. In the case of No. 3, only 2 bits are used for amplitude quantization. Some implementation is required to perform such 1-bit or 2-bit amplitude quantization, and the details will be described below.

(1)1ビット振幅量子化の場合 最適量子化基準振幅x、マルチパルスの各振幅の絶対
値をvi(i=1,2,…I,Iはパルス数)とすると、xは を最小化することにより求められ、よく知られるように で求められる。
(1) In the case of 1-bit amplitude quantization Assuming that the optimal quantization reference amplitude x and the absolute value of each amplitude of the multi-pulse are v i (i = 1, 2,... I, I is the number of pulses), x is Is obtained by minimizing Is required.

(2)2ビット量子化の場合 2つの最適量子化基準振幅をy、 とすると、 であることは明らかである。このyは次のZとして求め
られる。
(2) In the case of 2-bit quantization The two optimal quantization reference amplitudes are y, Then It is clear that This y is obtained as the next Z.

実際的にはyをx〜2xの範囲で離散的に4ポイント程
度仮定してZを求めることにより、yを実用的に精度よ
く設定することができる。
Actually, y can be set practically and accurately by assuming y by assuming about 4 points discretely in the range of x to 2x.

さて、こうして分析フレームごとの電力情報を条件と
して量子化されたマルチパルスは多重化器10に供給され
る。
The multi-pulse quantized on the condition of the power information for each analysis frame is supplied to the multiplexer 10.

多重化器10は量子化されたマルチパルス、最大振幅、
Kパラメータを適当組合せて多重化し、伝送路を介して
合成側に送出する。
The multiplexer 10 has a quantized multipulse, maximum amplitude,
The K parameters are appropriately combined and multiplexed, and transmitted to the combining side via a transmission path.

合成側では多重化分離器11で多重化を分離した符号化
マルチパルス、量大振幅およびKパラメータをそれぞれ
パルス復号化器12、復号化器(μ255)13およびK復号
化器14に供給して復号化を行ない、最大振幅データはパ
ルス復号化器に供給されて正規化マルチパルスの正規化
を解除し、これはLPC合成フィルタ15の入力駆動音源と
して利用される。また、復号化Kパラメータはフィルタ
係数として利用され、全極型ディジタルフィルタとして
構成されるLPC合成フィルタ15はこれによりディジタル
合成音を発生、これをD−Aコンバータ16に供給する。
On the synthesizing side, the encoded multipulse, the large amplitude and the K parameter separated from the multiplexing by the demultiplexer 11 are supplied to the pulse decoder 12, the decoder (μ255) 13 and the K decoder 14, respectively. The decoding is performed, and the maximum amplitude data is supplied to the pulse decoder to cancel the normalization of the normalized multi-pulse, which is used as an input driving sound source of the LPC synthesis filter 15. The decoded K parameter is used as a filter coefficient, and the LPC synthesis filter 15 configured as an all-pole digital filter generates a digital synthesized sound, and supplies the digital synthesized sound to the DA converter 16.

D−Aコンバータ16は、入力したディジタル合成音を
アナログ化し、これを所定の高域遮断周波数を有するLP
Fを通して合成音声として出力する。
The DA converter 16 converts the input digital synthesized sound into an analog signal, and converts the analog signal into an LP having a predetermined high-frequency cutoff frequency.
Output as synthesized speech through F.

〔発明の効果〕〔The invention's effect〕

以上説明した如く本発明によれば、分析フレームの電
力情報にもとづいてマルチパルス数を制御するという手
段を備えることにより、大電力および小電力に対応して
マルチパルス数とその量子化に要するビット数の最適な
配分を制御し、従って一定の総ビット数の枠内で合成音
声の音質を著しく改善しうるマルチパルス符号化装置が
実現できるという効果がある。
As described above, according to the present invention, by providing means for controlling the number of multi-pulses based on the power information of the analysis frame, the number of multi-pulses corresponding to large power and small power and the bits required for quantization thereof are This has the effect of realizing a multi-pulse encoder capable of controlling the optimal distribution of numbers and, therefore, significantly improving the sound quality of synthesized speech within a fixed total number of bits.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例のブロック図、第2図は第1
図の実施例のマルチパルス算出器1を詳細に示すブロッ
ク図、第3図は本発明の基本的内容を示す概念図、第4
図は第1図の実施例における最大振幅の量子化の基本的
内容を表記して示す説明図、第5図は第1図の実施例に
おけるマルチパルス量子化の一例を表記して示す説明図
である。 1……A−Dコンバータ、2……マルチパルス算出器、
3……LPC分析器、4……K量子化器、5……K復合化
器、6……パルス数決定・量子化器、7……最大振幅検
索器、8……量子化器(μ255)、9……復号化器(μ2
55)、10……多重化器、11……多重化分離器、12……パ
ルス復号化器、13……復号化器(μ255)、14……K復
号化器、15……LPC合成フィルタ、16……D−Aコンバ
ータ、17……マルチパルス算出手段、18……LPC分析手
段、19……電力算出手段、20……係数量子化手段、21…
…パルス数決定・量子化手段、22……多重化手段、23…
…多重化分離手段、24……パルス復号化手段、25……係
数復号化手段、26……LPC合成フィルタ、101……聴感重
み付フィルタ、102……K/α変換器、103……減衰係数算
出器、104……相互相関算出器、105……インパルス応答
算出器、106……自己相関算出器、107……一時メモリ、
108……相互相関補正器、109……最大値検索器、110…
…一時メモリ。
FIG. 1 is a block diagram of one embodiment of the present invention, and FIG.
FIG. 3 is a block diagram showing the multi-pulse calculator 1 of the embodiment shown in detail, FIG. 3 is a conceptual diagram showing the basic contents of the present invention, FIG.
FIG. 5 is an explanatory diagram showing the basic contents of quantization of the maximum amplitude in the embodiment of FIG. 1, and FIG. 5 is an explanatory diagram showing an example of multi-pulse quantization in the embodiment of FIG. It is. 1 ... A / D converter, 2 ... Multipulse calculator,
3 LPC analyzer, 4 K quantizer, 5 K decoder, 6 pulse number determination / quantizer, 7 maximum amplitude searcher, 8 quantizer (μ255) ), 9 ... Decoder (μ2
55), 10: Multiplexer, 11: Demultiplexer, 12: Pulse decoder, 13: Decoder (μ255), 14: K decoder, 15: LPC synthesis filter , 16 DA converter, 17 multipulse calculating means, 18 LPC analyzing means, 19 power calculating means, 20 coefficient quantizing means, 21
... Pulse number determination / quantization means, 22 ... Multiplexing means, 23 ...
... Demultiplexing means, 24 ... Pulse decoding means, 25 ... Coefficient decoding means, 26 ... LPC synthesis filter, 101 ... Perceptual weighting filter, 102 ... K / α converter, 103 ... Attenuation Coefficient calculator, 104 cross-correlation calculator, 105 impulse response calculator, 106 auto-correlation calculator, 107 temporary memory,
108 ... cross-correlation corrector, 109 ... maximum value searcher, 110 ...
... temporary memory.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】音声の音源情報をその音声電力によりマル
チパルスの数を変化させて符号化するマルチパルス符号
化装置において、前記マルチパルスの数を変化させる時
に対応する量子化ビットの数を前記マルチパルスの数と
前記量子化ビットの数との積が一定となるようなトレー
ドオフ的な関係で設定する手段を備えて成ることを特徴
とするマルチパルス符号化装置。
1. A multi-pulse encoding apparatus for encoding sound source information of a speech by changing the number of multi-pulses according to the speech power, wherein the number of quantization bits corresponding to the number of the multi-pulses is changed. A multi-pulse encoding apparatus comprising means for setting a trade-off relationship such that a product of the number of multi-pulses and the number of quantization bits is constant.
JP62118475A 1987-05-14 1987-05-14 Multi-pulse encoder Expired - Lifetime JP2586043B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP62118475A JP2586043B2 (en) 1987-05-14 1987-05-14 Multi-pulse encoder
CA000566749A CA1328694C (en) 1987-05-14 1988-05-13 Encoder of a multi-pulse type capable of optimizing the number of excitation pulses and quantization level
AU16122/88A AU598433B2 (en) 1987-05-14 1988-05-13 Encoder of a multi-pulse type capable of optimizing the number of excitation pulses and quantization level
US07/194,372 US4881267A (en) 1987-05-14 1988-05-16 Encoder of a multi-pulse type capable of optimizing the number of excitation pulses and quantization level
GB8811531A GB2204766B (en) 1987-05-14 1988-05-16 Speech encoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62118475A JP2586043B2 (en) 1987-05-14 1987-05-14 Multi-pulse encoder

Publications (2)

Publication Number Publication Date
JPS63282795A JPS63282795A (en) 1988-11-18
JP2586043B2 true JP2586043B2 (en) 1997-02-26

Family

ID=14737593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62118475A Expired - Lifetime JP2586043B2 (en) 1987-05-14 1987-05-14 Multi-pulse encoder

Country Status (5)

Country Link
US (1) US4881267A (en)
JP (1) JP2586043B2 (en)
AU (1) AU598433B2 (en)
CA (1) CA1328694C (en)
GB (1) GB2204766B (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2707564B2 (en) * 1987-12-14 1998-01-28 株式会社日立製作所 Audio coding method
US5018200A (en) * 1988-09-21 1991-05-21 Nec Corporation Communication system capable of improving a speech quality by classifying speech signals
EP0374941B1 (en) * 1988-12-23 1995-08-09 Nec Corporation Communication system capable of improving a speech quality by effectively calculating excitation multipulses
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
JP2903533B2 (en) * 1989-03-22 1999-06-07 日本電気株式会社 Audio coding method
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
FI95085C (en) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd A method for digitally encoding a speech signal and a speech encoder for performing the method
JP2947012B2 (en) * 1993-07-07 1999-09-13 日本電気株式会社 Speech coding apparatus and its analyzer and synthesizer
JP3094908B2 (en) * 1996-04-17 2000-10-03 日本電気株式会社 Audio coding device
FI118704B (en) * 2003-10-07 2008-02-15 Nokia Corp Method and device for source coding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1197619A (en) * 1982-12-24 1985-12-03 Kazunori Ozawa Voice encoding systems
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
JPS6113300A (en) * 1984-06-29 1986-01-21 株式会社日立製作所 Voice analysis/synthesization system
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics

Also Published As

Publication number Publication date
AU598433B2 (en) 1990-06-21
CA1328694C (en) 1994-04-19
GB8811531D0 (en) 1988-06-22
GB2204766B (en) 1991-03-27
US4881267A (en) 1989-11-14
JPS63282795A (en) 1988-11-18
AU1612288A (en) 1988-11-17
GB2204766A (en) 1988-11-16

Similar Documents

Publication Publication Date Title
RU2144261C1 (en) Transmitting system depending for its operation on different coding
EP0764938B1 (en) Perceptual noise masking based on synthesis filter frequency response
CA1333425C (en) Communication system capable of improving a speech quality by classifying speech signals
EP0764941A2 (en) Speech signal quantization using human auditory models in predictive coding systems
US6985857B2 (en) Method and apparatus for speech coding using training and quantizing
JP2586043B2 (en) Multi-pulse encoder
US5706392A (en) Perceptual speech coder and method
KR20020012509A (en) Relative pulse position in celp vocoding
JP3964144B2 (en) Method and apparatus for vocoding an input signal
JP3329216B2 (en) Audio encoding device and audio decoding device
JP4800285B2 (en) Speech decoding method and speech decoding apparatus
JP3510168B2 (en) Audio encoding method and audio decoding method
JP2581050B2 (en) Voice analysis and synthesis device
JP3552201B2 (en) Voice encoding method and apparatus
JP2560682B2 (en) Speech signal coding / decoding method and apparatus
JP2853126B2 (en) Multi-pulse encoder
JPH0411040B2 (en)
JP2560860B2 (en) Multi-pulse type speech coding and decoding device
JP2847730B2 (en) Audio coding method
JP3845316B2 (en) Speech coding apparatus and speech decoding apparatus
JP2853170B2 (en) Audio encoding / decoding system
JP2560486B2 (en) Multi-pulse encoder
JP2639118B2 (en) Multi-pulse speech codec
JPH0738115B2 (en) Speech analysis / synthesis device
JPH0414813B2 (en)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071205

Year of fee payment: 11