JPH04502675A - Digital speech coder with improved long-term predictor - Google Patents

Digital speech coder with improved long-term predictor

Info

Publication number
JPH04502675A
JPH04502675A JP2509641A JP50964190A JPH04502675A JP H04502675 A JPH04502675 A JP H04502675A JP 2509641 A JP2509641 A JP 2509641A JP 50964190 A JP50964190 A JP 50964190A JP H04502675 A JPH04502675 A JP H04502675A
Authority
JP
Japan
Prior art keywords
vector
samples
excitation vector
long
excitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2509641A
Other languages
Japanese (ja)
Other versions
JP3268360B2 (en
Inventor
ジャーソン・イラ アラン
ジャシウク・マーク エイ
Original Assignee
モトローラ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23590969&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH04502675(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by モトローラ・インコーポレーテッド filed Critical モトローラ・インコーポレーテッド
Publication of JPH04502675A publication Critical patent/JPH04502675A/en
Application granted granted Critical
Publication of JP3268360B2 publication Critical patent/JP3268360B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Analogue/Digital Conversion (AREA)
  • Near-Field Transmission Systems (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

A digital speech coder includes a long-term filter (124) having an improved sub-sample resolution long-term predictor which allows for subsample resolution for the lag parameter L. A frame of N samples of input speech vector s(n) is applied to an adder (510). The output of the adder (510) produces the output vector b(n) for the long term filter (124). The output vector b(n) is fed back to a delayed vector generator block (530) of the long-term predictor. The nominal long-term predictor lag parameter L is also input to the delayed vector generator block (530). The long-term predictor lag parameter L can take on non-integer values, which may be multiples of one half, one third, one fourth or any other rational fraction. The delayed vector generator (530) includes a memory which holds past samples of b(n). In addition, interpolated samples of b(n) are also calculated by the delayed vector generator (530) and stored in its memory, at least one interpolated sample being calculated and stored between each past sample of b(n). The delayed vector generator (530) provides output vector q(n) to the long-term multiplier block (520), which scales the long-term predictor response by the long-term predictor coefficient beta . The scaled output beta q(n) is then applied to the adder (510) to complete the feedback loop of the recursive filter (124).

Description

【発明の詳細な説明】 改良されたロングターム予測器を 有するデジタル音声フード 発明の背景 この発明は、1988年6月28日に出願され今は放棄されている、米国出願番 号第07/212,455号の一部継続出願である、1989年9月1日に出願 されかつ今は放棄されている、米国出願番号第07/402.206号の継続出 願である。[Detailed description of the invention] An improved long-term predictor Digital audio hood with Background of the invention This invention was filed on June 28, 1988 and is now abandoned, US Application No. No. 07/212,455, a continuation in part, filed on September 1, 1989 Continued filing of U.S. Application Serial No. 07/402.206, now abandoned. It is a wish.

コード励起リニア予測(code−exc i t edlinear pre diction:CELP)は低いビットレート、すなわち、4.8〜9.6キ ロビツト/秒(Kbps)における高品質の合成音声を生成できる可能性を有す る音声コーディング技術である。このクラスの音声符号化は、またベクトル励起 リニア予測または推計符号化(stochastic coding)として知 られているが、数多くの音声通信および音声合成の用途に最もよく用いられる。Code-excited linear prediction (code-exc itedlinear pre diction: CELP) is a low bit rate, i.e. 4.8 to 9.6 bits. It has the potential to generate high-quality synthesized speech in robots per second (Kbps). This is a voice coding technology that uses This class of speech coding also uses vector excitation Also known as linear prediction or stochastic coding. However, it is most commonly used in many voice communication and speech synthesis applications.

CELPは音声品質、データレート、大きさおよびコストが重要な要素であるデ ジタル音声暗号化およびデジタル無線電話通信システムに特に適用可能であるこ とが分っている。CELP is a device where voice quality, data rate, size and cost are important factors. be particularly applicable to digital voice encryption and digital radiotelephone communication systems. I know that.

[符号励起(code−exc i t ed)Jまたはベクトル励起(vec tor−excited)Jという用語は音声フードのための励起シーケンスが ベクトル量子化されている、すなわち単一のコード語(codeword)が励 起サンプルのシーケンス、ベクトルを表すのに用いられるという事実からきてい る。このようにして、毎サンプルにつき1ビツトより小さなデータレートが励起 シーケンスを符号化するために可能となる。記憶された励起符号ベクトルは一般 に独立のランダムなホワイトガウスシーケンスからなる。フードブックからの1 つのコードベクトルはN個の励起サンプルの各ブロックを表すのに用いられる。[code excitation (code-exc i t ed) J or vector excitation (vec tor-excited) The term J means that the excitation sequence for the audio hood is vector quantized, i.e. a single codeword is It comes from the fact that it is used to represent a sequence of samples, a vector. Ru. In this way, a data rate of less than 1 bit per sample can be excited. It becomes possible to encode sequences. The stored excitation code vector is general consists of independent random white Gaussian sequences. 1 from the food book One codevector is used to represent each block of N excitation samples.

各々の記憶されたコードベクトルはコード語、すなわちコードベクトルメモリの ロケーションのアドレスによって表される。受信機において音声フレームを再構 成するために通信チャネルを介して音声シンセサイザに引き続き送られるのはこ のコード語である。エム・アール・シュローダおよびビー・ニス・アタルによる 、「コード励起リニア予測(CELP)、非常に低いビットレートにおける高品 質音声」、音響に関するI EEE国際会議紀要、音声および信号処理(ICA SSP)、第3巻、PP、937−40.1985年3月、をCELPのより詳 細な説明のために参照。Each stored code vector is a code word, i.e. a code vector memory. Represented by the address of a location. Reconstructs the audio frame at the receiver. This is then sent to the voice synthesizer via the communication channel to is the code word for By M. R. Schroeda and B. Nis Attal , “Code Excited Linear Prediction (CELP), High Quality at Very Low Bitrates” "Quality Audio", Proceedings of the IEEE International Conference on Acoustics, Audio and Signal Processing (ICA SSP), Volume 3, PP, 937-40. March 1985, in more detail in CELP. See for detailed explanation.

CELP音声コーダにおいては、コードブックからの励起コードベクトルは入力 音声信号の特性を作る2個の時間変動リニアフィルタに印加される。第1のフィ ルタはそのフィードバックループにロングターム予測器を含み、これは有声音( vojced 5peech)のピッチの周期性を導入するために使用される、 長い遅延、すなわち、2〜15ミリセカンドを有している。第2のフィルタはそ のフィードバックループにショートターム予測器を含み、これはスペクトル的な エンベロープまたはフォーマット構造を導入するために使用される、短い遅延、 すなわち、2ミリセカンドより短い遅延、を有している。音声の各フレームに対 して、音声コーグはそれぞれの個々のコードベクトルをフィルタに印加して再構 成された音声信号を発生し、元の入力音声信号を該再構成された信号と比較して エラー信号を発生する。このエラー信号は次に人間の聴覚に基づく応答を有する 重み付はフィルタを通すことにより重み付けされる。最適の励起信号は現在のフ レームに対して最小のエネルギを有する重み付はエラー信号を生成するコードベ クトルを選択することにより決定される。最適のコードベクトルに対するコード 語は次に通信チャネルによって送信される。In the CELP speech coder, the excitation codevector from the codebook is the input It is applied to two time-varying linear filters that create the characteristics of the audio signal. first fi router includes a long-term predictor in its feedback loop, which is used for voiced sounds ( vojced 5peech) is used to introduce pitch periodicity, It has a long delay, ie 2-15 milliseconds. The second filter includes a short-term predictor in the feedback loop of the spectral A short delay, used to introduce an envelope or formatting structure, That is, it has a delay of less than 2 milliseconds. for each frame of audio. Then, VoiceCog applies each individual codevector to a filter to reconstruct it. generating a reconstructed audio signal and comparing the original input audio signal with the reconstructed signal. Generates an error signal. This error signal then has a response based on human hearing Weighting is performed by passing through a filter. The optimal excitation signal is The weighting with the minimum energy for the frame is the codebase that produces the error signal. determined by selecting the vector. code for optimal code vector The words are then transmitted over a communication channel.

CELP音声合成器においては、チャネルから受信されたコード語は励起ベクト ルのコードブックをアドレスするために使用される。単一のコードベクトルは次 にゲインファクタによって乗算され、ロングタームおよびショートタームフィル タによってろ波され再構成された音声ベクトルを得る。ゲインファクタおよび予 測器パラメータはまた該チャネルから得られる。より良好な品質の合成信号は合 成器によって使用される実際のパラメータが解析段において使用され、従って量 子化誤差を最小化することにより発生できることが分っている。従って、より高 い品質の音声を生成するためにCELP音声解析段においてこれらの合成パラメ ータを使用することはアナリシス・パイ・シンセシス音声コーディングと称され ている。In the CELP speech synthesizer, the codeword received from the channel is the excitation vector used to address the codebook of the file. A single code vector is is multiplied by the gain factor and the long-term and short-term filters obtain the reconstructed speech vector filtered by the filter. Gain factor and Instrument parameters are also obtained from the channel. A better quality composite signal is The actual parameters used by the generator are used in the analysis stage and therefore the quantity It is known that this can be generated by minimizing the childization error. Therefore, higher These synthesis parameters are used in the CELP speech analysis stage to generate high-quality speech. The use of data is called Analysis Pi Synthesis Audio Coding. ing.

ショートターム予測器は次の式に従って、直前の出力サンプル5(n−i)のリ ニアな組み合わせにより現在の出力サンプルs (n)を予測しようと試みる。The short-term predictor calculates the previous output sample 5(n−i) according to the following formula: We try to predict the current output sample s(n) by a near combination.

s (n) =a s (n−1) +a2s (n−2)+・・・+α s  (n−p) +e (n)この式で、pはショートターム予測器の次数(ord er)であり、e (n)は予測残差(predict、1onresidua l)、すなわち、p個の先のサンプルの重み付けされた和によって表すことので きないs (n)の部分、である。予測器の次数pは典型的には、8キロヘルツ (KHz)のサンプリングレートを仮定すると、8〜12の範囲にわたっている 。この式における重みC1,C2゜α は予測器係数と呼ばれている。ショート ターム予測器係数は伝統的なリニア予測コーディング(L P G)技術を用い て音声信号から決定される。ショートタームフィルタの出力応答は2変換表現で 次のように表される。s (n) = a s (n-1) + a2s (n-2) +...+α s (n-p) +e (n) In this formula, p is the order of the short-term predictor (or er), and e(n) is the prediction residual (predict, 1onresidua l), i.e., expressed by a weighted sum of p previous samples. This is the part of s(n) that cannot be reached. Predictor order p is typically 8 kHz Assuming a sampling rate of (KHz), it ranges from 8 to 12 . The weights C1 and C2°α in this equation are called predictor coefficients. short The term predictor coefficients are calculated using traditional linear predictive coding (LPG) techniques. is determined from the audio signal. The output response of the short-term filter is represented by two transformations. It is expressed as follows.

A (z) −−−一−−−−−−−−−−−−−−−ショートタームフィルタ パラメータのその他の説明に関しては、「低ビツトレートにおける音声の予測的 コーディング」と題する、I EEE紀要、通信、C0M−30、pp、600 −14.1982年4月、ビー・ニス・アタルによる論文を参照。A (z) ------------ Short-term filter For other descriptions of the parameters, see Predictive Speech at Low Bit Rates. Coding, IEEE Bulletin, Communications, C0M-30, pp. 600 -14. See the paper by Bee Nis Attal, April 1982.

これに対し、ロングタームフィルタはずっと長い期間にわたり延在する先行サン プルから次の出力サンプルを予測しなければならない。予測器において単一の過 去のサンプルのみが使用されれば、予測器は単一タップ予測器である。Long-term filters, on the other hand, We have to predict the next output sample from the pull. A single error in the predictor If only previous samples are used, the predictor is a single tap predictor.

典型的には、1〜3タツプが使用される。単一タップ、ロングターム予測器を導 入したロングタームフィルタのための出力応答はZ変換表示で次のように与えら れる。Typically 1-3 taps are used. Introducing a single-tap, long-term predictor The output response for the entered long-term filter is given in Z-transform representation as It will be done.

B (z) =−−−−−−−−−−−−−−−−1−βz−L この出力応答はフィルタの遅延またはラグLおよびフィルタ係数βのみの関数で あることに注意を要する。有声音に対しては、ラグLは典型的には音声のピッチ 期間、あるいはその倍数である。8KHzのサンプリングレートにおいては、ラ グLの適切な範囲は16と143の間であり、これは500Hzから56Hzの 間のピッチレンジに対応する。B (z) =−−−−−−−−−−−−−−−1−βz−L This output response is a function only of the filter delay or lag L and the filter coefficient β. There is one thing that requires attention. For voiced sounds, the lag L is typically the pitch of the voice. period or a multiple thereof. At a sampling rate of 8KHz, the A suitable range for G L is between 16 and 143, which is between 500Hz and 56Hz. It corresponds to a pitch range between.

ロングターム予測器のラグLおよびロングターム予測器の係数βは開ループまた は閉ループ構成のいずれかから決定できる。開ループ構成を用いると、ラグLお よび係数βは入力信号(またはその残差)から直接計算される。閉ループ構成で は、ラグL1および係数βはロングタームフィルタの過去の出力を表す符号化デ ータおよび入力音声信号からフレームレートで計算される。符号化データを使用 する場合における、ロングターム予測器のラグ決定は合成器において存在する実 際のロングタームフィルタの状態に基づいている。従って、閉ループ構成が開ル ープ方法よりもより良好な性能を与えるが、それはピッチフィルタそれ自体がエ ラー信号の最適化に貢献するからである。さらに、単一タップの予測器は閉ルー プ構成で非常に良好に作動する。The lag L of the long-term predictor and the coefficient β of the long-term predictor are open-loop or can be determined from any closed-loop configuration. Using an open-loop configuration, the lag L and and the coefficient β are calculated directly from the input signal (or its residual). in a closed loop configuration lag L1 and coefficient β are encoded data representing the past output of the long-term filter. The frame rate is calculated from the data and the input audio signal. Use encoded data The lag determination of the long-term predictor when Based on the current long-term filter state. Therefore, the closed-loop configuration becomes gives better performance than the pitch method, but it is because the pitch filter itself This is because it contributes to the optimization of the error signal. Additionally, single-tap predictors are closed-loop Works very well in configuration.

閉ループ構成を使用すると、ロングタームフィルタの出力応答b (n)はロン グタームフィルタからの過去の出力サンプルのみから、かつ次の式による現在の 入力音声サンプルs (n)から決定される。Using a closed-loop configuration, the output response b(n) of the long-term filter is from only the past output samples from the term filter, and from the current Determined from the input audio samples s(n).

b (n) =s (n)+βb(n−L)この技術はフレーム長Nより大きな ピッチラグしに対し、すなわち、LANの場合に、直接的であるが、それは項b (n−L)は常にすべてのサンプル番号n、O≦n≦N−1に対し過去のサンプ ルを表すからである。さらに、L〉Nの場合、励起ゲインファクタγおよびロン グターム予測器係数βはラグLおよびコード語iの与えられた値に対し同時に最 適化することができる。この組み合わされた最適化技術は音声品質の注目すべき 改善をもたらすことが発見されている。b (n) = s (n) + βb (n - L) This technique is used when the frame length is larger than N. Directly for pitch lag, i.e. in the case of LAN, it is the term b (n-L) is always the past sample number for all sample numbers n, O≦n≦N-1. This is because it represents . Furthermore, if L>N, the excitation gain factor γ and Ron The code word predictor coefficients β are simultaneously maximal for given values of lag L and code word i. can be optimized. This combined optimization technique improves voice quality. It has been found that it brings about improvement.

しかしながら、もしロングターム予測器のフレーム長Nより小さなラグLを収容 しなければならない場合には、閉ループ手法は不都合である。この問題は高いピ ッチの女性の声の場合に容易に起こり得る。たとえば250Hzのピッチ周波数 に対応する女性の音声は4ミリセカンド(msec)に等しいロングターム予測 器ラグLを必要とする。However, if the long-term predictor accommodates a lag L smaller than the frame length N Closed-loop approaches are disadvantageous when This issue has a high This can easily happen with a female voice. For example, a pitch frequency of 250Hz The female voice corresponding to the long term prediction is equal to 4 milliseconds (msec). Requires a container lug L.

8KHzのサンプリングレートにおける250Hzのピッチは32サンプルのロ ングターム予測器のラグLに対応する。しかしながら、4ミリセカンドより小さ なフレーム長Nを用いることは望ましくなく、これはCELP励起ベクトルはよ り長いフレーム長が用いられる場合により効率的に符号化できるからである。従 って、8KHzのサンプリングレートにおける7、5ミリセカンドのフレーム長 時間を用いると、フレーム長Nは60サンプルに等しくなるであろう。これはフ レームの次の60サンプルを予測するために32の過去のサンプルのみが利用で きることを意味する。従って、もしロングターム予測器のラグLがフレーム長N より小さければ、必要とされるNサンプルの内のLの過去のサンプルのみが規定 される。A pitch of 250Hz at a sampling rate of 8KHz is a log of 32 samples. corresponds to the lag L of the term predictor. However, less than 4 milliseconds It is undesirable to use a long frame length N, since the CELP excitation vector is This is because encoding can be performed more efficiently when a longer frame length is used. subordinate So, the frame length is 7.5 milliseconds at a sampling rate of 8KHz. Using time, the frame length N would be equal to 60 samples. This is a file Only 32 past samples are available to predict the next 60 samples of the frame. It means to be able to do something. Therefore, if the lag L of the long-term predictor is the frame length N If smaller, only L past samples out of the required N samples are specified. be done.

フレーム長Nより小さなピッチラグLの問題に対処するため従来技術においてい くつかの別の手法がとられている。In order to deal with the problem of pitch lag L being smaller than frame length N, the conventional technology Several other approaches have been taken.

ロングターム予測器のラグLおよび係数βを組み合わせて最適化する試みにおい て、第1の手法はなんらの励起信号も存在しないと仮定して方程式を直接解くよ う試みることである。この手法は「規則的なパルス励起−音声の有効かつ効率的 な多重パルス符号化」、クルーン他、音響、音声および信号処理に関するI E EE紀要、ASSP−34巻、第5号、1986年10月、pp、1054−1 063の論文に説明されている。しかしながら、この手法に従うと、単一のパラ メータβにおける非線形方程式を解かなければならない。βにおける2次方程式 または3次方程式の解を解かなければならない。βにおける2次方程式または3 次方程式の解は計算機的に実際的でない。その上、利得ファクタγと係数βとを 一緒にして最適化することはこの手法では依然として不可能である。In an attempt to combine and optimize the lag L and coefficient β of a long-term predictor, Therefore, the first method is to solve the equation directly assuming that no excitation signal exists. It is a good idea to try. This method is called ``Regular pulse excitation - effective and efficient method of speech production.'' "Multipulse Coding", Kroon et al., IE on Acoustics, Speech and Signal Processing EE Bulletin, ASSP-34, No. 5, October 1986, pp, 1054-1 It is explained in the paper No. 063. However, following this approach, a single parameter We have to solve the nonlinear equation in meter β. Quadratic equation in β Or you have to solve a cubic equation. Quadratic equation in β or 3 Solving the following equation is computationally impractical. Moreover, the gain factor γ and the coefficient β are Joint optimization is still not possible with this approach.

ロングターム予測器遅延りをフレーム長Nより大きいものと限定することによる 、第2の解法は、シングハルおよびアタルにより提案された論文「低いビットレ ートにおける多重パルスLPGコーダの性能の改善J1音響、音声、および信号 処理に関するI EEE国際会議の紀要、第1巻、1984年3月19−21日 、pp、1.3. 1−1.3゜4において提案されている。ピッチラグしに対 するこの人工的な制約はしばしばピッチ情報を正確に表さない。従って、この手 法を用いると音声品質が高いピッチの音声に対し劣化する。By limiting the long-term predictor delay to be greater than the frame length N. , the second solution is proposed by Singhal and Atal in the paper “Low bitrate Improving the performance of multipulse LPG coders in J1 acoustics, speech, and signals Proceedings of the IEEE International Conference on Processing, Volume 1, March 19-21, 1984 , pp. 1.3. 1-1.3゜4. Against pitch lag This artificial constraint often does not accurately represent pitch information. Therefore, this method When using this method, the voice quality deteriorates for high-pitched voices.

第3の解法はフレーム長Nの大きさを低減することである。より短いフレーム長 により、ロングターム予測器のラグLは常に過去のサンプルから決定することが できる。しかしながら、この手法は厳しいビットレートのペナルティを被る。よ り短いフレーム長では、より大きな数のロングターム予測器パラメータおよび励 起ベクトルを符号化しなければならず、かつ従ってチャネルのビットレートは余 分のコーディングを収容するためにより大きくなければならない。A third solution is to reduce the size of the frame length N. shorter frame length Therefore, the lag L of the long-term predictor can always be determined from past samples. can. However, this approach suffers from severe bitrate penalties. Yo For shorter frame lengths, a larger number of long-term predictor parameters and the bit rate of the channel must be encoded and therefore the bit rate of the channel is Must be larger to accommodate minutes of coding.

第2の問題は高いピッチの話者に対して存在する。コーグにおいて使用されるサ ンプリングレートは単一タップのピッチ予測器の性能に対し上限を設ける。たと えば、もしピッチ周波数が実際には485Hzであれば、最も近いラグ値は16 でありこれは500Hzに対応する。これは音声品質を劣化させる基本ピッチ周 波数に対し15Hzのエラーを生ずる結果となる。このエラーは該ピッチ周波数 の高調波に対し増倍されさらに劣化を引き起こす。A second problem exists for high pitch speakers. Services used at Coorg The sampling rate places an upper limit on the performance of a single tap pitch predictor. and For example, if the pitch frequency is actually 485Hz, the nearest lag value is 16 and this corresponds to 500Hz. This is the basic pitch frequency that degrades audio quality. This results in a 15 Hz error in wavenumber. This error is caused by the pitch frequency harmonics are multiplied and cause further deterioration.

従って、ロングターム予測器のラグLを決定するための改良された方法を提供す る必要性が存在する。最適の解法は高いピッチの音声のコーディングに対し計算 機的な複雑性および音声品質の双方に向けられなければならない。Therefore, we provide an improved method for determining the lag L of a long-term predictor. There is a need to The optimal solution is calculated for coding high pitch speech. Both mechanical complexity and voice quality must be addressed.

発明の概要 従って、本発明の一般的な目的は、低いビットレートにおいて高い品質の音声を 生成する改良されたデジタル音声コーディング技術を提供することにある。Summary of the invention Therefore, the general object of the present invention is to provide high quality audio at low bitrates. An object of the present invention is to provide an improved digital speech coding technique for generating.

本発明のより特定的な目的は、閉ループ手法を用いたロングターム予測器のパラ メータを決定するための方法を提供することにある。A more specific object of the invention is to develop the parameters of a long term predictor using a closed loop approach. The objective is to provide a method for determining the meter.

本発明の他の目的は、ロングターム予測器のラグパラメータLが非整数である場 合にロングターム予測器の出力応答を決定するための改良された方法を提供する ことにある。Another object of the present invention is that when the lag parameter L of the long-term predictor is a non-integer Provides an improved method for determining the output response of a long-term predictor when There is a particular thing.

本発明のさらに他の目的は、最適の励起コードベクトルのためのコードブックサ ーチの間に利得ファクタγおよびロングターム予測器係数βの組み合わされた最 適化を許容する改良されたCELP音声コーダを提供することにある。Still another object of the present invention is to provide a codebook support for optimal excitation codevectors. During the search, the combined optimum of the gain factor γ and the long-term predictor coefficient β is The object of the present invention is to provide an improved CELP speech coder that allows optimization.

本発明の新規な見地によれば、パラメータLの分解能(resolution) はLが整数でない値をとることを許容することにより増大される。これはロング ターム予測器の状態の補間されたサンプルを提供するために補間フィルタを使用 することにより達成される。閉ループ構成においては、ロングターム予測器の状 態の将来のサンプルは補間フィルタにとって利用できない。この問題はロングタ ーム予測器の状態を補間フィルタによる使用のために将来にわたってピッチ同期 的に延長することにより回避される。According to a novel aspect of the invention, the resolution of the parameter L is increased by allowing L to take on non-integer values. this is long Use interpolation filter to provide interpolated samples of term predictor states This is achieved by In a closed-loop configuration, the shape of the long-term predictor Future samples of the state are not available to the interpolation filter. This problem is long future pitch synchronization of the state of the system predictor for use by interpolation filters This can be avoided by extending the term.

次のフレームに対する実際の励起サンプルが利用できるようになると、ロングタ ーム予測器の状態が(ピッチ同期的に延長されたサンプルに基づくものに置き代 わる)実際の励起サンプルを反映するために更新される。たとえば、補間は各々 の存在するサンプルの間の1つのサンプルを補間するために使用でき従ってLの 分解能をサンプルの半分に倍加する。3または4のような、より高い補間ファク タもまた選択でき、これはLの分解能を1つのサンプルの3分の1または4分の 1に増加するであろう。When the actual excitation samples for the next frame are available, the long The state of the frame predictor (replaced by one based on pitch-synchronously extended samples) updated) to reflect the actual excitation sample. For example, each interpolation can be used to interpolate one sample between the existing samples of L. Double the resolution to half the sample. Higher interpolation factors, such as 3 or 4 The resolution of L can also be selected by one-third or one-fourth of one sample. will increase to 1.

図面の簡単な説明 新規であると信じられる本発明の特徴は特に添付の請求の範囲に記載されている 。本発明は、そのさらに他の目的および利点とともに、添付の図面を取り入れて 以下の説明を参照することにより最もよく理解でき、そのいくつかの図面におい ては同様の参照数字は同様の要素を表わし、かつ各図面において、 第1図は、本発明とともに使用するためのロングタームフィルタの位置を示す、 コード励起リニア予測音声コーグの一般的なブロック図であり、 第2A図は、第1図のロングタームフィルタの1実施例を示す詳細なブロック図 であり、フィルタのラグLが整数である場合のロングターム予測器の応答を示し ており、第2B図は、第2A図におけるロングターム予測器の動作を説明するた めに用いることができるシフトレジスタを示す概略図であり、 第2C図は、第1図のロングタームフィルタの他の実施例を示す詳細なブロック 図であり、フィルタのラグLが整数である場合のロングターム予測器の応答を示 しており、第3図は、第2A図のロングタームフィルタにより達成される動作を 説明する詳細なフローチャートであり、第4図は、本発明に従って使用するため の音声合成器の一般的なブロック図であり、 第5図は、第1図のロングタームフィルタの詳細なブロック図であり、本発明に 従いサブサンプルの分解能のロングターム予測器応答を示しており、 第6A図および第6B図は、第5図のロングタームフィルタにより行われる動作 を説明する詳細なフローチャートであり、そして 第7図は、第4図における音声合成器のショートタームフィルタおよびD/Aコ ンバータを相互結合するためのピッチポストフィルタを示す詳細なブロック図で ある。Brief description of the drawing The features of the invention believed to be novel are particularly pointed out in the appended claims. . The invention, together with further objects and advantages, incorporates the accompanying drawings. It can be best understood by referring to the following description, some of which are illustrated in the drawings. Like reference numerals represent like elements, and in each drawing: FIG. 1 shows the location of a long-term filter for use with the present invention; A general block diagram of a code-excited linear predictive speech cog, FIG. 2A is a detailed block diagram illustrating one embodiment of the long-term filter of FIG. and denotes the response of the long-term predictor when the filter lag L is an integer. FIG. 2B is a diagram for explaining the operation of the long-term predictor in FIG. 2A. 1 is a schematic diagram showing a shift register that can be used for FIG. 2C is a detailed block diagram illustrating another embodiment of the long-term filter of FIG. , which shows the response of the long-term predictor when the filter lag L is an integer. Figure 3 shows the operation achieved by the long-term filter of Figure 2A. FIG. 4 is a detailed flowchart illustrating the flowchart for use in accordance with the present invention; is a general block diagram of a speech synthesizer, FIG. 5 is a detailed block diagram of the long-term filter shown in FIG. Therefore, we show the long-term predictor response with subsample resolution, 6A and 6B illustrate the operations performed by the long-term filter of FIG. is a detailed flowchart explaining, and Figure 7 shows the short-term filter and D/A controller of the speech synthesizer in Figure 4. with a detailed block diagram showing a pitch post filter for interconnecting inverters. be.

好ましい実施例の詳細な説明 次に第1図を参照すると、本発明に係わるロングタームフィルタを利用するコー ド励起リニア予測音声コーグ100の一般的なブロック図が示されている。分析 されるべき音響入力信号はマイクロホン102において音声コーグ100に印加 される。典型的には音声信号である、入力信号は次にフィルタ104に印加され る。フィルタ104は一般的にはバンドパスフィルタ特性を示す。しかしながら 、もし音声の帯域幅がすでに適切であれば、フィルタ104は直接的なワイヤ接 続であってもよい。DETAILED DESCRIPTION OF PREFERRED EMBODIMENTS Next, referring to FIG. 1, a code using a long-term filter according to the present invention is shown. A general block diagram of a highly excited linear predictive speech code 100 is shown. analysis The acoustic input signal to be transmitted is applied to the audio cog 100 at the microphone 102. be done. The input signal, typically an audio signal, is then applied to filter 104. Ru. Filter 104 generally exhibits bandpass filter characteristics. however , if the audio bandwidth is already adequate, the filter 104 can be connected directly to the wire. It may be a continuation.

フィルタ104からのアナログ音声信号は次に−続きのNパルスのサンプルに変 換され、かつ各パルスサンプルの振幅は次に、技術上知られているように、アナ ログ−デジタル(A/D)コンバータ108においてデジタル符号により表され る。サンプリングレートはサンプルクロックSCにより決定され、これは好まし い実施例においては8゜0kHzのレートを呈する。サンプルクロックSCはク ロック112によってフレームクロックFCとともに発生される。The analog audio signal from filter 104 is then transformed into a sample of N consecutive pulses. and the amplitude of each pulse sample is then analyzed by an analyzer, as is known in the art. represented by a digital code in a log-to-digital (A/D) converter 108 Ru. The sampling rate is determined by the sample clock SC, which is preferably In the preferred embodiment, it exhibits a rate of 8°0 kHz. The sample clock SC is Generated by lock 112 along with frame clock FC.

A/D 108のデジタル出力は、入力音声ベクトル5(n)として表されるが 、次に係数アナライザ110に印加される。この入力音声ベクトルs (n)は 別々のフレーム、すなわち、その長さがフレームクロックFCによって決定され る、時間のブロック、において反復的に得られる。The digital output of A/D 108 is represented as input audio vector 5(n). , which is then applied to coefficient analyzer 110. This input speech vector s(n) is separate frames, i.e. their length is determined by the frame clock FC is obtained iteratively in blocks of time.

好ましい実施例においては、入力音声ベクトルs (n)、0≦n≦N−1、は N=60サンプルを含む7.5ミリセカンドのフレームを表し、この場合者サン プルはデジタルコードの12〜16ビツトによって表される。この実施例におい ては、音声の各ブロックに際し、−組のリニア予測コーディング(L P G) パラメータがオープンループ構成の係数アナライザー10によって生成される。In a preferred embodiment, the input speech vector s(n), 0≦n≦N-1, is N= represents a 7.5 millisecond frame containing 60 samples, in which case A pull is represented by 12-16 bits of digital code. In this example For each block of audio, - sets of linear predictive coding (LPG) are applied. Parameters are generated by a coefficient analyzer 10 in an open loop configuration.

ショトターム予測器パラメータα0、ロングターム予測器係数β、公称ロングタ ーム予測器うグパラメータL1重み付はフィルタパラメータWFP、および励起 利得ファクタγ(後に説明する最善の励起コード語Iとともに)はマルチプレク サ150に印加されかつ音声合成器による使用のためチャネルによって送られる 。この実施例のためにこれらのパラメータを発生する代表的な方法については、 ビー・ニス・アタルによる、1982年4月、pp、600−14、C0M−3 0巻、I EEE通信紀要、[低いビットレートにおける音声の予測コーディン グ」と題する論文を参照。入力音声ベクトルs (n)はまた減算器130にも 印加され、その機能は後に説明する。short-term predictor parameter α0, long-term predictor coefficient β, nominal long term The weighting parameter L1 of the program predictor is the filter parameter WFP, and the excitation The gain factor γ (along with the best excitation codeword I, explained later) is channel 150 and sent by the channel for use by the speech synthesizer. . For a typical method of generating these parameters for this example: By B. Nis Attal, April 1982, pp. 600-14, C0M-3 Volume 0, IEEE Communication Bulletin, [Predictive coding of speech at low bit rates] See the paper entitled ``G. The input speech vector s(n) is also input to the subtractor 130. and its function will be explained later.

コードブックROMI20は一組のM個の励起ベクトルu、(n)を含み、ここ で1≦i≦Mであり、各々N個のサンプルから成り、この場合0≦n≦N−1で ある。コードブツクROM120は好ましくはここに参照のため導入される、米 国特許第4,817.157号に述べられたようにして実施される。コードブッ クROM120は一組の励起コード語iの内の特定の1つに応じてこれらの擬似 ランダム励起ベクトルを発生する。M個の励起ベクトルの各々は−続きのランダ ムなホワイトガウスサンプルから成るが、他の形式の励起ベクトルも本発明とと もに使用することができる。もし励起信号が60サンプルの各々に対しサンプル ごとに0. 2ビツトのレートで符号化されたならば、可能な励起ベクトルに対 応する4096のコード語iがある。The codebook ROMI 20 contains a set of M excitation vectors u,(n), where and 1≦i≦M, each consisting of N samples, in which case 0≦n≦N-1 and be. Codebook ROM 120 is preferably a US Pat. It is carried out as described in National Patent No. 4,817.157. code book The ROM 120 stores these pseudo-code words in response to a particular one of a set of excitation code words i. Generate random excitation vectors. Each of the M excitation vectors is a -continuation randa consists of a typical white Gaussian sample, but other types of excitation vectors are also compatible with the present invention. Can also be used. If the excitation signal is sampled for each of the 60 samples 0. If encoded at a rate of 2 bits, for the possible excitation vectors There are 4096 corresponding codewords i.

各々の個々の励起ベクトルu、(n)に対し、再構成された音声ベクトルs’  、(n)が入力音声ベクトルs (n)に対する比較のために発生される。利得 ブロック122には、フレームに対する内容である、励起利得ファクタγにより 励起ベクトルu、(n)を尺度変更(scale)する。励起利得ファクタγは 係数アナライザー10によってあらかじめ計算されかつ第1図に示されるように すべての励起ベクトルを解析するために使用され、あるいは最善の励起コード語 rのサーチと組み合わせて最適化されかっコードブックサーチコントローラー4 0により発生される。For each individual excitation vector u,(n), the reconstructed speech vector s' , (n) are generated for comparison against the input speech vector s(n). gain Block 122 includes an excitation gain factor γ, which is the content for the frame. Scale the excitation vector u,(n). The excitation gain factor γ is As previously calculated by the coefficient analyzer 10 and shown in FIG. used to analyze all excitation vectors, or the best excitation codeword Optimized codebook search controller in combination with r search 4 Generated by 0.

尺度変更された励起信号γu−(n)は次に再構成された音声ベクトルs’ 、 (n)を発生するためにロングタームフィルター24およびショートタームフィ ルタ126によりろ波される。フィルター24は音声の周期性を導入するために ロングターム予測器パラメータβおよびLを利用し、かつフィルタ126は上に 述べたように、スペクトル的なエンベロープを導入するためにショートターム予 測器パラメータα1を利用する。ロングタームフィルター24は以下の図面にお いて詳細に説明する。ブロック124および126は実際にはそれぞれのフィー ドバック経路にロングターム予測器およびショートターム予測器を含む再帰(r ecursive)フィルタである。The rescaled excitation signal γu-(n) is then converted into the reconstructed speech vector s', A long-term filter 24 and a short-term filter are used to generate (n). filter 126. Filter 24 is used to introduce periodicity in the audio. utilizing the long-term predictor parameters β and L, and the filter 126 is As mentioned, a short-term forecast is used to introduce a spectral envelope. The instrument parameter α1 is used. The long term filter 24 is shown in the drawing below. This will be explained in detail. Blocks 124 and 126 are actually Recursion (r cursive) filter.

i番目の励起コードベクトルに対する再構成された音声ベクトルs’ −(n) は入力音声ベクトルs (n)の同じブロックとこれら2つの信号を減算器13 0において減算することにより比較される。差分ベクトルe、(n)は音声の元 のおよび再構成されたブロックの間の差を表す。差分ベクトルは係数アナライザ ー10によって発生される重み付はフィルタのパラメータWTPを利用して、重 み付はフィルター32により知覚的に重み付けされる。代表的な重み付はフィル タの伝達関数に対する先の参照物を参照されたい。知覚的な重み付けはエラーが 知覚的に人間の耳にとってより重要な周波数を強調し、かつ他の周波数を減衰さ せる。Reconstructed speech vector s′−(n) for the i-th excitation codevector is the same block of input speech vector s(n) and these two signals are subtracted by subtractor 13 Compare by subtracting at zero. The difference vector e, (n) is the source of the voice and the reconstructed block. Difference vector is coefficient analyzer -10 is generated using the filter parameter WTP. The impressions are perceptually weighted by filter 32. Typical weighting is fill See the previous reference to the data transfer function. Perceptual weighting is error-prone Emphasizes frequencies that are perceptually more important to the human ear, and attenuates other frequencies. let

エネルギ計算機134は重み付は差分ベクトルe/ 。The energy calculator 134 weights the difference vector e/.

(n)のエネルギを計算し、かつこのエラー信号E、をコードブックサーチコン トローラー40に印加する。該サーチコントローラは現在の励起ベクトルu、( n)に対するi番目のエラー信号を先のエラー信号に対して比較し最小のエラー を生成する励起ベクトルを決定する。最小のエラーを有するi番目の励起ベクト ルのコードは次にチャネルによって最善の励起コードIとして出力される。ある いは、サーチコントローラー40は、あらかじめ規定されたエラーしきい値に合 致するような、何等かの所定の基準を有するエラー信号を提供する特定のコード 語を決定することができる。(n), and convert this error signal E into a codebook search controller. is applied to the troller 40. The search controller determines the current excitation vector u, ( Compare the i-th error signal for n) with the previous error signal and find the minimum error. Determine the excitation vector that generates . i-th excitation vector with minimum error This code is then output by the channel as the best excitation code I. be Alternatively, the search controller 40 may meet a predefined error threshold. a specific code that provides an error signal with some predetermined criteria, such that The word can be determined.

第1図は、コード励起リニア予測音声コーグに対する本発明の1実施例を示す。FIG. 1 shows one embodiment of the present invention for a code-excited linear predictive speech cog.

この実施例においては、ロングタームフィルタのパラメータLおよびβは係数ア ナライザー10によってオープンループ構成で決定される。あるいは、ロングタ ームフィルタのパラメータは先に述べたシングハルおよびアタルの参照文献に述 べられているように閉ループ構成で決定することができる。一般に、音声コーグ の性能は閉ループ構成で決定されるロングタームフィルタのパラメータを使用す ることにより改善される。本発明に係わるロングターム予測器の新規な構造はフ レーム長Nより小さなラグLに対するこれらのパラメータの閉ループ決定の使用 に大いに便宜を与える。In this example, the parameters L and β of the long-term filter are coefficients determined by analyzer 10 in an open-loop configuration. Or long tag The parameters of the system filter are described in the Singhal and Attal reference cited above. can be determined in a closed-loop configuration as described above. In general, voice cog The performance of is determined by using long-term filter parameters determined in a closed-loop configuration. This can be improved by The novel structure of the long-term predictor according to the present invention is Use of closed-loop determination of these parameters for lag L smaller than frame length N give great convenience to

第2A図は、第1図のロングタームフィルター24の1実施例を示し、この場合 しは整数に限定されている。第1図は尺度変更された励起ベクトルγu−(n) が利得プロツク122からロングタームフィルター24へ入力されるものとして 示されているが、第2A図においては説明の目的で代表的な入力音声ベクトルs  (n)が使用されている。FIG. 2A shows one embodiment of the long-term filter 24 of FIG. is limited to integers. Figure 1 shows the scaled excitation vector γu-(n) is input from gain block 122 to long-term filter 24. However, in FIG. 2A, for illustrative purposes, a representative input speech vector s (n) is used.

従って、入力音声ベクトルs (n)のN個のサンプルのフレームが加算器21 0に印加される。加算器210の出力はロングタームフィルター24のための出 力ベクトルb(n)を生成する。出力ベクトルb (n)はロングターム予測器 の遅延ブロック230にフィードバックされる。公称ロングターム予測器ラグパ ラメータLもまた遅延ブロック230に入力される。ロングターム予測器遅延ブ ロックは出力ベクトルq (n)をロングターム予測器の乗算器ブロック220 に提供し、これはロングターム予測器の係数βによりロングターム予測器の応答 を尺度変更する。尺度変更された出力βq (n)は次に再帰フィルタのフィー ドバックループを完成させるために加算器210に印加される。Therefore, a frame of N samples of the input speech vector s(n) is sent to the adder 21 Applied to 0. The output of adder 210 is the output for long-term filter 24. Generate force vector b(n). The output vector b(n) is a long-term predictor is fed back to delay block 230. Nominal long-term predictor lagpa The parameter L is also input to delay block 230. Long-term predictor delay block The lock converts the output vector q(n) to the multiplier block 220 of the long-term predictor. , which gives the response of the long-term predictor by the coefficient β of the long-term predictor scale. The scaled output βq(n) is then applied to the recursive filter is applied to adder 210 to complete the backloop.

ロングタームフィルター24の出力応答H(z)はZ変換表示で次のように定義 される。The output response H(z) of the long-term filter 24 is defined as follows in Z-transform representation. be done.

この場合、nはN個のサンプルを含むフレームのサンプル数を表し、0≦n≦N −1であり、βはフィルタ係数を表し、Lはロングターム予測器の公称ラグまた は遅延を表かまたは等しい最も近い整数を表す。ロングターム予測器の遅延 1 (n、+L) /LJ Lはサンプル数nの関数として変化する。従って、本発 明によれば、実際のロングターム予測器の遅延はkLになり、この場合りは基本 的なまたは公称のロングターム予測器のラグであり、かっkはサンプル数nの関 数として組み(1,2,3,4,、、iから選択された整数である。従って、ロ ングタームフィルタの出力応答b (n)は公称ロングターム予測器のラグパラ メータLおよびフレームの始めに存在するフィルタ状態FSの関数である。この ステートメントはピッチラグLがフレーム長Nより小さい問題の場合に対してさ え、Lのすべての値に対して当−Cはまる。In this case, n represents the number of samples in a frame containing N samples, and 0≦n≦N −1, β represents the filter coefficients, and L is the nominal lag of the long-term predictor or represents the delay or the nearest integer equal to it. Long-term predictor delay 1 (n, +L) /LJ L changes as a function of the number of samples n. Therefore, the original According to Akira, the actual delay of the long-term predictor is kL, and in this case the basic is the lag of the formal or nominal long-term predictor, where k is the function of the number of samples n. As a number, the set is an integer selected from 1, 2, 3, 4, , i. The output response b(n) of the long-term filter is the lag parameter of the nominal long-term predictor. It is a function of the meter L and the filter state FS present at the beginning of the frame. this The statement is for the problem where the pitch lag L is smaller than the frame length N. Well, -C holds true for all values of L.

ロングターム予測器の遅延ブロック230の機能は将来のサンプルを予測するた めに現在の入力サンプルを記憶するこ、とである。第2B図は、シフトレジスタ の単純化した図であり、これは第2A図のロングターム予測器遅延ブロック23 0の動作を理解する上で有用であろう。n=1(エル)のようなサンプル数1  (エル)に対し、現在の出力サンプルb (n)がシフトレジスタの入力に印加 され、これは第2B図の右側に示されている。次のサンプルn=1+1に対して は、先のサンプルb (n)は左にシフトレジスタの中にシフトされる。このサ ンプルは今や最初の過去のサンプルb(n−1)となる。次のサンプルn=1+ 2に対しては、b (n)の他のサンプルがレジスタ中にシ多 フトされ、かつ 元のサンプルが再び左にシフトされて第2の過去のサンプルb(n−2)になる 。L個のサンプルがシフトされた後、元のサンプルはLの回数圧にシフトされて おり従ってそれはb (n−L)として表すことができる。The function of the long-term predictor delay block 230 is to predict future samples. The purpose of this is to remember the current input sample. Figure 2B shows the shift register is a simplified diagram of the long-term predictor delay block 23 of FIG. 2A. This will be useful in understanding the operation of 0. The number of samples is 1, such as n = 1 (L) (el), the current output sample b(n) is applied to the input of the shift register and this is shown on the right side of Figure 2B. For the next sample n=1+1 , the previous sample b(n) is shifted to the left into the shift register. This service The sample is now the first past sample b(n-1). Next sample n=1+ 2, another sample of b(n) is shifted into the register, and The original sample is shifted left again to become the second past sample b(n-2) . After L samples are shifted, the original samples are shifted L times. Therefore, it can be expressed as b(n-L).

上に述べたように、ラグLは典型的には有声音のピッチ期間またはその倍数であ ろう。もしラグLが少なくともフ; レーム長Nと同じぐらい長ければ、十分な 数の過去のサンプルが音声の次のフレームを予測するためにシフト入力されかつ 記憶されている。L=Nかつn=N−1の極端な場合でも、b(n−L)はb( −1)であり、これは真に過去のサンプルである。従って、サンプルb(n−L )は出力サンプルq (n)としてシフトレジスタから出力されるであろう。As mentioned above, the lag L is typically the pitch period of the voiced sound or a multiple thereof. Dew. If the lag L is at least as long as the frame length N, then A number of past samples are shifted in and out to predict the next frame of audio. remembered. Even in the extreme case of L=N and n=N-1, b(n-L) is b( -1), which is truly a past sample. Therefore, sample b(n-L ) will be output from the shift register as output samples q(n).

しかしながら、もしロングターム予測器のラグパラメータLがフレーム長Nより 短ければ、不十分な数のサンプルが次のフレームの開始までにシフトレジスタ中 にシフト入力される。250Hzのピッチ期間の上の例を用いると、ピッチラグ Lは32に等しくなる。従って、L=32かっN=60の場合、かつに=N−1 =59の場合、b(n−L)は通常b(27)となり、これは60サンプルのフ ルームの始めに関して将来のサンプルを表す。言い換えれば、完全なロングター ム予測器応答を提供するためには不十分な過去のサンプルが格納されていること になる。予測器パラメータの閉ループ解析が達成できるようにフレームの始めに おいて完全なロングターム予測器の応答が必要である。However, if the lag parameter L of the long-term predictor is less than the frame length N If it is short, an insufficient number of samples will be in the shift register by the start of the next frame. Shift input is performed. Using the example above with a pitch period of 250Hz, the pitch lag L will be equal to 32. Therefore, if L=32 and N=60, and =N-1 = 59, b(n-L) is usually b(27), which is a frame of 60 samples. Represents a future sample with respect to the beginning of the room. In other words, a complete long term Insufficient past samples are stored to provide a system predictor response. become. at the beginning of the frame so that a closed-loop analysis of the predictor parameters can be achieved. A complete long-term predictor response is required.

その場合本発明によれば、同じ記憶されたサンプルb(n−L)、O≦n≦L1 が繰り返されそれによりロングターム予測器の出力応答は常に現在のフレームの 開始に先立ちロングターム予測器の遅延ブロックに入力されたサンプルの関数で ある。第2B図に関しては、ロングターム予測器の遅延ブロック230の構造を 変更することを示す、他のkLサンプルの記憶のためにシフトレジスタが延長さ れている。従って、該シフトレジスタが新しいサンプルb (n)で満たされる から、kはb(n−kL)がフレームの開始に先立ちシフトレジスタ中に存在す るサンプルを表すように選択されなければならない。L=32およびN=60の 先の例を用いると、出力サンプルq(32)はサンプルq(0)の繰り返しであ り、これはb (0−L) =b (32−2L)またはb(−32)である。In that case, according to the invention, the same stored sample b(n-L), O≦n≦L1 is repeated so that the output response of the long-term predictor is always the same as that of the current frame. is a function of the samples input to the long-term predictor's delay block prior to starting. be. With respect to FIG. 2B, the structure of the long-term predictor delay block 230 is The shift register is extended to store another kL sample indicating the change. It is. Therefore, the shift register is filled with new samples b(n) Since, k is b(n-kL) in the shift register before the start of the frame. must be selected to represent a sample of L=32 and N=60 Using the previous example, output sample q(32) is a repeat of sample q(0). Therefore, this is b (0-L) = b (32-2L) or b (-32).

従って、ロングターム予測器遅延ブロック230の出力応答q (n)は、 q (n) =b (n−kL) に対応し、ここで0≦n≦N−1であり、kは(n −k L)が負になるよう に選択された最も小さな整数である。より特定的にはもしs (n)のNサンプ ルのフレームがロングターム予測器フィルタ124に入力されると、各サンプル 番号nはj≦n≦N+j−1であり、ここでjはNサンプルのフレームの最初の サンプルに対するインデックスである。従って、変数には(n−kL)が常にj より小さくなるように変化する。このことはロングターム予測器が出力応答を予 測するために該フレームの開始に先立ち利用できるサンプルのみを利用すること を保証する。Therefore, the output response q(n) of the long-term predictor delay block 230 is: q (n) = b (n-kL) , where 0≦n≦N-1, and k is such that (n - k L) is negative. is the smallest integer selected. More specifically, if N samples of s(n) When a frame of four frames is input to the long-term predictor filter 124, each sample The number n is j≦n≦N+j−1, where j is the first of a frame of N samples. This is an index for the sample. Therefore, the variable (n-kL) is always j Change to become smaller. This means that the long-term predictor predicts the output response. use only the samples available prior to the start of the frame to measure guaranteed.

第2A図のロングタームフィルタ124の動作を第3図のフローチャートに従っ て説明する。ステップ350においてスタートすると、サンプル番号nはステッ プ351において0に初期化される。公称ロングターム予測器ラグパラメータL およびロングターム予測器係数βはステップ352において係数アナライザ11 0から入力される。ステップ353において、サンプル数または番号nがテスト され全フレームが出力されたかを見る。もしn=Nであれば、動作はステップ3 61において終了する。もしすべてのサンプルがまだ計算されておらなければ、 ステップ354において信号サンプルs (n)が入力される。ステップ355 において、ロングターム予測器遅延ブロック230の出力応答が次の式に従って 計算される。The operation of the long-term filter 124 in FIG. 2A is performed according to the flowchart in FIG. I will explain. Starting in step 350, sample number n is It is initialized to 0 in step 351. Nominal long-term predictor lag parameter L and the long-term predictor coefficients β are determined by the coefficient analyzer 11 in step 352. Input from 0. In step 353, the number of samples or number n tested to see if all frames have been output. If n=N, the operation is step 3 The process ends at 61. If all samples have not been calculated yet, In step 354, signal samples s(n) are input. Step 355 , the output response of the long-term predictor delay block 230 is according to the equation Calculated.

いかまたは等しい最も近い整数を表す。たとえば、もしn=56かつL=32で あれば、 巨+L)/LJL)は1(56+32/32J Lとなり、これは  L(2,75)」Lまたは2Lとなる。ステップ356において、ロングターム フィルタの出力応答b (n)は次の式に従って計算される。Represents the nearest integer equal to or equal to. For example, if n=56 and L=32 If there is, Giant+L)/LJL) will be 1(56+32/32JL), which is L(2,75)''L or 2L. In step 356, the long term The output response b(n) of the filter is calculated according to the following equation.

b (n) =βq (n) +s (n)これは乗算器220および加算器2 10の機能を表す。b (n) = βq (n) + s (n) This is multiplier 220 and adder 2 Represents 10 functions.

ステップ357において、b(n−2)およびb(n−LMAX)の間のすべて のレジスタのロケーションに対して、シフトレジスタのサンプルが左に1ポジシ ヨンシフトされ、ここでL は割り当て可能な最大のロングターム予測AX 器ラグを表す。好ましい実施例においては、L はIAX 43に等しい。ステップ358において、出力サンプルb(n)がシフトレジス タの最初のロケーションb(n−1)に入力される。ステップ359はろ渡され たサンプルb(n)を出力する。サンプル数nは次にステップ360において増 分され、かつ次にステップ353においてテストされる。すべてのNサンプルが 計算されたとき、処理はステップ361において終了する。In step 357, everything between b(n-2) and b(n-LMAX) For a register location, the shift register sample moves one position to the left. where L is the maximum assignable long-term prediction AX Represents a vessel rug. In a preferred embodiment, L is IAX Equal to 43. In step 358, the output samples b(n) are transferred to the shift register. data is input into the first location b(n-1) of the data. Step 359 is passed output sample b(n). The number of samples n is then increased in step 360. and then tested in step 353. All N samples are Once calculated, processing ends at step 361.

第2C図は本発明を導入したロングタームフィルタの別の実施例である。フィル タ124′は第2A図の再帰(recursive)フィルタ構成のフィードフ ォワード反転板である。入力ベクトルs (n)は減算器240およびロングタ ーム予測器遅延ブロック260の双方に印加される。遅延されたベクトルq ( n)は乗算器250に出力され、該乗算器250はロングターム予測器係数βに よって該ベクトルを尺度変更する。デジタルフィルタ124′の出力応答H(z )は2変換表示で次のように与えられる。FIG. 2C is another embodiment of a long-term filter incorporating the present invention. fill The filter 124' is the feedfif of the recursive filter configuration of FIG. 2A. It is a forward reversal board. The input vector s(n) is input to the subtracter 240 and the long is applied to both system predictor delay blocks 260. Delayed vector q ( n) is output to a multiplier 250, which multiplier 250 inputs the long-term predictor coefficient β Therefore, scale the vector. The output response H(z ) is given in two-transform representation as follows.

この式において、nはNのサンプルを含むフレームのサンプル番号を表し、0≦ n≦N−1であり、βはロングタームフィルタの係数を表し、Lはロングターム 予測器の公(n+L)/’Lより小さいかまたはこれに等しい最も近い整数を表 す。フィルタ124′の出力信号b (n)はまた入力信号s (n)に関し次 のように規定できる。In this formula, n represents the sample number of the frame containing N samples, and 0≦ n≦N-1, β represents the coefficient of the long-term filter, and L represents the long-term filter. represents the nearest integer less than or equal to the predictor's common (n+L)/'L vinegar. The output signal b(n) of the filter 124' also has the following relation to the input signal s(n): It can be specified as follows.

この場合、0≦n≦N−1である。当業者に理解できるように、ロングターム予 測器の構造は再びロングターム予測器のラグLがフレーム長Nより小さい場合に 該ロングターム予測器の同じ記憶されたサンプルを繰り返し出力するように変更 されている。In this case, 0≦n≦N-1. As can be understood by those skilled in the art, long-term forecasting The structure of the instrument is again when the lag L of the long-term predictor is smaller than the frame length N. Changed the long-term predictor to repeatedly output the same stored samples. has been done.

次に第5図を参照すると、第1図のロングタームフィルタ124の好ましい実施 例が示されており、これはラグパラメータLに対するサブサンプルの分解能を許 容する。入力音声ベクトルs (n)のNサンプルのフレームが加算器510に 印加される。加算器510の出力はロングタームフィルタ124に対する出力ベ クトルb (n)を生成する。Referring now to FIG. 5, a preferred implementation of the long-term filter 124 of FIG. An example is shown, which allows subsample resolution for the lag parameter L. To tolerate. A frame of N samples of the input speech vector s(n) is sent to the adder 510. applied. The output of adder 510 is the output vector for long-term filter 124. vector b(n) is generated.

出力ベクトルb (n)はロングターム予測器の遅延されたベクトル発生器ブロ ック530にフィードバックされる。The output vector b(n) is the delayed vector generator block of the long-term predictor. feedback to block 530.

公称ロングターム予測器ラグパラメータLもまた遅延ベクトル発生器ブロック5 30に入力される。ロングターム予測器ラグパラメータLは非整数有理数の値を 取り得る。好ましい実施例はLが2分の1の倍数である値を取ることを許容する 。本発明のサブサンプル分解能ロングターム予測器の別の構成は3分の1または 4分の1あるいは任意の他の有理分数の倍数である値を許容することができる。The nominal long-term predictor lag parameter L is also determined by the delay vector generator block 5. 30 is input. The long-term predictor lag parameter L is a non-integer rational number. It can be taken. The preferred embodiment allows L to take on values that are multiples of 1/2. . Another configuration of the subsample resolution long-term predictor of the present invention is one-third or Values that are multiples of a quarter or any other rational fraction can be accepted.

好ましい実施例においては、遅延ベクトル発生器530はb (n)の過去のサ ンプルを保持するメモリを含む。さらに、b (n)の補間されたサンプルもま た遅延ベクトル発生器530で計算されかつそのメモリ内に格納される。In the preferred embodiment, delay vector generator 530 uses the past samples of b(n). Contains memory that holds samples. Furthermore, the interpolated samples of b(n) are also is calculated by the delay vector generator 530 and stored in its memory.

好ましい実施例においては、遅延ベクトル発生器530に含まれるロングターム 予測器の状態(s t a t e)はb(n)の各々の記憶されたサンプルに 対し2つのサンプルを有している。1つのサンプルはb (n)に対するもので ありかつ他のサンプルは2つの連続するb (n)のサンプルの間の補間された サンプルを表す。このようにして、b(n)のサンプルは整数の遅延またはハー フサンプルの遅延の倍数に対応する遅延ベクトル発生器530から得ることがで きる。この補間は、1983年に、プレンティス・ホール・ルーピン・ドナリー により出版された、アール・クロチーアおよびエル・ラビナーによる「多重レー ト・デジタル信号処理」に述べられている補間有限インパルス応答フィルタを用 いて行われる。ベクトル遅延発生器530の動作は第6A図および第6B図のフ ローチャートに関連してさらに詳細に説明される。In a preferred embodiment, delay vector generator 530 includes a long term The state of the predictor (s t a t e) is set for each stored sample of b(n). However, there are two samples. One sample is for b(n) and other samples are interpolated between two consecutive samples of b(n) Represents a sample. In this way, the samples of b(n) are integer delayed or hard can be obtained from delay vector generator 530 corresponding to a multiple of the delay of the fsample. Wear. This interpolation was developed in 1983 by Prentice Hall, Lupine, and Donnalley. “Multiple Ray” by Earl Clochia and Elle Rabiner, published by Using the interpolating finite impulse response filter described in It will be carried out. The operation of vector delay generator 530 is shown in FIGS. 6A and 6B. Further details will be explained in connection with the lowchart.

遅延ベクトル発生器530はロングターム乗算器ブロック520に出力ベクトル q (n)を提供し、該ロングターム乗算器ブロック520はロングターム予測 器係数βによりロングターム予測器応答を尺度変更する。尺度変更された出力β q (n)は次に加算器510に印加され第5図における再帰フィルタ124の フィードバックループを完成する。Delay vector generator 530 supplies the output vector to long-term multiplier block 520. q(n), and the long-term multiplier block 520 provides long-term prediction scale the long-term predictor response by the predictor coefficient β. scaled output β q(n) is then applied to adder 510 and is applied to recursive filter 124 in FIG. Complete the feedback loop.

第6A図および第6B図を参照すると、第5図のロングタームフィルタにより行 われる動作を詳細に説明するための詳細フローチャートが示されている。本発明 の好ましい実施例によれば、ロングターム予測器メモリの分解能はNポイントの シーケンスb (n)を、2Nポイントのベクトルex (i)にマツピングす ることにより拡張される。ex (i)の負のインデックスされたサンプルはロ ングタームフィルタ出力b(n)、励起、または拡張分解能ロングタームヒスト リの拡張された分解能の過去の値を含む。該マツピング処理はそれが印加される 各時間ごとに、ロングターム予測器メモリの一時的な分解能を倍加する。ここで は簡単化のために単一段のマツピングが説明されているが、付加的な段も本発明 の他の実施例においては実施することができる。Referring to FIGS. 6A and 6B, the long-term filter of FIG. A detailed flowchart is shown to explain in detail the operations performed. present invention According to a preferred embodiment, the long-term predictor memory has a resolution of N points. Mapping the sequence b (n) to the 2N point vector ex (i) Expanded by The negative indexed samples of ex (i) are long-term filter output b(n), excitation, or extended resolution long-term hist Contains past values of extended resolution for The mapping process is applied Each time, double the temporal resolution of the long-term predictor memory. here Although a single stage of mapping is described for simplicity, additional stages are also contemplated by the present invention. can be implemented in other embodiments.

第6A図におけるステップ602のスタートに入ると、フローチャートはステッ プ604に進み、そこでL1βおよびs (n)が入力される。ステップ608 において、ベクトルq (n)が次の式に従って構成される。Upon entering the start of step 602 in FIG. 6A, the flowchart The process advances to step 604, where L1β and s(n) are input. Step 608 , the vector q(n) is constructed according to the following equation.

この式において i(n+L)/LJは(n+L)/Lより小さいかまたは等し い最も近い整数を表し、かつLはロングターム予測器ラグである。有声音に対し ては、ロングターム予測器ラグLはピッチ期間またはピッチ期間の倍数である。In this formula, i(n+L)/LJ is less than or equal to (n+L)/L. and L is the long-term predictor lag. for voiced sounds In other words, the long-term predictor lag L is the pitch period or a multiple of the pitch period.

Lは整数または好ましい実施例においてはその少数部分が0. 5である実数で ある。Lの少数部分が0.5である場合、Lはサンプルの半分の実効分解能を有 する。L is an integer or, in a preferred embodiment, the decimal portion thereof is 0. A real number that is 5 be. If the fractional part of L is 0.5, then L has an effective resolution of half the sample. do.

ステップ610において、ロングタームフィルタのベクトルb (n)は次の式 によって計算される。In step 610, the long-term filter vector b(n) is determined by the following equation: Calculated by

b (n) =βQ (n) +s (n)但し、0≦n≦N−1 ステップ612において、ロングタームフィルタのベクトルb (n)が出力さ れる。ステップ614において、拡張された分解能の状態ex(n)が更新され q (n)の補間値が発生されかつ遅延ベクトル発生器530のメモリ内に格納 される。ステップ614は第6B図により詳細に示されている。次に、ステップ 616において処理は完了しかつ停止する。b (n) = βQ (n) + s (n) However, 0≦n≦N-1 In step 612, the long-term filter vector b(n) is output. It will be done. In step 614, the extended resolution state ex(n) is updated. An interpolated value of q(n) is generated and stored in the memory of the delay vector generator 530. be done. Step 614 is shown in more detail in Figure 6B. Then step At 616, processing is complete and stops.

第6BIIのステップ622におけるスタートに入ると、フローチャートはステ ップ624に進み、そこでこのサブフレームにおいて計算されるべきex (i )におけるサンプルが0に合わせられ、すなわちi =−M、 −M+2. 、  。Upon entering the start at step 622 of the sixth BII, the flowchart Proceed to step 624 where ex(i ) are zeroed, i.e. i = -M, -M+2 . , .

、、2N−1に対しex (i)=0とされ、ここでMは2M+1次のフィルタ のために奇数に選択される。たとえば、フィルタの次数が39であれば、Mは1 9である。もちろんMは単純化のために奇数であるとして選択されているが、M はまた偶数でもよい。ステップ626において、i=0゜2、、、、.2(N− 1)に対するex (i)の1つおきのサンプルが次の式に従いb (n)のサ ンプルで初期化される。,, ex (i) = 0 for 2N-1, where M is the 2M+1st-order filter is chosen to be an odd number. For example, if the order of the filter is 39, M is 1 It is 9. Of course, M is chosen to be odd for simplicity, but M can also be an even number. In step 626, i=0°2, . 2(N- For 1), every other sample of ex (i) is the sample of b (n) according to the following formula. initialized with a sample.

ex (2i) =b (f) 但し、i=0.1.、、、、N−1゜ 従って、j=0. 2. 、 、 、 、 2 (N−1)に対するex (i )はその偶数の指数に対しマツピングされた現在のサブフレームに対する出力ベ クトルb (n)を保持し、一方i=1. 3. 、 、 、 、 2 (N− 1) +1に対するexd(i)の奇数の指数は0で初期化されている。ex (2i) = b (f) However, i=0.1. ,,,,N-1゜ Therefore, j=0. 2. , , , , ex (i ) is the output vector for the current subframe mapped to that even index. vector b(n), while i=1. 3. , , , , 2 (N- 1) Odd exponents of exd(i) for +1 are initialized to 0.

ステップ628において、0に初期化されたex (i)の補間されたサンプル がそのようなFIRフィルタの次数が上に述べたように2M+1であると仮定し て、対称、ゼロ位相シフトフィルタを使用し、FIR補間により再構成される。In step 628, the interpolated samples of ex(i) initialized to 0 Assume that the order of such a FIR filter is 2M+1 as mentioned above. is reconstructed by FIR interpolation using a symmetric, zero phase shift filter.

FIRフィルタの係数はa (Dであり、ここでj=−M、−M+2.、、、、 M−1,Mおよびa (D=a(−j)である。FIRフィルタのタップに向け られた偶数サンプルのみがサンプル再構成において使用されるが、それは奇数サ ンプルは0にセットされているからである。その結果、2M+1サンプルの代わ りにM+1サンプルが実際に重み付けられかつ各々の再構成されたサンプルのた めに加算される。FIR補間は次の式に従って行われる。The coefficients of the FIR filter are a (D, where j=-M, -M+2., , M-1, M and a (D=a(-j). Towards the tap of the FIR filter Only the even numbered samples are used in the sample reconstruction, while the odd numbered samples This is because sample is set to 0. As a result, instead of 2M+1 samples, Then M+1 samples are actually weighted and for each reconstructed sample will be added to the FIR interpolation is performed according to the following equation.

(M+]) et(i)= 2Σ”2j−1[ex(i−2i+I)+ex(i+2i−1)  ]j・1 但し、i=−M、 −11+2. 、 、 、 、2 (N−1) −M−2, 2(N〜1)−M再構成されるべき最初のサンプルはex(−M)であり、期待 するようにex(1)ではないことに注意を要する。(M+]) et(i)= 2Σ”2j-1[ex(i-2i+I)+ex(i+2i-1) ]j・1 However, i=-M, -11+2. , , , , 2 (N-1) -M-2, 2(N~1)-M The first sample to be reconstructed is ex(-M) and the expected Note that it is not ex(1) as shown in the figure.

これは、指数−M、 −M+2. 、 、 、 、−1における補間されたサン プルは現在のフレームにおける励起の評価を用いて先のフレームにおいて再構成 されたからであり、それは実際の励起サンプルはその時規定されていなかったか らである。現在のフレームにおいてこれらのサンプルは知られており(我々はb  (n)を有している)、かつ従ってi=−M、−M+、、、、、−1に対する ex(i)のサンプルは今や再び再構成され、フィルタのタップは実際のかつ評 価されていない値b (n)に向けられている。This is the index -M, -M+2. Interpolated samples at , , , , -1 Pull reconstructs in the previous frame using the evaluation of the excitation in the current frame because the actual excitation sample was not specified at that time. It is et al. In the current frame these samples are known (we have b (n)), and therefore for i=-M, -M+, , , , -1 The samples of ex(i) are now reconstructed again and the taps of the filter are is directed to the unvalued value b(n).

上の式においてiの最大の値は2 (N−1)−Mである。In the above equation, the maximum value of i is 2(N-1)-M.

これは、i =2N−M、2N−M+2. 、 、 、 、 2 (N −1) +1に対し、ex (i)の(M+1)/2の奇数サンプルが依然として再構成 されるべきであることを意味する。This means that i = 2N-M, 2N-M+2. , , , , 2 (N-1) +1, (M+1)/2 odd samples of ex (i) are still reconstructed means that it should be done.

しかしながら、指数(index)iのこれらの値に対し、補間フィルタのより 上のタップはまだ規定されていない励起の将来のサンプルを指示している。これ らの指数に対するex (i)の値を計算するためには、1=2N、2N+2. 、、、.2N+Mに対するex (i) (7)将来の状態カステップ630に おいて評価することにより拡張される。However, for these values of index i, the interpolation filter's The top tap indicates future samples of excitation that have not yet been defined. this To calculate the value of ex (i) for the exponents of 1=2N, 2N+2. ,,,. ex (i) for 2N+M (7) Future state Ka step 630 It is expanded by evaluating the

ex (i)=λex(i−2L) 但し、1=2N、2N+2.、、、.2N+M−1この機構において使用される べき2Lの最小値は2M+1である。この束縛は次のように規定することにより 解放できる。ex (i) = λex (i-2L) However, 1=2N, 2N+2. ,,,. 2N+M-1 used in this mechanism The minimum value of power 2L is 2M+1. This binding can be achieved by specifying It can be released.

ex (i)=λex (F (i−2L) )但し、1=2N、2N+2.、 、、.2N+M−1この場合、奇数に等しい1−2Lに対し、F (i−2L) は次式で与えられる。ex (i) = λex (F (i-2L)) where 1 = 2N, 2N + 2. , ,,. 2N+M-1 In this case, F (i-2L) for 1-2L which is equal to an odd number is given by the following equation.

また、偶数に等しい1−2Lに対するF(i−2L)は次式により与えられる。Further, F(i-2L) for 1-2L, which is an even number, is given by the following equation.

パラメータλ、すなわちヒストリ拡張スケールファクタは、ピッチ予測器係数で ある、βに等しくセットすることができ、あるいは1にセットされる。The parameter λ, i.e. the history expansion scale factor, is the pitch predictor coefficient 1, can be set equal to β, or is set to 1.

励起ヒストリがこのように拡張されると、ステップ632において、現行の拡張 されたレゾリュージョンのサブフレームの最後の(M+1)/2のゼロサンプル は次式を用いて計算される。Once the excitation history has been expanded in this way, in step 632 the current expansion The last (M+1)/2 zero samples of the subframe of the resolved resolution is calculated using the following formula.

(M+1) ex(i)= 2Σ ’2i−1[ex(i−2i+1)+ex(i+2i−1 ) ]i=1 但し、i・2N−M、 2N−M+2. 、 、 、 、2 (N−1) +1 これらのサンプルは、1=2N、2N+2.、、、.2N+M−1に対するex  (f)のための実際の励起サンプルが一旦利用可能になると、次のサブフレー ムで再計算されるであろう。(M+1) ex(i)=2Σ'2i-1[ex(i-2i+1)+ex(i+2i-1 )]i=1 However, i・2N-M, 2N-M+2. , , , , 2 (N-1) +1 These samples are 1=2N, 2N+2. ,,,. ex for 2N+M-1 Once the actual excitation sample for (f) is available, the next subframe will be recalculated in the next session.

従って、n=0.N−1に対し、b (n)がベクトルex (i)にマツピン グされ、ここでi=o、2.、、、。Therefore, n=0. For N-1, b (n) is attached to vector ex (i) , where i=o, 2. ,,,.

2 (N−1)である。失われたゼロ化サンプルはFIR補間フィルタを用いて 再構成されている。FIR補間は失われたサンプルにのみ適用されることに注意 を要する。これはex (i)の偶数の指数に格納されている、知られたサンプ ルに何等のひずみも無用に導入されないことを保証する。失われたサンプルのみ を処理する付加的な利点は補間に関連する計算が半分になることである。2 (N-1). Lost zeroed samples are removed using a FIR interpolation filter. It has been restructured. Note that FIR interpolation is only applied to missing samples It takes. This is the known sample stored in the even exponent of ex(i). ensure that no strain is unnecessarily introduced into the module. lost samples only An additional advantage of processing is that the computations associated with interpolation are halved.

ステップ634において、最後にロングターム予測器ヒストリが2Nポイントに より拡張されたレゾリュージョン励起ベクトルex (i)の内容をシフトダウ ンすることにより更新される。In step 634, the long-term predictor history finally reaches the 2N point. Shift down the contents of the more extended resolution excitation vector ex (i) Updated by logging in.

ex (i)=ex (i+2N) 但し、i=2Max L、−1 ここで、MaxLは用いられる最大のロングターム予測器遅延である。次に、ス テップ636において、処理は完了しかつ停止する。ex (i) = ex (i+2N) However, i=2Max L, -1 where MaxL is the maximum long-term predictor delay used. Next, At step 636, processing is complete and stops.

次に第4図を参照すると、音声合成器(speechsynthesizor) のブロック図が本発明のロングタームフィルタを用いて図示されている。シンセ サイザ400はデマルチプレクサ450を介し、チャネルから受信したショート ターム予測器パラメータα1、ロングターム予測器パラメータβおよびL1励起 利得ファクタγおよびコード語■を得る。コード語IはコードブックROM42 0に印加され励起ベクトルのコードブックをアドレスする。Referring now to FIG. 4, a speech synthesizer (speech synthesizer) A block diagram of is illustrated using the long-term filter of the present invention. synth The sizer 400 sends short signals received from the channel via a demultiplexer 450. Term predictor parameter α1, long term predictor parameter β and L1 excitation Obtain the gain factor γ and the code word ■. Code word I is code book ROM42 0 to address the codebook of excitation vectors.

コードブックROM420は好ましくは、ここに参照のため導入される、米国特 許第4,817,157号に述べられているようにして実施される。単一の励起 ベクトルu■(n)が次にブロック422において利得ファクタγにより乗算さ れ、ロングターム予測器フィルタ424およびショートターム予測器フィルタ4 26によりろ波され再構成された音声ベクトルs’ 1(n)を得る。再構成さ れた音声のフレームを表す、このベクトルは次にアナログ−デジタル(A/D) コンバータ408に印加され再構成されたアナログ信号を生成し、これは次にフ ィルタ404によりエイリアシングを低減するために低域ろ波され、かつスピー カ402のような出力変換器に印加される。従って、このCELPシンセサイザ は第1図のCELPアナライザと同じコードブック、利得ブロック、ロングター ムフィルタ、およびショートタームフィルタを用いる。Codebook ROM 420 is preferably a US Pat. No. 4,817,157. single excitation The vector u(n) is then multiplied by the gain factor γ in block 422. , long-term predictor filter 424 and short-term predictor filter 4 26 to obtain the filtered and reconstructed speech vector s'1(n). reconstructed This vector is then converted into an analog-to-digital (A/D) is applied to a converter 408 to produce a reconstructed analog signal, which is then applied to a converter 408. filter 404 to reduce aliasing and is applied to an output transducer such as 402. Therefore, this CELP synthesizer has the same codebook, gain block, and long term as the CELP analyzer in Figure 1. A short-term filter and a short-term filter are used.

第7図は、第4図における音声シンセサイザのショートタームフィルタ426お よびD/Aコンバータ408を相互結合するためのピッチポストフィルタの詳細 なブロック図である。ピッチポストフィルタは音声品質をフィルタ424および 426により導入されるノイズを除去することにより増大する。Nサンプルの再 構成された音声ベクトルs’ 1 (n)のフレームが加算器710に印加され る。加算器710の出力はピッチポストフィルタのための出力ベクトルs”(n )を生成する。出力ベクトルs″ (n)はピッチポストフィルタの遅延サンプ ル発生器ブロック630にフィードバックされる。公称(nominal)ロン グターム予測器ラグパラメータLもまた遅延サンプル発生器ブロック730に入 力される。Lは本発明に対しては非整数値をとることができる。もしLが非整数 であれば、補間FIRフィルタが使用され必要とされる分数的サンプル遅延を発 生する。遅延サンプル発生器730は出力ベクトルq (n)を乗算器ブロック 720に提供し、該乗算器ブロック720はピッチポストフィルタ応答をロング ターム予測器係数βの関数である係数Rによって尺度変更する。FIG. 7 shows the short-term filter 426 and the voice synthesizer in FIG. Pitch post filter details for mutually coupling D/A converter 408 and D/A converter 408 It is a block diagram. The pitch post filter improves the audio quality by filtering 424 and 426 is increased by removing the noise introduced by 426. N samples re The constructed frame of speech vector s'1(n) is applied to adder 710. Ru. The output of adder 710 is the output vector s''(n ) is generated. The output vector s'' (n) is the delayed sample of the pitch post filter is fed back to the file generator block 630. nominal Ron The term predictor lag parameter L also enters delayed sample generator block 730. Powered. L can take non-integer values for the present invention. If L is a non-integer If so, an interpolating FIR filter is used to generate the required fractional sample delay. live. Delayed sample generator 730 transfers the output vector q(n) to the multiplier block 720, the multiplier block 720 provides a pitch postfilter response to a long Scale by a coefficient R that is a function of the term predictor coefficient β.

尺度変更された出力Rq (n)は次に加算器710に印加され第7図のピッチ ポストフィルタのフィードバックループを、完成する。The scaled output Rq(n) is then applied to an adder 710 to generate the pitch of FIG. Complete the postfilter feedback loop.

本発明に係わるロングターム予測器応答を利用する際に、励起利得ファクタγお よびロングターム予測器係数βは閉ループ構成におけるLのすべての値に対し同 時に最適化することができる。この結合された最適化技術はL<Nの値に対して は今までは実際的ではなかったが、それは結合最適化方程式が単一パラメータβ において非線形となるからであった。本発明はロングターム予測器の構造を変更 しリニアな結合最適化方程式を許容する。さらに、本発明はロングターム予測器 ラグが1サンプルより良好な分解能を持つことを許容し、それによりその性能を 増強する。When utilizing the long-term predictor response according to the present invention, the excitation gain factor γ and and long-term predictor coefficient β are the same for all values of L in the closed-loop configuration. can be optimized at times. This combined optimization technique works for values of L<N. has not been practical until now, since the joint optimization equation has a single parameter β This is because it becomes nonlinear in . The present invention changes the structure of the long-term predictor and allows linear joint optimization equations. Furthermore, the present invention provides a long-term predictor Allows the lag to have better resolution than one sample, thereby improving its performance. Strengthen.

さらに、フードブックサーチ手順がさらに単純化されるが、それはロングターム フィルタのゼロ状態応答がフレーム長より小さなラグに対しゼロになるからであ る。この付加的な特徴は当業者がロングタームフィルタの効果をフードブックサ ーチ手順から除去することを許容する。従って、実際の実施上の利点および低い ビットレートを維持しながらすべてのピッチレートに対しより高い品質の音声を 提供できるCELP音声コーダコーされた。In addition, the food book search procedure is further simplified, but only in long terms. This is because the zero-state response of the filter goes to zero for lags smaller than the frame length. Ru. This additional feature allows those skilled in the art to appreciate the effectiveness of long-term filters in food book studies. be removed from the process. Therefore, the practical implementation advantage and low Higher quality audio for all pitch rates while maintaining bitrate CELP audio coder can be provided.

本発明の特定の実施例が示されかつ説明されたが、その広い見地における本発明 から離れることなくさらに別の変更および改良を行うことができる。例えば、任 意の形式の音声コーディング(例えば、RELP、マルチパルス、RPE、LP G、その他)をここに述べたサブサンプル分解能ロングターム予測器ろ波技術と ともに用いることができる。さらに、サブサンプル分解能のロングターム予測器 構造の付加的な等画構成を上に述べたものと同じ計算を行うように構成すること ができる。While specific embodiments of the invention have been shown and described, the invention in its broader aspects Further changes and improvements can be made without departing from the. For example, Any form of audio coding (e.g. RELP, multipulse, RPE, LP) G, et al.) with the subsample resolution long-term predictor filtering techniques described here. Both can be used. Additionally, a long-term predictor with subsample resolution Configuring additional isometric configurations of structures to perform the same calculations as described above. Can be done.

FIG、6B 閑瞭膿査報告 1ms□IA″″−“’pCw10cQn/(IM25FIG.6B Absolute abscess report 1ms□IA″″−“’pCw10cQn/(IM25

Claims (4)

【特許請求の範囲】[Claims] 1.再生のために音声シンセサイザに通信するための音声のエンコード方法であ って、前記音声はNが1より大きな整数であるとし、各々N個のサンプルを有す る音声ベクトルのフレームを具備し、前記方法は、メモリ手段に各々複数のサン プルを有する複数の励起ベクトルを格納する段階であって、前記励起ベクトルの 第1の部分は各々N個より少ないサンプルを有しかつ前記励起ベクトルの第2の 部分は各々N個のサンプルを有し、かつ各々の励起ベクトルは異なるデジタルコ ード語および1より大きくかつ所定の最大数より小さな整数である異なる遅延パ ラメータに関連するもの、 前記励起ベクトルを現在の音声ベクトルでサーチし前記現在の音声ベクトルに最 もよく整合する励起ベクトルのコード語および遅延パラメータを決定する段階で あって、該決定は、 前記メモリ手段から前記励起ベクトルのサンプルを読み取る段階、 前記第1の部分における前記励起ベクトルのサンプルを反復しそれにより前記第 1の部分の各励起ベクトルがN個のサンプルを有するようにする段階、各々の励 起ベクトルに対応する少なくとも1つの補間励起ベクトルを発生する段階であっ て、前記補間励起ベクトルのサンプルは対応する励起ベクトルのサンプルから補 間され、該補間された励起ベクトルは前記対応する励起ベクトルと同じコード語 および前記対応する励起ベクトルの遅延パラメータに関連する非整数有理数であ る遅延パラメータを有するもの、 前記励起ベクトルおよび前記補間された励起ベクトルのサンプルを前記現在の音 声ベクトルと比較しそれらの間の差を決定する段階、そして 前記励起ベクトルまたは補間励起ベクトルであって前記現在の音声ベクトルから の差が最小のもののコード語および遅延パラメータを選択する段階、によって行 われるもの、および 前記音声シンセサイザによる前記現在の音声ベクトルの再生のために前記メモリ 手段における前記決定された励起ベクトルのロケーションを識別するために前記 決定されたコード語および遅延パラメータを通信する段階、を具備する音声シン セサイザに通信するための音声のエンコード方法。1. A method of encoding audio to communicate to an audio synthesizer for playback. Therefore, each voice has N samples, where N is an integer greater than 1. the method comprises storing a plurality of frames of audio vectors each in memory means; storing a plurality of excitation vectors having pulls, the first parts each have fewer than N samples and the second part of the excitation vector Each part has N samples, and each excitation vector has a different digital component. code word and a different delay parameter that is an integer greater than 1 and less than a predetermined maximum number. Things related to lameter, Search the excitation vector with the current speech vector and find the most suitable vector for the current speech vector. In the step of determining the codeword and delay parameters of the excitation vectors that match well Therefore, the decision was reading samples of the excitation vector from the memory means; repeating the sampling of the excitation vector in the first portion, thereby each excitation vector of one part has N samples; generating at least one interpolated excitation vector corresponding to the excitation vector; Thus, the interpolated excitation vector samples are interpolated from the corresponding excitation vector samples. and the interpolated excitation vector has the same code word as the corresponding excitation vector. and is a fractional rational number associated with the delay parameter of the corresponding excitation vector. with a delay parameter of A sample of the excitation vector and the interpolated excitation vector is added to the current sound. comparing the voice vectors and determining the difference between them; the excitation vector or an interpolated excitation vector from the current speech vector; performed by selecting the codeword and delay parameters with the smallest difference in and the memory for playback of the current audio vector by the audio synthesizer; the means for identifying the location of the determined excitation vector in the means; communicating the determined codeword and delay parameters. How to encode audio to communicate to the synthesizer. 2.少なくとも1つの補間励起ベクトルを発生する前記段階は対応するベクトル の2つの連続するサンプルを平均化して前記補間された励起ベクトルの対応する サンプルを発生する段階を含む請求の範囲第8項に記載の方法。2. said step of generating at least one interpolated excitation vector of the interpolated excitation vector by averaging two consecutive samples of 9. The method of claim 8, including the step of generating a sample. 3.再生のために音声シンセサイザに通信ずるために音声をエンコードする装置 であって、前記音声は、Nが1より大きな整数であるとしてN個のサンプルを各 々有する音声ベクトルのフレームを備え、前記装置は、各々複数のサンプルを有 する複数の励起ベクトルを記憶するための手段であって、前記励起ベクトルの第 1の部分は各々N個より少ないサンプルを有しかつ前記励起ベクトルの第2の部 分は各々N個のサンプルを有し、かつ各励起ベクトルは異なるデジタルコード語 および1より大きくかつ所定の最大数より小さな整数である異なる遅延パラメー タと関連しているもの、 前記励起ベクトルを現在の音声ベクトルによってサーチし前記現在の音声ベクト ルに最もよく整合する励起ベクトルのコード語および遅延パラメータを決定する ための手段であって、前記決定は、 前記記憶手段からの前記励起ベクトルのサンプルを読み取り、 前記第1の部分における前記励起ベクトルのサンプルを反復して前記第1の部分 の各励起ベクトルがN個のサンプルを有するようにし、 各励起ベクトルに対応する少なくとも1つの補間励起ベクトルを発生し、この場 合該補間励起ベクトルのサンプルは対応する励起ベクトルのサンプルから補間さ れ、前記補間励起ベクトルは対応する励起ベクトルと同じコード語および前記対 応する励起ベクトルの遅延パラメータに関連する非整数有理数である遅延パラメ ータを有するようにし、 前記励起ベクトルおよび前記補間された励起ベクトルのサンプルを前記現在の音 声ベクトルのサンプルと比較しそれらの間の差を決定し、かつ 前記励起ベクトルまたは補間された励起ベクトルであって前記現在の音声ベクト ルからの差が最も少ないもののコード語および遅延パラメータを選択する、こと により行われるもの、および 前記音声シンセサイザによる前記現在の音声ベクトルの再生のために前記記憶手 段における前記決定された励起ベクトルのロケーションを識別するために前記決 定されたコード語および遅延パラメータを通信するための手段、を具備する音声 シンセサイザに通信するために音声をエンコードする装置。3. A device that encodes audio for communication to an audio synthesizer for playback. where N samples are each divided into N samples, where N is an integer greater than 1. the apparatus comprises frames of audio vectors each having a plurality of samples; means for storing a plurality of excitation vectors, the means for storing a plurality of excitation vectors; 1 part each has fewer than N samples and the second part of the excitation vector each excitation vector has N samples, and each excitation vector has a different digital code word. and a different delay parameter that is an integer greater than 1 and less than a given maximum number. Things related to ta, Searching the excitation vector by the current audio vector and searching the current audio vector Determine the excitation vector codeword and delay parameters that best match the means for determining, reading a sample of the excitation vector from the storage means; repeating the samples of the excitation vector in the first part to repeat the sampling of the excitation vector in the first part; Let each excitation vector of have N samples, Generate at least one interpolated excitation vector corresponding to each excitation vector, and The samples of the combined interpolated excitation vector are interpolated from the samples of the corresponding excitation vector. and the interpolated excitation vector has the same code word and the pair as the corresponding excitation vector. The delay parameter is a fractional rational number related to the delay parameter of the corresponding excitation vector. data, A sample of the excitation vector and the interpolated excitation vector is added to the current sound. compare the voice vector samples and determine the differences between them; and the excitation vector or an interpolated excitation vector and the current audio vector; selecting the codeword and delay parameters that differ least from the performed by, and the memory hand for playback of the current audio vector by the audio synthesizer; the determined excitation vector in order to identify the location of the determined excitation vector in the stage; a means for communicating a defined code word and delay parameters; A device that encodes audio for communication to a synthesizer. 4.前記サーチ手段は補間された励起ベクトルの各サンプルを対応するベクトル の2つの連続する対応するサンプルを平均することにより発生する請求の範囲第 10項に記載の装置。4. The search means searches each sample of the interpolated excitation vector for a corresponding vector. Claim number 1 generated by averaging two consecutive corresponding samples of The device according to item 10.
JP50964190A 1989-09-01 1990-06-25 Digital speech coder with improved long-term predictor Expired - Lifetime JP3268360B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40220689A 1989-09-01 1989-09-01
US402,206 1989-09-01

Publications (2)

Publication Number Publication Date
JPH04502675A true JPH04502675A (en) 1992-05-14
JP3268360B2 JP3268360B2 (en) 2002-03-25

Family

ID=23590969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50964190A Expired - Lifetime JP3268360B2 (en) 1989-09-01 1990-06-25 Digital speech coder with improved long-term predictor

Country Status (12)

Country Link
EP (1) EP0450064B2 (en)
JP (1) JP3268360B2 (en)
CN (1) CN1026274C (en)
AT (1) ATE191987T1 (en)
AU (1) AU634795B2 (en)
CA (1) CA2037899C (en)
DE (1) DE69033510T3 (en)
DK (1) DK0450064T4 (en)
ES (1) ES2145737T5 (en)
MX (1) MX167644B (en)
SG (1) SG47028A1 (en)
WO (1) WO1991003790A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687284A (en) * 1994-06-21 1997-11-11 Nec Corporation Excitation signal encoding method and device capable of encoding with high quality
WO2002059876A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing apparatus
WO2002059877A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing device

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2702590B1 (en) * 1993-03-12 1995-04-28 Dominique Massaloux Device for digital coding and decoding of speech, method for exploring a pseudo-logarithmic dictionary of LTP delays, and method for LTP analysis.
FI96248C (en) 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Method for providing a synthetic filter for long-term interval and synthesis filter for speech coder
DE4421853A1 (en) * 1994-06-22 1996-01-04 Philips Patentverwaltung Mobile terminal
GB9408037D0 (en) * 1994-04-22 1994-06-15 Philips Electronics Uk Ltd Analogue signal coder
FR2729246A1 (en) * 1995-01-06 1996-07-12 Matra Communication SYNTHETIC ANALYSIS-SPEECH CODING METHOD
FR2729247A1 (en) * 1995-01-06 1996-07-12 Matra Communication SYNTHETIC ANALYSIS-SPEECH CODING METHOD
FR2729244B1 (en) * 1995-01-06 1997-03-28 Matra Communication SYNTHESIS ANALYSIS SPEECH CODING METHOD
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
CN104025191A (en) * 2011-10-18 2014-09-03 爱立信(中国)通信有限公司 An improved method and apparatus for adaptive multi rate codec
FR3015754A1 (en) 2013-12-20 2015-06-26 Orange RE-SAMPLING A CADENCE AUDIO SIGNAL AT A VARIABLE SAMPLING FREQUENCY ACCORDING TO THE FRAME

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (en) * 1987-03-02 1988-09-06 Fujitsu Ltd Coding transmitter
JPS63249200A (en) * 1987-04-06 1988-10-17 日本電信電話株式会社 Vector quantization system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL168669C (en) * 1974-09-16 1982-04-16 Philips Nv INTERPOLING DIGITAL FILTER WITH INPUT BUFFER.
US4080660A (en) * 1975-07-11 1978-03-21 James Nickolas Constant Digital signal time scale inversion
US4020332A (en) * 1975-09-24 1977-04-26 Bell Telephone Laboratories, Incorporated Interpolation-decimation circuit for increasing or decreasing digital sampling frequency
NL8105801A (en) * 1981-12-23 1983-07-18 Philips Nv RECURSIVE DIGITAL FILTER.
US4573135A (en) * 1983-04-25 1986-02-25 Rca Corporation Digital lowpass filter having controllable gain
JPS60116000A (en) * 1983-11-28 1985-06-22 ケイディディ株式会社 Voice encoding system
JPH01177227A (en) * 1988-01-05 1989-07-13 Toshiba Corp Sound coder and decoder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (en) * 1987-03-02 1988-09-06 Fujitsu Ltd Coding transmitter
JPS63249200A (en) * 1987-04-06 1988-10-17 日本電信電話株式会社 Vector quantization system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687284A (en) * 1994-06-21 1997-11-11 Nec Corporation Excitation signal encoding method and device capable of encoding with high quality
WO2002059876A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing apparatus
WO2002059877A1 (en) * 2001-01-25 2002-08-01 Sony Corporation Data processing device
US7269559B2 (en) 2001-01-25 2007-09-11 Sony Corporation Speech decoding apparatus and method using prediction and class taps
US7467083B2 (en) 2001-01-25 2008-12-16 Sony Corporation Data processing apparatus

Also Published As

Publication number Publication date
JP3268360B2 (en) 2002-03-25
ES2145737T5 (en) 2007-03-01
DE69033510D1 (en) 2000-05-25
DK0450064T3 (en) 2000-10-02
CN1050633A (en) 1991-04-10
AU634795B2 (en) 1993-03-04
CN1026274C (en) 1994-10-19
EP0450064B1 (en) 2000-04-19
DK0450064T4 (en) 2006-09-04
CA2037899C (en) 1996-09-17
ATE191987T1 (en) 2000-05-15
AU5952590A (en) 1991-04-08
CA2037899A1 (en) 1991-03-02
DE69033510T3 (en) 2007-06-06
EP0450064A4 (en) 1995-04-05
EP0450064B2 (en) 2006-08-09
MX167644B (en) 1993-03-31
DE69033510T2 (en) 2000-11-23
SG47028A1 (en) 1998-03-20
EP0450064A1 (en) 1991-10-09
ES2145737T3 (en) 2000-07-16
WO1991003790A1 (en) 1991-03-21

Similar Documents

Publication Publication Date Title
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
US6401062B1 (en) Apparatus for encoding and apparatus for decoding speech and musical signals
JPH04502675A (en) Digital speech coder with improved long-term predictor
JP4005359B2 (en) Speech coding and speech decoding apparatus
USRE43099E1 (en) Speech coder methods and systems
JP3541680B2 (en) Audio music signal encoding device and decoding device
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
SE521600C2 (en) Lågbittaktskodek
JP2005515486A (en) Transcoding scheme between speech codes by CELP
JP4008607B2 (en) Speech encoding / decoding method
JP2645465B2 (en) Low delay low bit rate speech coder
KR20040045586A (en) Apparatus and method for transcoding between CELP type codecs with a different bandwidths
JP3531780B2 (en) Voice encoding method and decoding method
JP3168238B2 (en) Method and apparatus for increasing the periodicity of a reconstructed audio signal
KR100312336B1 (en) speech quality enhancement method of vocoder using formant postfiltering adopting multi-order LPC coefficient
JPH05273998A (en) Voice encoder
JP4007730B2 (en) Speech encoding apparatus, speech encoding method, and computer-readable recording medium recording speech encoding algorithm
JP4293005B2 (en) Speech and music signal encoding apparatus and decoding apparatus
KR950001437B1 (en) Method of voice decoding
JP2000305597A (en) Coding for speech compression
JPH11184499A (en) Voice encoding method and voice encoding method
WO2001009880A1 (en) Multimode vselp speech coder
Kao Thesis Report
JP2000305598A (en) Adaptive post filter
JPH04346400A (en) Voice analysis/synthesis method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9