JP3392412B2 - 音声コーディング装置及び音声エンコーディング方法 - Google Patents

音声コーディング装置及び音声エンコーディング方法

Info

Publication number
JP3392412B2
JP3392412B2 JP21490090A JP21490090A JP3392412B2 JP 3392412 B2 JP3392412 B2 JP 3392412B2 JP 21490090 A JP21490090 A JP 21490090A JP 21490090 A JP21490090 A JP 21490090A JP 3392412 B2 JP3392412 B2 JP 3392412B2
Authority
JP
Japan
Prior art keywords
codebook
speech
filtered
perceptually weighted
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP21490090A
Other languages
English (en)
Other versions
JPH0395600A (ja
Inventor
ジェイムズ ムルスリー ティモシー
ウィリアム エリオット パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JPH0395600A publication Critical patent/JPH0395600A/ja
Application granted granted Critical
Publication of JP3392412B2 publication Critical patent/JP3392412B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】 本発明は、音声コーディング装置及び音声をエンコー
ディングする方法に係り、特にデジタル化された音声の
伝送装置に適用され得るコード励起された音声コーダに
関する。
【0002】
【発明の背景】
デジタル化された音声を伝送する際に生じる問題は、
帯域幅が制限された通信チャンネルを介して如何に高品
質な音声を得るかということにある。最近では、この問
題への有効なアプローチは、低いビットレートで高品質
合成音声を発生し得る符号励起された線形予測(CELP)
を含む。
【0003】 図面の第1図は、CELPを実施する提案のブロック系統
図であり、例えばジェーピー アドウル、ピー マビロ
ー、エム デルプラット及びエス モリセットにより論
文「代数コードに基づく高速CELPコーディング」に説明
されており、音響音声及び信号処理の国際コンフェレン
ス(ICASSP)1987で発表され、ICASSP87の1957から1960
頁に記載されている。要約すると、CELPは主観的誤差規
準に関してコードブックの最適一時的波形により残留信
号を表すことからなる音声コーディング技術である。特
に、例えばシーケンスを選択するための平均二乗誤差
(MSE)基準を用いることによって、知覚的に重み付け
された信号y(n)においてエネルギを最小化するコー
ドブックシーケンスCkが選択される。第1図では、ラン
ダムベクトルCk(n)を記憶する二次元コードブック10
が利得段12に結合されている。利得段12からの信号出力
r^(n)は、長期予測器を構成し、特性1/B(Z)を有
する第1の逆フィルタ14に印加され、該フィルタ14はピ
ッチを合成するために用いられる。短期予測器を構成
し、特性1/A(Z)を有する第2の逆フィルタ16は第1
のフィルタ14の出力e^(n)を受信するように接続され
る。第2のフィルタはスペクトルエンベロープを合成
し、加算段18の反転入力に供給される出力s^(n)を出
力する。元の音声20の発生源は加算段18の非反転入力に
接続される。該加算段の出力X(n)は特性W(z)を
有し、出力y(n)を出力する知覚的重み付けフィルタ
22に印加される。
【0004】 動作中、低いビットレートでの比較的高い品質の音声
が、短期及び長期予測の両方を用いて分析−合成処理に
て達成される。この処理は主観的誤差規準に関して最適
であるようなコードブック内の最良シーケンスを見出す
ことからなる。各コードワード又はシーケンスckは最適
利得係数Gkによりスケールされ、第1及び第2の逆フィ
ルタ14、16を介して処理される。元の及び合成信号の
間、即ちs(n)及びs^(n)の間の差X(n)は知覚
的重み付けフィルタ22を介して処理され、「最良」シー
ケンスが知覚的誤差信号y(n)のエネルギを最小化す
るように選択される。第1図に示す提案に対する2つの
報告された批判は、最良のシーケンスを見出すためのサ
ーチ処理から生じる多くの計算と、長期と短期の予測器
の両方を介して全てのシーケンスを濾波するに要する計
算とである。
【0005】 ICASSPの1957から1960頁で紹介された上記論文は、計
算の量を減少させる幾つかの案を提案している。
【0006】 これらの案の一つのブロック系統を第2図に示す。同
図中、第1図に用いられたのと同じ参照番号は対応する
部分を示す。この実施は下式の如くに知覚的重み付けフ
ィルタ22(第1図)を表すことによりなされる: W(z)=A(z)/A(z/γ) ここで、γは知覚的重み付け係数(約0.8に選定され
る)であり、A(z)は線形予測フィルタである: A(z)=ΣiaiZ-i
【0007】 第1図と比較して、知覚的重み付けフィルタW(z)
は加算段18への信号入力路に移動され得る。発生源20か
らの元の音声は、特性A(z)を有する分析フィルタ24
を介して処理され、ピッチパラメータが導出される残留
信号e(n)を生じる。残留信号e(n)は特性1/A(z
/γ)を有する逆フィルタ26を介して処理され、加算段1
8の非反転入力に印加される信号S'(n)を生じる。
【0008】他の信号路では、第2の逆フィルタ16(第
1図)により構成された短期予測器は、出力S^'(n)
を発生する特性1/A(z/γ)を有する逆フィルタ28によ
り置き換えられる。
【0009】長期予測器、フィルタ14は単一タップ予測
器であるように選択され得る: B(z)=1−bz-T (1) ここで、bは利得であり、Tはピッチ周期である。ピッ
チ予測器1/B(z)の出力信号e^(n)の式は、上記式
(1)から得られる。 e^(n)=r(n^)+be^(n−T) (2) ここで、r(n)=Gkck(n)、ここでn=0,N−1及
びNはブロックサイズ又はコードワードの長さであり、
kはコードブロックインデックスであり、Gkは利得係数
である。
【4】 サーチ処理中、信号e^(n−T)は、既知であり、T
が常にNより大きい場合、現在検査されているコードワ
ードに依存しない。従って、信号be^(n−T)が音声
源20からの経路での残留信号から減算される場合、ピッ
チ予測器1/B(z)を二次元コードブック10からの信号
路から取り除くことが可能である。上式(2)を用い
て、信号e^(n−T)はピッチ予測器1/B(z)を介し
て遅延された信号r^(n−T)を処理することにより得
られ;ピッチ周期Tがブロック寸法Nより大きい値に制
限されるなら、r^n−Tは、先行ブロック用に選択され
た既知のコードワードから計算される。ピッチ予測器の
動作は、ダイナミック適応コードブックなる表現でも考
えられ得る。
【0011】 この論文は、長期予測器1/B(z)及び短期予測器1/A
(z/γ)のメモリをコードブック10からの信号路より取
り除く構成も説明している。
【0012】 その結果、各コードワードに対する2つの濾波動作
を、計算負荷の大幅なカットを伴って、コードワード毎
の単一メモリ無しの濾波に削減することが可能である。
【0013】 他の論文、EURASIP、1988年の871から874頁のエフ
ボタウ、シー バーランド、エム ロッソ及びジェー
メネツによる「異なるベクトル予測コーディング系及び
低いビットレート音声コーディングへのその適用に関し
て」はメモリ寸法を増やさず、所定のレベルの計算上の
複雑さで音声品質を維持させるCELPコーディング用のア
プローチを開示している。しかし、この論文はICASSP87
論文より本発明の理解には関係がないので、詳細には説
明しない。
【0014】 上記の両論文はCELP技術の実施を改善する方法を開示
しているが、改善の余地が未だある。
【0015】
【発明の概要】 本発明の第1の特徴によると、 デジタル化された音声サンプルのベクトルを濾波して
知覚的に重み付けされた音声サンプルを形成する手段
と、 一次元コードブックと、 上記コードブックから読み出された各エントリを濾波
する手段と、 前記濾波されたコードブックエントリと前記知覚的に
重み付けされた音声サンプルの各ベクトルとを比較し
て、前記音声が再合成される際に最小の知覚的に重み付
けされた誤差を与えるようなコードブックインデックス
を得る手段と、 を有し、 前記コードブックの長さが、前記音声サンプルのベク
トルの長さよりも大幅に長いことを特徴とする音声コー
ディング装置が提供される。
【0016】 又、本発明の第2の特徴によれば、 デジタル化された音声サンプルのベクトルを濾波し
て、知覚的に重み付けされた音声サンプルを形成し、 一次元コードブックからエントリを選択すると共に濾
波して、濾波されたコードブックを形成し、 前記知覚的に重み付けされた音声サンプルの各ベクト
ルと前記濾波されたコードブックからの各エントリとを
比較して、前記音声が再合成される際に最小の知覚的に
重み付けされた誤差を与えるようなコードブックインデ
ックスを得る、ような各ステップを有し、前記コードブ
ックの長さが、前記音声サンプルのベクトルの長さより
も大幅に長いことを特徴する音声エンコーディング方法
が提供される。
【0017】 一次元コードブックを使用することにより、CELPコー
ダにおける計算負荷の大幅な低減が達成される。何故な
ら、その処理は、当該コードブック全体を上記知覚的に
重み付けされた合成フィルタを用いて、前記デジタル化
された音声サンプルの線形予測分析により生成されるフ
ィルタ係数の各組につき一度だけ濾波することからなる
からである。上記フィルタ係数の更新は前記デジタル化
された音声サンプルの4フレーム毎に一度でもよく、こ
の場合各フレームは例えば5msの期間を有する。この濾
波されたコードブックは、次いで、前記知覚的に重み付
けされた入力音声と前記選択されたシーケンスとの間の
誤差を最小にするような最適のフレーム長シーケンスを
見つけるようにサーチされる。
【0018】 もし所望なら、上記濾波されたコードブックのp番目
毎のエントリがサーチされるようにし、ここでpは1よ
り大きいものとする。上記濾波されたコードブックにお
ける隣接するエントリは相関されているので、各エント
リをサーチしないことにより、計算負荷を音声の品質に
過度に影響を与えることなく低減することができる。
又、他の例として同様の計算負荷で、より長いコードブ
ックをサーチすることができ、一層良好な音声品質の可
能性を与えることができる。
【0019】 本発明の一実施例では、前記比較は下式を用いてクロ
ス乗積の和を計算することにより実行される:
【数3】 ここで、Ekは総誤差項、 Nは1フレーム内のデジタル化されたサンプル
の数、 nはサンプル番号、 Xは前記コードブックと整合される信号、 gkはアンスケールド濾波コードブックシーケン
ス、 kは前記コードブックインデックス、 である。
【0020】 このことは、コードブックインデックスkを下式の最
大値に関してサーチするのと等価である:
【数4】
【0021】 上記計算は、このクロス乗積のm番目毎の項を評価
し、下式を最大化することにより(幾らかの音声品質を
犠牲にして)削減することができる:
【数5】 ここで、mは小さな値を有する整数である。
【0022】 本音声コーディング装置は、更に、前記濾波されたコ
ードブックから選択されたスケールドエントリを有する
ダイナミック適応コードブックと該ダイナミック適応コ
ードブックからのエントリとを用いて長期予測器を形成
する手段と、前記ダイナミック適応コードブックからの
エントリを知覚的に重み付けられた音声サンプルと比較
する手段と、前記ダイナミック適応コードブックのエン
トリと前記知覚的に重み付けられた音声サンプルとの間
の最小の差を与えるようなインデックスを決定する手段
と、この決定されたインデックスにより参照される前記
濾波されたコードブックのエントリを前記知覚的に重み
付けされた音声サンプルに対応する信号から減算する手
段と、前記減算から得られた差信号と前記濾波されたコ
ードブックからのエントリとを比較して最良の整合を与
える前記濾波されたコードブックインデックスを得る手
段とを有してもよい。
【0023】 又、最良の整合を与える前記濾波されたコードブック
エントリと対応するダイナミック適応コードブックエン
トリとを組み合わせて符号化された知覚的に重み付けさ
れた音声サンプルを形成する一方、上記符号化された知
覚的に重み付けされた音声サンプルを濾波して合成され
た音声を形成する手段を設けるようにしてもよい。
【0024】 又、上記ダイナミック適応コードブックは所定の容量
のファーストイン・ファーストアウト記憶装置を有し、
当該記憶装置に対する入力信号が前記符号化された知覚
的に重み付けされた音声サンプルを含むようにしてもよ
い。
【0025】 又、前記符号化された知覚的に重み付けされたサンプ
ルを濾波する手段は、前記知覚的に重み付けされた音声
サンプルを生成するために用いられる伝達関数と比較し
て逆の伝達関数を生成する手段を有していてもよい。
【0026】 又、本発明の第3の特徴によれば、一次元コードブッ
クを入力信号で特定される係数を持つフィルタを用いて
濾波することにより濾波されたコードブックを形成し、
前記入力信号におけるコードブックインデックスにより
特定される所定のシーケンスを上記の濾波されたコード
ブックから選択し、前記入力信号に含まれる利得信号に
応じて前記選択された所定のシーケンスの振幅を調整
し、前記入力信号に含まれるピッチ予測インデックス及
び利得信号に応じて前記選定された所定のシーケンスの
ピッチを復元し、前記ピッチが復元されたシーケンスを
重み付け解除及び逆合成フィルタに印加して音声信号を
生成するような音声を形成する方法が提供される。
【0027】
【実施例】
以下図面と共に本発明による実施例を説明する。
【0028】 図中、同じ参照番号は対応する部分を示すのに使用さ
れている。
【0029】 第3図を参照するに、音声源20は音声を量子化し、5m
s期間のフレームに区分化する段30に結合される。区分
化された音声s(n)は、伝達関数A(z)を有する分
析フィルタ24及びフィルタ係数aiを計算する線形予測コ
ーダ(LPC)32に供給される。フィルタ24からの残留信
号r(n)は、伝達関数1/A(z/γ)を有する知覚的に
重み付けされた合成フィルタ26にて処理される。知覚的
に重み付けされた残留信号SW(n)は(反転及び非反転
入力を有する加算段として実施される)減算段34の非反
転入力に印加される。加算段34の出力は別の減算段36の
非反転入力に供給される。
【0030】 白ガウス乱数シーケンスを含む一次元(1−D)コー
ドブック110は、コードブックエントリを濾波し、その
結果を一時的マスタコードブックを構成する1−D濾波
されたコードブック37に供給する知覚的に重み付けされ
たフィルタ28に接続される。上記コードブックシーケン
スは、利得Gを有する利得段12に供給される。利得段12
からのスケールドコード化シーケンスは、減算段36の反
転入力及び加算段38の入力に印加される。段38の出力は
ピッチ予測信号を含み、この信号はピッチ遅延段40に印
加され、また音声を復号化する段42に供給される。予め
選択された遅延Tを導入するピッチ遅延段40はファース
トイン・ファーストアウト(FIFO)記憶装置を有しても
よい。遅延されたピッチ予測信号は、利得bを有する利
得段44に印加される。スケールドピッチ予測信号は加算
段38の入力及び減算段34の反転入力に印加される。
【0031】 第1の平均二乗誤差段46は、減算段34の出力に接続さ
れ、ピッチ予測に関する分散を最小化するのに用いられ
る誤差信号EAを出力する。第2の平均二乗誤差段48は、
濾波されたコードブック37に関する分散を最小化するの
に用いられる知覚的誤差信号EBを生成すべく減算段36の
出力に接続される。
【0032】 図示の実施例では、発生原20からの音声は、40サンプ
ルのフレームに区分化され、各フレームは5msの期間を
有する。各フレームは分析及び重み付けフィルタ24、26
を通過される;これらフィルタ用の係数aiはデジタル化
された音声サンプルの線形予測分析により取り出され
る。典型的な応用例では、10個の予測係数が必要とさ
れ、これらは20ms毎(ブロックレート)に更新される。
上記重み付けフィルタは幾らかの主観的重み付けをコー
ディング処理に導入する。γ=0.65の値が良い結果を与
えることが判った。減算段34ではスケールド(長期)ピ
ッチ予測が、フィルタ26からの知覚的に重み付けされた
残留信号SW(n)から減算される。スケールドピッチ予
測が事前に処理された音声からの情報だけを用いる限
り、最適ピッチ遅延T及び利得b(段44)はMSE段46の
出力において誤差EAを最小化するよう計算され得る。
【0033】 1−Dコードブック110は1024個の要素からなり、そ
の全ては知覚的重み付けフィルタ28により20msブロック
毎に一度濾波され、その係数はフィルタ26の係数に対応
する。コードブックサーチは、濾波されたコードブック
37からの40個の隣り合う要素からなるベクトルを検査す
ることにより遂行される。サーチ中、ベクトルのスター
ト位置は各コードブックエントリに関し1又はそれ以上
ずつ増加され、利得G(段12)の値がMSE48の出力にお
いて最小誤差EBを与えるよう計算される。このようにし
て、コードブックインデックス及び最小知覚誤差用利得
Gが見出される。この情報は、例えば重み付け解除分析
フィルタ50、逆合成フィルタ52、出力変換器54及び必要
によりグローバルポストフィルタ56を備える段42を用い
て出力音声の合成に用いられる。フィルタ59及び52の係
数はLPC32から取り出される。実用的状況では、伝達さ
れる情報は、LPC係数、コードブックインデックス、コ
ードブック利得、ピッチ予測インデックス及びピッチ予
測利得を含む。通信リンクの端部では、濾波されていな
い1−Dコードブックのコピーを有する受信機が、受信
されたフィルタ係数から各音声ブロックにつき濾波され
たコードブックを再生成し、元の音声を合成し得る。
【0034】 LPC係数を表すのに必要なビットの数を減少させるた
め、これらの係数は、量子化歪みに対する感度を最小化
するログー面積比(LAR's)として量子化される。或い
は、これらの係数は、線スペクトル材(LSP)を用いる
か、又は逆正弦係数を用いて量子化される。本例では、
LAR'sとして量子化された10個のLPC係数のブロックは20
ms当たり40ビットとして表され得る。40ビットの構成
は、各々6ビットを用いて第1及び第2のLPC係数を、
各々5ビットを用いて第3及び第4のLPC係数を、各々4
0ビットを用いて第5及び第6のLPC係数を、各々3ビッ
トを用いて第7及び第8のLPC係数を及び各々2ビット
を用いて第9及び第10のLPC係数を量子化することによ
り作られる。従って、毎秒のビット数は2000である。付
加的に、5ms毎に一度更新されるフレームレートは、コ
ードブックインデックス−10ビット、対数的に量子化さ
れたコードブック利得−5ビット+1符号ビット、ピッ
チ予測器インデックス−7ビット及びピッチ予測利得−
4ビットを含む。これは、毎秒5400ビットに対応する27
ビットになる。従って、全ビットレート(2000+5400)
は毎秒7400ビットである。
【0035】 第1図及び第2図に示された二次元コードブックは、
下式で表される: C(i,j)=d(i,j) ここで、C(i,j)はi番目のコードブックエントリの
j番目の要素であり、dは乱数の二次元アレイである。
これに対し、第3図で用いられるコードブックは下式に
より表され得る。 C(i,j)=d(i+j) ここで、dは乱数の一次元アレイである。典型的には、
1<i<1024及び1<j<40である。
【0036】 CELPでの計算の大部分はコードブックサーチにあり、
これの相当量はコードブックを濾波することに含まれ
る。第3図に関して記述した如く、一次元コードブック
を用いることは、音声セグメントの長さに等しい因数分
だけ濾波するコードブックを減少させる。
【0037】 濾波されたコードブックシーケンスと減算段34の出力
上のピッチ無しの知覚的に重み付けされた残留分との比
較は下式を用いるクロス乗積の和を合計することで遂行
される:
【数6】 ここでEは総合誤差項、 Nは1フレーム中のデジタル化されたサンプルの数、 nはサンプル番号、 Xはコードブックと整合される信号、 gkはアンスケールド濾波コードブックシーケンス、 kはコードブックインデックスである。
【0038】 この式は、上記の1988年、EURASIPの872頁で与えられ
る式に基づいて導出される。
【0039】 完全を期すため、第4図は受信機を示す。受信機は第
3図の実施例に示される部分を含むので、対応する部分
には同じ番号にダッシュを付けて示す。受信機により受
信されたデータ(即ち、当該受信機の入力信号)は、端
子60に印加されるLPC係数と、端子62、64に各々印加さ
れるコードブックインデックス及び利得と、端子66、68
に各々印加されるピッチ予測器インデックス及び利得と
を含む。一次元コードブック110'は、知覚的に重み付け
された合成フィルタ28'にて濾波され、出力は濾波され
たコードブック37'を形成するのい用いられる。濾波さ
れたコードブック37'からの適当なシーケンスが上記コ
ードブックインデックス信号に応じて選択され、受信さ
れた信号(入力信号)で特定された利得を有する利得段
12'に印加される。利得調整されたシーケンスは、その
遅延がピッチ予測器インデックスにより調整されるピッ
チ予測器40'に印加され、その出力は利得がピッチ予測
器利得信号により特定される利得段40'に印加される。
復元されたピッチ予測を有するシーケンスは特性A(z/
γ)を有する重み付け解除分析フィルタ50'に印加され
る。フィルタ50'からの出力rdw(n)は特性1/A(z)
を有する逆合成フィルタ52'に印加される。フィルタ5
0'、52'用の係数は受信された信号(入力信号)中で特
定され、各ブロック(又は4つのフレーム)毎に更新さ
れる。フィルタ52'の出力は、出力変換器54'に直接、又
は幾らかの音声歪みを犠牲にして雑音抑圧を高めること
により音声品質を高めるグローバルポストフィルタ56'
を介して間接的に印加される。
【0040】 第3図に示す実施例は、計算の量を増加させることな
く、その構造を簡素化するよう、計算の程度を低減する
よう、又は音声品質を改善するよう変形することができ
る。
【0041】 例えば、分析及び重み付けフィルタは組み合わすこと
ができる。
【0042】 一次元コードブックの寸法は減少させることができ
る。
【0043】 知覚的誤差の推定は知覚的誤差信号のサブ−サンプル
形にて実行され得る。これは、長期予測器用に、またコ
ードブックサーチに必要とされる計算を削減させる。
【0044】 濾波されたコードブックの全サーチは隣り合うエント
リが相関されているので、必要はない。或いは、より長
いコードブックがサーチされると、より良い音声品質が
得られる。どちらの場合にも、P番目のエントリ毎にサ
ーチされる。ここでPは1より大きい。
【0045】 濾波計算は、2つの半長コードブックが用いられる場
合、減少され得る。一方が現フレームから重み付けフィ
ルタで濾波され、他方は先のフレームから得られ得る。
同様に、これらの半長コードブックの一つは以前に選択
されたコードブックエントリから取り出され得る。
【0046】 所望なら、固定重み付けフィルタがコードブックを濾
波するのに用いられてもよい。
【0047】 第3図に示す本発明の実施例では、知覚的に重み付け
された合成フィルタ26、28の伝達関数が同じであるとす
る。しかし、これらのフィルタ用に異なる伝達関数を有
させることにより、改善された音声品質を達成するのが
可能であることが判った。即ち、フィルタ25及び50用の
γの値は同じとするが、フィルタ28の値とは異ならせ
る。
【0048】 第3図の実施例の動作の説明で与えられた数値は、例
示のためであり、本発明の範囲を逸脱することなく他の
値を用いてもよい。
【0049】 本説明を読むことにより、他の変更は当業者には明ら
かである。かかる変更は、CELPシステム及びその部品の
設計、製造及び使用で既に知られており、又、ここで既
に述べた特徴に代わって又はそれに加えて用いられる他
の特性を含む。本出願のクレームは、特徴の特定の組み
合わせについて述べているが、本出願の記載の範囲は明
示的であれ、暗示的であれ、概念的であれ、またクレー
ムに記載されたのと同じ発明に係るか否か、本発明がす
るのと同じ技術的問題を軽減するか否かに拘わらず、新
規は特徴又はここに記載した特徴の新規な組み合わせを
含むと理解すべきである。本出願人はこれにより新しい
クレームが本出願又はそれから生じる別な出願の継続中
かかる特徴及び/又はかかる特徴の組み合わせで表され
得ることを注記する。
【図面の簡単な説明】
【図1】 図1は、既知のCELP装置のブロック系統図、
【図2】 図2も、既知のCELP装置のブロック系統図、
【図3】 図3は、本発明の一実施例のブロック系統図、
【図4】 図4は、受信機のブロック系統図である。
【符号の説明】
10……二次元コードブック、 12、44……利得段、 14、16、26、28……逆フィルタ、 18……加算段、 20……音声、 22……重み付けフィルタ、 24……分析フィルタ、 30、42……段、 32……線形予測コーダ、 34、36……減算段、 37、110……一次元コードブック、 38……加算段、 40……ピッチ遅延段、 46、48……平均二乗誤差段、 50、52……重み付け解除分析フィルタ、 54……変換器、 56……グローバルポストフィルタ、 60、62、64、66、68……端子。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ティモシー ジェイムズ ムルスリー イギリス国 サレー ケイタラム ホワ イトリーフ ロード 2番地 (72)発明者 パトリック ウィリアム エリオット イギリス国 サレー ナットフィールド ハイ ストリート ウェル ハウス フラット 7 (番地なし) 合議体 審判長 原 光明 審判官 小松 正 審判官 酒井 朋広 (56)参考文献 特開 昭59−94936(JP,A) 特開 昭61−121616(JP,A) 特開 昭64−13199(JP,A) 特開 昭64−13200(JP,A) 白木他:“CELP符号化の効率化検 討”,昭和63年電子情報通信学会春季全 国大会講演論文集(1988−03),A−26 (1−26p)

Claims (21)

    (57)【特許請求の範囲】
  1. 【請求項1】デジタル化された音声サンプルのベクトル
    を濾波して知覚的に重み付けされた音声サンプルを形成
    する手段と、 一次元コードブックと、 1つの前記一次元コードブックから読み出されたエント
    リを濾波して、該読み出された全エントリからなる濾波
    されたコードブックを形成する手段と、 前記濾波されたコードブックのこれらエントリと前記知
    覚的に重み付けされた音声サンプルの各ベクトルとを比
    較して、前記音声が再合成される際に最小の知覚的に重
    み付けされた誤差を与えるようなコードブックインデッ
    クスを得る手段と、 を有し、 前記一次元コードブックの長さが、前記音声サンプルの
    ベクトルの長さよりも大幅に長いことを特徴とする音声
    コーディング装置。
  2. 【請求項2】前記一次元コードブックエントリを濾波す
    る手段は、知覚的重み付けフィルタを有することを特徴
    とする請求項1に記載の音声コーディング装置。
  3. 【請求項3】前記デジタル化された音声サンプルを濾波
    する手段は短期予測器及び他の知覚的重み付けフィルタ
    を有し、当該装置には前記デジタル化された音声サンプ
    ルの線形予測分析により前記短期予測器用及び前記他の
    知覚的重み付けフィルタ用の係数を導出する手段が設け
    られていることを特徴とする請求項1又は2に記載の音
    声コーディング装置。
  4. 【請求項4】前記知覚的重み付けフィルタ及び前記他の
    知覚的重み付けフィルタの伝達関数が異なることを特徴
    とする請求項2に従属する請求項3に記載の音声コーデ
    ィング装置。
  5. 【請求項5】前記濾波されたコードブックエントリと知
    覚的に重み付けされた音声サンプルとを比較する手段は
    p番目毎のエントリをサーチするように構成され、ここ
    で前記pは1より大きいことを特徴とする請求項4に記
    載の音声コーディング装置。
  6. 【請求項6】前記比較手段は、 【数1】 なる式を用いてクロス乗積の合計を計算することにより
    前記比較を実行するように構成され、ここで、 Nは1ベクトル内のデジタル化されたサンプルの数、 nはサンプル番号、 xは前記コードブックと整合される信号、 mは小さな値を有する整数、 gkはアンスケールド濾波コードブックシーケンス、 kは前記コードブックインデックス、 であるような請求項1ないし請求項5の何れか一項に記
    載の音声コーディング装置。
  7. 【請求項7】前記濾波されたコードブックから選択され
    たスケールドエントリからダイナミック適応コードブッ
    クを形成する手段と、前記ダイナミック適応コードブッ
    クからのエントリを知覚的に重み付けられた音声サンプ
    ルと比較する手段と、前記ダイナミック適応コードブッ
    クエントリと前記知覚的に重み付けられた音声サンプル
    との間の最小の差を与えるインデックスを決定する手段
    と、この決定されたインデックスにより参照される前記
    濾波されたコードブックのエントリを前記知覚的に重み
    付けされた音声サンプルに対応する信号から減算する手
    段と、前記減算から得られた差信号と前記濾波されたコ
    ードブックからのエントリとを比較して最良の整合を与
    える前記濾波されたコードブックインデックスを得る手
    段とを設けたことを特徴とする請求項1ないし6の何れ
    か一項に記載の音声コーディング装置。
  8. 【請求項8】最良の整合を与える前記濾波されたコード
    ブックエントリと対応するダイナミック適応コードブッ
    クエントリとを組み合わせて符号化された知覚的に重み
    付けされた音声サンプルを形成する手段と、上記符号化
    された知覚的に重み付けされた音声サンプルを濾波して
    合成された音声を形成する濾波手段とを設けることを特
    徴とする請求項7に記載の音声コーディング装置。
  9. 【請求項9】前記ダイナミック適応コードブックは所定
    の容量のファーストイン・ファーストアウト記憶装置を
    有し、当該記憶装置に対する入力信号が前記符号化され
    た知覚的に重み付けされた音声サンプルを含んでいるこ
    とを特徴とする請求項8に記載の音声コーディング装
    置。
  10. 【請求項10】前記符号化された知覚的に重み付けされ
    たサンプルを濾波する濾波手段は、前記知覚的に重み付
    けされた音声サンプルを生成するために用いられた伝達
    関数と比較して逆の伝達関数を生成する手段を有してい
    ることを特徴とする請求項8又は9に記載の音声コーデ
    ィング装置。
  11. 【請求項11】デジタル化された音声サンプルのベクト
    ルを濾波して知覚的に重み付けされた音声サンプルを形
    成する手段と、 一次元コードブックと、 1つの前記一次元コードブックから読み出された各エン
    トリを濾波する手段と、 前記濾波された前記一次元コードブックのこれらエント
    リと前記知覚的に重み付けされた音声サンプルの各ベク
    トルとを比較して、前記音声が再合成される際に最小の
    知覚的に重み付けされた誤差を与えるようなコードブッ
    クインデックスを得る手段と、 前記コードブックインデックスに基づいて、ピッチ成分
    を含むような合成された音声サンプルを得る手段と、 前記合成された音声サンプルに関係する信号と、前記知
    覚的に重み付けされた音声サンプルに関係する信号とを
    比較して最小誤差応答を与えるようなピッチ予測パラメ
    ータを得る手段と、 を有し、 前記一次元コードブックの長さが、前記音声サンプルの
    ベクトルの長さよりも大幅に長いことを特徴とする音声
    コーディング装置。
  12. 【請求項12】デジタル化された音声サンプルのベクト
    ルを濾波して、知覚的に重み付けされた音声サンプルを
    形成し、 1つの一次元コードブックからエントリを選択すると共
    に濾波して、濾波されたコードブックを形成し、 前記知覚的に重み付けされた音声サンプルの各ベクトル
    と前記濾波されたコードブックからの各エントリとを比
    較して、前記音声が再合成される際に最小の知覚的に重
    み付けされた誤差を与えるようなコードブックインデッ
    クスを得る、ような各ステップを有し、前記一次元コー
    ドブックの長さが、前記音声サンプルのベクトルの長さ
    よりも大幅に長いことを特徴とする音声エンコーディン
    グ方法。
  13. 【請求項13】前記一次元コードブックエントリが知覚
    的重み付けフィルタを用いて濾波されることを特徴とす
    る請求項12に記載の音声エンコーディング方法。
  14. 【請求項14】前記デジタル化された音声サンプルが短
    期予測器と他の知覚的重み付けフィルタとを用いて濾波
    され、前記短期予測器用及び前記他の知覚的重み付けフ
    ィルタ用の係数が前記デジタル化された音声サンプルの
    線形予測分析により導出されることを特徴とする請求項
    12又は13に記載の音声エンコーディング方法。
  15. 【請求項15】前記知覚的重み付けフィルタ及び前記他
    の知覚的重み付けフィルタの係数が異なることを特徴と
    する請求項14に記載の音声エンコーディング方法。
  16. 【請求項16】p番目毎の濾波されたコードブックエン
    トリがサーチされ、ここで前記pは1より大きいことを
    特徴とする請求項15に記載の音声エンコーディング方
    法。
  17. 【請求項17】前記知覚的に重み付けられた音声サンプ
    ルはベクトルと前記濾波されたコードブックからのエン
    トリとの前記比較は、 【数2】 なる式を用いてクロス乗積の合計を計算することにより
    なされ、ここで、 Nは1ベクトル内のデジタル化されたサンプルの数、 nはサンプル番号、 xは前記コードブックと整合される信号、 gkはアンスケールド濾波コードブックシーケンス、 kは前記コードブックインデックス、 mは小さな値を有する整数、 であるような請求項12ないし請求項16の何れか一項に記
    載の音声エンコーディング方法。
  18. 【請求項18】前記濾波されたコードブックから選択さ
    れたスケールドエントリからダイナミック適応コードブ
    ックを形成し、前記ダイナミック適応コードブックから
    のエントリを前記知覚的に重み付けられた音声サンプル
    と比較し、前記ダイナミック適応コードブックエントリ
    と前記知覚的に重み付けられた音声サンプルとの間の最
    小の差を与えるインデックスを決定し、この決定された
    インデックスにより参照される前記濾波されたコードブ
    ックのエントリを前記知覚的に重み付けされた音声サン
    プルに対応する信号から減算し、前記減算から得られた
    差信号と前記濾波されたコードブックからのエントリと
    を比較して最良の整合を与える前記濾波されたコードブ
    ックインデックスを得ることを特徴とする請求項12ない
    し17の何れか一項に記載の音声エンコーディング方法。
  19. 【請求項19】最良の整合を与える前記濾波されたコー
    ドブックエントリを対応するダイナミック適応コードブ
    ックエントリと組み合わせて符号化された知覚的に重み
    付けされた音声サンプルを形成し、上記符号化された知
    覚的に重み付けされた音声サンプルを濾波して合成され
    た音声を形成することを特徴とする請求項18に記載の音
    声エンコーディング方法。
  20. 【請求項20】前記符号化された知覚的に重み付けされ
    たサンプルは、前記知覚的に重み付けされた音声サンプ
    ルを生成するためのものとは逆の伝達関数を用いて濾波
    されることを特徴とする請求項19に記載の音声エンコー
    ディング方法。
  21. 【請求項21】1つの一次元コードブックを入力信号で
    特定される係数を持つフィルタを用いて濾波することに
    より濾波されたコードブックを形成し、 前記入力信号におけるコードブックインデックスにより
    特定される所定のシーケンスを前記濾波されたコードブ
    ックから選択し、 前記入力信号に含まれる利得信号に応じて前記選択され
    た所定のシーケンスの振幅を調整し、 前記入力信号に含まれるピッチ予測インデックス及び利
    得信号に応じて前記選択された所定のシーケンスのピッ
    チを復元し、 前記ピッチが復元されたシーケンスを重み付け解除及び
    逆合成フィルタに印加して音声信号を生成する、 過程を有していることを特徴とする音声を形成する方
    法。
JP21490090A 1989-08-16 1990-08-13 音声コーディング装置及び音声エンコーディング方法 Expired - Lifetime JP3392412B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8918677.9 1989-08-16
GB8918677A GB2235354A (en) 1989-08-16 1989-08-16 Speech coding/encoding using celp

Publications (2)

Publication Number Publication Date
JPH0395600A JPH0395600A (ja) 1991-04-19
JP3392412B2 true JP3392412B2 (ja) 2003-03-31

Family

ID=10661702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21490090A Expired - Lifetime JP3392412B2 (ja) 1989-08-16 1990-08-13 音声コーディング装置及び音声エンコーディング方法

Country Status (11)

Country Link
US (1) US5140638B1 (ja)
EP (1) EP0413391B1 (ja)
JP (1) JP3392412B2 (ja)
KR (1) KR100275054B1 (ja)
AU (1) AU648479B2 (ja)
BR (1) BR9003987A (ja)
CA (1) CA2023167C (ja)
DE (1) DE69029232T2 (ja)
FI (1) FI903990A0 (ja)
GB (1) GB2235354A (ja)
HU (1) HUT58157A (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5451951A (en) * 1990-09-28 1995-09-19 U.S. Philips Corporation Method of, and system for, coding analogue signals
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
US5694519A (en) * 1992-02-18 1997-12-02 Lucent Technologies, Inc. Tunable post-filter for tandem coders
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
JP3224955B2 (ja) * 1994-05-27 2001-11-05 株式会社東芝 ベクトル量子化装置およびベクトル量子化方法
TW271524B (ja) 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6263307B1 (en) 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
WO1997030524A1 (en) * 1996-02-15 1997-08-21 Philips Electronics N.V. Reduced complexity signal transmission system
TW317051B (ja) * 1996-02-15 1997-10-01 Philips Electronics Nv
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
KR100341398B1 (ko) * 2000-01-27 2002-06-22 오길록 씨이엘피형 보코더의 코드북 검색 방법
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
JP2010034794A (ja) * 2008-07-28 2010-02-12 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化方法
DE602008000303D1 (de) * 2008-09-03 2009-12-31 Svox Ag Sprachsynthese mit dynamischen Einschränkungen
EP2737479B1 (en) * 2011-07-29 2017-01-18 Dts Llc Adaptive voice intelligibility enhancement

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3335358A1 (de) * 1983-09-29 1985-04-11 Siemens AG, 1000 Berlin und 8000 München Verfahren zur bestimmung von sprachspektren fuer die automatische spracherkennung und sprachcodierung
DE3779351D1 (ja) * 1986-03-28 1992-07-02 American Telephone And Telegraph Co., New York, N.Y., Us
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
GB8630820D0 (en) * 1986-12-23 1987-02-04 British Telecomm Stochastic coder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白木他:"CELP符号化の効率化検討",昭和63年電子情報通信学会春季全国大会講演論文集(1988−03),A−26(1−26p)

Also Published As

Publication number Publication date
CA2023167A1 (en) 1991-02-17
FI903990A0 (fi) 1990-08-13
HUT58157A (en) 1992-01-28
US5140638A (en) 1992-08-18
CA2023167C (en) 2002-01-29
JPH0395600A (ja) 1991-04-19
GB2235354A (en) 1991-02-27
KR100275054B1 (ko) 2000-12-15
AU6100090A (en) 1991-02-21
BR9003987A (pt) 1991-09-03
EP0413391A3 (en) 1991-07-24
EP0413391B1 (en) 1996-11-27
KR910005589A (ko) 1991-03-30
AU648479B2 (en) 1994-04-21
GB8918677D0 (en) 1989-09-27
DE69029232T2 (de) 1997-04-30
EP0413391A2 (en) 1991-02-20
HU904991D0 (en) 1991-01-28
US5140638B1 (en) 1999-07-20
DE69029232D1 (de) 1997-01-09

Similar Documents

Publication Publication Date Title
JP3392412B2 (ja) 音声コーディング装置及び音声エンコーディング方法
EP0409239B1 (en) Speech coding/decoding method
EP0957472B1 (en) Speech coding apparatus and speech decoding apparatus
JP3094908B2 (ja) 音声符号化装置
JPH08179796A (ja) 音声符号化方法
JPH0990995A (ja) 音声符号化装置
EP1005022B1 (en) Speech encoding method and speech encoding system
EP1096476A2 (en) Speech decoding gain control for noisy signals
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
US7680669B2 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP3266178B2 (ja) 音声符号化装置
CA2090205C (en) Speech coding system
JPH09319398A (ja) 信号符号化装置
JP3153075B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3249144B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3471542B2 (ja) 音声符号化装置
Nagarajan et al. Efficient implementation of linear predictive coding algorithms
JP3092654B2 (ja) 信号符号化装置
JPH08320700A (ja) 音声符号化装置
JP3212123B2 (ja) 音声符号化装置
JPH0667696A (ja) 音声符号化方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080124

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100124

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110124

Year of fee payment: 8

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110124

Year of fee payment: 8