JP4213243B2 - 音声符号化方法及び該方法を実施する装置 - Google Patents

音声符号化方法及び該方法を実施する装置 Download PDF

Info

Publication number
JP4213243B2
JP4213243B2 JP34346297A JP34346297A JP4213243B2 JP 4213243 B2 JP4213243 B2 JP 4213243B2 JP 34346297 A JP34346297 A JP 34346297A JP 34346297 A JP34346297 A JP 34346297A JP 4213243 B2 JP4213243 B2 JP 4213243B2
Authority
JP
Japan
Prior art keywords
analysis
speech
ltp
product
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34346297A
Other languages
English (en)
Other versions
JPH10187197A (ja
Inventor
オジャラ パジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JPH10187197A publication Critical patent/JPH10187197A/ja
Application granted granted Critical
Publication of JP4213243B2 publication Critical patent/JP4213243B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、特に、音声符号化のために使用されるビットの数が後に続く音声フレーム間で変化し得るようになっている、可変ビットレートで動作するデジタル音声符復号器に関する。音声合成に使用されるパラメータとそれらの表示精度とは、その時の動作状態に応じて選択される。本発明は、また、音声フレームをモデル化するために利用される種々の励起パラメータの長さ(ビット数)が標準の長さの複数の音声フレームの範囲内で相互の関係で調整されるような、固定ビットレートで動作する音声符復号器に関する。
【0002】
【従来の技術、および、発明が解決しようとする課題】
現代の情報社会では音声等のデジタル形のデータがますます大量に転送されるようになっている。その情報の大きな割合を占める部分が、例えばいろいろな移動通信システムなどの無線通信接続を利用して転送されている。数の限られている無線周波数をなるべく効率よく利用するためにデータ転送の効率に高度の要求が設定されるのは特にここである。これに加えて、新しいサービスと関連して、より大きなデータ転送容量とより良好な音声の質とが同時に求められている。これらの目標を達成するために、提供されるサービスの標準を落とすことなくデータ転送接続の平均ビット数を少なくすることを目的としていろいろな符号化アルゴリズムが開発され続けている。一般に、2つの基本的原則に従って、即ち、固定伝送速度符号化アルゴリズムをより効率よいものにしようと試みることによって、或いは、可変伝送速度を利用する符号化アルゴリズムを開発することによって、上記の目的を達成しようとする努力がなされている。
【0003】
可変ビットレートで動作する音声符復号器の相対的な効率は、音声は変化し得る性質のものである、即ち音声信号は異なる時点で異なる量の情報を含むものであるという事実に基づいている。もし音声信号を標準の長さ(例えば20ms)の音声フレームに分割して、その各々を別々に符号化するならば、各音声フレームをモデル化するために使うビット数を調整することができる。この様にして、少量の情報を含んでいる音声フレームを、大量の情報を含んでいる音声フレームの場合より少ないビット数を使ってモデル化することができる。この場合、固定伝送速度を利用する符復号器の場合より平均ビットレートを低く保ち、且つ同じ音声の質を維持することが可能である。
【0004】
可変ビットレートに基づく符号化アルゴリズムをいろいろに利用することができる。例えばインターネットやATM(Asynchronous Transfer Mode(非同期転送モード))通信網などのパケット通信網は可変ビットレート音声符復号器に良く適している。この種の通信網は、データ転送接続において転送されるべきデータパケットの長さ及び/又は送信周波数を調整することによって、音声符復号器がその時必要とするデータ転送容量を提供する。可変ビットレートを使用する音声符復号器は、例えば電話応答機及び音声メールサービス(speech mail services)などの音声のデジタル記録にも良く適している。
【0005】
可変ビットレートで動作する音声符復号器のビットレートは、多くの方法で調整することが可能である。一般に知られている可変ビットレート音声符復号器では、送信装置のビットレートは、送信されるべき信号の符号化以前に既に決められている。これは例えば当業者に従来から知られているCDMA(符号分割多重接続)移動通信システムで使用されるQCELP型の音声符復号器と関連する処理手順であり、このシステムでは或る所定のビットレートを音声符号化のために利用することができる。しかし、それらの解決策では限られた数の異なるビットレートを有するに過ぎず、それは通常は音声信号用の2種類の、例えば全速(1/1)及び半速(1/2)の速度と、それとは別の暗騒音用の低ビットレート(例えば、1/8速度)とである。国際公開WO9605592A1は、入力信号をいろいろな周波数帯域に分割し、各周波数帯域のエネルギー含有量に基づいてその周波数帯域について必要な符号化ビットレートを評価する方法を開示している。使用されるべき符号化速度(ビットレート)についての最終決定は、それらの周波数帯域固有のビットレート決定に基づいて行われる。もう一つの方法は、使用可能なデータ転送容量の関数としてビットレートを調整することである。これは、使用されるべき現在のビットレートが、使用可能なデータ転送容量の大きさに基づいて選択されるということを意味する。この様な処理手順では、通信網の負荷が重いとき(音声符号化に使用し得るビット数が限られているとき)音声の質が低下する結果となる。一方、この処理手順は、音声符号化が「容易な」時にはデータ転送接続に不必要に負担をかける。
【0006】
可変ビットレート音声符復号器において音声符号器のビットレートを調整するために使用される、当業者に従来から知られている他の方法は、音声アクティビティの検出(VAD、Voice Activity Detection)である。音声アクティビティの検出を、例えば固定伝送速度符復号器と関連させて使用することができる。この場合、話者が沈黙していることを音声アクティビティ検出器が検出しているときには音声符号器を完全にオフに切り換えておくことができる。その結果として、可変伝送速度で動作する実現可能な最も簡単な音声符復号器が得られる。
【0007】
今日、例えば移動通信システムにおいて非常に広く使用されている、固定ビットレートで動作する音声符復号器は、音声信号の内容には依存せずに同じビットレートで動作する。それらの音声符復号器では、一方では、データ転送容量を余り多量に使いすぎることはないが、他方では、符号化するのが困難な音声信号に対しても充分な音質を提供する様な折衷的なビットレートを選択せざるを得ない。この処理手順で音声符号化に使用されるビットレートは、いわゆる容易な音声フレーム(easy speech frames)のためには常に不必要に大きく、より低いビットレートの音声符復号器でもそのモデル化は首尾よく実行され得たであろう。換言すれば、データ転送チャネルは効率よく使用されていない。容易な音声フレームの中には、例えば、音声アクティビティ検出器(VAD)を用いて検出された無音の瞬間、強く有声化された音(正弦波信号に似ていて、これを振幅及び周波数に基づいてよくモデル化することができる)、及び、雑音に似ている幾つかの音素がある。聴覚の特徴の故に、元の信号と符号化された(たとえ良好にではなくても)信号との小さな差を耳は聞き分けられないので、雑音を同じく精密にモデル化する必要はない。むしろ、有声化された部分が容易に雑音を隠す。有声化されている部分は、信号の小さな差でも耳が聞き分けるので、精密に符号化されなければならない(精密なパラメータ(多数のビット)を使用しなければならない)。
【0008】
図1は、コード励起線形予測器(CELP、Code Excited Liniar Predictor )を利用する典型的な音声符号器を示す。それは、音声生成をモデル化するために使用される数個のフィルタを有する。多数の励起ベクトルを内蔵する励起コードブックから、これらのフィルタのために適当な励起信号が選択される。CELP音声符号器は通常は短時間フィルタ及び長時間フィルタの両方を有し、これらを用いて、元の音声信号になるべく似ている信号を合成しようとする試みがなされる。最良の励起ベクトルを発見するために、通常、励起コードブックに記憶されている全ての励起ベクトルがチェックされる。励起ベクトル探索中、適当な励起ベクトルが各々、合成フィルタに送られるが、これらのフィルタは通常は短時間フィルタ及び長時間フィルタの両方を含む。合成された音声信号は元の音声信号と比較され、元の信号に最も良く一致する信号を生じさせる励起ベクトルが選択される。選択基準においては、種々のエラーを発見する人間の聴力が一般に利用され、各音声フレームについて最小のエラー信号を生じさせる励起ベクトルが選択される。典型的なCELP音声符号器で使用される励起ベクトルは実験的に決定されている。ACELP型(Algebraic Code Excited Linear Predictor (代数コード励起線形予測器))の音声符号器が使用されるときには、励起ベクトルはゼロとは異なる一定数のパルスから成り、それらのパルスは数学的に計算される。この場合、現実の励起コードブックは不要である。最良の励起は、上記のCELP符号器の場合と同じエラー基準を用いて最適のパルス位置を選択することによって得られる。
【0009】
従来から当業者に知られているCELP型及びACELP型の音声符号器は固定レート励起計算を使用する。励起ベクトルあたりのパルスの最大数は、1つの音声フレーム内での異なるパルス位置の数と同様に、固定されている。依然として、各パルスが固定された精度で量子化されるときには、各励起ベクトルあたりに生成されるべきビット数は、入ってくる音声信号とは無関係に一定である。CELP型の符復号器は、励起信号を量子化するために多数のビットを使用する。高品質の音声が生成されるときには、充分な数の異なる励起ベクトルにアクセスできるように比較的に大きな励起信号コードブックが必要である。ACELP型の符復号器にも同様の問題がある。使用されるパルスの位置、振幅、及び、接頭部(prefix)の量子化は多数のビットを消費する。固定レートACELP音声符号器は、元のソース信号に関わりなく各音声フレーム(又はサブフレーム)について一定の数のパルスを計算する。この様に、データ転送ラインの容量を消費して総合効率を不必要に低下させる。
本発明は、質が一様で平均ビットレートの小さい可変ビットレートのデジタル音声符号化方法および装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
音声信号は通常は部分的に有声であり(音声信号は或る基本周波数を有する)、また部分的にトーンレスである(toneless、雑音によく似ている)ので、音声符号器は、複数のパルスから成る励起信号及びその他のパラメータを、符号化されるべき音声信号の関数として、更に修正することができる。この様に、例えば有声音声セグメント及びトーンレス音声セグメントに最も適する励起ベクトルを「正しい」精度(ビット数)で決定することが望ましいであろう。また、入力音声信号の分析結果の関数としてコードベクトル中の励起パルスの数を変化させることも可能であろう。励起ベクトル及びその他の音声パラメータ・ビットを表現するために使用されるビットレートを、受信された信号と符号化の性能とに基づいて、励起信号の計算の前に信頼が置けるように選択することを通して、受信装置で復号された音声の質を励起ビットレートの変動に関わらず一定に保つことができる。
【0011】
ここでは、音声符復号器において音声合成に使用されるべき符号化パラメータを選択する方法が、その方法を利用する装置とともに発明されており、その方法を利用することにより、固定ビットレート音声符号化アルゴリズム及び可変ビットレート音声符号化アルゴリズムの長所同士を結合させて、音質が良くて効率の高い音声符号化システムを実現することができる。本発明は、通信網(電話回線網、及び、インターネットやATM通信網などのパケット交換網)に接続される移動局や電話などの種々の通信装置に使用するのに適している。例えば、移動通信網の基地局及び基地局コントローラと関連するもののように、通信網の種々の構成要素に本発明の音声符復号器を使用することも可能である。本発明の特徴は請求項1、6、7、8及び9の特徴部分に記載されている。
【0012】
本発明の可変ビットレート音声符復号器はソース制御され(この音声符復号器は入力音声信号の分析結果に基づいて制御される)、該音声符復号器は各音声フレームについて個別に正しいビット数を選択することによって一定の音質を維持することができる(符号化されるべき音声フレームの長さは例えば20msであることができる)。従って、各音声フレームを符号化するために使用されるビットの数は、その音声フレームに含まれている音声情報に依存する。本発明のソース制御の音声符号化方法の利点は、音声符号化に使用される平均ビットレートが、同じ音質に達する固定レート音声符号器のそれより低いことである。或いは、同じ平均ビットレートを使用して固定ビットレート音声符復号器よりも良好な音質を得るために本発明の音声符号化方法を使用することも可能である。本発明は、音声合成の時に音声パラメータを表現するために使用されるビットの量を正しく選択するという課題を解決する。例えば、有声信号の場合、大きな励起コードブックが使用され、励起ベクトルはより精密に量子化され、音声信号の規則正しさを表す基本周波数、及び/又は、その強さを表す振幅はより精密に決定される。これは各音声フレームについて個別に実行される。種々の音声パラメータのために使用されるビットの量を決定するために、本発明の音声符復号器は、音声信号(ソース信号)の短時間周期性及び長時間周期性の両方をモデル化するフィルタを使用して該音声符復号器が実行する分析の結果を利用する。決定的な要素は、特に、音声フレームについての有声/トーンレスの判定、音声信号のエンベロープのエネルギーレベル及び種々の周波数領域へのその分布、並びに、検出された基本周波数のエネルギー及び周期性である。
【0013】
本発明の目的は、可変伝送速度で動作して一定の音質を提供する音声符復号器を実現することである。一方、固定伝送速度で動作する音声符復号器にも本発明を使用することができ、その場合、種々の音声パラメータを表現するために使用されるビットの数は標準長のデータフレームの中で調整される(固定ビットレート符復号器及び可変ビットレート符復号器のいずれにおいても、例えば20msの音声フレームが標準である)。この実施例では励起信号(励起ベクトル)を表現するために使用されるビットレートは本発明に従って変更されるけれども、対応して、他の音声パラメータを表現するために使用されるビットの数は、1つの音声フレームをモデル化するために使用されるビットの総数が全ての音声フレームについて一定に保たれることとなるように調整される。この様に、例えば長時間にわたって発生する規則性をモデル化するために多数のビットが使用されるときには(例えば、基本周波数は精密に符号化/量子化される)、短時間変化を表すLPC(Linear Predicting Coding(線形予測符号化))パラメータを表現するために残されるビット数は少なくなる。種々の音声パラメータを表現するために使用されるビットの量を最適に選択することによって固定ビットレート符復号器が得られ、その符復号器はソース信号に最も適するように常に最適化される。この様にして従来より良好な音質が得られる。
【0014】
本発明の音声符復号器では、各フレームの基本周波数特性を表現するために使われるビットの数(基本周波数表現精度)を、いわゆる開ループ法を用いて得られたパラメータに基づいて予備的に決定することが可能である。必要に応じて、いわゆる閉ループ分析を用いることにより分析の精度を改善することができる。その分析の結果は、入力音声信号と、分析に使用されるフィルタの性能とに依存する。符号化された音声の質を基準として用いてビットの量を決定することによって、音声をモデル化するために使用されるその音声符復号器のビットレートは変動するが音声信号の質は一定に保たれるような音声符復号器が実現される。
【0015】
1つの励起信号をモデル化するビットの数は、入力音声信号を符号化するために使用される他の音声符号化パラメータの計算に依存せず、且つ、それらを転送するために使用されるビットレートにも依存しない。従って、本発明の可変ビットレート音声符復号器では、1つの励起信号を作るために使用されるビットの数の選択は他の音声符号化に使用される音声パラメータのビットレートとは無関係である。付帯的情報ビットを使用して、使用される符号化モードに関する情報を符号器から復号器に転送することが可能であるけれども、復号器の符号化モード選択アルゴリズムが、符号化に使用された符号化モードを、受け取ったビット列から直接識別するように復号器を実現することもできる。
【0016】
【発明の実施の形態】
図1は従来公知の固定ビットレートCELP符号器の構成を示すブロック図であり、それは本発明の音声符号器の基礎をなすものである。次に、従来公知の固定レートCELP符復号器の構成を、本発明と関連する部分について説明する。CELP型の音声符復号器は、短時間LPC(Linear Predictive Coding(線形予測符号化))分析ブロック10を有する。LPC分析ブロック10は多数の線形予測パラメータ a(i) を生成するものであり、i = 1, 2, ..., mであり、m は入力音声信号 s(n) に基づく分析に使用されるLPC合成フィルタ12のモデル次数である。パラメータ a(i) の集合は音声信号 s(n) の周波数内容を表し、それは通常は各音声フレームについてNサンプルを用いて計算される(例えば、使用するサンプリング周波数が8kHzであれば、20msの音声フレームが160サンプルで表現される)。LPC分析10を、もっと頻繁に、例えば20ms音声フレームあたりに2回ずつ、実行することもできる。例えばGSMシステムから従来公知となっているEFR(Enhanced Full Rate(強化全速))型音声符復号器(ETSI GSM 06.60)ではこの様に処理が行われる。当業者に従来から知られている、例えば、レビンソン・ダービン・アルゴリズム(Levinson-Durbin algorithm )を用いてパラメータ a(i) を決定することができる。パラメータ a(i) の集合は、下記の式で表される伝達関数を用いて合成音声信号 ss(n)を形成するために短時間LPC合成フィルタ12で使用される:
【数1】
Figure 0004213243
ここで H=伝達関数、
A=LPC多項式、
z=単位遅延、
m=LPC合成フィルタ12の性能(performance )である。
【0017】
一般に、LPC分析ブロック10では、音声中に存在する長時間冗長性を示すLPC残留信号r(LPC残留)も形成され、この残留信号はLTP(Long-term Prediction(長時間予測))分析11で利用される。LPC残留信号rは、上記のLPCパラメータ a(i) を用いて次のように決定される:
【数2】
Figure 0004213243
ここで n=信号時間、
a=LPCパラメータ
である。
【0018】
LPC残留信号rは更に長時間LTP分析ブロック11に送られる。LTP分析ブロック11の役割は、音声符復号器に特有のLTPパラメータ、即ちLTP利得(ピッチ利得)及びLTP遅れ(ピッチ遅れ)を決定することである。音声符復号器は更にLTP(Long-term Prediction(長時間予測))合成フィルタ13を有する。LTP合成フィルタ13は、音声の周期性(特に、主として有声音素と関連して発生する、音声の基本周波数)を表す信号を生成するために使用される。短時間LPC合成フィルタ12は、(例えばトーンレスな音素と関連する)周波数スペクトルの急速な変動のためにも使用される。LTP合成フィルタ13の伝達関数は通常は下記の形を有する:
【数3】
Figure 0004213243
ここで B=LTP多項式、
g=LTPピッチ利得、
T=LTPピッチ遅れ
である。
【0019】
LTPパラメータは音声符復号器において典型的にはサブフレーム(5ms)単位で決定される。この様にして、分析および合成フィルタ10、11、12、13の両方が音声信号 s(n) をモデル化するために使用される。短時間LPC分析−合成フィルタ12は、人の声道をモデル化するために使用され、長時間LTP分析−合成フィルタ13は声帯の振動をモデル化するために使用される。分析フィルタはモデル化を行い、合成フィルタはそのモデルを利用して信号を生成する。
【0020】
重み付けフィルタ14の機能は人間の聴覚の特性に基づいており、このフィルタはエラー信号 e(n) を濾波するために使用される。エラー信号 e(n) は、元の音声信号 s(n) と総和ユニット18で形成された合成音声信号 ss(n)との差信号である。重み付けフィルタ14は、その周波数では音声合成で付加されたエラーが音声の理解し易さを余り低下させない周波数を減衰させ、音声の理解し易さに大きな重要性を有する周波数を増幅する。各音声フレームについての励起は励起コードブック16で形成される。もし全ての励起ベクトルをチェックするような探索機能がCELP符号器で使用されるならば、最適の励起ベクトル c(n) を発見するために全てのスケーリングされた(scaled)励起ベクトル g・c(m)が長時間合成フィルタ12及び短時間合成フィルタ13の両方で処理される。励起ベクトル探索コントローラ15は、重み付けフィルタ14の重みを付けられた出力に基づいて、励起コードブック16に内蔵されている励起ベクトル c(n) のインデックス uを探索する。反復プロセス中に、最適の励起ベクトル c(n) (元の音声信号に最も良く一致する音声合成を生じさせる励起ベクトル)のインデックス u、即ち最小の重み付きエラーを生じさせる励起ベクトル c(n) のインデックス uが選択される。
【0021】
スケーリング係数 gは励起ベクトル c(n) 探索コントローラ15から得られる。それは、乗算ユニット17で使用され、励起コードブック16から選択された励起ベクトル c(n) に乗じられて出力される。乗算ユニット17の出力は長時間LTP合成フィルタ13の入力に接続されている。受信端で音声を合成するために、線形予測により生成されたLPCパラメータ a(i) 、LTPパラメータ、励起ベクトル c(n) のインデックス u、及び、スケーリング係数 gはチャネル符号器(図示せず)に送られ、更にデータ転送チャネルを通して受信装置に送られる。受信装置は音声復号器を有し、この復号器は、受信したパラメータに基づいて、元の音声信号 s(n) を模する音声信号を合成する。LPCパラメータ a(i) を表現する際には、これらのパラメータの量子化特性を改善するためにこれらのLPCパラメータを、例えば、LSP表現の形式(線スペクトル対)またはISP表現の形式(イミタンス・スペクトル対)に変換することも可能である。
【0022】
図2は、従来公知のCELP型の固定レート音声復号器の構造を示す。この音声復号器は、通信接続から(より正確には例えばチャネル復号器から)、線形予測により作られた、LPCパラメータ a(i) 、LTPパラメータ、励起ベクトル c(n) のインデックス u、及び、スケーリング係数 gを受け取る。この音声復号器は、図1に示されている音声符号器の励起コードブック(参照符号16)に対応する励起コードブック20を有する。励起コードブック20は、受信した励起ベクトルのインデックス uに基づいて音声合成のための励起ベクトル c(n) を生成するために使用される。乗算ユニット21により、生成された励起ベクトル c(n) に、受信されたスケーリング係数 gが乗じられ、その後に、得られた結果が長時間LTP合成フィルタ22に送られる。長時間合成フィルタ22は、データ転送バスを通して該フィルタが音声符号器から受信したLTPパラメータにより決定される方法で、受信した励起信号 c(n) ・g を変換し、修正された信号23を更にLPC合成フィルタ24に送る。線形予測によって作られたLPCパラメータ a(i) によって制御されて、短時間LPC合成フィルタ24は音声中に発生した短時間変化を再現してそれを信号23の中に実現させ、復号された(合成された)音声信号 ss(n)がLPC合成フィルタ24の出力から得られる。
【0023】
図3は本発明の可変ビットレート音声符号器の実施例を示すブロック図である。入力音声信号 s(n) (参照符号301)は、初めに、音声の短時間変化を表すLPCパラメータ a(i) (参照符号321)を生成するために、線形LPC分析32において分析される。LPCパラメータ321は、例えば、当業者に従来から知られている上記のレビンソン・ダービンの方法を用いる自己相関法を通して得られる。得られたLPCパラメータ321は更にパラメータ選択ブロック38に送られる。LPC分析ブロック32においては、LPC残留信号 r(参照符号322)の生成も実行され、この信号はLTP分析31に送られる。LTP分析31において、音声の長時間変化を表す上記のLTPパラメータが生成される。LPC残留信号322は、LPC合成フィルタ H(Z) = 1/A(z)(式1及び図1を参照)の逆フィルタ A(z) で音声信号301を濾波することにより形成される。LPC残留信号322はLPCモデル次数選択ブロック33にも送られる。LPCモデル性能選択ブロック33において、例えば、アカイケ情報基準(Akaike Information Criterion (AIC))及びリサネンの最小記述長(MDL) 選択基準(Rissanen's Minimum Description (MDL)-selection criteria )を用いて必要なLPCモデル次数331が推定される。LPCモデル次数選択ブロック33は、LPC分析ブロック32で使用されるべき、そして、本発明によるLPC次数に関する情報331をパラメータ選択ブロック38に送る。
【0024】
図3は、2段階LTP分析31を使用して実現される本発明の音声符号器を示す。それは、LTPピッチ遅れ時間(pitch lag term)Tの整数部分 d(参照符号342)を探索するための開ループLTP分析34と、LTPピッチ遅れTの端数部分を探索するための閉ループLTP分析35とを使用する。本発明の第1実施例では、LPCパラメータ321とLTP残留信号351とを利用してブロック39で音声パラメータ・ビット392を計算する。音声符号化のために使用されるべき音声符号化パラメータと、その表現精度との決定は、パラメータ選択ブロック38で行われる。この様にして、本発明に従って、実行されるLPC分析32及びLTP分析31を利用して音声パラメータ・ビット392を最適化することができる。
【0025】
本発明の他の実施例では、LTPピッチ遅れTの端数部分を探索するために使用されるべきアルゴリズムの決定は、LPC合成フィルタ次数 m(参照符号331)と、開ループLTP分析34で計算された利得項 g(参照符号341)とに基づいて行われる。この決定もパラメータ選択ブロック38で行われる。本発明に従って、この様に、既に実行されたLPC分析32と既に部分的に実行されたLTP探索(開ループLTP分析34)とを利用してLTP分析31の性能を著しく改善することができる。LTP分析に使用されるLTPピッチ遅れの端数の探索については、例えば、出版物:ICASSP−90報告、第661−664頁、ピーター・クローン及びビシュヌ・S.アタルによる「時間分解能の高いピッチ予測器」(Peter Kroon & Bishnu S. Atal "Pitch Predictors with High Temporal Resolution" Proc of ICASSP-90 pages 661-664 )で解説がなされている。
【0026】
例えば、自己相関法を用いて、下記の式(4)を用いる相関関数の極大値に対応する遅れを決定することによって、開ループLTP分析35によって実行されるLTPピッチ遅れ時間Tの整数部分dを決定することができる。
【数4】
Figure 0004213243
ここで、r(n) = LPC残留信号322
d = 音声の基本周波数を表すピッチ(LTPピッチ遅れ時間の整数部分)
L 及びdH = 基本周波数についての探索限界値
である。
【0027】
開ループLTP分析ブロック34は、LPC残留信号322と、LTPピッチ遅れ時間探索で発見された整数部分dとを用いて次式のように開ループ利得項g(参照符号341)をも生成する。
【数5】
Figure 0004213243
ここで r(n)= LPC残留信号(残留信号322)
d = LTPピッチ遅れ整数遅延
N = フレーム長(例えば、20msフレームが8kHzの周波数でサンプリングされるときには、160サンプル)
である。
【0028】
本発明の第2実施例ではパラメータ選択ブロックはLTP分析31の精度を向上させるためにこの様に開ループ利得項gを利用する。これに対応して、閉ループLTP分析ブロック35は、上記の決定された整数遅れ時間dを利用してLTPピッチ遅れ時間Tの端数部分の精度を探索する。パラメータ選択ブロック38は、LTPピッチ遅れ時間の端数部分を決定するとき、例えば、上記の参考文献、即ちクローン及びアタルの「時間分解能の高いピッチ予測器」で言及されている方法を利用することができる。閉ループLTP分析ブロック35は、上記のLTPピッチ遅れ時間Tの他に、LTP利得gについての最終精度も決定し、これは受信端の復号器に送られる。
【0029】
閉ループLTP分析ブロック35は、LTP分析フィルタで、即ち、その伝達関数がLTP合成フィルタ H(Z)=1/B(z)(式3を参照)の逆関数 B(z) であるフィルタでLPC残留信号322を濾波することによってLTP残留信号351を生成する。LTP残留信号351は、励起信号計算ブロック39とパラメータ選択ブロック38とに送られる。閉ループLTP探索は、通常、先に決定した励起ベクトル391をも利用する。従来技術のACELP型(例えばGSM06.60)の符復号器では、励起信号 c(n) を符号化するために固定された数のパルスが使用される。それらのパルスを表現する精度も一定であり、従って、励起信号 c(n) は1つの固定されたコードブック60から選択される。本発明の第1実施例では、パラメータ選択ブロック38は励起コードブック60〜60''' の選択手段(図4に示されている)を有し、それは、LTP残留信号351とLPCパラメータ321とに基づいて、各音声フレームにおいて音声信号 s(n) をモデル化するために使用される励起信号61〜61''' (図6B)をどの精度で(何個のビットで)表現するかを決定する。
励起信号に使用される励起パルス62の数、又は、励起パルス62を量子化するために使用される精度を変化させることによって、数個の(several)異なる励起コードブック60〜60''' を形成することができる。励起コードを表現するために使用されるべき精度(コードブック)に関する情報を、励起コード計算ブロック39に転送し、また、例えば、励起コードブック選択インデックス382を使用する復号器にも転送することが可能である。この励起コードブック選択インデックス382は、音声の符号化及び復号の両方のためにどの励起コードブック60〜60''' を使用するべきかを示すものである。励起コードブック・ライブラリ41において信号382によって所要の励起コードブック60〜60''' を選択するのと同様に、他の音声パラメータ・ビット392の表現及び計算の精度は対応する信号を用いて選択される。これについては、図7の説明と関連させて詳しく説明するが、LTPピッチ遅れ時間を計算するために使用される精度は信号381(=383)によって選択される。これは、遅れ時間計算精度選択ブロック42により与えられる。同様に、また他の音声パラメータ392を計算し表現するために使用される精度(例えば、CELP型の符復号器に特有のLPCパラメータ321についての表現精度)が選択される。励起信号計算ブロック39は、図1に示されているLPC合成フィルタ12とLTP合成フィルタ13とに対応する複数のフィルタを有し、それらのフィルタでLPC及びLTP分析- 合成の機能が実現される。可変レート音声パラメータ392(例えば、LPCパラメータ及びLTPパラメータ)と、使用される符号化モードのための信号(例えば信号382及び383)とは通信接続に転送されて受信装置へ送信される。
【0030】
図4は、音声信号 s(n) をモデル化するために使用される励起信号61〜61''' を決定するときのパラメータ選択ブロック38の機能を示す。始めにパラメータ選択ブロック38は、受け取ったLTP残留信号351に対して2つの計算を実行する。LTP残留信号351の残留エネルギー値52(図5(B))がブロック43で測定されて適応限界値決定ブロック44と比較ユニット45との双方に転送される。
図5(A)は音声信号の1例を示し、図5(B)は符号化後のその信号に残っている残留エネルギー値52を時間−レベルで示している。適応限界値決定ブロック44において、上記の測定された残留エネルギー値52と前の音声フレームの残留エネルギー値とに基づいて適応限界値53、54、55が決定される。これらの適応限界値53、54、55と音声フレームの残留エネルギー値52とに基づいて、励起ベクトル61〜61''' を表現するために使用される精度(ビットの数)が比較ユニット45で選択される。1つの適応限界値54を使用することの基礎となる考え方は、もし符号化されるべき音声フレームの残留エネルギー値52が前の複数の音声フレームの残留エネルギー値の平均値(適応限界値54)より大きければ、より良好な評価を得るために励起ベクトル61〜61''' の表現精度を高めるということである。この場合、次の音声フレームで生じる残留エネルギー値52はより低くなると期待することができる。一方、もし残留エネルギー値52が適応限界値54より低い値にとどまるならば、音声の質を低下させることなく励起ベクトル61〜61''' を表現するために使用されるビットの数を減らすことができる。
【0031】
次の式に従って適応閾値が計算される。
【数6】
Figure 0004213243
【0032】
利用できる励起コードブック60〜60''' が3つ以上あり、使用されるべき励起ベクトル61〜61''' がそれらの励起コードブックで選択されるとき、音声符号器はより多くの限界値53、54、55を必要とする。これらの他の適応限界値は、適応限界値を決定する式においてΔGdBを変更することによって生成される。図5(C)は、4種類の励起コードブック60〜60''' が利用可能であるときに、図5(B)に従って選択される励起コードブック60〜60''' の番号を示す。その選択は例えば表1に従って次のように行われる:
【表1】
Figure 0004213243
【0033】
各励起コードブック60〜60''' が励起ベクトル61〜61''' を表現するための一定の数のパルス62〜62''' と、一定の精度での量子化に基づくアルゴリズムとを使用することが本発明の音声符号器の特徴である。このことは、音声符号化に使用される励起信号のビットレートが音声信号の線形LPC分析32およびLTP分析31の性能に依存することを意味する。
【0034】
この例で使用されている4つの異なる励起コードブック60〜60''' は、2つのビットを使って区別することができる。パラメータ選択ブロック38は、この情報を信号382の形で励起計算ブロック39に転送するとともに、受信装置へ転送させるためにデータ転送チャネルにも転送する。励起コードブック60〜60''' の選択はスイッチ48によって実行され、その位置に基づいて、選択された励起コードブック60〜60''' に対応する励起コードブックインデックス47〜47''' が更に信号382として転送される。上記の励起コードブック60〜60''' を内蔵する励起コードブック・ライブラリ65は励起計算ブロック39に記憶されており、正しい励起コードブック60〜60''' に含まれている励起ベクトル61〜61''' を音声合成のためにこのライブラリから検索して取り出すことができる。
【0035】
励起コードブック60〜60''' を選択する上記の方法は、LTP残留信号351の分析に基づいている。本発明の他の実施例では、励起コードブック60〜60''' の選択の正しさを制御することを可能にする制御項(control term)を励起コードブック60〜60''' の選択基準に組み込むことができる。それは、周波数領域での音声信号エネルギー分布を調べることに基づいている。もし音声信号のエネルギーが周波数範囲の下端に集中しているならば、間違いなく有声信号が関係している。声の質についての実験によると、有声信号の高品質の符号化を行うためには無声信号の符号化よりも多数のビットが必要である。本発明の音声符号器の場合には、それは、音声信号を合成するために使用される励起パラメータをより精密に(より多くのビットを使用して)表現しなければならないことを意味する。図4及び5(A)〜(C)に示されているサンプルとの関係では、これは、より多くのビット数を使って励起ベクトル61〜61''' を表現する励起コードブック60〜60''' (図5(C)では、より大きな番号のコードブック)を選択しなければならないという結果になる。
【0036】
LPC分析32で得られるLPCパラメータ321の始めの2つの反射係数は信号のエネルギー分布についての良い見積もりを与える。反射係数は、反射係数計算ブロック46(図4)において、例えば、従来から当業者に知られているシュール(Shur)のアルゴリズム又はレビンソン(Levinson)のアルゴリズムを使って計算される。始めの2つの反射係数RC1及びRC2を平面上に表示すると(図6(A))、エネルギー集中領域を容易に発見することができる。もし反射係数RC1及びRC2が低周波数領域(斜線が付されている領域1)にあるならば間違いなく有声信号が関係しており、もしエネルギー集中領域が高周波数領域(斜線が付されている領域2)にあるならば、トーンレス信号が関係している。反射係数は−1〜1の範囲の値を有する。限界値(例えば、図6(A)では、RC=−0.7〜−1、RC''=0〜1)は、有声信号及びトーンレス信号によりもたらされる反射係数同士を比較することによって実験的に選択される。反射係数RC1及びRC2が有声の範囲にあるときには、より大きな番号の励起コードブック60〜60''' 、及び、より精密な量子化を選択するような基準が使用される。その他の場合には、より小さなビットレートに対応する励起コードブック60〜60''' を選択することができる。その選択は、信号49でスイッチ48を制御して行う。これら2領域の間に中間領域があり、その領域では音声符号器は、主としてLTP残留信号351に基づいて、使用されるべき励起コードブック60〜60''' を決定することができる。LTP残留信号351の測定に基づく方法と反射係数RC1及びRC2の計算に基づく上記の方法とを組み合わせれば、励起コードブック60〜60''' を選択する効率の良いアルゴリズムが得られる。そのアルゴリズムは、最適の励起コードブック60〜60''' を確実に選択することができて、異なるタイプの音声信号を必要な音質で均等に音声符号化し得ることを保証するものである。図7の説明との関係で明らかなように、他の音声パラメータ・ビット392を決定するためにも、それに対応する、いろいろな基準を組み合わせる方法を使用することができる。複数の方法を組み合わせることの付加的利点の1つは、何らかの理由でLTP残留信号351に基づく励起コードブック60〜60''' の選択がうまくゆかなかった場合に、殆どの場合に、音声符号化を行う前に、そのエラーを発見して、LPCパラメータ321としての反射係数RC1及びRC2の計算に基づく方法を用いてそのエラーを訂正することができることである。
【0037】
本発明の音声符号化方法においては、平坦な(even)LTPパラメータ(本質的にはLTP利得gとLTP遅れT)を表現し計算する際に使用される精度に、LTP残留信号351の測定とLPCパラメータ321としての反射係数RC1及びRC2の計算とに基づく、上記の有声/無声判定を利用することが可能である。LTPパラメータg及びTは、有声音声信号の基本周波数特性等の、音声中の長時間周期性(long-term recurrency)を表す。基本周波数というのは、音声信号においてエネルギー集中が現れる周波数である。周期性は、音声信号において基本周波数を判定するために測定される。それは、LTPピッチ遅れ時間を用いて、殆ど類似する繰り返し生じるパルスの発生を測定することによって行われる。LTPピッチ遅れ時間の値は、一定の音声信号パルスの発生から同じパルスが再発生する瞬間までの遅延時間である。検出された信号の基本周波数は、LTPピッチ遅れ時間の逆数として得られる。
【0038】
例えば、CELP音声符復号器などの、LTP技術を利用する幾つかの音声符復号器において、LTPピッチ遅れ時間は、始めにいわゆる開ループ法を、次にいわゆる閉ループ法を用いて、2段階で探される。開ループ法の目的は、例えば式(4)と関連して説明した自己相関法などの柔軟な数学的方法を用いて、分析されるべき音声フレームのLPC分析32のLPC残留信号322からLTPピッチ遅れ時間についての整数推定値dを発見することである。開ループ法では、LTPピッチ遅れ時間の計算精度は、音声信号をモデル化するのに使用されるサンプリング周波数に依存する。それは、音声の質については十分に精密なLTPピッチ遅れ時間を得るにはしばしば低すぎる(例えば、8kHz)。この問題を解決するためにいわゆる閉ループ法が開発されており、その目的は、オーバーサンプリング(over-sampling)を使用して、開ループ法により発見されたLTPピッチ遅れ時間の値の付近にLTPピッチ遅れ時間のより精密な値を探すことである。従来公知の音声符復号器では、(いわゆる整数の精度でLTPピッチ遅れ時間の値を探すに過ぎない)開ループ法が使用されるか、或いは、それと組み合わせて固定オーバーサンプリング係数を使用する閉ループ法をも使用する。例えば、オーバーサンプリング係数3を使用する場合には、LTPピッチ遅れ時間の値を3倍も精密に見いだすことができる(いわゆる1/3精度)。この方法の実例が出版物:ICASSP−90報告の第661−664頁のピーター・クローン及びビシュヌ・S.アタルによる「時間分解能の高いピッチ予測器」(Peter Kroon & Bishnu S. Atal "Pitch Predictors with High Temporal Resolution" Proc of ICASSP-90 pages 661-664 )に解説されている。
【0039】
音声合成では、音声信号の基本周波数特性を表現するために必要な精度は本質的にその音声信号に依存する。それ故に、多くのレベルで音声信号をモデル化する周波数を計算し表現するために使用される精度(ビットの数)をその音声信号の関数として調整することが好ましいのである。例えば、音声のエネルギー含有量或いは有声/トーンレス判定のような選択基準が、図4との関連で励起コードブック60〜60''' を選択するために使用されたのと同じように使用される。
【0040】
音声パラメータ・ビット392を作る本発明の可変レート音声符号器は、LTPピッチ遅れの整数部分d(開ループ利得)を発見するために開ループLTP分析34を使用し、LTPピッチ遅れの端数(小数)部分を探すために閉ループLTP分析35を使用する。開ループLTP分析34と、LPC分析に使用される性能(フィルタ次数)と、反射係数とに基づいて、LTPピッチ遅れの小数部分を探すために使用されるアルゴリズムについての決定も行われる。この決定もパラメータ選択ブロック38で行われる。図7は、LTPパラメータを探すのに使われる精度の見地から、パラメータ選択ブロック38内の機能を示す。その選択は、好適には、開ループLTP利得341の決定に基づいている。論理ユニット71における選択基準として、図5(A)〜(C)と関連して説明した適応限界値と同様の基準を使用することが可能である。この様にして、LTPピッチ遅れTの計算に使用されるべき表1の通りのアルゴリズム選択表を作成することが可能であり、その選択表に基づいて、基本周波数(LTPピッチ遅れ)を表現し計算するために使用される精度が決定される。
【0041】
LPC分析32のために必要なLPCフィルタの次数331もまた、音声信号と該信号のエネルギー分布とに関する重要な情報を与える。LPCパラメータ32の計算に使われるモデル次数331の選択のために、例えば前に言及したアカイケ情報基準 (AIC)又はリサネンの最小記述長(MDL) 法が使用される。LPC分析32で使用されるべきモデル次数331はLPCモデル選択ユニット33で選択される。エネルギー分布が一様な信号については、モデル化のために2段階LPC濾波でもしばしば充分であるが、数個の共振周波数(フォルマント周波数)を含んでいる有声信号については、例えば、10段のLPCモデル化が必要である。実例として、表2を以下に掲げるが、この表は、LPC分析32に使用されるフィルタのモデル次数331の関数としてLTPピッチ遅れ時間Tを計算するために使用されるオーバーサンプリング係数を示す。
【表2】
Figure 0004213243
【0042】
LTP開ループ利得gの大きな値は、高度に有声化された信号を表す。この場合、LTP分析のLTPピッチ遅れ特性の値は、良好な音質を得るために、高い精度で探されなければならない。この様に、LTP利得341と、LPC合成で使用されるモデル次数331とに基づいて、表3を作成することができる。
【表3】
Figure 0004213243
【0043】
もし音声信号のスペクトル・エンベロープが低い周波数に集中しているならば、大きなオーバーサンプリング係数を選択するのも得策である(周波数分布は例えばLPCパラメータ33の反射係数RC1及びRC2から得られる。図6(A)参照)。これを上記の他の基準と組み合わせることもできる。オーバーサンプリング係数72〜72''' 自体は、論理ユニット71から得られる制御信号に基づいてスイッチ73によって選択される。オーバーサンプリング係数72〜72''' は、信号381と共に閉ループLTP分析35に転送され、且つ信号383として励起計算ブロック39及びデータ転送チャネルに転送される。表2及び3と関連する場合のように、例えば2、3、及び6倍のオーバーサンプリングが使用されるときには、LTPピッチ遅れの値は、それに対応して、使用されるサンプリング間隔の1/2、1/3、及び、1/6の精度で計算され得る。
【0044】
閉ループLTP分析35では、LTPピッチ遅れTの端数(小数)値が論理ユニット71により決定された精度で探される。LTPピッチ遅れTは、LPC分析ブロック32により作られたLPC残留信号322と前の時間に使われた励起信号391との相関をとることによって探される。前の励起信号391は、選択されたオーバーサンプリング係数72〜72''' を用いて補間される。最も正確な見積もりによって作られたLTPピッチ遅れの端数値が決定されると、それは、音声合成に使用される他の可変レート音声パラメータ・ビット392とともに音声符号器に転送される。
【0045】
図3、図4、図5(A)〜(C)、図6(A)〜(B)、及び、図7に、可変レート音声パラメータ・ビット392を作る音声符号器の機能が詳しく示されている。図8は、本発明の音声符号器の機能を機能ブロック図で示す。図1に示されている従来公知の音声符号器の場合と同様に、合成された音声信号 ss(n)は総和ユニット18において音声信号 s(n) から差し引かれる。得られたエラー信号 e(n) に、聴覚重み付けフィルタ14によって重み付けされる。重み付けされたエラー信号は可変レート・パラメータ生成ブロック80に送られる。パラメータ生成ブロック80は上記の可変ビットレート音声パラメータ・ビット392と励起信号とを計算するために使用されるアルゴリズムを具備し、その中からモード・セレクタ81はスイッチ84及び85を用いて各音声フレームに最適の音声符号化モードを選択する。従って、各音声符号化モードのために別々のエラー最小化ブロック82〜82''' があり、これらの最小化ブロック82〜82''' は、予測生成ブロック83〜83''' のために、最適の励起パルス及び選択された精度を有するその他の音声パラメータ392を計算する。予測生成ブロック83〜83''' は、特に励起ベクトル61〜61''' を作成して、それを、選択された精度を有する他の音声パラメータ392(例えばLPCパラメータ及びLTPパラメータ)とともに更にLTP+LPC合成ブロック86に転送する。信号87は、データ転送チャネルを通して受信装置に転送される音声パラメータ(例えば可変レート音声パラメータ・ビット392と音声符号化モード選択信号282及び283)を表す。パラメータ生成ブロック80により生成された音声パラメータ87に基づいて合成音声信号 ss(n)がLPC+LTP合成ブロック86において生成される。音声パラメータ87はチャネル符号器(図示せず)に転送され、データ転送チャネルに送られる。
【0046】
図9は本発明の可変ビットレート音声符号器99の構成を示す。生成ブロック90において、復号器により受信された可変レート音声パラメータ392は、信号382及び383により制御されて正しい予測生成ブロック93〜93''' に送られる。信号382及び383はLTP+LPC合成ブロック94にも転送される。この様に、信号282及び284は、データ転送チャネルから受信された音声パラメータ・ビット392にどの音声符号化モードが適用されるのかを定める。正しい復号モードがモード・セレクタ91によって選択される。選択された予測発生ブロック93〜93''' は音声パラメータ・ビット(それ自体が作った励起ベクトル61〜61''' 、それが符号器から受け取ったLTPパラメータ及びLPCパラメータ、及び、その他の音声符号化パラメータ)をLTP+LPC合成ブロック94に転送し、ここで実際の音声合成が信号382及び383により定められた復号モードに特有の方法で実行される。最後に、得られた信号は、所望の音色を持つように重み付けフィルタ95によって必要に応じて濾波される。合成音声信号 ss(n)が復号器の出力で得られる。
【0047】
図10は本発明による移動局を示しており、それに本発明の音声符復号器が使用されている。マイクロホン101から到来する、送信されるべき音声信号はA/D変換器102でサンプリングされ、音声符号器103で音声符号化され、その後に、従来技術で知られているように例えばチャネル符号化、インターリーブなどの基本周波数信号の処理がブロック104で実行される。その後に、信号は無線周波数に変換されて、送信装置105によりデュプレックス・フィルタDPLX及びアンテナANTを用いて送信される。受信時には、図9と関連して説明したブロック107での音声復号などの、受信部の従来公知の機能が受信された信号に対して実行され、音声がスピーカ108により再生される。
【0048】
図11は本発明による通信システム110を示しており、このシステムは、移動局111及び111’、基地局112(BTS、Base Transceiver Station(基地送受信局)、基地局コントローラ113、移動通信交換センタ(MSC、Mobile Switching Center (移動交換センタ))114、通信網115及び116、及び、それらに直接に或いは端末装置(例えばコンピュータ118)を介して接続されているユーザ端末117及び118を具備している。本発明の情報転送システム110では、移動局及びその他のユーザ端末117、118及び119は、通信網115及び116を介して相互に接続されていて、図3、図4、図5(A)〜(C)、及び図6〜図9と関連して解説した音声符号化システムをデータ転送のために使用する。本発明の通信システムは、低い平均データ転送容量を用いて移動局111、111’及びその他のユーザー端末117、118及び119の間で音声を転送することができるので、効率が良い。これは無線接続を使用する移動局111、111’との関係で特に好ましいけれども、例えば、コンピュータ118が独立のマイクロホン及びスピーカ(図示せず)を備えている場合には、本発明の音声符号化方法を使用することは、例えば音声がインターネット通信網を介してパケットフォーマットで転送されるときに、通信網に無駄な負担をかけない効率の良い方法である。
【0049】
以上、本発明の実施態様とその実施例の幾つかとを解説した。本発明は上で解説した実施例の詳細に限定されるものではなく、本発明の特徴から逸脱することなく本発明を他の形で実施し得ることは当業者にとっては明らかなことである。上で解説した実例は単なる例と解されるべきであって、これらに限定をするものと解されるべきではない。従って本発明を実施し使用する可能性は特許請求の範囲によってのみ限定される。従って、請求項により定義される本発明の種々の実施例は、等価な実施例を含めて、本発明の範囲に含まれる。
【0050】
【発明の効果】
本発明によれば、質が一様で平均ビットレートの小さい可変ビットレートのデジタル音声符号化方法および装置が提供される。
【図面の簡単な説明】
【図1】従来公知のCELP符号器の構成を示すブロック図である。
【図2】従来公知のCELP復号器の構成を示すブロック図である。
【図3】本発明の音声符号器の実施例の構成を示すブロック図である。
【図4】コードブックを選択するときのパラメータ選択ブロックの機能を示すブロック図である。
【図5】本発明の機能を説明するために使用される音声信号の例を時間−振幅レベルで示し((A))、本発明の実現に使用される適応限界値と上記音声信号の例の残留エネルギーとを時間−dBレベルで示し((B))、各音声フレームについて図5の(B)に基づいて選択され、音声信号をモデル化するために使用される励起コードブック番号を示す((C))図である。
【図6】反射係数を計算することに基づく音声フレーム分析を示し((A))、本発明の音声符号化方法に使用される励起コードブック・ライブラリの構造を示す((B))図である。
【図7】パラメータ選択ブロックの機能を基本周波数表示精度の見地から示すブロック図である。
【図8】本発明の音声符号器の機能ブロック図である。
【図9】本発明の音声符号器に対応する音声復号器の構成を示す図である。
【図10】本発明の音声符号器を利用する移動局を示す図である。
【図11】本発明の通信システムを示す図である。
【符号の説明】
10…短時間LPC分析ブロック
11…LTP分析ブロック
12…LPC合成フィルタ
13…LTP合成フィルタ
14…(聴覚)重み付けフィルタ
18…総和ユニット
16…励起コードブック
15…励起ベクトル探索コントローラ
17…乗算ユニット
20…励起コードブック
21…乗算ユニット
22…長時間LTP合成フィルタ
24…LPC合成フィルタ
31…2段階LTP分析
32…線形LPC分析ブロック
33…LPCモデル次数選択ブロック
34…開ループLTP分析ブロック
35…閉ループLTP分析ブロック
38…パラメータ選択ブロック
39…励起コード計算ブロック
41…励起コードブック・ライブラリー
42…遅れ時間計算精度選択ブロック
44…適応限界値決定ブロック
45…比較ユニット
46…反射係数計算ブロック
47〜47''' …励起コードブックインデックス
52…残留エネルギー値
53、54、55…適応限界値
60…固定されたコードブック
60〜60''' …励起コードブック
62…励起パルス
71…論理ユニット
72〜72''' …オーバーサンプリング係数
80…可変レート・パラメータ生成ブロック
81…モード・セレクタ
82〜82''' …エラー最小化ブロック
83〜83''' …予測生成ブロック
84、85…スイッチ
86…LTP+LPC合成ブロック
87…音声パラメータ
90…生成ブロック
91…モード・セレクタ
93〜93''' …予測生成ブロック
94…LTP+LPC合成ブロック
95…重み付けフィルタ
99…可変ビットレート音声符号器
101…マイクロホン
102…A/D変換器
103…音声符号器
104…ブロック
105…送信装置
106…受信装置
107…ブロック
108…スピーカ
110…通信システム
111、111’…移動局
112…基地局
113…基地局コントローラ
114…移動通信交換センタ
115、116…通信網
117、118、119…ユーザー端末
282、28…音声符号化モード選択信号
301…音声信号
321…LPCパラメータ
322…LPC残留信号
331…LPCモデル次数(LPCフィルタの次数)
341…開ループLTP利得
342…LTPピッチ遅れ時間Tの整数部分d
351…LTP残留信号
382…励起コードブック選択インデックス
391…励起ベクトル
392…可変レート音声パラメータ・ビット
RC1、RC2…反射係数
ss(n) …合成音声信号
DPLX…デュプレックス・フィルタ
ANT…アンテナ

Claims (14)

  1. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    前記第1の生成物及び前記第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする方法。
  2. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第1の分析(10、32、33)は短時間LPC分析(10、32、33)であり、前記第2の分析(11、31、34、35)は長時間LTP分析(11、31、34、35)であり、
    被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    前記第1の生成物及び前記第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする方法。
  3. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする方法。
  4. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第1の分析(10、32、33)は短時間LPC分析(10、32、33)であり、前記第2の分析(11、31、34、35)は長時間LTP分析(11、31、34、35)であり、
    前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    前記LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループが前記LTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする方法。
  5. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定され、
    前記第2の予測パラメータを決定するときに、前記LTPピッチ遅れ時間をより高い精度で決定するために閉ループLTP分析(31、35、391)が使用されることを特徴とする方法。
  6. 音声信号(301)の符号化のために、
    フレーム毎に音声符号化を行うために音声信号(301)を音声フレームに分割し、
    被験音声フレームを第1のタイムスロットにおいてモデル化するための複数の第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を行い、
    前記被験音声フレームを第2のタイムスロットにおいてモデル化するための複数の第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を行い、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)はデジタル形で表現される音声符号化方法において、
    前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)で得られた前記第1及び第2の生成物(321、322、341、342、351)に基づいて、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、これらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第1の分析(10、32、33)は短時間LPC分析(10、32、33)であり、前記第2の分析(11、31、34、35)は長時間LTP分析(11、31、34、35)であり、
    前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    前記LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループが前記LTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定され、
    前記第2の予測パラメータを決定するときに、前記LTPピッチ遅れ時間をより高い精度で決定するために閉ループLTP分析(31、35、391)が使用されることを特徴とする方法。
  7. 複数の通信手段(111、111’、112、113、114、115、116、117、118、119)を有し、該通信手段(111、111’、112、113、114、115、116、117、118、119)間で通信接続を確立して情報を転送するための通信システム(110)であって、前記通信手段(111、111’、112、113、114、115、116、117、118、119)は音声符号器(103)を有し、前記音声符号器(103)は、更に、
    フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおける被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおける被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有する通信システムにおいて、
    前記音声符号器は更に、該第1の生成物(321、322)及び該第2の生成物(341、342、351)に基づいて、前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し、
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、それらの組み合わせのうちの1つを表現するために使用されるビットの数を決定するように構成され、
    ここに被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    前記第1の生成物及び前記第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする通信システム。
  8. 複数の通信手段(111、111’、112、113、114、115、116、117、118、119)を有し、該通信手段(111、111’、112、113、114、115、116、117、118、119)間で通信接続を確立して情報を転送するための通信システム(110)であって、前記通信手段(111、111’、112、113、114、115、116、117、118、119)は音声符号器(103)を有し、前記音声符号器(103)は、更に、
    フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおける被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおける被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有する通信システムにおいて、
    前記音声符号器は更に、該第1の生成物(321、322)及び該第2の生成物(341、342、351)に基づいて、前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し、
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、それらの組み合わせのうちの1つを表現するために使用されるビットの数を決定するように構成され、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする通信システム。
  9. 音声を転送するための手段(103、104、105、DPLX、ANT、106、107)と、音声符号化を行う音声符号器(103)とを有する通信装置であって、該音声符号器(103)は、
    フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおいて被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおいて被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有してなる通信装置において、
    前記音声符号器は更に、前記第1の生成物(321、322)及び前記第2の生成物(341、342、351)に基づいて、該音声符号器(103)の前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し、
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、それらの組み合わせのうちの1つを表現するために使用されるビットの数を決定するように構成され、
    ここに被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    前記第1の生成物及び前記第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする通信装置。
  10. 音声を転送するための手段(103、104、105、DPLX、ANT、106、107)と、音声符号化を行う音声符号器(103)とを有する通信装置であって、該音声符号器(103)は、
    フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおいて被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおいて被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有してなる通信装置において、
    前記音声符号器は更に、前記第1の生成物(321、322)及び前記第2の生成物(341、342、351)に基づいて、該音声符号器(103)の前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し、
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及び、それらの組み合わせのうちの1つを表現するために使用されるビットの数を決定するように構成され、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする通信装置。
  11. フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおいて被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおいて被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有する音声符号器(103)において、
    該音声符号器は更に、前記第1の生成物(321、322)及び前記第2の生成物(341、342、351)に基づいて、該音声符号器(103)の前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し;
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及びそれらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    前記第1の生成物及び前記第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする音声符号器。
  12. フレーム毎に符号化を行うために音声信号(301)を音声フレームに分割するための手段と、
    第1のタイムスロットにおいて被験音声フレームをモデル化する第1の予測パラメータ(321、322)を含む第1の生成物(321、322)を生成するために、前記被験音声フレームに対して第1の分析(10、32、33)を実行するための手段と、
    第2のタイムスロットにおいて被験音声フレームをモデル化する第2の予測パラメータ(341、342、351)を含む第2の生成物(341、342、351)を生成するために、前記被験音声フレームに対して第2の分析(11、31、34、35)を実行するための手段と、
    前記第1及び第2の予測パラメータ(321、322、341、342、351)をデジタル形で表現するための手段とを有する音声符号器(103)において、
    該音声符号器は更に、前記第1の生成物(321、322)及び前記第2の生成物(341、342、351)に基づいて、該音声符号器(103)の前記第1の分析(10、32、33)及び前記第2の分析(11、31、34、35)の性能を分析するための手段(38、39、41、42、43、44、45、46、48、71、73)を有し;
    前記性能分析手段(38、39、41、42、43、44、45、46、48、71、73)は、前記第1の予測パラメータ(321、322、331)、前記第2の予測パラメータ(341、342、351)、及びそれらの組み合わせのうちの1つを表現するために使用されるビットの数を決定し、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    前記被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする音声符号器。
  13. 通信接続から音声を音声パラメータ(392、382、383)の形で受信するための手段であって、該音声パラメータ(392、382、383)は、第1のタイムスロットで音声をモデル化するための第1の予測パラメータ(321、322、331)と、第2のタイムスロットで音声をモデル化するための第2の予測パラメータ(341、392)とを含む、前記の受信するための手段と、
    前記音声パラメータ(392、382、383)に基づいて元の音声信号( s(n) )をモデル化する合成音声信号( ss(n))を生成するための生成手段(20、21、22、24、90、91、93〜93''' 、94、95)とを有する音声復号器において、
    前記生成手段(20、21、22、24、90、91、93〜93''' 、94、95)はモード・セレクタ(91)を有し、
    前記音声パラメータ(392、382、383)は情報パラメータ(382、383)を有し、
    前記モード・セレクタ(91)は、前記情報パラメータ(382、383)に基づいて前記第1の予測パラメータ及び前記第2の予測パラメータについて正しい音声復号モードを選択するように構成され、
    ここに被験音声フレームをモデル化する前記第2の予測パラメータは励起ベクトル(61〜61''' )を含み、
    第1の生成物及び第2の生成物(321、322、341、342、351)は、前記第1のタイムスロットにおいて被験音声フレームをモデル化するLPCパラメータ(321)と、前記第2のタイムスロットにおいて被験音声フレームをモデル化するLTP分析残留信号(351)とを含み、
    前記被験音声フレームをモデル化するために使用される前記励起ベクトル(61〜61''' )を表現するために使用されるビットの数は前記LPCパラメータ(321)及びLTP分析残留信号(351)に基づいて決定されることを特徴とする音声復号器。
  14. 通信接続から音声を音声パラメータ(392、382、383)の形で受信するための手段であって、該音声パラメータ(392、382、383)は、第1のタイムスロットで音声をモデル化するための第1の予測パラメータ(321、322、331)と、第2のタイムスロットで音声をモデル化するための第2の予測パラメータ(341、392)とを含む、前記の受信するための手段と、
    前記音声パラメータ(392、382、383)に基づいて元の音声信号( s(n) )をモデル化する合成音声信号( ss(n))を生成するための生成手段(20、21、22、24、90、91、93〜93''' 、94、95)とを有する音声復号器において、
    前記生成手段(20、21、22、24、90、91、93〜93''' 、94、95)はモード・セレクタ(91)を有し、
    前記音声パラメータ(392、382、383)は情報パラメータ(382、383)を有し、
    前記モード・セレクタ(91)は、前記情報パラメータ(382、383)に基づいて前記第1の予測パラメータ及び前記第2の予測パラメータについて正しい音声復号モードを選択するように構成され、
    ここに前記第2の予測パラメータはLTPピッチ遅れ時間を含み、
    LPC分析には分析/合成フィルタ(10、12、32、39)が使用され、
    利得係数(341)を有する開ループがLTP分析に使用され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、前記LPC分析(32)に使用される分析/合成フィルタ(10、12、32、39)のモデル次数(m)が決定され、
    前記第1及び第2の予測パラメータ(321、322、331、341、342、351)を表現するために使用されるビットの数を決定する前に、該開ループにおける前記利得係数(341)が前記LTP分析(31、34)において決定され、
    被験音声フレームをモデル化する際に使用される前記LTPピッチ遅れ時間を計算するために使用される精度は、前記モデル次数(m)及び前記開ループにおける前記利得係数(341)に基づいて決定されることを特徴とする音声復号器。
JP34346297A 1996-12-12 1997-12-12 音声符号化方法及び該方法を実施する装置 Expired - Fee Related JP4213243B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI964975A FI964975A (fi) 1996-12-12 1996-12-12 Menetelmä ja laite puheen koodaamiseksi
FI964975 1996-12-12

Publications (2)

Publication Number Publication Date
JPH10187197A JPH10187197A (ja) 1998-07-14
JP4213243B2 true JP4213243B2 (ja) 2009-01-21

Family

ID=8547256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34346297A Expired - Fee Related JP4213243B2 (ja) 1996-12-12 1997-12-12 音声符号化方法及び該方法を実施する装置

Country Status (5)

Country Link
US (1) US5933803A (ja)
EP (1) EP0848374B1 (ja)
JP (1) JP4213243B2 (ja)
DE (1) DE69727895T2 (ja)
FI (1) FI964975A (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10210139A (ja) * 1997-01-20 1998-08-07 Sony Corp 音声記録機能付き電話装置及び音声記録機能付き電話装置の音声記録方法
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
US8032808B2 (en) * 1997-08-08 2011-10-04 Mike Vargo System architecture for internet telephone
US6356545B1 (en) * 1997-08-08 2002-03-12 Clarent Corporation Internet telephone system with dynamically varying codec
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US6064678A (en) * 1997-11-07 2000-05-16 Qualcomm Incorporated Method for assigning optimal packet lengths in a variable rate communication system
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US7307980B1 (en) * 1999-07-02 2007-12-11 Cisco Technology, Inc. Change of codec during an active call
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6445696B1 (en) 2000-02-25 2002-09-03 Network Equipment Technologies, Inc. Efficient variable rate coding of voice over asynchronous transfer mode
US6862298B1 (en) 2000-07-28 2005-03-01 Crystalvoice Communications, Inc. Adaptive jitter buffer for internet telephony
CN1338834A (zh) * 2000-08-19 2002-03-06 华为技术有限公司 基于网络协议的低速语音编码方法
US7313520B2 (en) * 2002-03-20 2007-12-25 The Directv Group, Inc. Adaptive variable bit rate audio compression encoding
US8090577B2 (en) 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
FI20021936A (fi) * 2002-10-31 2004-05-01 Nokia Corp Vaihtuvanopeuksinen puhekoodekki
US7668968B1 (en) 2002-12-03 2010-02-23 Global Ip Solutions, Inc. Closed-loop voice-over-internet-protocol (VOIP) with sender-controlled bandwidth adjustments prior to onset of packet losses
US6996626B1 (en) 2002-12-03 2006-02-07 Crystalvoice Communications Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
KR20070007851A (ko) * 2004-04-28 2007-01-16 마츠시타 덴끼 산교 가부시키가이샤 계층 부호화 장치 및 계층 부호화 방법
ATE352138T1 (de) * 2004-05-28 2007-02-15 Cit Alcatel Anpassungsverfahren für ein mehrraten-sprach- codec
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
US8000958B2 (en) * 2006-05-15 2011-08-16 Kent State University Device and method for improving communication through dichotic input of a speech signal
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8380503B2 (en) 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US9186579B2 (en) 2008-06-27 2015-11-17 John Nicholas and Kristin Gross Trust Internet based pictorial game system and method
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、***
CN102812512B (zh) * 2010-03-23 2014-06-25 Lg电子株式会社 处理音频信号的方法和装置
ES2901749T3 (es) * 2014-04-24 2022-03-23 Nippon Telegraph & Telephone Método de descodificación, aparato de descodificación, programa y soporte de registro correspondientes
PL3703051T3 (pl) 2014-05-01 2021-11-22 Nippon Telegraph And Telephone Corporation Koder, dekoder, sposób kodowania, sposób dekodowania, program kodujący, program dekodujący i nośnik rejestrujący

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
EP0379587B1 (en) * 1988-06-08 1993-12-08 Fujitsu Limited Encoder/decoder apparatus
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
CH680030A5 (ja) * 1990-03-22 1992-05-29 Ascom Zelcom Ag
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
FI95085C (fi) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FI91345C (fi) * 1992-06-24 1994-06-10 Nokia Mobile Phones Ltd Menetelmä kanavanvaihdon tehostamiseksi
JP3265726B2 (ja) * 1993-07-22 2002-03-18 松下電器産業株式会社 可変レート音声符号化装置
EP0699334B1 (en) * 1994-02-17 2002-02-20 Motorola, Inc. Method and apparatus for group encoding signals
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder

Also Published As

Publication number Publication date
EP0848374B1 (en) 2004-03-03
DE69727895D1 (de) 2004-04-08
EP0848374A3 (en) 1999-02-03
DE69727895T2 (de) 2005-01-20
JPH10187197A (ja) 1998-07-14
US5933803A (en) 1999-08-03
EP0848374A2 (en) 1998-06-17
FI964975A (fi) 1998-06-13
FI964975A0 (fi) 1996-12-12

Similar Documents

Publication Publication Date Title
JP4213243B2 (ja) 音声符号化方法及び該方法を実施する装置
KR100575193B1 (ko) 적응 포스트필터를 포함하는 디코딩 방법 및 시스템
RU2262748C2 (ru) Многорежимное устройство кодирования
EP2099028B1 (en) Smoothing discontinuities between speech frames
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JP4005359B2 (ja) 音声符号化及び音声復号化装置
KR100488080B1 (ko) 멀티모드 음성 인코더
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
JP2002202799A (ja) 音声符号変換装置
KR20040005970A (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
KR20020012509A (ko) 입력 신호의 보코딩 장치 및 방법
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
Drygajilo Speech Coding Techniques and Standards
JPH08160996A (ja) 音声符号化装置
GB2391440A (en) Speech communication unit and method for error mitigation of speech frames
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置
WO2001009880A1 (en) Multimode vselp speech coder
JPH07135490A (ja) 音声検出器及び音声検出器を有する音声符号化器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20071001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees