JP3483853B2 - スピーチコーディングのための適用基準 - Google Patents
スピーチコーディングのための適用基準Info
- Publication number
- JP3483853B2 JP3483853B2 JP2000568079A JP2000568079A JP3483853B2 JP 3483853 B2 JP3483853 B2 JP 3483853B2 JP 2000568079 A JP2000568079 A JP 2000568079A JP 2000568079 A JP2000568079 A JP 2000568079A JP 3483853 B2 JP3483853 B2 JP 3483853B2
- Authority
- JP
- Japan
- Prior art keywords
- determining
- balance
- speech signal
- signal
- balance coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000001413 cellular effect Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 description 27
- 239000013598 vector Substances 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100243399 Caenorhabditis elegans pept-2 gene Proteins 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
コーディングに関するものであり、より具体的には、ノ
イズ状の、低ビットレート信号を取り込むための改善さ
れたコーディング基準に関するものである。
かの形のモデルに基づいて符号化されたスピーチ信号を
作成するものである。モデルのパラメータと信号は量子
化されて、それらを記述する情報はチャネルを介して送
信される。セルラー電話への適用において支配的なコー
ダのモデルは符号励起線形予測手法(CELP)であ
る。
号化されたスピーチが典型的には10のオーダである全
ポール合成フィルタを通して供給される励起信号によっ
て作成される。励起信号は、対応するコード表から取り
出される2つの信号caとcfの合計として得られ(一
方は固定、他方は適用型である)、次に適当なゲイン係
数gaとgfを掛ける。コードブック信号は典型的には
5msの長さで(サブフレーム1つ)、合成フィルター
は典型的には20msごとに(1フレームで)更新され
る。CELPモデルに関連するパラメータは、合成フィ
ルタ係数、コードブックの内容及びゲイン係数である。
されている。CELPデコーダ(図1)のレプリカを用
いてサブフレーム毎のコード信号候補を作成する。21
で符号化された信号は符号化されていない(デジタル化
された)信号と比較されて、符号化プロセスを制御する
ために重み付けられた誤差信号が使用される。合成フィ
ルタは線形予測(LP)を使用して決定される。この従
来の符号化手順は合成による線形予測分析(LPAS)
とよばれる。
ダは重み付けられたスピーチ領域で波形マッチングを使
用する。つまり、誤差信号は重み付けフィルタによって
フィルタ処理される。このことは以下に示す2乗誤差基
準を最小化するものとして表現される:
ブフレームを有するベクトル、SWはSに重み付けフィ
ルタWを掛けたもの、caとcfはそれぞれ適用及び固
定コードブックからの符号ベクトル、Wは重み付けフィ
ルタ処理を行うマトリックス、Hは合成フィルタ処理を
行うマトリックス、CSWは符号化された信号に重み付
けフィルタWを掛けたものである。従来は、式1に記載
された基準を最小化する符号化処理は以下のステップに
従って行われている:
8kb/s程度以上のビットレートであれば良く機能す
ることが知られている。しかし、ビットレートを下げる
と、音声のないスピーチや背景ノイズのような非周期的
なノイズ状の信号については波形マッチングの能力に問
題がある。音声を有するスピーチ部分については、波形
マッチング基準はそれでもよく機能するが、ノイズ状の
信号に対する波形マッチング能力が劣るために、符号化
された信号のレベルが低くなりすぎ(スワーリングとし
て知られている)不愉快な変化を伴うものになることが
多い。
野では、信号のスペクトル特性をマッチさせることで良
好な信号レベル(ゲイン)の一致が得られることが知ら
れている。線形予測合成フィルタは信号のスペクトル特
性を与えるので、式1に代えて用いることができる基準
は以下のようになる:
ルギー、ECSは符号化信号CS=H・(ga・ca+g
f・cf)のエネルギーである。式1が波形マッチング
を表すのに対して、式2は、エネルギーマッチングを表
すものである。この基準もまた重み付けフィルタWを導
入して重み付けスピーチに使用することができる。式2
では、基準を式1と同じ領域にするだけのために平方根
を求める処理が含まれていることに注意されたい;この
ことは必須ではなく要件ではない。これ以外にも、DE
=|ES−ECS|のような別のエネルギーマッチング基
準も考えられる。
現することもできる:
ィルタ処理Sして得られる残余信号rのエネルギーであ
り、Exは、x=ga・ca+gf・cfで表される励
起信号のエネルギーである。
と背景ノイズとに異なる符号化モード(例えばエネルギ
ーマッチング)を使用する従来のマルチモード符号化で
使用されている。これらのモードでは、式2と3に示し
たエネルギーマッチング基準を使用している。この方法
の欠点は、例えば、音声のあるスピーチには波形マッチ
ングモード(式1)を選択し、音声のないスピーチと背
景ノイズのようなノイズ状信号に対してはエネルギーマ
ッチングモード(式2と3)を選択するようにモードを
決定しなければならないことである。モードの決定はデ
リケートであり、間違えると耳障りなアーチファクトが
発生する。また、モード間の符号化手法の激しい変化に
よって望ましくない音が発生する。
のようなマルチモード符号化の欠点を解決することがで
きる、ノイズ状信号の改善された符号化手法を提供する
ことが望まれる。本発明は、波形マッチングとエネルギ
ーマッチング基準を好ましい形で組み合わせて、マルチ
モード符号化の欠点を排除して、低ビットレートのノイ
ズ状信号を符号化することができる。
ネルギーマッチング基準を1つの基準DWEに統合したも
のである。波形マッチングとエネルギーマッチングのバ
ランスは重み付け係数を用いて穏やかかつ適用的に調整
する:
マッチング変形DEとの間の相対的な重み付けを決定す
る重み付け係数である。重み付け係数KとLは、以下の
ように、それぞれ1−αとαで表現することができる:
波形マッチング部分DWとエネルギーマッチング部分DE
との間のバランス係数である。αの値は、好ましくは、
その時点のスピーチセグメントα=α(ν)、νは音声
標識、における音声レベルまたは周期性の関数である。
α(v)関数の例の基本的なスケッチを図3に示す。低
い音声レベルaではα=d、bより上の音声レベルでは
α=cであり、αは音声レベルaとbとの間では、αは
dからcに漸減する。
は以下のように表すことができる:
Wのエネルギーである。
ダの全符号化プロセスに好適に使用可能であるが、上記
の式をゲイン量子化の部分(上述のエンコードにおける
ステップ4)のみに使用したときに顕著な効果が見られ
る。ここでの記載は式6で表される基準のゲイン量子化
への適用について詳述するが、同様にcaとcfコード
ブックの検索にも使用することができる。
きることに留意すれば、
て符号ベクトルcaとcfを決定したら、次には対応す
る量子化ゲインの値を見つけなければならない。ベクト
ル量子化のためには、これらの量子化ゲインの値は、ベ
クトル量子化装置のコードブックの値によって与えられ
る。コードブックは複数のエントリーを含んでおり、各
エントリーは一組の量子化ゲインの値gaQとgfQを有
する。
量子化されたゲインの値gaQとgfQを式9に代入し
て、結果として得られるCSWの値を式8に代入し、式
8においてDWEが取ることのできる値をすべて算出す
る。最も小さなDWEの値を与えるベクトル量子化器のコ
ードブックのゲインの値の組を、量子化されたゲインの
値として選択する。
なくとも固定コードブックのゲインの値を得るために予
測的量子化が行われる。検索の前に予測を行うので、こ
の結果は式9に直接組み込まれる。コードブックのゲイ
ンの値を式9に代入する代わりに、予測されたゲインの
値を掛けたコードブックのゲイン値を式9に代入する。
こうして得られたそれぞれのCSWを次に、上述の式8
に代入する。
ンを直接量子化する単純な基準がしばしば使用される。
当該基準とは:
OPTは従来はステップ2または3によって定める(ga
OPTまたはgfOPT)最適ゲイン、gはgaまたはgfス
カラー量子化器のコードブックから得られる量子化され
たゲイン値である。DSGQの値を最小にする量子化ゲイ
ンの値を選択する。
のスピーチセグメントでは適用コードブックは通常大き
な役割を果たさないので、必要ならエネルギーマッチン
グの項は固定コードブックゲインのためだけに使用する
のが好ましい。従って、新しい基準Dg/Qを固定コード
ブックゲインに使用するのに対して、式10の基準を適
用コードブックゲインの量子化に使用することができ
る:
適gfの値、gaQは式10によって定めた量子化適用
コードブックゲインの値である。gfスカラー量子化器
のコードブックからのすべての量子化ゲイン値を式11
にgfとして代入し、Dg/Qの値を最小にする量子化ゲ
イン値を選択する。
はバランス係数αの使用が肝要である。既に述べたよう
に、αは好ましくは音声レベルの関数である。適用コー
ドブックの符号化ゲインは音声レベルの良い指標の例で
ある。音声レベルを決定する例には以下のものが含まれ
る:
はスカラー量子化のための音声レベル測定値、rは上述
のように規定された残余信号である。
領域で決定されるので、音声レベルは例えば式12と1
3のrにSWを代入して式12と13のga・caにW
・Hを掛けて、重み付けスピーチ領域で決定することが
できる。
ために、νの値にはα領域でマッピングする前にフィル
タ処理しても良い。例えば、その時点での値とその前の
サブフレーム4つ分の値に対するメジアンフィルタは以
下のようになる:
ムのνの値である。
vmからバランス係数αのマッピングの例を示すもので
ある。この関数は数学的には以下のように表すことがで
きる。
マッチングは決して発生せず、基準には常に波形マッチ
ングの部分がいくらか含まれることを意味することに留
意する必要がある(式5参照)。
ーが急激に大きくなると、適用コードブックは関連する
信号を有していないことに起因して、適用コードブック
符号化のゲインが小さすぎることがしばしば起きる。し
かし、開始時には波形マッチングは重要であり、従って
オンセットが検出されたらαの値は強制的にゼロにされ
る。最適固定コードブックゲインに基づく簡単な開始検
出は以下のようなものである:
記のステップ3によって決定された最適固定コードブッ
クのゲイン値である。
であった場合には、αの値の増加に制限を加えることが
望ましい場合がある。これは、前の値がゼロであればα
の値を適当な数、例えば2.0、で単に割ることによっ
て実現できる。この手法によって、純粋な波形マッチン
グからよりエネルギーマッチングを取り込んだものへの
移行に伴うアーチファクツを排除することができる。
係数αを決定したら、例えば、前のサブフレームのαの
値と平均することによって、フィルタ処理することが望
ましい。
も)、適用及び固定コードブックベクトルcaとcfを
選択するために使用することができる。適用コードブッ
クベクトルcaはまだわかっていないので、式12と1
3の音声測定を行うことができず、従って式15のバラ
ンスファクタαを計算することもできない。従って、式
8と9を固定及び適用コードブック検索に使用するため
に、経験的手法またはくり返し演算によってバランス係
数αは所望のノイズ状信号が得られるような値に決定す
るのが望ましい。バランス係数αを経験的手法によって
決定したら、上述のステップ1−4に従って、ただし、
式8と9の基準を使用して、固定及び適用コードブック
検索を行うことができる。別な方法としては、経験的な
手法で決定したαの値を用いてステップ2でcaとga
の値を決定した後、ステップ3の固定コードブック検索
で使用すべき式8におけるαの値を決定するために適宜
式12−15を使用することができる。
エンコーダの一部を例示した模式図である。図5に示し
たエンコーダ部分には、符号化されていないスピーチ信
号を受信するための、固定及び適用コードブック61と
62と接続された入力部を有する基準制御器51と、ゲ
イン量子化コードブック50,54および60が含まれ
る。基準制御器51は、図2に示したCELPエンコー
ダデザインに関連するすべての従来の処理を行うことが
でき、これには上述の式1−3と10で表される従来の
基準を実施すること、および、上述のステップ1−4で
表される従来の処理を行うことが含まれる。
御器51はさらに上述の式4−9と11−16で表され
る処理を行うことが可能である。基準制御器51は音声
決定装置53に上述のステップ2で決定されたcaの値
とステップ1−4を実行して得られたgaOPTの値(ま
たはスカラー量子化を行った場合にはgaQ)を与え
る。基準制御器はさらに符号化されていないスピーチ信
号に対して逆合成フィルタH-1を適用して残余信号rを
決定し、これもまた音声決定装置53に入力する。
12(ベクトル量子化の場合)または式13(スカラー
量子化の場合)に従って音声レベルインディケータvを
決定する。音声レベルインディケータvをフィルタ55
の入力部に与えられ、そこで音声レベルインディケータ
vに対して(たとえば前述のメジアンフィルタ処理のよ
うな)フィルタ処理を行い、フィルタ処理された音声レ
ベルインディケータvfを出力する。メジアンフィルタ
の場合には、フィルタ55は、図示したように、直前の
サブフレームの音声レベルインディケータを記憶するた
めの記憶部56を有する。
声レベルインディケータvfは、バランス係数決定装置
57に入力される。バランス係数決定装置57は、バラ
ンスファクタαを決定するために、例えば上述の式15
(vmは図5に示したvfの具体的な例である)と図4に
示したような方法でフィルタ処理された音声レベルイン
ディケータvfを使用する。基準制御器51は、バラン
ス係数決定装置57にその時点のサブフレームに関する
gfOPTの値を入力して、この値は、式16で使用する
ためにバランス係数決定装置57の記憶手段58に記憶
される。バランス係数決定装置はまた、サブフレームご
と(あるいは少なくともαの値がゼロであるとき)のα
の値を記憶する記憶手段59を具備して、前のサブフレ
ームでのαの値がゼロであったら、バランス係数決定装
置57がαの値の増大を制限することができるようにす
る。
め、コードブックベクトルと関連する量子化ゲイン値を
決定するために所望の基準を適用すると、これらのパラ
メータを表す情報が基準制御装置の52の位置から出力
されて通信チャネルを介して送信される。
aと固定コードブックゲイン値gfのためのベクトル量
子化器のコードブック50と対応するスカラー量子化器
のコードブック54と60を示す。上述のように、ベク
トルコードブック50は複数のエントリーを有してお
り、各エントリーは一組の量子化ゲイン値gaQとgfQ
を含む。スカラー量子化コードブック54と60はそれ
ぞれ1つのエントリーごとに1つの量子化ゲイン値を有
する。
の(上で詳細に述べた)処理をフロー図で示すものであ
る。63で符号化されていないスピーチの新しいサブフ
レームを受信すると、64で所望の基準の下で上記のス
テップ1−4を実施して、ca、gaとgfを決定す
る。次に65で、音声測定値vが決定され、66でバラ
ンス係数αが決定される。次に、67で、波形マッチン
グとエネルギーマッチングに基づいてゲイン係数量子化
DWEを定義するためにバランス係数が使用される。68
でベクトル量子化を行う場合には、波形マッチング/エ
ネルギーマッチング組み合わせ基準DWEを使用して69
で両方のゲイン係数を量子化するために使用される。ス
カラー量子化を使用する場合には、70で式10のD
SGQを使用して適用コードブックゲインgaを量子化
し、71で式11の波形マッチング/エネルギーマッチ
ング基準Dg/Qを使って固定コードブックゲインgfを
量子化する。ゲイン係数を量子化した後、次のサブフレ
ームが63で待機している。
ダを具備する通信システムの例を示すブロック図であ
る。図7では、本発明に基づくエンコーダ72が、通信
チャネル75を介して無線装置74と通信する無線装置
73に設けられている。エンコーダ72は符号化されて
いないスピーチ信号を受信し、チャネル75に、無線装
置74に具備された従来型のデコーダ76(例えば、図
1において示したもの)が元のスピーチ信号を再生する
ことができる情報を送信する。一例として、図7に示し
た無線装置73と74は、セルラー電話機であり、チャ
ネル75はセルラー電話ネットワークの通信チャネルで
有っても良い。本発明に係るスピーチエンコーダ72の
他の適用例は非常に多く、明らかなものである。
コーダが、例えば、適切にプログラムされたデジタル信
号処理装置(DSP)やその他の処理装置に単独である
いは外部のサポートロジックと組み合わせて取り入れる
ことができることは明らかである。
基準は波形マッチングとエネルギーマッチングを柔軟に
組み合わせる。従って、一つ以上のものを使用する必要
はなく、適切に組み合わせられた基準を適用することが
できる。基準となるモードの選択を誤る問題は回避され
る。基準の適用的な性質によって波形マッチングとエネ
ルギーマッチングのバランスを円滑に調整することが可
能になる。従って、基準を急激に変更することによるア
ーチファクツが抑制される。
ングは常に維持することができる。ノイズバーストのよ
うな音圧レベルの大きな完全に不適当な信号が発生する
問題は従って回避される。
これらは発明の範囲を制限するものではなく、本発明は
多くの実施形態で実現することができる。 [図面の簡単な説明]
る。
る。
ある。
たグラフである。
関連部分を示す概念図である。
例を示す流れ図である。
ある。
Claims (24)
- 【請求項1】 元のスピーチ信号から、元のスピーチ信
号の近似値を再構成することができる複数のパラメータ
を作成する方法であって、 元のスピーチ信号に応じて元のスピーチ信号を表すこと
を意図した別の信号を作成し、 元のスピーチ信号に関連した波形と前記別の信号に関連
した波形との第1の相違を決定し、 元のスピーチ信号から得られたエネルギーパラメータと
前記別の信号から得られたエネルギーパラメータとの第
2の相違を決定し、 元のスピーチ信号に対応する音声レベルを決定し、前記第1と第2の相違に対して前記音声レベルに基づい
て相対的な重要性を対応付け、 前記相対的な重要性に基づいて前記第1と第2の相違を
使用して、元のスピーチ信号の近似値を再構成すること
ができるパラメータを少なくとも1つ決定することを含
む方法。 - 【請求項2】 前記対応付けるステップは第1と第2の
相違の相対的な重要度を示すバランス係数を算出するこ
とを含む請求項1に記載の方法。 - 【請求項3】 第1と第2の相違にそれぞれ対応する第
1と第2の重み付け係数を決定するためにバランス係数
を使用し、前記第1と第2の相違を使用するステップは
第1と第2の相違に第1と第2の重み付け係数をそれぞ
れ掛けることを含む請求項2に記載の方法。 - 【請求項4】 前記バランス係数を使用して第1と第2
の重み付け係数を決定するステップが、重み付け係数の
一方を選択的にゼロにすることを含む請求項3に記載さ
れた方法。 - 【請求項5】 前記重み付け係数の一方を選択的にゼロ
にするステップは、元のスピーチ信号におけるスピーチ
の開始を検出し、スピーチの開始に対応して第2の重み
付け係数をゼロにすることを含む請求項4に記載の方
法。 - 【請求項6】 前記バランス係数を算出するステップ
は、既に算出されたバランス係数を少なくとも1つ使用
してバランス係数を算出する請求項2に記載の方法。 - 【請求項7】 前記予め算出されたバランス係数に基づ
いてバランス係数を算出するステップは、所定の大きさ
の既に算出されたバランス係数に応じてバランス係数の
大きさを制限することを含む請求項6に記載の方法。 - 【請求項8】 前記バランス係数を算出するステップ
は、当該音声レベルの関数としてバランス係数を算出す
る請求項2に記載の方法。 - 【請求項9】 前記音声レベルを決定するステップは、
音声レベルにフィルタ処理を行ってフィルタ処理された
音声レベルを求め、前記算出するステップはフィルタ処
理された音声レベルの関数としてバランス係数を算出す
る請求項8に記載の方法。 - 【請求項10】 前記フィルタ処理を行うステップは、
メジアンフィルタ処理を行うことを含み、フィルタ処理
を行った音声レベルと元のスピーチ信号に関連する既に
決定済みの音声レベルとを含む音声レベルのグループか
らメジアン音声レベルを決定することを含む請求項9に
記載の方法。 - 【請求項11】 前記対応付けるステップは、それぞれ
第1及び第2の相違に対応する第1と第2の重み付け係
数を決定し、音声レベルの関数として重み付け係数を決
定することを含む請求項1に記載の方法。 - 【請求項12】 音声レベルの関数として第1と第2の
重み付け係数を決定する前記ステップは、第1の音声レ
ベルに対応して第1の重み付け係数を第2の重み付け係
数よりも大きくし、第1の音声レベルよりも低い第2音
声レベルに対応して第2の重み付け係数を第1の重み付
け係数よりも大きくする請求項11に記載の方法。 - 【請求項13】 前記使用するステップは符号励起線形
予測スピーチ符号化方法に基づいて元のスピーチ信号を
再構成する量子化されたゲイン値を決定するために第1
と第2の相違を使用する請求項12に記載の方法。 - 【請求項14】 元のスピーチ信号を受信するための入
力部と、 元のスピーチ信号の近似値を再構成することができるパ
ラメータをあらわす情報を提供するための出力部と、 前記入力部と出力部の間に設けられて、元のスピーチ信
号に応じて元のスピーチ信号を表現することを意図した
別のスピーチ信号を作成する制御装置であって、前記制
御装置はさらに元のスピーチ信号と別の信号との間の第
1と第2の相違に基づいて少なくとも1つのパラメータ
を決定し、前記第1の相違は元のスピーチ信号に対応す
る波形と別の信号に対応する波形との相違であり、第2
の相違は元のスピーチ信号から得られたエネルギーパラ
メータと別の信号から得られたエネルギーパラメータの
相違である制御装置と、 前記少なくとも1つのパラメータの決定における第1と
第2の相違の相対的な重要性を示すバランス係数を算出
するバランス係数決定装置であって、前記制御装置に接
続された出力部を有して、当該制御装置が前記少なくと
も1つのパラメータを決定するために使用するように制
御装置にバランス係数を供給するバランス係数決定装置
と、 元のスピーチ信号の音声レベルを決定するために前記入
力部に接続された音声レベル決定装置であって、前記バ
ランス係数決定装置の入力部に接続された出力部を有し
てバランス係数決定装置に対して音声レベルを供給し、
前記バランス係数決定装置に当該音声レベル情報に基づ
いてバランス係数を決定させる音声レベル決定装置とを
有するスピーチエンコード装置。 - 【請求項15】 前記音声レベル決定装置の出力部と前
記バランス係数決定装置の入力部に接続されたフィルタ
を具備して、前記音声レベル決定装置から音声レベルを
受信して当該バランス係数決定装置にフィルタ処理され
た音声レベルを提供する請求項14に記載の装置。 - 【請求項16】 前記フィルタはメジアンフィルタであ
る請求項15に記載の装置。 - 【請求項17】 前記制御装置は前記バランス係数に対
応して第1と第2の相違に関する第1と第2の重み付け
係数を決定する請求項14に記載の装置。 - 【請求項18】 前記制御装置は、前記少なくとも1つ
のパラメータを決定するに際して、第1と第2の相違に
それぞれ第1と第2の重み付け係数を掛ける請求項17
に記載の装置。 - 【請求項19】 前記制御装置は元のスピーチ信号でス
ピーチが開始されたときは第2の相違をゼロとする請求
項18に記載の方法。 - 【請求項20】 前記バランス係数決定装置がすでに算
出されたバランス係数を少なくとも1つ使用してバラン
ス係数を算出するものである請求項14に記載の装置。 - 【請求項21】 前記バランス係数決定装置が既に計算
したバランス係数が所定の値であったときはバランス係
数の値を制限する請求項20に記載の装置。 - 【請求項22】 前記スピーチエンコード装置が符号励
起線形予測スピーチエンコーダを有し、前記少なくとも
1つのパラメータが量子化されたゲイン値である請求項
14に記載の装置。 - 【請求項23】 使用者の入力刺激を受ける入力部と、 通信チャネルに出力信号を送出して、通信チャネルを介
して受信機に送信させる出力部と、 入力部が前記無線装置の入力と接続され出力部が前記無
線装置の出力と接続されたスピーチエンコード装置であ
って、前記スピーチエンコード装置の入力部は該無線装
置の入力部から元のスピーチ信号を受け、該スピーチエ
ンコード装置の出力部は前記無線装置の出力部に受信機
において元のスピーチ信号の近似値を再構成することが
できるパラメータを示す情報を供給し、該スピーチエン
コード装置はその入力部と出力部とに接続されて元のス
ピーチ信号に対応して元のスピーチ信号を表すことを意
図した別の信号を与える制御装置を具備し、該制御装置
はさらにパラメータのうちの少なくとも1つを元のスピ
ーチ信号と別の信号との第1と第2の相違に基づいて決
定し、前記第1の相違は元のスピーチ信号波形と別の信
号波形との相違であり、第2の相違は元のスピーチ信号
から得られたエネルギーパラメータと別の信号から得ら
れたエネルギーパラメータの相違であるスピーチエンコ
ード装置と、 前記少なくとも1つのパラメータの決定における第1と
第2の相違の相対的な重要性を示すバランス係数を算出
するバランス係数決定装置であって、前記制御装置に接
続された出力部を有して、当該制御装置が前記少なくと
も1つのパラメータを決定するために使用するように制
御装置にバランス係数を供給するバランス係数決定装置
と、 元のスピーチ信号の音声レベルを決定するために前記入
力部に接続された音声レベル決定装置であって、前記バ
ランス係数決定装置の入力部に接続された出力部を有し
てバランス係数決定装置に対して音声レベルを供給し、
前記バランス係数決定装置に当該音声レベル情報に基づ
いてバランス係数を決定させる音声レベル決定装置とを
有する通信システムで使用する無線装置。 - 【請求項24】 前記無線装置はセルラー電話の一部を
構成する請求項23に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/144,961 US6192335B1 (en) | 1998-09-01 | 1998-09-01 | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US09/144,961 | 1998-09-01 | ||
PCT/SE1999/001350 WO2000013174A1 (en) | 1998-09-01 | 1999-08-06 | An adaptive criterion for speech coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002524760A JP2002524760A (ja) | 2002-08-06 |
JP3483853B2 true JP3483853B2 (ja) | 2004-01-06 |
Family
ID=22510960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000568079A Expired - Lifetime JP3483853B2 (ja) | 1998-09-01 | 1999-08-06 | スピーチコーディングのための適用基準 |
Country Status (15)
Country | Link |
---|---|
US (1) | US6192335B1 (ja) |
EP (1) | EP1114414B1 (ja) |
JP (1) | JP3483853B2 (ja) |
KR (1) | KR100421648B1 (ja) |
CN (1) | CN1192357C (ja) |
AR (1) | AR027812A1 (ja) |
AU (1) | AU774998B2 (ja) |
BR (1) | BR9913292B1 (ja) |
CA (1) | CA2342353C (ja) |
DE (1) | DE69906330T2 (ja) |
MY (1) | MY123316A (ja) |
RU (1) | RU2223555C2 (ja) |
TW (1) | TW440812B (ja) |
WO (1) | WO2000013174A1 (ja) |
ZA (1) | ZA200101666B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0005515D0 (en) * | 2000-03-08 | 2000-04-26 | Univ Glasgow | Improved vector quantization of images |
US7254532B2 (en) | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
DE10026904A1 (de) | 2000-04-28 | 2002-01-03 | Deutsche Telekom Ag | Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
CN100358534C (zh) * | 2005-11-21 | 2008-01-02 | 北京百林康源生物技术有限责任公司 | 错位双链寡核苷酸在制备治疗禽流感病毒感染的药物中的应用 |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
KR101406113B1 (ko) * | 2006-10-24 | 2014-06-11 | 보이세지 코포레이션 | 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치 |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除*** |
US8644526B2 (en) * | 2008-06-27 | 2014-02-04 | Panasonic Corporation | Audio signal decoding device and balance adjustment method for audio signal decoding device |
CA2772822A1 (en) * | 2009-09-02 | 2011-03-10 | Rockstar Bidco, LP | Systems and methods of encoding using a reduced codebook with adaptive resetting |
MX2012011943A (es) * | 2010-04-14 | 2013-01-24 | Voiceage Corp | Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp. |
CN111370009B (zh) | 2013-10-18 | 2023-12-22 | 弗朗霍夫应用科学研究促进协会 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
EP3058569B1 (en) | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4969193A (en) * | 1985-08-29 | 1990-11-06 | Scott Instruments Corporation | Method and apparatus for generating a signal transformation and the use thereof in signal processing |
US5060269A (en) | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
US5255339A (en) | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5657418A (en) | 1991-09-05 | 1997-08-12 | Motorola, Inc. | Provision of speech coder gain information using multiple coding modes |
WO1994025959A1 (en) | 1993-04-29 | 1994-11-10 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
CA2179194A1 (en) * | 1993-12-16 | 1995-06-29 | Andrew Wilson Howitt | System and method for performing voice compression |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5602959A (en) * | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2729244B1 (fr) * | 1995-01-06 | 1997-03-28 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5668925A (en) * | 1995-06-01 | 1997-09-16 | Martin Marietta Corporation | Low data rate speech encoder with mixed excitation |
US5649051A (en) * | 1995-06-01 | 1997-07-15 | Rothweiler; Joseph Harvey | Constant data rate speech encoder for limited bandwidth path |
FR2739995B1 (fr) | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5819224A (en) * | 1996-04-01 | 1998-10-06 | The Victoria University Of Manchester | Split matrix quantization |
JPH10105195A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
US6148282A (en) | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
-
1998
- 1998-09-01 US US09/144,961 patent/US6192335B1/en not_active Expired - Lifetime
-
1999
- 1999-08-06 CA CA002342353A patent/CA2342353C/en not_active Expired - Lifetime
- 1999-08-06 CN CNB99812785XA patent/CN1192357C/zh not_active Expired - Lifetime
- 1999-08-06 WO PCT/SE1999/001350 patent/WO2000013174A1/en active IP Right Grant
- 1999-08-06 BR BRPI9913292-3A patent/BR9913292B1/pt active IP Right Grant
- 1999-08-06 JP JP2000568079A patent/JP3483853B2/ja not_active Expired - Lifetime
- 1999-08-06 RU RU2001108584/09A patent/RU2223555C2/ru active
- 1999-08-06 EP EP99946485A patent/EP1114414B1/en not_active Expired - Lifetime
- 1999-08-06 KR KR10-2001-7002609A patent/KR100421648B1/ko not_active IP Right Cessation
- 1999-08-06 DE DE69906330T patent/DE69906330T2/de not_active Expired - Lifetime
- 1999-08-06 AU AU58887/99A patent/AU774998B2/en not_active Expired
- 1999-08-16 TW TW088113965A patent/TW440812B/zh not_active IP Right Cessation
- 1999-08-19 MY MYPI99003552A patent/MY123316A/en unknown
- 1999-08-31 AR ARP990104361A patent/AR027812A1/es active IP Right Grant
-
2001
- 2001-02-28 ZA ZA200101666A patent/ZA200101666B/xx unknown
Also Published As
Publication number | Publication date |
---|---|
KR20010073069A (ko) | 2001-07-31 |
WO2000013174A1 (en) | 2000-03-09 |
AU774998B2 (en) | 2004-07-15 |
CN1325529A (zh) | 2001-12-05 |
BR9913292B1 (pt) | 2013-04-09 |
CA2342353A1 (en) | 2000-03-09 |
US6192335B1 (en) | 2001-02-20 |
MY123316A (en) | 2006-05-31 |
DE69906330D1 (de) | 2003-04-30 |
KR100421648B1 (ko) | 2004-03-11 |
EP1114414A1 (en) | 2001-07-11 |
AU5888799A (en) | 2000-03-21 |
AR027812A1 (es) | 2003-04-16 |
CN1192357C (zh) | 2005-03-09 |
JP2002524760A (ja) | 2002-08-06 |
BR9913292A (pt) | 2001-09-25 |
TW440812B (en) | 2001-06-16 |
RU2223555C2 (ru) | 2004-02-10 |
CA2342353C (en) | 2009-10-20 |
DE69906330T2 (de) | 2003-11-27 |
ZA200101666B (en) | 2001-09-25 |
EP1114414B1 (en) | 2003-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3481390B2 (ja) | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 | |
US7020605B2 (en) | Speech coding system with time-domain noise attenuation | |
JP3483891B2 (ja) | スピーチコーダ | |
JP4550289B2 (ja) | Celp符号変換 | |
EP1050040B1 (en) | A decoding method and system comprising an adaptive postfilter | |
JP4213243B2 (ja) | 音声符号化方法及び該方法を実施する装置 | |
JP3678519B2 (ja) | オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法 | |
JP3566652B2 (ja) | 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法 | |
US7613607B2 (en) | Audio enhancement in coded domain | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP3483853B2 (ja) | スピーチコーディングのための適用基準 | |
KR100304682B1 (ko) | 음성 코더용 고속 여기 코딩 | |
US10304470B2 (en) | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information | |
JP6626123B2 (ja) | オーディオ信号を符号化するためのオーディオエンコーダー及び方法 | |
EP1544848B1 (en) | Audio enhancement in coded domain | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
JP4295372B2 (ja) | 音声符号化装置 | |
CN100369108C (zh) | 编码域中的音频增强的方法和设备 | |
JPH09244695A (ja) | 音声符号化装置及び復号化装置 | |
McCree et al. | A 1.6 kb/s MELP coder for wireless communications | |
JPH08160996A (ja) | 音声符号化装置 | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JP3270146B2 (ja) | 音声符号化装置 | |
JPH06222796A (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
R150 | Certificate of patent or registration of utility model |
Ref document number: 3483853 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081017 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101017 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101017 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |