JP3483853B2 - スピーチコーディングのための適用基準 - Google Patents

スピーチコーディングのための適用基準

Info

Publication number
JP3483853B2
JP3483853B2 JP2000568079A JP2000568079A JP3483853B2 JP 3483853 B2 JP3483853 B2 JP 3483853B2 JP 2000568079 A JP2000568079 A JP 2000568079A JP 2000568079 A JP2000568079 A JP 2000568079A JP 3483853 B2 JP3483853 B2 JP 3483853B2
Authority
JP
Japan
Prior art keywords
determining
balance
speech signal
signal
balance coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000568079A
Other languages
English (en)
Other versions
JP2002524760A (ja
Inventor
エリック エクデン,
ロアール ハーゲン,
Original Assignee
テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22510960&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP3483853(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by テレフォンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2002524760A publication Critical patent/JP2002524760A/ja
Application granted granted Critical
Publication of JP3483853B2 publication Critical patent/JP3483853B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般的にはスピーチ
コーディングに関するものであり、より具体的には、ノ
イズ状の、低ビットレート信号を取り込むための改善さ
れたコーディング基準に関するものである。
【0002】
【発明の技術背景】最も新しいスピーチコーダは、何ら
かの形のモデルに基づいて符号化されたスピーチ信号を
作成するものである。モデルのパラメータと信号は量子
化されて、それらを記述する情報はチャネルを介して送
信される。セルラー電話への適用において支配的なコー
ダのモデルは符号励起線形予測手法(CELP)であ
る。
【0003】図1に従来のCELPデコーダを示す。符
号化されたスピーチが典型的には10のオーダである全
ポール合成フィルタを通して供給される励起信号によっ
て作成される。励起信号は、対応するコード表から取り
出される2つの信号caとcfの合計として得られ(一
方は固定、他方は適用型である)、次に適当なゲイン係
数gaとgfを掛ける。コードブック信号は典型的には
5msの長さで(サブフレーム1つ)、合成フィルター
は典型的には20msごとに(1フレームで)更新され
る。CELPモデルに関連するパラメータは、合成フィ
ルタ係数、コードブックの内容及びゲイン係数である。
【0004】図2には、従来のCELPエンコーダが示
されている。CELPデコーダ(図1)のレプリカを用
いてサブフレーム毎のコード信号候補を作成する。21
で符号化された信号は符号化されていない(デジタル化
された)信号と比較されて、符号化プロセスを制御する
ために重み付けられた誤差信号が使用される。合成フィ
ルタは線形予測(LP)を使用して決定される。この従
来の符号化手順は合成による線形予測分析(LPAS)
とよばれる。
【0005】上の記載からわかるように、LPASコー
ダは重み付けられたスピーチ領域で波形マッチングを使
用する。つまり、誤差信号は重み付けフィルタによって
フィルタ処理される。このことは以下に示す2乗誤差基
準を最小化するものとして表現される:
【数1】 ここで、Sは符号化されていないスピーチサンプルのサ
ブフレームを有するベクトル、SWはSに重み付けフィ
ルタWを掛けたもの、caとcfはそれぞれ適用及び固
定コードブックからの符号ベクトル、Wは重み付けフィ
ルタ処理を行うマトリックス、Hは合成フィルタ処理を
行うマトリックス、CSWは符号化された信号に重み付
けフィルタWを掛けたものである。従来は、式1に記載
された基準を最小化する符号化処理は以下のステップに
従って行われている:
【表1】
【0006】上記の波形マッチング手順は、少なくとも
8kb/s程度以上のビットレートであれば良く機能す
ることが知られている。しかし、ビットレートを下げる
と、音声のないスピーチや背景ノイズのような非周期的
なノイズ状の信号については波形マッチングの能力に問
題がある。音声を有するスピーチ部分については、波形
マッチング基準はそれでもよく機能するが、ノイズ状の
信号に対する波形マッチング能力が劣るために、符号化
された信号のレベルが低くなりすぎ(スワーリングとし
て知られている)不愉快な変化を伴うものになることが
多い。
【0007】ノイズ状の信号に関しては、関連技術の分
野では、信号のスペクトル特性をマッチさせることで良
好な信号レベル(ゲイン)の一致が得られることが知ら
れている。線形予測合成フィルタは信号のスペクトル特
性を与えるので、式1に代えて用いることができる基準
は以下のようになる:
【数2】 ここで、ESは符号化されていないスピーチ信号のエネ
ルギー、ECSは符号化信号CS=H・(ga・ca+g
f・cf)のエネルギーである。式1が波形マッチング
を表すのに対して、式2は、エネルギーマッチングを表
すものである。この基準もまた重み付けフィルタWを導
入して重み付けスピーチに使用することができる。式2
では、基準を式1と同じ領域にするだけのために平方根
を求める処理が含まれていることに注意されたい;この
ことは必須ではなく要件ではない。これ以外にも、DE
=|ES−ECS|のような別のエネルギーマッチング基
準も考えられる。
【0008】上記の基準は残余に関して以下のように表
現することもできる:
【数3】 ここで、Erは、合成フィルタの逆(H-1)によってフ
ィルタ処理Sして得られる残余信号rのエネルギーであ
り、Exは、x=ga・ca+gf・cfで表される励
起信号のエネルギーである。
【0009】上記の異なる基準は、音声のないスピーチ
と背景ノイズとに異なる符号化モード(例えばエネルギ
ーマッチング)を使用する従来のマルチモード符号化で
使用されている。これらのモードでは、式2と3に示し
たエネルギーマッチング基準を使用している。この方法
の欠点は、例えば、音声のあるスピーチには波形マッチ
ングモード(式1)を選択し、音声のないスピーチと背
景ノイズのようなノイズ状信号に対してはエネルギーマ
ッチングモード(式2と3)を選択するようにモードを
決定しなければならないことである。モードの決定はデ
リケートであり、間違えると耳障りなアーチファクトが
発生する。また、モード間の符号化手法の激しい変化に
よって望ましくない音が発生する。
【0010】従って、低いビットレートにおいて、上述
のようなマルチモード符号化の欠点を解決することがで
きる、ノイズ状信号の改善された符号化手法を提供する
ことが望まれる。本発明は、波形マッチングとエネルギ
ーマッチング基準を好ましい形で組み合わせて、マルチ
モード符号化の欠点を排除して、低ビットレートのノイ
ズ状信号を符号化することができる。
【0011】 [発明の詳細な説明]本発明は波形マッチング基準とエ
ネルギーマッチング基準を1つの基準DWEに統合したも
のである。波形マッチングとエネルギーマッチングのバ
ランスは重み付け係数を用いて穏やかかつ適用的に調整
する:
【数4】 ここで、KとLは波形マッチング変形DWとエネルギー
マッチング変形DEとの間の相対的な重み付けを決定す
る重み付け係数である。重み付け係数KとLは、以下の
ように、それぞれ1−αとαで表現することができる:
【数5】 ここで、αは0と1の間の値をとる、当該基準において
波形マッチング部分DWとエネルギーマッチング部分DE
との間のバランス係数である。αの値は、好ましくは、
その時点のスピーチセグメントα=α(ν)、νは音声
標識、における音声レベルまたは周期性の関数である。
α(v)関数の例の基本的なスケッチを図3に示す。低
い音声レベルaではα=d、bより上の音声レベルでは
α=cであり、αは音声レベルaとbとの間では、αは
dからcに漸減する。
【0012】1つの特定の形式においては、式5の基準
は以下のように表すことができる:
【数6】 ここで、ESWは信号SWのエネルギー、ECSWは信号CS
Wのエネルギーである。
【0013】上記の式6またはその変形がCELPコー
ダの全符号化プロセスに好適に使用可能であるが、上記
の式をゲイン量子化の部分(上述のエンコードにおける
ステップ4)のみに使用したときに顕著な効果が見られ
る。ここでの記載は式6で表される基準のゲイン量子化
への適用について詳述するが、同様にcaとcfコード
ブックの検索にも使用することができる。
【0014】式6のECSWは以下のように表すこともで
きることに留意すれば、
【数7】 式6を以下のように表現することができる:
【数8】 式1を用いて以下のように変形することができる。
【数9】
【0015】例えば上述の式1とステップ1−3によっ
て符号ベクトルcaとcfを決定したら、次には対応す
る量子化ゲインの値を見つけなければならない。ベクト
ル量子化のためには、これらの量子化ゲインの値は、ベ
クトル量子化装置のコードブックの値によって与えられ
る。コードブックは複数のエントリーを含んでおり、各
エントリーは一組の量子化ゲインの値gaQとgfQを有
する。
【0016】ベクトル量子化コードブックからすべての
量子化されたゲインの値gaQとgfQを式9に代入し
て、結果として得られるCSWの値を式8に代入し、式
8においてDWEが取ることのできる値をすべて算出す
る。最も小さなDWEの値を与えるベクトル量子化器のコ
ードブックのゲインの値の組を、量子化されたゲインの
値として選択する。
【0017】新しい符号化器では、ゲインの値または少
なくとも固定コードブックのゲインの値を得るために予
測的量子化が行われる。検索の前に予測を行うので、こ
の結果は式9に直接組み込まれる。コードブックのゲイ
ンの値を式9に代入する代わりに、予測されたゲインの
値を掛けたコードブックのゲイン値を式9に代入する。
こうして得られたそれぞれのCSWを次に、上述の式8
に代入する。
【0018】ゲイン係数の量子化のためには、最適ゲイ
ンを直接量子化する単純な基準がしばしば使用される。
当該基準とは:
【数10】 であり、ここでDSGQはスカラーゲイン量子化基準、g
OPTは従来はステップ2または3によって定める(ga
OPTまたはgfOPT)最適ゲイン、gはgaまたはgfス
カラー量子化器のコードブックから得られる量子化され
たゲイン値である。DSGQの値を最小にする量子化ゲイ
ンの値を選択する。
【0019】ゲイン係数を量子化する際には、ノイズ状
のスピーチセグメントでは適用コードブックは通常大き
な役割を果たさないので、必要ならエネルギーマッチン
グの項は固定コードブックゲインのためだけに使用する
のが好ましい。従って、新しい基準Dg/Qを固定コード
ブックゲインに使用するのに対して、式10の基準を適
用コードブックゲインの量子化に使用することができ
る:
【数11】 ここで、gfOPTは上述のステップ3によって定めた最
適gfの値、gaQは式10によって定めた量子化適用
コードブックゲインの値である。gfスカラー量子化器
のコードブックからのすべての量子化ゲイン値を式11
にgfとして代入し、Dg/Qの値を最小にする量子化ゲ
イン値を選択する。
【0020】新しい基準の下で良好な性能を得るために
はバランス係数αの使用が肝要である。既に述べたよう
に、αは好ましくは音声レベルの関数である。適用コー
ドブックの符号化ゲインは音声レベルの良い指標の例で
ある。音声レベルを決定する例には以下のものが含まれ
る:
【数12】
【数13】 ここで、vvはベクトル量子化の音声レベル測定値、vs
はスカラー量子化のための音声レベル測定値、rは上述
のように規定された残余信号である。
【0021】音声レベルは式12と13を使用して残余
領域で決定されるので、音声レベルは例えば式12と1
3のrにSWを代入して式12と13のga・caにW
・Hを掛けて、重み付けスピーチ領域で決定することが
できる。
【0022】νの値がローカルに変動することを避ける
ために、νの値にはα領域でマッピングする前にフィル
タ処理しても良い。例えば、その時点での値とその前の
サブフレーム4つ分の値に対するメジアンフィルタは以
下のようになる:
【数14】 ここで、ν-1、ν-2、ν-3、ν-4は直前の4つのフレー
ムのνの値である。
【0023】図4に示した関数は、音声インディケータ
mからバランス係数αのマッピングの例を示すもので
ある。この関数は数学的には以下のように表すことがで
きる。
【数15】 αの最大値は1よりも小さいことは、完全なエネルギー
マッチングは決して発生せず、基準には常に波形マッチ
ングの部分がいくらか含まれることを意味することに留
意する必要がある(式5参照)。
【0024】スピーチの開始において、信号のエネルギ
ーが急激に大きくなると、適用コードブックは関連する
信号を有していないことに起因して、適用コードブック
符号化のゲインが小さすぎることがしばしば起きる。し
かし、開始時には波形マッチングは重要であり、従って
オンセットが検出されたらαの値は強制的にゼロにされ
る。最適固定コードブックゲインに基づく簡単な開始検
出は以下のようなものである:
【数16】 ここで、gfOPT-1は、直前のサブフレームに対して上
記のステップ3によって決定された最適固定コードブッ
クのゲイン値である。
【0025】直前のサブフレームにおいてαの値がゼロ
であった場合には、αの値の増加に制限を加えることが
望ましい場合がある。これは、前の値がゼロであればα
の値を適当な数、例えば2.0、で単に割ることによっ
て実現できる。この手法によって、純粋な波形マッチン
グからよりエネルギーマッチングを取り込んだものへの
移行に伴うアーチファクツを排除することができる。
【0026】同様に、式15と16を使用してバランス
係数αを決定したら、例えば、前のサブフレームのαの
値と平均することによって、フィルタ処理することが望
ましい。
【0027】上述のように、式6は(従って式8と9
も)、適用及び固定コードブックベクトルcaとcfを
選択するために使用することができる。適用コードブッ
クベクトルcaはまだわかっていないので、式12と1
3の音声測定を行うことができず、従って式15のバラ
ンスファクタαを計算することもできない。従って、式
8と9を固定及び適用コードブック検索に使用するため
に、経験的手法またはくり返し演算によってバランス係
数αは所望のノイズ状信号が得られるような値に決定す
るのが望ましい。バランス係数αを経験的手法によって
決定したら、上述のステップ1−4に従って、ただし、
式8と9の基準を使用して、固定及び適用コードブック
検索を行うことができる。別な方法としては、経験的な
手法で決定したαの値を用いてステップ2でcaとga
の値を決定した後、ステップ3の固定コードブック検索
で使用すべき式8におけるαの値を決定するために適宜
式12−15を使用することができる。
【0028】図5は、本発明に基づくCELPスピーチ
エンコーダの一部を例示した模式図である。図5に示し
たエンコーダ部分には、符号化されていないスピーチ信
号を受信するための、固定及び適用コードブック61と
62と接続された入力部を有する基準制御器51と、ゲ
イン量子化コードブック50,54および60が含まれ
る。基準制御器51は、図2に示したCELPエンコー
ダデザインに関連するすべての従来の処理を行うことが
でき、これには上述の式1−3と10で表される従来の
基準を実施すること、および、上述のステップ1−4で
表される従来の処理を行うことが含まれる。
【0029】上述のような従来の処理に加えて、基準制
御器51はさらに上述の式4−9と11−16で表され
る処理を行うことが可能である。基準制御器51は音声
決定装置53に上述のステップ2で決定されたcaの値
とステップ1−4を実行して得られたgaOPTの値(ま
たはスカラー量子化を行った場合にはgaQ)を与え
る。基準制御器はさらに符号化されていないスピーチ信
号に対して逆合成フィルタH-1を適用して残余信号rを
決定し、これもまた音声決定装置53に入力する。
【0030】音声決定装置53は上述の入力を受けて式
12(ベクトル量子化の場合)または式13(スカラー
量子化の場合)に従って音声レベルインディケータvを
決定する。音声レベルインディケータvをフィルタ55
の入力部に与えられ、そこで音声レベルインディケータ
vに対して(たとえば前述のメジアンフィルタ処理のよ
うな)フィルタ処理を行い、フィルタ処理された音声レ
ベルインディケータvfを出力する。メジアンフィルタ
の場合には、フィルタ55は、図示したように、直前の
サブフレームの音声レベルインディケータを記憶するた
めの記憶部56を有する。
【0031】フィルタ55からのフィルタ処理された音
声レベルインディケータvfは、バランス係数決定装置
57に入力される。バランス係数決定装置57は、バラ
ンスファクタαを決定するために、例えば上述の式15
(vmは図5に示したvfの具体的な例である)と図4に
示したような方法でフィルタ処理された音声レベルイン
ディケータvfを使用する。基準制御器51は、バラン
ス係数決定装置57にその時点のサブフレームに関する
gfOPTの値を入力して、この値は、式16で使用する
ためにバランス係数決定装置57の記憶手段58に記憶
される。バランス係数決定装置はまた、サブフレームご
と(あるいは少なくともαの値がゼロであるとき)のα
の値を記憶する記憶手段59を具備して、前のサブフレ
ームでのαの値がゼロであったら、バランス係数決定装
置57がαの値の増大を制限することができるようにす
る。
【0032】基準制御装置51が合成フィルタ係数を求
め、コードブックベクトルと関連する量子化ゲイン値を
決定するために所望の基準を適用すると、これらのパラ
メータを表す情報が基準制御装置の52の位置から出力
されて通信チャネルを介して送信される。
【0033】図5はまた、適用コードブックゲイン値g
aと固定コードブックゲイン値gfのためのベクトル量
子化器のコードブック50と対応するスカラー量子化器
のコードブック54と60を示す。上述のように、ベク
トルコードブック50は複数のエントリーを有してお
り、各エントリーは一組の量子化ゲイン値gaQとgfQ
を含む。スカラー量子化コードブック54と60はそれ
ぞれ1つのエントリーごとに1つの量子化ゲイン値を有
する。
【0034】図6は、図5に示したエンコーダ部分の例
の(上で詳細に述べた)処理をフロー図で示すものであ
る。63で符号化されていないスピーチの新しいサブフ
レームを受信すると、64で所望の基準の下で上記のス
テップ1−4を実施して、ca、gaとgfを決定す
る。次に65で、音声測定値vが決定され、66でバラ
ンス係数αが決定される。次に、67で、波形マッチン
グとエネルギーマッチングに基づいてゲイン係数量子化
WEを定義するためにバランス係数が使用される。68
でベクトル量子化を行う場合には、波形マッチング/エ
ネルギーマッチング組み合わせ基準DWEを使用して69
で両方のゲイン係数を量子化するために使用される。ス
カラー量子化を使用する場合には、70で式10のD
SGQを使用して適用コードブックゲインgaを量子化
し、71で式11の波形マッチング/エネルギーマッチ
ング基準Dg/Qを使って固定コードブックゲインgfを
量子化する。ゲイン係数を量子化した後、次のサブフレ
ームが63で待機している。
【0035】図7は、本発明に基づくスピーチエンコー
ダを具備する通信システムの例を示すブロック図であ
る。図7では、本発明に基づくエンコーダ72が、通信
チャネル75を介して無線装置74と通信する無線装置
73に設けられている。エンコーダ72は符号化されて
いないスピーチ信号を受信し、チャネル75に、無線装
置74に具備された従来型のデコーダ76(例えば、図
1において示したもの)が元のスピーチ信号を再生する
ことができる情報を送信する。一例として、図7に示し
た無線装置73と74は、セルラー電話機であり、チャ
ネル75はセルラー電話ネットワークの通信チャネルで
有っても良い。本発明に係るスピーチエンコーダ72の
他の適用例は非常に多く、明らかなものである。
【0036】当業者には、本発明に基づくスピーチエン
コーダが、例えば、適切にプログラムされたデジタル信
号処理装置(DSP)やその他の処理装置に単独である
いは外部のサポートロジックと組み合わせて取り入れる
ことができることは明らかである。
【0037】本発明に係る新しいスピーチコーディング
基準は波形マッチングとエネルギーマッチングを柔軟に
組み合わせる。従って、一つ以上のものを使用する必要
はなく、適切に組み合わせられた基準を適用することが
できる。基準となるモードの選択を誤る問題は回避され
る。基準の適用的な性質によって波形マッチングとエネ
ルギーマッチングのバランスを円滑に調整することが可
能になる。従って、基準を急激に変更することによるア
ーチファクツが抑制される。
【0038】新しい基準においてもある種の波形マッチ
ングは常に維持することができる。ノイズバーストのよ
うな音圧レベルの大きな完全に不適当な信号が発生する
問題は従って回避される。
【0039】本発明の実施例について詳細に述べたが、
これらは発明の範囲を制限するものではなく、本発明は
多くの実施形態で実現することができる。 [図面の簡単な説明]
【図1】 従来のCELPデコーダを示す概念図であ
る。
【図2】 従来のCELPエンコーダを示す概念図であ
る。
【図3】 本発明に基づくバランス係数を示すグラフで
ある。
【図4】 図3に示したバランス係数の特定の例を示し
たグラフである。
【図5】 本発明に基づくCELPエンコーダの一例の
関連部分を示す概念図である。
【図6】 図5に示したCELPエンコーダの作動の一
例を示す流れ図である。
【図7】 本発明に基づく通信システムを示す概念図で
ある。
フロントページの続き (56)参考文献 特開 平9−167000(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/12

Claims (24)

    (57)【特許請求の範囲】
  1. 【請求項1】 元のスピーチ信号から、元のスピーチ信
    号の近似値を再構成することができる複数のパラメータ
    を作成する方法であって、 元のスピーチ信号に応じて元のスピーチ信号を表すこと
    を意図した別の信号を作成し、 元のスピーチ信号に関連した波形と前記別の信号に関連
    した波形との第1の相違を決定し、 元のスピーチ信号から得られたエネルギーパラメータと
    前記別の信号から得られたエネルギーパラメータとの第
    2の相違を決定し、 元のスピーチ信号に対応する音声レベルを決定し、前記第1と第2の相違に対して前記音声レベルに基づい
    て相対的な重要性を対応付け、 前記相対的な重要性に基づいて前記第1と第2の相違を
    使用して、元のスピーチ信号の近似値を再構成すること
    ができるパラメータを少なくとも1つ決定することを含
    む方法。
  2. 【請求項2】 前記対応付けるステップは第1と第2の
    相違の相対的な重要度を示すバランス係数を算出するこ
    とを含む請求項1に記載の方法。
  3. 【請求項3】 第1と第2の相違にそれぞれ対応する第
    1と第2の重み付け係数を決定するためにバランス係数
    を使用し、前記第1と第2の相違を使用するステップは
    第1と第2の相違に第1と第2の重み付け係数をそれぞ
    れ掛けることを含む請求項2に記載の方法。
  4. 【請求項4】 前記バランス係数を使用して第1と第2
    の重み付け係数を決定するステップが、重み付け係数の
    一方を選択的にゼロにすることを含む請求項3に記載さ
    れた方法。
  5. 【請求項5】 前記重み付け係数の一方を選択的にゼロ
    にするステップは、元のスピーチ信号におけるスピーチ
    の開始を検出し、スピーチの開始に対応して第2の重み
    付け係数をゼロにすることを含む請求項4に記載の方
    法。
  6. 【請求項6】 前記バランス係数を算出するステップ
    は、既に算出されたバランス係数を少なくとも1つ使用
    してバランス係数を算出する請求項2に記載の方法。
  7. 【請求項7】 前記予め算出されたバランス係数に基づ
    いてバランス係数を算出するステップは、所定の大きさ
    の既に算出されたバランス係数に応じてバランス係数の
    大きさを制限することを含む請求項6に記載の方法。
  8. 【請求項8】 前記バランス係数を算出するステップ
    は、当該音声レベルの関数としてバランス係数を算出す
    る請求項2に記載の方法。
  9. 【請求項9】 前記音声レベルを決定するステップは、
    音声レベルにフィルタ処理を行ってフィルタ処理された
    音声レベルを求め、前記算出するステップはフィルタ処
    理された音声レベルの関数としてバランス係数を算出す
    る請求項8に記載の方法。
  10. 【請求項10】 前記フィルタ処理を行うステップは、
    メジアンフィルタ処理を行うことを含み、フィルタ処理
    を行った音声レベルと元のスピーチ信号に関連する既に
    決定済みの音声レベルとを含む音声レベルのグループか
    らメジアン音声レベルを決定することを含む請求項9に
    記載の方法。
  11. 【請求項11】 前記対応付けるステップは、それぞれ
    第1及び第2の相違に対応する第1と第2の重み付け係
    数を決定し、音声レベルの関数として重み付け係数を決
    定することを含む請求項1に記載の方法。
  12. 【請求項12】 音声レベルの関数として第1と第2の
    重み付け係数を決定する前記ステップは、第1の音声レ
    ベルに対応して第1の重み付け係数を第2の重み付け係
    数よりも大きくし、第1の音声レベルよりも低い第2音
    声レベルに対応して第2の重み付け係数を第1の重み付
    け係数よりも大きくする請求項11に記載の方法。
  13. 【請求項13】 前記使用するステップは符号励起線形
    予測スピーチ符号化方法に基づいて元のスピーチ信号を
    再構成する量子化されたゲイン値を決定するために第1
    と第2の相違を使用する請求項12に記載の方法。
  14. 【請求項14】 元のスピーチ信号を受信するための入
    力部と、 元のスピーチ信号の近似値を再構成することができるパ
    ラメータをあらわす情報を提供するための出力部と、 前記入力部と出力部の間に設けられて、元のスピーチ信
    号に応じて元のスピーチ信号を表現することを意図した
    別のスピーチ信号を作成する制御装置であって、前記制
    御装置はさらに元のスピーチ信号と別の信号との間の第
    1と第2の相違に基づいて少なくとも1つのパラメータ
    を決定し、前記第1の相違は元のスピーチ信号に対応す
    る波形と別の信号に対応する波形との相違であり、第2
    の相違は元のスピーチ信号から得られたエネルギーパラ
    メータと別の信号から得られたエネルギーパラメータの
    相違である制御装置と、 前記少なくとも1つのパラメータの決定における第1と
    第2の相違の相対的な重要性を示すバランス係数を算出
    するバランス係数決定装置であって、前記制御装置に接
    続された出力部を有して、当該制御装置が前記少なくと
    も1つのパラメータを決定するために使用するように制
    御装置にバランス係数を供給するバランス係数決定装置
    と、 元のスピーチ信号の音声レベルを決定するために前記入
    力部に接続された音声レベル決定装置であって、前記バ
    ランス係数決定装置の入力部に接続された出力部を有し
    てバランス係数決定装置に対して音声レベルを供給し、
    前記バランス係数決定装置に当該音声レベル情報に基づ
    いてバランス係数を決定させる音声レベル決定装置とを
    有するスピーチエンコード装置。
  15. 【請求項15】 前記音声レベル決定装置の出力部と前
    記バランス係数決定装置の入力部に接続されたフィルタ
    を具備して、前記音声レベル決定装置から音声レベルを
    受信して当該バランス係数決定装置にフィルタ処理され
    た音声レベルを提供する請求項14に記載の装置。
  16. 【請求項16】 前記フィルタはメジアンフィルタであ
    る請求項15に記載の装置。
  17. 【請求項17】 前記制御装置は前記バランス係数に対
    応して第1と第2の相違に関する第1と第2の重み付け
    係数を決定する請求項14に記載の装置。
  18. 【請求項18】 前記制御装置は、前記少なくとも1つ
    のパラメータを決定するに際して、第1と第2の相違に
    それぞれ第1と第2の重み付け係数を掛ける請求項17
    に記載の装置。
  19. 【請求項19】 前記制御装置は元のスピーチ信号でス
    ピーチが開始されたときは第2の相違をゼロとする請求
    項18に記載の方法。
  20. 【請求項20】 前記バランス係数決定装置がすでに算
    出されたバランス係数を少なくとも1つ使用してバラン
    ス係数を算出するものである請求項14に記載の装置。
  21. 【請求項21】 前記バランス係数決定装置が既に計算
    したバランス係数が所定の値であったときはバランス係
    数の値を制限する請求項20に記載の装置。
  22. 【請求項22】 前記スピーチエンコード装置が符号励
    起線形予測スピーチエンコーダを有し、前記少なくとも
    1つのパラメータが量子化されたゲイン値である請求項
    14に記載の装置。
  23. 【請求項23】 使用者の入力刺激を受ける入力部と、 通信チャネルに出力信号を送出して、通信チャネルを介
    して受信機に送信させる出力部と、 入力部が前記無線装置の入力と接続され出力部が前記無
    線装置の出力と接続されたスピーチエンコード装置であ
    って、前記スピーチエンコード装置の入力部は該無線装
    置の入力部から元のスピーチ信号を受け、該スピーチエ
    ンコード装置の出力部は前記無線装置の出力部に受信機
    において元のスピーチ信号の近似値を再構成することが
    できるパラメータを示す情報を供給し、該スピーチエン
    コード装置はその入力部と出力部とに接続されて元のス
    ピーチ信号に対応して元のスピーチ信号を表すことを意
    図した別の信号を与える制御装置を具備し、該制御装置
    はさらにパラメータのうちの少なくとも1つを元のスピ
    ーチ信号と別の信号との第1と第2の相違に基づいて決
    定し、前記第1の相違は元のスピーチ信号波形と別の信
    号波形との相違であり、第2の相違は元のスピーチ信号
    から得られたエネルギーパラメータと別の信号から得ら
    れたエネルギーパラメータの相違であるスピーチエンコ
    ード装置と、 前記少なくとも1つのパラメータの決定における第1と
    第2の相違の相対的な重要性を示すバランス係数を算出
    するバランス係数決定装置であって、前記制御装置に接
    続された出力部を有して、当該制御装置が前記少なくと
    も1つのパラメータを決定するために使用するように制
    御装置にバランス係数を供給するバランス係数決定装置
    と、 元のスピーチ信号の音声レベルを決定するために前記入
    力部に接続された音声レベル決定装置であって、前記バ
    ランス係数決定装置の入力部に接続された出力部を有し
    てバランス係数決定装置に対して音声レベルを供給し、
    前記バランス係数決定装置に当該音声レベル情報に基づ
    いてバランス係数を決定させる音声レベル決定装置とを
    有する通信システムで使用する無線装置。
  24. 【請求項24】 前記無線装置はセルラー電話の一部を
    構成する請求項23に記載の装置。
JP2000568079A 1998-09-01 1999-08-06 スピーチコーディングのための適用基準 Expired - Lifetime JP3483853B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/144,961 US6192335B1 (en) 1998-09-01 1998-09-01 Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US09/144,961 1998-09-01
PCT/SE1999/001350 WO2000013174A1 (en) 1998-09-01 1999-08-06 An adaptive criterion for speech coding

Publications (2)

Publication Number Publication Date
JP2002524760A JP2002524760A (ja) 2002-08-06
JP3483853B2 true JP3483853B2 (ja) 2004-01-06

Family

ID=22510960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000568079A Expired - Lifetime JP3483853B2 (ja) 1998-09-01 1999-08-06 スピーチコーディングのための適用基準

Country Status (15)

Country Link
US (1) US6192335B1 (ja)
EP (1) EP1114414B1 (ja)
JP (1) JP3483853B2 (ja)
KR (1) KR100421648B1 (ja)
CN (1) CN1192357C (ja)
AR (1) AR027812A1 (ja)
AU (1) AU774998B2 (ja)
BR (1) BR9913292B1 (ja)
CA (1) CA2342353C (ja)
DE (1) DE69906330T2 (ja)
MY (1) MY123316A (ja)
RU (1) RU2223555C2 (ja)
TW (1) TW440812B (ja)
WO (1) WO2000013174A1 (ja)
ZA (1) ZA200101666B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0005515D0 (en) * 2000-03-08 2000-04-26 Univ Glasgow Improved vector quantization of images
US7254532B2 (en) 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
DE10026904A1 (de) 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
CN100358534C (zh) * 2005-11-21 2008-01-02 北京百林康源生物技术有限责任公司 错位双链寡核苷酸在制备治疗禽流感病毒感染的药物中的应用
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR101406113B1 (ko) * 2006-10-24 2014-06-11 보이세지 코포레이션 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除***
US8644526B2 (en) * 2008-06-27 2014-02-04 Panasonic Corporation Audio signal decoding device and balance adjustment method for audio signal decoding device
CA2772822A1 (en) * 2009-09-02 2011-03-10 Rockstar Bidco, LP Systems and methods of encoding using a reduced codebook with adaptive resetting
MX2012011943A (es) * 2010-04-14 2013-01-24 Voiceage Corp Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp.
CN111370009B (zh) 2013-10-18 2023-12-22 弗朗霍夫应用科学研究促进协会 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念
EP3058569B1 (en) 2013-10-18 2020-12-09 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US5060269A (en) 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5657418A (en) 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
WO1994025959A1 (en) 1993-04-29 1994-11-10 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
CA2179194A1 (en) * 1993-12-16 1995-06-29 Andrew Wilson Howitt System and method for performing voice compression
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
FR2739995B1 (fr) 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US6148282A (en) 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure

Also Published As

Publication number Publication date
KR20010073069A (ko) 2001-07-31
WO2000013174A1 (en) 2000-03-09
AU774998B2 (en) 2004-07-15
CN1325529A (zh) 2001-12-05
BR9913292B1 (pt) 2013-04-09
CA2342353A1 (en) 2000-03-09
US6192335B1 (en) 2001-02-20
MY123316A (en) 2006-05-31
DE69906330D1 (de) 2003-04-30
KR100421648B1 (ko) 2004-03-11
EP1114414A1 (en) 2001-07-11
AU5888799A (en) 2000-03-21
AR027812A1 (es) 2003-04-16
CN1192357C (zh) 2005-03-09
JP2002524760A (ja) 2002-08-06
BR9913292A (pt) 2001-09-25
TW440812B (en) 2001-06-16
RU2223555C2 (ru) 2004-02-10
CA2342353C (en) 2009-10-20
DE69906330T2 (de) 2003-11-27
ZA200101666B (en) 2001-09-25
EP1114414B1 (en) 2003-03-26

Similar Documents

Publication Publication Date Title
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
US7020605B2 (en) Speech coding system with time-domain noise attenuation
JP3483891B2 (ja) スピーチコーダ
JP4550289B2 (ja) Celp符号変換
EP1050040B1 (en) A decoding method and system comprising an adaptive postfilter
JP4213243B2 (ja) 音声符号化方法及び該方法を実施する装置
JP3678519B2 (ja) オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法
JP3566652B2 (ja) 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法
US7613607B2 (en) Audio enhancement in coded domain
JP3653826B2 (ja) 音声復号化方法及び装置
JP3483853B2 (ja) スピーチコーディングのための適用基準
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
US10304470B2 (en) Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法
EP1544848B1 (en) Audio enhancement in coded domain
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP4295372B2 (ja) 音声符号化装置
CN100369108C (zh) 编码域中的音频增强的方法和设备
JPH09244695A (ja) 音声符号化装置及び復号化装置
McCree et al. A 1.6 kb/s MELP coder for wireless communications
JPH08160996A (ja) 音声符号化装置
JP3350340B2 (ja) 音声符号化方法および音声復号化方法
JP3270146B2 (ja) 音声符号化装置
JPH06222796A (ja) 音声符号化方式

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3483853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101017

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101017

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term