JP2004029708A - 音声信号に対するベクトル量子化及びデコーディング装置とその方法 - Google Patents

音声信号に対するベクトル量子化及びデコーディング装置とその方法 Download PDF

Info

Publication number
JP2004029708A
JP2004029708A JP2002376122A JP2002376122A JP2004029708A JP 2004029708 A JP2004029708 A JP 2004029708A JP 2002376122 A JP2002376122 A JP 2002376122A JP 2002376122 A JP2002376122 A JP 2002376122A JP 2004029708 A JP2004029708 A JP 2004029708A
Authority
JP
Japan
Prior art keywords
klt
vector
code
codebook
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002376122A
Other languages
English (en)
Inventor
Buei Kin
金 武 永
Willem Bastiaan Kleijn
ウィレム・バスチャン・クレイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004029708A publication Critical patent/JP2004029708A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声信号に対するベクトル量子化及びデコーディング装置とその方法を提供する。
【解決手段】ベクトル量子化装置は、コードブック群、KLT部、第1及び第2選択部、伝送部を含むベクトル量子化装置で構成される。コードブック群は、KLTにより得られた音声信号に対するコードベクトルを記憶した複数のコードブックで構成される。コードブックは、KLTドメイン統計値によって分類される。KLT部は入力される音声信号をKLTドメインに変換する。第1選択部は、KLTにより得られた入力音声信号の共分散マトリックスに対する固有値セットに基づいてコードブックから最適のコードブックを選択する。第2選択部は、選択されたコードブックに載せられている各コードベクトルと、KLT部によりKLTドメインに変換された音声信号との歪曲に基づいて最適のコードベクトルを選択する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は音声信号に対する符号化技術に係り、特に、音声信号に対する高い符号化効率を提供できるベクトル量子化及びデコーディング装置とその方法に関する。
【0002】
【従来の技術】
音質の低下を抑制できる低ビット率の符号化結果を得るため、スカラ量子化よりも、メモリ、スペース充填及び形態上の利点を有するベクトル量子化が好まれている。
【0003】
従来公知の音声信号に対するベクトル量子化技術には、音声信号の直接的なベクトル量子化(Direct Vector Quantization、以下、DVQという)と、コード励起線形予測(Code−Excited Linear Prediction、以下、CELPという)コーディング方式によるベクトル量子化とがある。
【0004】
前記音声信号の統計値をとってみると、DVQは最も高いコーディング効率を示すことがわかる。しかし、音声信号の時変信号統計値は、多量のコードブックを要求するため、DVQの記憶要求管理が困難となる。
【0005】
CELPは単一コードブックを使用する。したがって、CELPはDVQのように大きい記憶容量が要求されない。CELPアルゴリズムは、入力される音声信号から線形予測(Linear Prediction、以下、LPという)係数を抽出するステップと、抽出されたLP係数によりフィルタリング特性が決定される合成フィルタを利用して前記コードブックに記憶されているコードベクトルから試験音声信号を構成するステップと、入力される音声信号と最も近接な試験音声信号を有するコードベクトルを探すステップとから構成される。
【0006】
このようなCELPは、2次元である場合にコードブックに記憶されたコードベクトルのボロノイ領域(Voronoi−region)形態が、図1(a)に示すように球形にほとんど近くなる一方、合成フィルタにより構成された試験音声信号は図1(b)に示すように球形のボロノイ領域形態にはならない。したがって、CELPはベクトル量子化の利点であるスペース充填及び形態上の利点を十分に活用できない短所がある。
【0007】
【発明が解決しようとする課題】
本発明は前述した問題を解決するためのものであって、音声信号を符号化する時、ベクトル量子化の利点を十分に生かすことができるベクトル量子化及びデコーディング装置とその方法を提供することをその目的とする。
【0008】
本発明の他の目的は、KLT(Karhunen−Loeve Transform)により得られたコードベクトルと固有ベクトルとを利用して音声信号をベクトル量子化することによって、適当な計算及び記憶要求で入力信号を量子化するベクトル量子化及びデコーディング装置とその方法を提供することである。
本発明のまた他の目的は、音声信号に対するボロノイ領域形態が球形にほとんど近い形態を維持するKLT基盤の分割ベクトル量子化及びデコーディング装置とその方法を提供することである。
【0009】
【課題を解決するための手段】
前記目的を達成するために本発明は、コードブック群、KLT部、第1及び第2選択部、伝送部を含むベクトル量子化装置を提供する。コードブック群にはKLTにより得られた音声信号に対するコードベクトルを記憶したコードブックが複数備わる。前記コードブックはKLTドメイン統計値によって分類される。KLT部は入力される音声信号をKLTドメインに変換する。第1選択部は、KLTにより得られた入力音声信号の共分散マトリックスに対する固有値セットに基づいてコードブックから最適のコードブックを選択する。第2選択部は、選択されたコードブックに載せられている各コードベクトルと、KLT部によりKLTドメインに変換された音声信号との歪曲に基づいて最適のコードベクトルを選択する。伝送部は、最適のコードベクトルが入力音声信号に対するベクトル量子化データとして使われるように最適のコードベクトルのインデックスを復号化側に伝送する。
【0010】
前記コードブックは、音声信号の共分散マトリックスの固有値に基づいた信号クラスと関係があることを特徴とする。前記KLT部は次のような動作を遂行する。まず、KLT部は入力音声信号のLP係数を計算し、線形予測係数を利用して共分散マトリックスを求め、共分散マトリックスに対する固有値セットを計算し、固有値に相応する固有ベクトルを計算する。その後、KLT部は固有値セットに基づいて固有値マトリックスを求め、前記固有ベクトルに基づいて単位マトリックスを求める。その後、KLT部は前記単位マトリックスを利用して入力音声信号に対するKLTドメイン表現を得る。
【0011】
前記第1選択部は、KLT部により計算された固有値セットと近似した固有値セットを有するコードブックを選択することが望ましい。前記第2選択部は最小歪曲値を有するコードベクトルを選択し、使われたコードベクトルを最適のコードベクトルとすることを特徴とすることが望ましい。
【0012】
前記目的を達成するために本発明はまた、音声信号に対するコードベクトルが記憶された複数のコードブックが備わったシステムで前記音声信号に対するベクトル量子化方法を提供する。この方法は、入力音声信号をKLTドメインに変換する。入力音声信号に相当するコードブックは、入力音声信号のKLTによって検出された入力音声信号の共分散マトリックスの固有値セットに基づいて複数のコードブックから選択される。最適のコードベクトルは選択されたコードブックに記憶されている各コードベクトルとKL変換された音声信号との歪曲値に基づいて選択される。選択されたコードベクトルは入力音声信号のベクトル量子化値として使われるように伝送される。
【0013】
入力音声信号のKLT基盤変換は次のような段階により遂行される。まず、入力音声信号の線形予測係数を推定する。その後、入力音声信号に対する共分散マトリックスを求め、共分散マトリックスに対する固有値と固有値に対する固有ベクトルを計算する。また、固有ベクトルを利用して音声信号対する単位マトリックスを求める。単位マトリックスを利用して入力音声信号をKLTドメインに変換する。
【0014】
前記選択されたコードブックは推定された固有値セットと類似した固有値セットに相当するコードブックであることが望ましい。前記最小歪曲を有するコードベクトルは最適のコードベクトルとして選択されることが望ましい。
【0015】
【発明の実施の形態】
以下、添付した図面を参照して本発明の望ましい実施例について詳細に説明する。
【0016】
図2は、本発明による音声信号に対するベクトル量子化装置のブロック図である。図2を参照すれば、本発明による音声信号に対するベクトル量子化装置は、コードブック群200、KLT部210、コードブッククラス選択部220、最適のコードベクトル選択部230、データ伝送部240で構成される。
【0017】
コードブック群200は、訓練段階でKLTのエネルギー集中特性を利用して音声信号に対するKLTドメイン統計値が狭いクラス別にコードブックが分割されるように設計される。
【0018】
すなわち、音声信号をKLTドメインに変換する場合に、図3(b)に示すように、水平軸に沿ってエネルギーが集中したドメインを得る。図3(a)は、各相関係数αに対する2次元音声信号に対するコードベクトルの分布図である。図3(b)は、図3(a)と同じ相関係数αで前記2次元音声信号に相当するKL変換された信号に対するコードベクトルの分布図である。図3(b)で異なる統計値を有する音声信号がKLTドメイン上で同じ統計を有するということが分かる。KLTドメイン上で同じ統計を有するということは音声信号が同じ固有値セットに分類されうることを意味する。固有値はKLT領域に変換されたベクトルの成分分散に相応する。
【0019】
コードブック群200に備わる第1ないし第nコードブック201_1〜201_nに相当するnクラスのうちの一つに音声信号を分割するために距離測定法を使用することができる。これは最も近似した統計値を有する固有値セットをさがせば終わる。
【0020】
固有値セットは、数式1のような距離測定により分類することができる。
【0021】
【数1】
Figure 2004029708
【0022】
すなわち、2次元信号に対するコードベクトルを考慮する場合、一つのコードブックは2つの固有値を有する。k次元信号に対するコードベクトルが考慮される場合には、前記該当するコードブックはk個の固有値を有する。前記2つの固有値及びk個の固有値を該当する各コードブックの固有値セットという。前述したようにコードブックを固有値セットで分類する時、大きい固有値ほど重要な値となる。
【0023】
第1ないし第nコードブック201_1〜201_nに含まれるコードベクトルはKLTドメインに変換された量子化された音声信号である。コードブック分割のために音声信号のエネルギーに該当する固有値は数式2のように正規化される。
【0024】
【数2】
Figure 2004029708
【0025】
このように正規化された固有値は、数式1にあてはめられる。
【0026】
前述したクラス固有値セットは実際的な音声データのP次元LP係数から推定され、数式1のような距離測定機能を有するLBG(Linde−Buzo−Gray)アルゴリズムを利用して量子化される。前記Pは例えば10になりうる。多くのクラスのコードブックがコードブック群200に含まれれば、音声信号に対するベクトル量子化装置のSNR効率はさらに向上する。
【0027】
KLT部210は入力される音声信号をKLTドメインに変換する。前記変換はフレーム単位でなされる。このために、KLT部210はまず、入力される音声信号を分析してLP係数を求める。求められたLP係数はデータ伝送部240に伝送される。入力される音声信号のLP係数を求める方式は既知の方式のうち一つを使用する。求められたLP係数を利用して入力信号の共分散マトリックスE(x)を求める。5次元である場合に、共分散マトリックスE(x)は下記数式3のように定義される。
【0028】
【数3】
Figure 2004029708
【0029】
したがってLP係数を利用して共分散マトリックスE(x)を求めることができる。
【0030】
その後、KLT部210は共分散マトリックスE(x)に対する固有値λは数式4を利用して求め、固有ベクトルPは数式5を利用して求める。
【0031】
【数4】
Figure 2004029708
【0032】
【数5】
Figure 2004029708
【0033】
数式4でIは識別子マトリックスである。このマトリックスは対角線行列値が全部1であり、残りは全部0であるマトリックスである。数式5を満たす固有ベクトルは正規化して求める。
【0034】
共分散マトリックスE(x)の順に並べた固有値を配列することによってマトリックスD(D=[ λ,λ,...,λ] )を得る。マトリックスDはコードブッククラス選択部220に出力される。
【0035】
一方、KLT部210は求めた固有ベクトルを利用して単位マトリックス(unitary matrix)Uを数式6のように求める。
【0036】
【数6】
Figure 2004029708
【0037】
数式6でP、P、Pはk×1マトリックスである。
【0038】
を入力される音声信号sに乗算(U)して入力された音声信号をKLTドメインに変換する。ここでsはLP合成フィルタのk次元ゼロ状態応答(k−dimensional zero state response,ZSR)であるか、あるいはk次原音である。KLTドメインに変換された音声信号は最適のコードベクトル選択部230に提供される。前記UでTは転置である。sは音声信号のk次元ベクトルである。
【0039】
コードブッククラス選択部220は、KLT部210から受信されたマトリックスDに基づいて第1ないし第nコードブック201_1〜201_nのうち該当するコードブックを選択する。すなわち、数式1によってKLT部210から受信されたマトリックスDと最も近似した固有値(または固有値セット)を有する一つのコードブックを選択する。選択されたコードブックが第1コードブック201_1である場合に第1コードブック201_1に存在するコードベクトルは順次に最適のコードベクトル選択部230に出力される。この時、コードブッククラス選択部220に、KLT部210からマトリックスDが伝送されるのではなく固有値が伝送されるように構成された場合、コードブッククラス選択部220は、数式1により最適のコードブックを選択することができる。
【0040】
最適のコードベクトル選択部230は、数式7のようにKLT部210から受信されたUとコードブッククラス選択部220から受信された各コードベクトルとの歪曲を計算する。
【0041】
【数7】
Figure 2004029708
【0042】
計算された歪曲値に基づいて、最適のコードベクトル選択部230は最小歪曲を有する最適のコードベクトルを抽出する。最適のコードベクトル選択部230は選択されたコードベクトルのインデックス情報をデータ伝送部240に伝送する。
【0043】
データ伝送部240は、KLT部210から伝送されるフレーム単位のLP係数と選択されたコードベクトルのインデックス情報とを図4に示すデコーディング装置を含む復号化装置側に伝送する。
【0044】
図4を参照すれば、図2に示すベクトル量子化装置に対応する復号化装置はデータ検出部401、コードブック群410、逆KLT部420で構成される。
【0045】
データ検出部401は、図2に示すようなベクトル量子化装置を具備した符号化装置から受信されるデータでコードベクトルのインデックス情報を検出し、数式3ないし数式6を利用して受信されたLP係数からマトリックスDと単位マトリックスUとを得る。検出されたコードベクトルのインデックス情報とマトリックスDはコードブック群410に伝送される。単位マトリックスUは逆KLP部420に伝送する。
【0046】
コードブック群410は受信されたマトリックスDにより該当するコードブッククラスを選択し、受信されたコードベクトルのインデックス情報により選択されたコードブッククラスで最適のコードベクトルを検出する。コードブック群410は図2のコードブック群200と同じコードブックで構成され、マトリックスDとコードベクトルのインデックス情報に該当する最適のコードベクトルを逆KLT部420に伝送する。
【0047】
逆KLT部420は、データ検出部401から受信された単位マトリックスUとコードブック群410から伝送されるコードベクトルとを利用して、KLT部210での変換と逆方式にコードベクトルを変換して選択されたコードベクトルに対応する元の音声信号を復元する。すなわち、コードブックベクトルはUと乗算されて元の音声信号を復元する。
【0048】
前述したベクトル量子化装置とデコーディング装置は、符号化装置及び復号化装置が一つのシステムになっている環境では一つのシステム内に存在しうる。
図5は、本発明による音声信号に対するKLT基盤分割ベクトル量子化方法の動作フローチャートである。
【0049】
図5を参照すれば、第501段階で、音声信号の入力が検知されると、第502段階で、入力された音声信号に対するLP係数を推定する。LP係数はフレーム単位で推定される。次に、第503段階で、入力された音声信号の共分散行列E(x)を数式3のように求める。さらに、第504段階で、求められた共分散行列E(x)を利用して入力される音声信号に対する固有値を求め、求められた固有値で固有ベクトルを求める。
【0050】
第505段階では、前記固有値を利用してマトリックスDを求め、前記固有ベクトルを利用してマトリックスUを求める。マトリックスDとマトリックスUとを求める方式は図2のKLT部210で説明した通りである。第506段階で前記マトリックスUを利用して入力される音声信号をKLTドメインに変換する。前述した第502段階ないし第506段階は、入力される音声信号をKLTドメインに変換する段階と定義することができる。
【0051】
第507段階では、固有値で構成されたマトリックスDを利用して複数のコードブックで該当するコードブックを選択する。複数のコードブックは、図2のコードブック群200で説明したようにKLTドメインに変換された音声信号に基づいて分割されたものである。
【0052】
第508段階では、選択されたコードブックに含まれているコードベクトルと、前述した第502段階ないし第506段階を通じてKLTされた音声信号Uとを数式7に代入して最適のコードベクトルを選択する。最適のコードベクトルは数式7による演算結果、最小値を有するコードベクトルとなる。
【0053】
第509段階で、前記選択されたコードベクトルのインデックス情報と第502段階で推定されたLP係数とを入力される音声信号に対するベクトル量子化結果値に伝送する。第501段階で入力信号がないと判断されれば、前述した過程は遂行されない。
【0054】
復号化は、第509段階でデコーダに伝送されたコードベクトルのインデックス情報とLP係数とを復号化し、復号化されたデータを逆KLTして音声信号を復元する。
【0055】
前述した図5は、前述した図2のようにマトリックスDを利用して最適のコードブッククラスを選択する例である。最適のコードブッククラスはマトリックスDの固有値と数式1とを利用して選択される。
【0056】
前述した実施例は音声信号に対するベクトル量子化された結果としてLP係数とコードベクトルのインデックス情報とを共に伝送する場合である。しかし、LP係数を伝送せずにコードベクトルのインデックス情報だけ伝送されるように構成することもできる。ITU−T標準コーデックであるG.728で使われた逆適応LP係数推定と類似した逆適応方法を適用する場合に、符号化及び復号化側で直前のフレームで量子化した音声信号でもって現在フレームのスペクトル特性を示すLP係数を推定することによって、符号化側から復号化側にパラメータを伝送する必要がない。このようなLP推定は音声スペクトル特性が徐々に変わるために可能である。
【0057】
もし、符号化側から復号化側にLP係数を伝送しない場合に、図4のデータ検出部401に印加されるLP係数は符号化側から受信されたことではなく、復号化側で前述した逆適応方法に推定されたLP係数となる。
【0058】
【発明の効果】
本発明により提案されたKLTに基づいて分類されたベクトル量子化(Classified Vector Quantization;CVQ)はボロノイ領域がKLTにより影響されないためにスペース充填上の利点を提供できる。各コードブックがKLT領域統計値の狭いクラスに基づいて設計されたため、メモリ及び形態上の利点を提供できる。したがって、KLT−CVQはCELP及びDVQより高いSNRを提供できる。
【0059】
本発明はKLTがボロノイ領域形態を変化させないために入力信号をKLTドメインに変換して最適のコードベクトルを探す。この過程はコードブックサーチ期間中にコードベクトルの付加的なLP合成フィルタリング計算が要らないために、KLT−CVQはDVQと計算上の複雑性が類似したコードブックサーチをするが、CELPよりは計算上の複雑性が低い。
【0060】
本発明は、KLTが最も小さな固有値軸に対して相対的に低い分散を招くためにコードブックを記憶するために要求されるメモリを減らしうり、適切なコードベクトルを探すための検索の複雑性を低めうる。このような利点は高い固有値を有するサブセット次元だけを考慮することによって得られる。例えば、5次元ベクトルに対して4つの最も大きい固有値軸を使用することによって、あらゆる軸の使用と相応する性能を得られる。したがって、KLTのエネルギー集中特性を利用することによって、メモリ要求量及び検索複雑性を低減することができる。
【0061】
本発明は前述した実施例に限定されず、本発明の思想内で当業者による変形が可能である。したがって、本発明で権利を請求する範囲は詳細な説明の範囲内で決められることではなく特許請求の範囲内で決められる。
【図面の簡単な説明】
【図1】(a)は、残留ドメインでCELPコードブック例のボロノイ領域形態を示した図面であり、(b)は、音声ドメインでCELPコードブックに相当するボロノイ領域形態を示した図面である。
【図2】本発明によるベクトル量子化装置のブロック図である。
【図3】(a)及び(b)は、KLT特性を説明するためのボロノイ領域例である。
【図4】図2のベクトル量子化装置に対応するデコーディング装置のブロック図である。
【図5】本発明によるベクトル量子化方法の動作フローチャートである。
【符号の説明】
200  コードブック群
210  KLT部
220  コードブッククラス選択部
230  最適のコードベクトル選択部
240  データ伝送部

Claims (19)

  1. 音声信号に対するベクトル量子化装置において、
    KLTにより得られた音声信号に対するコードベクトルを記憶したコードブックを前記音声信号のKLTドメイン統計値によって複数に分割して具備するコードブック群と、
    入力される音声信号をKLTドメインに変換するKLT部と、
    前記KLT部でKLTにより得られた前記入力される音声信号に対する固有値に基づいて前記コードブック群で最適のコードブックを選択する第1選択部と、
    前記第1選択部で選択されたコードブックに載せられているコードベクトルと、前記KLT部でKLTドメインに変換された音声信号との間の歪曲に基づいて最適のコードベクトルを選択する第2選択部と、
    前記最適のコードベクトルのインデックスを前記入力される音声信号に対するベクトル量子化情報として伝送する伝送部とを含むベクトル量子化装置。
  2. 前記各コードブックは、音声信号の共分散マトリックスの固有値の信号クラスと関係があることを特徴とする請求項1に記載のベクトル量子化装置。
  3. 前記KLT部は、
    前記入力される音声信号のLP係数を求め、
    前記線形予測係数に基づいて共分散マトリックスを求め、
    前記共分散マトリックスの固有値を計算し、
    前記固有値に相応する固有ベクトルセットを求め、
    前記固有ベクトルセットに基づいて単位マトリックスを求め、
    求められた単位マトリックスを利用して入力される音声信号に対応するKLTドメイン表現を得るように構成されることを特徴とする請求項1に記載のベクトル量子化装置。
  4. 前記第1選択部は下記数式に基づいて前記最適のコードブックを選択することを特徴とする請求項1に記載のベクトル量子化装置。
    Figure 2004029708
  5. 前記第1選択部は、前記KLT部により計算された固有値セットと近似した固有値セットが割当てられたコードブックを前記最適のコードブックに選択することを特徴とする請求項1に記載のベクトル量子化装置。
  6. 前記第2選択部は、最小歪曲値を有するコードベクトルが最適のコードベクトルになるように選択することを特徴とする請求項1に記載のベクトル量子化装置。
  7. 前記第2選択部は下記数式に基づいて前記歪曲を検出することを特徴とする、請求項1に記載のベクトル量子化装置。
    Figure 2004029708
  8. 前記伝送部は前記入力される音声信号に対するベクトル量子化情報としてLP係数のインデックス及び選択されたコードベクトルのインデックスデータを伝送することを特徴とする請求項1に記載のベクトル量子化装置。
  9. 前記コードブックの次元はKLTのエネルギー集中特性を使用してサブセット次元に減らしうる請求項1に記載のベクトル量子化装置。
  10. 前記ベクトル量子化装置が以前フレームで量子化した音声信号でもって現在フレームのスペクトル特性を示すLP係数を推定するように構成された場合に、前記伝送部が音声信号に対するベクトル量子化情報としてLP係数を伝送しないように構成されることを特徴とする請求項1に記載のベクトル量子化装置。
  11. 音声信号に対するコードベクトルが記憶された複数のコードブックが備わったシステムで前記音声信号に対するベクトル量子化方法において、
    入力される音声信号をKLTドメインに変換する段階と、
    前記KLTドメインに変換するによって推定された、前記入力される音声信号に対する固有値セットに基づいて前記複数のコードブックで最適のコードブックを選択する段階と、
    選択されたコードブックに記憶されているコードベクトルと、KLTドメインに変換された音声信号との歪曲値に基づいて最適のコードベクトルを選択する段階と、
    選択されたコードベクトルのインデックスを前記入力される音声信号に対応するベクトル量子化値として伝送する段階とを含むベクトル量子化方法。
  12. 前記変換段階は、
    前記入力される音声信号に対する線形予測係数を推定する段階と、
    前記入力される音声信号に対する共分散マトリックスを求める段階と、
    前記共分散マトリックスに対する固有値セットを求める段階と、
    前記固有値セットに対する固有ベクトルセットを求める段階と、
    前記固有ベクトルセットを利用して前記音声信号に対応する単位マトリックスを求める段階と、
    前記単位マトリックスを利用して前記入力される音声信号をKLTドメインに変換する段階とを含む請求項11に記載のベクトル量子化方法。
  13. 前記コードブック選択段階は、前記固有値セットと近似した固有値セットと関係があるコードブックを最適のコードブックに選択する請求項11に記載のベクトル量子化方法。
  14. 前記最適のコードベクトル選択段階は、前記歪曲が最小値であるコードベクトルを
    Figure 2004029708
    を使用して前記最適のコードベクトルに選択する請求項11に記載のベクトル量子化方法。
  15. 前記コードブックの次元はKLTのエネルギー集中特性を使用してサブセットの次元に減らしうる請求項11に記載のベクトル量子化方法。
  16. 前記線形予測係数推定段階が以前フレームで量子化した音声信号を利用して現在フレームのスペクトル特性を示す線形予測係数を推定する場合に、前記伝送段階で前記音声信号に対するベクトル量子化情報としてLP係数を伝送しないことを特徴とする請求項12に記載のベクトル量子化方法。
  17. 音声信号に対するデコーディング装置において、
    KLTにより得られた音声信号に対するコードベクトルを記憶したコードブックを前記KLTドメイン統計値によって複数に分割して具備するコードブック群と、
    受信されるデータを分析して前記コードベクトルのインデックスを検出し、現在フレームのスペクトル特性を示す線形予測係数に基づいて固有値セットと単位マトリックスUを各々検出し、検出されたコードベクトルのインデックスと固有値セットは前記コードブック群に出力するデータ検出部と、
    前記データ検出部から出力される単位マトリックスと前記コードベクトルのインデックスにより前記コードブック群から出力されるコードベクトルを利用した逆KLTで前記コードベクトルに対応する音声信号を復元する逆KLT部とを含むデコーディング装置。
  18. 音声信号に対するデコーディング方法において、
    KLTにより得られた音声信号に対するコードベクトルを記憶した複数のコードブックを有するコードブック群を形成し、前記コードブックは前記KLTドメイン通計値によって分類される段階と、
    受信されるデータからコードベクトルインデックスを検出し、現在フレームのスペクトル特性を示す線形予測係数から固有値セットと単位マトリックスUとを各々検出し、検出されたベクトルのインデックスと固有値セットは前記コードブック群に出力する段階と、
    前記データ検出部から出力される単位マトリックスUと前記コードブック群から受信された前記コードベクトルインデックスから検出されたコードベクトルを用いて逆KLT動作を行って前記検出されたコードベクトルに対応する音声信号を復元する段階とを含むデコーディング方法。
  19. 前記伝送段階はLP係数のインデックスと前記選択されたコードベクトルのインデックスデータを前記ベクトル量子化値として伝送する請求項11に記載のベクトル量子化方法。
JP2002376122A 2002-05-08 2002-12-26 音声信号に対するベクトル量子化及びデコーディング装置とその方法 Pending JP2004029708A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0025401A KR100446630B1 (ko) 2002-05-08 2002-05-08 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법

Publications (1)

Publication Number Publication Date
JP2004029708A true JP2004029708A (ja) 2004-01-29

Family

ID=28673112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002376122A Pending JP2004029708A (ja) 2002-05-08 2002-12-26 音声信号に対するベクトル量子化及びデコーディング装置とその方法

Country Status (5)

Country Link
US (1) US6631347B1 (ja)
EP (1) EP1361567B1 (ja)
JP (1) JP2004029708A (ja)
KR (1) KR100446630B1 (ja)
DE (1) DE60232402D1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514383A (ja) * 2005-10-27 2009-04-02 クゥアルコム・インコーポレイテッド 空間相関チャネルについての線形プリコーディング
WO2009153995A1 (ja) * 2008-06-19 2009-12-23 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
JP2017504829A (ja) * 2013-12-17 2017-02-09 ノキア テクノロジーズ オサケユイチア オーディオ信号エンコーダ

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296163B2 (en) * 2000-02-08 2007-11-13 The Trustees Of Dartmouth College System and methods for encrypted execution of computer programs
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
US8760994B2 (en) 2005-10-28 2014-06-24 Qualcomm Incorporated Unitary precoding based on randomized FFT matrices
KR20090030200A (ko) 2007-09-19 2009-03-24 엘지전자 주식회사 위상천이 기반의 프리코딩을 이용한 데이터 송수신 방법 및이를 지원하는 송수신기
CN101415121B (zh) * 2007-10-15 2010-09-29 华为技术有限公司 一种自适应的帧预测的方法及装置
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
US8077994B2 (en) * 2008-06-06 2011-12-13 Microsoft Corporation Compression of MQDF classifier using flexible sub-vector grouping
KR101056462B1 (ko) * 2009-07-02 2011-08-11 세종대학교산학협력단 음성신호 양자화 장치 및 방법
EP2372699B1 (en) * 2010-03-02 2012-12-19 Google, Inc. Coding of audio or video samples using multiple quantizers
KR101348888B1 (ko) * 2012-01-04 2014-01-09 세종대학교산학협력단 Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치
KR101413229B1 (ko) * 2013-05-13 2014-08-06 한국과학기술원 방향 추정 장치 및 방법
KR101428938B1 (ko) 2013-08-19 2014-08-08 세종대학교산학협력단 음성 신호의 벡터 양자화 장치 및 그 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4907276A (en) * 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
US5544277A (en) * 1993-07-28 1996-08-06 International Business Machines Corporation Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
CA2684452C (en) * 1997-10-22 2014-01-14 Panasonic Corporation Multi-stage vector quantization for speech encoding
KR100248072B1 (ko) * 1997-11-11 2000-03-15 정선종 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법
US6151414A (en) * 1998-01-30 2000-11-21 Lucent Technologies Inc. Method for signal encoding and feature extraction
DE10030105A1 (de) * 2000-06-19 2002-01-03 Bosch Gmbh Robert Spracherkennungseinrichtung

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514383A (ja) * 2005-10-27 2009-04-02 クゥアルコム・インコーポレイテッド 空間相関チャネルについての線形プリコーディング
US8385433B2 (en) 2005-10-27 2013-02-26 Qualcomm Incorporated Linear precoding for spatially correlated channels
WO2009153995A1 (ja) * 2008-06-19 2009-12-23 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
US8473288B2 (en) 2008-06-19 2013-06-25 Panasonic Corporation Quantizer, encoder, and the methods thereof
JP5425066B2 (ja) * 2008-06-19 2014-02-26 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
JP2017504829A (ja) * 2013-12-17 2017-02-09 ノキア テクノロジーズ オサケユイチア オーディオ信号エンコーダ

Also Published As

Publication number Publication date
EP1361567A3 (en) 2005-06-08
US6631347B1 (en) 2003-10-07
EP1361567B1 (en) 2009-05-20
KR20030087373A (ko) 2003-11-14
DE60232402D1 (de) 2009-07-02
KR100446630B1 (ko) 2004-09-04
EP1361567A2 (en) 2003-11-12

Similar Documents

Publication Publication Date Title
RU2718425C1 (ru) Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи
KR100889399B1 (ko) 스위치식예측양자화방법
RU2504026C2 (ru) Способ и устройство для селективного кодирования сигнала на основе характеристик базового кодера
KR100304092B1 (ko) 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP2004029708A (ja) 音声信号に対するベクトル量子化及びデコーディング装置とその方法
US8468017B2 (en) Multi-stage quantization method and device
US20120065965A1 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
US11922960B2 (en) Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
US10515646B2 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
JP3344962B2 (ja) オーディオ信号符号化装置、及びオーディオ信号復号化装置
KR20050020728A (ko) 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법
WO2008067766A1 (fr) Procédé et dispositif de quantification d'un vecteur
CA2233896C (en) Signal coding system
US20080183465A1 (en) Methods and Apparatus to Quantize and Dequantize Linear Predictive Coding Coefficient
WO2011087333A2 (ko) 오디오 신호 처리 방법 및 장치
KR101056462B1 (ko) 음성신호 양자화 장치 및 방법
JP4327420B2 (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
Chatterjee et al. Low complexity wideband LSF quantization using GMM of uncorrelated Gaussian mixtures
JP3192051B2 (ja) 音声符号化装置
Le Vu et al. Optimal transformation of LSP parameters using neural network
Lois et al. Spectral coding of speech LSF parameters using Karhunen-Loeve transform
Tan et al. Quantization of speech features: source coding
Hayashi et al. Efficient two-stage vector quantization speech coder using wavelet coefficients of excitation signals
Rao IMPROVED MODELING AND QUANTIZATION METHODS FOR SPEECH CODING.
Lois Variable Length Coding of Transformed LSF Coefficients

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040521

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061004

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070403

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070417

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070515