JP2004029708A - 音声信号に対するベクトル量子化及びデコーディング装置とその方法 - Google Patents
音声信号に対するベクトル量子化及びデコーディング装置とその方法 Download PDFInfo
- Publication number
- JP2004029708A JP2004029708A JP2002376122A JP2002376122A JP2004029708A JP 2004029708 A JP2004029708 A JP 2004029708A JP 2002376122 A JP2002376122 A JP 2002376122A JP 2002376122 A JP2002376122 A JP 2002376122A JP 2004029708 A JP2004029708 A JP 2004029708A
- Authority
- JP
- Japan
- Prior art keywords
- klt
- vector
- code
- codebook
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 145
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 238000013139 quantization Methods 0.000 claims description 52
- 238000001514 detection method Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】ベクトル量子化装置は、コードブック群、KLT部、第1及び第2選択部、伝送部を含むベクトル量子化装置で構成される。コードブック群は、KLTにより得られた音声信号に対するコードベクトルを記憶した複数のコードブックで構成される。コードブックは、KLTドメイン統計値によって分類される。KLT部は入力される音声信号をKLTドメインに変換する。第1選択部は、KLTにより得られた入力音声信号の共分散マトリックスに対する固有値セットに基づいてコードブックから最適のコードブックを選択する。第2選択部は、選択されたコードブックに載せられている各コードベクトルと、KLT部によりKLTドメインに変換された音声信号との歪曲に基づいて最適のコードベクトルを選択する。
【選択図】 図2
Description
【発明の属する技術分野】
本発明は音声信号に対する符号化技術に係り、特に、音声信号に対する高い符号化効率を提供できるベクトル量子化及びデコーディング装置とその方法に関する。
【0002】
【従来の技術】
音質の低下を抑制できる低ビット率の符号化結果を得るため、スカラ量子化よりも、メモリ、スペース充填及び形態上の利点を有するベクトル量子化が好まれている。
【0003】
従来公知の音声信号に対するベクトル量子化技術には、音声信号の直接的なベクトル量子化(Direct Vector Quantization、以下、DVQという)と、コード励起線形予測(Code−Excited Linear Prediction、以下、CELPという)コーディング方式によるベクトル量子化とがある。
【0004】
前記音声信号の統計値をとってみると、DVQは最も高いコーディング効率を示すことがわかる。しかし、音声信号の時変信号統計値は、多量のコードブックを要求するため、DVQの記憶要求管理が困難となる。
【0005】
CELPは単一コードブックを使用する。したがって、CELPはDVQのように大きい記憶容量が要求されない。CELPアルゴリズムは、入力される音声信号から線形予測(Linear Prediction、以下、LPという)係数を抽出するステップと、抽出されたLP係数によりフィルタリング特性が決定される合成フィルタを利用して前記コードブックに記憶されているコードベクトルから試験音声信号を構成するステップと、入力される音声信号と最も近接な試験音声信号を有するコードベクトルを探すステップとから構成される。
【0006】
このようなCELPは、2次元である場合にコードブックに記憶されたコードベクトルのボロノイ領域(Voronoi−region)形態が、図1(a)に示すように球形にほとんど近くなる一方、合成フィルタにより構成された試験音声信号は図1(b)に示すように球形のボロノイ領域形態にはならない。したがって、CELPはベクトル量子化の利点であるスペース充填及び形態上の利点を十分に活用できない短所がある。
【0007】
【発明が解決しようとする課題】
本発明は前述した問題を解決するためのものであって、音声信号を符号化する時、ベクトル量子化の利点を十分に生かすことができるベクトル量子化及びデコーディング装置とその方法を提供することをその目的とする。
【0008】
本発明の他の目的は、KLT(Karhunen−Loeve Transform)により得られたコードベクトルと固有ベクトルとを利用して音声信号をベクトル量子化することによって、適当な計算及び記憶要求で入力信号を量子化するベクトル量子化及びデコーディング装置とその方法を提供することである。
本発明のまた他の目的は、音声信号に対するボロノイ領域形態が球形にほとんど近い形態を維持するKLT基盤の分割ベクトル量子化及びデコーディング装置とその方法を提供することである。
【0009】
【課題を解決するための手段】
前記目的を達成するために本発明は、コードブック群、KLT部、第1及び第2選択部、伝送部を含むベクトル量子化装置を提供する。コードブック群にはKLTにより得られた音声信号に対するコードベクトルを記憶したコードブックが複数備わる。前記コードブックはKLTドメイン統計値によって分類される。KLT部は入力される音声信号をKLTドメインに変換する。第1選択部は、KLTにより得られた入力音声信号の共分散マトリックスに対する固有値セットに基づいてコードブックから最適のコードブックを選択する。第2選択部は、選択されたコードブックに載せられている各コードベクトルと、KLT部によりKLTドメインに変換された音声信号との歪曲に基づいて最適のコードベクトルを選択する。伝送部は、最適のコードベクトルが入力音声信号に対するベクトル量子化データとして使われるように最適のコードベクトルのインデックスを復号化側に伝送する。
【0010】
前記コードブックは、音声信号の共分散マトリックスの固有値に基づいた信号クラスと関係があることを特徴とする。前記KLT部は次のような動作を遂行する。まず、KLT部は入力音声信号のLP係数を計算し、線形予測係数を利用して共分散マトリックスを求め、共分散マトリックスに対する固有値セットを計算し、固有値に相応する固有ベクトルを計算する。その後、KLT部は固有値セットに基づいて固有値マトリックスを求め、前記固有ベクトルに基づいて単位マトリックスを求める。その後、KLT部は前記単位マトリックスを利用して入力音声信号に対するKLTドメイン表現を得る。
【0011】
前記第1選択部は、KLT部により計算された固有値セットと近似した固有値セットを有するコードブックを選択することが望ましい。前記第2選択部は最小歪曲値を有するコードベクトルを選択し、使われたコードベクトルを最適のコードベクトルとすることを特徴とすることが望ましい。
【0012】
前記目的を達成するために本発明はまた、音声信号に対するコードベクトルが記憶された複数のコードブックが備わったシステムで前記音声信号に対するベクトル量子化方法を提供する。この方法は、入力音声信号をKLTドメインに変換する。入力音声信号に相当するコードブックは、入力音声信号のKLTによって検出された入力音声信号の共分散マトリックスの固有値セットに基づいて複数のコードブックから選択される。最適のコードベクトルは選択されたコードブックに記憶されている各コードベクトルとKL変換された音声信号との歪曲値に基づいて選択される。選択されたコードベクトルは入力音声信号のベクトル量子化値として使われるように伝送される。
【0013】
入力音声信号のKLT基盤変換は次のような段階により遂行される。まず、入力音声信号の線形予測係数を推定する。その後、入力音声信号に対する共分散マトリックスを求め、共分散マトリックスに対する固有値と固有値に対する固有ベクトルを計算する。また、固有ベクトルを利用して音声信号対する単位マトリックスを求める。単位マトリックスを利用して入力音声信号をKLTドメインに変換する。
【0014】
前記選択されたコードブックは推定された固有値セットと類似した固有値セットに相当するコードブックであることが望ましい。前記最小歪曲を有するコードベクトルは最適のコードベクトルとして選択されることが望ましい。
【0015】
【発明の実施の形態】
以下、添付した図面を参照して本発明の望ましい実施例について詳細に説明する。
【0016】
図2は、本発明による音声信号に対するベクトル量子化装置のブロック図である。図2を参照すれば、本発明による音声信号に対するベクトル量子化装置は、コードブック群200、KLT部210、コードブッククラス選択部220、最適のコードベクトル選択部230、データ伝送部240で構成される。
【0017】
コードブック群200は、訓練段階でKLTのエネルギー集中特性を利用して音声信号に対するKLTドメイン統計値が狭いクラス別にコードブックが分割されるように設計される。
【0018】
すなわち、音声信号をKLTドメインに変換する場合に、図3(b)に示すように、水平軸に沿ってエネルギーが集中したドメインを得る。図3(a)は、各相関係数α1に対する2次元音声信号に対するコードベクトルの分布図である。図3(b)は、図3(a)と同じ相関係数α1で前記2次元音声信号に相当するKL変換された信号に対するコードベクトルの分布図である。図3(b)で異なる統計値を有する音声信号がKLTドメイン上で同じ統計を有するということが分かる。KLTドメイン上で同じ統計を有するということは音声信号が同じ固有値セットに分類されうることを意味する。固有値はKLT領域に変換されたベクトルの成分分散に相応する。
【0019】
コードブック群200に備わる第1ないし第nコードブック201_1〜201_nに相当するnクラスのうちの一つに音声信号を分割するために距離測定法を使用することができる。これは最も近似した統計値を有する固有値セットをさがせば終わる。
【0020】
固有値セットは、数式1のような距離測定により分類することができる。
【0021】
【数1】
【0022】
すなわち、2次元信号に対するコードベクトルを考慮する場合、一つのコードブックは2つの固有値を有する。k次元信号に対するコードベクトルが考慮される場合には、前記該当するコードブックはk個の固有値を有する。前記2つの固有値及びk個の固有値を該当する各コードブックの固有値セットという。前述したようにコードブックを固有値セットで分類する時、大きい固有値ほど重要な値となる。
【0023】
第1ないし第nコードブック201_1〜201_nに含まれるコードベクトルはKLTドメインに変換された量子化された音声信号である。コードブック分割のために音声信号のエネルギーに該当する固有値は数式2のように正規化される。
【0024】
【数2】
【0025】
このように正規化された固有値は、数式1にあてはめられる。
【0026】
前述したクラス固有値セットは実際的な音声データのP次元LP係数から推定され、数式1のような距離測定機能を有するLBG(Linde−Buzo−Gray)アルゴリズムを利用して量子化される。前記Pは例えば10になりうる。多くのクラスのコードブックがコードブック群200に含まれれば、音声信号に対するベクトル量子化装置のSNR効率はさらに向上する。
【0027】
KLT部210は入力される音声信号をKLTドメインに変換する。前記変換はフレーム単位でなされる。このために、KLT部210はまず、入力される音声信号を分析してLP係数を求める。求められたLP係数はデータ伝送部240に伝送される。入力される音声信号のLP係数を求める方式は既知の方式のうち一つを使用する。求められたLP係数を利用して入力信号の共分散マトリックスE(x)を求める。5次元である場合に、共分散マトリックスE(x)は下記数式3のように定義される。
【0028】
【数3】
【0029】
したがってLP係数を利用して共分散マトリックスE(x)を求めることができる。
【0030】
その後、KLT部210は共分散マトリックスE(x)に対する固有値λiは数式4を利用して求め、固有ベクトルPiは数式5を利用して求める。
【0031】
【数4】
【0032】
【数5】
【0033】
数式4でIは識別子マトリックスである。このマトリックスは対角線行列値が全部1であり、残りは全部0であるマトリックスである。数式5を満たす固有ベクトルは正規化して求める。
【0034】
共分散マトリックスE(x)の順に並べた固有値を配列することによってマトリックスD(D=[ λ1,λ2,...,λk] )を得る。マトリックスDはコードブッククラス選択部220に出力される。
【0035】
一方、KLT部210は求めた固有ベクトルを利用して単位マトリックス(unitary matrix)Uを数式6のように求める。
【0036】
【数6】
【0037】
数式6でP1、P2、Pkはk×1マトリックスである。
【0038】
UTを入力される音声信号skに乗算(UTsk)して入力された音声信号をKLTドメインに変換する。ここでskはLP合成フィルタのk次元ゼロ状態応答(k−dimensional zero state response,ZSR)であるか、あるいはk次原音である。KLTドメインに変換された音声信号は最適のコードベクトル選択部230に提供される。前記UTでTは転置である。skは音声信号のk次元ベクトルである。
【0039】
コードブッククラス選択部220は、KLT部210から受信されたマトリックスDに基づいて第1ないし第nコードブック201_1〜201_nのうち該当するコードブックを選択する。すなわち、数式1によってKLT部210から受信されたマトリックスDと最も近似した固有値(または固有値セット)を有する一つのコードブックを選択する。選択されたコードブックが第1コードブック201_1である場合に第1コードブック201_1に存在するコードベクトルは順次に最適のコードベクトル選択部230に出力される。この時、コードブッククラス選択部220に、KLT部210からマトリックスDが伝送されるのではなく固有値が伝送されるように構成された場合、コードブッククラス選択部220は、数式1により最適のコードブックを選択することができる。
【0040】
最適のコードベクトル選択部230は、数式7のようにKLT部210から受信されたUTskとコードブッククラス選択部220から受信された各コードベクトルとの歪曲を計算する。
【0041】
【数7】
【0042】
計算された歪曲値に基づいて、最適のコードベクトル選択部230は最小歪曲を有する最適のコードベクトルを抽出する。最適のコードベクトル選択部230は選択されたコードベクトルのインデックス情報をデータ伝送部240に伝送する。
【0043】
データ伝送部240は、KLT部210から伝送されるフレーム単位のLP係数と選択されたコードベクトルのインデックス情報とを図4に示すデコーディング装置を含む復号化装置側に伝送する。
【0044】
図4を参照すれば、図2に示すベクトル量子化装置に対応する復号化装置はデータ検出部401、コードブック群410、逆KLT部420で構成される。
【0045】
データ検出部401は、図2に示すようなベクトル量子化装置を具備した符号化装置から受信されるデータでコードベクトルのインデックス情報を検出し、数式3ないし数式6を利用して受信されたLP係数からマトリックスDと単位マトリックスUとを得る。検出されたコードベクトルのインデックス情報とマトリックスDはコードブック群410に伝送される。単位マトリックスUは逆KLP部420に伝送する。
【0046】
コードブック群410は受信されたマトリックスDにより該当するコードブッククラスを選択し、受信されたコードベクトルのインデックス情報により選択されたコードブッククラスで最適のコードベクトルを検出する。コードブック群410は図2のコードブック群200と同じコードブックで構成され、マトリックスDとコードベクトルのインデックス情報に該当する最適のコードベクトルを逆KLT部420に伝送する。
【0047】
逆KLT部420は、データ検出部401から受信された単位マトリックスUとコードブック群410から伝送されるコードベクトルとを利用して、KLT部210での変換と逆方式にコードベクトルを変換して選択されたコードベクトルに対応する元の音声信号を復元する。すなわち、コードブックベクトルはUと乗算されて元の音声信号を復元する。
【0048】
前述したベクトル量子化装置とデコーディング装置は、符号化装置及び復号化装置が一つのシステムになっている環境では一つのシステム内に存在しうる。
図5は、本発明による音声信号に対するKLT基盤分割ベクトル量子化方法の動作フローチャートである。
【0049】
図5を参照すれば、第501段階で、音声信号の入力が検知されると、第502段階で、入力された音声信号に対するLP係数を推定する。LP係数はフレーム単位で推定される。次に、第503段階で、入力された音声信号の共分散行列E(x)を数式3のように求める。さらに、第504段階で、求められた共分散行列E(x)を利用して入力される音声信号に対する固有値を求め、求められた固有値で固有ベクトルを求める。
【0050】
第505段階では、前記固有値を利用してマトリックスDを求め、前記固有ベクトルを利用してマトリックスUを求める。マトリックスDとマトリックスUとを求める方式は図2のKLT部210で説明した通りである。第506段階で前記マトリックスUを利用して入力される音声信号をKLTドメインに変換する。前述した第502段階ないし第506段階は、入力される音声信号をKLTドメインに変換する段階と定義することができる。
【0051】
第507段階では、固有値で構成されたマトリックスDを利用して複数のコードブックで該当するコードブックを選択する。複数のコードブックは、図2のコードブック群200で説明したようにKLTドメインに変換された音声信号に基づいて分割されたものである。
【0052】
第508段階では、選択されたコードブックに含まれているコードベクトルと、前述した第502段階ないし第506段階を通じてKLTされた音声信号UTskとを数式7に代入して最適のコードベクトルを選択する。最適のコードベクトルは数式7による演算結果、最小値を有するコードベクトルとなる。
【0053】
第509段階で、前記選択されたコードベクトルのインデックス情報と第502段階で推定されたLP係数とを入力される音声信号に対するベクトル量子化結果値に伝送する。第501段階で入力信号がないと判断されれば、前述した過程は遂行されない。
【0054】
復号化は、第509段階でデコーダに伝送されたコードベクトルのインデックス情報とLP係数とを復号化し、復号化されたデータを逆KLTして音声信号を復元する。
【0055】
前述した図5は、前述した図2のようにマトリックスDを利用して最適のコードブッククラスを選択する例である。最適のコードブッククラスはマトリックスDの固有値と数式1とを利用して選択される。
【0056】
前述した実施例は音声信号に対するベクトル量子化された結果としてLP係数とコードベクトルのインデックス情報とを共に伝送する場合である。しかし、LP係数を伝送せずにコードベクトルのインデックス情報だけ伝送されるように構成することもできる。ITU−T標準コーデックであるG.728で使われた逆適応LP係数推定と類似した逆適応方法を適用する場合に、符号化及び復号化側で直前のフレームで量子化した音声信号でもって現在フレームのスペクトル特性を示すLP係数を推定することによって、符号化側から復号化側にパラメータを伝送する必要がない。このようなLP推定は音声スペクトル特性が徐々に変わるために可能である。
【0057】
もし、符号化側から復号化側にLP係数を伝送しない場合に、図4のデータ検出部401に印加されるLP係数は符号化側から受信されたことではなく、復号化側で前述した逆適応方法に推定されたLP係数となる。
【0058】
【発明の効果】
本発明により提案されたKLTに基づいて分類されたベクトル量子化(Classified Vector Quantization;CVQ)はボロノイ領域がKLTにより影響されないためにスペース充填上の利点を提供できる。各コードブックがKLT領域統計値の狭いクラスに基づいて設計されたため、メモリ及び形態上の利点を提供できる。したがって、KLT−CVQはCELP及びDVQより高いSNRを提供できる。
【0059】
本発明はKLTがボロノイ領域形態を変化させないために入力信号をKLTドメインに変換して最適のコードベクトルを探す。この過程はコードブックサーチ期間中にコードベクトルの付加的なLP合成フィルタリング計算が要らないために、KLT−CVQはDVQと計算上の複雑性が類似したコードブックサーチをするが、CELPよりは計算上の複雑性が低い。
【0060】
本発明は、KLTが最も小さな固有値軸に対して相対的に低い分散を招くためにコードブックを記憶するために要求されるメモリを減らしうり、適切なコードベクトルを探すための検索の複雑性を低めうる。このような利点は高い固有値を有するサブセット次元だけを考慮することによって得られる。例えば、5次元ベクトルに対して4つの最も大きい固有値軸を使用することによって、あらゆる軸の使用と相応する性能を得られる。したがって、KLTのエネルギー集中特性を利用することによって、メモリ要求量及び検索複雑性を低減することができる。
【0061】
本発明は前述した実施例に限定されず、本発明の思想内で当業者による変形が可能である。したがって、本発明で権利を請求する範囲は詳細な説明の範囲内で決められることではなく特許請求の範囲内で決められる。
【図面の簡単な説明】
【図1】(a)は、残留ドメインでCELPコードブック例のボロノイ領域形態を示した図面であり、(b)は、音声ドメインでCELPコードブックに相当するボロノイ領域形態を示した図面である。
【図2】本発明によるベクトル量子化装置のブロック図である。
【図3】(a)及び(b)は、KLT特性を説明するためのボロノイ領域例である。
【図4】図2のベクトル量子化装置に対応するデコーディング装置のブロック図である。
【図5】本発明によるベクトル量子化方法の動作フローチャートである。
【符号の説明】
200 コードブック群
210 KLT部
220 コードブッククラス選択部
230 最適のコードベクトル選択部
240 データ伝送部
Claims (19)
- 音声信号に対するベクトル量子化装置において、
KLTにより得られた音声信号に対するコードベクトルを記憶したコードブックを前記音声信号のKLTドメイン統計値によって複数に分割して具備するコードブック群と、
入力される音声信号をKLTドメインに変換するKLT部と、
前記KLT部でKLTにより得られた前記入力される音声信号に対する固有値に基づいて前記コードブック群で最適のコードブックを選択する第1選択部と、
前記第1選択部で選択されたコードブックに載せられているコードベクトルと、前記KLT部でKLTドメインに変換された音声信号との間の歪曲に基づいて最適のコードベクトルを選択する第2選択部と、
前記最適のコードベクトルのインデックスを前記入力される音声信号に対するベクトル量子化情報として伝送する伝送部とを含むベクトル量子化装置。 - 前記各コードブックは、音声信号の共分散マトリックスの固有値の信号クラスと関係があることを特徴とする請求項1に記載のベクトル量子化装置。
- 前記KLT部は、
前記入力される音声信号のLP係数を求め、
前記線形予測係数に基づいて共分散マトリックスを求め、
前記共分散マトリックスの固有値を計算し、
前記固有値に相応する固有ベクトルセットを求め、
前記固有ベクトルセットに基づいて単位マトリックスを求め、
求められた単位マトリックスを利用して入力される音声信号に対応するKLTドメイン表現を得るように構成されることを特徴とする請求項1に記載のベクトル量子化装置。 - 前記第1選択部は、前記KLT部により計算された固有値セットと近似した固有値セットが割当てられたコードブックを前記最適のコードブックに選択することを特徴とする請求項1に記載のベクトル量子化装置。
- 前記第2選択部は、最小歪曲値を有するコードベクトルが最適のコードベクトルになるように選択することを特徴とする請求項1に記載のベクトル量子化装置。
- 前記伝送部は前記入力される音声信号に対するベクトル量子化情報としてLP係数のインデックス及び選択されたコードベクトルのインデックスデータを伝送することを特徴とする請求項1に記載のベクトル量子化装置。
- 前記コードブックの次元はKLTのエネルギー集中特性を使用してサブセット次元に減らしうる請求項1に記載のベクトル量子化装置。
- 前記ベクトル量子化装置が以前フレームで量子化した音声信号でもって現在フレームのスペクトル特性を示すLP係数を推定するように構成された場合に、前記伝送部が音声信号に対するベクトル量子化情報としてLP係数を伝送しないように構成されることを特徴とする請求項1に記載のベクトル量子化装置。
- 音声信号に対するコードベクトルが記憶された複数のコードブックが備わったシステムで前記音声信号に対するベクトル量子化方法において、
入力される音声信号をKLTドメインに変換する段階と、
前記KLTドメインに変換するによって推定された、前記入力される音声信号に対する固有値セットに基づいて前記複数のコードブックで最適のコードブックを選択する段階と、
選択されたコードブックに記憶されているコードベクトルと、KLTドメインに変換された音声信号との歪曲値に基づいて最適のコードベクトルを選択する段階と、
選択されたコードベクトルのインデックスを前記入力される音声信号に対応するベクトル量子化値として伝送する段階とを含むベクトル量子化方法。 - 前記変換段階は、
前記入力される音声信号に対する線形予測係数を推定する段階と、
前記入力される音声信号に対する共分散マトリックスを求める段階と、
前記共分散マトリックスに対する固有値セットを求める段階と、
前記固有値セットに対する固有ベクトルセットを求める段階と、
前記固有ベクトルセットを利用して前記音声信号に対応する単位マトリックスを求める段階と、
前記単位マトリックスを利用して前記入力される音声信号をKLTドメインに変換する段階とを含む請求項11に記載のベクトル量子化方法。 - 前記コードブック選択段階は、前記固有値セットと近似した固有値セットと関係があるコードブックを最適のコードブックに選択する請求項11に記載のベクトル量子化方法。
- 前記コードブックの次元はKLTのエネルギー集中特性を使用してサブセットの次元に減らしうる請求項11に記載のベクトル量子化方法。
- 前記線形予測係数推定段階が以前フレームで量子化した音声信号を利用して現在フレームのスペクトル特性を示す線形予測係数を推定する場合に、前記伝送段階で前記音声信号に対するベクトル量子化情報としてLP係数を伝送しないことを特徴とする請求項12に記載のベクトル量子化方法。
- 音声信号に対するデコーディング装置において、
KLTにより得られた音声信号に対するコードベクトルを記憶したコードブックを前記KLTドメイン統計値によって複数に分割して具備するコードブック群と、
受信されるデータを分析して前記コードベクトルのインデックスを検出し、現在フレームのスペクトル特性を示す線形予測係数に基づいて固有値セットと単位マトリックスUを各々検出し、検出されたコードベクトルのインデックスと固有値セットは前記コードブック群に出力するデータ検出部と、
前記データ検出部から出力される単位マトリックスと前記コードベクトルのインデックスにより前記コードブック群から出力されるコードベクトルを利用した逆KLTで前記コードベクトルに対応する音声信号を復元する逆KLT部とを含むデコーディング装置。 - 音声信号に対するデコーディング方法において、
KLTにより得られた音声信号に対するコードベクトルを記憶した複数のコードブックを有するコードブック群を形成し、前記コードブックは前記KLTドメイン通計値によって分類される段階と、
受信されるデータからコードベクトルインデックスを検出し、現在フレームのスペクトル特性を示す線形予測係数から固有値セットと単位マトリックスUとを各々検出し、検出されたベクトルのインデックスと固有値セットは前記コードブック群に出力する段階と、
前記データ検出部から出力される単位マトリックスUと前記コードブック群から受信された前記コードベクトルインデックスから検出されたコードベクトルを用いて逆KLT動作を行って前記検出されたコードベクトルに対応する音声信号を復元する段階とを含むデコーディング方法。 - 前記伝送段階はLP係数のインデックスと前記選択されたコードベクトルのインデックスデータを前記ベクトル量子化値として伝送する請求項11に記載のベクトル量子化方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0025401A KR100446630B1 (ko) | 2002-05-08 | 2002-05-08 | 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004029708A true JP2004029708A (ja) | 2004-01-29 |
Family
ID=28673112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002376122A Pending JP2004029708A (ja) | 2002-05-08 | 2002-12-26 | 音声信号に対するベクトル量子化及びデコーディング装置とその方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6631347B1 (ja) |
EP (1) | EP1361567B1 (ja) |
JP (1) | JP2004029708A (ja) |
KR (1) | KR100446630B1 (ja) |
DE (1) | DE60232402D1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009514383A (ja) * | 2005-10-27 | 2009-04-02 | クゥアルコム・インコーポレイテッド | 空間相関チャネルについての線形プリコーディング |
WO2009153995A1 (ja) * | 2008-06-19 | 2009-12-23 | パナソニック株式会社 | 量子化装置、符号化装置およびこれらの方法 |
JP2017504829A (ja) * | 2013-12-17 | 2017-02-09 | ノキア テクノロジーズ オサケユイチア | オーディオ信号エンコーダ |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7296163B2 (en) * | 2000-02-08 | 2007-11-13 | The Trustees Of Dartmouth College | System and methods for encrypted execution of computer programs |
EP2273494A3 (en) * | 2004-09-17 | 2012-11-14 | Panasonic Corporation | Scalable encoding apparatus, scalable decoding apparatus |
US8760994B2 (en) | 2005-10-28 | 2014-06-24 | Qualcomm Incorporated | Unitary precoding based on randomized FFT matrices |
KR20090030200A (ko) | 2007-09-19 | 2009-03-24 | 엘지전자 주식회사 | 위상천이 기반의 프리코딩을 이용한 데이터 송수신 방법 및이를 지원하는 송수신기 |
CN101415121B (zh) * | 2007-10-15 | 2010-09-29 | 华为技术有限公司 | 一种自适应的帧预测的方法及装置 |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
US8077994B2 (en) * | 2008-06-06 | 2011-12-13 | Microsoft Corporation | Compression of MQDF classifier using flexible sub-vector grouping |
KR101056462B1 (ko) * | 2009-07-02 | 2011-08-11 | 세종대학교산학협력단 | 음성신호 양자화 장치 및 방법 |
EP2372699B1 (en) * | 2010-03-02 | 2012-12-19 | Google, Inc. | Coding of audio or video samples using multiple quantizers |
KR101348888B1 (ko) * | 2012-01-04 | 2014-01-09 | 세종대학교산학협력단 | Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치 |
KR101413229B1 (ko) * | 2013-05-13 | 2014-08-06 | 한국과학기술원 | 방향 추정 장치 및 방법 |
KR101428938B1 (ko) | 2013-08-19 | 2014-08-08 | 세종대학교산학협력단 | 음성 신호의 벡터 양자화 장치 및 그 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4907276A (en) * | 1988-04-05 | 1990-03-06 | The Dsp Group (Israel) Ltd. | Fast search method for vector quantizer communication and pattern recognition systems |
JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
US5544277A (en) * | 1993-07-28 | 1996-08-06 | International Business Machines Corporation | Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals |
US5621852A (en) * | 1993-12-14 | 1997-04-15 | Interdigital Technology Corporation | Efficient codebook structure for code excited linear prediction coding |
JPH08179796A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
CA2684452C (en) * | 1997-10-22 | 2014-01-14 | Panasonic Corporation | Multi-stage vector quantization for speech encoding |
KR100248072B1 (ko) * | 1997-11-11 | 2000-03-15 | 정선종 | 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법 |
US6151414A (en) * | 1998-01-30 | 2000-11-21 | Lucent Technologies Inc. | Method for signal encoding and feature extraction |
DE10030105A1 (de) * | 2000-06-19 | 2002-01-03 | Bosch Gmbh Robert | Spracherkennungseinrichtung |
-
2002
- 2002-05-08 KR KR10-2002-0025401A patent/KR100446630B1/ko active IP Right Grant
- 2002-09-04 EP EP02256142A patent/EP1361567B1/en not_active Expired - Lifetime
- 2002-09-04 DE DE60232402T patent/DE60232402D1/de not_active Expired - Lifetime
- 2002-09-05 US US10/234,182 patent/US6631347B1/en not_active Expired - Lifetime
- 2002-12-26 JP JP2002376122A patent/JP2004029708A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009514383A (ja) * | 2005-10-27 | 2009-04-02 | クゥアルコム・インコーポレイテッド | 空間相関チャネルについての線形プリコーディング |
US8385433B2 (en) | 2005-10-27 | 2013-02-26 | Qualcomm Incorporated | Linear precoding for spatially correlated channels |
WO2009153995A1 (ja) * | 2008-06-19 | 2009-12-23 | パナソニック株式会社 | 量子化装置、符号化装置およびこれらの方法 |
US8473288B2 (en) | 2008-06-19 | 2013-06-25 | Panasonic Corporation | Quantizer, encoder, and the methods thereof |
JP5425066B2 (ja) * | 2008-06-19 | 2014-02-26 | パナソニック株式会社 | 量子化装置、符号化装置およびこれらの方法 |
JP2017504829A (ja) * | 2013-12-17 | 2017-02-09 | ノキア テクノロジーズ オサケユイチア | オーディオ信号エンコーダ |
Also Published As
Publication number | Publication date |
---|---|
EP1361567A3 (en) | 2005-06-08 |
US6631347B1 (en) | 2003-10-07 |
EP1361567B1 (en) | 2009-05-20 |
KR20030087373A (ko) | 2003-11-14 |
DE60232402D1 (de) | 2009-07-02 |
KR100446630B1 (ko) | 2004-09-04 |
EP1361567A2 (en) | 2003-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2718425C1 (ru) | Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи | |
KR100889399B1 (ko) | 스위치식예측양자화방법 | |
RU2504026C2 (ru) | Способ и устройство для селективного кодирования сигнала на основе характеристик базового кодера | |
KR100304092B1 (ko) | 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치 | |
JP2004029708A (ja) | 音声信号に対するベクトル量子化及びデコーディング装置とその方法 | |
US8468017B2 (en) | Multi-stage quantization method and device | |
US20120065965A1 (en) | Apparatus and method for encoding and decoding signal for high frequency bandwidth extension | |
US11922960B2 (en) | Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same | |
US10515646B2 (en) | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization | |
JP3344962B2 (ja) | オーディオ信号符号化装置、及びオーディオ信号復号化装置 | |
KR20050020728A (ko) | 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법 | |
WO2008067766A1 (fr) | Procédé et dispositif de quantification d'un vecteur | |
CA2233896C (en) | Signal coding system | |
US20080183465A1 (en) | Methods and Apparatus to Quantize and Dequantize Linear Predictive Coding Coefficient | |
WO2011087333A2 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR101056462B1 (ko) | 음성신호 양자화 장치 및 방법 | |
JP4327420B2 (ja) | オーディオ信号符号化方法、及びオーディオ信号復号化方法 | |
Chatterjee et al. | Low complexity wideband LSF quantization using GMM of uncorrelated Gaussian mixtures | |
JP3192051B2 (ja) | 音声符号化装置 | |
Le Vu et al. | Optimal transformation of LSP parameters using neural network | |
Lois et al. | Spectral coding of speech LSF parameters using Karhunen-Loeve transform | |
Tan et al. | Quantization of speech features: source coding | |
Hayashi et al. | Efficient two-stage vector quantization speech coder using wavelet coefficients of excitation signals | |
Rao | IMPROVED MODELING AND QUANTIZATION METHODS FOR SPEECH CODING. | |
Lois | Variable Length Coding of Transformed LSF Coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040521 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20041203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061004 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061227 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070403 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070417 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070515 |