JP4489960B2 - 音声の無声セグメントの低ビットレート符号化 - Google Patents
音声の無声セグメントの低ビットレート符号化 Download PDFInfo
- Publication number
- JP4489960B2 JP4489960B2 JP2000583003A JP2000583003A JP4489960B2 JP 4489960 B2 JP4489960 B2 JP 4489960B2 JP 2000583003 A JP2000583003 A JP 2000583003A JP 2000583003 A JP2000583003 A JP 2000583003A JP 4489960 B2 JP4489960 B2 JP 4489960B2
- Authority
- JP
- Japan
- Prior art keywords
- energy
- speech
- generating
- speech coder
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000012805 post-processing Methods 0.000 claims abstract 6
- 238000013139 quantization Methods 0.000 claims description 22
- 238000007493 shaping process Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Error Detection And Correction (AREA)
- Detection And Correction Of Errors (AREA)
Description
(発明の背景)
I.発明の分野
本発明は、一般に音声処理の分野、より詳細には音声の無声セグメントの低ビットレートコーディングのための方法および装置に関するものである。
II.技術の背景
ディジタル技術による音声の伝送は、特に長距離およびディジタル無線電話応用において広く行きわたるようになった。次に、これは、認識される再構成声質を維持している間にチャネルを介して送信できる最少の情報量を決定することに興味を生じた。音声が単にサンプリングおよびディジタル化によって伝送される場合、約64キロビット/秒(kbps)のデータ転送速度が従来のアナログ電話の声質を得るために必要である。しかしながら、適切なコーディング、伝送および受信機での再合成が後に続く音声分析の使用によって、データ転送速度の著しい減少を得ることができる。
【0002】
人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮する技術を使用する装置は音声コーダと呼ばれる。音声コーダは、入力音声信号を時間のブロックあるいは分析フレームに分割する。音声コーダは、一般的にはエンコーダおよびデコーダ、すなわちコーデックを含む。エンコーダは、入力音声フレームを分析し、所定の関連パラメータを抽出し、次にこのパラメータを2進表示、すなわちビットのセットあるいは2進データパケットに量子化する。このデータパケットは、通信チャネルを介して受信機およびデコーダに伝送される。このデコーダは、データパケットを処理し、このデータパケットを非量子化し、パラメータを生成し、それから非量子化パラメータを使用して音声フレームを再合成化する。
【0003】
音声コーダの機能は、音声固有の自然冗長の全てを取り除くことによって低ビットレート信号に圧縮することにある。このディジタル圧縮は、入力音声フレームをパラメータのセットで表示し、このパラメータをビットのセットで表示するために量子化を使用することによって得られる。入力音声フレームが多数のビットNiを有し、音声コーダによって発生されるデータパケットは多数のビットNoを有する場合、音声コーダによって得られる圧縮率はCr=Ni/Noである。この努力目標は、目標圧縮率を得る間、復号化音声の高声質を保持することにある。音声コーダの性能は、(1)音声モデル、あるいは前述された分析処理および合成処理の組合せをいかに十分に実行するか、および(2)いかに完全にパラメータ量子化処理がフレーム当たりNoビットの目標ビットレートでいかに十分に実行されるかによって決まる。したがって、音声モデルの目的は、各フレームに対するわずかなパラメータのセットを有する音声信号、すなわち目標声質の本質を捕まえることである。
【0004】
低ビットレートで音声を効率的に符号化する1つの有効な技術は、マルチモードコーディングである。マルチモードコーダは、異なるモード、あるいは符号化−復号化アルゴリズムを異なる種類の入力音声フレームに適用する。各モード、あるいは符号化−復号化処理は、最も有効な方法で所定の種類の音声セグメント(すなわち、有声、無声、背景雑音)を表示するようにカスタマイズする。外部モード決定機構は、入力音声フレームを検査し、どのモードをフレームに適用するかに関する決定を行う。一般的には、モード決定は、入力フレームの中から多数のパラメータを抽出し、これらを評価し、どのモードを適用するかについての決定を行うことによって開ループの方法で行われる。したがって、モード決定は、出力音声の正確な状態、すなわち、出力音声が声質あるいはいかなる他の性能量に関して入力音声とどれほど類似しているかを前以て知らないで行われる。音声コーデックのための典型的な開ループモード決定は、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許第5,414,796号に記載されている。
【0005】
マルチモードコーディングは、各フレームに対して同じビット数Noを使用する固定レートであってもよいし、あるいは異なるビットレートが異なるモードのために使用される可変レートであってもよい。可変レートコーディングの目的は、目標品質を得るのに十分なレベルにコーデックパラメータを符号化するのに必要なビット量だけを使用することにある。結果として、固定レートの声質と同じ目標声質の比較的高いレートのコーダは、可変ビットレート(VBR)技術を使用して明らかに比較的低い平均レートで得ることができる。典型的な可変レート音声コーダは、本発明の譲受人に譲渡され、引用文献としてここに予め完全に組み込まれる米国特許第5,414,796号に示されている。
【0006】
現在、低ビットレート(すなわち、2.4〜4kbpsおよびそれ以下の範囲にある)の媒体で作動する高品質音声コーダを開発する研究関心および強い営利的要求のうねりがある。用途の分野は、無線電話、衛星通信、インターネット電話、様々なマルチメディアおよび音声ストリーム用途、音声メール、および他の音声蓄積システムを含んでいる。駆動力は、高容量に対する要求およびパケット損失状態の下での確固不動の要求がある。様々な最近の音声コーディング標準化の努力は低レート音声コーディングアルゴリズムの研究および開発を推進する他の直接の原動力である。低レート音声コーダは、許容可能な用途の帯域幅当たりより多くのチャネル、すなわちユーザを形成し、適当なチャネルコーディングの他のレイヤと結合された低レート音声コーダは、コーダ仕様の全ビットバジェットに適合でき、チャネルエラー状態の下で確固不動の性能を与える。
【0007】
したがって、マルチモードVBR音声コーディングは低ビットレートで音声を符号化するのに有効な方法である。従来のマルチモード方式は、有効な符号化方式、様々な音声のセグメント(例えば、無声、有声、遷移)に対するモードならびに背景雑音あるいは無声に対するモードの設計を必要とする。音声コーダの全性能は、各モードがいかに十分に実行するかによって決まり、コーダの平均レートは、音声の無声セグメント、有声セグメント、および他のセグメントに対する異なるモードのビットレートによって決まる。低平均レートで目標品質を得るために、そのいくつかが低ビットレートで作動しなければならない有効な高性能モードを設計することが必要である。一般的には、有声音声セグメントおよび無声音声セグメントは、高ビットレートで捕まえられ、背景雑音および無声セグメントは、かなり比較的低いレートで作動するモードで表示される。したがって、フレーム当たり最少のビット数を使用している間、音声の無声セグメントを正確に捕まえる低ビットレート符号化技術に対する要求がある。
【0008】
(発明の概要)
本発明は、フレーム当たり最少ビットを使用している間、音声の無声セグメントを正確に捕まえる低ビットレートコーディング技術に向けられる。したがって、本発明の一態様では、音声の無声セグメントを符号化する方法は、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するステップと、高時間分解能エネルギー係数を量子化するステップと、量子化エネルギー係数から高時間分解能エネルギーエンベロープを生成するステップと、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成するステップとを含む。
【0009】
本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出する手段と、高時間分解能エネルギー係数を量子化する手段と、高時間分解能エネルギーエンベロープを量子化エネルギー係数から生成する手段と、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成する手段とを含んでいる。
【0010】
本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するように構成されたモジュールと、高時間分解能エネルギー係数を量子化するように構成されたモジュールと、高時間分解能エネルギーエンベロープを量子化エネルギー係数から生成するように構成されたモジュールと、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成するように構成されたモジュールとを含む。
【0011】
(好ましい実施形態の詳細な説明)
図1では、第1のエンコーダ10は、ディジタル化音声サンプルs(n)を受信し、伝送媒体12、すなわち通信チャネル12上で、第1のデコーダ14に伝送するためにこのサンプルs(n)を符号化する。このデコーダ14は、符号化音声サンプルを復号化し、出力音声信号sSYNTH(n)を合成する。反対方向に伝送するために、第2のエンコーダ16は、通信チャネル18上で伝送されるディジタル化音声サンプルs(n)を符号化する。第2のデコーダ20は、符号化音声サンプルを受信し、復号化し、合成出力音声信号sSYNTH(n)を生成する。
【0012】
音声サンプルs(n)は、例えば、パルス符号変調(PCM)、圧伸μ法、あるいはA法を技術で公知の様々な方法のいずれかに従ってディジタル化および量子化された音声信号を示す。当該技術で公知であるように、音声サンプルs(n)は、入力データのフレームに構成され、各フレームは、所定数のディジタル化音声サンプルs(n)を含む。典型的な実施形態では、8kHzのサンプリングレートが使用され、各20msフレームは160のサンプルを含む。後述される実施形態では、データ伝送速度は、8kbps(フルレート)から4kbps(ハーフレート)へ2kbps(1/4レート)へ1kbps(1/8レート)にまでフレーム毎に基づいて変えられてもよい。比較的低いビットレートは比較的少ない音声情報を含むフレームに対して選択的に使用されてもよいために、データ伝送速度を変えることは有利である。当業者に理解されているように、他のサンプリング速度、フレームサイズおよびデータ伝送速度が使用されてもよい。
【0013】
第1のエンコーダ10および第2のエンコーダ20は共に、第1の音声コーダ、あるいは音声コーデックを含む。同様に、第2のエンコーダ16および第1のエンコーダ14は共に第2の音声コーダを含む。音声コーダは、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、個別ゲートロジック、ファームウェア、あるいは任意の従来のプログラマブルソフトウェアモジュールおよびマイクロプロセッサで実現されてもよいことが当業者に分かる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、当該技術で公知の任意の形式の書込み可能な媒体にあってもよい。それとは別に、任意の従来のプロセッサ、コントローラ、あるいは状態機械はマイクロプロセッサの代わりにされてもよい。特に音声符号化のために設計された典型的なASICは、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許第5,727,123号および1994年2月16日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる名称が「ボコーダASIC」と題された米国特許出願第08/197,417号に記載されている。
【0014】
図2では、音声コーダで使用されてもよいエンコーダ100は、モード決定モジュール102と、ピッチ推定モジュール104と、LP分析モジュール106と、LP分析フィルタ108と、LP量子化モジュール110と、残余量子化モジュール112とを含んでいる。入力音声フレームs(n)は、モード決定モジュール102、ピッチ推定モジュール104、LP分析モジュール106、およびLP分析フィルタ108に供給される。モード決定モジュール102は、各入力音声フレームs(n)の周期性に基づいてモードインデックスIMおよびモードMを発生する。周期性に従って音声フレームを分類する様々な方法は、1997年3月11日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる名称が「減少された速度の可変速度ボコーディングを実行する方法および装置」と題された米国特許出願第08/815,354号に記載されている。このような方法は、米国電気通信工業会工業暫定規格TIA/EIA IS−127およびTIA/EIA IS−733にも組込まれる。
【0015】
ピッチ推定モジュール104は、ピッチインデックスIpおよび遅れ値P0を各入力音声フレームs(n)に基づいて発生する。LP分析モジュール106は、各入力音声フレームs(n)の線形予測分析を実行し、LPパラメータaを発生する。LPパラメータaは、LP量子化モジュール110に供給される。LP量子化モジュール110はモードMも受信する。LP量子化モジュール110は、LPインデックスILPおよび量子化LPパラメータaを発生する。LP分析フィルタ108は、入力音声フレームs(n)に加えて量子化LPパラメータaを受信する。LP分析フィルタ108は、入力音声フレームs(n)と量子化線形予測パラメータaとの間のエラーを示すLP残余信号R[n]を発生する。LP残余R[n]、モードM、および量子化LPパラメータaは残余量子化モジュール112に供給される。これらの値に基づいて、残余量子化112は、残余インデックスIRおよび量子化残余信号R[n]を発生する。
【0016】
図3において、音声コーダで使用されてもよいデコーダ200は、LPパラメータ復号化モジュール202と、残余復号化モジュール204と、モード復号化モジュール206と、LP合成フィルタ208とを含む。モード復号化モジュール206は、モードインデックスIMを受信し、復号化し、それからモードMを生成する。LPパラメータ復号化モジュール202は、モードMおよびLPインデックスILPを受信する。LPパラメータ復号化モジュール202は、受信値を復号化し、量子化LPパラメータaを発生する。残余復号化モジュール204は、残余インデックスIR、ピッチインデックスIp、およびモードインデックスIMを受信する。残余復号化モジュール204は、受信値を復号化し、量子化残余信号R[n]を生成する。量子化残余信号R[n]および量子化LPパラメータaは、それから復号化出力音声信号s[n]を合成するLP合成フィルタ208に供給される。
【0017】
図2のエンコーダ100および図3のデコーダの様々なモジュールの動作および実装は、当該技術で公知であり、引用文献としてここに完全に組み込まれるL.B.Rabiner&R.W.Schafer著の論文「音声信号のディジタル処理(396〜453)(1978)」に詳述される。典型的なエンコーダおよび典型的なデコーダは、引用文献としてここに予め完全に組み込まれる米国特許第5,414,796号に記載されている。
【0018】
図4のフローチャートは、一実施形態による音声の無声セグメントのための低ビットレートコーディングを示す。図4の実施形態に示された低ビット無声コーディングモードは、有利なことには、フレーム当たり少数のビットを有する無声セグメントを正確に捕まえることによって全体の高声質を保持している間、マルチモード音声コーダに比較的低い平均ビットレートを与える。
【0019】
ステップ300では、コーダは、外部速度決定を実行し、入力音声フレームを無声あるいは非無声のいずれかと確認する。速度決定は、フレームのエネルギー(E)、フレーム周期性(Rp)およびスペクトル傾斜(Ts)のような音声フレームS[n](ここで、n=1、2、3、...Nである)から抽出される多数のパラメータを考察することによって行われる。このパラメータは、所定の閾値のセットで比較される。現フレームが比較の結果に基づいて無声であるかどうかに関する決定が行われる。現フレームが無声である場合、現フレームは、後述されるように無声フレームとして復号化される。
【0020】
フレームエネルギーは、有利なことには、下記の式に従って決定されてもよい。
【数1】
【0021】
フレーム周期性は、有利なことには、下記の式に従って決定されてもよい。
【数2】
【0022】
ここで、R(x[n]、x[n+k])は、xの自己相関関数である。スペクトル傾斜は、有利なことには、下記の式に従って決定されてもよい。
【数3】
【0023】
ここで、EhおよびElは、Sl[n]およびSh[n]のエネルギー値であり、SlおよびShは、原音声フレームS[n]のローパス成分およびハイパス成分であり、その成分は、有利なことには、一組のローパスフィルタおよびハイパスフィルタによって発生されてもよい。
【0024】
ステップ302では、LP分析は、無声フレームの線形予測の残余を生成するように行われる。線形予測(LP)分析は、両方とも引用文献としてここに完全に組み込まれる前述の米国特許第5,414,796号およびL.B.Rabiner&R.W.Schafer著の論文「音声信号のディジタル処理(396〜458)(1978)」に記載されているように当該技術分野で公知である技術で行われる。Nサンプルの無声LP残余のR[n](ここで、n=1、2、...Nである)は、入力音声フレームS[n](ここで、n=1、2、...Nである)から形成される。LPパラメータは、上記で列挙された引用文献のいずれかに記載されているように公知のLSP量子化技術で線形スペクトル対(LSP)領域で量子化される。原音声信号振幅対個別時間インデックスのグラフは図5のAに示されている。量子化無声音声信号振幅対個別時間インデックスのグラフは図5のBに示されている。原無声残余信号振幅対個別時間インデックスのグラフは図5のCに示されている。エネルギーエンベロープ振幅対個別時間インデックスのグラフは図5のDに示されている。量子化無声残余信号振幅対個別時間インデックスは図5のEに示されている。
【0025】
ステップ304では、無声残余の精時間分解能エネルギーパラメータが抽出される。多数(M)のローカルエネルギーパラメータEi(ここで、n=1、2、...Mである)は、下記のステップを実行することによって無声残余R[n]から抽出される。Nサンプルの残余R[n]は、(M−2)個のサブブロックXi(ここで、n=1、2、...M−1である)に分割され、各ブロックXiは、L=N/(M−2)の長さを有する。Lサンプルの過去残余ブロックXiは、前フレームの過去量子化残余から得られる。(Lサンプルの過去残余ブロックXiは、最後の音声フレームのNサンプル残余の最後のL個のサンプルを組み込む)。Lサンプルの将来残余ブロックXMは次のフレームのLP残余から得られる。(Lサンプル将来残余ブロックXMは、次の音声フレームのNサンプルのLP残余の最初のL個のサンプルを組み込む)。多数MのローカルエネルギーパラメータEi(ここで、i=1、2、...M)は、下記の式に従ってM個のブロックXi(ここで、i=1、2、...M)の各々から形成される。
【数4】
【0026】
ステップ306では、M個のエネルギーパラメータは、ピラミッドベクトル量子化(PVD)方法に従ってNrビットで符号化される。したがって、M−1個のローカルエネルギー値Ei(ここで、i=2、3、,...M)は、量子化エネルギー値Wi(ここで、i=2、3、...M)を形成するようにNrビットで符号化される。ビットN1、N2、...Nkを有するKステップのPVQ符号化方式は、N1+N2+...Nk=Nrのように使用され、全ビット数は無声残余R[n]を量子化するのに役立つ。k(ここで、k=1、2、...K)ステージの各々に関して、下記のステップが実行される。第1のステージ(すなわち、k=1)に関しては、バンド数は、Bk=B1=1に設定され、バンド長はLk=1に設定される。各バンドBkに関しては、平均値meanj(ここで、j=1,2,...Bk)は下記の式による。
【数5】
【0027】
Bk平均値meanj(ここで、j=1、2、...Bk)は、量子化平均値meanj(ここで、j=1、2、...Bk)のセットを形成するようにNk=Njビットで量子化される。各バンドBkに属するエネルギーは、関連量子化平均値qmeanjによって分割され、新しい組のエネルギー値{Ek,j}={Ei,j}(ここで、i=1、2、...M)を生成する。各i(ここで、i=1、2、3、...M)に対する第1のステージの場合(すなわち、k=1の場合)下記の式が得られる。
【数6】
【0028】
サブバンドに分解し、各バンドに対する平均値を抽出し、このステージに役立つビットで平均値を量子化し、それからサブバンドの成分をサブバンドの量子化平均値で割るステップは、各々のその後のステージk(ここで、k=2、3、...k−1)に対して繰り返される。
【0029】
第K番目のステージでは、Bk個のサブバンドの各々のサブベクトルは、Nkビットの全部を使用して各バンドに対して設計された個別のVQsで量子化される。M=8およびステージ=4に対するPVQ符号化ステップは図6に例として示される。
【0030】
ステップ308では、M個の量子化エネルギーベクトルが形成される。M個の量子化エネルギーベクトルは、コードブックおよびPVQ情報を示すNrビットから前述のPVQ符号化処理を最終の残余サブベクトルおよび量子化平均値で逆にすることによって形成される。M=3およびステージk=3に対するPVQ復号化ステップは図7に例として示される。当業者が理解されるように、無声(UV)利得は、任意の従来の符号化技術で量子化されてもよい。符号化方式は、図4〜図7に関して説明される実施形態のPVQ方式に制限される必要がない。
【0031】
ステップ310では、高分解能エネルギーエンベロープが形成される。Nサンプル(すなわち、音声フレーム長)の高時間分解能エネルギーエンベロープENV[n](ここで、i=1、2、3、...N)は、後述された計算に従って復号化エネルギー値Wi(ここで、i=1、2、3、...M)から形成される。M個のエネルギー値は、音声の現残余のM−2個のサブフレームのエネルギーを示し、各サブフレームは長さL=N/Mを有する。値WIおよびWMは、残余の最後のフレームの過去のL個のサンプルのエネルギーおよび残余の次のフレームの将来のL個のサンプルのエネルギーそれぞれを示している。
【0032】
Wm−1、Wm、およびWm+1が、(m−1)番目のサブバンド、m番目のサブバンド、および(m+1)番目のサブバンドのエネルギーのそれぞれを示す場合、m番目のサブフレームを示すn=m*L−L/2〜n=m*L+L/2に対するエネルギーエンベロープENV[n]のサンプルは下記のように計算される。n=m*L−L/2に対して、n=m*Lまで、
【数7】
【0033】
である。
さらに、n=m*Lに対して、n=m*L+L/2まで、
【数8】
【0034】
である。
【0035】
エネルギーエンベロープENV[n]を計算するステップは、M−1個のバンドの各々に対して繰り返され、現残余フレームに対する全エネルギーエンベロープENV[n](ここで、n=1、2、..N)を計算するためにm=2、3、4、,...Mとする。
【0036】
ステップ312では、量子化無声残余は、エネルギーエンベロープENV[n]を有するランダム雑音を特徴付けることによって形成される。量子化無声残余qR[n]は下記の式に従って形成される。
【数9】
【0037】
n=1、2、...Nに対してqR[n]=Noise[n]*ENV[n]である。
ここで、Noise[n]は、有利なことには、エンコーダおよびデコーダと同期する乱数発生器によって人工的に発生される単位分散を有するランダム白色雑音信号である。
【0038】
ステップ314では、量子化無声音声フレームが形成される。量子化無声残余qS[n]は、当該技術分野で公知であり、両方とも引用文献としてここに完全に組み込まれる前述の米国特許第5,414,796号およびL.B.Rabiner&R.W.Schafer著の論文「音声信号のディジタル処理(396〜458)(1978)」に記載されるように従来のLP合成技術による量子化無声音声の逆LPフィルタリングによって発生される。
【0039】
一実施形態では、例えば、下記のように規定される知覚信号対雑音比(PSNR)のような知覚誤差量を測定することによって実行できる。
【数10】
【0040】
ここで、x[n]=h[n]*R[n]、およびe(n)=h[n]*qR[n]であり、“*”は、畳み込みあるいはフィルタリング演算を示し、h(n)は、知覚重み付けLPフィルタであり、R[n]およびqR[n]は、それぞれ原無声残余および量子化無声残余である。PSNRは所定の閾値と比較される。PSNRが閾値よりも小さい場合、無声符号化方式は十分に実行しなくて、高速度符号化モードは、その代わりに現フレームをより正確に捕まえるために適用されてもよい。一方、PSNRが所定の閾値を超える場合、無声符号化方式は十分実行し、モード決定が保持される。
【0041】
本発明の好ましい実施形態はこのように図示され、説明されている。しかしながら、多数の変更は本発明の精神あるいは範囲から逸脱しないでここに開示された実施形態に対して行われてもよい。したがって、本発明は上記の特許請求の範囲による以外限定されるべきでない。
【図面の簡単な説明】
【図1】 音声コーダによって各端で終端される通信チャネルのブロック図である。
【図2】 エンコーダのブロック図である。
【図3】 デコーダのブロック図である。
【図4】 音声の無声セグメントに対する低ビットレート符号化のステップを示すフローチャートである。
【図5】 信号振幅対個別時間インデックスのグラフである。
【図6】 ピラミッドベクトル量子化の符号化処理を示す機能図である。
【図7】 ピラミッドベクトル量子化の復号化処理を示す機能図である。
【符号の説明】
10、16…エンコーダ、14、20…デコーダ、100…エンコーダ、102…モード決定モジュル、104…ピッチ推定モジュール、106…LP分析フィルタ、110…LP量子化モジュール、112…残余量子化モジュール、200…デコーダ、202…LP復号化モジュール、204…残余復号化モジュール、206…モード復号化モジュール、208…LP合成フィルタ
Claims (18)
- 音声の無声セグメントを符号化する方法であって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出するステップと、
前記エネルギー係数を量子化するステップと、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成するステップと、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成するステップとを含む方法。 - 前記量子化ステップがピラミッドベクトル量子化方式に従って実行される請求項1の方法。
- 前記生成するステップが線形補間で行われる請求項1の方法。
- 後処理性能量を得るステップと、前記後処理性能量を所定の閾値と比較するステップとをさらに含む請求項1の方法。
- 前記生成するステップが、残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成することを含む請求項1の方法。
- 前記生成するステップが、残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成することを含む請求項1の方法。
- 音声の無声セグメントを符号する音声コーダであって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出する手段と、
前記エネルギー係数を量子化する手段と、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成する手段と、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成する手段とを備えている音声コーダ。 - 前記量子化する手段が、ピラミッドベクトル量子化方式に従って量子化する手段を含む請求項7の音声コーダ。
- 前記生成する手段が線形補間モジュールを含む請求項7の音声コーダ。
- 後処理性能量を得る手段と、前記後処理性能量を所定の閾値と比較する手段とをさらに含む請求項7の音声コーダ。
- 前記生成する手段が、残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成する手段を含む請求項7の音声コーダ。
- 前記生成する手段が、残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含むエネルギーエンベロープを生成する手段を含む請求項7の音声コーダ。
- 音声の無声セグメントを符号化する音声コーダであって、
音声のセグメントの複数のサブブロックについてのエネルギー係数を抽出するように構成されたモジュールと、
前記エネルギー係数を量子化するように構成されたモジュールと、
前記量子化されたエネルギー係数からエネルギーエンベロープを生成するように構成されたモジュールと、
前記エネルギーエンベロープを有するランダムに発生される雑音ベクトルを形成することによって残余信号を再構成するように構成されたモジュールとを備えている音声コーダ。 - 前記量子化がピラミッドベクトル量子化方式に従って行われる請求項13の音声コーダ。
- 前記生成が線形補間に従って実行される請求項13の音声コーダ。
- 後処理性能量を得て、所定の閾値と比較するように構成されたモジュールをさらに含む請求項13の音声コーダ。
- 前記エネルギーエンベロープが残余の前のフレームの所定の過去のサンプル数のエネルギーの表示を含む請求項13の音声コーダ。
- 前記エネルギーエンベロープが残余の次のフレームの所定の将来のサンプル数のエネルギーの表示を含む請求項13の音声コーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/191,633 US6463407B2 (en) | 1998-11-13 | 1998-11-13 | Low bit-rate coding of unvoiced segments of speech |
US09/191,633 | 1998-11-13 | ||
PCT/US1999/026851 WO2000030074A1 (en) | 1998-11-13 | 1999-11-12 | Low bit-rate coding of unvoiced segments of speech |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002530705A JP2002530705A (ja) | 2002-09-17 |
JP2002530705A5 JP2002530705A5 (ja) | 2007-01-25 |
JP4489960B2 true JP4489960B2 (ja) | 2010-06-23 |
Family
ID=22706272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000583003A Expired - Fee Related JP4489960B2 (ja) | 1998-11-13 | 1999-11-12 | 音声の無声セグメントの低ビットレート符号化 |
Country Status (11)
Country | Link |
---|---|
US (3) | US6463407B2 (ja) |
EP (1) | EP1129450B1 (ja) |
JP (1) | JP4489960B2 (ja) |
KR (1) | KR100592627B1 (ja) |
CN (2) | CN1815558B (ja) |
AT (1) | ATE286617T1 (ja) |
AU (1) | AU1620700A (ja) |
DE (1) | DE69923079T2 (ja) |
ES (1) | ES2238860T3 (ja) |
HK (1) | HK1042370B (ja) |
WO (1) | WO2000030074A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
KR20020075592A (ko) * | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
JP2004519738A (ja) * | 2001-04-05 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 決定された信号型式に固有な技術を適用する信号の時間目盛修正 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
KR100487719B1 (ko) * | 2003-03-05 | 2005-05-04 | 한국전자통신연구원 | 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기 |
CA2475283A1 (en) * | 2003-07-17 | 2005-01-17 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre | Method for recovery of lost speech data |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
RU2426179C2 (ru) * | 2006-10-10 | 2011-08-10 | Квэлкомм Инкорпорейтед | Способ и устройство для кодирования и декодирования аудиосигналов |
AU2007318506B2 (en) * | 2006-11-10 | 2012-03-08 | Iii Holdings 12, Llc | Parameter decoding device, parameter encoding device, and parameter decoding method |
GB2466666B (en) * | 2009-01-06 | 2013-01-23 | Skype | Speech coding |
US20100285938A1 (en) * | 2009-05-08 | 2010-11-11 | Miguel Latronica | Therapeutic body strap |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
EP3111560B1 (en) | 2014-02-27 | 2021-05-26 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113627499B (zh) * | 2021-07-28 | 2024-04-02 | 中国科学技术大学 | 基于检查站柴油车尾气图像的烟度等级估算方法及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
IL95753A (en) * | 1989-10-17 | 1994-11-11 | Motorola Inc | Digits a digital speech |
JP2841765B2 (ja) * | 1990-07-13 | 1998-12-24 | 日本電気株式会社 | 適応ビット割当て方法及び装置 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5839102A (en) * | 1994-11-30 | 1998-11-17 | Lucent Technologies Inc. | Speech coding parameter sequence reconstruction by sequence classification and interpolation |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6754624B2 (en) * | 2001-02-13 | 2004-06-22 | Qualcomm, Inc. | Codebook re-ordering to reduce undesired packet generation |
-
1998
- 1998-11-13 US US09/191,633 patent/US6463407B2/en not_active Expired - Lifetime
-
1999
- 1999-11-12 ES ES99958940T patent/ES2238860T3/es not_active Expired - Lifetime
- 1999-11-12 EP EP99958940A patent/EP1129450B1/en not_active Expired - Lifetime
- 1999-11-12 CN CN200410045610XA patent/CN1815558B/zh not_active Expired - Lifetime
- 1999-11-12 AU AU16207/00A patent/AU1620700A/en not_active Abandoned
- 1999-11-12 AT AT99958940T patent/ATE286617T1/de not_active IP Right Cessation
- 1999-11-12 KR KR1020017006085A patent/KR100592627B1/ko active IP Right Grant
- 1999-11-12 CN CNB99815573XA patent/CN1241169C/zh not_active Expired - Lifetime
- 1999-11-12 DE DE69923079T patent/DE69923079T2/de not_active Expired - Lifetime
- 1999-11-12 JP JP2000583003A patent/JP4489960B2/ja not_active Expired - Fee Related
- 1999-11-12 WO PCT/US1999/026851 patent/WO2000030074A1/en active IP Right Grant
-
2002
- 2002-05-30 HK HK02104019.7A patent/HK1042370B/zh not_active IP Right Cessation
- 2002-07-17 US US10/196,973 patent/US6820052B2/en not_active Expired - Lifetime
-
2004
- 2004-09-29 US US10/954,851 patent/US7146310B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ES2238860T3 (es) | 2005-09-01 |
JP2002530705A (ja) | 2002-09-17 |
US6820052B2 (en) | 2004-11-16 |
ATE286617T1 (de) | 2005-01-15 |
HK1042370B (zh) | 2006-09-29 |
WO2000030074A1 (en) | 2000-05-25 |
US20020184007A1 (en) | 2002-12-05 |
US20050043944A1 (en) | 2005-02-24 |
CN1241169C (zh) | 2006-02-08 |
DE69923079T2 (de) | 2005-12-15 |
US6463407B2 (en) | 2002-10-08 |
EP1129450B1 (en) | 2005-01-05 |
DE69923079D1 (de) | 2005-02-10 |
AU1620700A (en) | 2000-06-05 |
KR20010080455A (ko) | 2001-08-22 |
CN1815558B (zh) | 2010-09-29 |
CN1342309A (zh) | 2002-03-27 |
KR100592627B1 (ko) | 2006-06-23 |
US7146310B2 (en) | 2006-12-05 |
HK1042370A1 (en) | 2002-08-09 |
CN1815558A (zh) | 2006-08-09 |
EP1129450A1 (en) | 2001-09-05 |
US20010049598A1 (en) | 2001-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4489960B2 (ja) | 音声の無声セグメントの低ビットレート符号化 | |
JP4270866B2 (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
KR100873836B1 (ko) | Celp 트랜스코딩 | |
KR20010093210A (ko) | 가변 속도 음성 코딩 | |
JP4874464B2 (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
US8457953B2 (en) | Method and arrangement for smoothing of stationary background noise | |
JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
Indumathi et al. | Performance Evaluation of Variable Bitrate Data Hiding Techniques on GSM AMR coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091104 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091111 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100401 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4489960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |