JP4489959B2 - 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 - Google Patents

時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 Download PDF

Info

Publication number
JP4489959B2
JP4489959B2 JP2000583002A JP2000583002A JP4489959B2 JP 4489959 B2 JP4489959 B2 JP 4489959B2 JP 2000583002 A JP2000583002 A JP 2000583002A JP 2000583002 A JP2000583002 A JP 2000583002A JP 4489959 B2 JP4489959 B2 JP 4489959B2
Authority
JP
Japan
Prior art keywords
pitch
prototype
waveform
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000583002A
Other languages
English (en)
Other versions
JP2003501675A (ja
Inventor
ダス、アミタバ
チョイ、エディー・エル・ティー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003501675A publication Critical patent/JP2003501675A/ja
Application granted granted Critical
Publication of JP4489959B2 publication Critical patent/JP4489959B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、概して音声処理の分野に関し、さらに特定すると、時間同期波形補間(TSWI)によってピッチプロトタイプ波形からの音声の合成のための方法および装置に関する。
【0002】
【従来の技術】
デジタル技法による音声の伝送は、特に長距離電話およびデジタル無線電話の用途において普及してきた。その結果、これは、再構築される音声の知覚品質を維持しつつ、チャネル上で送信できる情報の最低量を決定する際に大きな関心を生じさせてきた。音声が単にサンプリングおよびデジタル化だけで送信される場合、従来のアナログ電話の音声品質を達成するためには、約毎秒あたり64キロビット(kbps)のデータ転送速度が必要とされる。しかしながら、適切なコーディング、伝送、および受信機での再合成が後に続く音声分析の使用を通して、データ転送速度のかなりの削減を達成することができる。
【0003】
人間の音声生成のモデルに関するパラメータを抽出することにより音声を圧縮するための技術を利用する装置は、音声コーダと呼ばれる。音声コーダは、入力音声信号を時間のブロックまたは分析フレームに分割する。音声コーダは、典型的には、エンコーダとデコーダ、つまりコーデックを備える。符号器は、入力音声フレームを分析し、一定の関連するパラメータを抽出してから、該パラメータを2進表記に、つまりビットのセットまたはバイナリデータパケットに量子化する。データパケットは、受信機とデコーダまで通信路上で送信される。
【0004】
デコーダは、データパケットを処理し、それらを量子化してから、量子化パラメータを使用して音声フレームを再合成する。
【0005】
音声コーダの機能とは、音声に固有の自然の冗長性のすべてを除去することにより、デジタル化された音声信号を低ビット伝送速度に圧縮することである。デジタル圧縮は、パラメータのセットで入力音声フレームを表し、ビットのセットでパラメータを表すために量子化を利用することにより達成される。
入力音声フレームが多くのビットNを有し、音声コーダにより作られるデータパケットが多くのビットNを有する場合、音声コーダにより達成される圧縮係数は、Cr=N/Nである。課題は、ターゲット圧縮係数を達成しつつ、復号された音声の高い音声品質を保持することである。音声コーダの性能は、(1)音声モデル、つまり前述された分析と合成の組み合わせがどの程度うまく実行されるのか、および(2)フレームあたりNビットというターゲットビット伝送速度でパラメータ量子化プロセスがどの程度うまく実行されるのかに依存する。音声モデルの目標とは、このようにして音声信号、またはターゲット音声品質の本質を各フレームのパラメータの小さなセットで捕捉することである。
【0006】
音声コーダは、そのモデルが時間ドメインモデルである場合に時間ドメインコーダと呼ばれる。よく知られている例は、参照してここに完全に組み込まれている、L.B.RabinerおよびW.R.Schaferの音声信号のデジタル処理(Digital Processing of Speech Signals)396−453(1978年)に説明されている符号励起線形予測(CELP)コーダである。
【0007】
CELPコーダにおいては、音声信号における短期間の相関関係、つまり冗長性は、短期間フォルマントフィルタの係数を検索する線形予測(LP)分析により除去される。短期間予測フィルタを入力音声フレームに適用することにより、長期予測フィルタパラメータおよびそれ以降の確率論的なコードブックでモデル化、量子化されるLP残余信号が生成される。このようにして、CELPコーディングは、時間ドメイン音声波形の符号化というタスクを、LP短期フィルタ係数の符号化およびLP残余の符号化という別個のタスクに分ける。
【0008】
目標は、入力音声波形に酷似する合成出力音声波形を作り出すことである。時間ドメイン波形を正確に保存するためには、CELPコーダは、さらに、残余フレームをさらに小さなブロック、つまりサブフレームに分け、サブフレームの合成による分析(analysis−by−synthesis)方法を続行する。サブフレームごとに量子化するための多くのパラメータがあるため、これにはフレームごとに多数のビットNが必要となる。CELPコーダは、典型的には、フレームごとにビットNの使用可能な数が、8kbps以上というコーディングビット伝送速度にとって十分大きいときに、優れた品質を送達する。
【0009】
波形補間(WI)は、音声のフレームごとにM個のプロトタイプ波形が抽出され、使用可能なビットで符号化される音声コーディング技法である。出力音声は、任意の従来の波形補間技法により、復号されたプロトタイプ波形から合成される。多様なWI技法は、参照してここに完全に組み込まれるW.Bastiaan KleijnおよびJesper Haagenの音声コーディングおよび合成(Speech Coding and Synthesis)、176−205(1995年)に説明されている。
【0010】
従来のWI技法は、ここに参照して完全に組み込まれている米国特許番号第5,517,595号にも説明されている。しかしながら、このような従来のWI技法においては、正確な結果を送達するために、フレームごとに複数のプロトタイプ波形を抽出することが必要である。さらに、再構成された波形の時間同期性を提供するため機構は存在していない。この理由から、合成された出力WI波形は、最初の入力波形と位置合わせされることが保証されていない。
【0011】
現在、中から低のビット伝送速度で(つまり2.4から4kbps以下の範囲で)動作している高品質音声コーダを開発するという研究の関心および強い商業的な必要性の高まりがある。応用分野は、無線電話、衛星通信、インターネット電話、多様なマルチメディアと音声ストリーミング用途、音声メール、およびその他の音声記憶システムを含む。その原動力は、高容量に対する必要性およびパケットが失われた状況での堅牢な性能に対する要求である。多様な近年の音声コーディング標準化の作業は、低速度音声コーディングアルゴリズムの研究開発を推進する別の直接的な駆動力である。低速度音声コーダは、許容アプリケーション帯域幅ごとに複数のチャネル、つまりユーザを作り出し、低速度音声コーダは適切なチャネルコーディングのさらなる層と組み合わされてコーダ仕様の総合的なビット予算に適合し、チャネルエラー状態においても堅牢な性能を提供することができる。
【0012】
しかしながら、低ビット伝送速度(4kbps以下)では、CELPコーダのような時間ドメインコーダは、使用可能なビットの数が限られているために、高品質および堅牢な性能を保持することはできない。低ビット速度では、限られたコードブック空間が、さらに高い速度の商業用アプリケーションにおいて首尾よく配備されている、従来の時間ドメインコーダの波形整合機能を取り去ってしまう
【0013】
音声を低ビット速度で効率的に符号化するための1つの有効な技法は、マルチモードコーディングである。マルチモードコーダは、さまざまなモード、つまり符号化−復号アルゴリズムを、異なる種類の入力音声フレームに適用する。それぞれのモード、つまり符号化−復号プロセスは、最も効率的な方法で一定の種類の音声セグメント(つまり、有声、無声、または背景雑音)を表すためにカスタマイズされる。外部モード決定機構は、入力音声フレームを調べ、フレームにどのモードを適用するのかに関する決定を下す。典型的には、モードの決定は、入力フレームの中からパラメータの数を抽出し、どのモードを適用するのかに関する決定を下すためにそれらを評価することにより、開放ループ様式で実行される。このようにして、モードの決定は、事前に出力音声の正確な状態、つまり出力信号が、音声品質または任意の他の性能基準という点で入力音声にどの程度類似するだろうかを知らずに下される。音声コーダの例示的な開放ループモードは、本発明の譲受人に譲渡され、ここに参照して完全に組み込まれている米国特許番号第5,414,796号に説明されている。
【0014】
マルチモードコーディングは、フレームごとのビットNの同じ数を使用する固定速度であるか、あるいは異なるビット伝送速度がさまざまなモードに使用される可変速度のどちらかである場合がある。可変速度コーディングの目標とは、ターゲット品質を得るために十分なレベルまでコーデックパラメータを符号化するために必要とされるビット量だけを使用することである。その結果、固定速度のターゲット音声品質と同じターゲット音声品質、つまりさらに高い速度のコーダは、可変ビット伝送速度(VBR)技法を使用してかなり低い平均速度で得ることができる。例示的な可変速度音声コーダは、本発明の譲受人によって譲渡され、参照してここに過去に完全に組み込まれる米国特許第5,414,796号に説明される。
【0015】
【発明が解決しようとする課題】
音声化された音声セグメントは、このようなセグメントをピッチプロトタイプ波形、すなわち、ピッチつまり周期性の基本的な周波数が時間とともに変化するにつれてその長さL(n)が時間と共に変化する小さなセグメント、に分割できるという点で準周期的と呼ばれる。このようなセグメント、つまりピッチプロトタイプ波形は、強い相関を有する。つまり、それらは互いにきわめて類似している。これは、特に隣接するピッチプロトタイプ波形に当てはまる。準周期的に声に出された音声セグメントを低速度モードで表すために、低平均速度で高い音声品質をもつ効率的なマルチモードVBRコーダを設計する際に有利である。
【0016】
音声モデル、つまり音声の準周期的に声に出されるセグメントを表す、分析−合成方法を提供することが望ましいだろう。高品質合成を提供し、それによって高品質で音声を作成するモデルを設計することはさらに有利だろう。モデルが、ビットの小さなセットで符号化するために敏感に反応するようにパラメータの小さなセットを有することもさらに望ましいだろう。このようにして、符号化のために最小量のビットを必要とし、高品質の音声合成を生じさせる発声された音声セグメントのための時間同期波形補間方法に対する必要性がある。
【0017】
本発明は、例えばこの時間同期波形補間によって、ピッチプロトタイプ波形からの音声の合成を可能とする方法および装置を提供することを主な目的とするものである。
【0018】
【課題を解決するための手段】
(発明の概要)
本発明は、符号化に最小量のビットを必要とし、高品質音声合成を生じさせる声に出される音声セグメントのための時間同期波形補間の方法に向けられる。したがって、本発明の1つの態様において、時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための方法は、信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出する工程と、過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタイプ波形に対して位相シフトを適用する工程と、前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築する工程と、前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成する工程であって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算される工程と、を備える
【0019】
本発明の別の態様において、時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための装置は、信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出する手段と、過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタイプ波形に対して位相シフトを適用する手段と、前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築する手段と、前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成する手段であって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算される手段と、を備える。
【0020】
本発明の別の態様において、時間同期波形補間によるピッチプロトタイプ波形から音声を合成するための装置は、信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出するように構成されるモジュールと、過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタプ波形に対して位相シフトを適用するように構成されるモジュールと、前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築するように構成されるモジュールと、前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成するように構成されるモジュールであって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算されるモジュールと、を備える
【0021】
【発明の実施の形態】
(好適実施形態の詳細な説明)
図1においては、第1エンコーダ10が、デジタル化された音声サンプルs(n)を受け取り、第1でコーダ14へ、伝送媒体12または通信路12での伝送のためにサンプルs(n)を符号化する。デコーダ14は、符号化された音声サンプルを復号し、出力音声信号SSYNTH(n)を合成する。反対方向での伝送の場合、第2エンコーダ16が、通信路18で送信されるデジタル化された音声サンプルs(n)を符号化する。第2でコーダ20は、符号化された音声サンプルを受信、復号し、合成された出力音声信号SSYNTH(n)を生成する。
【0022】
音声サンプルs(n)は、例えば、パルス符号変調(PCM)、圧伸付きμ法則、またはA法則などを含む技術で既知である多様な方法のどれかに従ってデジタル化され、量子化された音声信号を表す。技術で既知であるように、音声サンプルs(n)は、入力データのフレームに編成され、各フレームが所定数のデジタル化された音声サンプルs(n)を備える。例示的な実施形態においては、8kHzというサンプリング速度が利用され、それぞれ20msのフレームが160個のサンプルを備える。後述される実施形態においては、データ伝送の速度は、8kbps(フルレート)から4kbps(ハーフレート)へ、2kbps(4分の1レート)へ、1kbps(8分の1レート)へフレーム対フレーム単位で有利に変更されてよい。データ伝送速度を変化することは、低い方のビット伝送速度が、相対的に少ない音声情報を含むフレームのために選択的に利用されてよいため有利である。当業者により理解されるように、その他のサンプリング速度、フレームサイズおよびデータ伝送速度が使用されてよい。
【0023】
第1エンコーダ10および第2デコーダ20は、ともに第1音声コーダ、つまり音声コーデックを備える。同様に第2エンコーダ16および第1デコーダ14は、ともに第2音声コーダを備える。音声コーダは、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散ゲート論理、ファームウェア、あるいは従来のプログラム可能ソフトウェアモジュールおよびマイクロプロセッサで実現されてよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、または任意のそれ以外の形式の書き込み可能な記憶装置媒体の中に常駐するだろう。代わりに、任意の従来のプロセッサ、制御装置、または状態機械がマイクロプロセッサに代わるだろう。特に音声コーディング用に設計されている例示的なASICは、本発明の譲受人に譲渡され、ここに参照して完全に組み込まれている米国特許番号第5,727,123号、および1994年2月16日に出願された、「VOCODER ASIC」と題されている、本発明の譲受人に譲渡され、ここに参照して完全に組み込まれている米国出願番号第08/197,417号に説明されている。
【0024】
図2では、音声コーダで使用されてよいエンコーダ100は、モード決定モジュール102、ピッチ推定モジュール104、LP分析モジュール106、LP分析フィルタ108、LP量子化モジュール110、および残余量子化モジュール112を含む。入力音声フレームs(n)は、モード決定モジュール102、ピッチ推定モジュール104、LP分析モジュール106、およびLP分析フィルタ108に提供される。モード決定モジュール102は、各入力音声フレームs(n)の周期性に基づき、モード指数IおよびモードMを作り出す。音声フレームを周期性に従って分類する多様な方法は、本発明の譲渡人に譲渡され、参照してここに完全に組み込まれている、1997年3月11日に出願された「低減速度可変速度ボコーディングのための方法および装置(METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING)」と題された米国出願番号第08/815,354号で説明される。このような方法は、米国電気通信工業会中間規格TIA/EIA IS−127およびTIA/EIA IS−733にも組み込まれている。
【0025】
ピッチ推定モジュール104は、各入力音声フレームs(n)に基づき、ピッチ指数Iおよび遅延値Pを作り出す。LP分析モジュール106は、LPパラメータaを生成するためにそれぞれの入力音声フレームs(n)の上で線形予測分析を実行する。LPパラメータaは、LP量子化モジュール110に提供される。LP量子化モジュール110は、モードMも受け取る。LP量子化モジュール110は、LP指数ILPおよび量子化されたLPパラメータ を作成する。LP分析フィル108は、入力された音声フレームs(n)に加えて、量子化されたLPパラメータ を受け取る。LP分析フィルタ108は、入力音声フレームs(n)と量子化された線形予測パラメータ の間の誤差を表す、LP残余信号R[n]を生成する。LP残余R[n]、モードMおよび量子化されたLPパラメータ は、残余量子化モジュール112に提供される。これらの値に基づき、残余量子化モジュールは、残余指数Iおよび量子化残余信号R[n]を作り出す。
【0026】
【数1】
Figure 0004489959
図3では、音声コーダで使用されデコーダ200は、LPパラメータ復号モジュール202、残余復号化モジュール204、モード復号モジュール206、およびLP合成フィルタ208を含む。モード復号モジュール206は、モードMをそこから生成するモード指数Iを受信し、復号する。LPパラメータ復号モジュール202はモードMおよびLP指数ILPを受け取る。LPパラメータ復号モジュール202は、量子化されたLPパラメータ を作り出すために受信された値を復号する。残余復号モジュール204は、残余指数I、ピッチ指数I、およびモード指数Iを受け取る。残余復号モジュール204は、量子化された残余信号R[n]を生成するために受信された値を復号する。量子化残余信号R[n]および量子化されたLPパラメータ は、復号された出力音声信号s[n]をそこから合成するLP合成フィルタ208に提供される。
【0027】
図2のエンコーダ100、および図3のデコーダの多様なモジュールの動作および実現は、技術で既知である。例示的なエンコーダおよび例示的なデコーダは、前記に参照して完全にここに組み込まれている米国特許第5,414,796号に説明されている。
【0028】
ある実施形態においては、音声の準周期的な、発声セグメントは、現在の音声フレームScurからピッチプロトタイプ波形を抽出し、ピッチプロトタイプ波形からの現在の音声フレームを時間同期波形補間(TSWI)により合成することによってモデル化される。M個のピッチプロトタイプ波形W (m=1,2,...Mであり、各ピッチプロトタイプ波形W が長さL cur を有し、L cur は現在の音声フレームS cur からの現在のピッチ期間である)だけを抽出して保持することにより、符号化されなければならない情報の量は、N個のサンプルからMとL cur サンプルの積に削減される。数Mが1という値を指定されてよいか、あるいはピッチ遅延に基づいて任意の離散値を指定されてよい。Mのさらに高い値は、多くの場合、再構築された発声された信号が過剰に周期的になることを防ぐためにLcurが小さい値のときに必要とされる。
【0029】
例示的な実施形態では、ピッチ遅延が60を上回る場合、Mは1に等しく設定される。それ以外の場合、Mは2に等しく設定される。Mの現在のプロトタイプ、および過去のフレームからの長さLを有する最終的なピッチプロトタイプ波形は、詳細に後述されるTSWI技法を利用することによって、現在の音声フレームのモデル表記Scur_modelを再生成するために使用される。同じ長さLcurを有する現在のプロトタイプWを選ぶことの代替策として、現在のプロトタイプWは、代わりに長さLを有してよく、そこではローカルピッチ期間Lが、関連する離散時間ロケーションnで真のピッチ期間を推定することによって、あるいは現在のピッチ期間Lcurと最後のピッチ期間 0 間に任意の従来の補間技法を適用することのどちらかによって、推定することができる。使用される補間技法は、例えば、単純線形補間であってよい。
= (1-n/N)*0 + (n/N)*cur
ここでは、時間指数nは、m番目のセグメントの中間点であり、m=1,2,...,Mである。
【0030】
前記関係性は、図4Aから図4Cのグラフに示されている。信号振幅対離散時間指数(つまり、サンプル番号)を描く図4Aでは、フレーム長Nがフレームあたりのサンプル数を表す。図示されている実施形態においては、Nは160である。値Lcur(フレーム内の現在のピッチ期間)およびL(先行するフレーム内での最終ピッチ期間)も示されている。その信号振幅が、所望されるように、音声信号振幅であるか、あるいは残余信号振幅のどちらかであってよいことが指定される必要である。M=1の場合のプロトタイプ振幅対離散時間指数を描く図4Bでは、値Wcur(現在のプロトタイプ)およびW(過去のフレームの最終プロトタイプ)が示されている。図4Cのグラフは、TSWI合成対離散時間指数の後の再構築された信号Scur_modelの振幅を示す。
【0031】
前記補間等式中の中間点nは、隣接する中間点の間の距離がほぼ同じとなるように有利に選ばれる。例えば、M=3、N=160、L=40、およびLcur=42は、n=20およびn=139を、したがってn=33およびn2=86を生じさせるため、隣接するセグメントの間の距離は[139−(−20)/3]つまり53である。
【0032】
現在のフレームの最後のプロトタイプWは、現在のフレームの最後のLcurサンプルを選ぶことによって抽出される。他の中間プロトタイプは中間点nのまわりの(L)/2サンプルを取り出すことによって、抽出される。
【0033】
プロトタイプ抽出は、さらに、範囲{n−0.5−D,n+0.5+D}の中からのあらゆるLサンプルをプロトタイプを構成するために選ぶことができるように、プロトタイプWごとにDMの動的シフトを可能にすることによりさらに精密にされてよい。プロトタイプ境界で高いエネルギーセグメントを回避することが望ましい。値Dは、mに関して可変であるか、あるいはプロトタイプごとに固定することができる。
【0034】
ゼロではない動的シフトD 、抽出されたプロトタイプWと元の信号の間の時間同期を必ずや破壊することが指摘されなければならない。この問題に対する1つの単純な解決策とは、動的シフトが導入したオフセットを調整するために、プロトタイプWに円形シフトを適用することである。例えば、動的シフトがゼロに設定されると、プロトタイプ抽出は時間指数n=100で開始する。他方、Dが適用されると、プロトタイプ抽出はn=98で始まる。プロトタイプと元の信号の間の同期を維持するためには、プロトタイプは、プロトタイプ抽出後に2個のサンプル(つまり100−98サンプル)によって右側へ円形にシフトすることができる。
【0035】
フレーム境界での不整合を回避するには、合成された音声の時間同期を維持することが重要である。したがって、分析−合成プロセスで合成された音声は、入力音声と十分に整合されなければならない。1つの実施形態においては、前記目標は、後述されるように位相トラックの境界値を明示的に制御することによって達成される。時間同期は、線形予測に基づいたマルチモード音声コーダにとっても重大であり、その中では1つのモードはCELPであり、別のモードはプロトタイプに基づいた音声−合成である可能性がある。CELPでコーディングされているフレームの場合、時間整合または時間同期とれていない場合に、前のフレームがプロトタイプをベースにした方法でコーディングされると、CELPの合成による分析の波形整合力を利用することはできない。過去の波形における時間同期の破壊により、CELPは、時間同期の欠如のためにメモリが元の音声と不整合になるために、予測のメモリに依存することはできないだろう。
【0036】
図5のブロック図は、ある実施形態に従ったTSWIを備えた音声合成用の装置を示す。サイズN、Mのフレームで開始すると、長さL,L...LのプロトタイプW,W...Wがブロック300で抽出される。抽出プロセスでは、動的シフトが、プロトタイプ境界での高エネルギーを回避するために抽出のたびに使用される。次に、適切な円形シフトが、抽出されたプロトタイプと対応する元の信号の対応するセグメントの間の時間同期を最大限にするために、それぞれの抽出されたプロトタイプに適用される。m番目のプロトタイプWは、kのサンプル番号、つまりk=1、2、…Lによって指標が付けられるLのサンプルを有する。この指標kは、正規化され、0から2の範囲である新規な位相指数にマッピングし直すことができる。ブロック301では、ピッチ推定および補間は、ピッチ遅延を生成するために利用される。
【0037】
プロトタイプの端点ロケーションは、n、n...nとしてラベルが付けられ、その場合_n<n<n=Nである。プロトタイプは、ここでは、以下のようにその端点ロケーションに従って表すことができる。
X(n,φ)=W
X(n,φ)=W

X(n,φ)=W
ここでX(n,_)、過去のフレームの中の最終的に抽出されたプロトタイプを表し、X(n,_)は、 の長さを有することに注意されたい。また、{n,n...nは、現在のフレーム上で等しく間隔をあけて配置されてよい、あるいはされなくてよいことにも注意されたい。
ブロック302では、整合プロセスが実行され連続するプロトタイプが最大限に整合されるように各プロトタイプXに対して位相シフトが適用される。特に、
【数2】
Figure 0004489959
この場合、WはXの整合されたバージョンであり、整合シフトは以下によって計算できる。
【0038】
【数3】
Figure 0004489959
Z[X,W]は、XとWの間の相互相関を表す。
【0039】
M個のプロトタイプは任意の従来の補間技法によってブロック303内のN個のプロトタイプにアップサンプリングされる。使用されている補間技法は、例えば、単純線形補間であってよい。
【0040】
【数4】
Figure 0004489959
i=1,2...NであるN個のプロトタイプW(ni)のセットは、図6Bの2次元(2D)プロトタイプ展開面を形成する。
【0041】
ブロック304は、位相軌跡(位相トラック)の計算を実行する。波形補間では、位相軌跡[N]、2次元プロトタイプ展開面を1次元の信号に変換するために使用される。従来では、このような位相輪郭、以下に示すように補間された周波数を使用してサンプル単位で計算される。
【0042】
【数5】
Figure 0004489959
この場合、n=1,2...Nである。周波数輪郭F[n]は、補間されたピッチ軌跡、特にF[n]=1/L[nを使用して計算でき、この場合L[n]は、[L,L...L]の補間されたバージョンを表す。前記位相輪郭関数は、典型的には、最終値[N]でではなく、初期位相値[0]でフレームごとに一度抽出される。さらに、位相輪郭関数は、整合プロセスから生じる位相を考慮に入れない。このため、再構築された波形は、元の信号に対して時間同期しているとは保証されない。周波数輪郭が経時的に線形に展開されると仮定される場合、結果として生じる位相軌跡[n]は時間指数(n)の二次関数である。
【0043】
図5の実施形態においては、位相輪郭は、初期境界位相値および最終境界位相値が整合シフト値と密に整合される区分的な様式で有利に構築される。時間同期は、現在のフレームn_、n_...、nでのp個の時刻で保存されることが望まれ、この場合n_<n_<...,<n、およびα∈{1,2...,M}、i=1,2...pである。結果として生じる_[n](n=1,2...N)は、以下のように書くことができる、p個の区分的連続位相関数から構成される
【0044】
【数6】
Figure 0004489959
n_は、[n]がフレーム全体に関して計算できる、つまりn=1,2...Nであるように、概してMに設定される必要がある。それぞれの区分的な位相関数の係数{a,b,c,d}は、4つの境界条件によって計算できる。つまり、初期および最終のピッチ遅延Lα−1およびLαそれぞれ、および初期および最終整合シフトψα−1、およびψαである。特に、係数は、以下によって解くことができる。
【0045】
【数7】
Figure 0004489959
ここでは、i=1,2...pである。整合シフトは、2を法として得ることができるため、係数ξは、結果として生じる位相関数が最大限に円滑となるように位相シフトをアンラップするために使用される。値ξは、以下のように計算することができる。
【0046】
【数8】
Figure 0004489959
この場合、i=1,2...pであり、関数を丸める[x]はxに最も近い整数を見つける。例えば、円[1.4]は1である。
【0047】
アンラップされた位相軌跡は、M=p=1およびL=40、L=46として図7に説明される。(破線で示されている従来の2次位相輪郭とは対照的に)3次元位相輪郭によれば、フレーム境界で音声Scurの元のフレームと合成された波形cur_model との時間同期が保証される。
【0048】
ブロック305では、1次元(1−D)時間ドメイン波形が、2−D表面から形成される。n=1,2...Nである場合に、合成された波形Scur_model[n]が、以下によって形成される。
【0049】
【数9】
Figure 0004489959
図表を用いて表現すれば、前記変換は、図6Bに示されているように、図6Aに描かれているラップされた位相トラックを2D(2次元)平面に重畳することと同等である。(位相軌跡が2−D面と交差する)交差点の、位相軸に垂直な平面への投影は、Scur_model[n]である。
【0050】
1つの実施形態においては、プロトタイプ抽出およびTSWIに基づく分析−合成のプロセスは、音声ドメインに適用される。別の実施形態では、プロトタイプ抽出およびTSWIに基づく分析−合成のプロセスはここに述べた音声ドメイン並びにLP残余ドメインに適用される。
【0051】
1つの実施形態においては、ピッチプロトタイプ波形に基づく分析−合成モデルは、現在のフレームが「十分に周期的である」かどうかが決定される事前選択プロセスの後に適用される。隣接する抽出されたプロトタイプ、WとW+1の間の周期性PFは、以下のように計算できる。
【0052】
【数10】
Figure 0004489959
この場合、Lmaxは、「L,Lm+1」の最大、プロトタイプWとWm+1の長さの最大である。
【0053】
周期性PFのM個のセットは、現在のフレームのプロトタイプが極めて類似しているかどうか、あるいは現在のフレームがきわめて周期性であるかどうかを決定するために閾値のセットと比較できる。周期性PFのセットの平均値、前記結論を得るために所定閾値と有利に比較されてよい。現在のフレームが十分に周期的でない場合には、異なるさらに速い速度アルゴリズム(つまり、ピッチプロトタイプに基づかないもの)、現在のフレームを符号化するために代わりに使用されてよい。
【0054】
1つの実施形態では、選択後フィルタが、性能を評価するために適用されてよい。このようにして、現在のフレームをピッチプロトタイプに基づく分析−合成モードで符号化した後、性能が十分に良好かどうかに関する決定が下される。決定は、PSNRなどの品質基準を得ることによって下され、この場合PSNRは以下のように定義される。
【0055】
【数11】
Figure 0004489959
この場合、x[n]=h[n]R[n]、およびe(n)=h[n]qR[n]であり、「*」は畳み込みまたはフィルタリング操作を示し、h(n)は、知覚的に加重されたLPフィルタであり、R[n]が元の音声残余であり、qR[n]はピッチプロトタイプに基づく分析−合成モードで得られる残余である。PSNRの前記等式は、ピッチプロトタイプに基づく分析−合成符号化がLP残余信号に適用される場合、有効である。他方、ピッチプロトタイプに基づく分析−合成技法がLP残余の代わりに元の音声フレームに適用される場合、PSNRは以下のとおりに定められてよい。
【0056】
【数12】
Figure 0004489959
この場合、x[n]は、元の音声フレームであり、e[n]はピッチプロトタイプに基づく分析−合成技法によってモデル化される音声信号であり、w[n]は知覚上の加重係数である。どちらかのケースにおいて、PSNRが所定閾値以下となる場合フレームは分析−合成技法に適さず、異なるおそらくさらに高いビットレートのアルゴリズムが、現在のフレームを捕捉するために、代わりに使用されてよい。当業者は、前述された例示的なPSNR基準を含む任意の従来の性能基準は、アルゴリズム性能に関して後処理決定のために使用されてよい、ことを理解するであろう
【0057】
本発明の好適実施形態は、このようにして示され、説明された。しかしながら、多数の変形実施が、本発明の要旨または範囲から逸脱することなくここに開示される実施形態に対してなされ得ることは一般の当業者には明らかであるだろう。したがって、本発明は以下の請求項によってのみ限定されるものである。
【0058】
【発明の効果】
以上、本発明によれば、時間同期波形補間によって、ピッチプロトタイプ波形からの音声の合成を可能とする音声合成方法および音声合成装置を提供できる。
【図面の簡単な説明】
【図1】 図1は、音声コーダによって各端部で終端される通信チャネルのブロック図である。
【図2】 図2は、エンコーダのブロック図である。
【図3】 図3は、デコーダのブロック図である。
【図4】 図4A〜図4Cは、それぞれ、信号振幅対離散時間指数、抽出済みプロトタイプ振幅対離散時間指数、およびTSWI再構築信号振幅対離散時間指数のグラフである。
【図5】 図5は、時間同期波形補間(TSWI)によりピッチプロトタイプ波形から音声を合成するための装置を示す機能ブロック図である。
【図6】 図6Aは、ラップされた3次元位相輪郭対離散時間指数のグラフであり、
図6Bは、再構築された音声信号振幅対図6Aの重畳グラフの2次元平面グラフである。
【図7】 図7は、アンラップされた2次位相輪郭および3次元位相輪郭対離散時間指数のグラフである。
【符号の説明】
10,16…エンコーダ、
14,20…デコーダ、
102…モード決定、
104…ピッチ概算、
106…LP分析、
110…LP量子化、
108…LP分析フィルタ、
112…残余量子化、
202…LPパラメータ復号、
204…残余復号、
206…モード復号、
208…LP合成フィルタ、
301…ピッチ推定および補間、
300…抽出、
304…位相輪郭構築、
302…整合、
303…プロトタイプのアップサンプリング、
305…2Dから1Dの変換。

Claims (24)

  1. 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための方法であって、
    信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出する工程と、
    過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタイプ波形に対して位相シフトを適用する工程と、
    前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築する工程と、
    前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成する工程であって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算される工程と、
    を備える方法。
  2. 上記信号音声信号を含む、請求項1に記載される方法。
  3. 上記信号は残余信号を含む、請求項1に記載される方法。
  4. 前記ピッチ遅延は、先行するフレームからのピッチ遅延サンプルを含む、請求項1に記載される方法。
  5. 在のフレームの周期性を計算する工程をさらに備える、請求項1に記載される方法。
  6. フレーム符号化のパフォーマンスを評価するための後処理パフォーマンス基準を得る工程と、当該後処理パフォーマンス基準を所定の閾値と比較する工程と、をさらに備える、請求項1に記載される方法。
  7. 上記抽出する工程が、1つのピッチプロトタイプ波形のみを抽出することを備える、請求項1に記載される方法。
  8. 上記抽出する工程が、所定数のピッチプロトタイプ波形を抽出することを備え、ピッチプロトタイプの数はピッチ遅延の関数である、請求項1に記載される方法。
  9. 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための装置であって、
    信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出する手段と、
    過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタイプ波形に対して位相シフトを適用する手段と、
    前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築する手段と、
    前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成する手段であって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算される手段と、
    を備える装置。
  10. 上記信号音声信号を含む、請求項9に記載される装置。
  11. 上記信号は残余信号を含む、請求項9に記載される装置。
  12. 前記ピッチ遅延は、先行するフレームからのピッチ遅延サンプルを含む、請求項9に記載される方法。
  13. 在のフレームの周期性を計算する手段をさらに備える、請求項9に記載される装置。
  14. フレーム符号化のパフォーマンスを評価するための後処理パフォーマンス基準を得る手段と、当該後処理パフォーマンス基準を所定の閾値と比較する手段と、をさらに備える、請求項9に記載される装置。
  15. 上記抽出するための手段は、1つのピッチプロトタイプ波形のみを抽出するための手段を備える、請求項9に記載される装置。
  16. 上記抽出するための手段は、所定数のピッチプロトタイプ波形を抽出するための手段を備え、ピッチプロトタイプの数はピッチ遅延の関数である、請求項9に記載される装置。
  17. 時間同期波形補間によるピッチプロトタイプ波形から音声を合成するための装置であって、
    信号からフレームあたり少なくとも1つのピッチプロトタイプ波形を抽出するように構成されるモジュールと、
    過去に抽出されたピッチプロトタイプ波形を基準にして、前記抽出されたピッチプロトタイプ波形に対して位相シフトを適用するように構成されるモジュールと、
    前記フレーム内の各サンプル関して前記位相シフトされたピッチプロトタイプ波形をアップサンプリングすることによって、2次元プロトタイプ展開面を構築するように構成されるモジュールと、
    前記2次元プロトタイプ展開面を再サンプルして1次元合成信号フレームを生成するように構成されるモジュールであって、前記再サンプルの再サンプル点は区分的に連続する3次元位相輪郭関数によって規定され、前記3次元位相輪郭関数は、ピッチ遅延と、前記抽出されたピッチプロトタイプ波形に付加されたアライメント位相シフトから計算されるモジュールと、
    を備える装置。
  18. 上記信号音声信号を含む、請求項17に記載される装置。
  19. 上記信号は残余信号を含む、請求項17に記載される装置。
  20. 前記ピッチ遅延は、先行するフレームからのピッチ遅延サンプルを含む、請求項17に記載される装置。
  21. 在のフレームの周期性を計算するように構成されるモジュールをさらに備える、請求項17に記載される装置。
  22. フレーム符号化のパフォーマンスを評価するための後処理パフォーマンス基準を得て、当該後処理パフォーマンス基準を所定の閾値と比較するように構成されるモジュールをさらに備える、請求項17に記載される装置。
  23. 上記少なくとも1つのピッチプロトタイプ波形を抽出するように構成されているモジュール、1つのピッチプロトタイプ波形のみを抽出するように構成されている、請求項17に記載される装置。
  24. 上記少なくとも1つのプロトタイプを抽出するように構成されているモジュール所定数のピッチプロトタイプ波形を抽出するように構成され、ピッチプロトタイプの数はピッチ遅延の関数である、請求項17に記載される装置。
JP2000583002A 1998-11-13 1999-11-12 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 Expired - Fee Related JP4489959B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/191,631 1998-11-13
US09/191,631 US6754630B2 (en) 1998-11-13 1998-11-13 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
PCT/US1999/026849 WO2000030073A1 (en) 1998-11-13 1999-11-12 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation

Publications (2)

Publication Number Publication Date
JP2003501675A JP2003501675A (ja) 2003-01-14
JP4489959B2 true JP4489959B2 (ja) 2010-06-23

Family

ID=22706259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000583002A Expired - Fee Related JP4489959B2 (ja) 1998-11-13 1999-11-12 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置

Country Status (9)

Country Link
US (1) US6754630B2 (ja)
EP (1) EP1131816B1 (ja)
JP (1) JP4489959B2 (ja)
KR (1) KR100603167B1 (ja)
CN (1) CN100380443C (ja)
AU (1) AU1721100A (ja)
DE (1) DE69924280T2 (ja)
HK (1) HK1043856B (ja)
WO (1) WO2000030073A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
US20040220801A1 (en) * 2001-08-31 2004-11-04 Yasushi Sato Pitch waveform signal generating apparatus, pitch waveform signal generation method and program
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
US7720231B2 (en) * 2003-09-29 2010-05-18 Koninklijke Philips Electronics N.V. Encoding audio signals
EP1904816A4 (en) * 2005-07-18 2014-12-24 Diego Giuseppe Tognola METHOD AND SYSTEM FOR PROCESSING SIGNALS
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8406898B2 (en) * 2007-09-27 2013-03-26 Cardiac Pacemakers, Inc. Implantable lead with an electrostimulation capacitor
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
CN113066472B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN112634934B (zh) * 2020-12-21 2024-06-25 北京声智科技有限公司 语音检测方法及装置
KR20230080557A (ko) 2021-11-30 2023-06-07 고남욱 보이스 교정 시스템

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
JP2903986B2 (ja) * 1993-12-22 1999-06-14 日本電気株式会社 波形合成方法及びその装置
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5903866A (en) 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms

Also Published As

Publication number Publication date
DE69924280T2 (de) 2006-03-30
KR20010087391A (ko) 2001-09-15
HK1043856A1 (en) 2002-09-27
US20010051873A1 (en) 2001-12-13
US6754630B2 (en) 2004-06-22
HK1043856B (zh) 2008-12-24
EP1131816A1 (en) 2001-09-12
JP2003501675A (ja) 2003-01-14
KR100603167B1 (ko) 2006-07-24
DE69924280D1 (de) 2005-04-21
CN100380443C (zh) 2008-04-09
CN1348582A (zh) 2002-05-08
WO2000030073A1 (en) 2000-05-25
AU1721100A (en) 2000-06-05
EP1131816B1 (en) 2005-03-16

Similar Documents

Publication Publication Date Title
JP4489959B2 (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
JP4927257B2 (ja) 可変レートスピーチ符号化
JP4824167B2 (ja) 周期的スピーチコーディング
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
US7184953B2 (en) Transcoding method and system between CELP-based speech codes with externally provided status
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
US8346544B2 (en) Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
JP4489960B2 (ja) 音声の無声セグメントの低ビットレート符号化
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
WO2005041416A2 (en) Method and system for pitch contour quantization in audio coding
EP1181687B1 (en) Multipulse interpolative coding of transition speech frames
EP1840876A2 (en) Method and apparatus for reducing undesired packet generation
US7684978B2 (en) Apparatus and method for transcoding between CELP type codecs having different bandwidths
CN101552005A (zh) 编码方法、解码方法、***及装置
WO2002025639A1 (en) Speech coding exploiting a power ratio of different speech signal components
JP2712925B2 (ja) 音声処理装置
Sun et al. Speech compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees