JP2000503412A - 波形の合成 - Google Patents

波形の合成

Info

Publication number
JP2000503412A
JP2000503412A JP9525768A JP52576897A JP2000503412A JP 2000503412 A JP2000503412 A JP 2000503412A JP 9525768 A JP9525768 A JP 9525768A JP 52576897 A JP52576897 A JP 52576897A JP 2000503412 A JP2000503412 A JP 2000503412A
Authority
JP
Japan
Prior art keywords
waveform
point
sequence
sound
cycle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9525768A
Other languages
English (en)
Other versions
JP4194656B2 (ja
Inventor
バンブルック、マイケル
マックラフリン、スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000503412A publication Critical patent/JP2000503412A/ja
Application granted granted Critical
Publication of JP4194656B2 publication Critical patent/JP4194656B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Lasers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 短い時間間隔で、合成される有声音の言語音声の発展をモデル化するデータを使用して、先行の出力値から新しい出力値を計算することを含む有声音の言語音声合成方法。

Description

【発明の詳細な説明】 波形の合成 本発明は、波形合成方法および装置、とくに限定はしないが音声合成(speech synthesis)に関する。 種々のタイプの音声合成器が知られており、大抵の音声合成器はフォニームま たは異音(allophone)のレパートリを使用し、フォニームまたは異音をシーケン スで生成して、対応する発話(utterlance)を合成する。従来の幾つかのタイプの 音声合成器は、A.Breenの文献("Speech Synthesis Modcls:A Review",Electro nics and Communication Engeerning Journal,19乃至31頁,1992年2月)に記載 されている。幾つかのタイプの音声合成器では、例えば線形予測を利用するソー スフィルタ近似を使用することによって生成された音声のモデル化を試みている 。他の音声合成器は、実際の音声セグメントを記録してそれをシーケンスで出力 する。 合成された音声に関する主な問題は言語音(speech sound)を自然のそれにする ことである。合成された音声が不自然に聞こえてしまうのには多くの理由がある 。しかしながら、記録された実際の音声を使用する後出のクラスの音声合成器の 主な問題は、各母音または異音の同じ記録を、対象の母音または異音が必要とさ れる度に使用することである。これは、保持音(sustained sound)を生成するた めに、フォニームまたは異音の短いセグメントをシーケンスで数回繰返すとき、 このような合成器でさらに一層顕著になる。 本発明は1つの態様では、合成開始値を選択して、次に別の値のシーケンスを 選択して出力することによって音声の波形を直接に合成する言語合成器であり、 この別の値の選択では、常にそれに先行する値および実際に記録した人間の音声 のダイナミックモデルの両方に基づいている言語合成器を提供する。 こうして必要な継続期間をもつ合成されたシーケンスを生成することができる 。さらにシーケンスの進行(progression)はその開始値に依存するので、異なる 開始値を選択することによって、同じフォニームまたは異音に対応する異なるシ ーケンスを生成することができる。 本発明の発明者は、以前に文献("Speech characterisation by non-liner met hods",M.Banbrook and S.McLaughlin,IEEE Transactions on Speech and Audi o Processimg,1996;"Speechcharacterisationbynon-linermethods",M.Banbroo k and S.McLaughlin,IEEE Workshop on non-liner signal and image processi ng 396-400頁,1995年")を報告し、本発明が主に関係している有声音(voiced s peech)は、低次元で、非線形の、カオスを生じない(non-chaotic)系として振舞 うように見えるものとしている。有声音は本質的に繰返されるもの(サイクリッ ク)であり、類似してはいるが同一でない形状のピッチパルスの時系列を含む。 したがって好ましい実施形態では、本発明は音声信号の低次元の状態の空間表示 を利用し、連続するピッチパルスのサイクルを重ね合わせて、各サイクル内およ びサイクルからサイクルへの音声信号の進行を評価する。 この音声信号のダイナミックス変遷の型)の推定は波形を合成するときに有益 であり、合成された波形は記録した音声、すなわちダイナミックスを解析したと きに基準とした音声には対応しないが、類似形状の繰返しをもち、かつ解析した ときに基準とした音声と類似の可変性を示す。 例えば、状態空間表示は、Takensの遅延方法(Takens' Method of Delays)(文 献(F.Takens,"DynamicalSystemsandTurbulence",Vol.898 of Lecture Notes in Mathematics",366乃至381頁,ベルリン:1981年春)参照)に基いてもよい 。この方法では、状態空間の異なる座標軸は所定の時間間隔によって分けられた 波形値からなるので、状態空間の点はt1、t2、tでの値の組によって定めら れる(なお、t2−t1=Δ1、t3−t2=Δ1、両方とも定数で、等価である)。 合成された音声に関する現在の別の問題は、異なる音を1つのシーケンスに一 緒に連結するとき、“接合部(join)”がときどき聞き取れてしまい、聞き取れる 人工音、例えば合成した音声のフォニームレートのわずかな変化となることであ る。 したがって本発明は別の態様で、音声合成方法および装置として、連結される ことになる2つの言語音声の状態空間表示間、または一般的には2つの音の各ピ ッチ期間についての対応して整列している部分間で補間が実行されて音声を合成 する方法および装置を提供する。こうして、1つのピッチパルスの形状が次第に 別の形状に変化する。 本発明の別の態様および好ましい形態は以下の説明および特許請求項から明白 になるであろう。 ここで本発明を添付の図面を引用して例示的に記載する。 図1は、(概略的な)有声音信号における信号振幅対時間のグラフを示す。 図2は、概略的な繰返し波形の信号振幅対時間のグラフであり、遅延方法に基 く状態シーケンス点の微分(derivation)を示す 図3は、図2の点の状態シーケンスの空間プロットを示す。 図4は、状態シーケンス空間内でアトラクタを定める概略的な有声音の軌線を 示す状態シーケンスの空間プロットを示す。 図5は、複数の異なる母音に対するシーケンス空間のアトラクタ(図4のアト ラクタに対応する)を示すフォルマントチャートである。 図6は、本発明の第1の実施形態にしたがう音声合成器の構造を模式的に示す ブロック図である。 図7は、図6の音声合成器の動作方法を例示的に示すフローチャートである。 図8は、発話を構成している有声音セグメントと無音セグメントのシーケンス を例示的に示す時間ラインである。 図9aは、概略的な有声音の1サイクル、およびそれから合成された合成音の 1サイクルの一部分を示す状態シーケンスの空間座標である。 図9bは、図9aの詳細図である。 図9cは、波形の多数のサイクルを示す状態シーケンス空間図である。 図9dは、1サイクル上の1点を取囲む隣接部を示す図9cの詳細図であり、 図6の実施形態では時間に関するこの隣接部の変換が利用されている。 図10は、図6の実施形態で使用する合成されたデータを導き出す装置の構成 要素を模式的に示すブロック図である。 図11a乃至dは、図10置の動作プロセスの種々の段階で生成されたデータ を示す。 図12は、図10の装置の動作段階を示すフローチャートである。 図13は、図9c隣接部の時間に関する変換の結果を例示的に示す状態シーケ ンス空間図である。 図14は、図7のフローチャートの一部を形成しているプロセス、すなわち1 つの音から別の音への進むプロセスをより詳細に示すフローチャートである。 図15は、図14のプロセス中に実行される2つの状態の空間シーケンスの組 み合わせを示す図である。 図16は、本発明の第2の実施形態で1つの音から別の音へ進むプロセスを示 すフローチャートである。音声信号の状態空間表示 本発明の実施形態を詳細に記載する前に、本発明の実施形態で使用する音声信 号の状態空間表示を簡単に記載する。(しかしながら、それ自身は音声解析用ツ ールとして知られており、例えば文献("Lyapunov exponents fromatime series: anoise-robust extraction algorithm";M.Banbrook,G.Ushaw,S.McLaughl in, IEEE Transactions on signal processing,1995年10月)に記載されているので 、さらに詳細が必要なときは、この文献を参照されたい。) 図1は、音声信号、より正確には音声信号内に含まれる有声音の一部を示して いる。図1の信号は類似しているが、同一ではないピッチパルスp1、p2、p3 のシーケンスから成ることがわかる。ピッチパルスの形状は有声音の音色を特徴 付け、その期間は知覚したピッチを特徴付けている。 図2を参照すると、時間シーケンスXの状態空間表示を生成するために、間隔 を置いた時間xi-10、xi、xi+10で波形Xの複数の値(この場合は3つ)をと り、それらを結合して、対応する座標軸の数によって定義される空間内の単一の 点 iを表す。 ここで図2および3を参照すると、第1の点 1は、サンプル時間0、10、 20(それぞれx0、x10、およびx20で)で波形Xの値を表す曲線X上の3つの ドットによって表されている。これらの3つの値の全ては正であるので、それら がs1を定める点は図3の空間の正のオクタント内にある。 別の点s2は、図2の波形Xで3つのX符号によって表されている。この点s2 は3つの値x1、x11、およびx21によって定められる。点s2の各3つ値の全て が点 1の各3つの値の全てよりも大きい正の値であるので、図3の状態シ ーケンス空間内の点 2は同じオクタント内にあり、さらに点 iよりもさらに半 径方向外側にある。 同様に、第3の点 3は時間2、12、および22(それぞれx2、x12、およ びx22)における波形Xの値によって定められる。この点は、図2の波形X上で 3つの三角(Δ)符号によって示されている。 したがって一般に、時間シーケンスX(すなわち、音声波形)の状態空間表示 を構成するこの時間遅延方法においては、各連続する時間サンプルxiに対して 、この状態シーケンス空間内の対応する点 iは、先行および後続の点xi-j、xi+k (なお、都合よくjはkと等しく、この場合jおよびkは10に等しい)と 一緒に表されている。 図2の波形が単に斜め(45゜)方向の直線であれば、図3の状態空間の表示 も同様に直線になる。 しかしながら、図1または2に示された形式の繰返し時間シーケンスにおいて 、波形の変曲点によって状態空間内の対応する点のシーケンスは軌線を定め、こ の軌線は同様に変曲し、実質的に閉ループに従い、その開始点の近くに戻る。点 xi、xi-j、xi+kの相対値は、図4に示したように、それらが表す時間シーケ ンスの連続サイクルによく類似しているので、ある波形のNサイクルのシーケン スの状態空間表示(例えば、ピッチパルスp1−pn)は、Nのよく似た巡回を実 行する状態シーケンス空間を通る継続的な軌線となり、したがってNストランド (連鎖の要素)またはトラックを含むぐるりと回った多面体表面、すなわちマニ ホールドを定める。このような無限数のサイクルによって生成されることになる 表面は、それを生成する波形Xの“アトラクタ”として示される。 図4のアトラクタは、ダブル(二連)ループ(これは、投影図では、それ自身 交差しているように見えるが、実際は3次元で交差していない)から成る。 図5を参照すると、我々が判断したことは、各有声音がこの特徴をもつアトラ クタを生成し、この全てが3次元の状態空間で適切に表すことができるが、場合 によっては少なくとも2次元で、多いときは4、5、またはそれ以上の次元を使 用できることである。このような状態空間で有声音を効果的に表わす重要なパラ メータは、選択した次元数および隣接するサンプル間の時間遅延である。 図5に示されているように、アトラクタが分散している座標軸としてf1(第 1のフォルマントの周波数)と、f2−f1(F2は第2のフォルマントの周波数 である)とが対応させられ、アトラクタの形状は(アトラクタに対応する音声波 形の対応する形状と)著しく異なるが、各アトラクタのトポロジとそれらが対応 する音との間にはある関係がある。 上述の説明は有声音(例えば母音および有声子音)に関係している。もちろん 、何等かの波形の状態シーケンスの表示を準備することができるが、無声音(す なわち、摩擦音)の場合、状態空間表示は、うまく定義されたトポロジをもつ連 続する非常に類似したループに従わずに、その代り明らかにランダムなやり方で 状態シーケンス空間内の体積(立体)を通る軌線にしたがうことになる。本発明の第1の実施形態の概要 図6を参照すると、本発明の第1の実施形態の構成が示されており、音声合成 器はスピーカ2を含み、スピーカ2はデジタル対アナログコンバータ4からアナ ログ出力を供給され、デジタル対アナログコンバータ4は中央処理装置(CPU )6の出力ポートに接続されて、記憶システム8(計算するときにCPU6が使 用するランダムアクセスメモリ8a;CPUのオペレーティングプログラムを記 憶するプログラムメモリ8b;および合成するときに使用するデータを記憶する データコンスタントメモリ8c)と通信する。 図6の装置は、パーソナルコンピュータおよびサウンドカード、例えばCPU 6として33MHz Intel 486 マイクロプロセッサを含むElonex(TM)パーソナ ルコンピュータ、およびデジタル対アナログコンバータ4を備え、スピーカ2へ 出力するUltrasound Max(TM)サウンドカードを含むと都合がよい。代りに同様の 類似か、より高性能の他のデジタルプロセッサを使用することもできる。 都合よいのは、記憶システム8はマス記憶装置(例えばハードディスク)を含 み、マス記憶装置は合成するときに使用するオペレーティングプログラムとデー タ、および分割領域8a、8b、8cを含むランダムアクセスメモリを含み、図 6の装置を使用する前に、プログラムおよびデータがそれぞれ8b、8cにロー ドされる。 記憶データメモリ8c内に保持されている記憶されたデータは、1組の記録10 a、10b、・・・10cを含み、各記録は1ワードの小さいセグメントを表し、1 ワードまたは1フレーズ(すなわち、それぞれフォニームまたは異音に対応して いる)でそのコンテキストに関係なく明らかに識別できると考えられる。フォニ ームは多数の異なるフォネチックアルファベット(発音記号)によって表すこと ができ;この実施形態では、SAMPA(Speech Assessment Methodology Phon etic Alphabet)を使用しており、それは上述のように文献(A.Breen,"Speech Synthes is Models:A Review",Electronics and Communication Engeerning Journal,19乃至31頁,1992年2月)に記載されている。各記録は、各波形記録1 1を含み、波形記録11は、連続するサンプルx1、x2、・・・xNとして、このフ ォニームを含む実際の発話の波形の連続するデジタル値(例えば20kHzでサ ンプルを取られる)を含む。 さらに、有声音(すなわち、フォネチックアルファベットの母音および有声子 音)と関係付けられた各記録10は、各記憶したサンプルxiにおいて、9つの記 憶した定数値によって定められる変換マトリックスを含む。 したがってデータメモリ8cは、(選択したフォネチックアルファベットに依 存して)30乃至40程度の記録10を含み、各記録は記録したデジタル波形の2 分の1程度を含み(すなわち20kHzで、約10,000のサンプルxiをサ ンプリングし、有声音の各サンプル記録は関係付けられた9つの要素の変換マト リックスをもつ)したがってデータメモリ8cによって要求される体積は、(( 9+1)×10,000×40=400,000)の16ビットメモリのロケー ションである。 データメモリ8cの内容を導き出す方法を以下でより詳しく記載する。 図8に示されているように、音声合成器によって合成される発話は、それぞれ 関係付けられた継続時間をもつ部分のシーケンスからなり、無音部分(silence p ortion)14aを含み、その後部分14b−14fのシーケンスを含むワードが続き、 部分14b−14fはそれぞれ所定の継続期間をもつフォニームから成り、その後別 の無音部分14gが続き、その後それぞれ関係付けられた継続期間をもつフォニー ム部分14h乃至14jから成る別のワードが続き、以下同様の構成が続く。フォニ ームのシーケンスは、その継続時間と一緒に、本発明の一部を形成してはいない が、制御プログラム内に含まれている幾つかの周知の規則体系の1つによって記 憶されるかまたは導き出される。 図7を参照して、ここでCPU6の制御プログラムの動作をより詳しく記載す る。 段階502 では、CPU6は決められたシーケンスにしたがって、図8に示した シーケンス内のフォニームの1つに対応する第1の音(サウンド)の記録10を選 択する。 段階504 では、以下でより詳しく記載するように、CPU6はその音への遷移 を行う。 段階506 で、CPU6はフォニーム波形x’iの合成のための開始点を選択す る。図9を参照すると、合成の開始点の選択は2つの段階から成る。第1に、進 行段階504 の結果として、以下でより詳しく記載するように、CPU6は記憶し た波形上の点xiを選択する。次に次の段階で新しい点を選択し、状態シーケン ス空間で既に選択した点に領域内にランダムに配置する。 例えば、図9bを参照すると、CPU6がアクセスした(さらに合成された音 声としてDAC4およびスピーカ2への出力される2)最も最近の記憶点は、対 応する状態空間点 21をもつx21であり、段階506 で、第1の合成した開始点i 21の近くに選択する。 近接点を選択する方法は以下のとおりである: 1.状態シーケンス空間の第1の点 iを値xi、xi-10。、およびxi+10を読取 ることによって見つける。 2.状態シーケンス空間内の軌線上の次の点 i+1,を、アクセス値xi+1、xi+ 11 、およびxi-9にアクセスすることによって見付ける。 3.状態シーケンス空間内における2つの点 iおよび i+1間のユークリッド( すなわち二乗平均根)距離を計算する。 4.疑似ランダムシーケンスアルゴリズムを使用して、ゼロと上述のように計算 した距離との間のユークリッド距離だけ点 iから離れた、状態空間内の点i のランダム座標を作成する。 第1の合成された開始点1を、最後の実際の点出力(この場合はx21)の 領域内の記憶したサンプル値によってマークされる状態空間の軌線の1つのスト ランドに近接しているが一致しないところに決定して、段階508 で、CPU6は 、記憶した軌線上で新しく合成される点1に最も近い点を決定する。 段階508 で選択した最も近い点は、実際は現在のストランド(この場合は、 21 )上の最後の点であることが非常に多い。しかしながら、その代わりにそのス トランド上の最も近くに隣接する点の1つ(この場合は 22がより近い)、また は(図9cに示されているように、状態シーケンス空間内でわずかに離れている )軌線の別のストランド上の点に対応することができる。 こうして記憶した波形点xiから構成される記憶した軌線上の最も近接した点 を決定すると、段階510 でCPU6は、段階508 で選択した記憶した軌線上の最 も近い点から合成した点1へのオフセットベクトルを計算するようにされて いる。したがってこうして計算したオフセットベクトルiは、3つの成分ベク トルを含む。 次に段階512 で、先の点xiに関係して(この場合は点x22に関係して)記憶 したマトリックスTiを読取り、第1のオフセットベクトル iの配置行列によっ て乗算することによって、次のオフセットベクトル i+1(この場合は 2)をC PU6で計算する。 次に、段階514 でCPU6は、次の記憶した軌線点 i+1この場合は点 23( 値x23、x13、およびx33によって定められる)を選択する。 段階516 で、新しく計算したオフセットベクトル i+1を軌線上の点 i+1へ付 加することによって、次の合成した音声点(i+1)を計算する。 次に、新しく合成した点i+1の中心値i+1をDAC4およびスピーカ2へ 出力する。 段階520 で、CPU6は、合成されたフォニームの必要な所定の継続時間に到 達したか否かを判断する。到達していないときは、CPU6は制御プログラムの 段階508 へ戻り、軌線上で最も新しく合成された点へ最も近い点を判断する。多 くの場合、これは合成された点それ自身を計算するのに使用する点 i+1と同じ であってもよいが、必ずしも同じでなくてもよい。 したがって、段階506-518 のプロセスに続いて、CPU6は記憶した波形値xi から音声のような波形(図9aおよび9bの状態シーケンス空間に破線の軌線 として示されている)を合成し、マトリックスTiを変換することができる。 何れにしても合成されたシーケンスの長さは記憶した値の数に依存せず、合成 したシーケンスは記憶したシーケンスの一部を正確に複製しない。 その代りに、合成されたシーケンス上の各点は、合成されたシーケンスの先行 する点;記憶したシーケンスの(状態シーケンス空間内の)最も近い他の点;お よび記憶したシーケンス内の最も近い点に対する変換マトリックスに連帯的に依 存する。 したがって、段階506 で開始点をランダムに選択することによって、生成され た合成波形は1つの合成プロセスと次の合成プロセスとでは異なる。 段階520 で当該のフォニームに対する所定の終了点に到達し、段階522 でCP U6は所望のシーケンス(例えば、図8に示されているもの)の最後に到達した か否かを判断し、到達しているときは、段階524 でCPU6は出力のシーケンス を黙音にする(以下で詳細に記載する)。 シーケンスの最後に到達していないときは、CPU6はシーケンス内の次の音 を選択し(段階525)、段階526 で、次の音が有声音であるか否かを判断する。 次の音が有声音のときは、CPU6は図7の段階502 へ戻り、一方で次の音が無 声音のときは、段階528 でCPU6は選択した無声音へ進み(これは以下でより 詳しく記載する)、この選択された無声音は段階530 で再生される(これは以下 でより詳しく記載する)。次にCPU6は図7の段階522 へ戻る。変換マトリックスの計算 図10を参照すると、記憶したサンプルおよび変換記録10を導き出す装置は、マ イクロフォン22、アナログ対デジタルコンバータ24、CPU26、および記憶装 置28を含み、記憶装置28(例えば、ディスクドライブおよびランダムアクセスメ モリのようなマス記憶装置によって準備される)は、動作用(ワーキング)スク ラッチパッドメモリ28aおよびプログラムメモリ28bを含む。 当然、CPU26および記憶装置28は、図6に示したような音声合成器に物理 的に構成することができるが、必ずしも構成されていなくてもよい。その理由は 図6の音声合成器を特徴付けるデータは合成プロセスに先行し、かつ独立して導 き 出されるからである。 都合よく、アナログ対デジタルコンバータ24は約20kHz の周波数で、16ビ ットの精度で、マイクロフォン22からアナログ音声波形をサンプリングするよう にされている。 ここで図11および12を参照して、図10の装置の動作を記載する。図11 aに示されているように段階602 で、人間の話者が所望の音(例えば、母音)を 1回発声し、CPU26およびアナログ対デジタルコンバータは24は、マイクロフ ォン22の出力で生成されたアナログ波形をサンプリングし、ワーキングメモリ領 域28aで連続するサンプルを記憶する(例えば、音声の約2分の1に対応する1 0、000サンプル)。 次に段階604 、CPUは26例えばそのゼロクロス点を決定することによって各 ピッチパルス期間(図1参照)の始めと終わりを判断し、次に最初に記憶したサ ンプルの間に挿入することによって各ピッチ期間内のサンプル数(例えば、各ピ ッチ期間に140サンプル)を均等に分配して、記録した発話のピッチを正規化 するようにされている。 このような正規化の結果として、記憶した波形はピッチパルスからなり、各ピ ッチパルスは同数のサンプルをもつ。次にこれらは、この音に対する記録10のサ ンプル記録11として記憶され(段階606)、次の合成のときに使用される。 次に段階608 では、サンプルx0、x1 …の線形アレイは3次元の座標点 0 1 …のアレイに変換され、各座標点iは3つのサンプルxi-10、xi、xi+10 に対応し、図11bに示したように、状態シーケンス空間内に音声信号を埋め込 む(すなわち、表す)。 こうして第1の座標点を選択する(すなわち、 10)。 状態シーケンス空間を通る点の軌線は、図3および4に関して上記したように 、実質的に反復性である。したがって、軌線は各点においても多数の近接する“ ストランド”または“トラック”から成り、それぞれ異なるピッチパルスをもつ 等価部分から成る。 段階610 を参照すると、選択した点 i(この場合、第1の点 10)において、 アトラクタの他のトラック上に他の点があり、他の点は状態シーケンス空間内の 選択した点iに近接している。例えば、図11cに示されているように、第1 のトラック上の点 13 14、および第2のトラック上の点 153 154は、点 10 に近接している。したがって、段階610 でCPU26は他のトラック上(すな わち、他のピッチ期間)に全ての点を配置し、これらの点は状態シーケンス空間 内の所定の距離D(Dは、計算を簡単にするためのユークリッド、すなわち二乗 平均根の距離である)よりも近くにある。全ての10,000の記憶した点の検 索および距離の比較を避けるために、CPU26は制限された範囲の点、例えば (1+/-5 +k140) の範囲内のみを検査することができる。なおkは整数であり、こ の例ではピッチ期間に140サンプルがあり、参照点 iが位置する各ピッチパ ルスのほぼ対応している領域を検査することができる。 参照点 iのグループではなく、他のトラック上の点のグループを配置して、 次に段階612 の図11dに示されているように、CPU26はベクトル iの隣接 アレイBiを記憶する。アレイBiの各ベクトル iは、図11および13に示さ れているように、参照点 iから、アトラクタの異なるトラック上の他の隣接す る点の1つへ向かうベクトルである。このような1組のベクトルは、隣接マトリ ックスBiによって表されており、参照点 iを取囲むアトラクタのローカルな形 状を表しており、これを使用して、以下に記載するようにアトラクタの形状がど のように変化するかを判断することができる。 次に、段階614 でCPU26は最初の基準点 iと同じトラックに沿って次の点 i+1 を選択する。 次に、段階616 でCPU26はアトラクタの他の各トラック上の1つの点へ進ん で、段階616 で新しい参照点 i+1に隣接する新しい点を形成している他のトラ ック上の対応する点を配置する。段階618 で、CPU26はべクトルBi+1の対応 する隣接アレイを計算する。 記録された発話のピッチパルスは互いにわずかに異なっているので、記録され たサンプルによってマークされたアトラクタの軌線の対応するトラックも互いに わずかに異なる。トラックは、ある点ではより接近しており、別のある点ではよ り離れている。 したがって、オフセットベクトル i+1の新しい組Bi+1は位置を変更し、 (アトラクタがループを形成するとき)幾らか回転し、さらに一般的にベクトル i の先の組Biに対して異なる長さをもつことになる。したがって、1つのサ ンプルから次のサンプルヘアトラクタのトラックの周りで進むとき、ベクトルb1 i 、b2 iの組Bi(およびそれらが表すアトラクタそれ自身の形状)は、移動、回 転、およびスケーリングによって連続的に変換される。 次に段階620 では、変換マトリックスTiを計算し、点 i近くにアトラクタを 定めるベクトルの組Biを基準点 i+1の領域内のアトラクタの近くに定めるベク トルの組Bi+1に変換する。したがってマトリックスは次のように定められる: BT i+1=Tii T この式が次のように変形することができる: Ti T=Bi -1i+1 一般的に、Biはd×3のマトリックスであるので(なお、dは使用した移動 ベクトル数であり、3より大きくてもよい)、Biは正確な逆数Bi -1をもたなく なるが、その代りに疑似逆数を計算することができる。これはMoore およびPenr ose の文献("Ageneralised inverse for matrices",Proc.Camb.Phil.Soc., Vol.51,406-413頁,1955年)に記載されている。 したがって計算した3×3の変換マトリックスTiは、隣接マトリックスBiを 形成しているベクトルの1つを変換したものに近似している。しかしながら、状 態シーケンス空間内の隣接マトリックスは小さく、小さい時間間隔で音声は局部 的に線形であるので、この近似値は合理的である。 次に、段階622 でCPU26は新しい基準点として次の点 i+1を選択し、段階6 10 に戻る。 したがって、デジタル形式の音声サンプル値x1に対応する各点 1に対して段 階610 乃至622 のプロセスを実行した後で、計算された全ての変換マトリックス をデータ記録12に記憶され(段階624)、マトリックスが導き出された基準点 1 に対応している各データ値x1と関係付けがされている。 したがって図12のプロセスの最後では、各記憶した変換マトリックスTiは 、変換マトリックスが計算された相手のアトラクタ上の点から、空間内で隣接す る 別の点までアトラクタに沿って1つのサンプルを前方向に時間内に移動するとき に、変位ベクトルbiに何が生ずるかを表している。したがって、こうして計算 された変換マトリックスを図7で使用し、アトラクタの一部を形成している記憶 した実際の軌線と、先の合成点(したがって記憶した軌線からこの先の合成点へ の先行のベクトル)と、変換マトリックスそれ自身とを使用して、アトラクタ上 の新しい合成点がどのように構成可能かが分かる。 上述の説明は、有声音の合成のために記憶したデータを導き出すことに関する 。無声音に関係しているデータを記憶するとき、変換マトリックスを記憶する必 要はないので、段階602 および606 のみを実行する。 上述のようにフォネチックアルファベットの各有声音と無声音のために必要な データを導き出して、(通信リンクまたは取り外し可能なキャリア、例えばフロ ッピーディスクによって)記憶したデータを図6の合成装置のメモリ8へ転送す る。無声音の再生 段階530 では無声音を示している。上述のように、無声音は安定した低い次元 の特徴を示していないので、無声音は状態シーケンス空間で規則正しい繰返すア トラクタにしたがわない。故に上述のアトラクタの合成は不安定である。したが ってこの実施形態では、記憶した記憶波形値xiを無声音としてDAC4に出力 するだけで無声音が生成される。同様のことが破裂音にも当てはまる。音への進行 図7の段階504,524,528 では、音へのまたは音間の進行について記載している 。上述に記載した実施形態で使用できる進行の1つの可能なやり方をここでより 詳しく記載する。 図14および15を参照すると、図14は図7の段階504 または段階528 を構 成している段階を示し、一方で図15はその効果を図示している。 概略すると、本発明では、それぞれ状態シーケンス空間の各音を表す2つの波 形間で補間を行なう。補間が行われる波形の一方または両方を合成するとき、状 態空間表示が有益である(すなわち、波形の一方または両方は有声波形である) 。概要として、この実施形態では合成点を導出し、次にこの合成点間で補間され た 点を計算する;事実、以下に記載するように、1つの座標軸で補間を行うことだ けが必要であるので、状態空間表示は実際の補間プロセスでは役にたたない。 状態シーケンス空間内の2つの波形間でユークリッド距離を次第に線形に変化 させることによって、2以上のピッチパルスサイクル(例えば10サイクル)で 補間が行われる。 したがって図15に示されているように、有声音間の遷移中に所定の点 c m の座標は、第1の音 a kのアトラクタ上の合成点および第2の音 b lのアトラク タ上の対応する点の状態シーケンス空間内の座標から導き出される。 より詳しくは、図14を参照すると、段階702 で指数jで(例えば、ゼロで) 始められる。 段階704 で、図7に関係して上述で記載したように、第1の波形 a k上の合成 されたアトラクタの現在の値を計算する。 段階706 で、CPU6は次に進んでいくことに第2の音に対して記録したサン プル値を走査し、(例えばゼロクロス点を決定することによって)点 k aと同じ 第2の波形のピッチ期間内の相対的な位置でサンプルsllを置く。言い換える と、第1の波形上の点 k aが、そのゼロクロス点から第1の音のピッチ期間内の 30番目の点であるとき、第2の音のピッチ期間のゼロクロスの後で、点 i bも 30番目の点で選択する。 次に、合成したアトラクタの点1 bを、図7に関係して上述で開示したよう に計算する。 次に、段階708 で補間された点 m cは、線形補間によって計算される。補間さ れたアトラクタの1つの次元のみを計算すればよい。その理由は、合成されるこ とが望まれるのは、従前の10サンプルまたは先の10サンプルではなく、現在 の出力サンプル値のみからである。したがって、段階708 で実際に行われる補間 の計算は次のようになる: x'c m+j=((N-j).x'a k+j+j.x'b 1+j)/N Nが、補間が行われるサンプル値の数であるとき、jは指数で、0からNにな りあり、kは第1の音のアトラクタのサンプル値(補間のときに使用される)、 lは第2の音のアトラクタ、およびmは中間の状態空間シーケンスを示す。 次に、段階709 でCPUはx'c i、すなわちこのように計算された現在のサン プル値を、合成のためにDACおよびスピーカ2へ出力する。 段階710 で、CPU6は(例えば、400のサンプル、すなわちN=400か ら)所定の遷移継続期間の最後に到達したか否かをテストし、到達していないと きは、段階712 で指数jをインクリメントし、段階704,706,および708 を反復し て、合成したアトラクタ('a k+l)の次の値、および新しい音のアトラクタ('b l+j )を計算し、出力される次のサンプル値を導き出す。 段階710 で遷移の最後のサンプルj=Nに到達したとき、CPU6は、図7に 関係して上述で開示したように、段階506 または530 へ進み、第2の音のアトラ クタに対応する新しい音を合成する。 上述のプロセスは、無音(黙音)から記憶された表示音への遷移を行うときに 等しく応用する。この場合、'a iに対して値を計算するのではなく、CPU6 がゼロの対応する値を読取り、対応する効果は単に、必要な合成される音に対す る線形フェード(linear fade)である。 同様に、段階524 のように、音から黙音へ遷移するとき、図14に関係して上 述で記載したのと同じシーケンスが行われるが、第2の音のアトラクタの連続的 に合成された値を計算する代りに、CPU6はゼロの値を代替して、黙音へ線形 フェード(fade)を行うようにされていることのみが異なる。無声音間の進行 図14に関係して上述に示した進行プロセスを、無声音との間の進行に対して 変更する。その理由は無声音を合成するのではなく、無声音の実際に記憶した値 を再生するからである。したがって、1つの無声音から別の無声音への進行では 、状態シーケンス空間は役に立たない。その理由は古い無声音と新しい無声音と の間の対応する連続する点の対の間の補間はほとんど必要ないからである。同様 に、無声音と黙音との間の進行では、無声音の連続する点の値との間で線形フェ ードが行われる。第2の実施形態 第2の実施形態では各点で変換マトリックスを記憶するのではなく、新しく合 成した点で直接に変換マトリックスを計算する;この場合、図6の合成器は図1 0の装置の機能と結合する。このような計算は、より高速の処理を必要とするが 、必要な記憶空間の大きさを約1オーダだけ減らす。 この実施形態では、第1の実施形態において上述で示したようにサンプル値の 間で直接に補間して、出力サンプル値を生成するのではなく、中間のアトラクタ のシーケンス、および中間の変換シーケンスのダイナミックを記載した対応変換 マトリックスを生成する。これにより融通性はさらに大きくなり、要求される期 間中に中間音を生成を拡大することができる。 図16を参照すると、この実施形態では段階802 で第1のカウンタiを始動す る。カウンタiは生成された中間テンプレート数を設定し、都合よく幾つかのピ ッチサイクルに対応する長さをもつ(言換えると、Nはiに対する最大値であり 、約300乃至400である)。 段階804 では、別のカウンタjの値を初期化する;これは2つの記憶した各波 形上の記憶した点の数に対応する(したがってその最大値Mは一般的に約10, 000である)。 段階806 で、点 a k±b 1の対応する対を記憶した波形記録10から読取る; 第1の実施形態に記載されているように、点は2つの波形の各ピッチパルスサイ クルの整合部分に対応する。 次に段階808 で、第1の実施形態に記載されたように補間された点 c mを計算 する。 波形上の最後の点に到達しなかったとき(段階810)、段階812 で波形jに沿 ってカウンタの値をインクリメントし、段階806 乃至810 を反復する。 こうして各記憶した点に対して段階804 乃至812 を実行した後で、反復性の軌 線を定める第2の中間波形の約半分を計算することになる。 次に段階814 で、CPU6は図12の段階610 乃至622 を実行して、この記憶 したトラックに沿う各点に対して変換マトリックスTkを計算する。 段階814 の実行後、この中間軌線から必要な長さの波形を合成するのに、(記 憶した補間軌線および記憶した補間変換マトリックスの形態の)十分な情報を使 用できる。しかしながら事実、この計算されたデータを使用して、段階816 で最 も最近出力された iの元の値を変換することによって状態シーケンス空間 i+1で単一の新しい点のみを導き出す。 サンプル値xi+1は、段階818 で出力においてsi+1の一部として計算され、遷 移部分の最後に到達するまで(段階820)、補間指数iはインクリメントされ( 段階822)、CPU6は段階804 に戻って、次の補間された軌線ダイナミックTk の組、および出力される次の点を計算する。 上述の実施形態では、各補間された軌線および変換ベクトルの組を一度だけ使 用して、1つの出力値のみを計算するが、事実、より少ない数の補間された軌線 の組および変換マトリックスの組を計算できて、幾つかの連続する出力サンプル に対して同じ軌線を使用した。 同様に、線形補間を上述で記載したが、非線形補間(例えばS字形関数を示す もの)を使用することもできる。 同様に、図16のプロセスは、補間によって2つの音間の進行を行ったが、段 階804 乃至818 のプロセスを使用して、2つの記憶した音間の定中間音を生成し 、より一層制限されたサブセットの記憶した音から中間母音(intermediate vowe l)または他の音を生成することができる。他の実施形態および変形例 上述の記載から明らかなように、上述の実施形態に対して多くの変更および変 形を本発明の技術的範囲から逸脱することなく生成できることが明らかである。 第1に、上述では多数のピッチパルスシーケンスのメモリを記載したが、各有 声音ごとに1つのみのピッチパルスシーケンス(すなわち、アトラクタの単一の トラック)を記憶してもよい。その理由は合成プロセスによって、多数の異なる 合成されたピッチパルスシーケンスの再生できるからである。これはある環境の もとでメモリに必要なデータ容量を低減することができる。 事実、実際のアトラクタトラックを記憶するのではなく、他の曲線から実際の アトラクタのストランドヘ変換マトリックスへの変換マトリックスを上述のよう に予め計算したとき、幾つかの他の参照カーブ(例えば、平均のアトラクタトラ ック)を記憶することが明らかである。 上述の実施形態では、(状態シーケンス空間内で)音声波形のダイナミツクス が、アトラクタの隣接ストランドを走るベクトルの変換を記述している隣のマト リックスによって記述されているが、その代りに変換マトリックスはアトラクタ 上の点の進展(evolution)を直接に記載できることが明らかである。 しかしながら、実際のアトラクタと、別の実際のまたは合成されたアトラクタ の間の異なるベクトルの変換が一層安定性を増すという長所をもつことが分かっ ている。その理由は合成された波形は実際に記憶したアトラクタの適度に近くに 常に位置し続けるからである。 有声音の各合成した値間の進行ではなく、無声音間の進行に関して上記で説明 したのと同じやり方で、各記憶した値間の進行が可能であり;したがってこの場 合、2つの音の対応する記憶したサンプル点の連続する対間の線形補間によって 、進行は簡単に行われるが、上述のようにピッチパルスの対応する部分からの点 間で補間を行うときに動作が向上する。 上述のようにゼロクロッシングを利用せずに、連続するピッチパルスの対応す る点を判断するために、喉頭グラフを使用して、図12に関係して記載した発話 を記録する人間の話者を監視し、人間の発声器官(vocal system)の物理的な動作 を記録して、人間の発声器官の対応する物理的な位置を直接に識別することがで きる。同様に、2つの音の各アトラクタの状態シーケンス空間の位置を使用して 、音の各部分を識別することができる(しかしながらこの方法では不明瞭になる ときがある)。 図6の実施形態の音声合成器では、各サンプルを計算するときにサンプルを1 つづつ生成すると記載したが、もちろん再生する前にサンプルのシーケンスを生 成し、バッファすることができる。 図6に関係して上述で記載した合成器を変形して、計算された各出力サンプル 値を測定するか、またはスピーカ2に接続されたアナログ増幅器を直接に制御す ることによって、CPUが直接に振幅の制御を行なうようにすることが簡単であ る。 この場合黙音間の進行は、漸進的な振幅の増大および縮小を付加的にまたは代 替的に利用することができる。 同様に、記載した実施形態では、CPU6が出力サンプルをデジタル対アナロ グコンバータ4へ供給するレートを変更することによって、ピッチを簡単に変化 させる。 上述の実施形態では、デジタル対アナログコンバータおよびスピーカを準備し ているが、もちろんデジタル対アナログコンバータおよびスピ−カを離して配置 することができる。例えば、他の実施形態で音声合成器を遠隔通信ネットワーク 内のあるサイト(例えば、ネットワーク制御局または交換局内に)に準備するこ とができる。このような場合、音声合成器はアナログ出力を供給できるが、電話 ネットワークによって搬送される音声がデジタル形式のときがあるので、同様に 音声合成器が列状のデジタルサンプル出力を供給できることが都合がよく;した がってこの実施形態では、音声合成器の一部を形成しているデジタル対アナログ コンバータおよびスピ−カではなく、ローカル交換局またはエンドユーザ端末の 構成要素によって、最後にアナログ波形を再構成する。このような実施形態は、 例えば自動ディレクトリ照会に対して応用でき、記憶した加入者の電話番号のデ ジタル情報は、人間のオペレータまたは音声認識装置の制御のもとで音声信号と して再生される。 多くの他の変形および変更を本発明の本質から逸脱することなく形成できるこ とが明らかである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BA,BB,BG,BR,BY,CA,CH,CN, CU,CZ,DE,DK,EE,ES,FI,GB,G E,HU,IL,IS,JP,KE,KG,KP,KR ,KZ,LC,LK,LR,LS,LT,LU,LV, MD,MG,MK,MN,MW,MX,NO,NZ,P L,PT,RO,RU,SD,SE,SG,SI,SK ,TJ,TM,TR,TT,UA,UG,US,UZ, VN (72)発明者 マックラフリン、スティーブン イギリス国、イーエイチ15・2キューエ ス、エジンバラ、ジョッパ、ブランスタ ン・ロード 61 【要約の続き】

Claims (1)

  1. 【特許請求の範囲】 1.実質的に類似のサイクルのシーケンスに対応する合成波形出力を生成する方 法であり、 (a)合成波形サンプルを生成する段階と; (b)前記合成波形サンプルおよび変換を定めるデータから連続的な波形サンプ ルを生成し、前記合成波形サンプルの時間的に近くで前記サイクルを続ける段階 と; (c)前記連続的な波形サンプルを合成波形サンプルとして示し、段階(b)を 繰返す段階と; (d)段階(c)を複数回繰返して、複数の前記サイクルに対応する前記連続的 な波形サンプルのシーケンスを生成する段階と; (e)前記シーケンスのサンプルを出力して、波形を生成する段階を含む合成波 形出力を生成する方法。 2.前記波形が有声音の音声である請求項1記載の方法。 3.前記データが、所定の参照波形シーケンスを参照して変換を定める請求項1 または2記載の方法。 4.前記参照波形シーケンスが記憶した音声波形を含む請求項3記載の方法。 5.前記段階(a)および(b)が、連続する前記サイクルの対応部分が実質的 に重なり合う多次元空間内の点として前記波形サンプル値を表す複数の値を生成 することを含む請求項1乃至4の何れか1項記載の方法。 6.変換が実質的に、前記参照波形上の第1の時間点シーケンスから、合成され る波形上の対応する時間点へ延在している第1の変位ベクトルを、前記参照波形 シーケンス上の、第1の点に後続する第2の点から、合成される波形上の対応す る第2の点へ延在している第2の偏位ベクトルへ変換するものである、請求項3 または4に縦続する請求項5記載の方法。 7.前記所定の連続波形サンプルのサイクルに対応する前記サイクル内のある位 置の前記参照波形シーケンス上の点、およびそこから時間的にオフセットの前記 参照波形シーケンスの少なくとも1つの他の点からのデータにしたがって所定の 連続する波形サンプルが導き出される請求項3乃至6の何れか1項記載の方法。 8.前記段階(b)が、1組の記憶した波形値から前記変換を計算する請求項1 乃至7の何れか1項記載の方法。 9.前記波形を最初に合成する前記段階(a)の最初の動作が、前記波形の前も って合成するときに選択した先行する初期値と異なる初期値の選択段階を含む請 求項1乃至8の何れか1項記載の方法。 10.前記選択段階が、疑似ランダム数生成アルゴリズムを応用して、前記値を 選択することを含む請求項9記載の方法。 11.前記選択段階が、記憶した波形サンプル値を参照し、前記記憶した波形値 に類似しているが異なる合成した最初の波形値を計算することを含む請求項9ま たは10記載の方法。 12.短い時間間隔で、合成された有声音の言語音声の発展をモデル化するデー タを使用して、先行する出力値から各新しい出力値を計算することを含む請求項 1乃至11記載の方法。 13.前記各音のサイクル内の対応する点で前記音の値の対間で漸進的に補間す る2つのサイクル音を連結する方法。 14.2つの他のサイクル音間の中間のサイクル音を合成する方法であり、該サ イクル音では複数のサイクルに対応する一連のサンプル値を記憶し、それぞれ1 対の点から補間される一連の値を含む補間される波形サンプルを生成し、該1対 の点はそれぞれ各記憶した波形のサイクルの対応する部分から得られる段階;短 い時間間隔で、補間された波形の発展のモデルを生成する段階;および前記発展 モデルを使用して、先行する出力値から各連続する出力値を計算するサイクル音 を合成する方法。 15.請求項1乃至14記載の方法を実行するようにされている合成装置。
JP52576897A 1996-01-15 1997-01-09 波形の合成 Expired - Fee Related JP4194656B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB9600774.5A GB9600774D0 (en) 1996-01-15 1996-01-15 Waveform synthesis
GB9600774.5 1996-01-15
PCT/GB1997/000060 WO1997026648A1 (en) 1996-01-15 1997-01-09 Waveform synthesis

Publications (2)

Publication Number Publication Date
JP2000503412A true JP2000503412A (ja) 2000-03-21
JP4194656B2 JP4194656B2 (ja) 2008-12-10

Family

ID=10787066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52576897A Expired - Fee Related JP4194656B2 (ja) 1996-01-15 1997-01-09 波形の合成

Country Status (8)

Country Link
US (1) US7069217B2 (ja)
EP (1) EP0875059B1 (ja)
JP (1) JP4194656B2 (ja)
AU (1) AU724355B2 (ja)
CA (1) CA2241549C (ja)
DE (1) DE69722585T2 (ja)
GB (1) GB9600774D0 (ja)
WO (1) WO1997026648A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008275845A (ja) * 2007-04-27 2008-11-13 Casio Comput Co Ltd 波形発生装置および波形発生処理プログラム
JP2010078743A (ja) * 2008-09-25 2010-04-08 Casio Computer Co Ltd 波形発生装置および波形発生処理プログラム
JP2012042722A (ja) * 2010-08-19 2012-03-01 Tatsu Ifukube 音声生成装置およびその制御プログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
FR2811790A1 (fr) * 2000-07-11 2002-01-18 Schlumberger Systems & Service Microcontroleur securise contre des attaques dites en courant
JP4060126B2 (ja) * 2002-05-31 2008-03-12 リーダー電子株式会社 波形合成用データのためのデータ構造および波形合成の方法および装置
US7647284B2 (en) * 2007-01-12 2010-01-12 Toyota Motor Engineering & Manufacturing North America, Inc. Fixed-weight recurrent neural network controller with fixed long-term and adaptive short-term memory
JP5177157B2 (ja) * 2010-03-17 2013-04-03 カシオ計算機株式会社 波形発生装置および波形発生プログラム
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4022974A (en) * 1976-06-03 1977-05-10 Bell Telephone Laboratories, Incorporated Adaptive linear prediction speech synthesizer
JPS6029793A (ja) * 1983-07-28 1985-02-15 ヤマハ株式会社 楽音形成装置
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4622877A (en) 1985-06-11 1986-11-18 The Board Of Trustees Of The Leland Stanford Junior University Independently controlled wavetable-modification instrument and method for generating musical sound
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
US5140886A (en) 1989-03-02 1992-08-25 Yamaha Corporation Musical tone signal generating apparatus having waveform memory with multiparameter addressing system
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008275845A (ja) * 2007-04-27 2008-11-13 Casio Comput Co Ltd 波形発生装置および波形発生処理プログラム
JP4656443B2 (ja) * 2007-04-27 2011-03-23 カシオ計算機株式会社 波形発生装置および波形発生処理プログラム
JP2010078743A (ja) * 2008-09-25 2010-04-08 Casio Computer Co Ltd 波形発生装置および波形発生処理プログラム
JP2012042722A (ja) * 2010-08-19 2012-03-01 Tatsu Ifukube 音声生成装置およびその制御プログラム

Also Published As

Publication number Publication date
AU724355B2 (en) 2000-09-21
DE69722585D1 (de) 2003-07-10
EP0875059A1 (en) 1998-11-04
US7069217B2 (en) 2006-06-27
CA2241549A1 (en) 1997-07-24
DE69722585T2 (de) 2004-05-13
EP0875059B1 (en) 2003-06-04
CA2241549C (en) 2002-09-10
JP4194656B2 (ja) 2008-12-10
US20010018652A1 (en) 2001-08-30
AU1389797A (en) 1997-08-11
GB9600774D0 (en) 1996-03-20
WO1997026648A1 (en) 1997-07-24

Similar Documents

Publication Publication Date Title
CN101578659B (zh) 音质转换装置及音质转换方法
US8234110B2 (en) Voice conversion method and system
US6836761B1 (en) Voice converter for assimilation by frame synthesis with temporal alignment
US8280724B2 (en) Speech synthesis using complex spectral modeling
JP2000503412A (ja) 波形の合成
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
JP2000172285A (ja) フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
RU2296377C2 (ru) Способ анализа и синтеза речи
JP6821970B2 (ja) 音声合成装置および音声合成方法
JPH08254993A (ja) 音声合成装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JPH0641557A (ja) 音声合成のための方法および装置
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP4430174B2 (ja) 音声変換装置及び音声変換方法
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP2011191528A (ja) 韻律作成装置及び韻律作成方法
JP2020118950A (ja) 音声処理装置、および音声処理方法
Jayasinghe Machine Singing Generation Through Deep Learning
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JPH1097268A (ja) 音声合成装置
JP2650480B2 (ja) 音声合成装置
JP2861005B2 (ja) 音声蓄積再生装置
JPH0962295A (ja) 音声素片作成方法および音声合成方法とその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20031224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060418

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060718

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070419

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees