JP2006501509A

JP2006501509A - 個人適応音声セグメントを備える音声合成装置

Info

Publication number: JP2006501509A
Application number: JP2004541038A
Authority: JP
Inventors: エデュアルダスティピーエムアッレフス
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-04
Filing date: 2003-09-12
Publication date: 2006-01-12
Also published as: AU2003260854A1; WO2004032112A1; US20060074672A1; EP1552502A1; CN1692403A

Abstract

本発明は、−自然音声を入力するための手段（１０２、１０４）と、−個人適応音声セグメント（１１４）をもたらすために前記自然音声を処理するための手段（１０６、１０８、１１０、１１２、１１３）と、−前記個人適応音声セグメントに基づいて音声を合成するための手段（１１８）とを有する音声合成装置に関する。

Description

本発明は、音声合成の分野に関し、更に特に限定されないが、テキストトゥスピーチ合成（テキストから音声への合成（ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ））の分野に関する。

テキストトゥスピーチ（ＴＴＳ）合成システムの機能は、所与の言語における属性テキスト（ジェネリックテキスト（ｇｅｎｅｒｉｃｔｅｘｔ））から音声を合成することにある。最近、ＴＴＳシステムは、電話ネットワークを通じたデータベースへのアクセス又は障害者に対する支援のような多くの用途に対する実際の操作にもたらされている。音声を合成する一つの方法は、半音（デミシラブル（ｄｅｍｉ−ｓｙｌｌａｂｌｅ））又は多音子（ポリフォン（ｐｏｌｙｐｈｏｎｅ））のような音声のサブユニットの記録されたセットの要素を連結（結合）することによる。成功した商用システムの多くは多音子の連結部を使用している。

多音子は、２音子（ダイフォン（ｄｉｐｈｏｎｅ））、３音子（トライフォン（ｔｒｉｐｈｏｎｅ））、又はそれより多くの音子のグループを有し、音の所望のグルーピングを安定なスペクトル領域で分割することによって無意味語（ナンセンスワード（ｎｏｎｓｅｎｓｅｗｏｒｄ））から決定されてもよい。連結部に基づく合成において、二つの隣接する音子の間の変化の対話（カンバセーション）（ｃｏｎｖｅｒｓａｔｉｏｎｏｆｔｒａｎｓｉｔｉｏｎ）は、合成された音声の質を保証するために重要となる。基本サブユニットとしての多音子の選択の場合、二つの隣接する音子の間の変化は、記憶されたサブユニットに保持され、連結は類似音子の間で行われる。しかしながら合成前に音子は、それらの音子を含む新語の韻律制約（ｐｒｏｓｏｄｉｃｃｏｎｓｔｒａｉｎｔ）を満たすために修正される自身のピッチ及び期間を有していなければならない。この処理は単調な音響合成音声（ｍｏｎｏｔｏｎｏｕｓｓｏｕｎｄｉｎｇｓｙｎｔｈｅｓｉｚｅｄｓｐｅｅｃｈ）の生成を防止するために必要とされる。ＴＴＳシステムにおいて、当該機能は韻律モジュールによって実行される。記録されたサブユニットにおける期間及びピッチ修正を可能にするために、多くの連結に基づくＴＴＳシステムがタイムドメイン（期間領域）ピッチ同期（シンクロナス）オーバラップ加算（ＴＤ−ＰＳＯＬＡ（ｔｉｍｅ−ｄｏｍａｉｎｐｉｔｃｈ−ｓｙｎｃｈｒｏｎｏｕｓｏｖｅｒｌａｐ−ａｄｄ））（Ｅ．Ｍｏｕｌｉｎｅｓ氏及びＦ．Ｃｈａｒｐｅｎｔｉｅｒ氏による“２音子（ダイフォン）を使用するテキストトゥスピーチ合成のためのピッチ同期波形処理技術（Ｐｉｔｃｈｓｙｎｃｈｒｏｎｏｕｓｗａｖｅｆｏｒｍｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｕｓｉｎｇｄｉｐｈｏｎｅｓ）”（ＳｐｅｅｃｈＣｏｍｍｕｎ．，第９巻，４５３乃至４６７頁，１９９０年））合成モデルを使用している。ＴＤ−ＰＳＯＬＡモデルにおいて、音声信号はまずピッチマーキングアルゴリズムにサブミット（提出）される。当該アルゴリズムは、信号のピークにおけるマークを有声音セグメント（区分）（ｖｏｉｃｅｄｓｅｇｍｅｎｔ）に割り当て、１０ｍｓ離れたマークを無声音セグメント（ｕｎｖｏｉｃｅｄｓｅｇｍｅｎｔ）に割り当てる。合成は、ピッチマークで中心にもたらされると共に先行するピッチマークから次のピッチマークまで延在するハニング窓セグメント（Ｈａｎｎｉｎｇｗｉｎｄｏｗｅｄｓｅｇｍｅｎｔ）の重ね合わせ（ｓｕｐｅｒｐｏｓｉｔｉｏｎ）によってなされる。期間修正は前記窓セグメントのいくつかを削除すると共に複製（ｒｅｐｌｉｃａｔｅ）することによってもたらされる。一方ピッチ期間修正は、窓セグメント間の重ね合わせを増加又は減少させることによってもたらされる。当該ＰＳＯＬＡ方法の例は、文献欧州特許第ＥＰ−０３６３２３３号公報、米国特許第５，４７９，５６４号公報、及び欧州特許第ＥＰ−０７０６１７０号公報に規定されている。特定の例は、Ｔ．Ｄｕｔｏｉｔ氏及びＨ．Ｌｅｉｃｈ氏によってＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ（スピーチコミュニケーション）（ＥｌｓｅｖｉｅｒＰｕｂｌｉｓｈｅｒ，１９９３年１１月，第１３巻，Ｎ．ｄｅｇｒｅｅ．３−４，１９９３年）に公表されているＭＢＲ−ＰＳＯＬＡ方法でもある。文献米国特許第５，４７９，５６４号公報に記載されている方法は、この信号から抽出される（引き出される）オーバラップ加算短期間信号（ｏｖｅｒｌａｐ−ａｄｄｉｎｇｓｈｏｒｔ−ｔｅｒｍｓｉｇｎａｌ）によって周波数を修正する手段を提案している。短期間信号を得るために使用される重み付け窓（ｗｅｉｇｈｉｎｇｗｉｎｄｏｗ）の長さは、オーディオ（音響）信号（ａｕｄｉｏｓｉｇｎａｌ）の期間の２倍とほぼ等しくなり、前記期間内のそれらの位置は、（連続した窓の間の期間シフト（ｔｉｍｅｓｈｉｆｔ）がオーディオ信号の期間と等しくなる場合）いかなる値にも設定され得る。文献米国特許第５，４７９，５６４号公報は、不連続部を平滑化するように、連結するセグメントの間で波形を補間（ｉｎｔｅｒｐｏｌａｔｅ）する手段も開示している。従来テキストトゥスピーチシステムにおいて、前（プレ）記録された音声断片（フラグメント）（ｐｒｅ−ｒｅｃｏｄｅｄｓｐｅｅｃｈｆｒａｇｍｅｎｔ）のセットが、あるテキストを自然音響音声（ｓｏｕｎｄｉｎｇｓｐｅｅｃｈ）に変換するために特定の順序（配列）で連結され得る。小さな音声断片を使用するテキストトゥスピーチシステムは多くのこのような連結点を有する。２音子合成技術又はユニット選択合成技術に基づいているＴＴＳシステムは通常、音声の前記録された部分が記憶されるデータベースを含んでいる。これらの音声セグメントは、音声を生成するために合成システムにおいて使用される。記録作業は期間を消費し、特に手動の後続処理（ｍａｎｕａｌｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）のための音声信号処理専門技術を必要とするため、技術の今日の状況は、音声部分の記録が、制御された研究室環境において行われることにある。これまでこのような制御環境は音声合成技術の供給元においてしかもたらされ得なかった。

従来技術のＴＴＳシステムの共通の不利点は、音声合成モジュールをこのような商用又は民生製品に組み込むことを所望する、民生デバイスのような商品の製造業者が、音声合成供給元によってもたらされる音声の限定されたセットからしか選択され得ないことにある。製造業者が新たな音声を必要とする場合、供給元の制御環境において所要の音声部分を記録する費用及び手動の後続処理に対する費用を供給元に支払わなければならない。従来技術の民生製品は通常、エンドユーザが選択し得るたった一つの非常に限定されたセットの音声又はたった一つの音声しか有していない。このような民生デバイスの例は、オーディオ、ビデオ、家庭用品、通信、コンピュータ、携帯情報端末（パーソナルディジタルアシスト）、カーナビゲーション、及び他のデバイスを含む。

米国特許第６，０７８，８８５号公報及び米国特許第５，８４２，１６７号公報のような従来技術は、ディクショナリ（辞書）が大幅に増加させられる限り、並びに音量（ボリューム）、音声、及びピッチに関して音声が調節される限り、所与の音声合成システムを変更するために非常に限定的な選択肢（オプション）しかもたらされない。しかしながら音声それ自体は従来技術システムにおいて変更され得ない。

それ故に本発明の目的は、個人適応（化）音声（ｐｅｒｓｏｎａｌｉｚｅｄｓｐｅｅｃｈ）の合成を可能にする音声合成装置及び音声合成方法を提供することにある。

本発明は、個人適応自然音響音声を合成することを可能にする音声合成装置をもたらす。このことは、自然音声を音声合成装置に入力し、個人適応音声セグメントをもたらすように自然音声を処理し、音声合成のために個人適応音声セグメントを使用することによって実現される。

本発明は特に、ビデオ、オーディオ、家庭用品、通信、携帯情報端末、又は個人適応音声合成機能を有するカーナビゲーションデバイスのような民生デバイスをもたらすことを可能にすることにある。例えば民生デバイスのエンドユーザは、そのとき個人適応音声セグメントデータベースをもたらすように音声サンプルを処理する民生デバイスによって彼又は彼女の声を記録し得る。代わりにエンドユーザは、民生デバイスが、特定の家族構成員の声に似た音声を合成するように、彼又は彼女の家族の構成員のような他の人物に自然音声を入力させ得る。

例えばＤＥＣＴ、ＧＳＭ、又は有線電話（ｃｏｒｄｅｄｐｈｏｎｅ）を含むモバイル電話のような民生デバイスは、個人適応‘音声’を電話にもたらすために本発明による音声合成装置を備え得る。同様に、テレビジョンセット、ＤＶＤプレーヤ、パーソナルコンピュータ、及びポータブルデバイスのような他の民生デバイスのユーザインタフェイス部は、このような音声合成装置を備え得る。

以下いくつかのアプリケーション例が列挙される。

−音声合成システムを仕込むために家族構成員の声を記録すること。これにより、コンピュータ又はＰＤＡのように家族構成員の声で家族構成員が民生デバイスのユーザに送信する電子メールに含まれるテキストの音声合成が可能になる。すなわちコンピュータ上で受信される電子メールが、本発明によるテキストトゥスピーチシステムを呼び出す（ｉｎｖｏｋｅ）。電子メールのソースアドレスは、音声セグメントの対応する個人適応データベースを選択するために使用される。次に電子メールに含まれるテキストは、選択された個人適応音声セグメントデータベースによって合成される。電子メールの送信者が彼自身／彼女自身受信者への電子メールのテキストを読むかのように、合成された音声出力は発音（声）する。データベースを他のユーザに利用可能にする他のアプリケーションは、個人適応音声セグメントデータベースをエクスポート（ｅｘｐｏｒｔ）する（取り出す）と共に他のユーザに個人適応音声セグメントデータベースを送信するので、ユーザが電子メールを受信するとき、電子メールのテキストは個人適応音声セグメントデータベースに基づいて合成される。例えばユーザは彼又は彼女自身の声を記録し、個人適応音声セグメントデータベースを海外の彼又は彼女自身の家族にもたらすので、本発明の音声合成システムによってユーザの電子メールがテキストから音声に変換されるとき、家族はユーザの自然音響合成された声を聴くことができる。

−玩具の音声合成モジュールにおける記録された声の語法（ｕｓａｇｅ）及び子供の声を記録すること。

−オーディオ及び／又はビデオ放送（ブロードキャスト）におけるＭＰＥＧファイル又はストリームとして符号化されるテレビジョンプログラムのようなオーディオ及び／又はビデオプログラムのディジタル表示をもたらす（レンダリングする）ための本発明の個人適応音声セグメントデータベースの語法。

−ポップスのスター、俳優、又は政治家のような著名人の個人適応音声セグメントデータベースをダウンロードし、商品の音声合成システムにおいてこれらの個人適応音声セグメントデータベースを使用すること。

−彼又は彼女が、のどのガン又は（多発性硬化症のような）筋肉に影響を及ぼす他の慢性病のような進行性の病気の結果として将来彼／彼女の声を失うことが知られている人の声を記録すること。記録された声の成分は、彼又は彼女の声を失った人のための通信（コミュニケーション）装置の音声合成部分において処理され、使用され得る。

−一人の子供の一人又はそれより多くの親の声を記録し、結果としてもたらされる一つ又は複数の個人適応音声セグメントデータベースを、音声合成システムを備える玩具又は電子ベビーケア製品において使用すること。

本発明はある種の音声合成技術に限定されないが、２音子、３音子、多音子合成、又はユニット選択技術のような音声セグメントに基づいて音声を合成するいかなる音声合成技術も使用され得ることは注意されるべきである。

本発明の好ましい実施例によれば、無意味のキャリア語（ｎｏｓｅｎｓｅｃａｒｒｉｅｒｗｏｒｄ）が、音声合成のために必要とされる全ての２音子を集めるために使用される。例えばＰｒｏｃｅｅｄｉｎｇｏｆＩＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｅｅｃｈＩｎｐｕｔ／Ｏｕｔｐｕｔ（１９８６）の７７乃至８２頁におけるＩｓａｒｄ，Ｓ氏及びＭｉｌｌｅｒ，Ｄ氏による２音子合成技術（Ｄｉｐｈｏｎｅｓｙｎｔｈｅｓｉｓｔｅｃｈｎｉｑｕｅ）に開示されているような２音子合成技術が使用され得る。

代わりに自然キャリア語句（ｎａｔｕｒａｌｃａｒｒｉｅｒｐｈｒａｓｅ）も使用され得るが、無意味キャリア語の使用は、それにより通常２音子の伝達がより安定させられるので好ましい。好ましくは無意味キャリア語は、２音子が語の中央から抽出され得るように設計される。

本発明の更なる好ましい実施例によれば、音声セグメントの前記録及び前処理されたデータベースが使用される。この音声セグメントデータベースは、民生デバイスの組み込み部分としてもたらされるので、民生デバイスは製造の直後に‘声’を既に有する。

当該音声セグメントデータベースは、個人適応音声セグメントデータベースを生成するために使用される。このことは、データベースの音声セグメントと、エンドユーザの声の記録から抽出された対応する音声セグメントとの間の最良一致（適合）（ベストマッチ（ｂｅｓｔｍａｔｃｈ））を見つけることによってなされる。このような最良一致が見つかったとき、データベースの音声セグメントに割り当てられるマーカ情報が、抽出された音声セグメントに複製される。このようにマーカ情報を追加するために、抽出された音声セグメントの手動後続処理は回避される。

本発明の更なる好ましい実施例によれば、動的時間軸正規化（ダイナミックタイムワーピング）（ＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ））と称される技術が最良一致を見つけるために使用される。ＤＴＷによって、抽出された音声セグメントは、前記セグメント間の可能な最良一致を見つけるために信号の振幅及び／又は期間／スケールを変化させることによって前記録されると共に前処理される音声セグメントデータベースに記憶される自身の対応する音声セグメントと比較される。例えば割り当てられたマーカ情報を有する、２音子のような前記録された音声セグメントは、ＤＴＷによって対応する無意味語から得られる音声セグメントと位置合わせ（調整）（ａｌｉｇｎ）させられる。このため、Ｅｕｒｏｓｐｅｅｃｈ９７（ロードス（Ｒｈｏｄｅｓ），ギリシャ（Ｇｒｅｅｃｅ），１９９７年）の２６３１乃至２６３４頁におけるＭａｌｆｒｅｒ．Ｆ氏及びＤｕｔｏｉｔ．Ｔ氏による“音声学的音声セグメントのための高音質音声合成（Ｈｉｇｈｑｕａｌｉｔｙｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｆｏｒｐｈｏｎｅｔｉｃｓｐｅｅｃｈｓｅｇｍｅｎｔａｔｉｏｎ）”に開示されている技術が使用され得る。

本発明の更なる好ましい実施例によれば、ユーザは、音声合成モジュールにより無意味語の表示によってある無意味語を話すように要求される。好ましくはこれらの要求（ｐｒｏｍｐｔ）は、話し手（ｓｐｅａｋｅｒ）が同じように話せるようにするために一定のピッチ及び期間で生成される。話された音声セグメントに属するデータベースにおける音声セグメントは予め決定されているので、更にこのことによりデータベースにおいて最も良く（近く）一致する音声セグメントがより容易に見つけられる。

ＤＴＷの技術が、Ｓａｋｏｅ，Ｈ氏及びＣｈｉｂａ，Ｓ氏による“話し語認識のための動的プログラミングアルゴリズム最適化（Ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇａｌｇｏｒｉｔｈｍｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｓｐｏｋｅｎｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ）”（ＩＥＥＥｔｒａｎｓａｃｔｉｏｎ．Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２６，４３乃至４９頁、１９７８年）
からそれ自体よく知られていることは注意されるべきである。

本発明の更なる好ましい実施例によれば、民生デバイスは、ユーザによって話されるべき無意味語のリストの表示のためのディスプレイを備えるユーザインタフェイス部を有する。代わりに、又はそれに加えて、ユーザインタフェイス部は、音声シンセサイザ（音声合成器）（ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｚｅｒ）によってもたらされるオーディオプロンプト（要求）の表示のようなオーディオフィードバック機能を有する。好ましくはユーザは、それからユーザがこの無意味語を繰り返すためにプロンプトとして合成されるリストから無意味語を選択し得る。ユーザが無意味語を繰り返すとき、対応する音声セグメントを得るためにこれは記録される。しかしながらこのようなユーザインタフェイス部が本発明にとって本質的でなく、本発明はそれがない場合でも実現されることは注意されるべきである。

複数の個人適応２音子データベースは、複数の話し手の声の合成が所望される他のアプリケーションに対して有利に使用され得ることは注意されるべきである。このような個人適応２音子データベースは、本発明の民生製品によりユーザによって設けられ得るか、又は元の製造業者、他の製造業者、又は２音子データベースコンテンツプロバイダ（ｄｉｐｈｏｎｅｄａｔａｂａｓｅｃｏｎｔｅｎｔｐｒｏｖｉｄｅｒ）のような第三者によってもたらされ得る。例えば２音子データベースコンテンツプロバイダは、インタネットを介したダウンロードのための様々な音声のための２音子データベースをもたらす。

以下本発明による好ましい実施例が、図面を参照することによってより詳細に記載されるであろう。

図１は、組み込み音声シンセサイザを備える民生デバイス１００を示す。民生デバイス１００は、家電製品、民生電子デバイス、又は通信若しくはコンピュータデバイスのような何れの種類ともなり得る。しかしながら本発明が民生デバイスにおける用途に限定されないが、産業用制御システムにおけるユーザインタフェイス部のような他のユーザインタフェイス部に対しても使用され得ることは注意されるべきである。民生デバイス１００は、音声記録モジュール（ｖｏｉｃｅｒｅｃｏｒｄｉｎｇｍｏｄｕｌｅ）１０４に結合されるマイクロフォン１０２を有する。音声記録モジュール１０４は一時記憶モジュール（ｔｅｍｐｏｒａｒｙｓｔｏｒａｇｅｍｏｄｕｌｅ）１０６に結合される。一時記憶モジュール１０６は、記録された無意味語を記憶する役割を果たす。

更に民生デバイス１００は、工場供給された２音子データベース部（ｆａｃｔｏｒｙｐｒｏｖｉｄｅｄｄｉｐｈｏｎｅｄａｔａｂａｓｅ）１０８を有する。動的時間軸正規化（ＤＴＷ)モジュール１１０は一時記憶モジュール１０６と２音子データベース部１０８との間に結合される。２音子データベース部１０８は、自身に割り当てられるマーカ情報を有する前記録及び前処理された２音子を含む。ＤＴＷモジュール１１０は、一時記憶モジュール１０６によってもたらされる記録された無意味語と２音子との間の最良一致が見つけられた後に２音子データベース部１０８から２音子のマーカ情報を複製するラベリングモジュール（ｌａｂｅｌｉｎｇｍｏｄｕｌｅ）１１２に結合される。結果としてもたらされるラベル表示された音声記録部（ｌａｂｅｌｅｄｖｏｉｃｅｒｅｃｏｒｄｉｎｇ）は２音子抽出モジュール（ｄｉｐｈｏｎｅｅｘｔｒａｃｔｉｏｎｍｏｄｕｌｅ）１１３に入力される。２音子抽出モジュール１１３によってもたらされる２音子はそれから、個人適応２音子データベース部１１４に入力される。すなわち一時記憶モジュール１０６に記憶される音声記録部は、工場供給された２音子データベース部１０８に含まれる２音子と最も良く一致している。最良一致が見つけられたとき、ラベル又はマーカ情報は、ラベリングモジュール１１２によって２音子データベース部１０８の２音子データベース１０８のうちの最も良く一致する２音子から音声記録部に複製される。その結果として複製されたマーカ情報を備えるラベル表示された音声記録部がもたらされる。このラベル表示された音声記録部から２音子が抽出され、個人適応２音子データベース部１１４に入力される。このことは、ラベル表示された音声記録部から２音子を切り抜く２音子抽出モジュール１１３によってなされる。個人適応２音子データベース部１１４は、前記モジュールに他のアプリケーション又は他の民生デバイスをもたらすために個人適応２音子データベース部１１４のエクスポートを可能にするエクスポートモジュール１１６に結合される。更に民生デバイス１００は音声合成モジュール１１８を有する。音声合成モジュール１１８はいかなる音声合成技術にも基づくことが可能である。

音声合成モジュール１１８は、制御器（コントローラ）１２２に結合されるテキスト入力モジュール１２０を有する。制御器１２２は、それから音声合成モジュール１１８によって合成され、スピーカ（ｌｏｕｄｓｐｅａｋｅｒ）１２４によって出力されるテキスト入力モジュール１２０にテキストをもたらす。更に民生デバイス１００はユーザインタフェイス部１２６を有する。ユーザインタフェイス部１２６は、所望の音声セグメント、すなわちここに記載される例における２音子を入力するためのキャリアとしての役割を果たす無意味語のリストを記憶するモジュール１２８に結合される。モジュール１２８は音声合成モジュール１１８にも結合される。民生デバイス１００がエンドコンシューマにもたらされるとき、個人適応２音子データベース１１４は空となる。個人適応音声を民生デバイス１００にもたらすために、ユーザは、それから音声合成モジュール１１８によって個人適応音声合成のために使用され得る対応する音声セグメントで個人適応２音子データベース１１４を満たすための基礎を形成する自然音声をもたらさなければならない。

音声の入力は、モジュール１２８に記憶されるキャリア語によってなされる。キャリア語の当該リストはユーザインタフェイス部１２６上に表示される。モジュール１２８に記憶されるリストからの無意味語は、対応する音声を合成するために音声合成モジュール１１８に入力される。ユーザは合成された無意味語を聴き、それをマイクロフォン１０２に話すことによって無意味語を繰り返す。話された語は音声記録モジュール１０４によって捕らえられ、対象の２音子は２音子抽出モジュール１０６によって抽出される。２音子データベース１０８内の対応する２音子及び２音子抽出モジュール１０６によってもたらされる抽出２音子はＤＴＷモジュール１１０によって比較される。ＤＴＷモジュール１１０は、前記信号間の可能な最良一致を見つけるために信号の振幅及び／又は期間／スケールを変化させることによって二つの２音子信号を比較する。このような最良一致が見つけられると、２音子データベース１０８の２音子のマーカ情報はラベリングモジュール１１２によって抽出２音子に複製される。マーカ情報を備えるラベル表示された２音子はそれから個人適応２音子データベース部１１４に記憶される。

このプロセスは、モジュール１２８の語のリストに含まれる全ての無意味語に対して実行される。語のリスト全体が処理されると、個人適応２音子データベース部１１４は完了させられ、音声合成モジュール１１８によって音声合成のために使用され得る。テキストが制御器１２２によってテキスト入力モジュール１２０に入力されると、音声合成モジュール１１８は、ユーザの声のように発声する音声を合成するために個人適応２音子データベース部１１４を使用し得る。

エクスポートモジュール１１６によって、個人適応２音子データベース部１１４は、自身を他のアプリケーション又は他の民生デバイスにもたらすようにエクスポートされることが可能であり、その結果ユーザの声が他のアプリケーション又は民生デバイスにもたらされる。

図２は、図１の個人適応２音子データベース部１１４の生成を示す対応するフローチャートを示している。ステップ２００において、無意味語のリストの無意味語ｉが、工場供給された２音子データベース部によって合成される。それに応答してユーザは当該無意味語ｉを繰り返し、自然音声がステップ２０２に記録される。ステップ２０４において関連する２音子が、記録された無意味語ｉから抽出される。ステップ２０６において、抽出された２音子と、製造業者により供給された２音子データベース（ｍａｎｕｆａｃｔｕｒｅｒｐｒｏｖｉｄｅｄｄｉｐｈｏｎｅｄａｔａｂａｓｅ）の対応する２音子との最良一致がＤＴＷ方法によって識別される。

このような最良一致見つけられると、工場供給された２音子データベースの２音子のマーカは抽出２音子（ｅｘｔｒａｃｔｅｄｄｉｐｈｏｎｅ）に複製される。マーカ情報を備える抽出２音子はそれから、ステップ２１０において個人適応２音子データベース部に記憶される。ステップ２１２においてインデックスｉは、リスト上の次の無意味語に進むためにインクリメント（ｉｎｃｒｅｍｅｎｔ）される。そこから制御はステップ２００に戻される。このプロセスは無意味語のリスト全体が処理されるまで繰り返される。

図３は、個人適応２音子データベースが完了させられた後の民生デバイスの語法を示している。ステップ３００においてユーザは、プリセット（ｐｒｅ−ｓｅｔ）音声又は個人適応音声、すなわち製造業者により供給された２音子データベース又は個人適応２音子データベースに対して彼又は彼女の選択を入力し得る。ステップ３０２においてテキストが民生デバイスのアプリケーションによって生成され、音声合成モジュールのテキスト入力部にもたらされる。次にステップ３０４において音声が、ユーザにより選択された２音子データベースによって合成され、ステップ３０６において音声はスピーカによって出力される。

図４は、民生デバイス４００に対する代わりの実施例を示している。民生デバイス４００は電子メールシステム４０２を有する。電子メールシステム４０２は選択モジュール４０４に結合される。選択モジュール４０４は個人適応２音子データベース１，２，３．．．のセット４０６に結合される。個人適応２音子データベース部の各々は、割り当てられたソースアドレスを有する。すなわち個人適応２音子データベース部１はソースアドレスＡを有し、個人適応２音子データベース部２はソースアドレスＢを有し、個人適応２音子データベース部３はソースアドレスＣを有し、．．．。

個人適応２音子データベース１，２，３．．．の各々は音声合成モジュール４０８に結合される。個人適応２音子データベース１，２，３．．．の各々は図２を参照して説明されている方法によって得られる。当該方法は民生デバイス４００自身によって実行されており、及び／又は個人適応２音子データベース１，２，３．．．の一つ若しくはそれより多くがセット４０６にインポート（ｉｍｐｏｒｔ）されている（取り込まれている）。

例えば民生デバイス１００のユーザＢ（図１と比較して）は、自身の個人適応２音子データベースをエクスポートし、民生デバイス４００に電子メールの添付ファイルとして個人適応２音子データベースを送信する。電子メールシステム４０２による電子メールの受信後、個人適応２音子データベースは、割り当てられたソースアドレスＢを備える個人適応２音子データベース２としてセット４０６にインポートされる。

動作において電子メールメッセージ４１０は民生デバイス４００の電子メールシステム４０２によって受信される。ユーザＢが、民生デバイス４００のユーザの送信先アドレス（ｄｅｓｔｉｎａｔｉｏｎａｄｄｒｅｓｓ）と共に電子メールを送信した場合、電子メールメッセージ４１０はソースアドレスＢのようなソースアドレスを有する。更に電子メールメッセージ４１０は電子メールメッセージの態様でテキストを含む。

電子メールメッセージ１１０が電子メールシステム４０２によって受信されると、選択モジュール４０４が呼び出される（活性化される）。選択部４０４は、電子メールメッセージ４１０のソースアドレスと一致するソースアドレスを有するセット４０６の個人適応２音子データベース１，２，３．．．のうちの一つを選択する。例えばユーザＢが電子メールメッセージ４１０を送信した場合、選択モジュール４０４はセット４０６内の個人適応２音子データベース２を選択する。

電子メールメッセージ４１０の態様で含まれるテキストが音声合成モジュール４０８にもたらされる。音声合成モジュール４０８は、選択モジュール４０４によって選択されている個人適応２音子データベースによって音声合成を実行する。このように民生デバイス４００のユーザは、ユーザＢが彼又は彼女への電子メールのテキストを読んでいることを認識する。

図５は、対応するフローチャートを示している。ステップ５００において電子メールが受信される。電子メールメッセージはあるソースアドレスを有する。ステップ５０２においてソースアドレスに割り当てられる個人適応２音子データベースが選択される。当該個人適応２音子データベースが先行してインポートされていない場合、電子メールは、自身が添付された個人適応２音子データベースを有しているかどうかがチェックされる。この場合、電子メールに添付されている個人適応２音子データベースがインポートされると共に選択される。割り当てられたソースアドレスを有する個人適応２音子データベースが利用可能でない場合、デフォルトの２音子データベースが選択される。次に電子メールの態様で含まれるテキストが、選択された個人適応又はデフォルトの２音子データベースに基づいて音声合成によって音声に変換される。

本発明の音声合成装置の好ましい第一の実施例のブロック図である。個人適応音声データベースをもたらすためのフローチャートを示す。個人適応音声合成のためのフローチャートを示す。本発明の更なる好ましい実施例のブロック図である。図４の実施例の動作に関するフローチャートを示す。

Claims

−自然音声を入力するための手段と、
−個人適応音声セグメントをもたらすために前記自然音声を処理するための手段と、
−前記個人適応音声セグメントに基づいて音声を合成するための手段と
を有する音声合成装置。
前記自然音声を処理するための手段が、自然音声から音声セグメントを抽出するための手段を有する請求項１に記載の音声合成装置。
−自身に割り当てられるマーカ情報を有する音声セグメントを記憶するための音声セグメントデータベースと、
−前記音声セグメントデータベースにおける音声セグメントと前記自然音声との最良一致を見つけるための手段と、
−前記自然音声に対して前記最良一致がなされた後に前記マーカ情報を複製するための手段と
を更に有する請求項１又は２に記載の音声合成装置。
最良一致を見つけるための前記手段が動的時間軸正規化型の方法を実行する請求項３に記載の音声合成装置。
抽出された音声セグメントを記憶するための個人適応音声セグメントデータベースを更に有し、前記抽出された音声セグメントは、当該抽出された音声セグメントに割り当てられるマーカ情報を有する請求項１乃至４の何れか一項に記載の音声合成装置。
前記個人適応音声セグメントをもたらすために、話し手によって話されるべき語のリストを記憶するための手段を更に有する請求項１乃至５の何れか一項に記載の音声合成装置。
ユーザによって話されるべき語の表示のためのユーザインタフェイス部を更に有する請求項１乃至６の何れか一項に記載の音声合成装置。
前記自然音声の入力に先行して話されるべき語のレンダリングための手段を更に有する請求項１乃至７の何れか一項に記載の音声合成装置。
−異なる話し手のための個人適応音声セグメントデータベースのセットと、
−前記個人適応音声セグメントデータベースのセットから前記個人適応音声セグメントデータベースのうちの一つを選択するための手段と
を更に有する請求項１乃至８の何れか一項に記載の音声合成装置。
前記個人適応音声セグメントをエクスポートするための手段を更に有する請求項１乃至９の何れか一項に記載の音声合成装置。
入力されるべき前記自然音声が無意味語のリストを有する請求項１乃至１０の何れか一項に記載の音声合成装置。
前記音声セグメントが２音子、３音子、及び／又は多音子である請求項１乃至１１の何れか一項に記載の音声合成装置。
音声を合成するための前記手段が、ＰＳＯＬＡ型の方法によって前記音声合成を実行する請求項１乃至１２の何れか一項に記載の音声合成装置。
音声を合成するための前記手段にテキストをもたらすための制御手段を更に有する請求項１乃至１３の何れか一項に記載の音声合成装置。
個人適応自然音声出力をもたらすための請求項１乃至１４の何れか一項に記載の音声合成装置を有する、オーディオ、ビデオ、家庭用品、カメラ、コンピュータ、通信、カーナビゲーション、及び／又は携帯情報端末のような民生デバイス。
−自然音声を民生デバイスに入力するステップと、
−個人適応音声セグメントをもたらすために前記民生デバイスによって前記自然音声を処理するステップと、
−前記民生デバイスによって出力されるべきテキストに対して前記個人適応音声セグメントに基づいて個人適応音声出力をもたらすためにテキストトゥスピーチを合成するステップと
を有する音声合成方法。
前記自然音声から音声セグメントを抽出するステップを更に有する請求項１６に記載の方法。
−自身に割り当てられるマーカ情報を有する音声セグメントを有するデータベースにおける、入力された自然音声に対して最良一致音声セグメントを識別するステップと、
−前記識別された最良一致音声セグメントの前記マーカ情報を前記自然音声に割り当てるステップと
を更に有する請求項１６又は１７に記載の方法。
動的時間軸正規化型の方法が、前記最良一致音声セグメントの識別に使用される請求項１６、１７、又は１８に記載の方法。
−自然音声を民生デバイスに入力するステップと、
−個人適応音声セグメントをもたらすために前記民生デバイス内で前記自然音声を処理するステップと、
−前記民生デバイスによって出力されるべきテキストに対して前記個人適応音声セグメントに基づいて個人適応音声出力をもたらすためにテキストトゥスピーチを合成するステップと
を実行するためのコンピュータプログラム手段を有する、ディジタル記憶媒体のようなコンピュータプログラム。