JP2006501509A - 個人適応音声セグメントを備える音声合成装置 - Google Patents
個人適応音声セグメントを備える音声合成装置 Download PDFInfo
- Publication number
- JP2006501509A JP2006501509A JP2004541038A JP2004541038A JP2006501509A JP 2006501509 A JP2006501509 A JP 2006501509A JP 2004541038 A JP2004541038 A JP 2004541038A JP 2004541038 A JP2004541038 A JP 2004541038A JP 2006501509 A JP2006501509 A JP 2006501509A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- segment
- natural
- personal
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 55
- 238000003786 synthesis reaction Methods 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 28
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical group C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 claims description 27
- 239000003550 marker Substances 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 2
- 230000003362 replicative effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 230000006978 adaptation Effects 0.000 description 25
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000220010 Rhode Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 201000006417 multiple sclerosis Diseases 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 208000037821 progressive disease Diseases 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本発明は、−自然音声を入力するための手段(102、104)と、−個人適応音声セグメント(114)をもたらすために前記自然音声を処理するための手段(106、108、110、112、113)と、−前記個人適応音声セグメントに基づいて音声を合成するための手段(118)とを有する音声合成装置に関する。
Description
本発明は、音声合成の分野に関し、更に特に限定されないが、テキストトゥスピーチ合成(テキストから音声への合成(text−to−speech synthesis))の分野に関する。
テキストトゥスピーチ(TTS)合成システムの機能は、所与の言語における属性テキスト(ジェネリックテキスト(generic text))から音声を合成することにある。最近、TTSシステムは、電話ネットワークを通じたデータベースへのアクセス又は障害者に対する支援のような多くの用途に対する実際の操作にもたらされている。音声を合成する一つの方法は、半音(デミシラブル(demi−syllable))又は多音子(ポリフォン(polyphone))のような音声のサブユニットの記録されたセットの要素を連結(結合)することによる。成功した商用システムの多くは多音子の連結部を使用している。
多音子は、2音子(ダイフォン(diphone))、3音子(トライフォン(triphone))、又はそれより多くの音子のグループを有し、音の所望のグルーピングを安定なスペクトル領域で分割することによって無意味語(ナンセンスワード(nonsense word))から決定されてもよい。連結部に基づく合成において、二つの隣接する音子の間の変化の対話(カンバセーション)(conversation of transition)は、合成された音声の質を保証するために重要となる。基本サブユニットとしての多音子の選択の場合、二つの隣接する音子の間の変化は、記憶されたサブユニットに保持され、連結は類似音子の間で行われる。しかしながら合成前に音子は、それらの音子を含む新語の韻律制約(prosodic constraint)を満たすために修正される自身のピッチ及び期間を有していなければならない。この処理は単調な音響合成音声(monotonous sounding synthesized speech)の生成を防止するために必要とされる。TTSシステムにおいて、当該機能は韻律モジュールによって実行される。記録されたサブユニットにおける期間及びピッチ修正を可能にするために、多くの連結に基づくTTSシステムがタイムドメイン(期間領域)ピッチ同期(シンクロナス)オーバラップ加算(TD−PSOLA(time−domain pitch−synchronous overlap−add))(E.Moulines氏及びF.Charpentier氏による“2音子(ダイフォン)を使用するテキストトゥスピーチ合成のためのピッチ同期波形処理技術(Pitch synchronous waveform processing techniques for text−to−speech synthesis using diphones)”(Speech Commun., 第9巻,453乃至467頁,1990年))合成モデルを使用している。TD−PSOLAモデルにおいて、音声信号はまずピッチマーキングアルゴリズムにサブミット(提出)される。当該アルゴリズムは、信号のピークにおけるマークを有声音セグメント(区分)(voiced segment)に割り当て、10ms離れたマークを無声音セグメント(unvoiced segment)に割り当てる。合成は、ピッチマークで中心にもたらされると共に先行するピッチマークから次のピッチマークまで延在するハニング窓セグメント(Hanning windowed segment)の重ね合わせ(superposition)によってなされる。期間修正は前記窓セグメントのいくつかを削除すると共に複製(replicate)することによってもたらされる。一方ピッチ期間修正は、窓セグメント間の重ね合わせを増加又は減少させることによってもたらされる。当該PSOLA方法の例は、文献欧州特許第EP−0363233号公報、米国特許第5,479,564号公報、及び欧州特許第EP−0706170号公報に規定されている。特定の例は、T.Dutoit氏及びH.Leich氏によってSpeech Communication(スピーチコミュニケーション)(Elsevier Publisher,1993年11月,第13巻,N.degree.3−4,1993年)に公表されているMBR−PSOLA方法でもある。文献米国特許第5,479,564号公報に記載されている方法は、この信号から抽出される(引き出される)オーバラップ加算短期間信号(overlap−adding short−term signal)によって周波数を修正する手段を提案している。短期間信号を得るために使用される重み付け窓(weighing window)の長さは、オーディオ(音響)信号(audio signal)の期間の2倍とほぼ等しくなり、前記期間内のそれらの位置は、(連続した窓の間の期間シフト(time shift)がオーディオ信号の期間と等しくなる場合)いかなる値にも設定され得る。文献米国特許第5,479,564号公報は、不連続部を平滑化するように、連結するセグメントの間で波形を補間(interpolate)する手段も開示している。従来テキストトゥスピーチシステムにおいて、前(プレ)記録された音声断片(フラグメント)(pre−recoded speech fragment)のセットが、あるテキストを自然音響音声(sounding speech)に変換するために特定の順序(配列)で連結され得る。小さな音声断片を使用するテキストトゥスピーチシステムは多くのこのような連結点を有する。2音子合成技術又はユニット選択合成技術に基づいているTTSシステムは通常、音声の前記録された部分が記憶されるデータベースを含んでいる。これらの音声セグメントは、音声を生成するために合成システムにおいて使用される。記録作業は期間を消費し、特に手動の後続処理(manual post processing)のための音声信号処理専門技術を必要とするため、技術の今日の状況は、音声部分の記録が、制御された研究室環境において行われることにある。これまでこのような制御環境は音声合成技術の供給元においてしかもたらされ得なかった。
従来技術のTTSシステムの共通の不利点は、音声合成モジュールをこのような商用又は民生製品に組み込むことを所望する、民生デバイスのような商品の製造業者が、音声合成供給元によってもたらされる音声の限定されたセットからしか選択され得ないことにある。製造業者が新たな音声を必要とする場合、供給元の制御環境において所要の音声部分を記録する費用及び手動の後続処理に対する費用を供給元に支払わなければならない。従来技術の民生製品は通常、エンドユーザが選択し得るたった一つの非常に限定されたセットの音声又はたった一つの音声しか有していない。このような民生デバイスの例は、オーディオ、ビデオ、家庭用品、通信、コンピュータ、携帯情報端末(パーソナルディジタルアシスト)、カーナビゲーション、及び他のデバイスを含む。
米国特許第6,078,885号公報及び米国特許第5,842,167号公報のような従来技術は、ディクショナリ(辞書)が大幅に増加させられる限り、並びに音量(ボリューム)、音声、及びピッチに関して音声が調節される限り、所与の音声合成システムを変更するために非常に限定的な選択肢(オプション)しかもたらされない。しかしながら音声それ自体は従来技術システムにおいて変更され得ない。
それ故に本発明の目的は、個人適応(化)音声(personalized speech)の合成を可能にする音声合成装置及び音声合成方法を提供することにある。
本発明は、個人適応自然音響音声を合成することを可能にする音声合成装置をもたらす。このことは、自然音声を音声合成装置に入力し、個人適応音声セグメントをもたらすように自然音声を処理し、音声合成のために個人適応音声セグメントを使用することによって実現される。
本発明は特に、ビデオ、オーディオ、家庭用品、通信、携帯情報端末、又は個人適応音声合成機能を有するカーナビゲーションデバイスのような民生デバイスをもたらすことを可能にすることにある。例えば民生デバイスのエンドユーザは、そのとき個人適応音声セグメントデータベースをもたらすように音声サンプルを処理する民生デバイスによって彼又は彼女の声を記録し得る。代わりにエンドユーザは、民生デバイスが、特定の家族構成員の声に似た音声を合成するように、彼又は彼女の家族の構成員のような他の人物に自然音声を入力させ得る。
例えばDECT、GSM、又は有線電話(corded phone)を含むモバイル電話のような民生デバイスは、個人適応‘音声’を電話にもたらすために本発明による音声合成装置を備え得る。同様に、テレビジョンセット、DVDプレーヤ、パーソナルコンピュータ、及びポータブルデバイスのような他の民生デバイスのユーザインタフェイス部は、このような音声合成装置を備え得る。
以下いくつかのアプリケーション例が列挙される。
−音声合成システムを仕込むために家族構成員の声を記録すること。これにより、コンピュータ又はPDAのように家族構成員の声で家族構成員が民生デバイスのユーザに送信する電子メールに含まれるテキストの音声合成が可能になる。すなわちコンピュータ上で受信される電子メールが、本発明によるテキストトゥスピーチシステムを呼び出す(invoke)。電子メールのソースアドレスは、音声セグメントの対応する個人適応データベースを選択するために使用される。次に電子メールに含まれるテキストは、選択された個人適応音声セグメントデータベースによって合成される。電子メールの送信者が彼自身/彼女自身受信者への電子メールのテキストを読むかのように、合成された音声出力は発音(声)する。データベースを他のユーザに利用可能にする他のアプリケーションは、個人適応音声セグメントデータベースをエクスポート(export)する(取り出す)と共に他のユーザに個人適応音声セグメントデータベースを送信するので、ユーザが電子メールを受信するとき、電子メールのテキストは個人適応音声セグメントデータベースに基づいて合成される。例えばユーザは彼又は彼女自身の声を記録し、個人適応音声セグメントデータベースを海外の彼又は彼女自身の家族にもたらすので、本発明の音声合成システムによってユーザの電子メールがテキストから音声に変換されるとき、家族はユーザの自然音響合成された声を聴くことができる。
−玩具の音声合成モジュールにおける記録された声の語法(usage)及び子供の声を記録すること。
−オーディオ及び/又はビデオ放送(ブロードキャスト)におけるMPEGファイル又はストリームとして符号化されるテレビジョンプログラムのようなオーディオ及び/又はビデオプログラムのディジタル表示をもたらす(レンダリングする)ための本発明の個人適応音声セグメントデータベースの語法。
−ポップスのスター、俳優、又は政治家のような著名人の個人適応音声セグメントデータベースをダウンロードし、商品の音声合成システムにおいてこれらの個人適応音声セグメントデータベースを使用すること。
−彼又は彼女が、のどのガン又は(多発性硬化症のような)筋肉に影響を及ぼす他の慢性病のような進行性の病気の結果として将来彼/彼女の声を失うことが知られている人の声を記録すること。記録された声の成分は、彼又は彼女の声を失った人のための通信(コミュニケーション)装置の音声合成部分において処理され、使用され得る。
−一人の子供の一人又はそれより多くの親の声を記録し、結果としてもたらされる一つ又は複数の個人適応音声セグメントデータベースを、音声合成システムを備える玩具又は電子ベビーケア製品において使用すること。
本発明はある種の音声合成技術に限定されないが、2音子、3音子、多音子合成、又はユニット選択技術のような音声セグメントに基づいて音声を合成するいかなる音声合成技術も使用され得ることは注意されるべきである。
本発明の好ましい実施例によれば、無意味のキャリア語(nosense carrier word)が、音声合成のために必要とされる全ての2音子を集めるために使用される。例えばProceeding of IEE International Conference on Speech Input/Output(1986)の77乃至82頁におけるIsard,S氏及びMiller,D氏による2音子合成技術(Diphone synthesis technique)に開示されているような2音子合成技術が使用され得る。
代わりに自然キャリア語句(natural carrier phrase)も使用され得るが、無意味キャリア語の使用は、それにより通常2音子の伝達がより安定させられるので好ましい。好ましくは無意味キャリア語は、2音子が語の中央から抽出され得るように設計される。
本発明の更なる好ましい実施例によれば、音声セグメントの前記録及び前処理されたデータベースが使用される。この音声セグメントデータベースは、民生デバイスの組み込み部分としてもたらされるので、民生デバイスは製造の直後に‘声’を既に有する。
当該音声セグメントデータベースは、個人適応音声セグメントデータベースを生成するために使用される。このことは、データベースの音声セグメントと、エンドユーザの声の記録から抽出された対応する音声セグメントとの間の最良一致(適合)(ベストマッチ(best match))を見つけることによってなされる。このような最良一致が見つかったとき、データベースの音声セグメントに割り当てられるマーカ情報が、抽出された音声セグメントに複製される。このようにマーカ情報を追加するために、抽出された音声セグメントの手動後続処理は回避される。
本発明の更なる好ましい実施例によれば、動的時間軸正規化(ダイナミックタイムワーピング)(DTW(dynamic time warping))と称される技術が最良一致を見つけるために使用される。DTWによって、抽出された音声セグメントは、前記セグメント間の可能な最良一致を見つけるために信号の振幅及び/又は期間/スケールを変化させることによって前記録されると共に前処理される音声セグメントデータベースに記憶される自身の対応する音声セグメントと比較される。例えば割り当てられたマーカ情報を有する、2音子のような前記録された音声セグメントは、DTWによって対応する無意味語から得られる音声セグメントと位置合わせ(調整)(align)させられる。このため、Eurospeech97(ロードス(Rhodes),ギリシャ(Greece),1997年)の2631乃至2634頁におけるMalfrer.F氏及びDutoit.T氏による“音声学的音声セグメントのための高音質音声合成(High quality speech synthesis for phonetic speech segmentation)”に開示されている技術が使用され得る。
本発明の更なる好ましい実施例によれば、ユーザは、音声合成モジュールにより無意味語の表示によってある無意味語を話すように要求される。好ましくはこれらの要求(prompt)は、話し手(speaker)が同じように話せるようにするために一定のピッチ及び期間で生成される。話された音声セグメントに属するデータベースにおける音声セグメントは予め決定されているので、更にこのことによりデータベースにおいて最も良く(近く)一致する音声セグメントがより容易に見つけられる。
DTWの技術が、Sakoe,H氏及びChiba,S氏による“話し語認識のための動的プログラミングアルゴリズム最適化(Dynamic programming algorithm optimization for spoken word recognition)”(IEEE transaction.Acoustics,Speech,and Signal Processing 26,43乃至49頁、1978年)
からそれ自体よく知られていることは注意されるべきである。
からそれ自体よく知られていることは注意されるべきである。
本発明の更なる好ましい実施例によれば、民生デバイスは、ユーザによって話されるべき無意味語のリストの表示のためのディスプレイを備えるユーザインタフェイス部を有する。代わりに、又はそれに加えて、ユーザインタフェイス部は、音声シンセサイザ(音声合成器)(speech synthesizer)によってもたらされるオーディオプロンプト(要求)の表示のようなオーディオフィードバック機能を有する。好ましくはユーザは、それからユーザがこの無意味語を繰り返すためにプロンプトとして合成されるリストから無意味語を選択し得る。ユーザが無意味語を繰り返すとき、対応する音声セグメントを得るためにこれは記録される。しかしながらこのようなユーザインタフェイス部が本発明にとって本質的でなく、本発明はそれがない場合でも実現されることは注意されるべきである。
複数の個人適応2音子データベースは、複数の話し手の声の合成が所望される他のアプリケーションに対して有利に使用され得ることは注意されるべきである。このような個人適応2音子データベースは、本発明の民生製品によりユーザによって設けられ得るか、又は元の製造業者、他の製造業者、又は2音子データベースコンテンツプロバイダ(diphone database content provider)のような第三者によってもたらされ得る。例えば2音子データベースコンテンツプロバイダは、インタネットを介したダウンロードのための様々な音声のための2音子データベースをもたらす。
以下本発明による好ましい実施例が、図面を参照することによってより詳細に記載されるであろう。
図1は、組み込み音声シンセサイザを備える民生デバイス100を示す。民生デバイス100は、家電製品、民生電子デバイス、又は通信若しくはコンピュータデバイスのような何れの種類ともなり得る。しかしながら本発明が民生デバイスにおける用途に限定されないが、産業用制御システムにおけるユーザインタフェイス部のような他のユーザインタフェイス部に対しても使用され得ることは注意されるべきである。民生デバイス100は、音声記録モジュール(voice recording module)104に結合されるマイクロフォン102を有する。音声記録モジュール104は一時記憶モジュール(temporary storage module)106に結合される。一時記憶モジュール106は、記録された無意味語を記憶する役割を果たす。
更に民生デバイス100は、工場供給された2音子データベース部(factory provided diphone database)108を有する。動的時間軸正規化(DTW)モジュール110は一時記憶モジュール106と2音子データベース部108との間に結合される。2音子データベース部108は、自身に割り当てられるマーカ情報を有する前記録及び前処理された2音子を含む。DTWモジュール110は、一時記憶モジュール106によってもたらされる記録された無意味語と2音子との間の最良一致が見つけられた後に2音子データベース部108から2音子のマーカ情報を複製するラベリングモジュール(labeling module)112に結合される。結果としてもたらされるラベル表示された音声記録部(labeled voice recording)は2音子抽出モジュール(diphone extraction module)113に入力される。2音子抽出モジュール113によってもたらされる2音子はそれから、個人適応2音子データベース部114に入力される。すなわち一時記憶モジュール106に記憶される音声記録部は、工場供給された2音子データベース部108に含まれる2音子と最も良く一致している。最良一致が見つけられたとき、ラベル又はマーカ情報は、ラベリングモジュール112によって2音子データベース部108の2音子データベース108のうちの最も良く一致する2音子から音声記録部に複製される。その結果として複製されたマーカ情報を備えるラベル表示された音声記録部がもたらされる。このラベル表示された音声記録部から2音子が抽出され、個人適応2音子データベース部114に入力される。このことは、ラベル表示された音声記録部から2音子を切り抜く2音子抽出モジュール113によってなされる。個人適応2音子データベース部114は、前記モジュールに他のアプリケーション又は他の民生デバイスをもたらすために個人適応2音子データベース部114のエクスポートを可能にするエクスポートモジュール116に結合される。更に民生デバイス100は音声合成モジュール118を有する。音声合成モジュール118はいかなる音声合成技術にも基づくことが可能である。
音声合成モジュール118は、制御器(コントローラ)122に結合されるテキスト入力モジュール120を有する。制御器122は、それから音声合成モジュール118によって合成され、スピーカ(loudspeaker)124によって出力されるテキスト入力モジュール120にテキストをもたらす。更に民生デバイス100はユーザインタフェイス部126を有する。ユーザインタフェイス部126は、所望の音声セグメント、すなわちここに記載される例における2音子を入力するためのキャリアとしての役割を果たす無意味語のリストを記憶するモジュール128に結合される。モジュール128は音声合成モジュール118にも結合される。民生デバイス100がエンドコンシューマにもたらされるとき、個人適応2音子データベース114は空となる。個人適応音声を民生デバイス100にもたらすために、ユーザは、それから音声合成モジュール118によって個人適応音声合成のために使用され得る対応する音声セグメントで個人適応2音子データベース114を満たすための基礎を形成する自然音声をもたらさなければならない。
音声の入力は、モジュール128に記憶されるキャリア語によってなされる。キャリア語の当該リストはユーザインタフェイス部126上に表示される。モジュール128に記憶されるリストからの無意味語は、対応する音声を合成するために音声合成モジュール118に入力される。ユーザは合成された無意味語を聴き、それをマイクロフォン102に話すことによって無意味語を繰り返す。話された語は音声記録モジュール104によって捕らえられ、対象の2音子は2音子抽出モジュール106によって抽出される。2音子データベース108内の対応する2音子及び2音子抽出モジュール106によってもたらされる抽出2音子はDTWモジュール110によって比較される。DTWモジュール110は、前記信号間の可能な最良一致を見つけるために信号の振幅及び/又は期間/スケールを変化させることによって二つの2音子信号を比較する。このような最良一致が見つけられると、2音子データベース108の2音子のマーカ情報はラベリングモジュール112によって抽出2音子に複製される。マーカ情報を備えるラベル表示された2音子はそれから個人適応2音子データベース部114に記憶される。
このプロセスは、モジュール128の語のリストに含まれる全ての無意味語に対して実行される。語のリスト全体が処理されると、個人適応2音子データベース部114は完了させられ、音声合成モジュール118によって音声合成のために使用され得る。テキストが制御器122によってテキスト入力モジュール120に入力されると、音声合成モジュール118は、ユーザの声のように発声する音声を合成するために個人適応2音子データベース部114を使用し得る。
エクスポートモジュール116によって、個人適応2音子データベース部114は、自身を他のアプリケーション又は他の民生デバイスにもたらすようにエクスポートされることが可能であり、その結果ユーザの声が他のアプリケーション又は民生デバイスにもたらされる。
図2は、図1の個人適応2音子データベース部114の生成を示す対応するフローチャートを示している。ステップ200において、無意味語のリストの無意味語iが、工場供給された2音子データベース部によって合成される。それに応答してユーザは当該無意味語iを繰り返し、自然音声がステップ202に記録される。ステップ204において関連する2音子が、記録された無意味語iから抽出される。ステップ206において、抽出された2音子と、製造業者により供給された2音子データベース(manufacturer provided diphone database)の対応する2音子との最良一致がDTW方法によって識別される。
このような最良一致見つけられると、工場供給された2音子データベースの2音子のマーカは抽出2音子(extracted diphone)に複製される。マーカ情報を備える抽出2音子はそれから、ステップ210において個人適応2音子データベース部に記憶される。ステップ212においてインデックスiは、リスト上の次の無意味語に進むためにインクリメント(increment)される。そこから制御はステップ200に戻される。このプロセスは無意味語のリスト全体が処理されるまで繰り返される。
図3は、個人適応2音子データベースが完了させられた後の民生デバイスの語法を示している。ステップ300においてユーザは、プリセット(pre−set)音声又は個人適応音声、すなわち製造業者により供給された2音子データベース又は個人適応2音子データベースに対して彼又は彼女の選択を入力し得る。ステップ302においてテキストが民生デバイスのアプリケーションによって生成され、音声合成モジュールのテキスト入力部にもたらされる。次にステップ304において音声が、ユーザにより選択された2音子データベースによって合成され、ステップ306において音声はスピーカによって出力される。
図4は、民生デバイス400に対する代わりの実施例を示している。民生デバイス400は電子メールシステム402を有する。電子メールシステム402は選択モジュール404に結合される。選択モジュール404は個人適応2音子データベース1,2,3...のセット406に結合される。個人適応2音子データベース部の各々は、割り当てられたソースアドレスを有する。すなわち個人適応2音子データベース部1はソースアドレスAを有し、個人適応2音子データベース部2はソースアドレスBを有し、個人適応2音子データベース部3はソースアドレスCを有し、...。
個人適応2音子データベース1,2,3...の各々は音声合成モジュール408に結合される。個人適応2音子データベース1,2,3...の各々は図2を参照して説明されている方法によって得られる。当該方法は民生デバイス400自身によって実行されており、及び/又は個人適応2音子データベース1,2,3...の一つ若しくはそれより多くがセット406にインポート(import)されている(取り込まれている)。
例えば民生デバイス100のユーザB(図1と比較して)は、自身の個人適応2音子データベースをエクスポートし、民生デバイス400に電子メールの添付ファイルとして個人適応2音子データベースを送信する。電子メールシステム402による電子メールの受信後、個人適応2音子データベースは、割り当てられたソースアドレスBを備える個人適応2音子データベース2としてセット406にインポートされる。
動作において電子メールメッセージ410は民生デバイス400の電子メールシステム402によって受信される。ユーザBが、民生デバイス400のユーザの送信先アドレス(destination address)と共に電子メールを送信した場合、電子メールメッセージ410はソースアドレスBのようなソースアドレスを有する。更に電子メールメッセージ410は電子メールメッセージの態様でテキストを含む。
電子メールメッセージ110が電子メールシステム402によって受信されると、選択モジュール404が呼び出される(活性化される)。選択部404は、電子メールメッセージ410のソースアドレスと一致するソースアドレスを有するセット406の個人適応2音子データベース1,2,3...のうちの一つを選択する。例えばユーザBが電子メールメッセージ410を送信した場合、選択モジュール404はセット406内の個人適応2音子データベース2を選択する。
電子メールメッセージ410の態様で含まれるテキストが音声合成モジュール408にもたらされる。音声合成モジュール408は、選択モジュール404によって選択されている個人適応2音子データベースによって音声合成を実行する。このように民生デバイス400のユーザは、ユーザBが彼又は彼女への電子メールのテキストを読んでいることを認識する。
図5は、対応するフローチャートを示している。ステップ500において電子メールが受信される。電子メールメッセージはあるソースアドレスを有する。ステップ502においてソースアドレスに割り当てられる個人適応2音子データベースが選択される。当該個人適応2音子データベースが先行してインポートされていない場合、電子メールは、自身が添付された個人適応2音子データベースを有しているかどうかがチェックされる。この場合、電子メールに添付されている個人適応2音子データベースがインポートされると共に選択される。割り当てられたソースアドレスを有する個人適応2音子データベースが利用可能でない場合、デフォルトの2音子データベースが選択される。次に電子メールの態様で含まれるテキストが、選択された個人適応又はデフォルトの2音子データベースに基づいて音声合成によって音声に変換される。
Claims (20)
- −自然音声を入力するための手段と、
−個人適応音声セグメントをもたらすために前記自然音声を処理するための手段と、
−前記個人適応音声セグメントに基づいて音声を合成するための手段と
を有する音声合成装置。 - 前記自然音声を処理するための手段が、自然音声から音声セグメントを抽出するための手段を有する請求項1に記載の音声合成装置。
- −自身に割り当てられるマーカ情報を有する音声セグメントを記憶するための音声セグメントデータベースと、
−前記音声セグメントデータベースにおける音声セグメントと前記自然音声との最良一致を見つけるための手段と、
−前記自然音声に対して前記最良一致がなされた後に前記マーカ情報を複製するための手段と
を更に有する請求項1又は2に記載の音声合成装置。 - 最良一致を見つけるための前記手段が動的時間軸正規化型の方法を実行する請求項3に記載の音声合成装置。
- 抽出された音声セグメントを記憶するための個人適応音声セグメントデータベースを更に有し、前記抽出された音声セグメントは、当該抽出された音声セグメントに割り当てられるマーカ情報を有する請求項1乃至4の何れか一項に記載の音声合成装置。
- 前記個人適応音声セグメントをもたらすために、話し手によって話されるべき語のリストを記憶するための手段を更に有する請求項1乃至5の何れか一項に記載の音声合成装置。
- ユーザによって話されるべき語の表示のためのユーザインタフェイス部を更に有する請求項1乃至6の何れか一項に記載の音声合成装置。
- 前記自然音声の入力に先行して話されるべき語のレンダリングための手段を更に有する請求項1乃至7の何れか一項に記載の音声合成装置。
- −異なる話し手のための個人適応音声セグメントデータベースのセットと、
−前記個人適応音声セグメントデータベースのセットから前記個人適応音声セグメントデータベースのうちの一つを選択するための手段と
を更に有する請求項1乃至8の何れか一項に記載の音声合成装置。 - 前記個人適応音声セグメントをエクスポートするための手段を更に有する請求項1乃至9の何れか一項に記載の音声合成装置。
- 入力されるべき前記自然音声が無意味語のリストを有する請求項1乃至10の何れか一項に記載の音声合成装置。
- 前記音声セグメントが2音子、3音子、及び/又は多音子である請求項1乃至11の何れか一項に記載の音声合成装置。
- 音声を合成するための前記手段が、PSOLA型の方法によって前記音声合成を実行する請求項1乃至12の何れか一項に記載の音声合成装置。
- 音声を合成するための前記手段にテキストをもたらすための制御手段を更に有する請求項1乃至13の何れか一項に記載の音声合成装置。
- 個人適応自然音声出力をもたらすための請求項1乃至14の何れか一項に記載の音声合成装置を有する、オーディオ、ビデオ、家庭用品、カメラ、コンピュータ、通信、カーナビゲーション、及び/又は携帯情報端末のような民生デバイス。
- −自然音声を民生デバイスに入力するステップと、
−個人適応音声セグメントをもたらすために前記民生デバイスによって前記自然音声を処理するステップと、
−前記民生デバイスによって出力されるべきテキストに対して前記個人適応音声セグメントに基づいて個人適応音声出力をもたらすためにテキストトゥスピーチを合成するステップと
を有する音声合成方法。 - 前記自然音声から音声セグメントを抽出するステップを更に有する請求項16に記載の方法。
- −自身に割り当てられるマーカ情報を有する音声セグメントを有するデータベースにおける、入力された自然音声に対して最良一致音声セグメントを識別するステップと、
−前記識別された最良一致音声セグメントの前記マーカ情報を前記自然音声に割り当てるステップと
を更に有する請求項16又は17に記載の方法。 - 動的時間軸正規化型の方法が、前記最良一致音声セグメントの識別に使用される請求項16、17、又は18に記載の方法。
- −自然音声を民生デバイスに入力するステップと、
−個人適応音声セグメントをもたらすために前記民生デバイス内で前記自然音声を処理するステップと、
−前記民生デバイスによって出力されるべきテキストに対して前記個人適応音声セグメントに基づいて個人適応音声出力をもたらすためにテキストトゥスピーチを合成するステップと
を実行するためのコンピュータプログラム手段を有する、ディジタル記憶媒体のようなコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02079127 | 2002-10-04 | ||
PCT/IB2003/004035 WO2004032112A1 (en) | 2002-10-04 | 2003-09-12 | Speech synthesis apparatus with personalized speech segments |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006501509A true JP2006501509A (ja) | 2006-01-12 |
Family
ID=32050054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004541038A Withdrawn JP2006501509A (ja) | 2002-10-04 | 2003-09-12 | 個人適応音声セグメントを備える音声合成装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20060074672A1 (ja) |
EP (1) | EP1552502A1 (ja) |
JP (1) | JP2006501509A (ja) |
CN (1) | CN1692403A (ja) |
AU (1) | AU2003260854A1 (ja) |
WO (1) | WO2004032112A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009527774A (ja) * | 2006-02-21 | 2009-07-30 | トムトム インターナショナル ベスローテン フエンノートシャップ | ナビゲーション装置及びサウンドサンプルを受信し、再生する方法 |
JP2017531197A (ja) * | 2014-08-06 | 2017-10-19 | エルジー・ケム・リミテッド | 文字データの内容を文字データ送信者の音声で出力する方法 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288930A1 (en) * | 2004-06-09 | 2005-12-29 | Vaastek, Inc. | Computer voice recognition apparatus and method |
JP4483450B2 (ja) * | 2004-07-22 | 2010-06-16 | 株式会社デンソー | 音声案内装置、音声案内方法およびナビゲーション装置 |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
US8583437B2 (en) | 2005-05-31 | 2013-11-12 | Telecom Italia S.P.A. | Speech synthesis with incremental databases of speech waveforms on user terminals over a communications network |
US20070174396A1 (en) * | 2006-01-24 | 2007-07-26 | Cisco Technology, Inc. | Email text-to-speech conversion in sender's voice |
JP2007264466A (ja) * | 2006-03-29 | 2007-10-11 | Canon Inc | 音声合成装置 |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
WO2008132533A1 (en) * | 2007-04-26 | 2008-11-06 | Nokia Corporation | Text-to-speech conversion method, apparatus and system |
US8131549B2 (en) * | 2007-05-24 | 2012-03-06 | Microsoft Corporation | Personality-based device |
US20090177473A1 (en) * | 2008-01-07 | 2009-07-09 | Aaron Andrew S | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech |
WO2010025460A1 (en) * | 2008-08-29 | 2010-03-04 | O3 Technologies, Llc | System and method for speech-to-speech translation |
US8498866B2 (en) * | 2009-01-15 | 2013-07-30 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple language document narration |
US8645140B2 (en) * | 2009-02-25 | 2014-02-04 | Blackberry Limited | Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US20110238407A1 (en) * | 2009-08-31 | 2011-09-29 | O3 Technologies, Llc | Systems and methods for speech-to-speech translation |
WO2011063850A1 (en) * | 2009-11-27 | 2011-06-03 | Telefonaktiebolaget L M Ericsson (Publ) | Telecommunications method, protocol and apparatus for improved quality of service handling |
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
US20120046948A1 (en) * | 2010-08-23 | 2012-02-23 | Leddy Patrick J | Method and apparatus for generating and distributing custom voice recordings of printed text |
US9661073B2 (en) * | 2011-11-18 | 2017-05-23 | Google Inc. | Web browser synchronization with multiple simultaneous profiles |
KR101611224B1 (ko) * | 2011-11-21 | 2016-04-11 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 오디오 인터페이스 |
US8423366B1 (en) * | 2012-07-18 | 2013-04-16 | Google Inc. | Automatically training speech synthesizers |
US20140136208A1 (en) * | 2012-11-14 | 2014-05-15 | Intermec Ip Corp. | Secure multi-mode communication between agents |
US20140365068A1 (en) * | 2013-06-06 | 2014-12-11 | Melvin Burns | Personalized Voice User Interface System and Method |
BR112016016310B1 (pt) * | 2014-01-14 | 2022-06-07 | Interactive Intelligence Group, Inc | Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros |
CN106548786B (zh) * | 2015-09-18 | 2020-06-30 | 广州酷狗计算机科技有限公司 | 一种音频数据的检测方法及*** |
CN105609096A (zh) * | 2015-12-30 | 2016-05-25 | 小米科技有限责任公司 | 文本数据输出方法和装置 |
GB2559766A (en) * | 2017-02-17 | 2018-08-22 | Pastel Dreams | Method and system for defining text content for speech segmentation |
GB2559767A (en) * | 2017-02-17 | 2018-08-22 | Pastel Dreams | Method and system for personalised voice synthesis |
GB2559769A (en) * | 2017-02-17 | 2018-08-22 | Pastel Dreams | Method and system of producing natural-sounding recitation of story in person's voice and accent |
CN107180515A (zh) * | 2017-07-13 | 2017-09-19 | 中冶北方(大连)工程技术有限公司 | 一种真人发声语音报警***及方法 |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US11113478B2 (en) * | 2018-05-15 | 2021-09-07 | Patomatic LLC | Responsive document generation |
US11023470B2 (en) | 2018-11-14 | 2021-06-01 | International Business Machines Corporation | Voice response system for text presentation |
US11094311B2 (en) * | 2019-05-14 | 2021-08-17 | Sony Corporation | Speech synthesizing devices and methods for mimicking voices of public figures |
US11141669B2 (en) | 2019-06-05 | 2021-10-12 | Sony Corporation | Speech synthesizing dolls for mimicking voices of parents and guardians of children |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100422263B1 (ko) * | 1996-02-27 | 2004-07-30 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성을자동으로분할하기위한방법및장치 |
US6792407B2 (en) * | 2001-03-30 | 2004-09-14 | Matsushita Electric Industrial Co., Ltd. | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems |
WO2002097590A2 (en) * | 2001-05-30 | 2002-12-05 | Cameronsound, Inc. | Language independent and voice operated information management system |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
-
2003
- 2003-09-12 WO PCT/IB2003/004035 patent/WO2004032112A1/en not_active Application Discontinuation
- 2003-09-12 US US10/529,976 patent/US20060074672A1/en not_active Abandoned
- 2003-09-12 AU AU2003260854A patent/AU2003260854A1/en not_active Abandoned
- 2003-09-12 EP EP03798991A patent/EP1552502A1/en not_active Withdrawn
- 2003-09-12 CN CNA038235919A patent/CN1692403A/zh active Pending
- 2003-09-12 JP JP2004541038A patent/JP2006501509A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009527774A (ja) * | 2006-02-21 | 2009-07-30 | トムトム インターナショナル ベスローテン フエンノートシャップ | ナビゲーション装置及びサウンドサンプルを受信し、再生する方法 |
JP2017531197A (ja) * | 2014-08-06 | 2017-10-19 | エルジー・ケム・リミテッド | 文字データの内容を文字データ送信者の音声で出力する方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2003260854A1 (en) | 2004-04-23 |
WO2004032112A1 (en) | 2004-04-15 |
US20060074672A1 (en) | 2006-04-06 |
EP1552502A1 (en) | 2005-07-13 |
CN1692403A (zh) | 2005-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006501509A (ja) | 個人適応音声セグメントを備える音声合成装置 | |
US7966186B2 (en) | System and method for blending synthetic voices | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
US20040073428A1 (en) | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database | |
US20050149330A1 (en) | Speech synthesis system | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
WO2008147649A1 (en) | Method for synthesizing speech | |
JP3518898B2 (ja) | 音声合成装置 | |
AU769036B2 (en) | Device and method for digital voice processing | |
KR102473685B1 (ko) | 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법 | |
JP4490818B2 (ja) | 定常音響信号のための合成方法 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JPH0950286A (ja) | 音声合成装置及びこれに使用する記録媒体 | |
JP4758931B2 (ja) | 音声合成装置、方法、プログラム及びその記録媒体 | |
JPH113096A (ja) | 音声合成方法及び音声合成システム | |
JP2001249678A (ja) | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 | |
US20060074675A1 (en) | Method of synthesizing creaky voice | |
JPH07181995A (ja) | 音声合成装置及び音声合成方法 | |
JPH0997093A (ja) | 合成音のアクセント変更方法および旅客案内用自動放送装置 | |
Raman | Nuts and Bolts of Auditory Interfaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060911 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070205 |