JP4451665B2

JP4451665B2 - 音声を合成する方法

Info

Publication number: JP4451665B2
Application number: JP2003586870A
Authority: JP
Inventors: エルカンエフギギ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-04-19
Filing date: 2003-04-01
Publication date: 2010-04-14
Anticipated expiration: 2023-04-01
Also published as: CN1647152A; DE60316678D1; EP1500080B1; WO2003090205A1; JP2005523478A; AU2003215851A1; US7822599B2; US20050131679A1; DE60316678T2; ATE374990T1; EP1500080A1; CN100508025C

Description

本発明は、音声の分析及び合成の分野、特に限定はしないが、テキスト音声合成の分野に関する。

テキスト音声（ＴＴＳ）合成システムの機能は、所与の言語の一般的なテキストから音声を合成することである。今日では、ＴＴＳシステムは、多くの用途（例えば、電話網を通じたデータベースへのアクセス又はハンディキャップを負う人々への援助）に実現化されている。音声を合成する１つの方法は、半音節又は多音字のような録音された音声の副単位の集合の要素を連結することによる。成功した商用システムの大部分は多音字の連結を使用している。多音字は、２つ（ダイフォン）、３つ（トライフォン）又はそれ以上の音のグループを有し、所望のひとまとまりの音を安定したスペクトル領域においてセグメントに分けることによって、無意味な単語から決定することができる。連結に基づいた合成では、２つの隣り合う音の間の移行の会話は、合成された音声の品質を保証するために重要である。基本的な副単位としての多音字の選択では、２つの隣り合う音の間の移行は記録された副単位に保存され、連結は同じような音の間で実行される。

しかしながら、合成の前に、音は、その音を含む新たな語の韻律的制約を満たす目的で、その継続時間及びピッチが修正されなければならない。この処理は、単調な響きの合成音声の生成を回避するために必要である。ＴＴＳシステムでは、この機能は韻律的モジュールにより実行される。記録された副単位における継続時間及びピッチの修正を可能とするために、ＴＴＳシステムを基礎とした多くの連結は時間領域ピッチ同期波形重畳（ＴＤ−ＰＳＯＬＡ）（Speech Commun., vol. 9, pp. 453-467, 1990 E. Moulines及びF. Charpentierによる「ダイフォンを用いたテキスト音声合成のためのピッチ同期波形処理技術」）合成のモデルを使用する。

ＴＤ−ＰＳＯＬＡモデルでは、音声信号は先ずピッチマーキングアルゴリズムに従う。このアルゴリズムは、有声セグメントの信号のピークにおいてマークを割り当て、無声セグメントでは１０ｍｓ離れたマークを割り当てている。合成は、ピッチマークにおいて中心合わせされ且つ前のピッチマークから次のピッチマークまで広がるハニング窓掛けされたセグメントの重ね合わせによって行われる。継続時間の修正は、窓掛けされたセグメントの幾つかを削除又は繰り返すことによって与えられる。一方、ピッチ周期の修正は、窓掛けされたセグメント間の重ね合わせを増加又は減少することによって与えられる。

多くの商用ＴＴＳシステムにおいて成功しているにもかかわらず、合成のＴＤ−ＰＳＯＬＡモデルを使用することによって作り出される合成音声は、主に韻律的な変化が大きい条件下で、以下に概説されるような幾つかの欠点を表す。
１．ピッチの修正は、適切に補償される必要がある継続時間の修正を持ち込む。
２．継続時間の修正は、１つのピッチ周期解像度（α= ... ,1/2,2/3,3/4,... ,4/3,3/2,2/1,...）を用いて、量子化方法でのみ実行することができる。
３．無声部分の継続時間を長くすると、セグメントの繰返しは「金属的」アーティファクト（合成された音声が金属的に聞こえる）を持ち込む場合がある。

スピーチ及びオーディオの処理に関するＩＥＥＥ会報、第６巻、Ｎｏ．５、１９９８年９月のFabio Violaro及びOlivier Boeffardによる「テキスト音声合成のためのハイブリッドモデル」に、連結に基づいたテキスト音声合成のハイブリッドモデルが記載されている。

音声信号はピッチ同期分析に従い、ノイズ成分に加えて、可変最大周波数を伴なう高調波成分に分解される。高調波成分は、ピッチの倍数の周波数を伴なうシヌソイドの和としてモデル化される。ノイズ成分は、ＬＰＣフィルタに印加されるランダム刺激としてモデル化される。無声セグメントでは、高調波成分はゼロに等しくなる。ピッチの修正が存在する場合、新たな高調波パラメータの集合は、新たな高調波周波数においてスペクトル包絡を再度サンプリングすることによって評価される。継続時間及び／又はピッチの修正が存在する高調波成分の合成に対して、高調波パラメータに位相補正が導入される。

他の種々のいわゆる「重畳及び加算」方法は、例えばＰＩＯＬＡ（Pitch Inflected OverLap and Add）［P. Meyer, H. W. Ruhl, R. Kruger, M. Kugler L.L.M.Vogten, A. Dirksen,及びK. Belhoula．によるPHRITTS：ドイツ語のためのテキスト音声合成器，１９９３年ベルリンでのEurospeech'９３の８７７−８９０ページ］、又はＰＩＣＯＬＡ（Pointer Interval Controlled OverLap and Add）［森田：音声の時間軸での圧縮・伸長に関する研究，日本の名古屋大学修士学位論文（１９８７）］から既知である。
これらの方法は、ピッチ周期位置をマークする方法が互いに異なる。

これらの方法は、２つの異なる波形のためのミキサとして利用されるとき、どれも満足な結果を与えない。問題は位相の不整合である。高調波の位相は、記録装置、室内音響、マイクロホンまでの距離、母音色、同時調音効果などによる影響を受ける。それらの要因のいくつかはレコーディング環境のように不変に維持できるが、同時調音効果のような他の要因は、制御することは（不可能ではないにしても）非常に難しい。その結果、ピッチ周期位置が位相情報を考慮せずにマークされたとき、合成品質は位相の不整合で損なわれる。

ＭＢＲ−ＰＳＯＬＡのような他の方法（マルチバンド再合成ピッチ同期波形重畳合成）［T.Dutoit及びH.Leich. ＭＢＲ−ＰＳＯＬＡ：セグメントデータベースのＭＢＥ再合成に基づいたテキスト音声合成。１９９３年のSpeech Communication］は位相の不整合を避けるために位相情報を再発生する。しかし、これは、発生した音声の自然さを低減する特別な分析−合成作動を含む。この合成はしばしば機械的な音に聞こえる。

米国特許第５，７８７，３９８号は、ピッチを変えることによって音声を合成するための装置を示す。この方法の不利な点の１つは、ピッチマークが励起ピーク（excitation peak）上に中心合わせされ、測定された励起ピークが必ずしも同期位相を有する必要がないので、位相歪みが生じることである。

合成音声信号のピッチは、音声信号をスペクトル成分及び励起成分に分けることによって変わる。後者は、有声音の場合、少なくともほぼ声の刺激の瞬間に対応するピッチタイミングマーク情報と同期する一連のオーバーラップする窓関数で乗算され、それを制御可能な時間シフトの適用後に加算される窓掛けされた音声セグメントに分離する。次に、スペクトル及び励起の成分が再結合される。乗算はピッチ周期につき少なくとも２つの窓を使用し、各々は１ピッチ周期よりも短い継続時間を有する。

米国特許第５，０８１，６８１号は、有声音の基本周波数から各高調波の位相を求めるいくつかの方法及び関連する技術を示す。アプリケーションは、音声符号化、音声エンハンスメント、及び音声の時間スケール修正を含む。基本的方法は、基本周波数及び有声／無声情報から位相信号を再現し、及び合成音声の質を向上するために再現された位相信号にランダム成分を加算することを含む。

米国特許第５，０８１，６８１号は、音声処理のための位相合成の方法を記載している。位相を合成するので、合成の結果は人間の声の多くの面で自然に聞こえず、サラウンドの音響が合成によって無視される。

本発明は、音声、特に自然音声の分析のための方法を提供する。本発明による音声の合成のための方法は、音声信号（特にダイフォン音声信号）と音声信号の第１倍音との間の位相差が、異なるダイフォンに対して基本的に一定の話者依存パラメータであるという発見に基づく。

本発明の好適実施例では、この位相差は、音声信号の最大値を求め、位相ゼロ、即ち第１倍音のポジティブゼロ交差を求めることによって得られる。その最大値の位相と位相ゼロとの間の差は、話者依存位相差パラメータである。

１つのアプリケーションでは、このパラメータは、窓関数（例えば、レイズドコサイン又は三角窓）を求めるための基礎としての役割をなす。好ましくは、窓関数は、第１倍音のゼロ位相に位相差を加えたものによって与えられる位相角に中心合わせされる。好ましくは、窓関数は、その位相角において最大値を有する。例えば、窓関数は、その位相角に対して対称に選択される。

音声合成に対しては、ダイフォンサンプルが窓関数によって窓掛けされ、ここで、窓関数及び窓掛けされるダイフォンサンプルは、位相差だけオフセットされる。

このように窓掛けされるダイフォンサンプルは、連結される。このようにして、音声合成の結果が擬似的に自然に聞こえるように、自然位相情報が保存される。

本発明の好適実施例によれば、ダイフォン及びピッチ輪郭（Ｐｉｔｃｈｃｏｎｔｏｕｒ）を示す制御情報が提供される。例えば、斯かる制御情報は、テキスト音声システムの言語処理モジュールによって提供することができる。

他の時間領域重畳法と比較して本発明の特に有利な点は、ピッチ周期（又はピッチパルス）位置が第１倍音の位相によって同期がとられることである。

ピッチ情報は、オリジナルの音声信号の第１倍音をローパスフィルタリングし、ゼロ位相の指標としてポジティブゼロ交差を用いることによって取得することができる。このようにして、オリジナルの位相情報を変化させずに、位相不連続アーチファクトが回避される。

本発明の音声合成方法及び音声合成装置の応用例として、電気通信サービス、言語教育、身体障害者への補助、トーキングブック及びトイ、音声モニタリング、マルチメディア、マンマシンコミュニケーションがある。

本発明の以下の好適実施例は、図面を参照しながらより詳細に記載される。

図１のフローチャートは、本発明による音声分析のための方法の例示である。ステップ１０１において、自然音声が入力される。自然音声の入力のために、無意味な単語の既知のトレーニングシーケンスを利用することができる。ステップ１０２では、自然音声からダイフォンが抽出される。ダイフォンは自然音声から切り出され、１つの音素から他の音素への遷移からなる。

次のステップ１０３では、ダイフォンのうちの少なくとも１つは、ダイフォンの第１倍音を得るためにローパスフィルタにかけられる。この第１倍音は、録音の間一定に保つことができる話者依存特性である。

ステップ１０４では、第１倍音とダイフォンとの間の位相差が求められる。この位相差は、話者特有の音声パラメータである。このパラメータは、図３乃至図１０を基準にしてより詳細に説明されるように、音声合成のために有用である。

図２は、第１倍音とダイフォンとの間の位相差を求める（図１のステップ４参照）１つの方法の例示である。自然音声から得られる音波２０１は、分析のための基本を形成する。音波２０１は、音波２０１の第１倍音２０２を得る目的で、約１５０Ｈｚのカットオフ周波数のローパスフィルタにかけられる。第１倍音２０２のポジティブゼロ交差は、位相角ゼロを規定する。図２に示されているように、第１倍音２０２は、１９の数の連続する完全な周期に及んでいる。ここで考察された例では、期間の継続時間は、期間１から期間１９に向かってわずかに増加する。期間の１つに対して、当該期間内の音の波形２０１の局所的最大値が決定される。

例えば、期間１内の音波２０１の局所的最大値は、最大値２０３である。図２に、期間１内の最大値２０３の位相がj_ｍａｘで示されている。期間１のj_ｍａｘとゼロ位相j_０との間の差Δjは、話者依存音声パラメータである。ここで考察された例では、この位相差は約0.3πである。この位相差は、この位相差を求めるためにどの最大値が利用されるかに関わらず、ほぼ一定であることに注意されたい。しかし、この測定に対しては、特徴的な最大エネルギー位置によって期間を選択することが好ましい。例えば、期間９内の最大値２０４がこの分析を実行するために利用される場合、結果として生じる位相差は期間１とほぼ同じである。

図３は、本発明の音声合成方法のアプリケーションの例示である。ステップ３０１では、自然音声から得られたダイフォンがj_０＋Δjにおいてその最大値を有する窓関数によって窓掛けがなされ、例えば位相j_０＋Δjに対して中心合わせされるレイズドコサインを選択することができる。

このように、ステップ３０２において、ダイフォンのピッチベルが与えられる。ステップ３０３では、音声情報が入力される。これは、自然音声から又はテキスト音声システム（例えば、斯かるテキスト音声システムの言語処理モジュール）から得られた情報とすることができる。

音声情報に従い、ピッチベルが選択される。例えば、音声情報は、ダイフォンの情報及び合成されるべきピッチ輪郭の情報を含む。この場合、ステップ３０５におけるピッチベルの連結がステップ３０６において所望の音声出力となるように、ステップ３０４においてピッチベルがそれに応じて選択される。

図３の方法の応用例が、図４に例として示されている。図４は、幾つかのダイフォンから成る音波４０１を示す。ピッチ間隔の各々に対するゼロ位相j_０を得るために、上の図１及び図２を基準として説明したような分析が音波４０１に適用される。図２の例のように、ゼロ位相j_０は、ピッチ間隔内の最大の位相j_ｍａｘから、ほぼ一定のΔjの位相角だけずれている。

レイズドコサイン４０２は音波４０１を窓掛けするために用いられる。レイズドコサイン４０２は、位相j_０＋Δjに対して中心合わせされる。レイズドコサイン４０２による音波４０１の窓掛けは、連続したピッチベル４０３を与える。このように、音波４０１のダイフォン波形は、斯かる連続したピッチベル４０３に分割される。ピッチベル４０３は、位相j_０＋Δjに中心合わせされるレイズドコサインによって、隣接する２つの期間から得られる。矩形関数よりもレイズドコサインを利用する利点は、エッジがこのように滑らかなことである。この動作は、同じ順序でピッチベル４０３の全てをオーバーラップさせて加えることにより可逆的なものであることに注意されたい。これはオリジナルの音波４０１を作り出す。

ピッチベル４０３を繰り返す又はスキップすることによって、及び／又はピッチを変えるためにピッチベル４０３を互いに近づけたり遠ざけたりすることによって、音波４０１の継続時間を変えることができる。音波４０１のオリジナルのピッチを大きくするために同じピッチベル４０３をオリジナルのピッチよりも大きいピッチで繰り返すことによって、このように音波４０４が合成される。特性位相差Δjを考慮して実行された先の窓掛け動作によって、この重ね合わせ動作の結果として位相はそのまま残ることに注意すべきである。このように、ピッチベル４０３は、準自然音声を合成するためにビルディングブロックとして利用することができる。

図５は、自然音声の処理のための１つのアプリケーションを示す。ステップ５０１では、既知の話者の自然音声が入力される。これは、図４に示されるように、音波４０１の入力に対応する。この自然音声は、レイズドコサイン４０２（図４参照）によって、又はゼロ位相j_０＋Δjを基準にして中心合わせされた別の適切な窓関数によって窓掛けされる。

このように、自然音声は、ステップ５０３において提供されるピッチベル（図４のピッチベル４０３参照）に分解される。

ステップ５０４では、ステップ５０３において提供されるピッチベルが、音声合成のための「ビルディングブロック」として利用される。処理の１つの方法は、ピッチベル自体を変えないが特定のピッチベルを省く又は特定のピッチベルを繰り返すことである。例えば、ピッチベルを４番目毎に省くと、これは、音声の音を異なるように変えること無く音声の速度を２５％速くする。同様に、音声速度は、特定のピッチベルを繰り返すことによって減少することができる。

あるいは又は加えて、ピッチベルの距離は、ピッチを増減するために修正される。

ステップ５０５において、処理されたピッチベルは、擬似的に自然に聞こえる合成音声波形を生成するために重ねられる。

図６は、本発明の別のアプリケーションの例である。ステップ６０１において音声情報が提供される。音声情報は、音素、音素の継続時間及びピッチ情報を有する。斯かる音声情報は、最新のテキスト音声処理システムによって、テキストから生成することができる。

ステップ６０２では、ステップ６０１において提供されるこの音声情報から、ダイフォンが抽出される。ステップ６０３では、ステップ６０１において提供された情報に基づいて、必要なダイフォンの時間軸上の位置及びピッチ輪郭が求められる。

ステップ６０４では、ステップ６０３で求められたようなタイミング及びピッチ条件に従って、ピッチベルが選択される。ステップ６０５では、擬似的に自然な音声出力を提供するために、選択されたピッチベルが連結される。

この手続きは、図７乃至図９に示されるような例によって更に示されている。

図７は、文「ＨＥＬＬＯＷＯＲＬＤ！」の音声表記を示す。表記の第１の列７０１は、ＳＡＭＰＡ標準表記における音素を含む。第２の列７０２は、個々の音素の継続時間をｍ秒で示す。第３の列はピッチ情報を有する。ピッチの動きは２つの数字、つまり、音素の継続時間のパーセンテージとしての位置、及びピッチ周波数（Ｈｚ）によって示される。

合成は、先に生成したダイフォンのデーターベースの中での検索から始まる。ダイフォンは、実際の音声から切り出され、或る音素から別の音素への遷移からなる。特定の言語のための全ての可能な音素の組合せが、音素境界のようないくつかの別途の情報とともに、このデータベースに記憶されなければならない。異なる話者の複数のデータベースがある場合、特定の話者の選択を合成装置への別途の入力とすることができる。

図８は、文「ＨＥＬＬＯＷＯＲＬＤ！」のためのダイフォン、即ち図７の列７０１の全ての音素の遷移を示す。

図９は、音素境界の位置、ダイフォン境界及び合成されるべきピッチ周期位置の計算結果を示す。音素境界は、音素の継続時間を加えることによって計算される。例えば、音素「ｈ」は、１００ｍｓの沈黙の後に始まる。音素「シュワー（schwa）」は、１５５ｍｓ＝１００ｍｓ＋５５ｍｓ後に始まる、等である。

ダイフォン境界は、データーベースから、音素の継続時間のパーセンテージとして取り出される。個々の音素位置とダイフォン境界との両方が図９の上の図面９０１に示されており、ダイフォンの開始点が示されている。この開始点は、列７０２によって与えられる音素の継続時間及び列７０３に与えられる音素の継続時間のパーセンテージに基づいて計算される。

図９の図面９０２は、「ＨＥＬＬＯＷＯＲＬＤ！」のピッチ輪郭を示す。ピッチ輪郭は、列７０３（図７参照）に含まれるピッチ情報に基づいて決定される。例えば、現在のピッチ位置が０，２５秒の場合、ピッチ周期は最初の’｜’の音素の５０％だろう。対応するピッチは１３３Ｈｚと１３９Ｈｚとの間に存在する。それは、以下の一次線形の式で計算することができる。

次のピッチ位置は、0.2500+1/135.5=0.2574秒である。この計算のために（ＥＲＢ−レートスケールのような）非線形関数を使用することも可能である。ＥＲＢ（等価矩形帯域幅）は、心理音響測定値（Glasberg及びMooore（１９９０））から得られる尺度であり、人間の耳のマスク特性を考慮することによってより良好な表現を与える。周波数からＥＲＢへの変換のための公式は、以下の通りである

ここで、ｆは周波数（ｋＨｚ）である。この考えは、ＥＲＢ−レートスケールにおけるピッチ変化は、線形的な変化として人間の耳で知覚されるということである。

たとえ無声部分がピッチを有しないとしても、無声領域もピッチ周期位置でマークされることに注意されたい。

変化するピッチが図面９０２のピッチ輪郭によって与えられ、図面９０１内にも、変化する間隔を有する縦のライン９０３によって示されている。２つのライン９０３の間の間隔が大きくなればなるほど、ピッチは小さくなる。図面９０１及び９０２に与えられる音素、ダイフォン、及びピッチ情報は、合成されるべき音声のための基準となるものである。ダイフォンサンプル、即ちピッチベル（図４のピッチベル４０３参照）がダイフォンデータベースから取り出される。ダイフォンの各々に対して、そのダイフォンのための斯かる多数のピッチベルが連結され、多数のピッチベルはダイフォンの継続時間に対応し、ピッチベル間の間隔は、９０２の図面のピッチ輪郭によって与えられるような必要なピッチ周波数に対応する。

全てのピッチベルの連結の結果は、準自然的な合成音声である。これは、ダイフォン境界において位相に関連した不連続性が本発明によって防止されるからである。これは、ピッチ周期の位相不整合により斯かる不連続性が避けられない従来技術と対照的である。

また、各ダイフォンの両側の継続時間が適切に調整されたので、韻律（ピッチ／継続時間）は適正である。ピッチも所望のピッチ輪郭関数と整合している。

図１０は、本発明を実現するために、プログラムされた装置９５０（例えばパソコン）を示す。装置９５０は、特性位相差Δjを求める役割をなす音声分析モジュール９５１を有する。この目的のため、１つのダイフォン音声波を記憶するために音声分析モジュール９５１は記憶部９５２を有する。一定の位相差Δjを得るには、１つのダイフォンで十分である。

更に、音声分析モジュール９５１はローパスフィルタモジュール９５３を有する。ローパスフィルタモジュール９５３は、記憶部９５２に記憶されたダイフォンの第１倍音を取り出す目的で、およそ１５０Ｈｚのカットオフ周波数、又は別の適切なカットオフ周波数を有する。

装置９５０のモジュール９５４は、ダイフォンの特定の期間内の最大エネルギー位置とその第１倍音のゼロ位相位置との間の距離を求める役割をなす（この距離は、位相差Δjに変換される）。これは、図２の例に示されているように、第１倍音のポジティブゼロ交差によって与えられるゼロ位相と倍音の期間内のダイフォンの最大値との間の位相差を求めることによって行うことができる。

音声分析の結果、音声分析モジュール９５１は、特性位相差Δj、従ってデータベースの全てのダイフォンに対して期間位置（そこにおいて、例えばレイズドコサイン窓がピッチベルを得るために中心合わせされている）を提供する。位相差Δjは記憶部９５５に記憶される。

装置９５０は、更に音声合成モジュール９５６を有する。音声合成モジュール９５６は、図２にも示すように、ピッチベル、即ち、窓関数によって窓掛けされたダイフォンサンプルの記憶のための記憶部９５７を有する。記憶部９５７は必ずしもピッチベルでなければならない必要はないことに注意されたい。全部のダイフォンを期間位置情報とともに記憶することができ、又はダイフォンは一定のピッチに単調化することができる。このようにして、合成モジュールの窓関数を使用することによってデータベースからピッチベルを取り出すことが可能である。

モジュール９５８はピッチベルを選択し、ピッチベルを必要なピッチに適合させる役割をなす。これは、モジュール９５８に供給される制御情報に基づいて行われる。

モジュール９５９は、モジュール９６０による音声出力を提供するために、モジュール９５８で選択されるピッチベルを連結する役割をなす。

ダイフォンとその第１倍音との間の位相差を求める方法のフローチャートを示す。図１の方法のアプリケーションの例を示す信号図を示す。音声を合成する本発明の方法の実施例を示す。図３の方法のアプリケーション例を示す。自然音声の処理のための本発明のアプリケーションを示す。テキスト音声のための本発明のアプリケーションを示す。音声情報を含むファイルの例である。図７のファイルから抽出されたダイフォン情報を含むファイルの例である。図７及び図８のファイルの処理の結果を示す。本発明による音声分析及び合成装置のブロック図を示す。

符号の説明

音波２０１
第１倍音２０２
最大値２０３
最大値２０４
音波４０１
レイズドコサイン４０２
ピッチベル４０３
音波４０４
列７０１
列７０２
列７０３
図面９０１
図面９０２
装置９５０
音声分析モジュール９５１
記憶部９５２
ローパスフィルタモジュール９５３
モジュール９５４
記憶部９５５
音声合成モジュール９５６
記憶部９５７
モジュール９５８
モジュール９５９
モジュール９６０

Claims

音声の分析のための方法であって、前記方法が、
− 音声信号を入力するステップ、
− 前記音声信号の第１倍音を得るステップ、
− 前記音声信号の最大値の位置を求めるステップ、
− 前記最大値の位置と前記第１倍音のポジティブゼロ交差の位置との間の位相差を求めるステップ、
を有する方法。
前記音声信号がダイフォン信号である請求項１の方法。
音声を合成する方法であって、前記方法が、
− 音声信号の最大値の位置と前記音声信号の第１倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けするステップ、
− 窓掛けされた前記音声信号をサンプルとしてデータベースに記憶するステップ、
− 前記サンプルの選択のための基準を形成する情報を入力するステップ、
− 前記情報に基づいて前記データベースから前記サンプルを選択するステップ、
− 選択された前記サンプルを連結するステップ、
を有する方法。
前記音声信号がダイフォン信号である請求項３の方法。
前記窓関数がレイズドコサイン又は三角窓である請求項３又は４の方法。
前記情報はダイフォン及びピッチ輪郭を表す請求項３、４又は５の方法。
前記情報はテキスト音声システムの言語処理モジュールから提供される請求項３乃至６のうちいずれか１項の方法。
− 前記音声信号の入力ステップ、
を更に有する請求項３乃至７のうちのいずれか１項の方法。
請求項１乃至８のうちのいずれか１項による方法を実行するためのコンピュータプログラム。
− 音声信号を入力する手段、
− 前記音声信号の第１倍音を得る手段、
− 前記音声信号の最大値の位置を求める手段、
− 前記最大値の位置と前記第１倍音のポジティブゼロ交差の位置との間の位相差を求める手段、
を有する音声分析装置。
前記音声信号はダイフォン信号である請求項１０の音声分析装置。
− 音声信号の最大値の位置と前記音声信号の第１倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けする手段、
− 窓掛けされた前記音声信号をサンプルとして記憶するデータベース、
− 前記サンプルの選択のための基準を形成する情報を入力する手段、
− 前記情報に基づいて前記データベースから前記サンプルを選択する手段、
− 選択された前記サンプルを連結する手段、
を有する音声合成装置。
前記音声信号がダイフォン信号である請求項１２の音声合成装置。
前記窓関数がレイズドコサイン又は三角窓である請求項１２又は１３の音声合成装置。
前記情報は、ダイフォン及びピッチ輪郭を表す請求項１２、１３又は１４のうちのいずれか１項の音声合成装置。
− ダイフォン及びピッチ輪郭を表す情報を提供する言語処理手段、
− 音声信号の最大値の位置と前記音声信号の第１倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けする手段と、窓掛けされた前記音声信号をサンプルとして記憶するデータベースと、前記情報に基づいて前記データベースから前記サンプルを選択する手段と、選択された前記サンプルを連結する手段とを有する音声合成手段、
を有するテキスト音声システム。
前記窓関数がレイズドコサイン又は三角窓である請求項１６のテキスト音声システム。
− 自然音声信号を有する信号を入力する手段、
− 前記自然音声信号の最大値の位置と前記自然音声信号の第１倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記自然音声信号を窓掛けする手段、
− 窓掛けされた前記自然音声信号に対して所定の処理を実行する手段、
− 処理された前記窓掛けされた自然音声信号を連結する手段、
を有する音声処理システム。