JP4451665B2 - 音声を合成する方法 - Google Patents

音声を合成する方法 Download PDF

Info

Publication number
JP4451665B2
JP4451665B2 JP2003586870A JP2003586870A JP4451665B2 JP 4451665 B2 JP4451665 B2 JP 4451665B2 JP 2003586870 A JP2003586870 A JP 2003586870A JP 2003586870 A JP2003586870 A JP 2003586870A JP 4451665 B2 JP4451665 B2 JP 4451665B2
Authority
JP
Japan
Prior art keywords
speech
signal
audio signal
pitch
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003586870A
Other languages
English (en)
Other versions
JP2005523478A (ja
Inventor
エルカン エフ ギギ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2005523478A publication Critical patent/JP2005523478A/ja
Application granted granted Critical
Publication of JP4451665B2 publication Critical patent/JP4451665B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音声の分析及び合成の分野、特に限定はしないが、テキスト音声合成の分野に関する。
テキスト音声(TTS)合成システムの機能は、所与の言語の一般的なテキストから音声を合成することである。今日では、TTSシステムは、多くの用途(例えば、電話網を通じたデータベースへのアクセス又はハンディキャップを負う人々への援助)に実現化されている。音声を合成する1つの方法は、半音節又は多音字のような録音された音声の副単位の集合の要素を連結することによる。成功した商用システムの大部分は多音字の連結を使用している。多音字は、2つ(ダイフォン)、3つ(トライフォン)又はそれ以上の音のグループを有し、所望のひとまとまりの音を安定したスペクトル領域においてセグメントに分けることによって、無意味な単語から決定することができる。連結に基づいた合成では、2つの隣り合う音の間の移行の会話は、合成された音声の品質を保証するために重要である。基本的な副単位としての多音字の選択では、2つの隣り合う音の間の移行は記録された副単位に保存され、連結は同じような音の間で実行される。
しかしながら、合成の前に、音は、その音を含む新たな語の韻律的制約を満たす目的で、その継続時間及びピッチが修正されなければならない。この処理は、単調な響きの合成音声の生成を回避するために必要である。TTSシステムでは、この機能は韻律的モジュールにより実行される。記録された副単位における継続時間及びピッチの修正を可能とするために、TTSシステムを基礎とした多くの連結は時間領域ピッチ同期波形重畳(TD−PSOLA)(Speech Commun., vol. 9, pp. 453-467, 1990 E. Moulines及びF. Charpentierによる「ダイフォンを用いたテキスト音声合成のためのピッチ同期波形処理技術」)合成のモデルを使用する。
TD−PSOLAモデルでは、音声信号は先ずピッチマーキングアルゴリズムに従う。このアルゴリズムは、有声セグメントの信号のピークにおいてマークを割り当て、無声セグメントでは10ms離れたマークを割り当てている。合成は、ピッチマークにおいて中心合わせされ且つ前のピッチマークから次のピッチマークまで広がるハニング窓掛けされたセグメントの重ね合わせによって行われる。継続時間の修正は、窓掛けされたセグメントの幾つかを削除又は繰り返すことによって与えられる。一方、ピッチ周期の修正は、窓掛けされたセグメント間の重ね合わせを増加又は減少することによって与えられる。
多くの商用TTSシステムにおいて成功しているにもかかわらず、合成のTD−PSOLAモデルを使用することによって作り出される合成音声は、主に韻律的な変化が大きい条件下で、以下に概説されるような幾つかの欠点を表す。
1. ピッチの修正は、適切に補償される必要がある継続時間の修正を持ち込む。
2. 継続時間の修正は、1つのピッチ周期解像度(α= ... ,1/2,2/3,3/4,... ,4/3,3/2,2/1,...)を用いて、量子化方法でのみ実行することができる。
3. 無声部分の継続時間を長くすると、セグメントの繰返しは「金属的」アーティファクト(合成された音声が金属的に聞こえる)を持ち込む場合がある。
スピーチ及びオーディオの処理に関するIEEE会報、第6巻、No.5、1998年9月のFabio Violaro及びOlivier Boeffardによる「テキスト音声合成のためのハイブリッドモデル」に、連結に基づいたテキスト音声合成のハイブリッドモデルが記載されている。
音声信号はピッチ同期分析に従い、ノイズ成分に加えて、可変最大周波数を伴なう高調波成分に分解される。高調波成分は、ピッチの倍数の周波数を伴なうシヌソイドの和としてモデル化される。ノイズ成分は、LPCフィルタに印加されるランダム刺激としてモデル化される。無声セグメントでは、高調波成分はゼロに等しくなる。ピッチの修正が存在する場合、新たな高調波パラメータの集合は、新たな高調波周波数においてスペクトル包絡を再度サンプリングすることによって評価される。継続時間及び/又はピッチの修正が存在する高調波成分の合成に対して、高調波パラメータに位相補正が導入される。
他の種々のいわゆる「重畳及び加算」方法は、例えばPIOLA(Pitch Inflected OverLap and Add)[P. Meyer, H. W. Ruhl, R. Kruger, M. Kugler L.L.M.Vogten, A. Dirksen,及びK. Belhoula.によるPHRITTS:ドイツ語のためのテキスト音声合成器,1993年ベルリンでのEurospeech'93の877−890ページ]、又はPICOLA(Pointer Interval Controlled OverLap and Add)[森田:音声の時間軸での圧縮・伸長に関する研究,日本の名古屋大学修士学位論文(1987)]から既知である。
これらの方法は、ピッチ周期位置をマークする方法が互いに異なる。
これらの方法は、2つの異なる波形のためのミキサとして利用されるとき、どれも満足な結果を与えない。問題は位相の不整合である。高調波の位相は、記録装置、室内音響、マイクロホンまでの距離、母音色、同時調音効果などによる影響を受ける。それらの要因のいくつかはレコーディング環境のように不変に維持できるが、同時調音効果のような他の要因は、制御することは(不可能ではないにしても)非常に難しい。その結果、ピッチ周期位置が位相情報を考慮せずにマークされたとき、合成品質は位相の不整合で損なわれる。
MBR−PSOLAのような他の方法(マルチバンド再合成ピッチ同期波形重畳合成)[T.Dutoit及びH.Leich. MBR−PSOLA:セグメントデータベースのMBE再合成に基づいたテキスト音声合成。1993年のSpeech Communication]は位相の不整合を避けるために位相情報を再発生する。しかし、これは、発生した音声の自然さを低減する特別な分析−合成作動を含む。この合成はしばしば機械的な音に聞こえる。
米国特許第5,787,398号は、ピッチを変えることによって音声を合成するための装置を示す。この方法の不利な点の1つは、ピッチマークが励起ピーク(excitation peak)上に中心合わせされ、測定された励起ピークが必ずしも同期位相を有する必要がないので、位相歪みが生じることである。
合成音声信号のピッチは、音声信号をスペクトル成分及び励起成分に分けることによって変わる。後者は、有声音の場合、少なくともほぼ声の刺激の瞬間に対応するピッチタイミングマーク情報と同期する一連のオーバーラップする窓関数で乗算され、それを制御可能な時間シフトの適用後に加算される窓掛けされた音声セグメントに分離する。次に、スペクトル及び励起の成分が再結合される。乗算はピッチ周期につき少なくとも2つの窓を使用し、各々は1ピッチ周期よりも短い継続時間を有する。
米国特許第5,081,681号は、有声音の基本周波数から各高調波の位相を求めるいくつかの方法及び関連する技術を示す。アプリケーションは、音声符号化、音声エンハンスメント、及び音声の時間スケール修正を含む。基本的方法は、基本周波数及び有声/無声情報から位相信号を再現し、及び合成音声の質を向上するために再現された位相信号にランダム成分を加算することを含む。
米国特許第5,081,681号は、音声処理のための位相合成の方法を記載している。位相を合成するので、合成の結果は人間の声の多くの面で自然に聞こえず、サラウンドの音響が合成によって無視される。
本発明は、音声、特に自然音声の分析のための方法を提供する。本発明による音声の合成のための方法は、音声信号(特にダイフォン音声信号)と音声信号の第1倍音との間の位相差が、異なるダイフォンに対して基本的に一定の話者依存パラメータであるという発見に基づく。
本発明の好適実施例では、この位相差は、音声信号の最大値を求め、位相ゼロ、即ち第1倍音のポジティブゼロ交差を求めることによって得られる。その最大値の位相と位相ゼロとの間の差は、話者依存位相差パラメータである。
1つのアプリケーションでは、このパラメータは、窓関数(例えば、レイズドコサイン又は三角窓)を求めるための基礎としての役割をなす。好ましくは、窓関数は、第1倍音のゼロ位相に位相差を加えたものによって与えられる位相角に中心合わせされる。好ましくは、窓関数は、その位相角において最大値を有する。例えば、窓関数は、その位相角に対して対称に選択される。
音声合成に対しては、ダイフォンサンプルが窓関数によって窓掛けされ、ここで、窓関数及び窓掛けされるダイフォンサンプルは、位相差だけオフセットされる。
このように窓掛けされるダイフォンサンプルは、連結される。このようにして、音声合成の結果が擬似的に自然に聞こえるように、自然位相情報が保存される。
本発明の好適実施例によれば、ダイフォン及びピッチ輪郭(Pitch contour)を示す制御情報が提供される。例えば、斯かる制御情報は、テキスト音声システムの言語処理モジュールによって提供することができる。
他の時間領域重畳法と比較して本発明の特に有利な点は、ピッチ周期(又はピッチパルス)位置が第1倍音の位相によって同期がとられることである。
ピッチ情報は、オリジナルの音声信号の第1倍音をローパスフィルタリングし、ゼロ位相の指標としてポジティブゼロ交差を用いることによって取得することができる。このようにして、オリジナルの位相情報を変化させずに、位相不連続アーチファクトが回避される。
本発明の音声合成方法及び音声合成装置の応用例として、電気通信サービス、言語教育、身体障害者への補助、トーキングブック及びトイ、音声モニタリング、マルチメディア、マンマシンコミュニケーションがある。
本発明の以下の好適実施例は、図面を参照しながらより詳細に記載される。
図1のフローチャートは、本発明による音声分析のための方法の例示である。ステップ101において、自然音声が入力される。自然音声の入力のために、無意味な単語の既知のトレーニングシーケンスを利用することができる。ステップ102では、自然音声からダイフォンが抽出される。ダイフォンは自然音声から切り出され、1つの音素から他の音素への遷移からなる。
次のステップ103では、ダイフォンのうちの少なくとも1つは、ダイフォンの第1倍音を得るためにローパスフィルタにかけられる。この第1倍音は、録音の間一定に保つことができる話者依存特性である。
ステップ104では、第1倍音とダイフォンとの間の位相差が求められる。この位相差は、話者特有の音声パラメータである。このパラメータは、図3乃至図10を基準にしてより詳細に説明されるように、音声合成のために有用である。
図2は、第1倍音とダイフォンとの間の位相差を求める(図1のステップ4参照)1つの方法の例示である。自然音声から得られる音波201は、分析のための基本を形成する。音波201は、音波201の第1倍音202を得る目的で、約150Hzのカットオフ周波数のローパスフィルタにかけられる。第1倍音202のポジティブゼロ交差は、位相角ゼロを規定する。図2に示されているように、第1倍音202は、19の数の連続する完全な周期に及んでいる。ここで考察された例では、期間の継続時間は、期間1から期間19に向かってわずかに増加する。期間の1つに対して、当該期間内の音の波形201の局所的最大値が決定される。
例えば、期間1内の音波201の局所的最大値は、最大値203である。図2に、期間1内の最大値203の位相がjmaxで示されている。期間1のjmaxとゼロ位相jとの間の差Δjは、話者依存音声パラメータである。ここで考察された例では、この位相差は約0.3πである。この位相差は、この位相差を求めるためにどの最大値が利用されるかに関わらず、ほぼ一定であることに注意されたい。しかし、この測定に対しては、特徴的な最大エネルギー位置によって期間を選択することが好ましい。例えば、期間9内の最大値204がこの分析を実行するために利用される場合、結果として生じる位相差は期間1とほぼ同じである。
図3は、本発明の音声合成方法のアプリケーションの例示である。ステップ301では、自然音声から得られたダイフォンがj+Δjにおいてその最大値を有する窓関数によって窓掛けがなされ、例えば位相j+Δjに対して中心合わせされるレイズドコサインを選択することができる。
このように、ステップ302において、ダイフォンのピッチベルが与えられる。ステップ303では、音声情報が入力される。これは、自然音声から又はテキスト音声システム(例えば、斯かるテキスト音声システムの言語処理モジュール)から得られた情報とすることができる。
音声情報に従い、ピッチベルが選択される。例えば、音声情報は、ダイフォンの情報及び合成されるべきピッチ輪郭の情報を含む。この場合、ステップ305におけるピッチベルの連結がステップ306において所望の音声出力となるように、ステップ304においてピッチベルがそれに応じて選択される。
図3の方法の応用例が、図4に例として示されている。図4は、幾つかのダイフォンから成る音波401を示す。ピッチ間隔の各々に対するゼロ位相jを得るために、上の図1及び図2を基準として説明したような分析が音波401に適用される。図2の例のように、ゼロ位相jは、ピッチ間隔内の最大の位相jmaxから、ほぼ一定のΔjの位相角だけずれている。
レイズドコサイン402は音波401を窓掛けするために用いられる。レイズドコサイン402は、位相j+Δjに対して中心合わせされる。レイズドコサイン402による音波401の窓掛けは、連続したピッチベル403を与える。このように、音波401のダイフォン波形は、斯かる連続したピッチベル403に分割される。ピッチベル403は、位相j+Δjに中心合わせされるレイズドコサインによって、隣接する2つの期間から得られる。矩形関数よりもレイズドコサインを利用する利点は、エッジがこのように滑らかなことである。この動作は、同じ順序でピッチベル403の全てをオーバーラップさせて加えることにより可逆的なものであることに注意されたい。これはオリジナルの音波401を作り出す。
ピッチベル403を繰り返す又はスキップすることによって、及び/又はピッチを変えるためにピッチベル403を互いに近づけたり遠ざけたりすることによって、音波401の継続時間を変えることができる。音波401のオリジナルのピッチを大きくするために同じピッチベル403をオリジナルのピッチよりも大きいピッチで繰り返すことによって、このように音波404が合成される。特性位相差Δjを考慮して実行された先の窓掛け動作によって、この重ね合わせ動作の結果として位相はそのまま残ることに注意すべきである。このように、ピッチベル403は、準自然音声を合成するためにビルディングブロックとして利用することができる。
図5は、自然音声の処理のための1つのアプリケーションを示す。ステップ501では、既知の話者の自然音声が入力される。これは、図4に示されるように、音波401の入力に対応する。この自然音声は、レイズドコサイン402(図4参照)によって、又はゼロ位相j+Δjを基準にして中心合わせされた別の適切な窓関数によって窓掛けされる。
このように、自然音声は、ステップ503において提供されるピッチベル(図4のピッチベル403参照)に分解される。
ステップ504では、ステップ503において提供されるピッチベルが、音声合成のための「ビルディングブロック」として利用される。処理の1つの方法は、ピッチベル自体を変えないが特定のピッチベルを省く又は特定のピッチベルを繰り返すことである。例えば、ピッチベルを4番目毎に省くと、これは、音声の音を異なるように変えること無く音声の速度を25%速くする。同様に、音声速度は、特定のピッチベルを繰り返すことによって減少することができる。
あるいは又は加えて、ピッチベルの距離は、ピッチを増減するために修正される。
ステップ505において、処理されたピッチベルは、擬似的に自然に聞こえる合成音声波形を生成するために重ねられる。
図6は、本発明の別のアプリケーションの例である。ステップ601において音声情報が提供される。音声情報は、音素、音素の継続時間及びピッチ情報を有する。斯かる音声情報は、最新のテキスト音声処理システムによって、テキストから生成することができる。
ステップ602では、ステップ601において提供されるこの音声情報から、ダイフォンが抽出される。ステップ603では、ステップ601において提供された情報に基づいて、必要なダイフォンの時間軸上の位置及びピッチ輪郭が求められる。
ステップ604では、ステップ603で求められたようなタイミング及びピッチ条件に従って、ピッチベルが選択される。ステップ605では、擬似的に自然な音声出力を提供するために、選択されたピッチベルが連結される。
この手続きは、図7乃至図9に示されるような例によって更に示されている。
図7は、文「HELLO WORLD!」の音声表記を示す。表記の第1の列701は、SAMPA標準表記における音素を含む。第2の列702は、個々の音素の継続時間をm秒で示す。第3の列はピッチ情報を有する。ピッチの動きは2つの数字、つまり、音素の継続時間のパーセンテージとしての位置、及びピッチ周波数(Hz)によって示される。
合成は、先に生成したダイフォンのデーターベースの中での検索から始まる。ダイフォンは、実際の音声から切り出され、或る音素から別の音素への遷移からなる。特定の言語のための全ての可能な音素の組合せが、音素境界のようないくつかの別途の情報とともに、このデータベースに記憶されなければならない。異なる話者の複数のデータベースがある場合、特定の話者の選択を合成装置への別途の入力とすることができる。
図8は、文「HELLO WORLD!」のためのダイフォン、即ち図7の列701の全ての音素の遷移を示す。
図9は、音素境界の位置、ダイフォン境界及び合成されるべきピッチ周期位置の計算結果を示す。音素境界は、音素の継続時間を加えることによって計算される。例えば、音素「h」は、100msの沈黙の後に始まる。音素「シュワー(schwa)」は、155ms=100ms+55ms後に始まる、等である。
ダイフォン境界は、データーベースから、音素の継続時間のパーセンテージとして取り出される。個々の音素位置とダイフォン境界との両方が図9の上の図面901に示されており、ダイフォンの開始点が示されている。この開始点は、列702によって与えられる音素の継続時間及び列703に与えられる音素の継続時間のパーセンテージに基づいて計算される。
図9の図面902は、「HELLO WORLD!」のピッチ輪郭を示す。ピッチ輪郭は、列703(図7参照)に含まれるピッチ情報に基づいて決定される。例えば、現在のピッチ位置が0,25秒の場合、ピッチ周期は最初の’|’の音素の50%だろう。対応するピッチは133Hzと139Hzとの間に存在する。それは、以下の一次線形の式で計算することができる。
Figure 0004451665
次のピッチ位置は、0.2500+1/135.5=0.2574秒である。この計算のために(ERB−レートスケールのような)非線形関数を使用することも可能である。ERB(等価矩形帯域幅)は、心理音響測定値(Glasberg及びMooore(1990))から得られる尺度であり、人間の耳のマスク特性を考慮することによってより良好な表現を与える。周波数からERBへの変換のための公式は、以下の通りである
Figure 0004451665
ここで、fは周波数(kHz)である。この考えは、ERB−レートスケールにおけるピッチ変化は、線形的な変化として人間の耳で知覚されるということである。
たとえ無声部分がピッチを有しないとしても、無声領域もピッチ周期位置でマークされることに注意されたい。
変化するピッチが図面902のピッチ輪郭によって与えられ、図面901内にも、変化する間隔を有する縦のライン903によって示されている。2つのライン903の間の間隔が大きくなればなるほど、ピッチは小さくなる。図面901及び902に与えられる音素、ダイフォン、及びピッチ情報は、合成されるべき音声のための基準となるものである。ダイフォンサンプル、即ちピッチベル(図4のピッチベル403参照)がダイフォンデータベースから取り出される。ダイフォンの各々に対して、そのダイフォンのための斯かる多数のピッチベルが連結され、多数のピッチベルはダイフォンの継続時間に対応し、ピッチベル間の間隔は、902の図面のピッチ輪郭によって与えられるような必要なピッチ周波数に対応する。
全てのピッチベルの連結の結果は、準自然的な合成音声である。これは、ダイフォン境界において位相に関連した不連続性が本発明によって防止されるからである。これは、ピッチ周期の位相不整合により斯かる不連続性が避けられない従来技術と対照的である。
また、各ダイフォンの両側の継続時間が適切に調整されたので、韻律(ピッチ/継続時間)は適正である。ピッチも所望のピッチ輪郭関数と整合している。
図10は、本発明を実現するために、プログラムされた装置950(例えばパソコン)を示す。装置950は、特性位相差Δjを求める役割をなす音声分析モジュール951を有する。この目的のため、1つのダイフォン音声波を記憶するために音声分析モジュール951は記憶部952を有する。一定の位相差Δjを得るには、1つのダイフォンで十分である。
更に、音声分析モジュール951はローパスフィルタモジュール953を有する。ローパスフィルタモジュール953は、記憶部952に記憶されたダイフォンの第1倍音を取り出す目的で、およそ150Hzのカットオフ周波数、又は別の適切なカットオフ周波数を有する。
装置950のモジュール954は、ダイフォンの特定の期間内の最大エネルギー位置とその第1倍音のゼロ位相位置との間の距離を求める役割をなす(この距離は、位相差Δjに変換される)。これは、図2の例に示されているように、第1倍音のポジティブゼロ交差によって与えられるゼロ位相と倍音の期間内のダイフォンの最大値との間の位相差を求めることによって行うことができる。
音声分析の結果、音声分析モジュール951は、特性位相差Δj、従ってデータベースの全てのダイフォンに対して期間位置(そこにおいて、例えばレイズドコサイン窓がピッチベルを得るために中心合わせされている)を提供する。位相差Δjは記憶部955に記憶される。
装置950は、更に音声合成モジュール956を有する。音声合成モジュール956は、図2にも示すように、ピッチベル、即ち、窓関数によって窓掛けされたダイフォンサンプルの記憶のための記憶部957を有する。記憶部957は必ずしもピッチベルでなければならない必要はないことに注意されたい。全部のダイフォンを期間位置情報とともに記憶することができ、又はダイフォンは一定のピッチに単調化することができる。このようにして、合成モジュールの窓関数を使用することによってデータベースからピッチベルを取り出すことが可能である。
モジュール958はピッチベルを選択し、ピッチベルを必要なピッチに適合させる役割をなす。これは、モジュール958に供給される制御情報に基づいて行われる。
モジュール959は、モジュール960による音声出力を提供するために、モジュール958で選択されるピッチベルを連結する役割をなす。
ダイフォンとその第1倍音との間の位相差を求める方法のフローチャートを示す。 図1の方法のアプリケーションの例を示す信号図を示す。 音声を合成する本発明の方法の実施例を示す。 図3の方法のアプリケーション例を示す。 自然音声の処理のための本発明のアプリケーションを示す。 テキスト音声のための本発明のアプリケーションを示す。 音声情報を含むファイルの例である。 図7のファイルから抽出されたダイフォン情報を含むファイルの例である。 図7及び図8のファイルの処理の結果を示す。 本発明による音声分析及び合成装置のブロック図を示す。
符号の説明
音波 201
第1倍音 202
最大値 203
最大値 204
音波 401
レイズドコサイン 402
ピッチベル 403
音波 404
列 701
列 702
列 703
図面 901
図面 902
装置 950
音声分析モジュール 951
記憶部 952
ローパスフィルタモジュール 953
モジュール 954
記憶部 955
音声合成モジュール 956
記憶部 957
モジュール 958
モジュール 959
モジュール 960

Claims (18)

  1. 音声の分析のための方法であって、前記方法が、
    − 音声信号入力するステップ、
    − 前記音声信号の第1倍音を得るステップ、
    − 前記音声信号の最大値の位置を求めるステップ、
    前記最大値の位置と前記第1倍音のポジティブゼロ交差の位置との間の位相差を求めるステップ、
    を有する方法。
  2. 前記音声信号がダイフォン信号である請求項1の方法。
  3. 音声を合成する方法であって、前記方法が、
    − 音声信号の最大値の位置と前記音声信号の第1倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けするステップ、
    − 窓掛けされた前記音声信号をサンプルとしてデータベースに記憶するステップ、
    − 前記サンプルの選択のための基準を形成する情報を入力するステップ、
    − 前記情報に基づいて前記データベースから前記サンプルを選択するステップ、
    択された前記サンプルを連結するステップ、
    を有する方法。
  4. 前記音声信号がダイフォン信号である請求項の方法。
  5. 前記窓関数がレイズドコサイン又は三角窓である請求項又はの方法。
  6. 前記情報はダイフォン及びピッチ輪郭を表請求項又はの方法。
  7. 前記情報はテキスト音声システムの言語処理モジュールから提供される請求項乃至のうちいずれか1項の方法。
  8. 前記音声信号の入力ステップ
    更に有する請求項乃至のうちのいずれか1項の方法。
  9. 請求項1乃至のうちのいずれか1項による方法を実行するためのコンピュータプログラム。
  10. − 音声信号入力する手段、
    前記音声信号の第1倍音を得る手段、
    − 前記音声信号の最大値の位置を求める手段、
    前記最大値の位置と前記第1倍音のポジティブゼロ交差の位置との間の位相差を求める手段、
    を有する音声分析装置。
  11. 前記音声信号はダイフォン信号である請求項1の音声分析装置。
  12. − 音声信号の最大値の位置と前記音声信号の第1倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けする手段、
    − 窓掛けされた前記音声信号をサンプルとして記憶するデータベース、
    − 前記サンプルの選択のための基準を形成する情報を入力する手段、
    − 前記情報に基づいて前記データベースから前記サンプルを選択する手段、
    択された前記サンプルを連結する手段、
    を有する音声合成装置。
  13. 前記音声信号がダイフォン信号である請求項1の音声合成装置。
  14. 前記窓関数がレイズドコサイン又は三角窓である請求項1又は1の音声合成装置。
  15. 前記情報は、ダイフォン及びピッチ輪郭を表す請求項1、1又は1のうちのいずれか1項の音声合成装置。
  16. − ダイフォン及びピッチ輪郭を表す情報提供する言語処理手段、
    − 音声信号の最大値の位置と前記音声信号の第1倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記音声信号を窓掛けする手段と、窓掛けされた前記音声信号をサンプルとして記憶するデータベースと、前記情報に基づいて前記データベースから前記サンプルを選択する手段と、択された前記サンプルを連結する手段とを有する音声合成手段、
    を有するテキスト音声システム。
  17. 前記窓関数がレイズドコサイン又は三角窓である請求項1のテキスト音声システム。
  18. − 自然音声信号を有する信号入力する手段、
    前記自然音声信号の最大値の位置と前記自然音声信号の第1倍音のポジティブゼロ交差の位置との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記自然音声信号を窓掛けする手段、
    掛けされた前記自然音声信号に対して所定の処理を実行する手段、
    処理された前記窓掛けされた自然音声信号を連結する手段、
    を有する音声処理システム。
JP2003586870A 2002-04-19 2003-04-01 音声を合成する方法 Expired - Lifetime JP4451665B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02076542 2002-04-19
PCT/IB2003/001249 WO2003090205A1 (en) 2002-04-19 2003-04-01 Method for synthesizing speech

Publications (2)

Publication Number Publication Date
JP2005523478A JP2005523478A (ja) 2005-08-04
JP4451665B2 true JP4451665B2 (ja) 2010-04-14

Family

ID=29225687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003586870A Expired - Lifetime JP4451665B2 (ja) 2002-04-19 2003-04-01 音声を合成する方法

Country Status (8)

Country Link
US (1) US7822599B2 (ja)
EP (1) EP1500080B1 (ja)
JP (1) JP4451665B2 (ja)
CN (1) CN100508025C (ja)
AT (1) ATE374990T1 (ja)
AU (1) AU2003215851A1 (ja)
DE (1) DE60316678T2 (ja)
WO (1) WO2003090205A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4963345B2 (ja) * 2004-09-16 2012-06-27 株式会社国際電気通信基礎技術研究所 音声合成方法及び音声合成プログラム
ES2374008B1 (es) 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US9905218B2 (en) * 2014-04-18 2018-02-27 Speech Morphing Systems, Inc. Method and apparatus for exemplary diphone synthesizer
CN108053821B (zh) * 2017-12-12 2022-09-06 腾讯科技(深圳)有限公司 生成音频数据的方法和装置
CN109065068B (zh) * 2018-08-17 2021-03-30 广州酷狗计算机科技有限公司 音频处理方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JP2002515610A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相変化からの雑音寄与度の決定に基づく音声符号化
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
KR100297832B1 (ko) * 1999-05-15 2001-09-26 윤종용 음성 신호 위상 정보 처리 장치 및 그 방법

Also Published As

Publication number Publication date
CN1647152A (zh) 2005-07-27
DE60316678D1 (de) 2007-11-15
EP1500080B1 (en) 2007-10-03
WO2003090205A1 (en) 2003-10-30
JP2005523478A (ja) 2005-08-04
AU2003215851A1 (en) 2003-11-03
US7822599B2 (en) 2010-10-26
US20050131679A1 (en) 2005-06-16
DE60316678T2 (de) 2008-07-24
ATE374990T1 (de) 2007-10-15
EP1500080A1 (en) 2005-01-26
CN100508025C (zh) 2009-07-01

Similar Documents

Publication Publication Date Title
US8326613B2 (en) Method of synthesizing of an unvoiced speech signal
US8195464B2 (en) Speech processing apparatus and program
JPH031200A (ja) 規則型音声合成装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP4451665B2 (ja) 音声を合成する方法
Tang et al. Voice transformations: from speech synthesis to mammalian vocalizations.
JP2904279B2 (ja) 音声合成方法および装置
EP1543497B1 (en) Method of synthesis for a steady sound signal
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
US7130799B1 (en) Speech synthesis method
JPH09179576A (ja) 音声合成方法
JP3241582B2 (ja) 韻律制御装置及び方法
JP3532064B2 (ja) 音声合成方法及び音声合成装置
Banga et al. Concatenative Text-to-Speech Synthesis based on Sinusoidal Modeling
Vine et al. Synthesising emotional speech by concatenating multiple pitch recorded speech units
Lehana et al. Improving quality of speech synthesis in Indian Languages
JPH06250685A (ja) 音声合成方式および規則合成装置
Kim et al. On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm
Vasilopoulos et al. Implementation and evaluation of a Greek Text to Speech System based on an Harmonic plus Noise Model
KHAN Acquisition of Duration Modification of Speech Systems
JPH02153398A (ja) 音声収録装置
JP2003084798A (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
JPH03198098A (ja) 音声合成装置及び方法
JPH10254495A (ja) 音声合成方法及び音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090501

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100128

R150 Certificate of patent or registration of utility model

Ref document number: 4451665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term