JP3673471B2 - テキスト音声合成装置およびプログラム記録媒体 - Google Patents
テキスト音声合成装置およびプログラム記録媒体 Download PDFInfo
- Publication number
- JP3673471B2 JP3673471B2 JP2000400788A JP2000400788A JP3673471B2 JP 3673471 B2 JP3673471 B2 JP 3673471B2 JP 2000400788 A JP2000400788 A JP 2000400788A JP 2000400788 A JP2000400788 A JP 2000400788A JP 3673471 B2 JP3673471 B2 JP 3673471B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- waveform
- voice
- information
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 35
- 230000008602 contraction Effects 0.000 claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims description 67
- 230000005284 excitation Effects 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 49
- 230000001755 vocal effect Effects 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 abstract description 3
- 239000011295 pitch Substances 0.000 description 74
- 238000012545 processing Methods 0.000 description 44
- 238000010586 diagram Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 10
- 241000408728 Hidari Species 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
この発明は、テキストから合成音声信号を生成するテキスト音声合成装置およびテキスト音声合成処理プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】
図11は、一般的なテキスト音声合成装置の構成を示すブロック図である。テキスト音声合成装置は、テキスト入力端子1,テキスト解析器2,韻律生成器3,音声素片選択器4,音声素片データベース5,音声合成器6および出力端子7で概略構成される。
【0003】
以下、従来のテキスト音声合成装置の動作について説明する。入力端子1から単語や文章等の日本語の漢字仮名混じりテキスト情報(例えば、漢字「左」)が入力されると、テキスト解析器2は、入力テキスト情報「左」を読みの情報(例えば、「hidari」)に変換して出力する。尚、入力テキストとしては、日本語の漢字仮名混じりテキストに限定されるものではなく、アルファベット等の読み記号を直接入力しても差し支えない。
【0004】
上記韻律生成器3は、上記テキスト解析器2からの読み情報「hidari」に基づいて、韻律情報(声の高さ,大きさ,発声速度の情報)を生成する。ここで、声の高さの情報は母音のピッチ(基本周波数)で設定され、本例の場合においては、時間順に母音「i」,「a」,「i」のピッチが設定される。また、声の大きさおよび発声速度の情報は、各音素「h」,「i」,「d」,「a」,「r」,「i」毎に音声波形の振幅および継続時間長で設定される。こうして生成された韻律情報は、読み情報「hidari」と共に音声素片選択器4に送出される。
【0005】
そうすると、上記音声素片選択器4は、音声素片データベース5を参照して、韻律生成器3からの読み情報「hidari」に基づいて音声合成に必要な音声素片データを選択する。ここで、音声合成単位としては、子音+母音(CV:Consonant,Vowel)の音節単位(例えば「ka」,「gu」)や、高音質化を目的に音素連鎖の過渡部の特徴量を保持した母音+子音+母音(VCV)の単位(例えば「aki」,「ito」)等が広く用いられている。以下の説明においては、音声素片の基本単位(音声合成単位)としてVCV単位を用いる場合について説明する。
【0006】
上記音声素片データベース5には、例えばアナウンサーの発声した音声データからVCVの単位で適切に切り出された音声データを分析し、合成処理に必要な形式に変換された波形やパラメータが、上記音声素片データとして格納されている。VCV音声素片を合成単位として用いる一般的な日本語テキスト音声合成の場合には、800個程度のVCV音声素片データが格納されている。本例のごとく読み情報「hidari」が音声素片選択器4に入力された場合には、音声素片選択器4は、音声素片データベース5から、VCV素片「*hi」,「ida」,「ari」,「i**」の音声素片データを選択するのである。尚、記号「*」は無音を表す。こうして得られた選択結果情報は、韻律情報と共に音声合成器6に送出される。
【0007】
最後に、上記音声合成器6は、入力された選択結果情報に基づいて音声素片データベース5から該当する音声素片データを読み出す。そして、入力された韻律情報と上記得られた音声素片データとに基づいて、韻律情報に従って声の高さや大きさや発声速度を制御しながら、上記選択されたVCV音声素片の系列を母音区間で滑らかに接続して、出力端子7から出力するのである。ここで、上記音声合成器6には、一般に波形重畳方式と呼ばれる手法(例えば、特開昭60‐21098号公報)や、一般にボコーダー方式またはホルマント合成方式と呼ばれる手法(例えば、「音声情報処理の基礎」オーム社P76‐77)が広く用いられている。
【0008】
上記テキスト音声合成装置は、声の高さや音声素片データベースを変更することによって、声質(話者)を増やすことができる。また、上記音声合成器6からの出力音声信号に対して別途信号処理を行うことによって、エコー等の音響効果を施すことも行われている。さらに、音声合成器6からの出力音声信号に対してカラオケ等にも応用されているピッチ変換処理を施し、元々の合成音声信号とピッチ変換音声信号とを組み合わせて複数話者の同時発声を行うことが提案されている(例えば、特開平3‐211597号公報)。また、上記テキスト音声合成装置におけるテキスト解析器2および韻律生成器3を時分割で駆動すると共に、音声合成器6等によって構成される音声出力部を複数設けることによって、複数のテキストに対する複数の音声を同時に出力する装置も提案されている(例えば、特開平6‐75594号公報)。
【0009】
【発明が解決しようとする課題】
しかしながら、上記従来のテキスト音声合成装置においては、音声素片データベースを変更することによって、指定したテキストを種々の話者に切り替えて発声することは可能ではある。ところが、例えば、同一内容を複数人で同時に発声させることは不可能であるという問題がある。
【0010】
また、上記特開平6‐75594号公報に開示されているように、上記テキスト音声合成装置におけるテキスト解析器2および韻律生成器3を時分割で駆動すると共に、上記音声出力部を複数設けることによって、複数の合成音声を同時に出力することができる。しかしながら、時分割で前処理を行う必要があり、装置が複雑化すると言う問題がある。
【0011】
また、上記特開平3‐211597号公報に開示されているように、上記音声合成器6からの出力音声信号に対してピッチ変換処理を施して、標準の合成音声信号とピッチ変換音声信号とによって複数話者を同時発声させることができる。しかしながら、上記ピッチ変換処理には、一般にピッチ抽出と言われる処理量の大きい処理が必要であり、そのような装置構成では処理量が多くなると共にコストの増加も大きいと言う問題がある。
【0012】
そこで、この発明の目的は、より簡単な処理で同一テキストを複数の話者に同時に発声させることが可能なテキスト音声合成装置、および、テキスト音声合成処理プログラムを記録したプログラム記録媒体を提供することにある。
【0013】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、入力されたテキスト情報の読み及び品詞情報に基づいて音声素片データベースから必要な音声素片情報を選択し,この選択された音声素片情報に基づいて音声信号を生成するテキスト音声合成装置において、上記入力テキスト情報を解析して読みおよび品詞情報を得るテキスト解析手段と、上記読みおよび品詞情報に基づいて韻律情報を生成する韻律生成手段と、同一の入力テキストに基づいて,どのような複数の音声を同時に発声するかを指示する複数音声指示手段と、上記複数音声指示手段からの指示を受け,上記韻律生成手段からの韻律情報と上記音声素片データベースから選択された音声素片情報とに基づいて,上記複数音声指示手段からの指示に従って,複数の声質による複数の音声信号を合成する複数音声合成手段を備え、上記複数音声指示手段は、標準の音声信号に対する声の高さの変化率あるいは上記標準の音声信号用の音声素片データベースとは異なる音声素片データベースの使用の指示と、標準の音声信号と上記標準の音声信号とは異なる音声信号との混合率の指示とを行うようになっており、上記複数音声合成手段は、上記標準の音声信号と上記標準の音声信号とは異なる音声信号とを上記混合率で混合して同時発声させるための音声信号を合成するようになっていることを特徴としている。
【0014】
上記構成によれば、一つのテキスト情報からテキスト解析手段および韻律生成手段によって読みおよび韻律情報が生成される。そして、複数音声指示手段からのどのような複数の音声を同時に発声するかの指示に従って、複数音声合成手段によって、上記一つのテキスト情報から生成された韻律情報と音声素片データベースから選択された音声素片情報とに基づいて複数の声質による複数の音声信号が合成される。したがって、同一の入力テキストに基づく複数の声質による同時発声が、テキスト解析手段および韻律生成手段の時分割処理やピッチ変換処理の追加等を行うことなく簡単な処理で行われる。
【0015】
また、第1の実施例は、上記複数音声合成手段を、上記音声素片情報と韻律情報とに基づいて,波形重畳法によって音声信号を生成する波形重畳手段と、上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて,上記波形重畳手段によって生成された音声信号の波形の時間軸を伸縮して声の高さが異なる音声信号を生成する波形伸縮手段と、上記波形重畳手段からの音声信号と上記波形伸縮手段からの音声信号とを混合する混合手段を備えるように成したことを特徴としている。
【0016】
この実施例によれば、波形重畳手段によって、標準の音声信号が生成される。一方、波形伸縮手段によって、上記標準の音声信号の波形の時間軸が伸縮されて伸縮音声信号が生成される。そして、混合手段によって、上記標準の音声信号と伸縮音声信号とが混合される。こうして、例えば、同一の入力テキストに基づく男性の音声と女性の音声とが、同時に発声される。
【0017】
また、第2の実施例は、上記複数音声合成手段を、上記音声素片情報と韻律情報とに基づいて,波形重畳法によって音声信号を生成する第1波形重畳手段と、上記音声素片情報と韻律情報と上記複数音声指示手段からの指示情報とに基づいて,上記第1波形重畳手段とは異なる基本周期で,上記波形重畳法によって音声信号を生成する第2波形重畳手段と、上記第1波形重畳手段からの音声信号と上記第2波形重畳手段からの音声信号とを混合する混合手段を備えるように成したことを特徴としている。
【0018】
この実施例によれば、第1波形重畳手段によって、上記音声素片に基づいて第1の音声信号が生成される。一方、第2波形重畳手段によって、上記音声素片に基づいて上記第1の音声信号とは基本周期のみが異なる第2の音声信号が生成される。そして、混合手段によって、上記第1の音声信号と第2の音声信号とが混合される。こうして、例えば、同一の入力テキストに基づく男性の音声と男性の更に高音の音声とが、同時に発声される。
【0019】
さらに、上記第1波形重畳手段と第2波形重畳手段との基本構成は同じであるため、1つの波形重畳手段を時分割によって上記第1波形重畳手段と第2波形重畳手段として動作させることが可能であり、構成を簡単にして低コスト化を図ることが可能になる。
【0020】
また、第3の実施例は、上記複数音声合成手段を、上記音声素片情報と韻律情報とに基づいて,波形重畳法によって音声信号を生成する第1波形重畳手段と、上記音声素片データベースとしての第1音声素片データベースとは異なる音声素片情報が格納された第2音声素片データベースと、上記第2音声素片データベースから選択された音声素片情報と,上記韻律情報と,上記複数音声指示手段からの指示情報とに基づいて,上記波形重畳法によって音声信号を生成する第2波形重畳手段と、上記第1波形重畳手段からの音声信号と上記第2波形重畳手段からの音声信号とを混合する混合手段を備えるように成したことを特徴としている。
【0021】
この実施例によれば、例えば、第1音声素片データベースに男性用の音声素片情報を格納する一方、第2音声素片データベースに女性用の音声素片情報を格納しておけば、上記第2波形重畳手段は上記第2音声素片データベースから選択された音声素片情報を用いることによって、同一の入力テキストに基づく男性の音声と女性の音声とが、同時に発声される。
【0022】
また、第4の実施例は、上記複数音声合成手段を、上記音声素片と韻律情報とに基づいて,波形重畳法によって音声信号を生成する波形重畳手段と、上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて上記音声素片の波形の時間軸を伸縮し,上記波形重畳法によって音声信号を生成する波形伸縮重畳手段と、上記波形重畳手段からの音声信号と上記波形伸縮重畳手段からの音声信号とを混合する混合手段を備えるように成したことを特徴としている。
【0023】
この実施例によれば、波形重畳手段によって、上記音声素片が用いられて標準の音声信号が生成される。一方、波形伸縮重畳手段によって、上記音声素片の波形の時間軸が伸縮されて、上記標準の音声信号とはピッチが異なり且つ周波数スペクトルが変形された音声信号が生成される。そして、混合手段によって、上記両音声信号が混合される。こうして、例えば、同一の入力テキストに基づく男性の音声と女性の音声とが、同時に発声される。
【0024】
また、第5の実施例は、上記複数音声合成手段を、上記韻律情報に基づいて,第1励振波形を生成する第1励振波形生成手段と、上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて,上記第1励振波形とは周波数が異なる第2励振波形を生成する第2励振波形生成手段と、上記第1励振波形と第2励振波形とを混合する混合手段と、上記音声素片情報に含まれている声道調音特性パラメータを取得し,この声道調音特性パラメータを用いて,上記混合された励振波形に基づいて合成音声信号を生成する合成フィルタを備えるように成したことを特徴としている。
【0025】
この実施例によれば、第1励振波形生成手段によって生成された第1励振波形と第2励振波形生成手段によって生成された上記第1励振波形とは周波数が異なる第2励振波形との混合励振波形が、混合手段によって生成される。そして、この混合励振波形に基づいて、上記選択された音声素片情報に含まれる声道調音特性パラメータによって声道調音特性が設定された合成フィルタによって、合成音声が生成される。こうして、例えば、同一の入力テキストに基づく複数の声の高さの音声が、同時に発声される。
【0026】
また、第6の実施例は、上記波形伸縮手段,第2波形重畳手段,波形伸縮重畳手段あるいは第2励振波形生成手段を、複数設けたことを特徴としている。
【0027】
この実施例によれば、同一の入力テキストに基づいて同時発声させる際の人数を3人以上に増加でき、バラエティーに富んだテキスト合成音声が生成される。
【0028】
また、第7の実施例は、上記混合手段を、上記複数音声指示手段からの指示情報に基づく混合率で上記混合を行うように成したことを特徴としている。
【0029】
この実施例によれば、同一の入力テキストに基づいて同時発声させる複数の人夫々に遠近感を持たせたりして、種々の場面に応じた複数人による同時発声が可能になる。
【0030】
また、第2の発明のプログラム記録媒体は、コンピュータを、上記第1の発明におけるテキスト解析手段,韻律生成手段,複数音声指示手段および複数音声合成手段として機能させるテキスト音声合成処理プログラムが記録されたことを特徴としている。
【0031】
上記構成によれば、上記第1の発明の場合と同様に、同一の入力テキストに基づく複数音声の同時発声が、テキスト解析手段および韻律生成手段の分割処理やピッチ変換処理の追加等を行うことなく簡単な処理で行われる。
【0032】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
<第1実施の形態>
図1は、本実施の形態のテキスト音声合成装置におけるブロック図である。本テキスト音声合成装置は、テキスト入力端子11,テキスト解析器12,韻律生成器13,音声素片選択器14,音声素片データベース15,複数音声合成器16,複数音声指示器17および出力端子18で概略構成される。
【0033】
上記テキスト入力端子11,テキスト解析器12,韻律生成器13,音声素片選択器14,音声素片データベース15および出力端子18は、図11に示す従来のテキスト音声合成装置におけるテキスト入力端子1,テキスト解析器2,韻律生成器3,音声素片選択器4,音声素片データベース5および出力端子7と同様である。すなわち、入力端子11から入力されたテキスト情報は、テキスト解析器12によって読みの情報に変換される。そして、韻律生成器13によって上記読み情報に基づいて韻律情報が生成され、音声素片選択器14によって、音声素片データベース15から上記読み情報に基づいてVCV音声素片が選択され、選択結果情報が韻律情報と共に複数音声合成器16に送出されるのである。
【0034】
上記複数音声指示器17は、上記複数音声合成器16に対してどのような複数の音声を同時に発声するのかを指示する。そうすると、複数音声合成器16は、複数音声指示器17からの指示に従って複数の音声信号を同時に合成するのである。そうすることによって、同一の入力テキストに基づいて複数の話者によって同時に発声させることができるのである。例えば、「いらっしゃいませ」という発声を、男声と女声との2名の話者で同時に行うことが可能になるのである。
【0035】
上記複数音声指示器17は、上述したように、上記複数音声合成器16に対して、どのような複数の声で発声させるかを指示する。その場合の指示の例としては、通常の合成音声に対するピッチの変化率と、ピッチを変化させた音声信号の混合率とを指定する方法がある。例えば「1オクターブ上の音声信号を、振幅を半分にして混合する」という指定である。尚、上述の例では、2つの音声を同時に発声させる例で説明しているが、処理量やデータベースのサイズの増加は生じるものの、3つ以上の音声の同時発声にも容易に拡張できる。
【0036】
上記複数音声合成器16は、上記複数音声指示器17からの指示に従って、複数の音声を同時に発声させる処理を行う。後に説明するように、この複数音声合成器16は図11に示す1つの音声を発声させる従来のテキスト音声合成装置における音声合成器6の処理を部分的に拡充して実現することができる。したがって、上記特開平3‐211597号公報の場合のようにピッチ変換処理を後処理として加える構成に比べて、複数音声生成の処理量の増加を少なく抑えることができるのである。
【0037】
以下、上記複数音声合成器16の構成および動作について具体的に説明する。図2は、複数音声合成器16の構成の一例を示すブロック図である。図2において、複数音声合成器16は、波形重畳器21,波形伸縮器22および混合器23から構成される。上記波形重畳器21は、音声素片選択器14によって選択された音声素片データを読み出し、この音声素片データと音声素片選択器14からの韻律情報とに基づいて、波形重畳によって音声信号を生成する。そして、生成された音声信号は、波形伸縮器22と混合器23とに送出される。そうすると、波形伸縮器22は、音声素片選択器14からの韻律情報と複数音声指示器17からの上記指示とに基づいて、波形重畳器21からの音声信号の波形の時間軸を伸縮して声の高さを変える。そして、伸縮後の音声信号が混合器23に送出される。混合器23は、波形重畳器21からの標準の音声信号と波形伸縮器22からの伸縮後の音声信号との二つの音声信号を混合して、出力端子18に出力するのである。
【0038】
上記構成において、上記波形重畳器21で合成音を生成する処理としては、例えば、特開昭60‐21098号公報に開示されている波形重畳方式を用いている。この波形重畳方式においては、音声素片データベース15内に音声素片を基本周期単位の波形として記憶している。そして、波形重畳器21は、この波形を指定のピッチに応じた時間間隔で繰り返し生成することによって音声信号を生成するのである。波形重畳の処理として種々の実現方法が開発されているが、例えば繰り返す時間間隔が音声素片の基本周波数より長い場合は不足している部分に0のデータを埋め、逆に短い場合は波形の終端が急峻に変化しないように適当に窓掛け処理を行った後に処理を打ち切る方法等がある。
【0039】
次に、上記波形伸縮器22によって行われる上記波形重畳方式で生成された標準の音声信号による声の高さを変える処理について説明する。ここで、声の高さを変える処理は、上記特開平3‐211597号公報等に開示された従来の技術においてはテキスト音声合成の出力信号に対して行うため、ピッチ抽出処理が必要である。これに対して、本実施の形態においては、複数音声合成器16に入力される韻律情報に含まれるピッチ情報を用いるために、ピッチ抽出処理を省くことができ効率的に実現できるのである。
【0040】
図3は、本実施の形態における上記複数音声合成器16の各部で生成される音声信号波形を示す。以下、図3に従って、声の高さを変える処理について説明する。図3(a)は、波形重畳器21によって上記波形重畳方式で生成された母音区間の音声波形である。波形伸縮器22は、音声素片選択器14からの韻律情報の1つであるピッチと、複数音声指示器17から指示されたピッチ変化率の情報とに基づいて、波形重畳器21で生成された図3(a)の音声波形を基本周期A毎に波形伸縮する。その結果、図3(b)に示すように、全体が時間軸方向に伸縮された音声波形が得られる。その際に、上記伸縮によって全体の時間長が変化しないように、ピッチを高くする場合には適当に基本周期単位の波形を多く繰り返し、逆にピッチを低くする場合には間引くようにする。図3(b)の場合には基本周期を狭めた波形に縮めているので、図3(a)の音声波形に比べピッチが高くなり、周波数スペクトルも高域に伸張された信号となる。効果を分かり易く例で説明すると、上記標準の音声信号としての男声の合成音声信号に基づいて、波形伸縮器22によって上記伸縮された音声信号としての女声の合成音声信号が作成されたことになるのである。
【0041】
次に、上記混合器23は、上記複数音声指示器17から与えられる混合率に従って、波形重畳器21で生成された図3(a)の音声波形と波形伸縮器22で生成された図3(b)の音声波形との2つの音声波形を混合する。図3(c)に混合された結果の音声波形の一例を示す。こうして、同一のテキストに基づいて二人の話者による同時発声が実現されるのである。
【0042】
上述したごとく、本実施の形態においては、上記複数音声合成器16と複数音声指示器17とを有している。さらに、複数音声合成器16を波形重畳器21,波形伸縮器22および混合器23で構成している。そして、複数音声指示器17によって、複数音声合成器16に対して、標準の合成音声信号に対するピッチの変化率(ピッチ変化率)と、ピッチを変化させた音声信号の混合率とを指示する。
【0043】
そうすると、上記波形重畳器21は、音声素片データベース15から読み出された音声素片データと音声素片選択器14からの韻律情報に基づいて、波形重畳によって標準音声信号を生成する。一方、波形伸縮器22は、音声素片選択器14からの韻律情報と複数音声指示器17からの上記指示とに基づいて、上記標準の音声信号の波形の時間軸を伸縮して声の高さを変える。そして、混合器23によって、波形重畳器21からの標準の音声信号と波形伸縮器22からの伸縮音声信号とを混合して、出力端子18に出力するようにしている。
【0044】
したがって、上記テキスト解析器12および韻律生成器13は、時分割処理を行うことなく1つの入力テキスト情報に対してテキスト解析処理と韻律生成処理とを行えばよい。また、複数音声合成器16の後処理として、ピッチ変換処理を加える必要もない。すなわち、本実施の形態によれば、同一のテキストに基づく複数話者による合成音声の同時発声を、より簡単な処理で、より簡単な装置で実現することができるのである。
【0045】
<第2実施の形態>
以下、上記複数音声合成器16の他の実施の形態について説明する。図4は、本実施の形態における複数音声合成器16の構成を示すブロック図である。本複数音声合成器16は、第1波形重畳器25,第2波形重畳器26および混合器27で構成されている。第1波形重畳器25は、音声素片データベース15から読み出された音声素片データと音声素片選択器14からの韻律情報とに基づいて、上記波形重畳によって音声信号を生成して混合器27に送出する。一方、第2波形重畳器26は、音声素片選択器14からの韻律情報の1つであるピッチを複数音声指示器17から指示されたピッチ変化率に基づいて変更する。そして、第1波形重畳器25が用いた音声素片データと同一の音声素片データと上記変更後のピッチとに基づいて、上記波形重畳によって音声信号を生成する。そして、生成した音声信号を混合器27に送出するのである。混合器27は、第1波形重畳器25からの標準の音声信号と第2波形重畳器26からの音声信号との二つの音声信号を、複数音声指示器17からの混合率に従って混合して出力端子18に出力するのである。
【0046】
尚、上記第1波形重畳器25による合成音声生成処理は、上記第1実施の形態における波形重畳器21の場合と同じである。また、上記第2波形重畳器26による合成音声生成処理も、複数音声指示器17からのピッチ変化率の指示に従ってピッチを変更する点を除けば、波形重畳器21の場合と同じ通常の波形重畳処理である。したがって、上記第1実施の形態における複数音声合成器16の場合には、波形重畳器21とは構成を異にする波形伸縮器22を有しているため、指定の基本周期に波形を伸縮する処理が別途必要であるのに対して、本実施の形態においては、基本の機能が同じ二つの波形重畳器25,26を用いるので、実際の構成においては、第1波形重畳器25を時分割処理で2回使用することによって第2波形重畳器26を削除することも可能であり、構成を簡単にしてコストを低減することも可能なのである。
【0047】
図5は、本実施の形態における各部で生成される音声信号波形を示す。以下、図5に従って音声信号生成処理について説明する。図5(a)は、第1波形重畳器25によって標準の波形重畳方式で生成された母音区間の音声波形である。図5(b)は、第2波形重畳器26によって、複数音声指示器17から指示されたピッチ変化率に基づいて変更したピッチを用いて、標準のピッチとは異なるピッチで生成された音声波形である。この例では通常より高いピッチの音声信号が生成されている。尚、図5(b)から分かるように、第2波形重畳器26によって生成された音声信号は、図5(a)の音声波形に対してピッチは変化しているが波形伸縮は行われないので、周波数スペクトルは第1波形重畳器25による標準の音声波形と同じである。効果を分かり易く例で説明すると、上記標準の音声信号としての男声の合成音声信号に基づいて、第2重畳器26によってピッチを高めた男声の合成音声信号が作成されたことになるのである。
【0048】
次に、上記混合器27は、上記複数音声指示器17から与えられる混合率に従って、第1波形重畳器25で生成された図5(a)の音声波形と第2波形重畳器26で生成された図5(b)の音声波形との2つの音声波形を混合する。図5(c)に混合された結果の音声波形の一例を示す。こうして、同一のテキストに基づいて二人の話者による同時発声が実現されるのである。
【0049】
上述したごとく、本実施の形態においては、上記複数音声合成器16を第1波形重畳器25,第2波形重畳器26および混合器27で構成している。そして、第1波形重畳器25によって、音声素片データベース15から読み出された音声素片データに基づいて標準の音声信号を生成する。一方、第2波形重畳器26によって、音声素片選択器14からのピッチを複数音声指示器17からのピッチ変化率に基づいて変更したピッチを用いて、上記音声素片データに基づいて上記波形重畳によって音声信号を生成する。そして、混合器27によって、両波形重畳器25,26からの二つの音声信号を混合して、出力端子18に出力するようにしている。したがって、同一のテキストに基づいて二人の話者による同時発声を簡単な処理で行うことができるのである。
【0050】
また、本実施の形態によれば、基本の機能が同じ二つの波形重畳器25,26を用いるので、第1波形重畳器25を時分割処理で2回使用することによって第2波形重畳器26を削除することも可能であり、上記第1実施の形態に比して、構成を簡単にしてコスト低減を図ることが可能になる。
【0051】
<第3実施の形態>
図6は、本実施の形態における複数音声合成器16の構成を示すブロック図である。本複数音声合成器16は、波形重畳器31,波形伸縮重畳器32及び混合器33で構成されている。波形重畳器31は、音声素片データベース15から読み出された音声素片データと音声素片選択器14からの韻律情報とに基づいて、上記波形重畳によって音声信号を生成して混合器33に送出する。一方、波形伸縮重畳器32は、音声素片データベース15から読み出された波形重畳器31が用いた音声素片データと同じ音声素片の波形を、複数音声指示器17から指示されたピッチ変化率に基づいて指定のピッチに応じた時間間隔に伸縮して繰り返し生成することによって音声信号を生成する。その場合における上記伸縮の方法としては、線形補間等がある。すなわち、本実施の形態においては、波形重畳器自体に波形伸縮機能を持たせて波形重畳の処理過程において音声素片の波形を伸縮するのである。
【0052】
こうして生成された音声信号は混合器33に送出される。そうすると、混合器28は、波形重畳器31からの標準の音声信号と波形伸縮重畳器32からの伸縮音声信号との二つの音声信号を、複数音声指示器17から与えられた混合率に従って混合し、出力端子18に出力するのである。
【0053】
本実施の形態の複数音声合成器16における上記波形重畳器31,波形伸縮重畳器32および混合器33よって生成される音声信号の波形は、図3と同様である。尚、上記第2実施の形態における第2波形重畳器26から出力される音声信号もピッチは変化しているが、周波数スペクトルは変化していないので、声質的には似ている複数の声が出力される。これに対して、本実施の形態における波形伸縮重畳器32から出力される音声信号は、周波数スペクトルも変化されているのである。
【0054】
<第4実施の形態>
図7は、本実施の形態における複数音声合成器16の構成を示すブロック図である。本複数音声合成器16は、第2実施の形態の場合と同様に、第1波形重畳器35,第2波形重畳器36および混合器37で構成されている。さらに、本実施の形態においては、第2波形重畳器36が専用に用いる音声素片データベースを、第1波形重畳器35が用いる音声素片データベース15と独立して設けている。以下、第1波形重畳器35が用いる音声素片データベース15を第1音声素片データと称する一方、第2波形重畳器36が用いる音声素片データベースを第2音声素片データベース38と称する。
【0055】
上記第1実施の形態〜第3実施の形態においては、ある―人の話者の声から作成された音声素片データベース15のみを用いているが。本実施の形態においては、音声素片データベース15とは別の話者から作成された第2音声素片データベース38を備えて、第2波形重畳器36によって用いられるのである。この発明の場合には、元々異なる声質の2種類の音声データベース15,38を用いるので、上記各実施の形態以上にバリエーションに富んだ複数の音質の同時発声が可能になる。
【0056】
尚、この場合には、上記複数音声指示器17からは、複数の音声素片データベースを用いて複数の音声合成を行う指定が出力される。例えば「通常の合成音声の生成には男性話者のデータを用い、もう―つの合成音声の生成には別途女性話者のデータベースを用いて、二つを同比率で混合する」という指定である。
【0057】
図8は、本実施の形態における上記複数音声合成器16の各部によって生成される音声信号波形を示す。以下、図8に従って音声信号生成処理について説明する。図8(a)は、第1音声素片データベース15を用いて第1波形重畳器35によって生成された標準音声波形である。また、図8(b)は、第2音声素片データベース38を用いて第2波形重畳器36によって生成された標準音声波形よりもピッチが高い音声信号波形である。また、図8(c)は、上記2つの音声波形を混合した音声波形である。尚、この場合、第1音声素片データベース15を男性話者から作成する一方、第2音声素片データベース38を女性話者から作成しておけば、第2波形重畳器36において波形の伸縮処理は行わずに女性の音声を生成できるのである。
【0058】
<第5実施の形態>
図9は、本実施の形態における複数音声合成器16の構成を示すブロック図である。本複数音声合成器16は、第1励振波形生成器41,第2励振波形生成器42,混合器43および合成フィルタ44で構成されている。第1励振波形生成器41は、音声素片選択器14からの韻律情報の1つのピッチに基づいて標準の励振波形を生成する。また、第2励振波形生成器42は、上記ピッチを複数音声指示器17から指示されたピッチ変化率に基づいて変更する。そして、この変更後のピッチに基づいて励振波形を生成する。また、混合器43は、第1,第2励振波形生成器41,42からの2つの励振波形を、複数音声指示器17からの混合率に従って混合して混合励振波形を生成する。また、合成フィルタ44は、音声素片データベース15からの音声素片データに含まれている声道調音特性を表現するパラメータを取得する。そして、この声道調音特性パラメータを用いて、上記混合励振波形に基づいて音声信号を生成する。
【0059】
すなわち、本複数音声合成器16は、ボコーダー方式による音声合成処理を行うものであり、母音等の有声区間ではピッチに応じた時間間隔のパルス列で成る一方、摩擦性の子音等の無声区間では白色雑音で成る励振波形を生成する。そして、その励振波形を、選択された音声素片に応じた声道調音特性を与える合成フィルタを通すことによって合成音声信号を生成するのである。
【0060】
図10は、本実施の形態における上記複数音声合成器16の各部によって生成される音声信号波形を示す。以下、図10に従って、本実施の形態における音声信号生成処理について説明する。図10(a)は、第1励振波形生成器41によって生成された標準の励振波形である。また、図10(b)は、第2励振波形生成器42によって生成された励振波形である。この例の場合には、複数音声指定器17から指示されたピッチ変化率に基づいて、音声素片選択器14からのピッチを変更した通常のピッチより高いピッチで生成されている。混合器43は、複数音声指示器17からの混合率に従って上記2つの励振波形を混合し、図10(c)に示すような混合された励振波形を生成する。図10(d)は、この混合励振波形を合成フィルタ44に入力して得られた音声信号である。
【0061】
上記各実施の形態における音声素片データベース15,38には波形重畳用の音声素片の波形データが記憶されている。これに対して、本実施の形態におけるボコーダー方式用の上記音声素片データベース15には、各音声素片毎に声道調音特性パラメータ(例えば、線形予測パラメータ)のデータが記憶されている。
【0062】
上述したごとく、本実施の形態においては、上記複数音声合成器16を第1励振波形生成器41,第2励振波形生成器42,混合器43および合成フィルタ44で構成している。そして、第1励振波形生成器41によって標準の励振波形を生成する。一方、第2励振波形生成器42によって、音声素片選択器14からのピッチを複数音声指示器17からのピッチ変化率に基づいて変更したピッチを用いて励振波形を生成する。そして、混合器43によって、両励振波形生成器41,42からの二つの励振波形を混合し、上記選択された音声素片に応じた声道調音特性に設定された合成フィルタ44を通すことによって合成音声信号を生成するようにしている。
【0063】
したがって、本実施の形態によれば、上記テキスト解析処理および韻律生成処理を時分割で行ったり、ピッチ変換処理を後処理として加えることなく、同一のテキストに基づく複数話者による合成音声の同時発声を簡単な処理で実現することができるのである。
【0064】
尚、上記各実施の形態においては、摩擦性の子音等の無声区間に関しては上述の処理は行わず、一人の話者の合成音声信号のみを生成するようにしている。つまり、二人が同時に発声しているように信号処理するのはピッチが存在する有声区間のみなのである。また、上記第1実施の形態における波形伸縮器22,第2実施の形態における第2波形重畳器26,第3実施の形態における波形伸縮重畳器32,第4実施の形態における第2波形重畳器36および第5実施の形態における第2励振波形生成器42を複数設けて、同一の入力テキストに基づいて同時発声させる際の人数を3人以上にすることもできる。
【0065】
ところで、上記各実施の形態における上記テキスト解析手段,韻律生成手段,複数音声指示手段及び複数音声合成手段としての機能は、プログラム記録媒体に記録されたテキスト音声合成処理プログラムによって実現される。上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディアである。または、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアからテキスト音声合成処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードして、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0066】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0067】
また、上記各実施の形態におけるテキスト音声合成装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。または、別の記録媒体からインストールされるものとする。
【0068】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0069】
【発明の効果】
以上より明らかなように、第1の発明のテキスト音声合成装置は、テキスト解析手段で入力テキスト情報から得られた読みおよび品詞情報に基づいて、韻律生成手段によって韻律情報を生成し、複数音声指示手段からどのような複数の音声を同時に発声するかの指示があると、複数音声合成手段によって、上記韻律情報と音声素片データベースから選択された音声素片情報とに基づいて複数の声質による複数の音声信号を合成するので、同一の入力テキストに基づいて、複数の声質による音声を同時に発声させることができる。その際に、特開平6‐75594号公報のごとく上記テキスト解析手段および韻律生成手段は時分割処理を行う必要がなく、特開平3‐211597号公報のごとくピッチ変換処理の追加を行う必要がない。したがって、一つのテキストに基づく複数音声の同時発声を非常に簡単な処理で実現することができるのである。
【0070】
また、第1の実施例は、上記複数音声合成手段を、標準の音声信号を生成する波形重畳手段と、上記標準の音声信号の波形の時間軸を伸縮して音声信号を生成する波形伸縮手段と、上記標準の音声信号と伸縮された音声信号とを混合する混合手段で成したので、例えば、同一の入力テキストに基づく男性の音声と女性の音声とを、簡単な処理で同時に発声させることができる。
【0071】
また、第2の実施例は、上記複数音声合成手段を、標準の音声信号を生成する第1波形重畳手段と、上記第1波形重畳手段と同じ音声素片情報を用いて異なる基本周期の音声信号を生成する第2波形重畳手段と、上記標準の音声信号と基本周期が異なる音声信号とを混合する混合手段で成したので、例えば、男性の音声と男性の更に高音の音声とを、簡単な処理で同時に発声させることができる。
【0072】
さらに、上記第1波形重畳手段と第2波形重畳手段との基本構成は同じであるため、1つの波形重畳手段を時分割によって上記第1波形重畳手段と第2波形重畳手段として動作させることが可能であり、構成を簡単にして低コスト化を図ることができる。
【0073】
また、第3の実施例は、上記複数音声合成手段を、第1音声素片データベースから選択された音声素片情報を用いて標準の音声信号を生成する第1波形重畳手段と、少なくとも第2音声素片データベースから選択された音声素片情報を用いて異なるピッチの音声信号を生成する第2波形重畳手段と、上記標準の音声信号と異なるピッチの音声信号とを混合する混合手段で成したので、例えば、第1音声素片データベースに男性用の音声素片情報を格納する一方、第2音声素片データベースに女性用の音声素片情報を格納しておけば、同一の入力テキストに基づく男性の音声と女性の音声とを、簡単な処理で同時に発声させることができる。
【0074】
また、第4の実施例は、上記複数音声合成手段を、標準の音声信号を生成する波形重畳手段と、上記波形重畳手段と同じ音声素片の波形の時間軸を伸縮して音声信号を生成する波形伸縮重畳手段と、上記波形重畳手段および波形伸縮重畳手段からの両音声信号を混合する混合手段で成したので、例えば、同一の入力テキストに基づく男性の音声と女性の音声とを、簡単な処理で同時に発声させることができる。
【0075】
また、第5の実施例は、上記複数音声合成手段を、標準の第1励振波形を生成する第1励振波形生成手段と、上記第1励振波形と周波数が異なる第2励振波形を生成する第2励振波形生成手段と、上記両励振波形を混合する混合手段と、上記選択された音声素片情報に応じた声道調音特性パラメータを用いて上記混合された励振波形に基づいて合成音声信号を生成する合成フィルタで成したので、例えば、同一の入力テキストに基づいて、複数の声の高さの音声を簡単な処理で同時に発声させることができる。
【0076】
すなわち、この実施例によれば、ボコーダー方式あるいはホルマント合成方式の音声合成装置においても、同一の入力テキストに基づく複数話者の音声を、簡単な処理で同時に発声させることができるのである。
【0077】
また、第6の実施例は、上記波形伸縮手段,第2波形重畳手段,波形伸縮重畳手段あるいは第2励振波形生成手段を複数設けたので、同一の入力テキストに基づいて同時発声させる人数を3人以上に増加でき、バラエティーに富んだテキスト合成音声を生成することができる。
【0078】
また、第7の実施例は、上記混合手段を、上記複数音声指示手段からの指示情報に基づく混合率で上記混合を行うように成したので、種々の場面に応じた複数人による同時発声が可能になる。
【0079】
また、第2の発明のプログラム記録媒体は、コンピュータを、上記第1の発明におけるテキスト解析手段,韻律生成手段,複数音声指示手段および複数音声合成手段として機能させるテキスト音声合成処理プログラムが記録されているので、上記第1の発明の場合と同様に、同一の入力テキストに基づく複数音声の同時発声を、上記テキスト解析手段および韻律生成手段の分割処理やピッチ変換処理の追加等を行うことなく簡単な処理で行うことができる。
【図面の簡単な説明】
【図1】 この発明のテキスト音声合成装置におけるブロック図である。
【図2】 図1における複数音声合成器の構成の一例を示すブロック図である。
【図3】 図2に示す複数音声合成器の各部で生成される音声波形を示す図である。
【図4】 図2とは異なる複数音声合成器の構成を示すブロック図である。
【図5】 図4に示す複数音声合成器の各部で生成される音声波形を示す図である。
【図6】 図2および図4とは異なる複数音声合成器の構成を示すブロック図である。
【図7】 図2,図4および図6とは異なる複数音声合成器の構成を示すブロック図である。
【図8】 図7に示す複数音声合成器の各部で生成される音声波形を示す図である。
【図9】 図2,図4,図6および図7とは異なる複数音声合成器の構成を示すブロック図である。
【図10】 図9に示す複数音声合成器の各部で生成される信号波形を示す図である。
【図11】 従来のテキスト音声合成装置の構成を示すブロック図である。
【符号の説明】
11…テキスト入力端子、
12…テキスト解析器、
13…韻律生成器、
14…音声素片選択器、
15,38…音声素片データベース、
16…複数音声合成器、
17…複数音声指示器、
18…出力端子、
21,31…波形重畳器、
22…波形伸縮器、
23,27,33,37,43…混合器、
25,35…第1波形重畳器、
26,36…第2波形重畳器、
32…波形伸縮重畳器、
41…第1励振波形生成器、
42…第2励振波形生成器、
44…合成フィルタ。
Claims (9)
- 入力されたテキスト情報の読みおよび品詞情報に基づいて音声素片データベースから必要な音声素片情報を選択し、この選択された音声素片情報に基づいて音声信号を生成するテキスト音声合成装置において、
上記入力テキスト情報を解析して読みおよび品詞情報を得るテキスト解析手段と、
上記読みおよび品詞情報に基づいて韻律情報を生成する韻律生成手段と、
同一の入力テキストに基づいて、どのような複数の音声を同時に発声するかを指示する複数音声指示手段と、
上記複数音声指示手段からの指示を受け、上記韻律生成手段からの韻律情報と上記音声素片データベースから選択された音声素片情報とに基づいて、上記複数音声指示手段からの指示に従って、複数の声質による複数の音声信号を合成する複数音声合成手段
を備え、
上記複数音声指示手段は、標準の音声信号に対する声の高さの変化率あるいは上記標準の音声信号用の音声素片データベースとは異なる音声素片データベースの使用の指示と、標準の音声信号と上記標準の音声信号とは異なる音声信号との混合率の指示とを行うようになっており、
上記複数音声合成手段は、上記標準の音声信号と上記標準の音声信号とは異なる音声信号とを上記混合率で混合して同時発声させるための音声信号を合成するようになっている
ことを特徴とするテキスト音声合成装置。 - 請求項1に記載のテキスト音声合成装置において、
上記複数音声合成手段は、
上記音声素片情報と韻律情報とに基づいて、波形重畳法によって音声信号を生成する波形重畳手段と、
上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて、上記波形重畳手段によって生成された音声信号の波形の時間軸を伸縮して声の高さが異なる音声信号を生成する波形伸縮手段と、
上記波形重畳手段からの音声信号と上記波形伸縮手段からの音声信号とを混合する混合手段
を備えていることを特徴とするテキスト音声合成装置。 - 請求項1に記載のテキスト音声合成装置において、
上記複数音声合成手段は、
上記音声素片情報と韻律情報とに基づいて、波形重畳法によって音声信号を生成する第1波形重畳手段と、
上記音声素片情報と韻律情報と上記複数音声指示手段からの指示情報とに基づいて、上記第1波形重畳手段とは異なる基本周期で、上記波形重畳法によって音声信号を生成する第2波形重畳手段と、
上記第1波形重畳手段からの音声信号と上記第2波形重畳手段からの音声信号とを混合する混合手段
を備えていることを特徴とするテキスト音声合成装置。 - 請求項1に記載のテキスト音声合成装置において、
上記複数音声合成手段は、
上記音声素片情報と韻律情報とに基づいて、波形重畳法によって音声信号を生成する第1波形重畳手段と、
上記音声素片データベースとしての第1音声素片データベースとは異なる音声素片情報が格納された第2音声素片データベースと、
上記2音声素片データベースから選択された音声素片情報と、上記韻律情報と、上記複数音声指示手段からの指示情報とに基づいて、上記波形重畳法によって音声信号を生成する第2波形重畳手段と、
上記第1波形重畳手段からの音声信号と上記第2波形重畳手段からの音声信号とを混合する混合手段
を備えていることを特徴とするテキスト音声合成装置。 - 請求項1に記載のテキスト音声合成装置において、
上記複数音声合成手段は、
上記音声素片と韻律情報とに基づいて、波形重畳法によって音声信号を生成する波形重畳手段と、
上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて上記音声素片の波形の時間軸を伸縮し、上記波形重畳法によって音声信号を生成する波形伸縮重畳手段と、
上記波形重畳手段からの音声信号と上記波形伸縮重畳手段からの音声信号とを混合する混合手段
を備えていることを特徴とするテキスト音声合成装置。 - 請求項1に記載のテキスト音声合成装置において、
上記複数音声合成手段は、
上記韻律情報に基づいて、第1励振波形を生成する第1励振波形生成手段と、
上記韻律情報と上記複数音声指示手段からの指示情報とに基づいて、上記第1励振波形とは周波数が異なる第2励振波形を生成する第2励振波形生成手段と、
上記第1励振波形と第2励振波形とを混合する混合手段と、
上記音声素片情報に含まれている声道調音特性パラメータを取得し、この声道調音特性パラメータを用いて、上記混合された励振波形に基づいて合成音声信号を生成する合成フィルタ
を備えていることを特徴とするテキスト音声合成装置。 - 請求項2乃至請求項6の何れか一つに記載のテキスト音声合成装置において、
上記波形伸縮手段,第2波形重畳手段,波形伸縮重畳手段あるいは第2励振波形生成手段は、複数存在することを特徴とするテキスト音声合成装置。 - 請求項2乃至請求項7の何れか一つに記載のテキスト音声合成装置において、
上記混合手段は、上記複数音声指示手段からの指示情報に基づく混合率で上記混合を行うようになっていることを特徴とするテキスト音声合成装置。 - コンピュータを、
請求項1におけるテキスト解析手段,韻律生成手段,複数音声指示手段および複数音声合成手段
として機能させるテキスト音声合成処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000400788A JP3673471B2 (ja) | 2000-12-28 | 2000-12-28 | テキスト音声合成装置およびプログラム記録媒体 |
US10/451,825 US7249021B2 (en) | 2000-12-28 | 2001-12-27 | Simultaneous plural-voice text-to-speech synthesizer |
PCT/JP2001/011511 WO2002054383A1 (fr) | 2000-12-28 | 2001-12-27 | Dispositif de synthese vocale de texte et support d'enregistrement de programme |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000400788A JP3673471B2 (ja) | 2000-12-28 | 2000-12-28 | テキスト音声合成装置およびプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002202789A JP2002202789A (ja) | 2002-07-19 |
JP3673471B2 true JP3673471B2 (ja) | 2005-07-20 |
Family
ID=18865310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000400788A Expired - Fee Related JP3673471B2 (ja) | 2000-12-28 | 2000-12-28 | テキスト音声合成装置およびプログラム記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7249021B2 (ja) |
JP (1) | JP3673471B2 (ja) |
WO (1) | WO2002054383A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
US7571099B2 (en) * | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
JP4483450B2 (ja) * | 2004-07-22 | 2010-06-16 | 株式会社デンソー | 音声案内装置、音声案内方法およびナビゲーション装置 |
JP2006065105A (ja) * | 2004-08-27 | 2006-03-09 | Canon Inc | 音声処理装置および方法 |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
JP2006337468A (ja) * | 2005-05-31 | 2006-12-14 | Brother Ind Ltd | 音声合成装置及び音声合成プログラム |
US20070083367A1 (en) * | 2005-10-11 | 2007-04-12 | Motorola, Inc. | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication |
US7953600B2 (en) * | 2007-04-24 | 2011-05-31 | Novaspeech Llc | System and method for hybrid speech synthesis |
JP2009025328A (ja) * | 2007-07-17 | 2009-02-05 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
JP4785909B2 (ja) * | 2008-12-04 | 2011-10-05 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置 |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
CN103366732A (zh) * | 2012-04-06 | 2013-10-23 | 上海博泰悦臻电子设备制造有限公司 | 语音播报方法及装置、车载*** |
RU2606312C2 (ru) * | 2014-11-27 | 2017-01-10 | Роман Валерьевич Мещеряков | Устройство синтеза речи |
EP3598434A4 (en) * | 2017-03-13 | 2020-04-22 | Sony Corporation | LEARNING DEVICE, LEARNING METHOD, LANGUAGE SYNTHETIZER AND LANGUAGE SYNTHESIS METHOD |
US11295721B2 (en) | 2019-11-15 | 2022-04-05 | Electronic Arts Inc. | Generating expressive speech audio from text data |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6021098A (ja) | 1983-07-15 | 1985-02-02 | 沖電気工業株式会社 | 音声合成方法 |
JP3086458B2 (ja) * | 1988-02-02 | 2000-09-11 | シャープ株式会社 | 音声合成装置 |
JPH01169879U (ja) | 1988-05-20 | 1989-11-30 | ||
JPH03211597A (ja) | 1990-01-17 | 1991-09-17 | Hitachi Ltd | カラオケ装置 |
JP3083624B2 (ja) | 1992-03-13 | 2000-09-04 | 株式会社東芝 | 音声規則合成装置 |
JPH0675594A (ja) | 1992-08-26 | 1994-03-18 | Oki Electric Ind Co Ltd | テキスト音声変換システム |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
IT1266943B1 (it) * | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
JPH08129398A (ja) | 1994-11-01 | 1996-05-21 | Oki Electric Ind Co Ltd | テキスト解析装置 |
JPH09244693A (ja) | 1996-03-07 | 1997-09-19 | N T T Data Tsushin Kk | 音声合成方法及び装置 |
JP3309735B2 (ja) | 1996-10-24 | 2002-07-29 | 三菱電機株式会社 | 音声マンマシンインタフェース装置 |
JP3678522B2 (ja) | 1997-01-06 | 2005-08-03 | オリンパス株式会社 | ズームレンズを備えたカメラ |
US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
JPH10290225A (ja) | 1997-04-15 | 1998-10-27 | Nippon Telegr & Teleph Corp <Ntt> | ディジタル音声ミキシング装置 |
JPH11243256A (ja) | 1997-12-03 | 1999-09-07 | Canon Inc | 分布帰還形半導体レーザとその駆動方法 |
JPH11243456A (ja) * | 1998-02-26 | 1999-09-07 | Nippon Telegr & Teleph Corp <Ntt> | ディジタル音声ミキシング方法 |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
JP2000010580A (ja) | 1998-06-22 | 2000-01-14 | Toshiba Corp | 音声合成方法及び装置 |
DE69940747D1 (de) * | 1998-11-13 | 2009-05-28 | Lernout & Hauspie Speechprod | Sprachsynthese mittels Verknüpfung von Sprachwellenformen |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2002023778A (ja) | 2000-06-30 | 2002-01-25 | Canon Inc | 音声合成装置、音声合成システム、音声合成方法及び記憶媒体 |
JP2002023787A (ja) | 2000-07-06 | 2002-01-25 | Canon Inc | 音声合成装置、音声合成システム、音声合成方法及び記憶媒体 |
-
2000
- 2000-12-28 JP JP2000400788A patent/JP3673471B2/ja not_active Expired - Fee Related
-
2001
- 2001-12-27 WO PCT/JP2001/011511 patent/WO2002054383A1/ja active Application Filing
- 2001-12-27 US US10/451,825 patent/US7249021B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7249021B2 (en) | 2007-07-24 |
JP2002202789A (ja) | 2002-07-19 |
US20040054537A1 (en) | 2004-03-18 |
WO2002054383A1 (fr) | 2002-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3673471B2 (ja) | テキスト音声合成装置およびプログラム記録媒体 | |
JP3361066B2 (ja) | 音声合成方法および装置 | |
JPS62160495A (ja) | 音声合成装置 | |
JPH1138989A (ja) | 音声合成装置及び方法 | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP4490818B2 (ja) | 定常音響信号のための合成方法 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3094622B2 (ja) | テキスト音声合成装置 | |
JPH11249679A (ja) | 音声合成装置 | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
JP3575919B2 (ja) | テキスト音声変換装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPH09179576A (ja) | 音声合成方法 | |
JP2002304186A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JPH09325788A (ja) | 音声合成装置及び方法 | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP3515268B2 (ja) | 音声合成装置 | |
JP2006133559A (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP2001312300A (ja) | 音声合成装置 | |
JP3133347B2 (ja) | 韻律制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050422 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080428 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |