JP3576848B2

JP3576848B2 - 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体

Info

Publication number: JP3576848B2
Application number: JP36328398A
Authority: JP
Inventors: 敬子稲垣; 幸夫三留
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-12-21
Filing date: 1998-12-21
Publication date: 2004-10-13
Anticipated expiration: 2018-12-21
Also published as: JP2000187495A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストに基づいて合成音声を生成する音声合成方法および装置に関する。
【０００２】
【従来の技術】
従来、日本語テキストを音声に変換する音声合成装置として様々の装置が開発されている。現在では、より高品質な合成のために、合成音声の個人性の向上が多く望まれている。個人性とは、合成音声が画一的でなく、その人らしさを再現するものであり、あたかも本人が話しているかのような合成音声を生成するためには重要な要素である。この合成音声の個人性を向上させる合成装置の従来例として特開平８―８７２９７（従来例１）がある。
【０００３】
図４は、この従来例１の音声合成装置の概略構成を示すブロック図であり、任意の入力テキストを合成音声に出力する場合を示している。この従来の音声合成装置は音声情報検索部２１と音声情報データベース２２と合成音声生成部２３と合成音声生成規則２４とから構成されている。
【０００４】
音声情報検索部２１は、テキストまたは発音記号列が入力されると、自然音声を分析し、抽出した音声特徴量およびこれに対応する発声内容を格納した音声情報データベース２２中に、入力テキストまたは発音記号列に一致する発声内容が存在するか否かを検索し、一致する発声内容が存在する場合は、これを合成音声生成部２３へ渡し、音声情報に応じた処理を施して合成音声を生成する。また、音声情報検索部２１は一致する発声内容が存在しない場合には、入力テキストまたは入力表音記号列をそのまま合成音声生成部２３へ渡し、合成音声生成部２３は合成音声生成規則２４に基づいて合成音声を生成する。このように、音声情報データベース２２にあらかじめ自然音声を記憶させておき、発声させたい内容と同じものが音声情報データベース２２にある場合には、音声合成を行わず自然音声を出力することで、元の話者の個人性を含む合成音声を生成している。
【０００５】
また、他の従来例として、特開平１０―１５３９９８（従来例２）がある。これは、自然音声を補助情報として使用し、規則合成により音声を合成する装置で、単語辞書を参照して入力テキストの解析により得た単語系列の各単語の音素系列に対する韻律情報を設定し、音声波形辞書を参照して各単語の音素系列から音素波形系列を求めている。また、入力自然音声から韻律情報を抽出し、設定された韻律情報と抽出された韻律情報のいずれかを選択し、その選択された韻律情報により音声波形系列を制御し、合成音声を生成している。このように自然音声から抽出された韻律情報には、元の話者のイントネーションや発声速度などの個人性が含まれている。
【０００６】
【発明が解決しようとする課題】
従来例１の音声合成装置では、自然音声から抽出した音声波形をそのまま使用することで、合成音声の個人性を向上させている。また、従来例２の音声合成装置では、自然音声から抽出した韻律パタンをそのまま用いて、元の話者の話し方を再現することで個人性を向上させている。しかし、従来例１、２では、一致する文が記憶したデータにない場合には、規則によりそれらを生成するため、自然音声から抽出したパタンを使った合成音声と比較すると個人性は劣化してしまう。従来例１、２において個人性を向上させるためには、膨大なデータが必要であり、すべての文を網羅するパタンを用意することは困難である。また、従来例１、２では、入力テキストを解析し、その発音情報を単語辞書を用いて生成するが、この単語辞書は、どの話者データに対しても共通であるため、テキストの解析結果も同じである。しかし、たとえ同一の文であっても、実際には発音情報が話者により微妙に異なることは多々ある。この違いは、従来例１や２の方法では、対処することができない。合成音声をより一層元の話者の発声に近づけるためには、この発音情報を生成する時にも個人性を考慮する必要がある。
【０００７】
本発明の目的は、合成音声の個人性を向上させるために、話者の個人性を考慮した発音情報を生成することができる音声合成方法および装置を提供することにある。
【０００８】
【課題を解決するための手段】
本発明の第１の音声合成方法は、入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話読特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、記音律情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【０００９】
本発明の第１の音声合成装置は、国語辞典に記述されている通常の読みを持つ単語辞書と、単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段と、入力テキストに対して単語辞書と読み変換手段を用いて音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【００１０】
本発明の第２の音声合成方法は、入力テキストに対して、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話読特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する話者毎の読み変換手段を用いて、話者毎に話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【００１１】
本発明の第２の音声合成装置は、国語辞典に記述されている通常の読みを持つ単語辞書と、単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する話者毎の読み変換手段と、入力された話者情報から話者毎の読み変換手段を切り替え、入力テキストに対して単語辞書と話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段を有する。
【００１２】
本発明の第３の音声合成方法は、入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて、音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【００１３】
本発明の第３の音声合成装置は、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段と、入力テキストに対して、話者別単語辞書と読み変換手段を用いて、音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【００１４】
本発明の第４の音声合成方法は、入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、話者毎に話者別単語辞書と話者毎の読み変換手段を切り替えて、音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【００１５】
本発明の第４の音声合成装置は、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、入力された話者情報から話者毎の読み変換手段を切り替え、入力テキストに対して、話者別単語辞書と話者毎の読み変換手段を用いて、音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【００１６】
本発明の記録媒体は、入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、前記韻律情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した。
【００１７】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。図１を参照すると、本発明の第１の実施の形態は、テキストを入力する入力端子１と、入力テキストと単語辞書８を用いて読みとアクセント、ポーズからなる発音情報を生成するテキスト解析部２と、単語辞書８で選択された単語の発音情報を規則によって変換し、テキスト解析部２に渡す読み変換部９と、テキスト解析部２で生成された発音情報に基づいて、イントネーションやリズムのパタンを、音声情報データ格納部６に記憶されている規則やパタンから生成する韻律情報生成部４と、発音情報と韻律情報に基づいて音声情報データ格納部６に記憶されている音声パタンを用いて合成音声を生成する合成音声生成部５と、合成音声生成部５で生成された合成音声を出力する出力端子７で構成されている。
単語辞書８には、各単語の見出し、品詞、読みとアクセント位置が記憶されている。この単語辞書８の発音情報は国語辞典やアクセント辞典を基に作成されている。音声情報データ格納部６には、韻律パタンと音声波形が、テキスト情報と発音情報、ラベル情報とともに記憶されている。
このように単語辞書８と読み変換部９を有することで、話者に特化した読みを供給することが可能となる。読み変換部９に記憶されている変換規則は、例えば、音声合成に使用する話者が、音声情報データベースを作成するために収録した文や単語のデータを用いて作成することができる。この規則には、ある特定の単語の変換規則を記述することもできるが、いくつか実施から一般化した規則を記述してもよい。例えば、「絵」を／えー／、「蚊」を／かー／、「子」を／こー／、と長音化する話者がいたとする。このような話者は、他の１モーラの単語「歯」や「名」等も同様に長音化させる傾向がある。そこで、音声合成に使用する話者の発音情報を基に、話者の発音情報がない単語も変換させるような規則を記述しておくこともできる。この場合、“「絵」、「蚊」、「子」は長音化させる”というのが、特定の単語の変換規則にあたり、“１モーラの単語は長音化する。”という規則が一般化された変換規則にあたる。このように、変換規則を一般化しておくことで、音声合成に使用する話者の発音情報がない単語でも話者特有の発音情報を変換することができる。
【００１８】
次に、本発明の第２の実施の形態について図面を参照して説明する。図２の本発明の第２の実施の形態は、話者別単語辞書３と、第１の実施の形態にある読み変換部９の両方を有する点を特徴とする。
話者別単語辞書３には、各単語の見出し、品詞、読みとアクセント位置が記憶されている。この話者別単語辞書３を作成する方法としては、例えば以下のような方法がある。まず、従来音声合成に使われるような標準的な日本語の発音の入った辞書を用意しておく。次に、合成に使う話者が本人の発音に近い発音辞書を作成するために、文や単語を発声したところから抽出した発音情報を単語毎に分割し、該当する辞書の発音情報と置き換えていく。または、音声合成に使用する話者が、音声情報データベースを作成するために収録した文や単語のデータがある場合には、そこから抽出した発音情報を発音辞書に反映させる。このようにして、話者特有の発音情報を持つ辞書を作成していく。この話者別単語辞書３には、合成に使う話者が実際に発声した音声から発音情報を抽出し、記憶しておくため、従来の発音辞書よりもより個人性が反映されたものとなる。音声情報データ格納部６には、話者別単語辞書３を作成した話者が発声した文や単語から抽出された韻律パタンと音声波形が、テキスト情報と発音情報、ラベル情報とともに記憶されている。
入力端子１より入力されたテキストはテキスト解析部２において、まず、話者別単語辞書３を用いて単語の発音情報が選択される。選択された発音情報は、読み変換部９により変換規則にマッチする単語がある場合には、発音情報が変換され、テキスト解析部２へ発音情報として戻される。話者別単語辞書３は、話者が文や単語を発生した音声から抽出した発音情報を基に作成されるため、話者が発生していない単語の発音情報は標準的な日本語のままである。一方、読み変換部９には、話者が発生した音声から抽出した発音情報を基に、それらが一般化された変換規則が格納されている。この一般化された変換規則を使用することで、話者が発生していないため話者別単語辞書３では変換できない発音情報を話者性を考慮した発声情報に変換することができる。
【００１９】
なお、第１の実施形態の読み変換部９を話者毎に備えてもよく、また第２の実施形態の話者別単語辞書３と読み変換部９を話者毎に備えてもよい。
【００２０】
以上、合成に使用する話者の発音情報を話者が実際に発声した音声から抽出し、話者別単語辞書や読み変換規則を生成し、その話者の合成音声を作成する際に使用することで、元の話者の発声をより忠実に再現することが可能になる。さらに、これら話者別に話者別単語辞書や読み変換規則と音声情報データを有し、選択された話者に合わせてそれらを切り替えることで、どの合成音声に対しても元の話者の特徴を反映させることができ、合成音声のバリエーションも増やすことができるようになる。
【００２１】
図３は本発明の第１の実施形態をコンピュータを用いて実施した場合のブロック図である。
【００２２】
入力装置１１はキーボード等で、テキストが入力される。記憶装置１２、１３はそれぞれ図１中の単語辞書８、音声情報データ格納部６に相当する。記憶装置１４はハードディスクである。出力装置１５は生成された合成音声が出力される、スピーカ等である。記録媒体１６は、図１中のテキスト解析部２、韻律情報生成部４、合成音声生成部５の各処理からなる音声合成プログラムが記録されている、ＦＤ（フロッピィ・ディスク）、ＣＤ―ＲＯＭ、ＭＤ（光磁気ディスク）等の記録媒体である。データ処理装置１７は記録媒体１６から音声合成プログラムを記憶装置１４に読み込んで、これを実行するＣＰＵである。
【００２３】
なお、その他の実施形態も同様にしてコンピュータを用いて実施することができる。
【００２４】
【発明の効果】
以上説明したように、本発明は、話者の発音に特化した辞書や変換手段を持ち、合成音声の発音情報を元の話者と同じものにすることにより、合成音声の個人性を向上させることが可能になる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の音声合成装置のブロック図である。
【図２】本発明の第２の実施の形態の音声合成装置のブロック図である。
【図３】第１の実施の形態をコンピュータを用いて実行する装置のブロック図である。
【図４】音声合成装置の従来例のブロック図である。
【符号の説明】
１入力端子
２テキスト解析部
３話者別単語辞書
４韻律情報生成部
５合成音声生成部
６音声情報データ格納部
７出力端子
８単語辞書
９読み変換部
１１入力装置
１２、１３、１４記憶装置
１５出力装置
１６記録媒体
１７データ処理装置
２１音声情報検索部
２２合成音声生成部
２３音声情報データベース
２４合成音声生成規則

Claims

入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、
前記読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、前記読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析段階と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の話者別単語辞書と読み変換手段を切り替えて、音韻情報を生成するテキスト解析段階と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
国語辞典に記述されている通常の読みを持つ単語辞書と、
前記単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段と、
入力テキストに対して前記単語辞書と読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段を有する音声合成装置。
国語辞典に記述されている通常の読みを持つ単語辞書と、
前記単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する話者毎の読み変換手段と、
入力された話者情報から前記話者毎の読み変換手段を切り替え、入力テキストに対して前記単語辞書と前記話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段を有する音声合成装置。
話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、
前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段と、
入力テキストに対して、前記話者別単語辞書と前記読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する音声合成装置。
話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、
前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段と、
入力された話者情報から前記話者別単語辞書と前記話者毎の読み変換手段を切り替え、入力テキストに対して、前記話者別単語辞書と前記話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する音声合成装置。
入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
前記韻律情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
入力テキストに対して、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第１の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第２の変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の読み変換手段を切り替えて音韻情報情生成するテキスト解析手順と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
入力テキストに対し、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の話者毎の読み変換手段を用いて、話者毎に話者別単語辞書と前記話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析手順と、
前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。