JP3576848B2 - 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体 - Google Patents

音声合成法方法、装置、および音声合成プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3576848B2
JP3576848B2 JP36328398A JP36328398A JP3576848B2 JP 3576848 B2 JP3576848 B2 JP 3576848B2 JP 36328398 A JP36328398 A JP 36328398A JP 36328398 A JP36328398 A JP 36328398A JP 3576848 B2 JP3576848 B2 JP 3576848B2
Authority
JP
Japan
Prior art keywords
speaker
information
specific
generating
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36328398A
Other languages
English (en)
Other versions
JP2000187495A (ja
Inventor
敬子 稲垣
幸夫 三留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP36328398A priority Critical patent/JP3576848B2/ja
Publication of JP2000187495A publication Critical patent/JP2000187495A/ja
Application granted granted Critical
Publication of JP3576848B2 publication Critical patent/JP3576848B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、テキストに基づいて合成音声を生成する音声合成方法および装置に関する。
【0002】
【従来の技術】
従来、日本語テキストを音声に変換する音声合成装置として様々の装置が開発されている。現在では、より高品質な合成のために、合成音声の個人性の向上が多く望まれている。個人性とは、合成音声が画一的でなく、その人らしさを再現するものであり、あたかも本人が話しているかのような合成音声を生成するためには重要な要素である。この合成音声の個人性を向上させる合成装置の従来例として特開平8―87297(従来例1)がある。
【0003】
は、この従来例1の音声合成装置の概略構成を示すブロック図であり、任意の入力テキストを合成音声に出力する場合を示している。この従来の音声合成装置は音声情報検索部21と音声情報データベース22と合成音声生成部23と合成音声生成規則24とから構成されている。
【0004】
音声情報検索部21は、テキストまたは発音記号列が入力されると、自然音声を分析し、抽出した音声特徴量およびこれに対応する発声内容を格納した音声情報データベース22中に、入力テキストまたは発音記号列に一致する発声内容が存在するか否かを検索し、一致する発声内容が存在する場合は、これを合成音声生成部23へ渡し、音声情報に応じた処理を施して合成音声を生成する。また、音声情報検索部21は一致する発声内容が存在しない場合には、入力テキストまたは入力表音記号列をそのまま合成音声生成部23へ渡し、合成音声生成部23は合成音声生成規則24に基づいて合成音声を生成する。このように、音声情報データベース22にあらかじめ自然音声を記憶させておき、発声させたい内容と同じものが音声情報データベース22にある場合には、音声合成を行わず自然音声を出力することで、元の話者の個人性を含む合成音声を生成している。
【0005】
また、他の従来例として、特開平10―153998(従来例2)がある。これは、自然音声を補助情報として使用し、規則合成により音声を合成する装置で、単語辞書を参照して入力テキストの解析により得た単語系列の各単語の音素系列に対する韻律情報を設定し、音声波形辞書を参照して各単語の音素系列から音素波形系列を求めている。また、入力自然音声から韻律情報を抽出し、設定された韻律情報と抽出された韻律情報のいずれかを選択し、その選択された韻律情報により音声波形系列を制御し、合成音声を生成している。このように自然音声から抽出された韻律情報には、元の話者のイントネーションや発声速度などの個人性が含まれている。
【0006】
【発明が解決しようとする課題】
従来例1の音声合成装置では、自然音声から抽出した音声波形をそのまま使用することで、合成音声の個人性を向上させている。また、従来例2の音声合成装置では、自然音声から抽出した韻律パタンをそのまま用いて、元の話者の話し方を再現することで個人性を向上させている。しかし、従来例1、2では、一致する文が記憶したデータにない場合には、規則によりそれらを生成するため、自然音声から抽出したパタンを使った合成音声と比較すると個人性は劣化してしまう。従来例1、2において個人性を向上させるためには、膨大なデータが必要であり、すべての文を網羅するパタンを用意することは困難である。また、従来例1、2では、入力テキストを解析し、その発音情報を単語辞書を用いて生成するが、この単語辞書は、どの話者データに対しても共通であるため、テキストの解析結果も同じである。しかし、たとえ同一の文であっても、実際には発音情報が話者により微妙に異なることは多々ある。この違いは、従来例1や2の方法では、対処することができない。合成音声をより一層元の話者の発声に近づけるためには、この発音情報を生成する時にも個人性を考慮する必要がある。
【0007】
本発明の目的は、合成音声の個人性を向上させるために、話者の個人性を考慮した発音情報を生成することができる音声合成方法および装置を提供することにある。
【0008】
【課題を解決するための手段】
本発明の第1の音声合成方法は、入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話読特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、記音律情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【0009】
本発明の第1の音声合成装置は、国語辞典に記述されている通常の読みを持つ単語辞書と、単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段と、入力テキストに対して単語辞書と読み変換手段を用いて音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【0010】
本発明の第2の音声合成方法は、入力テキストに対して、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話読特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する話者毎の読み変換手段を用いて、話者毎に話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【0011】
本発明の第2の音声合成装置は、国語辞典に記述されている通常の読みを持つ単語辞書と、単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する話者毎の読み変換手段と、入力された話者情報から話者毎の読み変換手段を切り替え、入力テキストに対して単語辞書と話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段を有する。
【0012】
本発明の第3の音声合成方法は、入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて、音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【0013】
本発明の第3の音声合成装置は、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段と、入力テキストに対して、話者別単語辞書と読み変換手段を用いて、音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【0014】
本発明の第4の音声合成方法は、入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、話者毎に話者別単語辞書と話者毎の読み変換手段を切り替えて、音韻情報を生成するテキスト解析段階と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成段階と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する。
【0015】
本発明の第4の音声合成装置は、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、入力された話者情報から話者毎の読み変換手段を切り替え、入力テキストに対して、話者別単語辞書と話者毎の読み変換手段を用いて、音韻情報を生成するテキスト解析手段と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて入力テキストの韻律情報を生成する韻律情報生成手段と、音韻情報と韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する。
【0016】
本発明の記録媒体は、入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、前記韻律情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した。
【0017】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施の形態は、テキストを入力する入力端子1と、入力テキストと単語辞書8を用いて読みとアクセント、ポーズからなる発音情報を生成するテキスト解析部2と、単語辞書8で選択された単語の発音情報を規則によって変換し、テキスト解析部2に渡す読み変換部9と、テキスト解析部2で生成された発音情報に基づいて、イントネーションやリズムのパタンを、音声情報データ格納部6に記憶されている規則やパタンから生成する韻律情報生成部4と、発音情報と韻律情報に基づいて音声情報データ格納部6に記憶されている音声パタンを用いて合成音声を生成する合成音声生成部5と、合成音声生成部5で生成された合成音声を出力する出力端子7で構成されている。
単語辞書8には、各単語の見出し、品詞、読みとアクセント位置が記憶されている。この単語辞書8の発音情報は国語辞典やアクセント辞典を基に作成されている。音声情報データ格納部6には、韻律パタンと音声波形が、テキスト情報と発音情報、ラベル情報とともに記憶されている。
このように単語辞書8と読み変換部9を有することで、話者に特化した読みを供給することが可能となる。読み変換部9に記憶されている変換規則は、例えば、音声合成に使用する話者が、音声情報データベースを作成するために収録した 文や単語のデータを用いて作成することができる。この規則には、ある特定の単語の変換規則を記述することもできるが、いくつか実施から一般化した規則を記述してもよい。例えば、「絵」を/えー/、「蚊」を/かー/、「子」を/こー/、と長音化する話者がいたとする。このような話者は、他の1モーラの単語「歯」や「名」等も同様に長音化させる傾向がある。そこで、音声合成に使用する話者の発音情報を基に、話者の発音情報がない単語も変換させるような規則を記述しておくこともできる。この場合、“「絵」、「蚊」、「子」は長音化させる”というのが、特定の単語の変換規則にあたり、“1モーラの単語は長音化する。”という規則が一般化された変換規則にあたる。このように、変換規則を一般化しておくことで、音声合成に使用する話者の発音情報がない単語でも話者特有の発音情報を変換することができる。
【0018】
次に、本発明の第の実施の形態について図面を参照して説明する。図の本発明の第の実施の形態は、話者別単語辞書3と、第の実施の形態にある読み変換部9の両方を有する点を特徴とする。
話者別単語辞書3には、各単語の見出し、品詞、読みとアクセント位置が記憶されている。この話者別単語辞書3を作成する方法としては、例えば以下のような方法がある。まず、従来音声合成に使われるような標準的な日本語の発音の入った辞書を用意しておく。次に、合成に使う話者が本人の発音に近い発音辞書を作成するために、文や単語を発声したところから抽出した発音情報を単語毎に分割し、該当する辞書の発音情報と置き換えていく。または、音声合成に使用する話者が、音声情報データベースを作成するために収録した文や単語のデータがある場合には、そこから抽出した発音情報を発音辞書に反映させる。このようにして、話者特有の発音情報を持つ辞書を作成していく。この話者別単語辞書3には、合成に使う話者が実際に発声した音声から発音情報を抽出し、記憶しておくため、従来の発音辞書よりもより個人性が反映されたものとなる。音声情報データ格納部6には、話者別単語辞書3を作成した話者が発声した文や単語から抽出された韻律パタンと音声波形が、テキスト情報と発音情報、ラベル情報とともに記憶されている。
入力端子1より入力されたテキストはテキスト解析部2において、まず、話者別単語辞書3を用いて単語の発音情報が選択される。選択された発音情報は、読み変換部9により変換規則にマッチする単語がある場合には、発音情報が変換され、テキスト解析部2へ発音情報として戻される。話者別単語辞書3は、話者が文や単語を発生した音声から抽出した発音情報を基に作成されるため、話者が発生していない単語の発音情報は標準的な日本語のままである。一方、読み変換部9には、話者が発生した音声から抽出した発音情報を基に、それらが一般化された変換規則が格納されている。この一般化された変換規則を使用することで、話者が発生していないため話者別単語辞書3では変換できない発音情報を話者性を考慮した発声情報に変換することができる。
【0019】
なお、第の実施形態の読み変換部9を話者毎に備えてもよく、また第の実施形態の話者別単語辞書3と読み変換部9を話者毎に備えてもよい。
【0020】
以上、合成に使用する話者の発音情報を話者が実際に発声した音声から抽出し、話者別単語辞書や読み変換規則を生成し、その話者の合成音声を作成する際に使用することで、元の話者の発声をより忠実に再現することが可能になる。さらに、これら話者別に話者別単語辞書や読み変換規則と音声情報データを有し、選択された話者に合わせてそれらを切り替えることで、どの合成音声に対しても元の話者の特徴を反映させることができ、合成音声のバリエーションも増やすことができるようになる。
【0021】
は本発明の第1の実施形態をコンピュータを用いて実施した場合のブロック図である。
【0022】
入力装置11はキーボード等で、テキストが入力される。記憶装置12、13はそれぞれ図1中の単語辞書8、音声情報データ格納部6に相当する。記憶装置14はハードディスクである。出力装置15は生成された合成音声が出力される、スピーカ等である。記録媒体16は、図1中のテキスト解析部2、韻律情報生成部4、合成音声生成部5の各処理からなる音声合成プログラムが記録されている、FD(フロッピィ・ディスク)、CD―ROM、MD(光磁気ディスク)等の記録媒体である。データ処理装置17は記録媒体16から音声合成プログラムを記憶装置14に読み込んで、これを実行するCPU である。
【0023】
なお、その他の実施形態も同様にしてコンピュータを用いて実施することができる。
【0024】
【発明の効果】
以上説明したように、本発明は、話者の発音に特化した辞書や変換手段を持ち、合成音声の発音情報を元の話者と同じものにすることにより、合成音声の個人性を向上させることが可能になる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声合成装置のブロック図である。
【図2】本発明の第2の実施の形態の音声合成装置のブロック図である。
【図】第1の実施の形態をコンピュータを用いて実行する装置のブロック図である。
【図】音声合成装置の従来例のブロック図である。
【符号の説明】
1 入力端子
2 テキスト解析部
3 話者別単語辞書
4 韻律情報生成部
5 合成音声生成部
6 音声情報データ格納部
7 出力端子
8 単語辞書
9 読み変換部
11 入力装置
12、13、14 記憶装置
15 出力装置
16 記録媒体
17 データ処理装置
21 音声情報検索部
22 合成音声生成部
23 音声情報データベース
24 合成音声生成規則

Claims (12)

  1. 入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、
    前記読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
  2. 入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、前記読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析段階と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
  3. 入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析段階と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
  4. 入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の話者別単語辞書と読み変換手段を切り替えて、音韻情報を生成するテキスト解析段階と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成段階と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成段階とを有する音声合成方法。
  5. 国語辞典に記述されている通常の読みを持つ単語辞書と、
    前記単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段と、
    入力テキストに対して前記単語辞書と読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段を有する音声合成装置。
  6. 国語辞典に記述されている通常の読みを持つ単語辞書と、
    前記単語辞書の読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する話者毎の読み変換手段と、
    入力された話者情報から前記話者毎の読み変換手段を切り替え、入力テキストに対して前記単語辞書と前記話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段を有する音声合成装置。
  7. 話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、
    前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段と、
    入力テキストに対して、前記話者別単語辞書と前記読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する音声合成装置。
  8. 話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、
    前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の読み変換手段と、
    入力された話者情報から前記話者別単語辞書と前記話者毎の読み変換手段を切り替え、入力テキストに対して、前記話者別単語辞書と前記話者毎の読み変換手段を用いて音韻情報を生成するテキスト解析手段と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手段と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手段とを有する音声合成装置。
  9. 入力テキストに対し、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
    前記韻律情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
  10. 入力テキストに対して、国語辞典に記述されている通常の読みを持つ単語辞書と、その読みを話者特有の読みに変換するための前記話者が実際に発声した音声から作成した変換規則であって、前記話者が実際に発声した特定の単語に対して適用される第1の変換規則と、前記話者が実際に発声した特定の単語と同じ特定のカテゴリに属するひとつまたは複数の単語に対して適用される第2の変換規則を有する話者毎の読み変換手段を用いて、話者毎に前記話者毎の読み変換手段を切り替えて音韻情報情生成するテキスト解析手順と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
  11. 入力テキストに対して、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する読み変換手段を用いて音韻情報を生成するテキスト解析手順と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
  12. 入力テキストに対し、話者が発声した特定の単語は話者特有の発音情報を持ち、話者が発声していない単語は標準的な日本語の発音情報を持つ、話者毎の話者別単語辞書と、前記標準的な日本語の発音情報を話者特有の発音情報に変換するための変換規則であって、前記話者が発声した特定の単語の発音情報を基に当該特定の単語と同じカテゴリに属するひとつまたは複数の単語に対して適用される変換規則を有する話者毎の話者毎の読み変換手段を用いて、話者毎に話者別単語辞書と前記話者毎の読み変換手段を切り替えて音韻情報を生成するテキスト解析手順と、
    前記話者特有の韻律パタンと音声波形を有する音声情報データを用いて前記入力テキストの韻律情報を生成する韻律情報生成手順と、
    前記音韻情報と前記韻律情報に基づいて合成音声を生成する合成音声生成手順とをコンピュータに実行させるための音声合成プログラムを記録した記録媒体。
JP36328398A 1998-12-21 1998-12-21 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体 Expired - Fee Related JP3576848B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36328398A JP3576848B2 (ja) 1998-12-21 1998-12-21 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36328398A JP3576848B2 (ja) 1998-12-21 1998-12-21 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000187495A JP2000187495A (ja) 2000-07-04
JP3576848B2 true JP3576848B2 (ja) 2004-10-13

Family

ID=18478950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36328398A Expired - Fee Related JP3576848B2 (ja) 1998-12-21 1998-12-21 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3576848B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3681111B2 (ja) * 2001-04-05 2005-08-10 シャープ株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
AU2003246279A1 (en) * 2003-06-17 2005-01-04 Sunhee Kim Exceptional pronunciation dictionary generation method for the automatic pronunciation generation in korean
JP2007264466A (ja) 2006-03-29 2007-10-11 Canon Inc 音声合成装置
JP2012108360A (ja) * 2010-11-18 2012-06-07 Mitsubishi Electric Corp 韻律作成装置
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
CN107293284A (zh) * 2017-07-27 2017-10-24 上海传英信息技术有限公司 一种基于智能终端的语音合成方法及语音合成***
CN115578995B (zh) * 2022-12-07 2023-03-24 北京邮电大学 面向语音对话场景的语音合成方法、***及存储介质

Also Published As

Publication number Publication date
JP2000187495A (ja) 2000-07-04

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US9218803B2 (en) Method and system for enhancing a speech database
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US8352270B2 (en) Interactive TTS optimization tool
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
Hamza et al. The IBM expressive speech synthesis system.
Chou et al. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese
JP3576848B2 (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
O'Shaughnessy Modern methods of speech synthesis
JPH0887297A (ja) 音声合成システム
JPH08335096A (ja) テキスト音声合成装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP3060276B2 (ja) 音声合成装置
Farrugia Text-to-speech technologies for mobile telephony services
JPH07200554A (ja) 文章読み上げ装置
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
Cheng et al. HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP2002049386A (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Anilkumar et al. Building of Indian Accent Telugu and English Language TTS Voice Model Using Festival Framework
Purboyo et al. A Review Paper Implementation of Indonesian Text-to-Speech using Java
JP2001166787A (ja) 音声合成装置および自然言語処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070716

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees