JP3685648B2

JP3685648B2 - 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Info

Publication number: JP3685648B2
Application number: JP12044299A
Authority: JP
Inventors: 誠橋本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1999-04-27
Filing date: 1999-04-27
Publication date: 2005-08-24
Anticipated expiration: 2019-04-27
Also published as: JP2000310995A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声素片を接続することによって入力されたテキストに対する音声を生成する音声合成方法において、音程情報の単純化によって処理量を低減しながら、かつ適切な音程情報に従ってテキスト情報を正確に読み上げることができる韻律生成方法に関するものである。
【０００２】
【従来の技術】
従来、合成音声の基本周波数パターン生成モデルとして、電子情報通信学会論文誌Vol.J72-A,No.1,pp32-40（１９８９年１月）「基本周波数パターン生成過程モデルに基づく文章音声の合成」にも開示されているように、句頭から句末に向かう緩やかな下降のフレーズ成分と局所的な起伏のアクセント成分との和で表現する生成モデルが代表的なものとして知られており、これは下記のような関数で生成される。
【０００３】
【数４】

【０００４】
ここで、Api，Aajは、フレーズ成分、アクセント成分の指令の大きさであり、T0iはフレーズ成分の指令の時点、T1j，T2jはアクセント指令の始点と終点である。また、基本周波数パターン生成過程モデルを用いて基本周波数パターンを合成するためには、前記式（Ａ）〜（Ｃ）のパラメータを与える必要があるが、自然音声の分析結果から、αi＝3.0(rad/sec), βj＝20.0(rad/sec),θ＝0.9で固定し得ることが判明している。
【０００５】
【発明が解決しようとする課題】
然し乍ら、テキストから合成音声を生成するテキスト音声変換において上記の基本周波数パターン生成モデルを用いる場合、フレーズ指令やアクセント指令の時点や大きさを、形態素解析などの言語処理によって推定する必要があった。
【０００６】
従って、単語などの短いテキストのみを読ませるといった、言語処理や基本周波数パターン生成処理を簡素化しても合成音声の自然性劣化を抑えることができるようなテキスト音声変換処理においても、複雑な処理を行う必要があるという問題があった。
【０００７】
【課題を解決するための手段】
本発明の音声合成方法は、予め蓄積されている音声素片より所望の音声素片を取り出し、取り出した音声素片を韻律情報に基づいて接続することによって合成音声を生成する音声合成方法において、前記韻律情報としての基本周波数パターン情報を、位置情報と音程情報に基づいて求める。
【０００８】
また、本発明の音声合成装置は、音声素片が蓄積された音声素片蓄積手段と、文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、前記音声素片取り出し手段で取り出された音声素片を前記韻律情報に基づいて接続して合成音声情報を生成する音声素片接続手段とを備える。
【０００９】
さらに、本発明の音声合成装置を備えた電話機は、電話番号情報と該電話番号情報と関連付けられた文字情報とが記憶された記憶手段と、音声信号及び電話番号情報を受信する受信手段と、該受信手段で受信した電話番号情報を抽出する電話番号情報抽出手段と、前記記憶手段の中から前記電話番号情報抽出手段で抽出した電話番号情報を検索して前記電話番号情報と関連付けられた文字情報を検索して出力する検索手段と、該検索手段が出力する文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、前記検索手段が出力する文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、前記恩師情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、前記音声素片取り出し手段で取り出された音声素片を前記韻律情報に基づいて接続して合成音声情報を生成する音声素片接続手段と、該音声素片接続手段からの合成音声情報を音声として放音する放音手段とを備えたことを特徴とする音声合成装置を備える。
【００１０】
【発明の実施の形態】
以下、図面を参照しつつ本発明の一実施形態について詳述する。
【００１１】
先ず、図１は本発明の音声合成方法を適用した音声合成装置の構成を示す概略ブロック図である。同図において、６は文字情報を入力する文字情報入力部、１は文字情報入力部６から入力された文字情報を解析して音素情報及び音程情報を出力する文字情報解析部、２は文字情報解析部１からの音素情報及び音程情報に基づいて基本周波数パターン情報及び音素継続時間長情報を生成する韻律生成部、３は音声素片情報が蓄積された音声データベース、４は韻律生成部２で生成された基本周波数パターン情報及び音素継続時間長情報に基づいて合成させるべき音素列に合致するように音声データベース３から音声素片を取り出す音声素片取り出し部、５は音声素片取り出し部４で取り出された音声素片を接続して所望の合成音声データを出力する音声素片接続部である。
【００１２】
続いて、前記図１に示す音声合成装置の動作について詳述する。
【００１３】
先ず、文字情報入力部６より入力された文字情報は、文字情報解析部１により解析され、韻律生成の区切りが検出されると共に、音素情報決定部１aで、入力された文字に対応する音素記号が求められる。具体的には、例えば入力された文字情報が”ひらかた”であれば、/hirakata/という音素情報を求める。
【００１４】
次に、音程情報決定部１ｂでは、入力された文字列の音程情報が決定される。前記と同様に、入力された文字情報が”ひらかた”であれば、各文字に対応して［低高高高］という音程情報が決定される。
【００１５】
本発明では、音程情報は発声すべき文字情報と共に予め与えられている。例えば図４（ｂ）に示すように、文字列中にアクセント記号（図の例では＃や＊が相当する）を付与しておき、該アクセント記号によって音程情報が判定できるようにしているが、詳細は後述する。
【００１６】
然し乍ら、上記のようなアクセント記号をつけずに、文字列とアクセント情報とが蓄積された単語辞書を参照する方法もある。即ち、入力された文字情報が”ひらかた”であれば、単語辞書より”ひらかた”を検索し、アクセント情報を取得する。
【００１７】
このようにして前記音素情報決定部１ａで決定された音素情報、及び音程情報決定部１ｂで決定された音程情報は、後段の韻律生成部２に送られる。
【００１８】
次に韻律生成部２は、前記文字情報解析部１で決定された音素情報と音程情報に基づいて、以下に示す生成式によって、基本周波数情報[F0(M)]を生成すると共に、音素継続時間長情報を決定する。
【００１９】
尚、音素継続時間長情報については、音素や音声素片などの単位毎の時間長をテーブル化しておくことで計算量を減らすことができる。
【００２０】
【数５】

【００２１】
本実施例では、上記の式（１）〜（４）において、Fh=310Hz、Fl=250Hz、w=0.375、Fmin=150Hzとしている。
【００２２】
尚、前記セグメントの単位は、「呼気段落」，「アクセント句」，「フレーズ」，「ポーズ」，「基本周波数生成の区切り」のいずれかで区切られた区間とすることができる。
【００２３】
補足すると、
［呼気段落］
音声を発声する過程で、呼気の切れ目によって生じるひとまとまりの音声区間をいう。
［アクセント句］
ほぼ文節程度の長さで１つのアクセント型を担う単位である。
［フレーズ］
自然な区切りで区切られる旋律のあるまとまりをいう。
［ポーズ］
音声発声中に生じる間。音のない短い区間である。
［基本周波数生成の区切り］
上記以外の区切りで区切られるひとまとまりの音声区間をいう。
【００２４】
また、位置情報Ｍは、着目しているデータの時間的な位置（何番目の音素であるか、何番目のモーラであるか、何フレーム目であるか、など）を表す情報であり、モーラ位置，音節位置，音素位置，音声素片位置，フレーム位置などが利用できる。
【００２５】
補足すると、
［モーラ］
日本語のかな１字（拗音なら２字）に相当する単位である。
［モーラ位置］
文字列中の何番目のモーラであるかを表す情報である。
（例：文字列「ひらかた」の「ら」のモーラ位置は２［＝２モーラ目］である。）
［音節］
前述のモーラとほぼ同じ単位であるが、長音「−」、撥音「ん」、促音「っ」は１モーラとして扱うのに対して、１音節としては扱わない。
（例：「うんどーかい」のモーラ数は６であるが、音節数は４となる。）
［音節位置］
文字列中の何番目の音節であるかを表す情報である。
（例：「うんどーかい」の「どー」の音節位置は２）
［音素］
言葉の意味の区別を表すのに用いられる音の単位である。
（例：「ひらかた」を音素表記すると /hirakata/となる。）
［音素位置］
文字列中の何番目の音素であるかを表す情報である。
（例：/hirakata/の /r/の音素位置は３である。）
［音声素片］
音声合成用データベースに蓄えておく音声データの最小単位のデータをいう。（例：/hirakata/を合成するときは、/hir/, /rak/, /kat/, /ta/ のような素片を接続する。素片の種類は、ＣＶＣ［子音＋母音＋子音］、ＣＶ［子音＋母音］、ＶＣ［母音+子音］、ＶＶ［母音+母音］など様々である。）
［音声素片位置］
文字列中の音声素片単位で数えて何番目であるかを表す情報である。
【００２６】
［フレーム］
音声を分析してスペクトルやピッチ情報を求める際、短時間毎に分析するのが一般的であり、このときの音声区間をフレームという。（より具体的にいうと、元波形に窓関数を乗じて切り出した音声区間をフレームという。）
［フレーム位置］
文字列中の何番目のフレームであるかを表す情報である。
【００２７】
上記の式（１）〜（４）によって求められた基本周波数情報[F0(M)]は、文字列情報が”ひらかた”の場合、例えば図２のようになる。
【００２８】
即ち、与えられた文字列情報（図の例では”ひらかた”）に対する音程情報は［低高高高］であり、そして各モーラについて各基本周波数情報[F0(M)]を求め、その間を直線補間することで基本周波数パターン情報が生成される。この例では、各モーラ位置において、前記式（１）〜（４）及び前記のFh=310Hz、Fl=250Hz、w=0.375、Fmin=150Hzという条件に基づいて、
F0(1)＝(250×1)-(1×1×0.375)=249.625Hz
F0(2)＝(310×1)-(2×2×0.375)=308.5Hz
F0(3)＝(310×1)-(3×3×0.375)=306.625Hz
F0(4)＝(310×1)-(4×4×0.375)=304Hz
という各基本周波数情報が求められ、各点の間を直線補間して基本周波数パターンが得られる。
【００２９】
尚、図の例では、”ひらかた”という１つのセグメントから成る文字情報についての処理なので、前記式（３）及び（４）においてs=1が適用されるが、”ひらかたこうえん”という文字列の場合、”ひらかた”という第１のセグメントと、”こうえん”という第２のセグメントの２つで構成されるので、前者の文字情報”ひらかた”について各基本周波数情報を求めるときはs=1だが、後者の文字情報”こうえん”について各基本周波数情報を求めるときはs=2となる。
【００３０】
このようにして求めた基本周波数パターン情報に基づいて、音声素片取り出し部４にて、合成すべき音素列に合致するように音声素片を音声データベース３から取り出し、音声素片接続部５に送る。
【００３１】
音声素片接続部５では、音声素片取り出し部４で取り出された音声素片を接続し、韻律生成部２で生成された韻律情報に基づいて、音声素片を加工し、所望の合成音声データを音声信号の形態で出力する。音声素片接続部５から出力された合成音声信号は図示されない増幅器を経て同じく図示されないスピーカから合成音声として出力される。
【００３２】
続いて、上記の音声合成装置をナンバーディスプレイ機能付電話機に適用した例について詳述する。
【００３３】
図３は本発明が適用されたナンバーディスプレイ機能付電話機の構成を示す概略ブロック図である。同図において、公衆電話回線に接続された受信部２００は、その回線を介して音声信号及び電話番号情報を取得する。このうち、電話番号情報は送信元番号抽出部２０１で抽出されて表示部２０２に送られて表示される。
【００３４】
前記送信元番号抽出部２０１で抽出された電話番号情報は、登録データ検索部２０３に送られる。登録データベース２０４には、図４（ａ）に示すように、「登録番号」、「電話番号」、「名前情報」及び「アクセント情報」が使用者によって予め登録されている。そして登録データ検索部２０３が、送信元番号抽出部２０１から送信されてきた電話番号情報が登録データベース２０４に登録されているか否かを検索し、登録されている場合、名前情報を文字情報解析部１に送るように構成されている。
【００３５】
ここで、前記図４に示した「アクセント情報」について補足すると、「０型」とはアクセント核が無いものをいい、「１型」とは１モーラ目にアクセント核があるものをいう。また音程情報は、０型に対しては［低高高高高…］、１型に対しては［高低低低低…］となり、アクセント型とモーラ数から音程情報を決定する。
【００３６】
補足すると、例えば文字列情報が”すずき”の場合、図５に示すように０〜３の型が考えられる。即ち、型のバリエーションはモーラ数をｎとすると、０〜ｎ通りあるということである。
【００３７】
尚、文字情報解析部１、音声素片取り出し部４、及び音声素片接続部５の動作は前述した通りであるので、ここでは割愛する。
【００３８】
次に、図６は公衆電話回線を介して受信した番号情報を、予め登録データベース２０４に登録しておいた送信相手側の名前を読み出した後、音声合成によって読み上げる際の動作を説明するためのフローチャートである。
【００３９】
図６において、先ず、電話が着信状態となったか否かを判断し（ステップＳ１０１）、着信状態であれば、送信元番号抽出部２０１によって抽出された電話番号の表示が許可されているかどうかを判断し（ステップＳ１０２）、電話番号の表示が許可されていれば送信元の電話番号情報を表示部２０２に表示する（ステップＳ１０３）。
【００４０】
次に、登録データ検索部２０３によって、送信元番号抽出部２０１から送られた電話番号情報に対応する名前情報が、登録データベース２０４に登録されているかどうかを調べ（ステップＳ１０４）、電話番号情報に対応する名前情報が登録されていれば登録データベース２０４から名前情報の取得を行い（ステップＳ１０５）、取得された名前情報を表示部２０２に表示する（ステップＳ１０６）。これにより、表示部２０２には前記ステップＳ１０３で処理された電話番号情報及びステップＳ１０６で処理された名前情報が表示されることになる。
【００４１】
次にステップ１０７〜ステップ１１１において名前情報を解析する。具体的には、音素情報決定部１ａにより名前情報を音素列に変換し（ステップＳ１０７）、そして音程情報決定部１ｂにより登録データベース２０４から取得したデータに基づいて音程情報を決定する（ステップＳ１０８）。
【００４２】
さらに、取得された名前情報及び音程情報に基づいて、韻律生成部２により、基本周波数パターン情報と音素継続時間長情報を決定し（ステップＳ１０９）、音声素片取り出し部４により、音声データベース３から音声素片を選択し、それらの素片を接続し（ステップＳ１１０）、合成音声情報（例えば、「鈴木さんからお電話です」など）を出力する（ステップ１１１）。
【００４３】
そして使用者が、通常の電話機能処理、即ち受話器を上げる（オフフック）ことにより、送信元と通話をすることができるが（ステップ１１２）、通常の電話機としての動作についてはその詳細な説明を割愛する。
【００４４】
次に、登録データベース２０４への名前情報の登録フォーマットについて詳述する。登録データベース２０４に登録された情報のフォーマットは、前記図４（ａ）に示すように、アクセント型を記述しておく構成以外に、例えば図４（ｂ）に示すように、アクセント記号を直接書き込むように構成してもよい。
【００４５】
図４（ｂ）の場合は、使用者が直接アクセント情報を入力する。即ち、図４（ｂ）中の例において、「ニ＊シダ」の中にある記号「＊」は、音程が［高］から［低］に落ちる位置を示しており、「ス＃ズキ」の中にある記号［＃］は、音程が［低］から［高］に上がる位置を示している。
【００４６】
上記の実施の形態では、基本周波数パターン情報を閾値まで徐々に下降する線で表現しているが、閾値に近づくほど、下降の度合いを緩めるようなパターンにすれば、さほど処理量を増やすことなく、さらに人間の発声に近づけることができる。
【００４７】
尚、ここでいう閾値とは、前記式（２）におけるＦminに相当する。これを設けないと、音程がどんどん下降していく現象が生じるため、自然な発声ができなくなる。本発明では、基本周波数パターン情報が閾値に達したあとは閾値を保持するように構成されている。ただ、このままでは閾値のところで折れ線的なパターンになりかねないため、閾値に近づくにつれて下降の度合いを緩めることで回避するように成されている。
【００４８】
また、前記音声データベース３に記憶しておくデータは、単音節、音素、モーラなどの単位のうちいずれでもよいし、ＣＶ（子音＋母音）、ＶＣ（母音＋子音）、ＶＶ（母音＋母音）、ＣＶＣ（子音＋母音＋子音）などのように音素環境を考慮したものにしてもよいし、複数の文章をそのまま記憶させておいてもよい。
【００４９】
さらに、音声データベース３に各音声素片毎に複数種類の音声素片が蓄積されている場合には、音声データベースから音声素片を取り出すときに、韻律情報を利用して適切な音声素片を取り出すようにしてもよいことは言うまでもない。
【００５０】
そして、上記のナンバーディスプレー機能付電話機に適用した例では、カナ情報を登録情報として記憶しておくことを想定しているが、登録された時点で音素列に変換し、音素列を記憶しておくようにしてもよい。そして、登録する情報を名前ではなく会社名等にしてもよいことは言うまでもない。
【００５１】
【発明の効果】
以上の説明から明らかなように、本発明によれば、音声合成処理の際の処理量の低減が必要な場合でも、正しいアクセントで文字情報を読み上げることができる効果を奏する。
【図面の簡単な説明】
【図１】本発明の音声合成装置の構成を示すブロック図である。
【図２】基本周波数パターン情報と文字列情報との関係を示す図である。
【図３】本発明の電話機の構成を示すブロック図である。
【図４】登録データベース２０４に登録されている登録情報の一例を示す図である。
【図５】アクセント型を示す図である。
【図６】本発明の電話機の動作を説明するためのフローチャートである。
【符号の説明】
１文字情報解析部
１ａ音素情報決定部
１ｂ音程情報決定部
２韻律生成部
３音声データベース
４音声素片取り出し部
５音声素片接続部
６文字情報入力部
２００受信部
２０１送信元番号抽出部
２０２表示部
２０３登録データ検索部
２０４登録データベース

Claims

音声素片が蓄積された音声素片蓄積手段より所望の音声素片を取り出し、取り出した音声素片を韻律情報に基づいて接続することによって合成音声を生成する音声合成方法であって、
文字情報を解析して各文字に対応した音素情報を求める音素情報生成ステップと、
文字情報を解析して各文字に対応する音程情報を求める音程情報生成ステップと、
前記音素情報生成ステップで求めた音素情報及び前記音程情報生成ステップで求めた音程情報とに基づいて韻律情報を求める韻律情報生成ステップと、
前記音素情報生成ステップで求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出しステップと、
前記韻律情報に基づいて前記音声素片取り出しステップで取り出された音声素片を接続して合成音声情報を生成する音声素片接続ステップとを具え、
前記韻律情報生成ステップは、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式（１）〜（４）によって基本周波数情報［Ｆ０（Ｍ）］を算出し、該基本周波数情報［Ｆ０（Ｍ）］に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成方法。
前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項１記載の音声合成方法。
前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項１記載の音声合成方法。
前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項１記載の音声合成方法。
前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項１記載の音声合成方法。
前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項１記載の音声合成方法。
前記位置情報は、セグメント開始点からのフレーム数で表され
ることを特徴とする請求項１記載の音声合成方法。
前記音程情報は、前記位置情報で表される位置ごとの高低を表
す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、各モーラ位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１乃至請求項７記載の音声合成方法。
前記音程情報は、前記位置情報Ｍで表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１乃至請求項７記載の音声合成方法。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１乃至請求項７記載の音声合成方法。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１乃至請求項７記載の音声合成方法。
前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項１乃至請求項１１記載の音声合成方法。
前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項１乃至請求項１１の音声合成方法。
前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項１乃至請求項１１記載の音声合成方法。
前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項１乃至請求項１１記載の音声合成方法。
前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項１乃至請求項１１記載の音声合成方法。
音声素片が蓄積された音声素片蓄積手段と、
文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、
前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、
前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、
前記韻律情報に基づいて前記音声素片取り出し手段で取り出された音声素片を接続して合成音声情報を生成する音声素片接続手段とを備え、
前記韻律情報生成手段は、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式（１）〜（４）によって基本周波数情報［Ｆ０（Ｍ）］を算出し、該基本周波数情報［Ｆ０（Ｍ）］に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成装置。
前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項１７記載の音声合成装置。
前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項１７記載の音声合成装置。
前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項１７記載の音声合成装置。
前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項１７記載の音声合成装置。
前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項１７記載の音声合成装置。
前記位置情報は、セグメント開始点からのフレーム数で表されることを特徴とする請求項１７記載の音声合成装置。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各モーラ位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１７乃至請求項２３記載の音声合成装置。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１７乃至請求項２３記載の音声合成装置。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１７乃至請求項２３記載の音声合成装置。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項１７乃至請求項２３記載の音声合成装置。
前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項１７乃至請求項２７記載の音声合成装置。
前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項１７乃至請求項２７記載の音声合成装置。
前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項１７乃至請求項２７記載の音声合成装置。
前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項１７乃至請求項２７記載の音声合成装置。
前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項１７乃至請求項２７記載の音声合成装置。
電話番号情報と該電話番号情報と関連付けられた文字情報とが記憶された記憶手段と、
音声信号及び電話番号情報を受信する受信手段と、
該受信手段で受信した電話番号情報を抽出する電話番号情報抽出手段と、
前記記憶手段の中から前記電話番号情報抽出手段で抽出した電話番号情報を検索して前記電話番号情報と関連付けられた文字情報を検索して出力する検索手段と、
該検索手段が出力する文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、
前記検索手段が出力する文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、
前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、
前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、
前記韻律情報に基づいて前記音声素片取り出し手段で取り出された音声素片を接続して合成音声情報を生成する音声素片接続手段と、
該音声素片接続手段からの合成音声情報を音声として放音する放音手段とを備えたことを特徴とする音声合成装置を備え、
前記韻律情報生成手段は、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式（１）〜（４）によって基本周波数情報［Ｆ０（Ｍ）］を算出し、該基本周波数情報［Ｆ０（Ｍ）］に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記位置情報は、セグメント開始点からのフレーム数で表されることを特徴とする請求項３３記載の音声合成装置を備えた電話機。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各モーラ位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項３３乃至請求項３９記載の音声合成装置を備えた電話機。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項３３乃至請求項３９記載の音声合成装置を備えた電話機。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項３３乃至請求項３９記載の音声合成装置を備えた電話機。
前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報［Ｆ０（Ｍ）］を算出することを特徴とする請求項３３乃至請求項３９記載の音声合成装置を備えた電話機。
前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項３３乃至請求項４３記載の音声合成装置を備えた電話機。
前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項３３乃至請求項４３記載の音声合成装置を備えた電話機。
前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項３３乃至請求項４３記載の音声合成装置を備えた電話機。
前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項３３乃至請求項４３記載の音声合成装置を備えた電話機。
前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項３３乃至請求項４３記載の音声合成装置を備えた電話機。