以下、本発明の実施の形態、及び本発明に関連する他の発明の実施の形態について、図1から図20を用いて説明する。
(実施の形態1)
図1は、本発明に関連する他の発明の一実施の形態を示す基本周波数パタン生成装置の機能ブロック図であり、同図を参照しながら、本実施の形態の構成を説明する。
即ち、図1において、10は音声合成の対象となる文字列を入力する文字列入力部である。20は文字列入力部10より入力された文字列を解析し合成されるべき音声の音韻情報とアクセントやポーズ等の韻律情報を出力する文字列解析部である。30は発話速度、発話中での音韻の位置等の条件ごとに各音韻の時間長を記憶する音韻時間長データベースであり、40は文字列解析部20より出力された音韻情報および韻律情報に基づいて音韻時間長データベース30を参照して各音韻の時間長を設定する時間長設定部である。50はアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの時間長で標準化した基本周波数パタンをモーラ毎に記憶するモーラ時間長標準化基本周波数データベースであり、60は文字列解析部20より出力された韻律情報と時間長設定部40で設定された音韻の時間長に基づいてモーラ時間長標準化基本周波数データベース50を参照して基本周波数パタンを生成する基本周波数パタン生成部である。70は基本周波数パタン生成部より出力された基本周波数パタンに基づいて声帯振動を生成する声帯振動生成部であり、合成音声の音源振動を生成する。図2は本発明による基本周波数パタンの一例である。
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列(図2に示す、「オンセーゴーセー」の文字列)が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
まず、図2中のa)のようにアクセント句の先頭モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。次にアクセント句のモーラ数とアクセント型より基本周波数が最大値をとるモーラを特定し、図2中のb)のように特定されたモーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。図2中のc)およびd)のようにアクセント核とアクセント核の次のモーラの基本周波数パタンおよびアクセント句の最終モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。図2のb)とc)、c)とd)のように基準となるモーラの間を実時間軸で線形補間を用いて、図2のe)、f)およびg)の基本周波数パタンを決定する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの時間長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
(実施の形態2)
図4は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を区間の中央点の値として記憶する母音時間長標準化基本周波数データベース150aに置き換わった以外は図1と同様である。
図3は本発明による基本周波数パタンの一例である。以下その動作を述べる。まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース150aより基本周波数が最大値をとるモーラの母音相当部を4等分した3番目の区間中央のa)立ち上がり基準点、アクセント核に当たるモーラの母音相当部を4等分した3番目の区間中央のb)立ち下がり基準点、アクセント核の次のモーラの母音相当部を4等分した3番目の区間中央のc)立ち下がり基準点、アクセント句の最終モーラの母音相当部を4等分した2番目の区間中央のd)アクセント句末基準点、および最終モーラの母音相当部を4等分した3番目の区間中央のe)語尾基準点を取得する。
次に各基準点を対応するモーラの母音時間長に対する相対位置に設定する。a)立ち上がり基準点が最大値となるようアクセント句の先頭からa)立ち上がり基準点までを実時間軸上で対数周波数軸に対する臨界制動2次線形系を用いて補間する。a)からd)の各基準点の間を各区間ごとに2点間を実時間軸上で対数周波数軸に対する臨界制動2次線形系を用いて補間する。さらにアクセント句の終了が発話の終了である場合には、d)アクセント句末基準点とe)語尾基準点との間を実時間軸上の関数である語尾関数により補間する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
(実施の形態3)
本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図は、上記実施の形態2のデータベース150aが、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンとアクセント句の先頭基本周波数を記憶する母音時間長標準化基本周波数データベース150bに置き換わった以外は図4と同様であるので、図示を省略する。
図5は本発明による基本周波数パタンの一例である。
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列(図5に示す、「oNse−go−se−」の文字列)が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
まず、図5中のAのようにアクセント句の先頭基本周波数を母音時間長標準化基本周波数データベース150bより取得する。次に図5中のa)のようにアクセント句の先頭モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース150bより取得する。本例では第1モーラは単母音音節であるので図5中のa)のように当該モーラの時間長の後半部に対して母音時間長標準化基本周波数データベース150bより取得した基本周波数パタンを適用する。b)、c),d),e),f),g),h)についても同様に当該モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース150bより取得する。撥音であるb)、長音であるd),f),h)についてもa)と同様に当該モーラの時間長の後半部にたいして母音時間長標準化基本周波数データベース150bより取得した基本周波数パタンを適用する。次に単母音音節、撥音、長音の前半部あるいは有声子音のa')、b')、d')、e'),f')、h')の基本周波数を前後の基本周波数により、実時間軸で線形補間を用いて生成する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
(実施の形態4)
実施の形態4においては母音時間長標準化基本周波数データベース150aはアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、A)先頭基本周波数、B)立ち上がり基準点、C)立ち下がり基準点(アクセント核)、D)立ち下がり基準点(アクセント核の直後)、E)アクセント句末基準点、およびF)語尾基準点を、各基準点を含むモーラの母音時間長に対する相対位置で記憶する母音時間長標準化基本周波数データベースである。これ以外は装置の構成については図4と同様である。図6は本発明による基本周波数パタンの一例である。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース150aよりA)からF)の基準点を取得する。次に各基準点を対応するモーラの母音長に対する相対位置に設定する。A)先頭基本周波数からB)立ち上がり基準点までの間を実時間軸上の関数を用いて生成する。さらにB)以降の各基準点の間の基本周波数パタンを実時間軸上の直線で補間することにより生成する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
(実施の形態5)
図7は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、母音時間長標準化基本周波数データベース150aがアクセント句のモーラ数、アクセント型の条件についてa)立ち上がり基準点、b)立ち下がり基準点(アクセント核)、c)立ち下がり基準点(アクセント核の直後)、d)アクセント句末基準点、およびe)語尾基準点を、各基準点を含むモーラの母音あるいは母音相当部の時間長に対する相対位置で記憶し、音韻あるいは音素列による基本周波数の微細な変動を母音時間長標準化基本周波数データベース150aに記憶された各基準点および基準点の間を補間した値との差を音素の時間長で標準化して記憶するマイクロプロソディデータベース250がつけ加わった以外は図4と同様である。
図8はマイクロプロソディデータベース250に記憶されているマイクロプロソディ成分の模式図であり、図9(A)〜(C)は本発明による基本周波数パタンの一例である。
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの音素ごとの時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型により、母音時間長標準化基本周波数データベースより、基本周波数が最大値をとるモーラの母音相当部を4等分した3番目の区間中央のa)立ち上がり基準点、アクセント核に当たるモーラの母音相当部を4等分した3番目の区間中央のb)立ち下がり基準点、アクセント核の次のモーラの母音相当部を4等分した3番目の区間中央のc)立ち下がり基準点、アクセント句の最終モーラの母音相当部を4等分した2番目の区間中央のd)アクセント句末基準点、および最終モーラの母音相当部を4等分した3番目の区間中央のe)語尾基準点を取得する。
次に各基準点を対応するモーラの音素時間長に対する相対位置に設定する。a)立ち上がり基準点が最大値となるようアクセント句の先頭からa)立ち上がり基準点までを実時間軸上でかつ対数周波数軸に対する臨界制動2次線形系で補間する。a)からe)の各基準点の間を各区間ごとに2点間を実時間軸上でかつ対数周波数軸に対する臨界制動2次線形系で補間し、図9(A)のような基本周波数パタンを生成する。次にマイクロプロソディデータベース250より各音素に対応する基本周波数の微細な変動を取得し、各音素の時間長に合わせて伸長圧縮し、図9(B)のように適用する。図9(A)の基本周波数パタンに、同図(B)の微細な変動を加え、同図(C)のような基本周波数パタンを生成する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素の時間長で標準化した軸上で設定することによりモーラ内での基本周波数の変動のタイミングを詳細に再現し、さらに音声の自然性と明瞭性に影響する、基本周波数の微細な変動を加えることにより高い自然性と明瞭性を実現する。
(実施の形態6)
図10は本発明の一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型の条件について基本周波数パタンのピークである第iモーラのa)立ち上がり基準点、b)立ち下がり基準点(アクセント核)、c)立ち下がり基準点(アクセント核の直後)、アクセント句末尾のkモーラのd)アクセント句末基準点を、各基準点を含むモーラの音素の時間長に対する相対位置で記憶する音素時間長標準化基本周波数データベース351に入れかわり、基本周波数を生成しようとするアクセント句のフレーズ内での位置ごとにアクセント句のピークと末尾の基本周波数の変形量を記憶した基本周波数パタン変形データベース350がつけ加わった以外は図1と同様である。
図11、図12、図13および図14は音素時間長標準化基本周波数データベース351に基本周波数生成しようとするアクセント句のモーラ数およびアクセント型に対応する基本周波数パタンのデータがない場合に生成する基本周波数パタンの模式図である。図15は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
まず、アクセント句のモーラ数とアクセント型および音韻列等により、音素時間長標準化基本周波数データベース351よりa)立ち上がり基準点、b)立ち下がり基準点、c)立ち下がり基準点、d)アクセント句末基準点、あるいは、d’)最終モーラを取得する。
基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンのデータが音素時間長標準化基本周波数データベース351にない場合は、基本周波数を生成しようとするアクセント句のモーラ数がnモーラ、アクセント型がm型とすると、mがi+1以下の場合は図11(A)のように、アクセント型がm型でモーラ数がnに最も近いlモーラm型の基本周波数パタンのa)からd)を音素時間長標準化基本周波数データベース351より取得し、図11(B)のように音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
mがi+1より大きくn−k以下の場合は図12(A)のように、アクセント核のモーラ位置jがi+1より大きくl−k以下で、モーラ数がnに最も近いlモーラj型の基本周波数パタンのa)からd)を音素時間長標準化基本周波数データベース351より取得し、図12(B)のように音素時間長標準化基本周波数データベース351から取得したb)とc)を基本周波数を生成しようとするアクセント句の第mモーラと第m+1モーラの基準点として設定し、音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
mがn−kより大きい場合は図13(A)のように、アクセント核のモーラ位置jがl−kより大きくモーラ数がnに最も近いlモーラj型の基本周波数パタンのa)からd’)を音素時間長標準化基本周波数データベース351より取得し、図13(B)のように音素時間長標準化基本周波数データベース351から取得したb)とc)を含むd’)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。基本周波数を生成しようとするアクセント句がnモーラ平板型の場合図14(A)のように、アクセント型が平板型でモーラ数がnに最も近いlモーラ平板型の基本周波数パタンのa)とd)を音素時間長標準化基本周波数データベース351より取得し、図13(B)のように音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
次に、音素時間長標準化基本周波数データベース351より取得されたあるいは音素時間長標準化基本周波数データベース351より取得された基準点より生成されたアクセント句の基本周波数パタンを基本周波数変形データベース350にアクセント句のフレーズ内での位置ごとに記憶された変形量に従って、各アクセント句の基本周波数の最大値、a)からd)あるいはd’)の基準点の基本周波数を変更する。
まず基本周波数変形データベース350に記憶された第1アクセント句の変形量により図15中のA)のように、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の90%になるようにb)、c)およびd)の基本周波数を変更する。第2アクセント句については図15中のB)のように、a)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の75%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の70%になるようにb)、c)およびd)の基本周波数を変更する。同様に第3アクセント句も図15中のC)のようにa)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の70%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の68%になるようにb)、c)およびd)の基本周波数を変更する。
基本周波数変形データベース350に第nアクセント句に対応する変形量が記憶されていない場合、アクセント位置の値がnより小さく、最もnに近いアクセント位置に対応する変形量を適用する。本例では第4アクセント句の変形量が基本周波数変形データベース350に記憶されていない場合を示す。
アクセント位置の値が4より小さく、最も4に近い第3アクセント句の変形量を適用し図15中のD)のように第3アクセント句と同様の変形を加える。フレーズ終端である最終アクセント句については、基本周波数変形データベース350より最終アクセント句に対応する変形量を取得し、図15中のE)のようにa)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の48%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の60%になるようにb)、c)およびd)の基本周波数を変更する。
次に、各アクセント句について、実施の形態2あるいは実施の形態4のようにアクセント句の先頭からa)までの基本周波数を実時間軸上の関数を用いて生成し、さらに各基準点の間を実時間軸上で補間し、アクセント句終了点までの基本周波数パタンを生成する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに基本周波数パタンの拡張を行うことによりデータベースの縮小が可能になる。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
(実施の形態7)
図17は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図1に同じである。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
図17に示す様に、まず、第1アクセント句1701のモーラ数、アクセント型に対応する基本周波数パタン1711をモーラ時間長標準化基本周波数データベース50より取得し、適用する。
第1アクセント句1701の基本周波数の最大値aを通り、第nアクセント句の位置を示すiの値が増加するごとに、第1アクセント句1701の最大値aが10%低下するような、第nアクセント句に対するアクセント句の基本周波数最大値を示す式1を求める。
(数1)
(−0.1i+1)a …式1
但し、aは、第1アクセント句1701の基本周波数の最大値である。また、アクセント句数iは、第nアクセント句が、第1アクセント句から数えて、何番目のアクセント句であるかを示す数であり、n−1となる。
さらに第1アクセント句1701のアクセント句末の周波数bを通り、第nアクセント句の位置を示すiの値が増加する毎に、第1アクセント句1701のアクセント句末の周波数bが5%低下するような、第nアクセント句に対するアクセント句末の周波数を示す式2を求める。
(数2)
(−0.05i+1)b …式2
但し、bは、第1アクセント句1701のアクセント句末の周波数である。
次に、第2アクセント句1702のモーラ数、アクセント型に対応する基本周波数パタン1712(図中、点線で表した)をモーラ時間長標準化基本周波数データべース50より取得する。第2アクセント句のアクセント句数iは1であるから、これを式1に代入して、基本周波数パタン1712の変形後の最大値a2を求める。同様にして、式2より、基本周波数パタン1712の変形後のアクセント句末の周波数b2を求める。
この様にして求めた変形後の最大値a2と、変形後のアクセント句末の周波数b2とに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1712を変形した後、変形後の基本周波数パタン1713を第2アクセント句1702の基本周波数パタンとして用いる。
第nアクセント句についても、当該アクセント句が最終アクセント句(文末)でない場合、第nアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得する。そして、その取得した基本周波数パタンの最大値が、式1より得られた値に一致し、且つ、その取得した基本周波数パタンのアクセント句末の周波数が、式2より得られた値に一致する様に、上記データベース50より取得した基本周波数パタンを変形し、これを第nアクセント句の基本周波数パタンとして用いる。
更に、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を15%低下させた値に一致し、しかも、アクセント句末の周波数が直前のアクセント句のアクセント句末を10%低下させた値に一致するように、上記データベース50より取得した基本周波数パタンを変形し、これを適用する。
尚、対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース50にない場合は、実施の形態6のようにアクセント句の基本周波数パタンを生成し、これを変形する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
尚、上記実施の形態では、基本周波数を生成しようとするアクセント句が、文末である場合のみ、直前のアクセント句の所定位置の周波数を基準として、その周波数を所定の比率で低下させて用いる場合について述べた。そこで、上記実施の形態の変形例として、文末以外に存在しているアクセント句についても、上記例と同様のルールで各周波数値を圧縮しても良い。即ち、この場合、例えば、図18に示す様に、文末を除く、第2アクセント句から第nアクセント句については、それぞれ、直前のアクセント句の最大値を10%低下させた値(図中、例えば、a2)と、直前のアクセント句のアクセント句末の周波数を5%低下させた値(図中、例えば、b2)を求める。
そして、例えば第2アクセント句については、この様にして求めた変形後の最大値a2と、変形後のアクセント句末の周波数b2とに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1712を変形した後、変形後の基本周波数パタン1713を第2アクセント句1702の基本周波数パタンとして用いる。第nアクセント句についても、これと同様である。尚、基本周波数を生成しようとするアクセント句が、文末である場合は、図17と同様の方法を用いる。
(実施の形態8)
図19は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図1に同じである。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
図19に示す様に、まず、第1アクセント句1801のモーラ数、アクセント型に対応する基本周波数パタン1811をモーラ時間長標準化基本周波数データベース50より取得し、適用する。
第1アクセント句1801の基本周波数の最大値aを通り、第1アクセント句の基本周波数の最大値aを含むモーラ位置からのモーラ数が増えるごとにアクセント句1801の最大値aが2%低下するような、累積モーラ数jに対するアクセント句の基本周波数最大値を示す式3を求める。
(数3)
(−0.02j+1)a …式3
但し、aは、第1アクセント句1801の基本周波数の最大値であり、累積モーラ数jは、第1アクセント句の基本周波数の最大値aを含むモーラ位置(図中、横軸の原点とした)を基準として数えたモーラ数である。
さらに第1アクセント句1801のアクセント句末の周波数bを通り、第1アクセント句のアクセント句末の周波数bを含むモーラ位置からのモーラ数が増えるごとに、第1アクセント句1801のアクセント句末の周波数bが1%低下するような、累積モーラ数jに対するアクセント句末の周波数を示す式4を求める。
(数4)
(−0.01j+1)b …式4
但し、bは、第1アクセント句1801のアクセント句末の周波数である。
次に、第2アクセント句1802のモーラ数、アクセント型に対応する基本周波数パタン1812(図中、点線で表した)をモーラ時間長標準化基本周波数データべース50より取得し、その最大値1812aをとるモーラが、原点のモーラからj2aモーラ目になることを求め、これを式3に累積モーラ数として代入して、基本周波数パタン1812の変形後の最大値a2を求める。又、第2アクセント句1802のアクセント句末1812bが原点のモーラからj2bモーラ目になることを求め、これを式4に累積モーラ数として代入して、基本周波数パタン1812の変形後のアクセント句末の周波数b2を求める。
この様にして求めた変形後の最大値a2と、変形後のアクセント句末の周波数b2とに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1812を変形した後、これを第2アクセント句1802の基本周波数パタンとして用いる。
第nアクセント句についても、当該アクセント句が最終アクセント句(文末)でない場合、第nアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値をとるモーラが、原点のモーラから数えて何モーラ目になるかを求め、これを式3に累積モーラ数として代入して基本周波数パタンの変形後の最大値を求める。更に、アクセント句末が、原点のモーラから数えて何モーラ目になるかを求め、これを式4に累積モーラ数として代入して基本周波数パタンの変形後のアクセント句末の周波数を求める。
この様にして求めた変形後の最大値と、変形後のアクセント句末の周波数とに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタンを変形して、第nアクセント句の基本周波数パタンとして用いる。
又、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を15%低下させた値に一致し、アクセント句末の周波数が直前のアクセント句のアクセント句末を10%低下させた値に一致するよう取得した基本周波数パタンを変形して適用する。対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース50にない場合は、実施の形態6のようにアクセント句の基本周波数パタンを生成し、変形する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内での累積モーラ位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
(実施の形態9)
図16は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50が第1アクセント句から第3アクセント句についてアクセント句が文末であるか否か、およびアクセント句のモーラ数、アクセント型、音韻列等の、韻律を決定する要因によって分類された、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンを記憶するアクセント句位置基本周波数データベース450に置き換わった以外は図1と同様である。
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型、およびアクセント句のフレーズ内での位置を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。
時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。本例では5つのアクセント句によって構成される文の基本周波数の生成を説明する。
まず、第1アクセント句に対して、アクセント句位置基本周波数データベース450より第1アクセント句で文末でない、基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンを取得する。第2アクセント句、第3アクセント句に対しても同様にアクセント句位置基本周波数データベース450より基本周波数パタンを取得する。
第4アクセント句については、アクセント句位置基本周波数データベース450に第4アクセント句に対応する基本周波数パタンはないため、第4アクセント句にアクセント句の位置が最も近い第3アクセント句の、文末でない基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。
最終アクセント句である第5アクセント句についても、アクセント句位置基本周波数データベース450に該当する基本周波数パタンはないため、アクセント句の位置が最も近い第3アクセント句の、文末の基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。実施の形態3あるいは実施の形態4のように基本周波数パタンのない部分を実時間軸上で補間し、基本周波数パタンを生成する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
当該モーラの母音長で標準化した基本周波数パタンを利用することによりモーラ内での基本周波数の変動を詳細に再現し、アクセント句の位置、文末か否かの条件によって当てはめることによりフレーズ単位の基本周波数の変動を正確に再現できるため、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
(実施の形態10)
図20(A)、(B)はアクセント句の基本周波数パタンを接続して文を生成する際の基本周波数パタンの接続部の模式図である。本発明に関連する他の発明一実施の形態の基本周波数パタン生成装置の構成については図1に同じである。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
まず、基本周波数パタンを生成しようとする各アクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得し、適用する。実施の形態6、実施の形態7、あるいは実施の形態8の方法でアクセント句ごとにモーラ時間長標準化基本周波数データベース50より取得した基本周波数パタンを変形する。
変形された各アクセント句の基本周波数パタンのうち、文末でない第nアクセント句につて、図20のe)当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差を求める。
第nアクセント句と第n+1アクセント句の間にポーズがない場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が40Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から40を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、図20のf)のように第nアクセント句と第n+1アクセント句の間を滑らかに接続する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が40Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から40を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、第nアクセント句と第n+1アクセント句の間を滑らかに接続する。
第nアクセント句と第n+1アクセント句の間に50msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が50Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から50を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が50Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から50を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
第nアクセント句と第n+1アクセント句の間に50msec以上100msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が70Hz以上で、第nアクセントト句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が70Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
第nアクセント句と第n+1アクセント句の間に100msec以上150msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が80Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から80を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が80Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
アクセント句単位で生成した基本周波数パタンの末尾を後続アクセント句との間のポーズ長に基づいて変形することによりアクセント句どうしの接続部を滑らかにし、自然な文音声を実現することができる。
なお、以上の説明では、実施の形態1、3、4では補間関数として直線を用い、実施の形態2で補間関数として対数周波数軸に対する臨界制動2次線形系を用いた例で説明したが、実施の形態1、3、4に臨界制動2次線形系を用い、実施の形態2に直線を用いてもよい、またその他の実時間軸上の関数についても同様に実施可能である。
なお、実施の形態2においてアクセント句の先頭から、立ち上がり基準点までの基本周波数を対数周波数軸に対する臨界制動2次線形系を用いて補間し、実施の形態4で実時間軸上で表現された基本周波数パタンを当てはめることにより補間したが、実施の形態2に実時間軸上で表現された基本周波数パタンを当てはめ、実施の形態4に対数周波数軸に対する臨界制動2次線形系を用いてもよい。
なお、実施の形態2において母音時間長標準化基本周波数データベース150aは各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各音素の時間長で標準化したものであればこれ以外のものでもよい。
なお、実施の形態2、5において、アクセント立ち上がり基準点を当該モーラの母音長を4等分した3番目の区間の中央を立ち上がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態5において母音時間長標準化基本周波数データベース150aは各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各母音の時間長で標準化したものであればこれ以外のものでもよい。
なお、実施の形態2、5において、アクセント立ち上がり基準点を当該モーラの母音長を4等分した3番目の区間の中央を立ち上がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態2、5において、アクセント核に当たるモーラの母音長を4等分した3番目の区間の中央と、アクセント核の次のモーラの母音長を4等分した3番目の区間の中央の2点を立ち下がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態2、5において、アクセント句の最終モーラの母音長を4等分した2番目の区間の中央をアクセント句末基準点としたが、母音の前半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態2、5において、発話の最終モーラの母音長を4等分した3番目の区間の中央を語尾基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態5において、マイクロプロソディを付加する基礎となる基本週は素パタンを実施の形態2と同様に生成したが、実施の形態1、3、4と同様にしても良い。
なお、実施の形態6において、アクセント句の基本周波数パタンを実施の形態2と同様に生成したが、実施の形態1、3、4と同様にしても良い。
なお、実施の形態6において、基本周波数パタンの基準点をデータベースより取得された変形量に従って変更した後に補間を行ったが、補間を行った後に基本周波数パタンを変形しても良い。
なお、実施の形態6において、基本周波数パタンの変形量として、第1アクセント句では最大値とアクセント句末との差を90%に圧縮したが70%から100%未満の範囲内の他の値でも良い。
なお、実施の形態6において、基本周波数パタンの変形量として、第2アクセント句においては最大値を75%に圧縮し、第3アクセント句、第nアクセント句においては最大値を70%に圧縮したが50%から90%の範囲内の他の値でも良い。
なお、実施の形態6において、基本周波数パタンの変形量として、第2アクセント句においては最大値とアクセント句末との差を70%に圧縮し、第3アクセント句、第nアクセント句においては最大値とアクセント句末との差を68%に圧縮したが50%から90%の範囲内の他の値でも良い。
なお、実施の形態6において、基本周波数パタンの変形量として、最終アクセント句については最大値を48%に圧縮したが30%から70%の範囲内の他の値でも良い。
なお、実施の形態6において、基本周波数パタンの変形量として、最終アクセント句については最大値とアクセント句末との差を60%に圧縮するとしたが40%から80%の範囲内の他の値でも良い。
なお、実施の形態7において、式1のiの係数を−0.1としたが−0.05から−0.4の範囲内の他の値でも良い。
なお、実施の形態7において、式2のjの係数を−0.05としたが0を最大として−0.2の範囲内の他の値でも良い。
なお、実施の形態7および実施の形態8において最終アクセント句においては、基本周波数の最大値を直前のアクセント句の最大値を15%低下させた値としたが、10%から40%の範囲内の他の値でも良い。
アクセント句末を直前のアクセント句のアクセント句末を10%低下させた値にするとしたが、5%から40%の範囲内の他の値でも良い。
なお、実施の形態8において、式3のiの係数を−0.02としたが、これに限らず、−0.01から−0.2の範囲内の他の値でも良い。
なお、実施の形態8において、式4のjの係数を−0.01としたが、これに限らず、−0.01から−0.1の範囲内の他の値でも良い。
なお、実施の形態10において実施の形態6、7、あるいは8同様にしてモーラ時間長標準化基本周波数データベース50より取得した基本周波数パタンを変形するとしたが、実施の形態9と同様にアクセント句位置基本周波数データベース450よりアクセント句の位置に基づいて基本周波数パタンを取得するとしても良い。
なお、実施の形態10において第nアクセント句と第n+1アクセント句の間にポーズがない場合に、第nアクセント句の最終モーラの母音部中央と第n+1アクセント句の先頭モーラの母音部中央の基本周波数の差が40Hz以下になるように基本周波数パタンを変形するとしたが、20Hzから60Hzの間の他の値でも良い。
なお、実施の形態10においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第nアクセント句と第n+1アクセント句の間のポーズの持続時間を50msec未満、50msec以上100msec未満、100msec以上150msec未満、150msec以上の4段階に分類したが、1ないし8の他の数の段階に分類しても良い。
なお、実施の形態10において第nアクセント句と第n+1アクセント句の間のポーズの持続時間が150msec以上の場合はアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更を行わないものとしたが、変更を行うポーズの持続時間の上限は120msecから200msecの間のほかの値としても良い。
なお、実施の形態10においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第nアクセント句と第n+1アクセント句の間のポーズの持続時間を4段階に分類し、第nアクセント句の最終モーラの母音部中央と第n+1アクセント句の先頭モーラの母音部中央の基本周波数の差の上限をポーズの持続時間の段階毎に設定したが、ポーズの持続時間tに対する一次式(式5)
(数5)
at+b(Hz) …式5
ただし 0<a<0.4 20<b<60
によって設定するとしても良い。
なお、本発明はプログラムによって実現し、これをフロッピー(登録商標)ディスク、光ディスク、ICカード、ROMカセット等のプログラムを記録することのできる記録媒体に記録して移送することにより、独立した他のコンピュータシステムで容易に実施することができる。
又、本発明の音韻は、上記実施の形態では、主にモーラに該当するものとして説明したが、これに限らず例えば、音節であっても良い。即ち、上記の様に、基本周波数データベースとして、モーラ単位又は音素単位でデータを格納している場合に限らず例えば、音節単位又は音節に含まれる音素単位でデータを格納した基本周波数データベースを用いても勿論良く、この場合でも、上記と同様の効果を発揮する。即ち、上述した全ての実施の形態において、「モーラ」を「音節」と読み替えた構成としても、上記と同様の効果を発揮する。
又、上記実施の形態では、基本周波数データベースが、末尾から3モーラまでの基本周波数パタンを保持している場合について述べたが、最大限末尾から4モーラまでの基本周波数パタンを保持しておけば十分な効果を発揮する。
上記の様に、本発明の第1の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句の末尾の1モーラあるいは複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第2の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第3の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句末尾の1ないし複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第4の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第5の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースと、音素あるいは音韻列ごとの基本周波数を音素時間長で標準化した値と基本周波数パタンとの差を記憶したマイクロプロソディデータベースとを用い、音素時間長標準化基本周波数データベースから取得された基本周波数パタンにマイクロプロソディデータを加算あるいは減算することにより基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第6の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句ごとの基本周波数パタンを生成する基本周波数パタン生成方法において、基本種端数を生成しようとするアクセント句のモーラ数およびアクセント型に該当する基本周波数パタンが音素時間長標準化基本周波数データベース内にない場合、データベース内の基本周波数パタンを利用し、基本周波数を生成しようとするアクセント句をnモーラm型、データベースから取得した基本周波数パタンをlモーラj型、取得した基本周波数パタンの最大値を含むモーラの位置をi、取得した基本周波数パタンのアクセント句末尾のモーラ数をkとするとき、m≦i+1のとき第1から第m+1モーラまではデータベースより取得した基本周波数パタンの第1から第j+1モーラまでを適用し、第n−k+1から第nモーラまではデータベースより取得した基本周波数パタンの第l―k+1から第lモーラを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またi+1<m≦n−k+1のとき第1から第iモーラまではデータベースより取得した基本周波数パタンの第1から第iモーラまでを適用し、第m、第m+1モーラにはデータベースより取得した基本周波数パタンの第j、第j+1モーラを適用し、第n−k+1から第nモーラまではデータベースより取得した基本周波数パタンの第l―k+1から第lモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またm>n−k+1のとき第1から第iモーラまではデータベースより取得した基本周波数パタンの第1から第iモーラまでを適用し、第mから第nモーラまではデータベースより取得した基本周波数パタンの第jモーラから第lモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する基本周波数生成方法である。
又、第7の方法は、アクセント句の基本周波数パタンをフレーズのアクセント句の位置および文末であるか否かによって分類した基本周波数データベースを用いて基本周波数パタンを生成する基本周波数生成方法である。
又、第8の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースと、フレーズのアクセント句の位置および文末であるか否かによって、基本周波数パタンの変形量を記憶した変形データベースを用い、基本周波数データより取得した基本周波数パタンを変形データベースより取得した変形量に従って変形し基本周波数パタンを生成する基本周波数パタン生成方法である。
又、第9の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンをフレーズ内でのアクセント句の位置iの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。
又、第10の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンを基本周波数パタンを決定する基準になるモーラに対してそのモーラのフレーズ内での位置jの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。
又、第11の方法は、アクセント句ごとに基本周波数パタンを生成し、当該アクセント句のアクセント末尾、および終了点の周波数と次のアクセント句の開始点の周波数の差があらかじめ定められた値以下になるよう当該アクセント句のアクセントの立ち下がり、アクセント末尾および終了点の特性を変更する基本周波数パタン生成方法である。
以上説明したように、本発明によれば、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、データベースのパタンを当てはめない実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。あるいはアクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、モーラ単位で制御する際の不連続感をなくし、高い自然性を実現する。さらに補間を用いることにより基本周波数パタンデータベースもより小さくすることができ、その実用的効果は大きい。