JP3771565B2

JP3771565B2 - 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体

Info

Publication number: JP3771565B2
Application number: JP2004079113A
Authority: JP
Inventors: 弓子加藤; 孝浩釜井; 紀代原; 謙二松井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1997-11-28
Filing date: 2004-03-18
Publication date: 2006-04-26
Anticipated expiration: 2018-11-24
Also published as: JP2004206144A

Description

本発明は、音声合成に用いる基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体に関する。

従来の音声基本周波数パタン生成方法としては、特許文献１のようにアクセントの型に着目して当該モーラの開始点あるいは当該モーラの母音開始点を基準とし、対数周波数軸上の臨界制動２次線形系で基本周波数パタンを決定するものがある。一方、特許文献２のようにアクセントの型、音韻の種類、語あるいは句のモーラ位置に着目して各モーラ毎の基本周波数を決定するものもある。
特開平５−１７３５９０号公報特開平５−８８６９０号公報

しかし、これらの従来の手法では、モーラ内での基本周波数の変動を精密に決定できない、あるいはモーラ毎の時間長の違いによる実時間軸上での歪みを生じ、アクセントに代表される韻律が不自然になるという課題を有していた。

本発明は、上述した従来の音声基本周波数パタン生成方法の課題を考慮し、従来に比べてより一層自然性の高い基本周波数パタンを生成出来る基本周波数パタン生成方法、及びプログラム記録媒体を提供することを目的とする。

第１の本発明は、入力された文字列をアクセント句に分け、前記アクセント句のモーラ数とアクセント型との情報を出力する文字列解析部と、
前記アクセント句のモーラ数とアクセント型とによって分類された基本周波数パタンを記憶した基本周波数データベースと、
前記文字列解析部からの前記モーラ数と前記アクセント型との情報から前記基本周波数データベース内の所定の基本周波数パタンを取得し、前記アクセント句の基本周波数パタンを生成する基本周波数パタン生成部と、を有し、
前記基本周波数データベース内の前記基本周波数パタンは、
前記アクセント句の基本周波数の中でピークの基本周波数を有するモーラの基本周波数パタン（ａ）と、前記アクセント句のアクセント核を有するモーラの基本周波数パタン（ｂ）と、前記アクセント句の前記アクセント核を有するモーラの次のモーラの基本周波数パタン（ｃ）と、前記アクセント句の末尾の複数のｋモーラの基本周波数パタン（ｄ）と、を含み、
前記基本周波数パタン生成部は、
前記文字列解析部から受け取った前記アクセント句のモーラ数としてのｎモーラとアクセント型としてのｍ型とに対応した基本周波数パタンが前記基本周波数データベースに無い場合には、
（１）前記文字列解析部から受け取った前記アクセント句が平板型以外の場合は、
前記アクセント句のアクセント核の位置が第ｍモーラで、前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである、前記基本周波数パタン（ａ）から（ｄ）までを前記基本周波数データベースから選択し、
［イ］ｍ≦ｉ＋１の場合は、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ロ］ｉ＋１＜ｍ≦ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、かつ、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ハ］ｍ＞ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、
（２）前記文字列解析部から受け取った前記アクセント句が平板型の場合は、
前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである基本周波数パタン（ａ）と、前記基本周波数パタン（ｄ）とを、前記基本周波数データベースから選択し、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間する、
基本周波数パタン生成装置である。

第２の本発明は、上記補間は、実時間上の関数で補間することである、上記第１の本発明の基本周波数パタン生成装置である。

第３の本発明は、上記補間は、実時間上の直線で補間することである、請求項１に記載の基本周波数パタン生成装置である。

第４の本発明は、入力された文字列をアクセント句に分け、前記アクセント句のモーラ数とアクセント型との情報を出力する文字列解析工程と、
前記アクセント句のモーラ数とアクセント型とによって分類された基本周波数パタンを基本周波数データベースに記憶する記憶工程と、
前記文字列解析工程で出力された前記モーラ数と前記アクセント型との情報から前記基本周波数データベース内の所定の基本周波数パタンを取得し、前記アクセント句の基本周波数パタンを生成する基本周波数パタン生成工程と、を用いて前記入力された文字列のアクセント句の基本周波数パタンを生成する基本周波数パタン生成方法であって、
前記基本周波数データベース内の前記基本周波数パタンは、
前記アクセント句の基本周波数の中でピークの基本周波数を有するモーラの基本周波数パタン（ａ）と、前記アクセント句のアクセント核を有するモーラの基本周波数パタン（ｂ）と、前記アクセント句の前記アクセント核を有するモーラの次のモーラの基本周波数パタン（ｃ）と、前記アクセント句の末尾の複数のｋモーラの基本周波数パタン（ｄ）と、を含み、
前記基本周波数パタン生成工程では、
前記文字列解析部から受け取った前記アクセント句のモーラ数としてのｎモーラとアクセント型としてのｍ型とに対応した基本周波数パタンが前記基本周波数データベースに無い場合には、
（１）前記文字列解析工程から受け取った前記アクセント句が平板型以外の場合は、
前記アクセント句のアクセント核の位置が第ｍモーラで、前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである、前記基本周波数パタン（ａ）から（ｄ）までを前記基本周波数データベースから選択し、
［イ］ｍ≦ｉ＋１の場合は、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ロ］ｉ＋１＜ｍ≦ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、かつ、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ハ］ｍ＞ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、
（２）前記文字列解析工程から受け取った前記アクセント句が平板型の場合は、
前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである基本周波数パタン（ａ）と、前記基本周波数パタン（ｄ）とを、前記基本周波数データベースから選択し、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間する、
基本周波数パタン生成方法である。

第５の本発明は、上記第４の本発明の基本周波数パタン生成方法の前記文字列解析工程と、前記記憶工程と、前記基本周波数生成工程とをコンピュータにより実行させるためのプログラムを記録した、コンピュータにより処理可能なプログラム記録媒体である。

以上述べたところから明らかな様に本発明は、従来に比べてより一層自然性の高い基本周波数パタンを生成出来るという長所を有する。

以下、本発明の実施の形態、及び本発明に関連する他の発明の実施の形態について、図１から図２０を用いて説明する。

（実施の形態１）
図１は、本発明に関連する他の発明の一実施の形態を示す基本周波数パタン生成装置の機能ブロック図であり、同図を参照しながら、本実施の形態の構成を説明する。

即ち、図１において、１０は音声合成の対象となる文字列を入力する文字列入力部である。２０は文字列入力部１０より入力された文字列を解析し合成されるべき音声の音韻情報とアクセントやポーズ等の韻律情報を出力する文字列解析部である。３０は発話速度、発話中での音韻の位置等の条件ごとに各音韻の時間長を記憶する音韻時間長データベースであり、４０は文字列解析部２０より出力された音韻情報および韻律情報に基づいて音韻時間長データベース３０を参照して各音韻の時間長を設定する時間長設定部である。５０はアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの時間長で標準化した基本周波数パタンをモーラ毎に記憶するモーラ時間長標準化基本周波数データベースであり、６０は文字列解析部２０より出力された韻律情報と時間長設定部４０で設定された音韻の時間長に基づいてモーラ時間長標準化基本周波数データベース５０を参照して基本周波数パタンを生成する基本周波数パタン生成部である。７０は基本周波数パタン生成部より出力された基本周波数パタンに基づいて声帯振動を生成する声帯振動生成部であり、合成音声の音源振動を生成する。図２は本発明による基本周波数パタンの一例である。

以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。

まず、文字列入力部１０から音声に変換されるべき文字列（図２に示す、「オンセーゴーセー」の文字列）が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。

まず、図２中のａ）のようにアクセント句の先頭モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース５０より取得する。次にアクセント句のモーラ数とアクセント型より基本周波数が最大値をとるモーラを特定し、図２中のｂ）のように特定されたモーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース５０より取得する。図２中のｃ）およびｄ）のようにアクセント核とアクセント核の次のモーラの基本周波数パタンおよびアクセント句の最終モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース５０より取得する。図２のｂ）とｃ）、ｃ）とｄ）のように基準となるモーラの間を実時間軸で線形補間を用いて、図２のｅ）、ｆ）およびｇ）の基本周波数パタンを決定する。声帯振動生成部７０は基本周波数パタン生成部６０より出力された基本周波数パタンに従って合成音の声帯振動を生成する。

音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの時間長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。

（実施の形態２）
図４は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース５０がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長を４等分し、各区間の基本周波数の代表値を区間の中央点の値として記憶する母音時間長標準化基本周波数データベース１５０ａに置き換わった以外は図１と同様である。

図３は本発明による基本周波数パタンの一例である。以下その動作を述べる。まず、文字列入力部１０から音声に変換されるべき文字列が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。

まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース１５０ａより基本周波数が最大値をとるモーラの母音相当部を４等分した３番目の区間中央のａ）立ち上がり基準点、アクセント核に当たるモーラの母音相当部を４等分した３番目の区間中央のｂ）立ち下がり基準点、アクセント核の次のモーラの母音相当部を４等分した３番目の区間中央のｃ）立ち下がり基準点、アクセント句の最終モーラの母音相当部を４等分した２番目の区間中央のｄ）アクセント句末基準点、および最終モーラの母音相当部を４等分した３番目の区間中央のｅ）語尾基準点を取得する。

次に各基準点を対応するモーラの母音時間長に対する相対位置に設定する。ａ）立ち上がり基準点が最大値となるようアクセント句の先頭からａ）立ち上がり基準点までを実時間軸上で対数周波数軸に対する臨界制動２次線形系を用いて補間する。ａ）からｄ）の各基準点の間を各区間ごとに２点間を実時間軸上で対数周波数軸に対する臨界制動２次線形系を用いて補間する。さらにアクセント句の終了が発話の終了である場合には、ｄ）アクセント句末基準点とｅ）語尾基準点との間を実時間軸上の関数である語尾関数により補間する。声帯振動生成部７０は基本周波数パタン生成部６０より出力された基本周波数パタンに従って合成音の声帯振動を生成する。

音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。

（実施の形態３）
本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図は、上記実施の形態２のデータベース１５０ａが、モーラ時間長標準化基本周波数データベース５０がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンとアクセント句の先頭基本周波数を記憶する母音時間長標準化基本周波数データベース１５０ｂに置き換わった以外は図４と同様であるので、図示を省略する。

図５は本発明による基本周波数パタンの一例である。

まず、文字列入力部１０から音声に変換されるべき文字列（図５に示す、「ｏＮｓｅ−ｇｏ−ｓｅ−」の文字列）が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。

まず、図５中のＡのようにアクセント句の先頭基本周波数を母音時間長標準化基本周波数データベース１５０ｂより取得する。次に図５中のａ）のようにアクセント句の先頭モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース１５０ｂより取得する。本例では第１モーラは単母音音節であるので図５中のａ）のように当該モーラの時間長の後半部に対して母音時間長標準化基本周波数データベース１５０ｂより取得した基本周波数パタンを適用する。ｂ)、ｃ),ｄ),ｅ),ｆ),ｇ),ｈ)についても同様に当該モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース１５０ｂより取得する。撥音であるｂ)、長音であるｄ),ｆ),ｈ)についてもａ）と同様に当該モーラの時間長の後半部にたいして母音時間長標準化基本周波数データベース１５０ｂより取得した基本周波数パタンを適用する。次に単母音音節、撥音、長音の前半部あるいは有声子音のａ')、ｂ')、ｄ')、ｅ'),ｆ')、ｈ')の基本周波数を前後の基本周波数により、実時間軸で線形補間を用いて生成する。声帯振動生成部７０は基本周波数パタン生成部６０より出力された基本周波数パタンに従って合成音の声帯振動を生成する。

音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。

（実施の形態４）
実施の形態４においては母音時間長標準化基本周波数データベース１５０ａはアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、Ａ）先頭基本周波数、Ｂ）立ち上がり基準点、Ｃ）立ち下がり基準点（アクセント核）、Ｄ）立ち下がり基準点（アクセント核の直後）、Ｅ）アクセント句末基準点、およびＦ）語尾基準点を、各基準点を含むモーラの母音時間長に対する相対位置で記憶する母音時間長標準化基本周波数データベースである。これ以外は装置の構成については図４と同様である。図６は本発明による基本周波数パタンの一例である。以下その動作を述べる。

まず、文字列入力部１０から音声に変換されるべき文字列が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース１５０ａよりＡ）からＦ）の基準点を取得する。次に各基準点を対応するモーラの母音長に対する相対位置に設定する。Ａ）先頭基本周波数からＢ）立ち上がり基準点までの間を実時間軸上の関数を用いて生成する。さらにＢ）以降の各基準点の間の基本周波数パタンを実時間軸上の直線で補間することにより生成する。

声帯振動生成部７０は基本周波数パタン生成部６０より出力された基本周波数パタンに従って合成音の声帯振動を生成する。

（実施の形態５）
図７は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、母音時間長標準化基本周波数データベース１５０ａがアクセント句のモーラ数、アクセント型の条件についてａ）立ち上がり基準点、ｂ）立ち下がり基準点（アクセント核）、ｃ）立ち下がり基準点（アクセント核の直後）、ｄ）アクセント句末基準点、およびｅ）語尾基準点を、各基準点を含むモーラの母音あるいは母音相当部の時間長に対する相対位置で記憶し、音韻あるいは音素列による基本周波数の微細な変動を母音時間長標準化基本周波数データベース１５０ａに記憶された各基準点および基準点の間を補間した値との差を音素の時間長で標準化して記憶するマイクロプロソディデータベース２５０がつけ加わった以外は図４と同様である。

図８はマイクロプロソディデータベース２５０に記憶されているマイクロプロソディ成分の模式図であり、図９（Ａ）〜（Ｃ）は本発明による基本周波数パタンの一例である。

まず、文字列入力部１０から音声に変換されるべき文字列が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各モーラの音素ごとの時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型により、母音時間長標準化基本周波数データベースより、基本周波数が最大値をとるモーラの母音相当部を４等分した３番目の区間中央のａ）立ち上がり基準点、アクセント核に当たるモーラの母音相当部を４等分した３番目の区間中央のｂ）立ち下がり基準点、アクセント核の次のモーラの母音相当部を４等分した３番目の区間中央のｃ）立ち下がり基準点、アクセント句の最終モーラの母音相当部を４等分した２番目の区間中央のｄ）アクセント句末基準点、および最終モーラの母音相当部を４等分した３番目の区間中央のｅ）語尾基準点を取得する。

次に各基準点を対応するモーラの音素時間長に対する相対位置に設定する。ａ）立ち上がり基準点が最大値となるようアクセント句の先頭からａ）立ち上がり基準点までを実時間軸上でかつ対数周波数軸に対する臨界制動２次線形系で補間する。ａ）からｅ）の各基準点の間を各区間ごとに２点間を実時間軸上でかつ対数周波数軸に対する臨界制動２次線形系で補間し、図９（Ａ）のような基本周波数パタンを生成する。次にマイクロプロソディデータベース２５０より各音素に対応する基本周波数の微細な変動を取得し、各音素の時間長に合わせて伸長圧縮し、図９（Ｂ）のように適用する。図９（Ａ）の基本周波数パタンに、同図（Ｂ）の微細な変動を加え、同図（Ｃ）のような基本周波数パタンを生成する。声帯振動生成部７０は基本周波数パタン生成部６０より出力された基本周波数パタンに従って合成音の声帯振動を生成する。

アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素の時間長で標準化した軸上で設定することによりモーラ内での基本周波数の変動のタイミングを詳細に再現し、さらに音声の自然性と明瞭性に影響する、基本周波数の微細な変動を加えることにより高い自然性と明瞭性を実現する。

（実施の形態６）
図１０は本発明の一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース５０がアクセント句のモーラ数、アクセント型の条件について基本周波数パタンのピークである第ｉモーラのａ）立ち上がり基準点、ｂ）立ち下がり基準点（アクセント核）、ｃ）立ち下がり基準点（アクセント核の直後）、アクセント句末尾のｋモーラのｄ）アクセント句末基準点を、各基準点を含むモーラの音素の時間長に対する相対位置で記憶する音素時間長標準化基本周波数データベース３５１に入れかわり、基本周波数を生成しようとするアクセント句のフレーズ内での位置ごとにアクセント句のピークと末尾の基本周波数の変形量を記憶した基本周波数パタン変形データベース３５０がつけ加わった以外は図１と同様である。

図１１、図１２、図１３および図１４は音素時間長標準化基本周波数データベース３５１に基本周波数生成しようとするアクセント句のモーラ数およびアクセント型に対応する基本周波数パタンのデータがない場合に生成する基本周波数パタンの模式図である。図１５は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。以下その動作を述べる。

まず、文字列入力部１０から音声に変換されるべき文字列が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。

まず、アクセント句のモーラ数とアクセント型および音韻列等により、音素時間長標準化基本周波数データベース３５１よりａ）立ち上がり基準点、ｂ）立ち下がり基準点、ｃ）立ち下がり基準点、ｄ）アクセント句末基準点、あるいは、ｄ’）最終モーラを取得する。

基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンのデータが音素時間長標準化基本周波数データベース３５１にない場合は、基本周波数を生成しようとするアクセント句のモーラ数がｎモーラ、アクセント型がｍ型とすると、ｍがｉ＋１以下の場合は図１１（Ａ）のように、アクセント型がｍ型でモーラ数がｎに最も近いｌモーラｍ型の基本周波数パタンのａ）からｄ）を音素時間長標準化基本周波数データベース３５１より取得し、図１１（Ｂ）のように音素時間長標準化基本周波数データベース３５１から取得したｄ）を基本周波数を生成しようとするアクセント句の第ｎ−ｋ＋１モーラから第ｎモーラの基準点として設定する。

ｍがｉ＋１より大きくｎ−ｋ以下の場合は図１２（Ａ）のように、アクセント核のモーラ位置ｊがｉ＋１より大きくｌ−ｋ以下で、モーラ数がｎに最も近いｌモーラｊ型の基本周波数パタンのａ）からｄ）を音素時間長標準化基本周波数データベース３５１より取得し、図１２（Ｂ）のように音素時間長標準化基本周波数データベース３５１から取得したｂ）とｃ）を基本周波数を生成しようとするアクセント句の第ｍモーラと第ｍ＋１モーラの基準点として設定し、音素時間長標準化基本周波数データベース３５１から取得したｄ）を基本周波数を生成しようとするアクセント句の第ｎ−ｋ＋１モーラから第ｎモーラの基準点として設定する。

ｍがｎ−ｋより大きい場合は図１３（Ａ）のように、アクセント核のモーラ位置ｊがｌ−ｋより大きくモーラ数がｎに最も近いｌモーラｊ型の基本周波数パタンのａ）からｄ’）を音素時間長標準化基本周波数データベース３５１より取得し、図１３（Ｂ）のように音素時間長標準化基本周波数データベース３５１から取得したｂ）とｃ）を含むｄ’）を基本周波数を生成しようとするアクセント句の第ｎ−ｋ＋１モーラから第ｎモーラの基準点として設定する。基本周波数を生成しようとするアクセント句がｎモーラ平板型の場合図１４（Ａ）のように、アクセント型が平板型でモーラ数がｎに最も近いｌモーラ平板型の基本周波数パタンのａ）とｄ）を音素時間長標準化基本周波数データベース３５１より取得し、図１３（Ｂ）のように音素時間長標準化基本周波数データベース３５１から取得したｄ）を基本周波数を生成しようとするアクセント句の第ｎ−ｋ＋１モーラから第ｎモーラの基準点として設定する。

次に、音素時間長標準化基本周波数データベース３５１より取得されたあるいは音素時間長標準化基本周波数データベース３５１より取得された基準点より生成されたアクセント句の基本周波数パタンを基本周波数変形データベース３５０にアクセント句のフレーズ内での位置ごとに記憶された変形量に従って、各アクセント句の基本周波数の最大値、ａ）からｄ）あるいはｄ’）の基準点の基本周波数を変更する。

まず基本周波数変形データベース３５０に記憶された第１アクセント句の変形量により図１５中のＡ）のように、ａ）とｄ）の基本周波数の差が音素時間長標準化基本周波数データベース３５１より取得された基本周波数の差の９０％になるようにｂ）、ｃ）およびｄ）の基本周波数を変更する。第２アクセント句については図１５中のＢ）のように、ａ）の基本周波数を音素時間長標準化基本周波数データベース３５１より取得された基本周波数の７５％の値に変更し、ａ）とｄ）の基本周波数の差が音素時間長標準化基本周波数データベース３５１より取得された基本周波数の差の７０％になるようにｂ）、ｃ）およびｄ）の基本周波数を変更する。同様に第３アクセント句も図１５中のＣ）のようにａ）の基本周波数を音素時間長標準化基本周波数データベース３５１より取得された基本周波数の７０％の値に変更し、ａ）とｄ）の基本周波数の差が音素時間長標準化基本周波数データベース３５１より取得された基本周波数の差の６８％になるようにｂ）、ｃ）およびｄ）の基本周波数を変更する。

基本周波数変形データベース３５０に第ｎアクセント句に対応する変形量が記憶されていない場合、アクセント位置の値がｎより小さく、最もｎに近いアクセント位置に対応する変形量を適用する。本例では第４アクセント句の変形量が基本周波数変形データベース３５０に記憶されていない場合を示す。

アクセント位置の値が４より小さく、最も４に近い第３アクセント句の変形量を適用し図１５中のＤ）のように第３アクセント句と同様の変形を加える。フレーズ終端である最終アクセント句については、基本周波数変形データベース３５０より最終アクセント句に対応する変形量を取得し、図１５中のＥ）のようにａ）の基本周波数を音素時間長標準化基本周波数データベース３５１より取得された基本周波数の４８％の値に変更し、ａ）とｄ）の基本周波数の差が音素時間長標準化基本周波数データベース３５１より取得された基本周波数の差の６０％になるようにｂ）、ｃ）およびｄ）の基本周波数を変更する。

次に、各アクセント句について、実施の形態２あるいは実施の形態４のようにアクセント句の先頭からａ）までの基本周波数を実時間軸上の関数を用いて生成し、さらに各基準点の間を実時間軸上で補間し、アクセント句終了点までの基本周波数パタンを生成する。

音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに基本周波数パタンの拡張を行うことによりデータベースの縮小が可能になる。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。

（実施の形態７）
図１７は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図１に同じである。以下その動作を述べる。

図１７に示す様に、まず、第１アクセント句１７０１のモーラ数、アクセント型に対応する基本周波数パタン１７１１をモーラ時間長標準化基本周波数データベース５０より取得し、適用する。

第１アクセント句１７０１の基本周波数の最大値ａを通り、第ｎアクセント句の位置を示すｉの値が増加するごとに、第１アクセント句１７０１の最大値ａが１０％低下するような、第ｎアクセント句に対するアクセント句の基本周波数最大値を示す式１を求める。
（数１）
（−０．１ｉ＋１）ａ …式１
但し、ａは、第１アクセント句１７０１の基本周波数の最大値である。また、アクセント句数ｉは、第ｎアクセント句が、第１アクセント句から数えて、何番目のアクセント句であるかを示す数であり、ｎ−１となる。

さらに第１アクセント句１７０１のアクセント句末の周波数ｂを通り、第ｎアクセント句の位置を示すｉの値が増加する毎に、第１アクセント句１７０１のアクセント句末の周波数ｂが５％低下するような、第ｎアクセント句に対するアクセント句末の周波数を示す式２を求める。
（数２）
（−０．０５ｉ＋１）ｂ …式２
但し、ｂは、第１アクセント句１７０１のアクセント句末の周波数である。

次に、第２アクセント句１７０２のモーラ数、アクセント型に対応する基本周波数パタン１７１２（図中、点線で表した）をモーラ時間長標準化基本周波数データべース５０より取得する。第２アクセント句のアクセント句数ｉは１であるから、これを式１に代入して、基本周波数パタン１７１２の変形後の最大値ａ₂を求める。同様にして、式２より、基本周波数パタン１７１２の変形後のアクセント句末の周波数ｂ₂を求める。

この様にして求めた変形後の最大値ａ₂と、変形後のアクセント句末の周波数ｂ₂とに一致するように、モーラ時間長標準化基本周波数データべース５０より取得した基本周波数パタン１７１２を変形した後、変形後の基本周波数パタン１７１３を第２アクセント句１７０２の基本周波数パタンとして用いる。

第ｎアクセント句についても、当該アクセント句が最終アクセント句（文末）でない場合、第ｎアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース５０より取得する。そして、その取得した基本周波数パタンの最大値が、式１より得られた値に一致し、且つ、その取得した基本周波数パタンのアクセント句末の周波数が、式２より得られた値に一致する様に、上記データベース５０より取得した基本周波数パタンを変形し、これを第ｎアクセント句の基本周波数パタンとして用いる。

更に、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース５０より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を１５％低下させた値に一致し、しかも、アクセント句末の周波数が直前のアクセント句のアクセント句末を１０％低下させた値に一致するように、上記データベース５０より取得した基本周波数パタンを変形し、これを適用する。

尚、対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース５０にない場合は、実施の形態６のようにアクセント句の基本周波数パタンを生成し、これを変形する。

当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。

尚、上記実施の形態では、基本周波数を生成しようとするアクセント句が、文末である場合のみ、直前のアクセント句の所定位置の周波数を基準として、その周波数を所定の比率で低下させて用いる場合について述べた。そこで、上記実施の形態の変形例として、文末以外に存在しているアクセント句についても、上記例と同様のルールで各周波数値を圧縮しても良い。即ち、この場合、例えば、図１８に示す様に、文末を除く、第２アクセント句から第ｎアクセント句については、それぞれ、直前のアクセント句の最大値を１０％低下させた値（図中、例えば、ａ₂）と、直前のアクセント句のアクセント句末の周波数を５％低下させた値（図中、例えば、ｂ₂）を求める。

そして、例えば第２アクセント句については、この様にして求めた変形後の最大値ａ₂と、変形後のアクセント句末の周波数ｂ₂とに一致するように、モーラ時間長標準化基本周波数データべース５０より取得した基本周波数パタン１７１２を変形した後、変形後の基本周波数パタン１７１３を第２アクセント句１７０２の基本周波数パタンとして用いる。第ｎアクセント句についても、これと同様である。尚、基本周波数を生成しようとするアクセント句が、文末である場合は、図１７と同様の方法を用いる。

（実施の形態８）
図１９は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図１に同じである。以下その動作を述べる。

図１９に示す様に、まず、第１アクセント句１８０１のモーラ数、アクセント型に対応する基本周波数パタン１８１１をモーラ時間長標準化基本周波数データベース５０より取得し、適用する。

第１アクセント句１８０１の基本周波数の最大値ａを通り、第１アクセント句の基本周波数の最大値ａを含むモーラ位置からのモーラ数が増えるごとにアクセント句１８０１の最大値ａが２％低下するような、累積モーラ数ｊに対するアクセント句の基本周波数最大値を示す式３を求める。
（数３）
（−０．０２ｊ＋１）ａ …式３
但し、ａは、第１アクセント句１８０１の基本周波数の最大値であり、累積モーラ数ｊは、第１アクセント句の基本周波数の最大値ａを含むモーラ位置（図中、横軸の原点とした）を基準として数えたモーラ数である。

さらに第１アクセント句１８０１のアクセント句末の周波数ｂを通り、第１アクセント句のアクセント句末の周波数ｂを含むモーラ位置からのモーラ数が増えるごとに、第１アクセント句１８０１のアクセント句末の周波数ｂが１％低下するような、累積モーラ数ｊに対するアクセント句末の周波数を示す式４を求める。
（数４）
（−０．０１ｊ＋１）ｂ …式４
但し、ｂは、第１アクセント句１８０１のアクセント句末の周波数である。

次に、第２アクセント句１８０２のモーラ数、アクセント型に対応する基本周波数パタン１８１２（図中、点線で表した）をモーラ時間長標準化基本周波数データべース５０より取得し、その最大値１８１２ａをとるモーラが、原点のモーラからｊ_2aモーラ目になることを求め、これを式３に累積モーラ数として代入して、基本周波数パタン１８１２の変形後の最大値ａ₂を求める。又、第２アクセント句１８０２のアクセント句末１８１２ｂが原点のモーラからｊ_2bモーラ目になることを求め、これを式４に累積モーラ数として代入して、基本周波数パタン１８１２の変形後のアクセント句末の周波数ｂ₂を求める。

この様にして求めた変形後の最大値ａ₂と、変形後のアクセント句末の周波数ｂ₂とに一致するように、モーラ時間長標準化基本周波数データべース５０より取得した基本周波数パタン１８１２を変形した後、これを第２アクセント句１８０２の基本周波数パタンとして用いる。

第ｎアクセント句についても、当該アクセント句が最終アクセント句（文末）でない場合、第ｎアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース５０より取得し、その最大値をとるモーラが、原点のモーラから数えて何モーラ目になるかを求め、これを式３に累積モーラ数として代入して基本周波数パタンの変形後の最大値を求める。更に、アクセント句末が、原点のモーラから数えて何モーラ目になるかを求め、これを式４に累積モーラ数として代入して基本周波数パタンの変形後のアクセント句末の周波数を求める。

この様にして求めた変形後の最大値と、変形後のアクセント句末の周波数とに一致するように、モーラ時間長標準化基本周波数データべース５０より取得した基本周波数パタンを変形して、第ｎアクセント句の基本周波数パタンとして用いる。

又、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース５０より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を１５％低下させた値に一致し、アクセント句末の周波数が直前のアクセント句のアクセント句末を１０％低下させた値に一致するよう取得した基本周波数パタンを変形して適用する。対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース５０にない場合は、実施の形態６のようにアクセント句の基本周波数パタンを生成し、変形する。

当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内での累積モーラ位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。

（実施の形態９）
図１６は本発明に関連する他の発明一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース５０が第１アクセント句から第３アクセント句についてアクセント句が文末であるか否か、およびアクセント句のモーラ数、アクセント型、音韻列等の、韻律を決定する要因によって分類された、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンを記憶するアクセント句位置基本周波数データベース４５０に置き換わった以外は図１と同様である。

まず、文字列入力部１０から音声に変換されるべき文字列が入力される。文字列解析部２０では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部４０へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型、およびアクセント句のフレーズ内での位置を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部６０へ出力する。

時間長設定部４０は文字列解析部２０より入力された音韻情報に基づき音韻時間長データベース３０を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部６０に出力する。基本周波数パタン生成部６０は文字列解析部２０より入力された韻律情報と音韻情報、時間長設定部４０より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。本例では５つのアクセント句によって構成される文の基本周波数の生成を説明する。

まず、第１アクセント句に対して、アクセント句位置基本周波数データベース４５０より第１アクセント句で文末でない、基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンを取得する。第２アクセント句、第３アクセント句に対しても同様にアクセント句位置基本周波数データベース４５０より基本周波数パタンを取得する。

第４アクセント句については、アクセント句位置基本周波数データベース４５０に第４アクセント句に対応する基本周波数パタンはないため、第４アクセント句にアクセント句の位置が最も近い第３アクセント句の、文末でない基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。

最終アクセント句である第５アクセント句についても、アクセント句位置基本周波数データベース４５０に該当する基本周波数パタンはないため、アクセント句の位置が最も近い第３アクセント句の、文末の基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。実施の形態３あるいは実施の形態４のように基本周波数パタンのない部分を実時間軸上で補間し、基本周波数パタンを生成する。

当該モーラの母音長で標準化した基本周波数パタンを利用することによりモーラ内での基本周波数の変動を詳細に再現し、アクセント句の位置、文末か否かの条件によって当てはめることによりフレーズ単位の基本周波数の変動を正確に再現できるため、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。

（実施の形態１０）
図２０（Ａ）、（Ｂ）はアクセント句の基本周波数パタンを接続して文を生成する際の基本周波数パタンの接続部の模式図である。本発明に関連する他の発明一実施の形態の基本周波数パタン生成装置の構成については図１に同じである。以下その動作を述べる。

まず、基本周波数パタンを生成しようとする各アクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データベース５０より取得し、適用する。実施の形態６、実施の形態７、あるいは実施の形態８の方法でアクセント句ごとにモーラ時間長標準化基本周波数データベース50より取得した基本周波数パタンを変形する。

変形された各アクセント句の基本周波数パタンのうち、文末でない第ｎアクセント句につて、図２０のｅ）当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差を求める。

第ｎアクセント句と第ｎ+1アクセント句の間にポーズがない場合はｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が４０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から４０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、図２０のｆ）のように第ｎアクセント句と第ｎ+1アクセント句の間を滑らかに接続する。ｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が４０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から４０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、第ｎアクセント句と第ｎ+1アクセント句の間を滑らかに接続する。

第ｎアクセント句と第ｎ+1アクセント句の間に５０ｍｓｅｃ未満のポーズがある場合はｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が５０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から５０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。ｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が５０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から５０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。

第ｎアクセント句と第ｎ+1アクセント句の間に５０ｍｓｅｃ以上１００ｍｓｅｃ未満のポーズがある場合はｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が７０Ｈｚ以上で、第ｎアクセントト句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から７０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。ｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が７０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から７０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。

第ｎアクセント句と第ｎ+1アクセント句の間に１００ｍｓｅｃ以上１５０ｍｓｅｃ未満のポーズがある場合はｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が８０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から８０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。ｅ）の当該アクセント句の最終モーラの母音部の基本周波数と第ｎ+1アクセント句の先頭モーラの母音部の基本周波数の差が８０Ｈｚ以上で、第ｎアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第ｎ+1アクセント句の先頭モーラの母音部の基本周波数から７０を減じた値を超える基本周波数をもつモーラから、第ｎアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。

アクセント句単位で生成した基本周波数パタンの末尾を後続アクセント句との間のポーズ長に基づいて変形することによりアクセント句どうしの接続部を滑らかにし、自然な文音声を実現することができる。

なお、以上の説明では、実施の形態１、３、４では補間関数として直線を用い、実施の形態２で補間関数として対数周波数軸に対する臨界制動２次線形系を用いた例で説明したが、実施の形態１、３、４に臨界制動２次線形系を用い、実施の形態２に直線を用いてもよい、またその他の実時間軸上の関数についても同様に実施可能である。

なお、実施の形態２においてアクセント句の先頭から、立ち上がり基準点までの基本周波数を対数周波数軸に対する臨界制動２次線形系を用いて補間し、実施の形態４で実時間軸上で表現された基本周波数パタンを当てはめることにより補間したが、実施の形態２に実時間軸上で表現された基本周波数パタンを当てはめ、実施の形態４に対数周波数軸に対する臨界制動２次線形系を用いてもよい。

なお、実施の形態２において母音時間長標準化基本周波数データベース１５０ａは各モーラの母音部の時間長を４等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各音素の時間長で標準化したものであればこれ以外のものでもよい。

なお、実施の形態２、５において、アクセント立ち上がり基準点を当該モーラの母音長を４等分した３番目の区間の中央を立ち上がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。

なお、実施の形態５において母音時間長標準化基本周波数データベース１５０ａは各モーラの母音部の時間長を４等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各母音の時間長で標準化したものであればこれ以外のものでもよい。

なお、実施の形態２、５において、アクセント核に当たるモーラの母音長を４等分した３番目の区間の中央と、アクセント核の次のモーラの母音長を４等分した３番目の区間の中央の２点を立ち下がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。

なお、実施の形態２、５において、アクセント句の最終モーラの母音長を４等分した２番目の区間の中央をアクセント句末基準点としたが、母音の前半に当たる相対位置であればこれ以外の値でも良い。

なお、実施の形態２、５において、発話の最終モーラの母音長を４等分した３番目の区間の中央を語尾基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。

なお、実施の形態５において、マイクロプロソディを付加する基礎となる基本週は素パタンを実施の形態２と同様に生成したが、実施の形態１、３、４と同様にしても良い。

なお、実施の形態６において、アクセント句の基本周波数パタンを実施の形態２と同様に生成したが、実施の形態１、３、４と同様にしても良い。

なお、実施の形態６において、基本周波数パタンの基準点をデータベースより取得された変形量に従って変更した後に補間を行ったが、補間を行った後に基本周波数パタンを変形しても良い。

なお、実施の形態６において、基本周波数パタンの変形量として、第１アクセント句では最大値とアクセント句末との差を９０％に圧縮したが７０％から１００％未満の範囲内の他の値でも良い。

なお、実施の形態６において、基本周波数パタンの変形量として、第２アクセント句においては最大値を７５％に圧縮し、第３アクセント句、第ｎアクセント句においては最大値を７０％に圧縮したが５０％から９０％の範囲内の他の値でも良い。

なお、実施の形態６において、基本周波数パタンの変形量として、第２アクセント句においては最大値とアクセント句末との差を７０％に圧縮し、第３アクセント句、第ｎアクセント句においては最大値とアクセント句末との差を６８％に圧縮したが５０％から９０％の範囲内の他の値でも良い。

なお、実施の形態６において、基本周波数パタンの変形量として、最終アクセント句については最大値を４８％に圧縮したが３０％から７０％の範囲内の他の値でも良い。

なお、実施の形態６において、基本周波数パタンの変形量として、最終アクセント句については最大値とアクセント句末との差を６０％に圧縮するとしたが４０％から８０％の範囲内の他の値でも良い。

なお、実施の形態７において、式１のｉの係数を−０．１としたが−０．０５から−０．４の範囲内の他の値でも良い。

なお、実施の形態７において、式２のｊの係数を−０．０５としたが０を最大として−０．２の範囲内の他の値でも良い。

なお、実施の形態７および実施の形態８において最終アクセント句においては、基本周波数の最大値を直前のアクセント句の最大値を１５％低下させた値としたが、１０％から４０％の範囲内の他の値でも良い。

アクセント句末を直前のアクセント句のアクセント句末を１０％低下させた値にするとしたが、５％から４０％の範囲内の他の値でも良い。

なお、実施の形態８において、式３のｉの係数を−０．０２としたが、これに限らず、−０．０１から−０．２の範囲内の他の値でも良い。

なお、実施の形態８において、式４のｊの係数を−０．０１としたが、これに限らず、−０．０１から−０．１の範囲内の他の値でも良い。

なお、実施の形態１０において実施の形態６、７、あるいは８同様にしてモーラ時間長標準化基本周波数データベース５０より取得した基本周波数パタンを変形するとしたが、実施の形態９と同様にアクセント句位置基本周波数データベース４５０よりアクセント句の位置に基づいて基本周波数パタンを取得するとしても良い。

なお、実施の形態１０において第ｎアクセント句と第ｎ＋１アクセント句の間にポーズがない場合に、第ｎアクセント句の最終モーラの母音部中央と第ｎ＋１アクセント句の先頭モーラの母音部中央の基本周波数の差が４０Ｈｚ以下になるように基本周波数パタンを変形するとしたが、２０Ｈｚから６０Ｈｚの間の他の値でも良い。

なお、実施の形態１０においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第ｎアクセント句と第ｎ＋１アクセント句の間のポーズの持続時間を５０msec未満、５０msec以上１００msec未満、１００msec以上１５０msec未満、１５０msec以上の４段階に分類したが、１ないし８の他の数の段階に分類しても良い。

なお、実施の形態１０において第ｎアクセント句と第ｎ＋１アクセント句の間のポーズの持続時間が１５０msec以上の場合はアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更を行わないものとしたが、変更を行うポーズの持続時間の上限は１２０msecから２００msecの間のほかの値としても良い。

なお、実施の形態１０においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第ｎアクセント句と第ｎ＋１アクセント句の間のポーズの持続時間を４段階に分類し、第ｎアクセント句の最終モーラの母音部中央と第ｎ＋１アクセント句の先頭モーラの母音部中央の基本周波数の差の上限をポーズの持続時間の段階毎に設定したが、ポーズの持続時間ｔに対する一次式（式５）
（数５）
ａｔ＋ｂ（Ｈｚ） …式５
ただし０＜ａ＜０．４２０＜ｂ＜６０
によって設定するとしても良い。

なお、本発明はプログラムによって実現し、これをフロッピー（登録商標）ディスク、光ディスク、ＩＣカード、ＲＯＭカセット等のプログラムを記録することのできる記録媒体に記録して移送することにより、独立した他のコンピュータシステムで容易に実施することができる。

又、本発明の音韻は、上記実施の形態では、主にモーラに該当するものとして説明したが、これに限らず例えば、音節であっても良い。即ち、上記の様に、基本周波数データベースとして、モーラ単位又は音素単位でデータを格納している場合に限らず例えば、音節単位又は音節に含まれる音素単位でデータを格納した基本周波数データベースを用いても勿論良く、この場合でも、上記と同様の効果を発揮する。即ち、上述した全ての実施の形態において、「モーラ」を「音節」と読み替えた構成としても、上記と同様の効果を発揮する。

又、上記実施の形態では、基本周波数データベースが、末尾から３モーラまでの基本周波数パタンを保持している場合について述べたが、最大限末尾から４モーラまでの基本周波数パタンを保持しておけば十分な効果を発揮する。

上記の様に、本発明の第１の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句の末尾の１モーラあるいは複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第２の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第３の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句末尾の１ないし複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第４の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第５の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースと、音素あるいは音韻列ごとの基本周波数を音素時間長で標準化した値と基本周波数パタンとの差を記憶したマイクロプロソディデータベースとを用い、音素時間長標準化基本周波数データベースから取得された基本周波数パタンにマイクロプロソディデータを加算あるいは減算することにより基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第６の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句ごとの基本周波数パタンを生成する基本周波数パタン生成方法において、基本種端数を生成しようとするアクセント句のモーラ数およびアクセント型に該当する基本周波数パタンが音素時間長標準化基本周波数データベース内にない場合、データベース内の基本周波数パタンを利用し、基本周波数を生成しようとするアクセント句をｎモーラｍ型、データベースから取得した基本周波数パタンをｌモーラｊ型、取得した基本周波数パタンの最大値を含むモーラの位置をｉ、取得した基本周波数パタンのアクセント句末尾のモーラ数をｋとするとき、ｍ≦ｉ＋１のとき第１から第ｍ＋１モーラまではデータベースより取得した基本周波数パタンの第１から第ｊ＋１モーラまでを適用し、第ｎ−ｋ＋１から第ｎモーラまではデータベースより取得した基本周波数パタンの第ｌ―ｋ＋１から第ｌモーラを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またｉ＋１＜ｍ≦ｎ−ｋ＋１のとき第１から第ｉモーラまではデータベースより取得した基本周波数パタンの第１から第ｉモーラまでを適用し、第ｍ、第ｍ＋１モーラにはデータベースより取得した基本周波数パタンの第ｊ、第ｊ＋１モーラを適用し、第ｎ−ｋ＋１から第ｎモーラまではデータベースより取得した基本周波数パタンの第ｌ―ｋ＋１から第ｌモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またｍ＞ｎ−ｋ＋１のとき第１から第ｉモーラまではデータベースより取得した基本周波数パタンの第１から第ｉモーラまでを適用し、第ｍから第ｎモーラまではデータベースより取得した基本周波数パタンの第ｊモーラから第ｌモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する基本周波数生成方法である。

又、第７の方法は、アクセント句の基本周波数パタンをフレーズのアクセント句の位置および文末であるか否かによって分類した基本周波数データベースを用いて基本周波数パタンを生成する基本周波数生成方法である。

又、第８の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースと、フレーズのアクセント句の位置および文末であるか否かによって、基本周波数パタンの変形量を記憶した変形データベースを用い、基本周波数データより取得した基本周波数パタンを変形データベースより取得した変形量に従って変形し基本周波数パタンを生成する基本周波数パタン生成方法である。

又、第９の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンをフレーズ内でのアクセント句の位置ｉの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。

又、第１０の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンを基本周波数パタンを決定する基準になるモーラに対してそのモーラのフレーズ内での位置ｊの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。

又、第１１の方法は、アクセント句ごとに基本周波数パタンを生成し、当該アクセント句のアクセント末尾、および終了点の周波数と次のアクセント句の開始点の周波数の差があらかじめ定められた値以下になるよう当該アクセント句のアクセントの立ち下がり、アクセント末尾および終了点の特性を変更する基本周波数パタン生成方法である。

以上説明したように、本発明によれば、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、データベースのパタンを当てはめない実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。あるいはアクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、モーラ単位で制御する際の不連続感をなくし、高い自然性を実現する。さらに補間を用いることにより基本周波数パタンデータベースもより小さくすることができ、その実用的効果は大きい。

本発明に係る基本周波数パタン生成方法等は、従来に比べてより一層自然性の高い基本周波数パタンを生成出来るという長所を有し、基本周波数パタン生成方法等として有用である。

本発明及び／又は本発明に関連する他の発明（以下、本発明等という）による基本周波数生成装置の機能ブロック図本発明等の実施の形態１により生成される基本周波数パタンの１例を示す図本発明等の実施の形態２により生成される基本周波数パタンの１例を示す図本発明等の一実施の形態を示す装置の機能ブロック図本発明による基本周波数パタンの一例を示す図本発明による基本周波数パタンの一例を示す図本発明等の一実施の形態を示す装置の機能ブロック図マイクロプロソディデータベース２５０に記憶されているマイクロプロソディ成分の模式図（Ａ）：実施の形態５の基本周波数データベースより生成される基本周波数パタンを示す図（Ｂ）：同実施の形態のマイクロプロソディデータベースより取得したマイクロプロソディ成分を示す図（Ｃ）：図９（Ａ）のパタンに図９（Ｂ）のパタンを加算して生成した基本周波数パタンを示す図本発明の一実施の形態を示す装置の機能ブロック図（Ａ）、（Ｂ）：本発明による基本周波数パタンの一例を示す図（Ａ）、（Ｂ）：本発明による基本周波数パタンの一例を示す図（Ａ）、（Ｂ）：本発明による基本周波数パタンの一例を示す図（Ａ）、（Ｂ）：本発明による基本周波数パタンの一例を示す図本発明の基本周波数パタンの模式図本発明等の一実施の形態を示す装置の機能ブロック図本発明等の一実施の形態の基本周波数パタンの模式図本発明等の変形例の基本周波数パタンの模式図本発明等の基本周波数パタンの模式図（Ａ）、（Ｂ）：本発明等の基本周波数パタンのアクセント句接続部の模式図

符号の説明

１０文字列入力部
２０文字列解析部
３０音韻時間長データベース
４０時間長設定部
５０モーラ時間長標準化基本周波数データベース
６０基本周波数パタン生成部
７０声帯振動生成部
１５０、１５０ａ,１５０ｂ母音時間長標準化基本周波数データベース
２５０マイクロプロソディデータベース
３５０基本周波数パタン変形データベース
４５０アクセント句位置基本周波数データベース

Claims

入力された文字列をアクセント句に分け、前記アクセント句のモーラ数とアクセント型との情報を出力する文字列解析部と、
前記アクセント句のモーラ数とアクセント型とによって分類された基本周波数パタンを記憶した基本周波数データベースと、
前記文字列解析部からの前記モーラ数と前記アクセント型との情報から前記基本周波数データベース内の所定の基本周波数パタンを取得し、前記アクセント句の基本周波数パタンを生成する基本周波数パタン生成部と、を有し、
前記基本周波数データベース内の前記基本周波数パタンは、
前記アクセント句の基本周波数の中でピークの基本周波数を有するモーラの基本周波数パタン（ａ）と、前記アクセント句のアクセント核を有するモーラの基本周波数パタン（ｂ）と、前記アクセント句の前記アクセント核を有するモーラの次のモーラの基本周波数パタン（ｃ）と、前記アクセント句の末尾の複数のｋモーラの基本周波数パタン（ｄ）と、を含み、
前記基本周波数パタン生成部は、
前記文字列解析部から受け取った前記アクセント句のモーラ数としてのｎモーラとアクセント型としてのｍ型とに対応した基本周波数パタンが前記基本周波数データベースに無い場合には、
（１）前記文字列解析部から受け取った前記アクセント句が平板型以外の場合は、
前記アクセント句のアクセント核の位置が第ｍモーラで、前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである、前記基本周波数パタン（ａ）から（ｄ）までを前記基本周波数データベースから選択し、
［イ］ｍ≦ｉ＋１の場合は、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ロ］ｉ＋１＜ｍ≦ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、かつ、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ハ］ｍ＞ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、
（２）前記文字列解析部から受け取った前記アクセント句が平板型の場合は、
前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである基本周波数パタン（ａ）と、前記基本周波数パタン（ｄ）とを、前記基本周波数データベースから選択し、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間する、
基本周波数パタン生成装置。
前記補間は、実時間上の関数で補間することである、請求項１に記載の基本周波数パタン生成装置。
前記補間は、実時間上の直線で補間することである、請求項１に記載の基本周波数パタン生成装置。
入力された文字列をアクセント句に分け、前記アクセント句のモーラ数とアクセント型との情報を出力する文字列解析工程と、
前記アクセント句のモーラ数とアクセント型とによって分類された基本周波数パタンを基本周波数データベースに記憶する記憶工程と、
前記文字列解析工程で出力された前記モーラ数と前記アクセント型との情報から前記基本周波数データベース内の所定の基本周波数パタンを取得し、前記アクセント句の基本周波数パタンを生成する基本周波数パタン生成工程と、を用いて前記入力された文字列のアクセント句の基本周波数パタンを生成する基本周波数パタン生成方法であって、
前記基本周波数データベース内の前記基本周波数パタンは、
前記アクセント句の基本周波数の中でピークの基本周波数を有するモーラの基本周波数パタン（ａ）と、前記アクセント句のアクセント核を有するモーラの基本周波数パタン（ｂ）と、前記アクセント句の前記アクセント核を有するモーラの次のモーラの基本周波数パタン（ｃ）と、前記アクセント句の末尾の複数のｋモーラの基本周波数パタン（ｄ）と、を含み、
前記基本周波数パタン生成工程では、
前記文字列解析部から受け取った前記アクセント句のモーラ数としてのｎモーラとアクセント型としてのｍ型とに対応した基本周波数パタンが前記基本周波数データベースに無い場合には、
（１）前記文字列解析工程から受け取った前記アクセント句が平板型以外の場合は、
前記アクセント句のアクセント核の位置が第ｍモーラで、前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである、前記基本周波数パタン（ａ）から（ｄ）までを前記基本周波数データベースから選択し、
［イ］ｍ≦ｉ＋１の場合は、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ロ］ｉ＋１＜ｍ≦ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、かつ、前記基本周波数パタン（ｃ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間し、
［ハ］ｍ＞ｎ−ｋの場合は、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｂ）との間の基本周波数パタンを補間し、
（２）前記文字列解析工程から受け取った前記アクセント句が平板型の場合は、
前記アクセント句の基本周波数の中でピークの基本周波数を有する位置が第ｉモーラである基本周波数パタン（ａ）と、前記基本周波数パタン（ｄ）とを、前記基本周波数データベースから選択し、前記基本周波数パタン（ａ）と前記基本周波数パタン（ｄ）との間の基本周波数パタンを補間する、
基本周波数パタン生成方法。
請求項４に記載の基本周波数パタン生成方法の前記文字列解析工程と、前記記憶工程と、前記基本周波数生成工程とをコンピュータにより実行させるためのプログラムを記録した、コンピュータにより処理可能なプログラム記録媒体。