JP3576840B2 - 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 - Google Patents

基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 Download PDF

Info

Publication number
JP3576840B2
JP3576840B2 JP33321298A JP33321298A JP3576840B2 JP 3576840 B2 JP3576840 B2 JP 3576840B2 JP 33321298 A JP33321298 A JP 33321298A JP 33321298 A JP33321298 A JP 33321298A JP 3576840 B2 JP3576840 B2 JP 3576840B2
Authority
JP
Japan
Prior art keywords
fundamental frequency
phoneme
frequency pattern
accent
accent phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33321298A
Other languages
English (en)
Other versions
JP2000075883A (ja
Inventor
弓子 加藤
孝浩 釜井
紀代 原
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP33321298A priority Critical patent/JP3576840B2/ja
Priority to US09/201,298 priority patent/US6424937B1/en
Priority to CNB981269877A priority patent/CN1220173C/zh
Publication of JP2000075883A publication Critical patent/JP2000075883A/ja
Application granted granted Critical
Publication of JP3576840B2 publication Critical patent/JP3576840B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成に用いる基本周波数パタン生成方法、基本周波数パタン生成装置、及びプログラム記録媒体に関するものである。
【0002】
【従来の技術】
従来の音声基本周波数パタン生成方法としては、特開平5−173590号公報のようにアクセントの型に着目して当該モーラの開始点あるいは当該モーラの母音開始点を基準とし、対数周波数軸上の臨界制動2次線形系で基本周波数パタンを決定するものがある。一方、特開平5−88690号公報のようにアクセントの型、音韻の種類、語あるいは句のモーラ位置に着目して各モーラ毎の基本周波数を決定するものもある。
【0003】
【発明が解決しようとする課題】
しかし、これらの従来の手法では、モーラ内での基本周波数の変動を精密に決定できない、あるいはモーラ毎の時間長の違いによる実時間軸上での歪みを生じ、アクセントに代表される韻律が不自然になるという課題を有していた。
【0004】
本発明は、上述した従来の音声基本周波数パタン生成方法の課題を考慮し、従来に比べてより一層自然性の高い基本周波数パタンを生成出来る基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】
第1の本発明は、アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
前記アクセント句の末尾の1音韻の基本周波数パタンを前記音韻の時間長によって標準化した基本周波数パタン、又は、末尾の1音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音の内、少なくとも何れか一つの音韻の基本周波数パタンを音韻の時間長によって標準化した基本周波数パタン、又は、少なくとも何れか一つの音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶した基本周波数データベースを参照し、
前記基本周波数を生成しようとするアクセント句の末尾の音韻の基本周波数パタン、又は、前記末尾の音韻に含まれる音素毎の基本周波数パタンを設定し、
かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の各音韻の内、全部若しくは一部の音韻毎の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを設定し、
前記基本周波数パタンの前記設定の段階において未設定の、前記音韻間又は前記音素間の基本周波数パタンを、実時間軸上の関数により補間する基本周波数パタン生成方法である。
【0006】
又、第6の本発明は、アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
前記基本周波数を生成しようとする前記アクセント句の末尾の1音韻の何れかを含む連続する複数音韻の基本周波数パタンを決定するアクセント句末基準点と、語尾の基本周波数パタンを決定する語尾基準点との少なくとも何れか一つと、前記基本周波数を生成しようとするアクセント句の立ち上がり基準点、アクセントを生成する立ち下がり基準点の少なくとも何れか一つとを含む基準点を、それぞれの音韻に含まれる音素の時間長で標準化された時間軸上に設定し、
前記音韻に含まれる音素の基本周波数パタンを、その各音素の時間長によって標準化した基本周波数パタンより抽出した基本周波数のうち、アクセント句末基準点と語尾基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶し、かつ、アクセント句の立ち上がり基準点立ち下がり基準点との少なくとも何れか一つの基準点の基本周波数パタンを記憶した基本周波数データベースを参照し、
前記設定された基準点における基本周波数を、前記基本周波数データベースを参照することにより設定し、
前記基本周波数の設定の段階において未設定の、前記基準点の間の基本周波数を、実時間軸上の関数あるいは実時間軸上で表現された基本周波数パタンにより補間する基本周波数パタン生成方法である。
【0007】
又、第16の本発明は、アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
前記アクセント句の末尾の1音韻あるいは末尾から4音韻以下の複数音韻の内、少なくとも何れか一つの音韻に含まれる母音部に相当する基本周波数パタンを、その音韻に含まれる母音の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音韻の内、少なくとも何れか一つの音韻に含まれる母音部に相当する基本周波数パタンを、その音韻に含まれる母音の時間長によって標準化した基本周波数パタンを記憶した基本周波数データベースを参照し、
前記アクセント句の末尾の1音韻あるいは末尾から4音韻以下の複数音韻の内少なくとも1つの音韻において、その音韻に含まれる母音ごとの基本周波数を設定し、かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の内少なくとも1つの母音において、その音韻に含まれる母音ごとの基本周波数パタンを設定し、
前記基本周波数パタンの前記設定が行われない、前記音韻間の基本周波数を、実時間軸上の関数により補間する基本周波数パタン生成方法である。
【0008】
又、第24の本発明は、アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
前記基本周波数を生成しようとする前記アクセント句の末尾の基本周波数パタンを決定するアクセント句末基準点、および語尾の基本周波数パタンを生成する語尾基準点の内、少なくとも一つの基準点と、前記基本周波数を生成しようとするアクセント句の立ち上がり基準点、アクセントを生成する立ち下がり基準点の内少なくとも一つの基準点とを、それぞれの音韻に含まれる音素の時間長で標準化された時間軸上に設定し、
前記音韻に含まれる母音の基本周波数パタンを、その各母音の時間長によって標準化した基本周波数パタンより抽出した基本周波数のうち、アクセント句末基準点、及び語尾基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶し、かつ、アクセント句の立ち上がり基準点、立ち下がり基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶した基本周波数データベースを参照し、
前記設定された基準点における基本周波数を、前記基本周波数データベースを参照することにより設定し、
前記基本周波数の前記設定が行われない、前記基準点の間の基本周波数を、実時間軸上の関数あるいは実時間軸上で表現された基本周波数パタンにより補間する基本周波数パタン生成方法である。
【0019】
又、第41の本発明は、上記音韻は、モーラ又は音節である上記何れかの一つの本発明の基本周波数パタン生成方法である。
【0020】
又、第42の本発明は、アクセント句の基本周波数を生成する基本周波数パタン生成装置であって、
前記アクセント句の末尾の1音韻の基本周波数パタンを前記音韻の時間長によって標準化した基本周波数パタン、又は、末尾の1音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音韻の内、少なくとも何れか一つの音韻の基本周波数パタンを音韻の時間長によって標準化した基本周波数パタン、又は、少なくとも何れか一つの音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶した、基本周波数データベースと、
前記基本周波数を生成しようとするアクセント句の末尾の音韻の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを前記基本周波数データベースを参照して設定し、かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の各音韻の内、全部若しくは一部の音韻毎の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを前記基本周波数データベースを参照して設定し、更に、前記基本周波数パタンの前記設定の段階において未設定の、前記音韻間又は前記音素間の基本周波数パタンを、実時間軸上の関数により補間する基本周波数パタン生成部とを備えた基本周波数パタン生成装置である。
【0023】
又、第44の本発明は、上記何れか一つの本発明の基本周波数パタン生成方法の各ステップをコンピュータにより実行させるためのプログラムを記録したプログラム記録媒体である。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態について、図1から図20を用いて説明する。
【0025】
(実施の形態1)
図1は、本発明の一実施の形態を示す基本周波数パタン生成装置の機能ブロック図であり、同図を参照しながら、本実施の形態の構成を説明する。
【0026】
即ち、図1において、10は音声合成の対象となる文字列を入力する文字列入力部である。20は文字列入力部10より入力された文字列を解析し合成されるべき音声の音韻情報とアクセントやポーズ等の韻律情報を出力する文字列解析部である。30は発話速度、発話中での音韻の位置等の条件ごとに各音韻の時間長を記憶する音韻時間長データベースであり、40は文字列解析部20より出力された音韻情報および韻律情報に基づいて音韻時間長データベース30を参照して各音韻の時間長を設定する時間長設定部である。50はアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの時間長で標準化した基本周波数パタンをモーラ毎に記憶するモーラ時間長標準化基本周波数データベースであり、60は文字列解析部20より出力された韻律情報と時間長設定部40で設定された音韻の時間長に基づいてモーラ時間長標準化基本周波数データベース50を参照して基本周波数パタンを生成する基本周波数パタン生成部である。70は基本周波数パタン生成部より出力された基本周波数パタンに基づいて声帯振動を生成する声帯振動生成部であり、合成音声の音源振動を生成する。図2は本発明による基本周波数パタンの一例である。
【0027】
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
【0028】
まず、文字列入力部10から音声に変換されるべき文字列(図2に示す、「オンセーゴーセー」の文字列)が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0029】
まず、図2中のa)のようにアクセント句の先頭モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。次にアクセント句のモーラ数とアクセント型より基本周波数が最大値をとるモーラを特定し、図2中のb)のように特定されたモーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。図2中のc)およびd)のようにアクセント核とアクセント核の次のモーラの基本周波数パタンおよびアクセント句の最終モーラの基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得する。図2のb)とc)、c)とd)のように基準となるモーラの間を実時間軸で線形補間を用いて、図2のe)、f)およびg)の基本周波数パタンを決定する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0030】
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの時間長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
【0031】
(実施の形態2)
図4は本発明の一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を区間の中央点の値として記憶する母音時間長標準化基本周波数データベース150aに置き換わった以外は図1と同様である。
【0032】
図3は本発明による基本周波数パタンの一例である。以下その動作を述べる。まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0033】
まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース150aより基本周波数が最大値をとるモーラの母音相当部を4等分した3番目の区間中央のa)立ち上がり基準点、アクセント核に当たるモーラの母音相当部を4等分した3番目の区間中央のb)立ち下がり基準点、アクセント核の次のモーラの母音相当部を4等分した3番目の区間中央のc)立ち下がり基準点、アクセント句の最終モーラの母音相当部を4等分した2番目の区間中央のd)アクセント句末基準点、および最終モーラの母音相当部を4等分した3番目の区間中央のe)語尾基準点を取得する。
【0034】
次に各基準点を対応するモーラの母音時間長に対する相対位置に設定する。a)立ち上がり基準点が最大値となるようアクセント句の先頭からa)立ち上がり基準点までを実時間軸上で対数周波数軸に対する臨界制動2次線形系を用いて補間する。a)からd)の各基準点の間を各区間ごとに2点間を実時間軸上で対数周波数軸に対する臨界制動2次線形系を用いて補間する。さらにアクセント句の終了が発話の終了である場合には、d)アクセント句末基準点とe)語尾基準点との間を実時間軸上の関数である語尾関数により補間する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0035】
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
【0036】
(実施の形態3)
本発明の一実施の形態を示す装置の機能ブロック図は、上記実施の形態2のデータベース150aが、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンとアクセント句の先頭基本周波数を記憶する母音時間長標準化基本周波数データベース150bに置き換わった以外は図4と同様であるので、図示を省略する。
【0037】
図5は本発明による基本周波数パタンの一例である。
【0038】
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
【0039】
まず、文字列入力部10から音声に変換されるべき文字列(図5に示す、「oNse−go−se−」の文字列)が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0040】
まず、図5中のAのようにアクセント句の先頭基本周波数を母音時間長標準化基本周波数データベース150bより取得する。次に図5中のa)のようにアクセント句の先頭モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース150bより取得する。本例では第1モーラは単母音音節であるので図5中のa)のように当該モーラの時間長の後半部に対して母音時間長標準化基本周波数データベース150bより取得した基本周波数パタンを適用する。b)、c),d),e),f),g),h)についても同様に当該モーラの母音部の基本周波数パタンを母音時間長標準化基本周波数データベース150bより取得する。撥音であるb)、長音であるd),f),h)についてもa)と同様に当該モーラの時間長の後半部にたいして母音時間長標準化基本周波数データベース150bより取得した基本周波数パタンを適用する。次に単母音音節、撥音、長音の前半部あるいは有声子音のa’)、b’)、d’)、e’),f’)、h’)の基本周波数を前後の基本周波数により、実時間軸で線形補間を用いて生成する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0041】
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
【0042】
(実施の形態4)
実施の形態4においては母音時間長標準化基本周波数データベース150aはアクセント句のモーラ数、アクセント型、音韻列等の韻律の決定要因の条件について、A)先頭基本周波数、B)立ち上がり基準点、C)立ち下がり基準点(アクセント核)、D)立ち下がり基準点(アクセント核の直後)、E)アクセント句末基準点、およびF)語尾基準点を、各基準点を含むモーラの母音時間長に対する相対位置で記憶する母音時間長標準化基本周波数データベースである。これ以外は装置の構成については図4と同様である。図6は本発明による基本周波数パタンの一例である。以下その動作を述べる。
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型および音韻列等により、母音時間長標準化基本周波数データベース150aよりA)からF)の基準点を取得する。次に各基準点を対応するモーラの母音長に対する相対位置に設定する。A)先頭基本周波数からB)立ち上がり基準点までの間を実時間軸上の関数を用いて生成する。さらにB)以降の各基準点の間の基本周波数パタンを実時間軸上の直線で補間することにより生成する。
【0043】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0044】
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに聞こえに大きく影響しない部分については実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。
【0045】
(実施の形態5)
図7は本発明の一実施の形態を示す装置の機能ブロック図であり、母音時間長標準化基本周波数データベース150aがアクセント句のモーラ数、アクセント型の条件についてa)立ち上がり基準点、b)立ち下がり基準点(アクセント核)、c)立ち下がり基準点(アクセント核の直後)、d)アクセント句末基準点、およびe)語尾基準点を、各基準点を含むモーラの母音あるいは母音相当部の時間長に対する相対位置で記憶し、音韻あるいは音素列による基本周波数の微細な変動を母音時間長標準化基本周波数データベース150aに記憶された各基準点および基準点の間を補間した値との差を音素の時間長で標準化して記憶するマイクロプロソディデータベース250がつけ加わった以外は図4と同様である。
【0046】
図8はマイクロプロソディデータベース250に記憶されているマイクロプロソディ成分の模式図であり、図9(A)〜(C)は本発明による基本周波数パタンの一例である。
【0047】
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
【0048】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの音素ごとの時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。まず、アクセント句のモーラ数とアクセント型により、母音時間長標準化基本周波数データベースより、基本周波数が最大値をとるモーラの母音相当部を4等分した3番目の区間中央のa)立ち上がり基準点、アクセント核に当たるモーラの母音相当部を4等分した3番目の区間中央のb)立ち下がり基準点、アクセント核の次のモーラの母音相当部を4等分した3番目の区間中央のc)立ち下がり基準点、アクセント句の最終モーラの母音相当部を4等分した2番目の区間中央のd)アクセント句末基準点、および最終モーラの母音相当部を4等分した3番目の区間中央のe)語尾基準点を取得する。
【0049】
次に各基準点を対応するモーラの音素時間長に対する相対位置に設定する。a)立ち上がり基準点が最大値となるようアクセント句の先頭からa)立ち上がり基準点までを実時間軸上でかつ対数周波数軸に対する臨界制動2次線形系で補間する。a)からe)の各基準点の間を各区間ごとに2点間を実時間軸上でかつ対数周波数軸に対する臨界制動2次線形系で補間し、図9(A)のような基本周波数パタンを生成する。次にマイクロプロソディデータベース250より各音素に対応する基本周波数の微細な変動を取得し、各音素の時間長に合わせて伸長圧縮し、図9(B)のように適用する。図9(A)の基本周波数パタンに、同図(B)の微細な変動を加え、同図(C)のような基本周波数パタンを生成する。声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0050】
アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素の時間長で標準化した軸上で設定することによりモーラ内での基本周波数の変動のタイミングを詳細に再現し、さらに音声の自然性と明瞭性に影響する、基本周波数の微細な変動を加えることにより高い自然性と明瞭性を実現する。
【0051】
(実施の形態6)
図10は本発明の一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50がアクセント句のモーラ数、アクセント型の条件について基本周波数パタンのピークである第iモーラのa)立ち上がり基準点、b)立ち下がり基準点(アクセント核)、c)立ち下がり基準点(アクセント核の直後)、アクセント句末尾のkモーラのd)アクセント句末基準点を、各基準点を含むモーラの音素の時間長に対する相対位置で記憶する音素時間長標準化基本周波数データベース351に入れかわり、基本周波数を生成しようとするアクセント句のフレーズ内での位置ごとにアクセント句のピークと末尾の基本周波数の変形量を記憶した基本周波数パタン変形データベース350がつけ加わった以外は図1と同様である。
【0052】
図11、図12、図13および図14は音素時間長標準化基本周波数データベース351に基本周波数生成しようとするアクセント句のモーラ数およびアクセント型に対応する基本周波数パタンのデータがない場合に生成する基本周波数パタンの模式図である。図15は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。以下その動作を述べる。
【0053】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0054】
まず、アクセント句のモーラ数とアクセント型および音韻列等により、音素時間長標準化基本周波数データベース351よりa)立ち上がり基準点、b)立ち下がり基準点、c)立ち下がり基準点、d)アクセント句末基準点、あるいは、d’)最終モーラを取得する。
【0055】
基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンのデータが音素時間長標準化基本周波数データベース351にない場合は、基本周波数を生成しようとするアクセント句のモーラ数がnモーラ、アクセント型がm型とすると、mがi+1以下の場合は図11(A)のように、アクセント型がm型でモーラ数がnに最も近い1モーラm型の基本周波数パタンのa)からd)を音素時間長標準化基本周波数データベース351より取得し、図11(B)のように音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
【0056】
mがi+1より大きくn−k以下の場合は図12(A)のように、アクセント核のモーラ位置jがi+1より大きくl−k以下で、モーラ数がnに最も近いlモーラj型の基本周波数パタンのa)からd)を音素時間長標準化基本周波数データベース351より取得し、図12(B)のように音素時間長標準化基本周波数データベース351から取得したb)とc)を基本周波数を生成しようとするアクセント句の第mモーラと第m+1モーラの基準点として設定し、音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
【0057】
mがn−kより大きい場合は図13(A)のように、アクセント核のモーラ位置jがl−kより大きくモーラ数がnに最も近いlモーラj型の基本周波数パタンのa)からd’)を音素時間長標準化基本周波数データベース351より取得し、図13(B)のように音素時間長標準化基本周波数データベース351から取得したb)とc)を含むd’)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。基本周波数を生成しようとするアクセント句がnモーラ平板型の場合図14(A)のように、アクセント型が平板型でモーラ数がnに最も近いlモーラ平板型の基本周波数パタンのa)とd)を音素時間長標準化基本周波数データベース351より取得し、図13(B)のように音素時間長標準化基本周波数データベース351から取得したd)を基本周波数を生成しようとするアクセント句の第n−k+1モーラから第nモーラの基準点として設定する。
【0058】
次に、音素時間長標準化基本周波数データベース351より取得されたあるいは音素時間長標準化基本周波数データベース351より取得された基準点より生成されたアクセント句の基本周波数パタンを基本周波数変形データベース350にアクセント句のフレーズ内での位置ごとに記憶された変形量に従って、各アクセント句の基本周波数の最大値、a)からd)あるいはd’)の基準点の基本周波数を変更する。
【0059】
まず基本周波数変形データベース350に記憶された第1アクセント句の変形量により図15中のA)のように、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の90%になるようにb)、c)およびd)の基本周波数を変更する。第2アクセント句については図15中のB)のように、a)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の75%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の70%になるようにb)、c)およびd)の基本周波数を変更する。同様に第3アクセント句も図15中のC)のようにa)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の70%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の68%になるようにb)、c)およびd)の基本周波数を変更する。
【0060】
基本周波数変形データベース350に第nアクセント句に対応する変形量が記憶されていない場合、アクセント位置の値がnより小さく、最もnに近いアクセント位置に対応する変形量を適用する。本例では第4アクセント句の変形量が基本周波数変形データベース350に記憶されていない場合を示す。
【0061】
アクセント位置の値が4より小さく、最も4に近い第3アクセント句の変形量を適用し図15中のD)のように第3アクセント句と同様の変形を加える。フレーズ終端である最終アクセント句については、基本周波数変形データベース350より最終アクセント句に対応する変形量を取得し、図15中のE)のようにa)の基本周波数を音素時間長標準化基本周波数データベース351より取得された基本周波数の48%の値に変更し、a)とd)の基本周波数の差が音素時間長標準化基本周波数データベース351より取得された基本周波数の差の60%になるようにb)、c)およびd)の基本周波数を変更する。
【0062】
次に、各アクセント句について、実施の形態2あるいは実施の形態4のようにアクセント句の先頭からa)までの基本周波数を実時間軸上の関数を用いて生成し、さらに各基準点の間を実時間軸上で補間し、アクセント句終了点までの基本周波数パタンを生成する。
【0063】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0064】
音声の自然性に大きく影響する、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの音素時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。さらに基本周波数パタンの拡張を行うことによりデータベースの縮小が可能になる。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
【0065】
(実施の形態7)
図17は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図1に同じである。以下その動作を述べる。
【0066】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0067】
図17に示す様に、まず、第1アクセント句1701のモーラ数、アクセント型に対応する基本周波数パタン1711をモーラ時間長標準化基本周波数データベース50より取得し、適用する。
【0068】
第1アクセント句1701の基本周波数の最大値aを通り、第nアクセント句の位置を示すiの値が増加するごとに、第1アクセント句1701の最大値aが10%低下するような、第nアクセント句に対するアクセント句の基本周波数最大値を示す式1を求める。
【0069】
【数1】
(−0.1i+1)a …式1
但し、aは、第1アクセント句1701の基本周波数の最大値である。また、アクセント句数iは、第nアクセント句が、第1アクセント句から数えて、何番目のアクセント句であるかを示す数であり、n−1となる。
【0070】
さらに第1アクセント句1701のアクセント句末の周波数bを通り、第nアクセント句の位置を示すiの値が増加する毎に、第1アクセント句1701のアクセント句末の周波数bが5%低下するような、第nアクセント句に対するアクセント句末の周波数を示す式2を求める。
【0071】
【数2】
(−0.05i+1)b …式2
但し、bは、第1アクセント句1701のアクセント句末の周波数である。
【0072】
次に、第2アクセント句1702のモーラ数、アクセント型に対応する基本周波数パタン1712(図中、点線で表した)をモーラ時間長標準化基本周波数データべース50より取得する。第2アクセント句のアクセント句数iは1であるから、これを式1に代入して、基本周波数パタン1712の変形後の最大値aを求める。同様にして、式2より、基本周波数パタン1712の変形後のアクセント句末の周波数bを求める。
【0073】
この様にして求めた変形後の最大値aと、変形後のアクセント句末の周波数bとに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1712を変形した後、変形後の基本周波数パタン1713を第2アクセント句1702の基本周波数パタンとして用いる。
【0074】
第nアクセント句についても、当該アクセント句が最終アクセント句(文末)でない場合、第nアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得する。そして、その取得した基本周波数パタンの最大値が、式1より得られた値に一致し、且つ、その取得した基本周波数パタンのアクセント句末の周波数が、式2より得られた値に一致する様に、上記データベース50より取得した基本周波数パタンを変形し、これを第nアクセント句の基本周波数パタンとして用いる。
【0075】
更に、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を15%低下させた値に一致し、しかも、アクセント句末の周波数が直前のアクセント句のアクセント句末を10%低下させた値に一致するように、上記データベース50より取得した基本周波数パタンを変形し、これを適用する。
【0076】
尚、対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース50にない場合は、実施の形態6のようにアクセント句の基本周波数パタンを生成し、これを変形する。
【0077】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0078】
当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内でのアクセント句位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
【0079】
尚、上記実施の形態では、基本周波数を生成しようとするアクセント句が、文末である場合のみ、直前のアクセント句の所定位置の周波数を基準として、その周波数を所定の比率で低下させて用いる場合について述べた。そこで、上記実施の形態の変形例として、文末以外に存在しているアクセント句についても、上記例と同様のルールで各周波数値を圧縮しても良い。即ち、この場合、例えば、図18に示す様に、文末を除く、第2アクセント句から第nアクセント句については、それぞれ、直前のアクセント句の最大値を10%低下させた値(図中、例えば、a)と、直前のアクセント句のアクセント句末の周波数を5%低下させた値(図中、例えば、b)を求める。
【0080】
そして、例えば第2アクセント句については、この様にして求めた変形後の最大値aと、変形後のアクセント句末の周波数bとに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1712を変形した後、変形後の基本周波数パタン1713を第2アクセント句1702の基本周波数パタンとして用いる。第nアクセント句についても、これと同様である。尚、基本周波数を生成しようとするアクセント句が、文末である場合は、図17と同様の方法を用いる。
【0081】
(実施の形態8)
図19は複数のアクセント句の基本周波数パタンを接続して生成した文の基本周波数パタンの模式図である。装置の構成については図1に同じである。以下その動作を述べる。
【0082】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0083】
図19に示す様に、まず、第1アクセント句1801のモーラ数、アクセント型に対応する基本周波数パタン1811をモーラ時間長標準化基本周波数データベース50より取得し、適用する。
【0084】
第1アクセント句1801の基本周波数の最大値aを通り、第1アクセント句の基本周波数の最大値aを含むモーラ位置からのモーラ数が増えるごとにアクセント句1801の最大値aが2%低下するような、累積モーラ数jに対するアクセント句の基本周波数最大値を示す式3を求める。
【0085】
【数3】
(−0.02j+1)a …式3
但し、aは、第1アクセント句1801の基本周波数の最大値であり、累積モーラ数jは、第1アクセント句の基本周波数の最大値aを含むモーラ位置(図中、横軸の原点とした)を基準として数えたモーラ数である。
【0086】
さらに第1アクセント句1801のアクセント句末の周波数bを通り、第1アクセント句のアクセント句末の周波数bを含むモーラ位置からのモーラ数が増えるごとに、第1アクセント句1801のアクセント句末の周波数bが1%低下するような、累積モーラ数jに対するアクセント句末の周波数を示す式4を求める。
【0087】
【数4】
(−0.01j+1)b …式4
但し、bは、第1アクセント句1801のアクセント句末の周波数である。
【0088】
次に、第2アクセント句1802のモーラ数、アクセント型に対応する基本周波数パタン1812(図中、点線で表した)をモーラ時間長標準化基本周波数データべース50より取得し、その最大値1812aをとるモーラが、原点のモーラからj2aモーラ目になることを求め、これを式3に累積モーラ数として代入して、基本周波数パタン1812の変形後の最大値aを求める。又、第2アクセント句1802のアクセント句末1812bが原点のモーラからj2bモーラ目になることを求め、これを式4に累積モーラ数として代入して、基本周波数パタン1812の変形後のアクセント句末の周波数bを求める。
【0089】
この様にして求めた変形後の最大値aと、変形後のアクセント句末の周波数bとに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタン1812を変形した後、これを第2アクセント句1802の基本周波数パタンとして用いる。
【0090】
第nアクセント句についても、当該アクセント句が最終アクセント句(文末)でない場合、第nアクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値をとるモーラが、原点のモーラから数えて何モーラ目になるかを求め、これを式3に累積モーラ数として代入して基本周波数パタンの変形後の最大値を求める。更に、アクセント句末が、原点のモーラから数えて何モーラ目になるかを求め、これを式4に累積モーラ数として代入して基本周波数パタンの変形後のアクセント句末の周波数を求める。
【0091】
この様にして求めた変形後の最大値と、変形後のアクセント句末の周波数とに一致するように、モーラ時間長標準化基本周波数データべース50より取得した基本周波数パタンを変形して、第nアクセント句の基本周波数パタンとして用いる。
【0092】
又、基本周波数を生成しようとするアクセント句が文末である場合、モーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データべース50より取得し、その最大値が当該アクセント句の直前のアクセント句の最大値を15%低下させた値に一致し、アクセント句末の周波数が直前のアクセント句のアクセント句末を10%低下させた値に一致するよう取得した基本周波数パタンを変形して適用する。対応する基本周波数パタンのデータがモーラ時間長標準化基本周波数データベース50にない場合は、実施の形態6のようにアクセント句の基本周波数パタンを生成し、変形する。
【0093】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0094】
当該モーラのモーラ時間長で標準化した時間軸上で設定することにより、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、高い自然性を実現する。また、フレーズ内での累積モーラ位置に基づいて基本周波数パタンを変形することにより、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
【0095】
(実施の形態9)
図16は本発明の一実施の形態を示す装置の機能ブロック図であり、モーラ時間長標準化基本周波数データベース50が第1アクセント句から第3アクセント句についてアクセント句が文末であるか否か、およびアクセント句のモーラ数、アクセント型、音韻列等の、韻律を決定する要因によって分類された、各モーラの母音部の時間長で標準化したモーラ毎の母音部の基本周波数パタンを記憶するアクセント句位置基本周波数データベース450に置き換わった以外は図1と同様である。
【0096】
以上のように構成された基本周波数パタン生成装置について、以下、その動作を述べる。
【0097】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型、およびアクセント句のフレーズ内での位置を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。
【0098】
時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各モーラの母音時間長または単母音音節、撥音あるいは長音における母音相当部の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。本例では5つのアクセント句によって構成される文の基本周波数の生成を説明する。
【0099】
まず、第1アクセント句に対して、アクセント句位置基本周波数データベース450より第1アクセント句で文末でない、基本周波数を生成しようとするアクセント句のモーラ数、アクセント型に対応する基本周波数パタンを取得する。第2アクセント句、第3アクセント句に対しても同様にアクセント句位置基本周波数データベース450より基本周波数パタンを取得する。
【0100】
第4アクセント句については、アクセント句位置基本周波数データベース450に第4アクセント句に対応する基本周波数パタンはないため、第4アクセント句にアクセント句の位置が最も近い第3アクセント句の、文末でない基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。
【0101】
最終アクセント句である第5アクセント句についても、アクセント句位置基本周波数データベース450に該当する基本周波数パタンはないため、アクセント句の位置が最も近い第3アクセント句の、文末の基本周波数パタンからモーラ数とアクセント型に対応する基本周波数パタンを取得する。実施の形態3あるいは実施の形態4のように基本周波数パタンのない部分を実時間軸上で補間し、基本周波数パタンを生成する。
【0102】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0103】
当該モーラの母音長で標準化した基本周波数パタンを利用することによりモーラ内での基本周波数の変動を詳細に再現し、アクセント句の位置、文末か否かの条件によって当てはめることによりフレーズ単位の基本周波数の変動を正確に再現できるため、フレーズとしてのまとまりをつくり、自然な文音声を実現することができる。
【0104】
(実施の形態10)
図20(A)、(B)はアクセント句の基本周波数パタンを接続して文を生成する際の基本周波数パタンの接続部の模式図である。本発明の一実施の形態の基本周波数パタン生成装置の構成については図1に同じである。以下その動作を述べる。
【0105】
まず、文字列入力部10から音声に変換されるべき文字列が入力される。文字列解析部20では入力された文字列を解析し、音素列を示す音韻情報を時間長設定部40へ出力し、文字列をアクセント句に分け、各アクセント句のモーラ数とアクセント型を示す韻律情報と音素列を示す音韻情報とを基本周波数パタン生成部60へ出力する。時間長設定部40は文字列解析部20より入力された音韻情報に基づき音韻時間長データベース30を参照して各音素の時間長を設定し、時間長情報を基本周波数パタン生成部60に出力する。基本周波数パタン生成部60は文字列解析部20より入力された韻律情報と音韻情報、時間長設定部40より入力された時間長情報に基づき、アクセント句毎に基本周波数パタンを生成する。
【0106】
まず、基本周波数パタンを生成しようとする各アクセント句のモーラ数、アクセント型に対応する基本周波数パタンをモーラ時間長標準化基本周波数データベース50より取得し、適用する。実施の形態6、実施の形態7、あるいは実施の形態8の方法でアクセント句ごとにモーラ時間長標準化基本周波数データベース50より取得した基本周波数パタンを変形する。
【0107】
変形された各アクセント句の基本周波数パタンのうち、文末でない第nアクセント句につて、図20のe)当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差を求める。
【0108】
第nアクセント句と第n+1アクセント句の間にポーズがない場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が40Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から40を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、図20のf)のように第nアクセント句と第n+1アクセント句の間を滑らかに接続する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が40Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から40を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮し、第nアクセント句と第n+1アクセント句の間を滑らかに接続する。
【0109】
第nアクセント句と第n+1アクセント句の間に50msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が50Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から50を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が50Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から50を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
【0110】
第nアクセント句と第n+1アクセント句の間に50msec以上100msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が70Hz以上で、第nアクセントト句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が70Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
【0111】
第nアクセント句と第n+1アクセント句の間に100msec以上150msec未満のポーズがある場合はe)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が80Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にない場合は、アクセント句末尾基準点の先頭モーラあるいはそれより先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から80を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。e)の当該アクセント句の最終モーラの母音部の基本周波数と第n+1アクセント句の先頭モーラの母音部の基本周波数の差が80Hz以上で、第nアクセント句のアクセント核がアクセント句内の末尾3モーラの中にある場合は、アクセント核のモーラあるいは先行するモーラで、第n+1アクセント句の先頭モーラの母音部の基本周波数から70を減じた値を超える基本周波数をもつモーラから、第nアクセント句の最終モーラまでの基本周波数パタンを周波数軸方向に圧縮する。
【0112】
声帯振動生成部70は基本周波数パタン生成部60より出力された基本周波数パタンに従って合成音の声帯振動を生成する。
【0113】
アクセント句単位で生成した基本周波数パタンの末尾を後続アクセント句との間のポーズ長に基づいて変形することによりアクセント句どうしの接続部を滑らかにし、自然な文音声を実現することができる。
【0114】
なお、以上の説明では、実施の形態1、3、4では補間関数として直線を用い、実施の形態2で補間関数として対数周波数軸に対する臨界制動2次線形系を用いた例で説明したが、実施の形態1、3、4に臨界制動2次線形系を用い、実施の形態2に直線を用いてもよい、またその他の実時間軸上の関数についても同様に実施可能である。
【0115】
なお、実施の形態2においてアクセント句の先頭から、立ち上がり基準点までの基本周波数を対数周波数軸に対する臨界制動2次線形系を用いて補間し、実施の形態4で実時間軸上で表現された基本周波数パタンを当てはめることにより補間したが、実施の形態2に実時間軸上で表現された基本周波数パタンを当てはめ、実施の形態4に対数周波数軸に対する臨界制動2次線形系を用いてもよい。
【0116】
なお、実施の形態2において母音時間長標準化基本周波数データベース150aは各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各音素の時間長で標準化したものであればこれ以外のものでもよい。
【0117】
なお、実施の形態2、5において、アクセント立ち上がり基準点を当該モーラの母音長を4等分した3番目の区間の中央を立ち上がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
【0118】
なお、実施の形態5において母音時間長標準化基本周波数データベース150aは各モーラの母音部の時間長を4等分し、各区間の基本周波数の代表値を記憶するものとしたが、基本周波数パタンを各母音の時間長で標準化したものであればこれ以外のものでもよい。
【0119】
なお、実施の形態2、5において、アクセント立ち上がり基準点を当該モーラの母音長を4等分した3番目の区間の中央を立ち上がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
【0120】
なお、実施の形態2、5において、アクセント核に当たるモーラの母音長を4等分した3番目の区間の中央と、アクセント核の次のモーラの母音長を4等分した3番目の区間の中央の2点を立ち下がり基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
【0121】
なお、実施の形態2、5において、アクセント句の最終モーラの母音長を4等分した2番目の区間の中央をアクセント句末基準点としたが、母音の前半に当たる相対位置であればこれ以外の値でも良い。
なお、実施の形態2、5において、発話の最終モーラの母音長を4等分した3番目の区間の中央を語尾基準点としたが、母音の後半に当たる相対位置であればこれ以外の値でも良い。
【0122】
なお、実施の形態5において、マイクロプロソディを付加する基礎となる基本週は素パタンを実施の形態2と同様に生成したが、実施の形態1、3、4と同様にしても良い。
【0123】
なお、実施の形態6において、アクセント句の基本周波数パタンを実施の形態2と同様に生成したが、実施の形態1、3、4と同様にしても良い。
【0124】
なお、実施の形態6において、基本周波数パタンの基準点をデータベースより取得された変形量に従って変更した後に補間を行ったが、補間を行った後に基本周波数パタンを変形しても良い。
【0125】
なお、実施の形態6において、基本周波数パタンの変形量として、第1アクセント句では最大値とアクセント句末との差を90%に圧縮したが70%から100%未満の範囲内の他の値でも良い。
【0126】
なお、実施の形態6において、基本周波数パタンの変形量として、第2アクセント句においては最大値を75%に圧縮し、第3アクセント句、第nアクセント句においては最大値を70%に圧縮したが50%から90%の範囲内の他の値でも良い。
【0127】
なお、実施の形態6において、基本周波数パタンの変形量として、第2アクセント句においては最大値とアクセント句末との差を70%に圧縮し、第3アクセント句、第nアクセント句においては最大値とアクセント句末との差を68%に圧縮したが50%から90%の範囲内の他の値でも良い。
【0128】
なお、実施の形態6において、基本周波数パタンの変形量として、最終アクセント句については最大値を48%に圧縮したが30%から70%の範囲内の他の値でも良い。
【0129】
なお、実施の形態6において、基本周波数パタンの変形量として、最終アクセント句については最大値とアクセント句末との差を60%に圧縮するとしたが40%から80%の範囲内の他の値でも良い。
【0130】
なお、実施の形態7において、式1のiの係数を−0.1としたが−0.05から−0.4の範囲内の他の値でも良い。
【0131】
なお、実施の形態7において、式2のjの係数を−0.05としたが0を最大として−0.2の範囲内の他の値でも良い。
【0132】
なお、実施の形態7および実施の形態8において最終アクセント句においては、基本周波数の最大値を直前のアクセント句の最大値を15%低下させた値としたが、10%から40%の範囲内の他の値でも良い。
【0133】
アクセント句末を直前のアクセント句のアクセント句末を10%低下させた値にするとしたが、5%から40%の範囲内の他の値でも良い。
【0134】
なお、実施の形態8において、式3のiの係数を−0.02としたが、これに限らず、−0.01から−0.2の範囲内の他の値でも良い。
【0135】
なお、実施の形態8において、式4のjの係数を−0.01としたが、これに限らず、−0.01から−0.1の範囲内の他の値でも良い。
【0136】
なお、実施の形態10において実施の形態6、7、あるいは8同様にしてモーラ時間長標準化基本周波数データベース50より取得した基本周波数パタンを変形するとしたが、実施の形態9と同様にアクセント句位置基本周波数データベース450よりアクセント句の位置に基づいて基本周波数パタンを取得するとしても良い。
【0137】
なお、実施の形態10において第nアクセント句と第n+1アクセント句の間にポーズがない場合に、第nアクセント句の最終モーラの母音部中央と第n+1アクセント句の先頭モーラの母音部中央の基本周波数の差が40Hz以下になるように基本周波数パタンを変形するとしたが、20Hzから60Hzの間の他の値でも良い。
【0138】
なお、実施の形態10においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第nアクセント句と第n+1アクセント句の間のポーズの持続時間を50msec未満、50msec以上100msec未満、100msec以上150msec未満、150msec以上の4段階に分類したが、1ないし8の他の数の段階に分類しても良い。
【0139】
なお、実施の形態10において第nアクセント句と第n+1アクセント句の間のポーズの持続時間が150msec以上の場合はアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更を行わないものとしたが、変更を行うポーズの持続時間の上限は120msecから200msecの間のほかの値としても良い。
【0140】
なお、実施の形態10においてアクセント句立ち下がり、アクセント句末、語尾の基本周波数の変更の基準として、第nアクセント句と第n+1アクセント句の間のポーズの持続時間を4段階に分類し、第nアクセント句の最終モーラの母音部中央と第n+1アクセント句の先頭モーラの母音部中央の基本周波数の差の上限をポーズの持続時間の段階毎に設定したが、ポーズの持続時間tに対する一次式(式5)
【0141】
【数5】
at+b(Hz) …式5
ただし 0<a<0.4 20<b<60
によって設定するとしても良い。
【0142】
なお、本発明はプログラムによって実現し、これをフロッピーディスク、光ディスク、ICカード、ROMカセット等のプログラムを記録することのできる記録媒体に記録して移送することにより、独立した他のコンピュータシステムで容易に実施することができる。
【0143】
又、本発明の音韻は、上記実施の形態では、主にモーラに該当するものとして説明したが、これに限らず例えば、音節であっても良い。即ち、上記の様に、基本周波数データベースとして、モーラ単位又は音素単位でデータを格納している場合に限らず例えば、音節単位又は音節に含まれる音素単位でデータを格納した基本周波数データベースを用いても勿論良く、この場合でも、上記と同様の効果を発揮する。即ち、上述した全ての実施の形態において、「モーラ」を「音節」と読み替えた構成としても、上記と同様の効果を発揮する。
【0144】
又、上記実施の形態では、基本周波数データベースが、末尾から3モーラまでの基本周波数パタンを保持している場合について述べたが、最大限末尾から4モーラまでの基本周波数パタンを保持しておけば十分な効果を発揮する。
【0145】
上記の様に、本発明の第1の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句の末尾の1モーラあるいは複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
【0146】
又、第2の方法は、アクセント句のモーラ位置毎に当該モーラの音素の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
【0147】
又、第3の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を含むモーラ、アクセント核とアクセント核の次のモーラ、およびアクセント句末尾の1ないし複数のモーラのおのおのについて、前記のデータベースを参照して各モーラ内での基本周波数パタンを設定し、基本周波数がデータベースより設定されない区間については、データベースから設定された基本周波数の間を実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
【0148】
又、第4の方法は、アクセント句のモーラ位置毎に当該モーラの母音あるいは母音相当部の時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句の基本周波数の最大値を与える立ち上がり基準点、アクセントの立ち下がりを与える立ち下がり基準点、アクセント句の終了時の基本周波数を与えるアクセント句末基準点および発話終了時の基本周波数を与える語尾基準点を当該モーラの母音長に対して一定比である時間点に設定し、おのおのの基準点について前記のデータベースを参照して基本周波数を設定し、それらの基準点間の基本周波数については実時間軸上の関数により補間して基本周波数パタンを生成する基本周波数パタン生成方法である。
【0149】
又、第5の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースと、音素あるいは音韻列ごとの基本周波数を音素時間長で標準化した値と基本周波数パタンとの差を記憶したマイクロプロソディデータベースとを用い、音素時間長標準化基本周波数データベースから取得された基本周波数パタンにマイクロプロソディデータを加算あるいは減算することにより基本周波数パタンを生成する基本周波数パタン生成方法である。
【0150】
又、第6の方法は、アクセント句のモーラ位置毎に当該モーラの音素時間長で標準化した基本周波数パタンを記憶した音素時間長標準化基本周波数データベースを用い、アクセント句ごとの基本周波数パタンを生成する基本周波数パタン生成方法において、基本種端数を生成しようとするアクセント句のモーラ数およびアクセント型に該当する基本周波数パタンが音素時間長標準化基本周波数データベース内にない場合、データベース内の基本周波数パタンを利用し、基本周波数を生成しようとするアクセント句をnモーラm型、データベースから取得した基本周波数パタンをlモーラj型、取得した基本周波数パタンの最大値を含むモーラの位置をi、取得した基本周波数パタンのアクセント句末尾のモーラ数をkとするとき、m≦i+1のとき第1から第m+1モーラまではデータベースより取得した基本周波数パタンの第1から第j+1モーラまでを適用し、第n−k+1から第nモーラまではデータベースより取得した基本周波数パタンの第l―k+1から第lモーラを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またi+1<m≦n−k+1のとき第1から第iモーラまではデータベースより取得した基本周波数パタンの第1から第iモーラまでを適用し、第m、第m+1モーラにはデータベースより取得した基本周波数パタンの第j、第j+1モーラを適用し、第n−k+1から第nモーラまではデータベースより取得した基本周波数パタンの第l―k+1から第lモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する。またm>n−k+1のとき第1から第iモーラまではデータベースより取得した基本周波数パタンの第1から第iモーラまでを適用し、第mから第nモーラまではデータベースより取得した基本周波数パタンの第jモーラから第lモーラまでを適用し、その間のモーラについては実時間軸上で補間することにより基本周波数パタンを生成する基本周波数生成方法である。
【0151】
又、第7の方法は、アクセント句の基本周波数パタンをフレーズのアクセント句の位置および文末であるか否かによって分類した基本周波数データベースを用いて基本周波数パタンを生成する基本周波数生成方法である。
【0152】
又、第8の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースと、フレーズのアクセント句の位置および文末であるか否かによって、基本周波数パタンの変形量を記憶した変形データベースを用い、基本周波数データより取得した基本周波数パタンを変形データベースより取得した変形量に従って変形し基本周波数パタンを生成する基本周波数パタン生成方法である。
【0153】
又、第9の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンをフレーズ内でのアクセント句の位置iの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。
【0154】
又、第10の方法は、アクセント句の基本周波数パタンを記憶した基本周波数データベースを用い、基本周波数データより取得した基本周波数パタンを基本周波数パタンを決定する基準になるモーラに対してそのモーラのフレーズ内での位置jの関数により基本周波数パタンを変形する基本周波数パタン生成方法である。
【0155】
又、第11の方法は、アクセント句ごとに基本周波数パタンを生成し、当該アクセント句のアクセント末尾、および終了点の周波数と次のアクセント句の開始点の周波数の差があらかじめ定められた値以下になるよう当該アクセント句のアクセントの立ち下がり、アクセント末尾および終了点の特性を変更する基本周波数パタン生成方法である。
【0156】
以上説明したように、本発明によれば、アクセント句の立ち上がりとアクセント核での立ち下がりのタイミングと角度を当該モーラの母音長で標準化した基本周波数パタンを当てはめることにより、モーラ内での基本周波数の変動を詳細に再現し、高い自然性を実現するとともに、データベースのパタンを当てはめない実時間軸上で補間を行うことにより、モーラ単位で制御する際の不連続感をなくし、基本周波数パタンデータベースもより小さくすることができる。あるいはアクセント句の立ち上がりとアクセント核での立ち下がりのタイミングを当該モーラの母音長で標準化した時間軸上で設定することにより、モーラ内での基本周波数の変動のタイミングを詳細に再現し、立ち上がり、立ち下がりの角度については実時間軸上の関数を用いることによって、音韻による時間長の差に影響されることなく立ち上がり、立ち下がりの安定したなめらかな基本周波数のパタンを得ることができ、モーラ単位で制御する際の不連続感をなくし、高い自然性を実現する。さらに補間を用いることにより基本周波数パタンデータベースもより小さくすることができ、その実用的効果は大きい。
【0157】
【発明の効果】
以上述べたところから明らかな様に本発明は、従来に比べてより一層自然性の高い基本周波数パタンを生成出来るという長所を有する。
【図面の簡単な説明】
【図1】本発明による基本周波数生成装置の機能ブロック図
【図2】本発明の実施の形態1により生成される基本周波数パタンの1例を示す図
【図3】本発明の実施の形態2により生成される基本周波数パタンの1例を示す図
【図4】本発明の一実施の形態を示す装置の機能ブロック図
【図5】本発明による基本周波数パタンの一例を示す図
【図6】本発明による基本周波数パタンの一例を示す図
【図7】本発明の一実施の形態を示す装置の機能ブロック図
【図8】マイクロプロソディデータベース250に記憶されているマイクロプロソディ成分の模式図
【図9】(A):実施の形態5の基本周波数データベースより生成される基本周波数パタンを示す図
(B):同実施の形態のマイクロプロソディデータベースより取得したマイクロプロソディ成分を示す図
(C):図9(A)のパタンに図9(B)のパタンを加算して生成した基本周波数パタンを示す図
【図10】本発明の一実施の形態を示す装置の機能ブロック図
【図11】(A)、(B):本発明による基本周波数パタンの一例を示す図
【図12】(A)、(B):本発明による基本周波数パタンの一例を示す図
【図13】(A)、(B):本発明による基本周波数パタンの一例を示す図
【図14】(A)、(B):本発明による基本周波数パタンの一例を示す図
【図15】本発明の基本周波数パタンの模式図
【図16】本発明の一実施の形態を示す装置の機能ブロック図
【図17】本発明の一実施の形態の基本周波数パタンの模式図
【図18】本発明の変形例の基本周波数パタンの模式図
【図19】本発明の基本周波数パタンの模式図
【図20】(A)、(B):本発明の基本周波数パタンのアクセント句接続部の模式図
【符号の説明】
10 文字列入力部
20 文字列解析部
30 音韻時間長データベース
40 時間長設定部
50 モーラ時間長標準化基本周波数データベース
60 基本周波数パタン生成部で
70 声帯振動生成部
150、150a,150b 母音時間長標準化基本周波数データベース
250 マイクロプロソディデータベース
350 基本周波数パタン変形データベース
450 アクセント句位置基本周波数データベース

Claims (44)

  1. アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
    前記アクセント句の末尾の1音韻の基本周波数パタンを前記音韻の時間長によって標準化した基本周波数パタン、又は、末尾の1音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音の内、少なくとも何れか一つの音韻の基本周波数パタンを音韻の時間長によって標準化した基本周波数パタン、又は、少なくとも何れか一つの音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶した基本周波数データベースを参照し、
    前記基本周波数を生成しようとするアクセント句の末尾の音韻の基本周波数パタン、又は、前記末尾の音韻に含まれる音素毎の基本周波数パタンを設定し、
    かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の各音韻の内、全部若しくは一部の音韻毎の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを設定し、
    前記基本周波数パタンの前記設定の段階において未設定の、前記音韻間又は前記音素間の基本周波数パタンを、実時間軸上の関数により補間することを特徴とする基本周波数パタン生成方法。
  2. 前記基本周波数パタンは、自然に発声された音声から抽出されたものである請求項1に記載の基本周波数パタン生成方法。
  3. 前記基本周波数データベースに記憶された前記基本周波数パタンは、モーラ数、音節数、アクセント位置、音韻または音素列のいずれか1つまたは複数の基準によって分類されていることを特徴とする請求項1に記載の基本周波数パタン生成方法。
  4. 前記実時間軸上の補間が直線補間である請求項1に記載の基本周波数パタン生成方法。
  5. 前記実時間軸上の補間を行うための補間関数が、対数周波数軸上の臨界制動2次線形系である請求項1に記載の基本周波数パタン生成方法。
  6. アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
    前記基本周波数を生成しようとする前記アクセント句の末尾の1音韻の何れかを含む連続する複数音韻の基本周波数パタンを決定するアクセント句末基準点と、語尾の基本周波数パタンを決定する語尾基準点との少なくとも何れか一つと、前記基本周波数を生成しようとするアクセント句の立ち上がり基準点、アクセントを生成する立ち下がり基準点の少なくとも何れか一つとを含む基準点を、それぞれの音韻に含まれる音素の時間長で標準化された時間軸上に設定し、
    前記音韻に含まれる音素の基本周波数パタンを、その各音素の時間長によって標準化した基本周波数パタンより抽出した基本周波数のうち、アクセント句末基準点と語尾基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶し、かつ、アクセント句の立ち上がり基準点立ち下がり基準点との少なくとも何れか一つの基準点の基本周波数パタンを記憶した基本周波数データベースを参照し、
    前記設定された基準点における基本周波数を、前記基本周波数データベースを参照することにより設定し、
    前記基本周波数の設定の段階において未設定の、前記基準点の間の基本周波数を、実時間軸上の関数あるいは実時間軸上で表現された基本周波数パタンにより補間することを特徴とする基本周波数パタン生成方法。
  7. 前記基本周波数パタンは、自然に発声された音声から抽出されたものである請求項6に記載の基本周波数パタン生成方法。
  8. 前記基本周波数データベースに記憶された前記基本周波数パタンはモーラ数、音節数、アクセント位置、音韻または音素列のいずれか1つまたは複数の基準によって分類されていることを特徴とする請求項6に記載の基本周波数パタン生成方法。
  9. 前記実時間軸上の補間が直線補間である請求項6に記載の基本周波数パタン生成方法。
  10. 前記実時間軸上の補間を行うための補間関数が、対数周波数軸上の臨界制動2次線形系である請求項6に記載の基本周波数パタン生成方法。
  11. アクセント句の先頭から前記立ち上がり基準点までの基本周波数を、実時間軸上で表現された基本周波数パタンにより補間することを特徴とする請求項6に記載の基本周波数パタン生成方法。
  12. 前記アクセント句の立ち上がり基準点を、当該音韻の母音長の1/2から1までの一定比の点とする請求項6に記載の基本周波数パタン生成方法。
  13. 前記立ち下がり基準点を、当該音韻の母音長の1/2から1までの一定比の点とする請求項6に記載の基本周波数パタン生成方法。
  14. 前記アクセント句末尾の基準点を、当該音韻の母音長の1/2を最大値とする一定比の点とする請求項6に記載の基本周波数パタン生成方法。
  15. 発話最終音韻基準点を、当該音韻の母音長の1/2から1までの一定比の点とする請求項6に記載の基本周波数パタン生成方法。
  16. アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
    前記アクセント句の末尾の1音韻あるいは末尾から4音韻以下の複数音韻の内、少なくとも何れか一つの音韻に含まれる母音部に相当する基本周波数パタンを、その音韻に含まれる母音の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音韻の内、少なくとも何れか一つの音韻に含まれる母音部に相当する基本周波数パタンを、その音韻に含まれる母音の時間長によって標準化した基本周波数パタンを記憶した基本周波数データベースを参照し、
    前記アクセント句の末尾の1音韻あるいは末尾から4音韻以下の複数音韻の内少なくとも1つの音韻において、その音韻に含まれる母音ごとの基本周波数を設定し、かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の内少なくとも1つの母音において、その音韻に含まれる母音ごとの基本周波数パタンを設定し、
    前記基本周波数パタンの前記設定が行われない、前記音韻間の基本周波数を、実時間軸上の関数により補間することを特徴とする基本周波数パタン生成方法。
  17. 前記音韻に含まれる母音が単母音音節である場合は、前記基本周波数データベースを参照して得た基本周波数パタンを、前記単母音音節の後半部に対して当てはめることを特徴とする請求項16記載の基本周波数パタン生成方法。
  18. 前記基本周波数を生成しようとするアクセント句の第1音韻が単母音音節の場合、前記基本周波数データベースに記憶されたアクセント句先頭の基本周波数を用いて第1音韻の先頭の基本周波数を設定し、
    その設定した第1音韻の先頭の基本周波数と前記音節の後半部との間を、実時間軸上の関数により補間することを特徴とする請求項17記載の基本周波数パタン生成方法。
  19. 前記音韻に含まれる撥音および長音については、前記単母音音節の場合と同様に取り扱うことを特徴とする請求項17又は請求項18記載の基本周波数パタン生成方法。
  20. 前記基本周波数パタンは自然に発声された音声から抽出されたものである請求項16に記載の基本周波数パタン生成方法。
  21. 前記基本周波数データベースに記憶された前記基本周波数パタンは、モーラ数、音節数、アクセント位置、音韻または音素列のいずれか1つまたは複数の基準によって分類されていることを特徴とする請求項16記載の基本周波数パタン生成方法。
  22. 前記実時間軸上の補間が直線補間である請求項16に記載の基本周波数パタン生成方法。
  23. 前記実時間軸上の補間を行うための補間関数が、対数周波数軸上の臨界制動2次線形系である請求項16に記載の基本周波数パタン生成方法。
  24. アクセント句の基本周波数を生成する基本周波数パタン生成方法であって、
    前記基本周波数を生成しようとする前記アクセント句の末尾の基本周波数パタンを決定するアクセント句末基準点、および語尾の基本周波数パタンを生成する語尾基準点の内、少なくとも一つの基準点と、前記基本周波数を生成しようとするアクセント句の立ち上がり基準点、アクセントを生成する立ち下がり基準点の内少なくとも一つの基準点とを、それぞれの音韻に含まれる音素の時間長で標準化された時間軸上に設定し、
    前記音韻に含まれる母音の基本周波数パタンを、その各母音の時間長によって標準化した基本周波数パタンより抽出した基本周波数のうち、アクセント句末基準点、及び語尾基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶し、かつ、アクセント句の立ち上がり基準点、立ち下がり基準点の少なくとも何れか一つの基準点の基本周波数パタンを記憶した基本周波数データベースを参照し、
    前記設定された基準点における基本周波数を、前記基本周波数データベースを参照することにより設定し、
    前記基本周波数の前記設定が行われない、前記基準点の間の基本周波数を、実時間軸上の関数あるいは実時間軸上で表現された基本周波数パタンにより補間することを特徴とする基本周波数パタン生成方法。
  25. 前記基本周波数パタンは、自然に発声された音声から抽出されたものである請求項24に記載の基本周波数パタン生成方法。
  26. 前記基本周波数パタンは、モーラ数、音節数、アクセント位置、音韻または音素列のいずれか1つまたは複数の基準によって分類されていることを特徴とする請求項24に記載の基本周波数パタン生成方法。
  27. 前記実時間軸上の補間が直線補間である請求項24に記載の基本周波数パタン生成方法。
  28. 前記実時間軸上の補間を行うための補間関数が、対数周波数軸上の臨界制動2次線形系である請求項24に記載の基本周波数パタン生成方法。
  29. アクセント句の先頭から前記立ち上がり基準点までの基本周波数を、実時間軸上で表現された基本周波数パタンにより補間する請求項24記載の基本周波数パタン生成方法。
  30. 前記アクセント句の立ち上がり基準点を、当該音韻の母音長の1/2から1までのあらかじめ定められた比の時間点とする請求項24記載の基本周波数パタン生成方法。
  31. 前記基本周波数を生成しようとする音韻が単母音音節の場合、前記あらかじめ定められた比は、当該音韻の時間長の3/4から1までのあらかじめ定められた比の時間点とする請求項30に記載の基本周波数パタン生成方法。
  32. 前記基本周波数を生成しようとするアクセント句の第1音韻が単母音音節の場合、前記基本周波数データベースに記憶されたアクセント句先頭の基本周波数を用いて第1音韻の先頭の基本周波数を設定し、その第1音韻の先頭の基本周波数と前記あらかじめ定められた比の時間点との間を実時間軸上の関数により補間することを特徴とする請求項30記載の基本周波数パタン生成方法。
  33. 前記音韻に含まれる撥音および長音については、前記単母音音節の場合と同様に取り扱うことを特徴とする請求項31又は32記載の基本周波数パタン生成方法。
  34. 前記立ち下がり基準点を、当該音韻の母音長の1/2から1までのあらかじめ定められた比の時間点とする請求項24記載の基本周波数パタン生成方法。
  35. 前記基本周波数を生成しようとする音韻が単母音音節の場合、前記あらかじめ定められた比は、当該音韻の時間長の3/4から1までのあらかじめ定められた比の時間点とすることを特徴とする請求項34記載の基本周波数パタン生成方法。
  36. 前記音韻に含まれる撥音および長音については、前記単母音音節の場合と同様に取り扱うものとする請求項35記載の基本周波数パタン生成方法。
  37. 前記アクセント語尾基準点を、当該音韻の母音長の1/2を最大値とするあらかじめ定められた比の時間点とする請求項24記載の基本周波数パタン生成方法。
  38. 発話最終音韻基準点を当該音韻の母音長の1/2から1までのあらかじめ定められた比の時間点とする請求項24記載の基本周波数パタン生成方法。
  39. 前記基本周波数を生成しようとする音韻が単母音音節の場合、前記あらかじめ定められた比は、当該音韻の時間長の3/4から1までのあらかじめ定められた比の時間点とする請求項38記載の基本周波数パタン生成方法。
  40. 前記音韻に含まれる撥音および長音については、前記単母音音節の場合と同様に取り扱うものとする請求項39記載の基本周波数パタン生成方法。
  41. 前記音韻は、モーラ又は音節であることを特徴とする請求項1,6,16,24の何れか一つに記載の基本周波数パタン生成方法。
  42. アクセント句の基本周波数を生成する基本周波数パタン生成装置であって、
    前記アクセント句の末尾の1音韻の基本周波数パタンを前記音韻の時間長によって標準化した基本周波数パタン、又は、末尾の1音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶し、かつ、前記アクセント句の第1音韻、前記基本周波数が最大値を示す音韻、アクセント核の音韻とそのアクセント核の次の音韻の内、少なくとも何れか一つの音韻の基本周波数パタンを音韻の時間長によって標準化した基本周波数パタン、又は、少なくとも何れか一つの音韻に含まれる音素の基本周波数パタンを前記音素の時間長によって標準化した基本周波数パタンを記憶した、基本周波数データベースと、
    前記基本周波数を生成しようとするアクセント句の末尾の音韻の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを前記基本周波数データベースを参照して設定し、かつ、前記基本周波数を生成しようとするアクセント句の第1音韻、前記アクセント句内において基本周波数が最大値を示す音韻、前記アクセント句内のアクセント核の音韻とそのアクセント核の次の音韻の各音韻の内、全部若しくは一部の音韻毎の基本周波数パタン、又は、前記音韻に含まれる音素毎の基本周波数パタンを前記基本周波数データベースを参照して設定し、更に、前記基本周波数パタンの前記設定の段階において未設定の、前記音韻間又は前記音素間の基本周波数パタンを、実時間軸上の関数により補間する基本周波数パタン生成部と、
    を備えた特徴とする基本周波数パタン生成装置。
  43. 前記音韻は、モーラ又は音節であることを特徴とする請求項42に記載の基本周波数パタン生成装置。
  44. 請求項1、6、16、24の何れか一つに記載の基本周波数パタン生成方法の各ステップをコンピュータにより実行させるためのプログラムを記録したことを特徴とするプログラム記録媒体。
JP33321298A 1997-11-28 1998-11-24 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 Expired - Fee Related JP3576840B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP33321298A JP3576840B2 (ja) 1997-11-28 1998-11-24 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US09/201,298 US6424937B1 (en) 1997-11-28 1998-11-30 Fundamental frequency pattern generator, method and program
CNB981269877A CN1220173C (zh) 1997-11-28 1998-11-30 基频特性曲线产生方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP9-327777 1997-11-28
JP32777797 1997-11-28
JP16962498 1998-06-17
JP10-169624 1998-06-17
JP33321298A JP3576840B2 (ja) 1997-11-28 1998-11-24 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP2004079114A Division JP2004206145A (ja) 1997-11-28 2004-03-18 基本周波数パタン生成方法、及びプログラム記録媒体
JP2004079113A Division JP3771565B2 (ja) 1997-11-28 2004-03-18 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JP2004079115A Division JP2004220043A (ja) 1997-11-28 2004-03-18 基本周波数パタン生成方法、及びプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2000075883A JP2000075883A (ja) 2000-03-14
JP3576840B2 true JP3576840B2 (ja) 2004-10-13

Family

ID=27323205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33321298A Expired - Fee Related JP3576840B2 (ja) 1997-11-28 1998-11-24 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体

Country Status (3)

Country Link
US (1) US6424937B1 (ja)
JP (1) JP3576840B2 (ja)
CN (1) CN1220173C (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
DE60305944T2 (de) * 2002-09-17 2007-02-01 Koninklijke Philips Electronics N.V. Verfahren zur synthese eines stationären klangsignals
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP3812848B2 (ja) * 2004-06-04 2006-08-23 松下電器産業株式会社 音声合成装置
US8725518B2 (en) * 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
CN101000766B (zh) * 2007-01-09 2011-02-02 黑龙江大学 基于语调模型的汉语语调基频轮廓生成方法
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
KR101246287B1 (ko) * 2011-03-28 2013-03-21 (주)클루소프트 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN106373580B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
CN112037816B (zh) * 2020-05-06 2023-11-28 珠海市杰理科技股份有限公司 语音信号频域频率的校正、啸叫检测、抑制方法及装置
CN113851114B (zh) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 语音信号的基频确定方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
JP3344487B2 (ja) 1991-09-30 2002-11-11 日本電信電話株式会社 音声基本周波数パターン生成装置
JP3078073B2 (ja) 1991-12-26 2000-08-21 沖電気工業株式会社 基本周波数パタン生成方法
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
JP3403838B2 (ja) * 1994-10-28 2003-05-06 三菱電機株式会社 句境界確率計算装置および句境界確率利用連続音声認識装置

Also Published As

Publication number Publication date
JP2000075883A (ja) 2000-03-14
CN1220173C (zh) 2005-09-21
CN1229194A (zh) 1999-09-22
US6424937B1 (en) 2002-07-23

Similar Documents

Publication Publication Date Title
US7668717B2 (en) Speech synthesis method, speech synthesis system, and speech synthesis program
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP2000305582A (ja) 音声合成装置
JPH031200A (ja) 規則型音声合成装置
US20130262120A1 (en) Speech synthesis device and speech synthesis method
KR19980702608A (ko) 음성 합성기
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2761552B2 (ja) 音声合成方法
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JPH0247700A (ja) 音声合成方法および装置
JP3437064B2 (ja) 音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3233036B2 (ja) 歌唱音合成装置
JP3742206B2 (ja) 音声合成方法及び装置
JPH0580791A (ja) 音声規則合成装置および方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JP2004206145A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体
JP2004220043A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体
JP3515268B2 (ja) 音声合成装置
Vine et al. Synthesising emotional speech by concatenating multiple pitch recorded speech units
JP3368948B2 (ja) 音声規則合成装置
JPH03203800A (ja) 音声合成方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070716

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees