JP3563772B2

JP3563772B2 - 音声合成方法及び装置並びに音声合成制御方法及び装置

Info

Publication number: JP3563772B2
Application number: JP13436394A
Authority: JP
Inventors: 充大塚; 恭則大洞; 隆麻生; 俊明深田; 武藤田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-06-16
Filing date: 1994-06-16
Publication date: 2004-09-08
Anticipated expiration: 2019-09-08
Also published as: JPH086592A; EP0688010A1; DE69519820T2; DE69519820D1; US5682502A; EP0688010B1

Description

【０００１】
【産業上の利用分野】
本発明は、規則合成方式による音声合成方法及び装置に関するものである。
本発明は、合成音声を生成する音声合成装置において用いる音声合成制御方法及び装置に関するものである。
【０００２】
【従来の技術】
従来の音声規則合成装置では、ＶｃＶパラメータ（母音−子音−母音）やｃＶパラメータ（子音−母音）を基本単位とした音声素片と、駆動音源信号とを一定の規則に基づいて結合することによってディジタル音声信号を生成し、更にこのディジタル音声信号をＤ−Ａ変換することによってアナログ音声波形を得ている。そして、アナログ音声波形をアナログ低域フィルタに通すことにより、標本化によって発生する不要な高域雑音成分を除去して正しいアナログ音声波形を出力するようにしている。
【０００３】
上述の音声合成装置においては、その発声速度を変化させる手段として、一般的に図４に示す方法を採用している。
【０００４】
図４において、（Ａ１）はＶｃＶパラメータを切り出す前の音声波形で「あさ」と発声したものの一部、（Ａ２）は同じく「あけ」と発声したものの一部である。又、（Ｂ１）は（Ａ１）の音声波形情報のＶｃＶパラメータを表し、同じく（Ｂ２）は（Ａ２）の音声波形情報のＶｃＶパラメータを表す。（Ｂ３）は拍同期点の間隔と母音の種類などにより設定される長さを有するパラメータであり連結前後のパラメータを補間するものである。拍同期点は各ＶＣＶパラメータのラベル情報に含まれる。（Ｂ１）〜（Ｂ３）における各矩形部はフレームを表し、各フレームは音声波形を生成するためのパラメータを有し、それぞれのフレームの時間的な長さは固定である。
【０００５】
（Ｃ１）は（Ａ１），（Ｂ１）に対応したラベル情報でパラメータの音響的な境界の位置を指している。（Ｃ２）も同様に（Ａ２），（Ｂ２）に対応したラベル情報である。ここで図中のラベル「？」は拍同期点位置に対応している。合成音声の発声速度はこの拍同期点間の時間間隔により決定される。
【０００６】
（Ｄ）は（Ｃ１）の拍同期点位置から（Ｃ２）の拍同期点位置までの対応するパラメータ情報（フレーム）を（Ｂ１），（Ｂ３），（Ｂ２）から切りだして連結した状態を表す。又、（Ｅ）は（Ｄ）に対応したラベル情報である。（Ｆ）は隣接するラベル間に設定された伸縮率であり、（Ｄ）のパラメータを合成音声の拍同期点間隔に合わせて引き延ばしたり、押し縮めたりする際の相対的な度合いである。（Ｇ）は合成音声の拍同期点間隔に応じて伸縮した後のパラメータ列、即ちフレーム列を表す。又、（Ｈ）は（Ｇ）に対応したラベル情報である。
【０００７】
以上の如く、拍同期点間隔を伸縮することにより発声速度が変化する。この拍同期点間隔の伸縮は、各フレームの時間的な長さが一定であるため、（Ｇ）に示す如く拍同期点間のフレームの数を増減することで達成される。例えば、図４の（Ｇ）に示す如く拍同期点間隔を引き延ばした場合（発声速度を遅くした場合）はフレーム数を増やす。各フレームのパラメータは必要なフレームの数に応じて演算により生成される。
【０００８】
【発明が解決しようとする課題】
上述した従来技術においては、合成音声の発声速度に応じてフレームの数を変化させるため、次のような問題点がある。例えば（Ｄ）のパラメータ列を（Ｇ）に伸縮する場合のうち、（Ｇ）のパラメータ列の長さが（Ｄ）よりも短くなる場合は、フレーム数が少なくなってパラメータの補間が粗くなり異音が出たり音質が悪くなる場合がある。
【０００９】
また、発声速度が非常に遅くなった場合は、（Ｇ）のパラメータ列の長さが非常に長くなり、フレーム数が多くなってしまう。このため、パラメータを算出するための計算時間がかかる上にメモリの消費量も増大する。更に、（Ｇ）のパラメータ列を生成した後はそのパラメータ列の発声速度を変更することはできない。このため、利用者が指示した発声速度変更に対して時間的な遅れを生じ、利用者に違和感を感じさせるという問題がある。
【００１０】
本発明は上記の問題点に鑑みてなされたものであり、合成音声の発声速度の変更に対してフレームの数を一定に保つことを可能とし、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑える音声合成方法及び装置を提供することを目的とする。
【００１１】
また、本発明の他の目的は、発生音声の変更をフレーム単位で行うことを可能とし、１モーラ期間の間においても発生速度の変化に対応することが可能な音声合成方法及び装置を提供することにある。
【００１２】
また、本発明の他の目的は、所定の期間（例えば１モーラ期間）において発生音声のアクセントの強弱が線形に変化するようにピッチスケールが設定される音声合成方法及び装置を提供することにある。
【００１３】
また、本発明の他の目的は、所定の期間（例えば１モーラ期間）において発生音声の音程の高低が線形に変化するようにピッチスケールが設定される音声合成方法及び装置を提供することにある。
【００１４】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成装置は例えば以下の構成を備える。即ち、
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備える。
更に、上記の目的を達成するための本発明の音声合成装置は以下の構成を備える。即ち、
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレーム時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備える。
【００１５】
また、上記の目的を達成するための本発明による音声合成方法は例えば以下の工程を備える。即ち、
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備える。
更に、上記の目的を達成するための本発明の音声合成方法は以下の構成を備える。即ち、
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備える。
【００１６】
【作用】
上記の構成により、音声波形のパラメータを格納する各フレームについて、合成音声の発声速度の変化に応じた各フレームの伸縮の度合いである伸縮度が格納される。合成音声を生成する際には、その発声速度と伸縮度とに基づいて各フレームの時間長が決定され、音声波形が生成される。
【００１７】
【実施例】
以下に添付の図面を参照しながら、本発明の好適な実施例について詳細に説明する。
【００１８】
＜実施例１＞
図１６は、本実施例１の音声合成装置の機能構成を示すブロック図である。１は文字系列入力部であり、合成すべき音声の文字系列を入力する。例えば合成すべき音声が「音声」であるときには、「ＯｎＳＥＩ」というような文字系列を入力する。また、この文字系列中には、発声速度や声の高さなどを設定するための制御シーケンス等が含まれることもある。２は制御データ格納部であり、文字系列入力部１で制御シーケンスと判断された情報や、ユーザインターフェースより入力される発声速度や声の高さなどの制御データを内部レジスタに格納する。３はＶｃＶ系列生成部であり、文字系列入力部１より入力された文字系列をＶｃＶ系列へ変換する。例えば、「ＯｎＳＥＩ」という文字系列は、「ＱＯ，Ｏｎ，ｎＳＥ，ＥＩ，ＩＱ」というＶｃＶ系列へ変換される。
【００１９】
４はＶｃＶ格納部であり、ＶｃＶ系列生成部３で生成されたＶｃＶを内部レジスタに格納する。５は音韻時間長係数設定部であり、ＶｃＶ格納部４に格納されたＶｃＶの種類より、合成音声の拍同期点間隔を標準の拍同期点間隔よりどれくらい広げるかを表す値を格納する。６はアクセント情報設定部であり、ＶｃＶ格納部４に格納されたＶｃＶのアクセント情報を設定する。７はＶｃＶパラメータ格納部であり、ＶｃＶ系列生成部３で生成されたＶｃＶ系列に対応するＶｃＶパラメータ、或いは語頭のデータであるＶ（母音）パラメータやｃＶパラメータを格納している。８はラベル情報格納部であり、ＶｃＶパラメータ格納部７に格納されているＶｃＶパラメータのそれぞれについて、母音開始点、有声区間、無声区間などの音響的な境界を区別するためのラベルや拍同期点を示すラベルを、その位置情報と共に格納している。９はパラメータ生成部であり、ＶｃＶ系列生成部３で生成されたＶｃＶ系列に対応するパラメータ系列を生成する。尚、パラメータ生成部の処理手順については後述する。
【００２０】
１０はパラメータ格納部であり、パラメータ生成部９で生成されたパラメータ系列からパラメータを１フレームずつ取り出して内部レジスタに格納する。１１は拍同期点間隔設定部であり、制御データ格納部２に格納された発声速度に関する制御データより、合成音声の標準拍同期点間隔を設定する。１２は母音定常部長設定部であり、母音の種類等よりＶｃＶパラメータの接続に関する母音定常部の時間長を設定する。１３はフレーム時間長設定部であり、パラメータの発声速度係数、拍同期点間隔設定部１１で設定された拍同期点間隔、母音定常部長設定部１２で設定された母音定常部長から各フレームの時間長を計算する。１４は駆動音源信号生成部である。駆動音源信号生成部１４の処理手順については後述する。
【００２１】
１５は合成パラメータ補間部であり、パラメータ格納部に格納されているパラメータを、フレーム時間長設定部１３で設定されたフレーム時間長で補間する。１６は音声合成部であり、合成パラメータ補間部１５で補間されたパラメータと、駆動音源信号生成部１４で生成された駆動音源信号から合成音声を生成する。
【００２２】
図１７は、音声素片としてＶｃＶパラメータを用いた音声合成の例を示す図である。尚、図４と同じ内容については同一の参照番号を付し、ここではその説明を省略する。
【００２３】
図１７において、（Ｂ１）及び（Ｂ２）のＶｃＶパラメータは、それぞれＶｃＶパラメータ格納部７に格納されている。（Ｂ３）のパラメータは、母音定常部のパラメータであり、ＶｃＶパラメータ格納部７とラベル情報格納部８に格納された情報によりパラメータ生成部９で生成される。又、各パラメータのラベル情報である（Ｃ１）及び（Ｃ２）は、ラベル情報格納部８に格納されている。（Ｄ’）は（Ｃ１）の拍同期点位置から（Ｃ２）の拍同期点位置までの対応するパラメータを（Ｂ１），（Ｂ３），（Ｂ２）より切り出して連結したフレーム列である。
【００２４】
更に、（Ｄ’）の各フレームには発声速度係数Ｋ_ｉを格納する部分が付加されている。（Ｅ’）は（Ｄ’）に対応したラベル情報である。（Ｆ’）は、隣接するラベルの種類により設定される伸縮率である。（Ｇ’）は、合成パラメータ補間部１５において、フレーム時間長設定部１３で設定された時間長で（Ｄ’）の各フレームを補間した結果であり、（Ｇ’）のパラメータに従って音声合成部１６は合成音声を生成する。
【００２５】
更に、図１８を参照しながら、ＶｃＶパラメータの伸縮について詳しく説明する。ｉ番目のラベルの伸縮率をｅ_ｉとすると、ラベル時間長Ｔ_ｉ及びＴ’_ｉは
（Ｔ_１−Ｔ’_１）／Ｔ_１：（Ｔ_２−Ｔ’_２）／Ｔ_２： … （Ｔ_ｉ−Ｔ’_ｉ）／Ｔ_ｉ … ＝ｅ_１：ｅ_２： … ｅ_ｉ： … （１）
の関係を満たす。ここで、時間長の単位をサンプル数とする。
【００２６】
伸縮率と伸縮前ラベル時間長との積和（伸縮フレーム積和）を
σ ＝ Σｅ_ｉＴ_ｉ
とし、伸縮後時間長と伸縮前時間長との差（時間長差分）を
δ ＝Ｔ’−Ｔ＝−Σ（Ｔ_ｉ−Ｔ’_ｉ）
とし、発声速度係数を
Ｋ_ｉ＝ｅ_ｉ／σ
として式（１）を変形すると、
Ｔ_１−Ｔ’_１：Ｔ_２−Ｔ’_２： … ：Ｔ_ｉ−Ｔ’_ｉ：…＝ｅ_１Ｔ_１：ｅ_２Ｔ_２： … ：ｅ_ｉＴ_ｉ： … （１）
（Ｔ’_ｉ−Ｔ_ｉ）／δ ＝ｅ_ｉＴ_ｉ／σ
Ｔ’_ｉ／Ｔ_ｉ＝（ｅ_ｉ／σ）・δ＋１
Ｔ’_ｉ／Ｔ_ｉ＝Ｋ_ｉ・δ＋１
となる。１フレームの標準時間長をＮサンプル（１２ｋＨｚサンプリングで１２０サンプル）とすると、ｉ番目のラベルの合成パラメータを１フレーム当たりｎ_ｉ個のサンプルで補間する。ここでｎ_ｉは、
ｎ_ｉ＝（Ｔ’_ｉ／Ｔ_ｉ）・Ｎ＝（Ｋ_ｉ・δ＋１）・Ｎ …（２）
で表される。発声速度に応じて決まる値はＴ’のみであるから、発声速度係数Ｋ_ｉを各フレームのパラメータとして与えることにより、式（２）を用いてフレーム単位で発声速度を変更することが可能となる。
【００２７】
以上の動作を、図１９のフローチャートを参照して説明する。
【００２８】
ステップＳ１０１で、文字系列入力部１より表音テキストが入力される。ステップＳ１０２で、外部入力された制御データ（発声速度、声の高さ）と、入力された表音テキスト中の制御データが制御データ格納部２に格納される。ステップＳ１０３で、文字系列入力部１より入力された表音テキストからＶｃＶ系列生成部３においてＶｃＶ系列が生成される。
【００２９】
ステップＳ１０４で、モーラ前後のＶｃＶがＶｃＶ格納部４に取り込まれる。ステップＳ１０５で、音韻時間長係数設定部５において、前後のＶｃＶの種類に応じて音韻時間長係数が設定される。
【００３０】
図２０は、パラメータ１フレームのデータ構造を示す図である。又、図２１は、図１９のステップＳ１０７に相当し、パラメータ生成部９で行われるパラメータ生成手段を示すフローチャートである。母音定常部フラグｖｏｗｅｌｆｌａｇは、パラメータが母音定常部であるか否かを示すフラグである。この変数は、図２１のステップＳ７５及びステップＳ７６で設定される。母音の種類を表すｖｏｗｅｌｔｙｐｅは、母音定常部長を計算するときに使用する。この変数は、ステップＳ７３で設定される。有声、無声情報ｕｖｆｌａｇは、音韻が有声であるか無声であるかの情報を示す。この変数は、ステップＳ７７で設定される。
【００３１】
ステップＳ１０６で、アクセント情報設定部６において、アクセント情報が設定される。アクセントモーラａｃｃＭｏｒａは、アクセント開始から終了までのモーラ数を表す。アクセントレベルａｃｃＬｅｖｅｌは、アクセントの強さをピッチスケール単位で表したものである。これらの変数に、表音テキストに記述されたアクセント情報を格納する。
【００３２】
ステップＳ１０７で、パラメータ生成部９において、音韻時間長係数設定部５において設定された音韻時間長係数と、アクセント情報設定部６において設定されたアクセント情報と、ＶｃＶパラメータ格納部７から取り出されたＶｃＶパラメータと、ラベル情報格納部８から取り出されたラベル情報とを用いて、１モーラ分のパラメータ系列が生成される。
【００３３】
ステップＳ７１で、１モーラ（前ＶｃＶの拍同期点から後ＶｃＶの拍同期点まで）のＶｃＶパラメータとラベル情報がＶｃＶパラメータ格納部７とラベル情報格納部８から取り出される。
【００３４】
ステップＳ７２で、図２２に示すように、取り出されたＶｃＶパラメータが非母音定常部と母音定常部とに分けれられる。そして、非母音定常部の伸縮前時間長Ｔ_ｐ、伸縮フレーム積和σ_ｐ、母音定常部の伸縮前時間長Ｔ_ｖ、伸縮フレーム積和σ_ｖが計算される。
【００３５】
次に、パラメータ１フレーム毎の処理に移る。ステップＳ７３で、音韻時間長係数がαに格納され、母音の種類がｖｏｗｅｌｔｙｐｅに格納される。
【００３６】
ステップＳ７４で、パラメータが母音定常部であるかが判別される。母音定常部のときは、ステップＳ７５で、母音定常フラグが立てられ、母音定常部の伸縮前時間長と発声速度係数が設定される。非母音定常部の時は、ステップＳ７６で、母音定常部フラグがオフとなり、非母音定常部の伸縮前時間長と発声速度係数が設定される。
【００３７】
ステップＳ７７で、有声・無声情報と、合成パラメータが格納される。ステップＳ７８で、１モーラの処理が終了したときは、ステップＳ１０８に進む。一方、１モーラの処理が終了していないときは、ステップＳ７３に戻り、上述の処理が繰り返される。
【００３８】
ステップＳ１０８で、パラメータ生成部９から１フレームのパラメータがパラメータ格納部１０に取り込まれる。ステップＳ１０９で、制御データ格納部２より、発声速度が拍同期点間隔設定部１１に、声の高さが駆動音源信号生成部１４に取り込まれる。ステップＳ１１０で、拍同期点間隔設定部１１において、パラメータ格納部１０に取り込まれたパラメータの音韻時間長係数と、制御データ格納部２より取り込まれた発声速度を用いて、拍同期点間隔が設定される。制御データの発声速度をｍ（モーラ／秒）とすると、標準拍同期点間隔はＴｓ＝１００Ｎ／ｍ（サンプル数／モーラ）となる。ここで、１フレームの標準時間長をＮ（１２ｋＨｚサンプリングで１２０ポイント）とする。拍同期点間隔は、標準拍同期点間隔に音韻時間長係数αをかけて
Ｔ’＝α×Ｔｓ
となる。
【００３９】
ステップＳ１１１で、母音定常部長設定部１２において、パラメータ格納部１０に取り込まれたパラメータの母音の種類と、拍同期点間隔設定部１１で設定された拍同期点間隔を用いて、母音定常部長が設定される。例えば、母音定常部長ｖｌｅｎは、母音の種類ｖｏｗｅｌｔｙｐｅと拍同期点間隔Ｔ’より、図２３のように決定される。
【００４０】
ステップＳ１１２で、フレーム時間長設定部１３において、拍同期点間隔設定部１１で設定された拍同期点間隔と、母音定常部長設定部１２で設定された母音定常部長を用いて、フレーム時間長が設定される。伸縮後時間長と伸縮前時間長との差δを、母音定常部フラグvowelflagがＯＦＦ（非母音定常部）のとき、
δ＝Ｔ'−vlen−Ｔ p
母音定常部フラグvowelflagがＯＮ（母音定常部）のとき、
δ＝vlen−Ｔ v
とする。第ｋフレームの時間長（サンプル数）ｎ_kが、式（２）を用いて計算される。
【００４１】
ステップＳ１１３で、駆動音源信号生成部１４において、制御データ格納部２より取り込まれた声の高さと、パラメータ格納部１０に取り込まれたパラメータのアクセント情報と、フレーム時間長設定部１３で設定されたフレーム時間長を用いて、ピッチスケールが生成され、駆動音源信号が生成される。図２４は、ピッチスケールの生成についての概念図である。１モーラの間に変化するアクセントの強さＰ_ｍと１モーラのサンプル数Ｎ_ｍは、
Ｐ_ｍ＝ａｃｃＬｅｖｅｌ／ａｃｃＭｏｒａ
Ｎ_ｍ＝Ｔ’
によって求められる。発声速度が変化しなかったとき、１モーラでピッチスケールが線形に変化するようにピッチスケールの生成が行われる。第ｋフレームの時間長をｎ_ｋサンプルとすると、ｋによってｎ_ｋの値は異なるが、それとは関係なく、１サンプル当たりＰ_ｍ／Ｎ_ｍずつピッチスケールが変化するようにする。
【００４２】
これを原則として、発声速度が途中で変化したときにも、フレーム単位で対応できるような処理を次に述べる。図２５は、ピッチスケールの生成についての説明図である。拍同期点から第ｋフレームまでの間に変化したアクセントの強さをＰ_ｇ、処理されたサンプル数をＮ _ｇとすると、残り（Ｎ_ｍ−Ｎ_ｇ）サンプルで（Ｐ_ｍ−Ｐ_ｇ）ピッチスケールで変化すればよい。したがって、１サンプル当たりのピッチスケール変化量は、
Δ_ｐ＝（Ｐ_ｍ−Ｐ_ｇ）／（Ｎ_ｍ−Ｎ_ｇ）
によって求められる。ピッチスケールの初期値をＰ_０、ピッチスケールＰとＰ_０の差分をＰ_ｄとすると、第ｋフレームのピッチスケールの初期値は、
Ｐ＝Ｐ_０＋Ｐ_ｄ
となる。次に、サンプル毎にピッチスケールが更新される。
【００４３】
Ｐ＝Ｐ＋Δ_ｐ
Ｐ_ｇ＝Ｐ_ｇ＋Δ_ｐ
の処理が、第ｋフレームの時間長ｎ_ｋ回行われる。最後に、Ｎ_ｇ、Ｐ_ｄが
Ｎ_ｇ＝Ｎ_ｇ＋ｎ_ｋ
Ｐ_ｄ＝Ｐ−Ｐ_０
のように更新される。
【００４４】
そして、パラメータの有声・無声情報が有声のときは、上述した方法で求めたピッチスケールに対応する駆動音源信号が生成される。
【００４５】
ステップＳ１１４で、合成パラメータ補間部１５において、パラメータ格納部１０に取り込まれたパラメータの要素の合成パラメータと、フレーム時間長設定部１３で設定されたフレーム時間長を用いて、合成パラメータの補間が行われる。図２６は合成パラメータの補間についての説明図である。第ｋフレームの合成パラメータをｃ_ｋ［ｉ］（０≦ｉ≦Ｍ）、第ｋ−１フレームのパラメータをｃ_ｋ−１［ｉ］（０≦ｉ≦Ｍ）、第ｋフレームの時間長をｎ_ｋサンプルとする。このとき、１サンプル当たりの合成パラメータの差分Δ_ｋ［ｉ］（０≦ｉ≦Ｍ）は、
Δ_ｋ［ｉ］＝（ｃ_ｋ［ｉ］−ｃ_ｋ−１［ｉ］）／ｎ_ｋ
となる。次に、サンプル毎に合成パラメータＣ［ｉ］（０≦ｉ≦Ｍ）が更新される。Ｃ［ｉ］の初期値は、ｃ_ｋ−１［ｉ］で、
Ｃ［ｉ］＝Ｃ［ｉ］＋Δ_ｋ［ｉ］
の処理が第ｋフレームの時間長ｎ_ｋ回行われる。
【００４６】
ステップＳ１１５で、音声合成部１６において、駆動音源信号生成部１４で生成された駆動音源信号と、合成パラメータ補間部１５で補間された合成パラメータを用いて、音声合成が行われる。音声合成は、式（３）と式（４）によって得られたピッチスケールＰと合成パラメータＣ［ｉ］（０≦ｉ≦Ｍ）を各サンプル毎に合成フィルタに入力することによって行われる。
【００４７】
ステップＳ１１６で、１フレームの処理が終了したか否かが判別され、終了した場合はステップＳ１１７に進み、終了していない場合はステップＳ１１３に戻り、処理が続けられる。
【００４８】
ステップＳ１１７で、１モーラの処理が終了したか否かが判別され、終了した場合は、ステップＳ１１９に進み、終了していない場合は、ステップＳ１１８で外部入力された制御データを制御データ格納部２に格納した後ステップＳ１０８に戻り処理が続けられる。
【００４９】
ステップＳ１１９で、入力された文字系列について処置が終了したか否かが判別され、終了していない場合はステップＳ１０４に戻り処理が続けられる。
【００５０】
上述した実施例１において、モーラ単位でピッチスケールが線形に変化する例を述べたが、ラベル単位でピッチスケールを生成することもできる。また、ピッチスケールを線形に変化させるのではなく、フィルタの応答で生成することもできる。この場合は、アクセント情報としてフィルタの係数やステップ幅などのデータを用いる。
【００５１】
また、母音定常部長の設定に用いた図２３は１つの例であり、これ以外の設定も可能である。
【００５２】
以上説明したように実施例１によれば、合成音声の発声速度の変更に対してフレームの数を一定に保つことが可能となり、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑えることが可能となる。又、発声速度の変更をフレーム単位で行うことが可能である。
【００５３】
＜実施例２＞
本実施例２は、実施例１においてアクセント情報設定部６により発声時のアクセントの制御を行ったのに替えて、声の高さを制御するピッチスケールを用いた発生を行うものである。本実施例２では、実施例１と比して異なる部分について特に説明し、実施例１と同様の部分は説明を省略する。
【００５４】
図２７は実施例２の音声合成装置の機能構成を示すブロック図である。このブロック図において、参照番号４、５、７、８、９、１７について説明する。
【００５５】
４はＶｃＶ格納部であり、ＶｃＶ系列生成部３で生成されたＶｃＶを内部レジスタに格納する。５は音韻時間長係数設定部であり、ＶｃＶ格納部４に格納されたＶｃＶの種類より、合成音声の拍同期点間隔を標準の拍同期点間隔よりどれくらい広げるかを表す値を格納する。７はＶｃＶパラメータ格納部であり、ＶｃＶ系列生成部３で生成されたＶｃＶ系列に対応するＶｃＶパラメータ、或いは語頭のデータであるＶ（母音）パラメータやｃＶパラメータを格納している。８はラベル情報格納部であり、ＶｃＶパラメータ格納部７に格納されているＶｃＶパラメータのそれぞれについて、母音開始点、有声区間、無声区間などの音響的な境界を区別するためのラベルや拍同期点を示すラベルを、その位置情報と共に格納している。９はパラメータ生成部であり、ＶｃＶ系列生成部３で生成されたＶｃＶ系列に対応するパラメータ系列を生成する。パラメータ生成部９の処理手順については後述する。１７はピッチスケール生成部であり、パラメータ生成部９で生成されたパラメータ系列のピッチスケールを生成する。
【００５６】
次に、図２８のフローチャートを用いて、図１９のフローチャートの処理とは異なる部分のパラメータの生成、ピッチスケールの生成、駆動音源信号の生成について説明する。他のステップは、実施例１において説明したものと同様であり、同じステップ番号を付す。
【００５７】
ステップＳ１２０で、パラメータ生成部９において、音韻時間長係数設定部５において設定された音韻時間長係数と、ＶｃＶパラメータ格納部７から取り出されたＶｃＶパラメータと、ラベル情報格納部８から取り出されたラベル情報を用いて、１モーラ分のパラメータ系列が生成される。
【００５８】
ステップＳ１２１で、ピッチスケール生成部１７において、ラベル情報格納部８から取り出されたラベル情報を用いて、パラメータ生成部９で生成されたパラメータ系列に対してピッチスケールが生成される。ここで生成されるピッチスケールは、声の高さの基準値に対応するピッチスケールＶからの差分を与える。生成されたピッチスケールは図２９のピッチスケールｐｉｔｃｈに格納される。
【００５９】
ステップＳ１２２で、駆動音源信号生成部１４において、制御データ格納部２より取り込まれた声の高さと、パラメータ格納部１０に取り込まれたパラメータのピッチスケールと、フレーム時間長設定部１３で設定されたフレーム時間長を用いて、駆動音源信号が生成される。
【００６０】
図３０は、ピッチスケールの補間についての説明図である。拍同期点から第ｋ−１フレームのピッチスケールをＰ_ｋ−１、拍同期点から第ｋフレームのピッチスケールをＰｋとする。Ｐ_ｋ−１とＰ_ｋは、いずれも声の高さの基準値に対応するピッチスケールＶからの差分を与える。更に、拍同期点から第ｋ−１フレームの声の高さに対応するピッチスケールをＶ_ｋ−１、拍同期点から第ｋフレームの声の高さに対応するピッチスケールをＶ_ｋとする。このとき、１サンプルあたりのピッチスケールの変化量ΔＰ_ｋは、
ΔＰ_ｋ＝（（Ｖ_ｋ＋Ｐ_ｋ）−（Ｖ_ｋ−１＋Ｐ_ｋ−１））／ｎ_ｋ
となる。次に、サンプル毎にピッチスケールＰが更新される。Ｐの初期値は、Ｖ_ｋ−１＋Ｐ_ｋ−１で、
Ｐ＝Ｐ＋ΔＰ_ｋ
の処理が第ｋフレームの時間長ｎ_ｋ回行われる。
【００６１】
そして、パラメータの有声・無声情報が有声のときは、上述した方法で補間したピッチスケールに対応する駆動音源信号が生成される。一方、パラメータの有声・無声情報が無声のときは、無声音に対応する駆動音源信号が生成される。
【００６２】
＜実施例３＞
次に実施例３について説明する。
【００６３】
図１は実施例３の音声合成装置の機能構成を表すブロック図である。同図において、１０１は文字系列入力部であり、合成すべき音声の文字系列を入力する。例えば合成すべき音声が「音声」であるときには、「ＯｎＳＥＩ」というような文字系列を入力する。１０２はＶｃＶ系列生成部であり、文字系列入力部１０１より入力された文字系列をＶｃＶ系列へ変換する、例えば、「ＯｎＳＥＩ」という文字系列は、「ＱＯ，Ｏｎ，ｎＳＥ，ＥＩ，ＩＱ」というＶｃＶ系列へ変換される。
【００６４】
１０３はＶｃＶパラメータ格納部であり、ＶｃＶ系列生成部１０２で生成されたＶｃＶ系列に対応するＶｃＶパラメータ、あるいは語頭のデータであるＶ（母音）パラメータやｃＶパラメータを格納している。１０４はＶｃＶラベル格納部であり、ＶｃＶパラメータ格納部１０３に格納されているＶｃＶパラメータのそれぞれについて母音開始位置，有声区間，無声区間等の音響的な境界を区別するラベルや拍同期点を示すラベルをその位置情報とともに格納している。
【００６５】
１０５は拍同期点間隔設定部であり、合成音声の標準拍同期点間隔を設定する。１０６は母音定常部長さ設定部であり、拍同期点間隔設定部１０５で設定される標準拍同期点間隔と母音の種類等よりＶｃＶパラメータの接続に関与する母音の定常部の長さを設定する。１０７は発声速度係数設定部であり、ＶｃＶラベル格納部１０４に格納されているラベルの種類に応じて決定される伸縮率を用いて、各フレームの発声速度係数を設定する。例えば、発声速度によって長さが変化し易い母音部や摩擦音等には大きな値の発声速度係数が与えられ、長さが変化しにくい破裂音には小さな値の発声速度係数が与えられる。
【００６６】
１０８はパラメータ生成部であり、ＶｃＶ系列生成部１０２で生成されたＶｃＶ系列に対応する標準拍同期点間隔に合致したＶｃＶパラメータ列を生成する。ここでは、ＶｃＶパラメータ格納部１０３から読み出されたＶｃＶパラメータを、母音定常部長さ設定部１０６及び拍同期点間隔設定部１０５の情報に基づいて接続していく。尚、パラメータ生成部１０８の処理手順については後述する。
【００６７】
１０９は伸縮時間長格納部であり、文字系列入力部１０１で入力した文字系列の中から伸縮時間長制御に関するシーケンスコードを抜き取り、これを解釈して、合成音声の拍同期点間隔を標準拍同期点間隔よりどれくらい広げるかを表す値を格納する。
【００６８】
１１０はフレーム長決定部であり、パラメータ生成部１０８から得られるパラメータの発声速度係数、伸縮時間長格納部１０９に格納された伸縮時間長から、各フレームの長さを計算する。１１１は音声合成部であり、パラメータ生成部１０８で得られるＶｃＶパラメータ、フレーム長決定部１１０で得られるフレーム長に基づいて順次音声波形を生成し合成音声を出力する。
【００６９】
次に上述の音声合成装置の動作手順について図２及び図３を参照して説明する。
【００７０】
図２は音声素片として、ＶｃＶパラメータを用いた音声合成の例である。尚、図１と同じ内容については同一の参照記号を付し、ここではその説明を省略することとする。
【００７１】
図２において、（Ｂ１）及び（Ｂ３）のＶｃＶパラメータは、それぞれＶｃＶパラメータ格納部１０３に格納されている。（Ｂ３）のパラメータは、標準拍同期点の間隔と結合に関与する母音の種類などにより補間されるパラメータであり、拍同期点間隔設定部１０５と母音定常部長さ設定部１０６に格納された情報によりパラメータ生成部１０８で生成される。又、各パラメータのラベル情報である（Ｃ１）および（Ｃ２）はＶｃＶラベル格納部１０４に格納されている。
【００７２】
（Ｄ’）は（Ｃ１）の拍同期点位置から（Ｃ２）の拍同期点位置までの対応するパラメータ（フレーム）を（Ｂ１），（Ｂ３），（Ｂ２）から切りだして連結したフレーム列である。更に、（Ｄ’）の各フレームには発声速度係数Ｋ_ｉを格納する部分がつけ加えられている。（Ｅ’）は隣接するラベルの種類により設定される伸縮率である。（Ｆ’）は（Ｄ’）に対応したラベル情報である。（Ｇ’）は（Ｄ’）の各フレームを音声合成部１１１において伸縮した結果であり、（Ｇ’）のパラメータとフレーム長に従って音声合成部１１１は音声波形を生成する。
【００７３】
以上の動作を図３のフローチャートを参照して更に詳しく説明する。
【００７４】
ステップＳ１１において、文字列入力部１０１より音声合成すべき文字列が入力される。ステップＳ１２において、ＶｃＶ系列生成部１０２は入力された文字列をＶｃＶ系列へ変換する。ステップＳ１３では、ＶｃＶパラメータ格納部１０３より音声合成すべきＶｃＶ系列のＶｃＶパラメータ（図２の（Ｂ１）及び（Ｂ２））を獲得する。次にステップＳ１４で、ＶｃＶパラメータに対して音響の境界や拍同期点を表すラベルをＶｃＶラベル格納部１０４より抽出して付与する（図２の（Ｃ１），（Ｃ２））。そして、ステップＳ１５において、拍同期点間隔設定部１０５及び母音定常部長さ設定部１０６の情報により、ＶｃＶパラメータを連結するためのパラメータを生成し（図２の（Ｂ３））、これを用いてパラメータの連結を行う。次に、発声速度係数設定部１０７により各フレーム毎に発声速度係数を付与する。
【００７５】
発声速度係数の付与方法について図２の（Ｄ’），（Ｅ’），（Ｆ’）を参照して更に説明する。
【００７６】
ここで、各ラベル間（図２の（Ｆ’））の伸縮率をＥ_ｉ（０≦ｉ≦ｎ）、各ラベル間の伸縮前の時間間隔（即ち標準拍同期点間隔における各ラベル間の時間間隔）をＳ_ｉ（０≦ｉ≦ｎ）、各ラベル間の伸縮後の時間間隔をＤ_ｉ（０≦ｉ≦ｎ）とする。
【００７７】
このとき、
Ｄ_０ −Ｓ_０：… ：Ｄ_ｉ −Ｓ_ｉ：… ：Ｄ_ｎ −Ｓ_ｎ
＝Ｅ_０Ｓ_０：… ：Ｅ_ｉＳ_ｉ：… ：Ｅ_ｎＳ_ｎ
が成り立つように伸縮率Ｅ_ｉを定義する（図２の（Ｅ’））。尚、この伸縮率Ｅ_ｉは発声速度係数設定部１０７に格納されている。この伸縮率Ｅ_ｉを用いて各フレームの発声速度係数Ｋ_ｉを求めると、
Ｋ_ｉ＝Ｅ_ｉ／（Ｅ_０Ｓ_０＋…＋Ｅ_ｉＳ_ｉ＋…＋Ｅ_ｎＳ_ｎ）
となる。発声速度係数設定部１０７により、この発声速度係数Ｋ_ｉが各フレーム毎に付与される（図２の（Ｄ’））。
【００７８】
以上の如くステップＳ１６で各フレームの発声速度係数が設定されるとステップＳ１７へ進み、フレーム長決定部１１０により各フレームのフレーム長（各フレームの時間間隔）が求められる。伸縮前の各フレームの時間長をＴ_０、伸縮時間長格納部１０９で格納される伸縮後の全体の増加時間長をＴ_ｐとすると、伸縮後の各フレームの時間長Ｔ_ｉは、
Ｔ_ｉ＝（Ｋ_ｉＴ_ｐ＋１）Ｔ_０
として求めることができる。
【００７９】
そして、ステップＳ１８において、フレーム長決定部１１０は各フレーム毎にフレーム長を計算し、音声合成部１１１はそのフレーム長になるようにフレーム内の補間処理を行い、音声合成を行う。
【００８０】
以上説明したように、本実施例によれば、発声速度の変化に対してフレーム数を一定に保つことが可能となる。このため、発声速度を速くした場合でも音質が劣化せず、また、発声速度を遅くした場合でも、メモリを消費することがないという効果がある。更に、音声合成部１１１において、フレーム毎にフレーム長を算出するので、発声速度の変更に対してリアルタイムに応答できる。
【００８１】
尚、上記の実施例３では伸縮前の各フレーム長が等しいが、図２の（Ｄ ’）のパラメータの各フレーム長が異なる場合にも本発明を適用することができる。この場合、各フレームに標準拍同期点間隔における時間間隔Ｔ _ｉ０を持たせ、
Ｔ_ｉ＝（Ｋ_ｉＴ_ｐ＋１）Ｔ_ｉ０
の式によって、フレーム長決定部１１０が各フレームのフレーム長を算出する。そして、音声合成部１１１はそのフレーム長になるようにフレーム内の補間処理を行い、合成音声を生成する。このように、標準拍同期点間隔におけるフレーム長が可変長の場合にも容易に拡張することができる。
【００８２】
このようにフレーム長を可変長とすることにより、例えば破裂音などのパラメータを細かく準備できるので明瞭度向上に寄与する。
【００８３】
＜実施例４＞
実施例４では、標本化周波数の所定倍で動作するＤ／Ａ変換器を用いて合成音声の発声速度を変化させる。
【００８４】
図５は実施例４における音声規則合成装置の機能構成を示すブロック図である。本例においては、合成音声を通常速度と２倍の速度の２種類の速度で出力する場合を説明するが、この変倍率は、他の変倍率でも構わない。
【００８５】
同図において、１５１は文字系列入力部であり、合成すべき音声の文字表記を入力する。１５２は韻律情報格納部であり、文音声の話調や単語のストレス、ポーズ等の韻律的特徴を格納しておく。１５３はピッチパタン生成部であり、文字系列入力部１５１より入力された文字系列に対応する韻律情報を韻律情報格納部１５２より取り出し、ピッチパタンを生成する。１５４は音声素片パラメータ格納部であり、ＶｃＶまたはｃＶといった単位のスペクトルパラメータ（メルケプストラム，ＰＡＣＯＲ，ＬＰＣ，ＬＳＰ等）を格納しておく。１５５は音声パラメータ生成部であり、文字系列入力部１５１より入力された文字系列に対応する音声素片パラメータを音声素片パラメータ格納部１５４から取り出し、これらを接続することにより音声パラメータを生成する。
【００８６】
１５６は駆動音源であり、有声区間にたいしてはインパルス列のような音源信号、無声区間に対しては白色雑音のような音源信号をそれぞれ生成する。１５７は音声合成部であり、ピッチパターン生成部１５３で得られるピッチパタン、音声パラメータ生成部１５５で得られる音声パラメータ及び駆動音源１５６で得られる音源信号とを一定の規則に基づいて順次結合し、ディジタル音声信号を生成する。
【００８７】
１５８は音声出力速度切換スイッチであり、音声合成部１５７で生成された合成音声を通常の速度で出力するか、通常の２倍の速度で出力するかを切り替える。１５９はディジタルフィルタであり、音声合成部１５７で生成されたディジタル音声信号の標本化周波数を２倍に変換する。１６０はＤ−Ａ変換器であり、音声合成部１５７で生成されたディジタル音声信号の標本化周波数の２倍の周波数で作動する。
【００８８】
以上の構成により、通常速度で合成音声を出力する場合は、ディジタルフィルタ１５９により音声合成部１５７で生成されたディジタル音声信号の標本化周波数を２倍に変換し、これを標本化周波数の２倍の動作速度を有するＤ−Ａ変換器１６０によりアナログ変換することにより通常の速度のアナログ音声信号を得る。一方、２倍速の合成音声を出力する場合は、音声合成部１０７で生成されたディジタル音声信号が、標本化周波数の２倍の周波数で作動するＤ−Ａ変換器１６０にそのまま入力されるため、Ｄ−Ａ変換器１６０により２倍速のアナログ音声信号に変換される。
【００８９】
１６１はアナログ低域フィルタであり、Ｄ−Ａ変換器１６０で生成されたアナログ音声信号のうち音声合成部１５７で生成されたディジタル音声信号の標本化周波数以上の周波数成分を遮断する。１６２はスピーカであり、通常速度または２倍速の合成音声信号を出力する。
【００９０】
以下に図６乃至図１５を参照して上述の構成を備える実施例４の音声合成装置の動作を説明する。
【００９１】
図１５は実施例４の音声合成装置の動作手順を表すフローチャートである。まず、ステップＳ２１において文字系列入力部１５１より音声合成すべき文字系列が入力される。次にステップＳ２２において、入力された文字系列よりディジタル音声信号が生成される。このディジタル音声信号の生成過程を図６及び図７を用いて説明する。
【００９２】
図６は音声合成部１５７の動作を説明する図である。２０１はピッチパタン生成部１５３より生成されるピッチパタンであり、出力音声に対する経過時間と周波数の関係を表している。２０２は音声パラメータ生成部１５５より生成される音声パラメータであり、出力音声に対応する音声素片パラメータを順に接続したものである。２０３は駆動音源１５６より生成される音源信号であり、有声区間にたいしてはインパルス列（２０３ａ）、無声区間にたいしては白色雑音（２０３ｂ）である。２０４はディジタル信号処理部であり、例えば、ＰＡＲＣＯＲ方式により、ピッチパターン、音声パラメータ及び音源信号を一定の規則に基づき結合し、ディジタル音声信号を生成する。２０５はディジタル信号処理部２０４より出力されるディジタル音声信号であり、時間Ｔ毎の振幅情報値である。この信号の標本化周波数をｆ＝１／Ｔとする。２０６は２０５の周波数スペクトルであり、標本化によって発生する周波数ｆ／２以上の不要な高域雑音成分が含まれている。
【００９３】
次に、ステップＳ２３において、音声出力速度切替スイッチ１５８の状態により、出力速度を通常速度とするか２倍速とするかを判断し、通常速度とする場合はステップＳ２４へ、２倍速とする場合はステップＳ２５へ進む。
【００９４】
ステップＳ２４ではディジタルフィルタ１５９によりディジタル音声信号の標本化周波数を２倍に変倍する。このディジタルフィルタ１５９における処理を図７及び図８を用いて説明する。
【００９５】
図７において、３０１はディジタルフィルタ１５９の周波数スペクトルであり、周波数ｆ／２をカットオフとする急峻な特性を持っている。
【００９６】
図８において、ディジタル音声信号２０５は音声合成部１５７で生成され出力された信号である。３０４はディジタルフィルタ１５９より出力されるディジタル音声信号であり、周期Ｔで入力されたディジタル音声信号２０５に０（ゼロ）を内挿して２倍の周波数に変換されている。３０５は、ディジタル音声信号３０４の周波数スペクトルであり、周波数（２ｎ＋１）ｆ、（ｎ＝０，１，２…）を中心とした周波数成分が消滅しているが、周波数２ｎｆ、（ｎ＝１，２…）を中心とした不要な高域雑音成分が含まれている。
【００９７】
ステップＳ２５において、Ｄ−Ａ変換器１６０によりディジタル音声信号をアナログ音声信号に変換する。このＤ−Ａ変換器１６０による処理を図９乃至図１１を用いて説明する。
【００９８】
図９はＤ−Ａ変換器出力の周波数スペクトルを表す図である。このＤ−Ａ変換器は音声合成部１５７で生成されるディジタル音声信号の標本化周波数ｆの２倍の周波数２ｆで作動するものであり、周波数２ｆを中心として高域雑音成分が含まれている。
【００９９】
図１０において、ディジタルフィルタ１５９を介して得られたディジタル音声信号３０４は、２倍の標本化周波数を有し、３０５に示されるような周波数スペクトルを有する。ディジタル信号３０４を周波数スペクトル４０１を持つＤ−Ａ変換器１６０に通すことにより、アナログ音声信号４０４が生成される。アナログ音声信号４０４は通常速度で発声される。４０５はアナログ音声信号４０４の周波数スペクトルである。
【０１００】
又、図１１において、音声合成部１５７で生成された標本化周波数ｆの音声ディジタル信号２０５は周波数スペクトル４０１を持つＤ−Ａ変換器１６０に通すことにより、アナログ音声信号４０８が生成される。アナログ音声信号４０８はディジタル音声信号２０５に比べて信号の継続時間が１／２に圧縮されている。４０９はアナログ音声信号４０８の周波数スペクトルであり、周波数スペクトル２０６に比べて周波数帯域が２倍になり、周波数ｆ以上の周波数２ｎｆ、（ｎ＝１，２…）を中心とした不要な高域雑音成分が含まれてる。
【０１０１】
ステップＳ２６では、アナログ低域フィルタ１６１によりＤ−Ａ変換器１６０により生成されたアナログ音声信号の高周波成分を除去する。このアナログ低域フィルタ１６１の動作を図１２乃至図１４を用いて説明する。
【０１０２】
図１２から図１４はアナログ低域フィルタ１６１を説明する図である。
【０１０３】
図１２において、５０１はアナログ低域フィルタ１６１の周波数スペクトルであり、周波数ｆ以上の周波数成分を減衰させる。
【０１０４】
図１３において、合成音を通常速度で出力する場合のアナログ音声信号４０４は、アナログフィルタ１６１を通過することにより、アナログ信号５０４として出力される。５０５はアナログ信号５０４の周波数スペクトルで、周波数ｆ／２以上の不要な高域雑音成分が除去され、正しいアナログ信号となっている。
【０１０５】
図１４において、合成音を２倍速で出力するためのアナログ信号４０８をアナログフィルタ１６１に通すことにより、アナログ信号５０８が得られる。５０９はアナログ信号５０８の周波数スペクトルであり、周波数ｆ以上の不要な高域雑音成分が除去され、２倍速で出力する場合の正しいアナログ信号となっている。
【０１０６】
ステップＳ２７では、アナログ低域フィルタ１６１を通過して得られたアナログ信号を音声信号として出力する。
【０１０７】
以上説明したように本実施例によれば、合成音を２倍速で出力することができるので、例えばカセットテープレコーダなどに録音する際の録音時間を２分の１に短縮することが可能であり、作業時間が短縮される。
【０１０８】
一般に音声規則合成装置は、小型軽量ではなく、パーソナルコンピュータやワークステーション等のホストコンピュータで音声合成処理を行い、付属のスピーカから合成音声を出力したり、または電話回線を通して手元の端末機から合成音声を出力したりしているのが現状である。このため、音声規則合成装置を携帯し、それから読み上げられる音声を聞きながら作業を行うというようなことはできず、音声規則合成装置から出力される合成音声を、一旦カセットテープレコーダ等に録音し、それを携帯し、再生される音声を聞きながら作業を行うという方法が一般的に用いられており、その録音のために多くの時間を費やさなければならないという問題がある。従って本実施例によればその録音時間を著しく短縮することが可能となる。
【０１０９】
尚、本発明は、複数の機器から構成されるシステムに適用しても１つの機器から成る装置に適用しても良い。また、本発明は、システム或は装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。
【０１１０】
【発明の効果】
以上説明したように本発明の音声合成方法及び装置によれば、合成音声の発声速度の変更に対してフレームの数を一定に保つことが可能となり、高速時の音質の劣化を防止すると共に、低速時における処理速度の低下とメモリの消費を抑えることが可能である。
【０１１１】
また、発声速度の変更をフレーム単位で行うことが可能である。
【０１１２】
【図面の簡単な説明】
【図１】実施例３の音声合成装置の機能構成を表すブロック図である。
【図２】実施例３におけるＶｃＶパラメータを用いた音声合成の手順を説明する図である。
【図３】実施例３の音声合成装置の動作手順を表すフローチャートである。
【図４】ＶｃＶパラメータを用いた音声合成の一般的な手順を説明する図である。
【図５】実施例４における音声規則合成装置の機能構成を示すブロック図である。
【図６】音声合成部の動作を説明する図である。
【図７】ディジタルフィルタの周波数特性を表す図である。
【図８】ディジタルフィルタの動作を説明する図である。
【図９】Ｄ−Ａ変換器出力の周波数特性を表す図である。
【図１０】Ｄ−Ａ変換器の動作を説明する図である。
【図１１】Ｄ−Ａ変換器の動作を説明する図である。
【図１２】アナログ低域フィルタの周波数特性を表す図でる。
【図１３】アナログ低域フィルタの動作を説明する図である。
【図１４】アナログ低域フィルタの動作を説明する図である。
【図１５】実施例４の音声合成装置の動作手順を表すフローチャートである。
【図１６】実施例１に係る音声合成装置の機能構成を示すブロック図である。
【図１７】実施例１におけるＶｃＶパラメータによる音声合成の手順を表す図である。
【図１８】実施例１におけるＶｃＶパラメータの伸縮を説明する図である。
【図１９】実施例１における音声合成の手順を表すフローチャートである。
【図２０】実施例１のパラメータ１フレームのデータ構造を表す図である。
【図２１】実施例１のパラメータ生成手順を表すフローチャートである。
【図２２】実施例１におけるパラメータの生成を説明する図である。
【図２３】実施例１における母音定常部長の設定の１例を表す図である。
【図２４】実施例１におけるピッチスケールの生成を表す概念図である。
【図２５】実施例１におけるピッチスケールの生成方法を説明する図である。
【図２６】実施例１における合成パラメータの補間を説明する図である。
【図２７】実施例２に係る音声合成装置の機能構成を示すブロック図である。
【図２８】実施例２における音声合成の手順をあらわすフローチャートである。
【図２９】実施例２のパラメータ１フレームのデータ構造を表す図である。
【図３０】実施例２におけるピッチスケールの補間の説明図である。
【符号の説明】
１０１文字系列入力部
１０２ＶｃＶ系列入力部
１０３ＶｃＶパラメータ格納部
１０４ＶｃＶラベル格納部
１０５拍同期点間隔設定部
１０６母音定常部長さ設定部
１０７発声速度係数設定部
１０８パラメータ生成部
１０９伸縮時間長格納部
１１０フレーム長決定部
１１１音声合成部

Claims

音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレーム時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。
合成音声の発声速度に基づいて各音声素片の拍同期点間の時間間隔を決定する決定手段を更に備え、
前記波形生成手段は、前記決定手段で決定された時間間隔となるように、前記拍同期点間に存在する各フレームの時間長を決定することを特徴とする請求項１又は２に記載の音声合成装置。
前記ピッチスケール生成手段における所定の時間間隔は、拍同期点間の間隔であることを特徴とする請求項１又は２に記載の音声合成装置。
前記各フレームは複数の所定間隔のサンプリングデータで構成され、
前記ピッチスケール生成手段は、前記拍同期点間の時間間隔に基づいて各サンプリング毎に所定の割合で変化するピッチスケールを生成し、
前記波形生成手段は、前記ピッチスケールに基づいて各サンプリング毎の音声波形を生成することを特徴とする請求項４に記載の音声合成装置。
発声速度に応じて伸縮される前の各フレームがそれぞれ固有の時間長を有することを特徴とする請求項１又は２に記載の音声合成装置。
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備えることを特徴とする音声合成方法。
音声波形のパラメータを有する１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成を行うピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて音声波形を生成する波形生成工程とを備えることを特徴とする音声合成方法。
合成音声の発声速度に基づいて各音声素片の拍同期点間の時間間隔を決定する決定工程を更に備え、
前記波形生成工程は、前記決定工程で決定された時間間隔となるように、前記拍同期点間に存在する各フレームの時間長を決定することを特徴とする請求項７又は８に記載の音声合成方法。
前記ピッチスケール生成工程における所定の時間間隔が拍同期点間隔であることを特徴とする請求項７又は８に記載の音声合成方法。
前記各フレームは複数の所定間隔のサンプリングデータで構成され、
前記ピッチスケール生成工程は、前記拍同期点間の時間間隔に基づいて各サンプリング毎に所定の割合で変化するピッチスケールを生成し、
前記波形生成工程は、前記ピッチスケールに基づいて各サンプリング毎の音声波形を生成することを特徴とする請求項１０に記載の音声合成方法。
発声速度に応じて伸縮される前の各フレームがそれぞれ固有の時間長を有することを特徴とする請求項７又は８に記載の音声合成方法。
１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御手段とを備えることを特徴とする音声合成制御装置。
１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御装置であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定手段と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成手段と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成手段により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御手段とを備えることを特徴とする音声合成制御装置。
１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔においてアクセントの強さが線形に変化するようにピッチスケールを生成するピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御工程とを備えることを特徴とする音声合成制御方法。
１つ又は複数のフレームで構成される音声素片を一定の規則に基づいて順次結合して合成音声を出力する音声合成装置において用いる音声合成制御方法であって、
合成音声の発声速度の変化に応じて各フレームを伸縮するための伸縮の度合いを示す伸縮度を、各フレームが属する音響的種別に基づいてフレームごとに設定する設定工程と、
所定の時間間隔において合成音声の高さが線形に変化するようにピッチスケールの生成をおこなうピッチスケール生成工程と、
合成音声の発声速度及び前記伸縮度に基づいて各フレームの時間長を決定し、該各フレームの時間長と、前記ピッチスケール生成工程により生成されたピッチスケールとに基づいて各フレームの音声波形を生成するよう制御する音声波形生成制御工程とを備えることを特徴とする音声合成制御方法。