JP2008225254A

JP2008225254A - 音声合成装置及び方法並びにプログラム

Info

Publication number: JP2008225254A
Application number: JP2007065780A
Authority: JP
Inventors: Yasuo Okuya; 泰夫奥谷; Michio Aizawa; 道雄相澤; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-03-14
Filing date: 2007-03-14
Publication date: 2008-09-25
Also published as: US20080228487A1; EP1970895A1; US8041569B2; CN101266789A

Abstract

【課題】規則合成と録音合成を有する音声合成装置において、合成方式の境界で了解性が低下する。
【解決手段】言語処理部２０２は、テキスト保持部２０１より供給されたテキストに対して言語解析を行って単語を同定する。合成選択部２０９は、上記言語解析の結果から抽出される注目単語に対して、規則合成部２０４による音声合成処理、又は、録音合成部２０６による音声合成処理のいずれかを選択する。そして、選択された規則合成部２０４又は録音合成部２０６が、前記注目単語に対して実行する。
【選択図】図２

Description

本発明は、音声合成技術に関する。

駅のホームの電車案内や高速道路の渋滞情報などでは、録音音声（あらかじめ蓄積された単語音声やフレーズ音声）を組み合わせて接続する分野限定合成（Domain-specific synthesis）が使われている。この方式は、分野が限定されているため自然性の高い合成音声を得ることができるが、任意のテキストを音声合成することはできない。

一方、音声規則合成の代表である波形接続型の音声合成システムは、入力テキストを単語に分割し読みの情報を付与した後、読みの情報に従って音声素片を接続することにより規則合成音声を生成する。この方式は、任意のテキストを音声合成することができる特徴がある反面、合成音声の自然性が高くないという欠点がある。

特許文献１には、録音音声と規則合成音声を組み合わせて合成音声を生成する音声合成システムが記載されている。該システムは、録音音声を保持するフレーズ辞書、及び、読み・アクセントを保持する発音辞書を備える。入力テキストに対して、フレーズ辞書に登録されている単語はその録音音声を出力し、発音辞書に登録されている単語はその読みとアクセントから生成した規則合成音声を出力する。

特開２００２−２２１９８０号公報

しかしながら、特許文献１の音声合成では、録音音声と規則合成音声の境界付近で音質が大きく変わるため、了解性が低下する場合がある。

本発明は上記の課題に鑑みてなされたものであり、録音音声と規則合成音声を組み合わせて合成音声を生成する際の了解性を向上させることを目的とする。

本発明の一側面に係る音声合成装置は、供給されたテキストに対して言語解析を行って単語を同定する言語解析手段と、前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第１の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第２の音声合成処理のいずれか１つを選択する選択手段と、前記選択手段が選択した前記第１又は第２の音声合成処理を、前記注目単語に対して実行する処理実行手段と、前記処理実行手段により生成された合成音声を出力する出力手段とを備えることを特徴とする。

本発明によれば、録音音声と規則合成音声を組み合わせて合成音声を生成する際の了解性が向上する。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。
また、以下の実施形態では、規則合成のための言語解析に利用される言語辞書や録音合成のための録音音声データに登録されている登録語が単語である場合について説明するが、本発明はこれに限定されるものではない。登録語が複数の単語列からなる句や、単語より小さい単位であってもかまわない。

＜第１実施形態＞
図１は、第１実施形態における音声合成装置のハードウエア構成を示すブロック図である。

図１において、１０１は制御メモリ（ＲＯＭ）であり、本実施形態の音声合成プログラム１０１１や固定的なデータが格納される。１０２は中央処理装置であり、数値演算／制御等の処理を行う。１０３はメモリ（ＲＡＭ）であり、一時的なデータが格納される。１０４は外部記憶装置である。１０５は入力装置であり、ユーザが本装置に対してデータを入力したり、動作を指示したりするのに用いられる。１０６は表示装置等の出力装置であり、中央処理装置１０２の制御下でユーザに対して各種の情報を提示する。１０７は音声出力装置であり、音声を出力する。１０８はバスであり、各装置間のデータのやり取りはこのバスを通じて行われる。１０９は、音声入力装置であり、ユーザが本装置に対して音声を入力するのに用いられる。

図２は、本実施形態における音声合成装置のモジュール構成を示すブロック図である。

図２において、テキスト保持部２０１は、音声合成の対象となる入力テキストを保持する。言語解析手段としての言語処理部２０２は、テキスト保持部２０１より供給されるテキストに対して、言語辞書２１２を用いて言語解析を実行して単語の同定を行う。これにより、音声合成処理の対象とする単語が抽出されるとともに、音声合成処理に必要な情報が生成される。解析結果保持部２０３は、言語処理部２０２による解析結果を保持する。規則合成部２０４は、解析結果保持部２０３が保持する解析結果に基づいて規則合成（第１の音声合成処理）を行う。規則合成データ２０５は、規則合成部２０４が規則合成を行うために必要な規則や単位素片データで構成される。録音合成部２０６は、解析結果保持部２０３が保持する解析結果に基づいて、録音音声データを再生する録音合成（第２の音声合成処理）を行う。録音合成データ２０７は、録音合成部２０６が録音合成を行うために必要な単語やフレーズの録音音声データである。合成音保持部２０８は、規則合成部２０４又は録音合成部２０６が合成した合成音声を保持する。

合成選択部２０９は、解析結果保持部２０３が保持する解析結果と、選択結果保持部２１０が保持する従前の選択結果とに基づいて、注目単語に適用する音声合成方法（規則合成又は録音合成のいずれか）を選択する。選択結果保持部２１０は、合成選択部２０９が選択した注目単語の音声合成方法を従前の結果とともに保持する。音声出力部２１１は、合成音保持部２０８が保持する合成音声を音声出力装置１０７を介して出力する。言語辞書２１２は、単語の表記、読みなどの情報を保持する。

本実施形態における録音合成とは、あらかじめ録音しておいた単語やフレーズなどの録音音声を組み合わせて合成音声を生成する方法である。言うまでもないことであるが、録音音声を組み合わせる際に録音音声を加工してもよいし、そのまま出力してもよい。

図３は、本実施形態における音声合成装置の処理を示すフローチャートである。

ステップＳ３０１では、言語処理部２０２が、テキスト保持部２０１が保持する合成対象のテキストに対して言語辞書２１２を用いて言語解析を行い、音声合成処理の対象とする単語を抽出する。本実施形態では、テキストの先頭から順次、音声合成処理する手順を想定している。そのため、単語はテキストの先頭から順に抽出されていくことになる。さらに、各単語に対する読みの情報を付与し、各単語に対応する録音音声が存在するか否かの情報を録音合成データ２０７から抽出する。解析結果を解析結果保持部２０３に保持してステップＳ３０２に移る。

ステップＳ３０２では、解析結果保持部２０３が保持する解析結果の中に、合成していない単語が存在する場合はステップＳ３０３に移る。合成していない単語が存在しない場合は本処理を終了する。

ステップＳ３０３では、合成選択部２０９が、解析結果保持部２０３が保持する解析結果と、選択結果保持部２１０が保持する過去に処理した単語の音声合成方法選択結果とに基づいて注目単語（第１の単語）の音声合成方法を選択する。この選択結果は選択結果保持部２１０に保持される。音声合成方法として規則合成を選択する場合はステップＳ３０４に移る。一方、音声合成方法として規則合成ではなく録音合成を選択する場合はステップＳ３０５に移る。

ステップＳ３０４では、処理実行手段としての規則合成部２０４が、解析結果保持部２０３が保持する解析結果と規則合成データ２０５とを用いて注目単語の規則合成を行う。生成された合成音声は合成音保持部２０８に保持され、その後、処理はステップＳ３０６に移る。

ステップＳ３０５では、処理実行手段としての録音合成部２０６が、解析結果保持部２０３が保持する解析結果と録音合成データ２０７とを用いて注目単語の録音合成を行う。生成された合成音声は合成音保持部２０８に保持され、その後、処理はステップＳ３０６に移る。

ステップＳ３０６では、音声出力部２１１が、合成音保持部２０８が保持する合成音声を音声出力装置１０７を介して出力し、ステップＳ３０２に戻る。

ここで、本実施形態のステップＳ３０３における音声合成方法の選択基準を以下に示す。

最初は録音合成方式を優先する。それ以外の場合は、注目単語に隣接する単語（第２の単語）として、例えば注目単語の直前の単語に対して選択された音声合成方法と同じ音声合成方法を優先的に選択する。なお、注目単語の録音音声が登録されていない場合には録音合成を行うことはできないので、この場合には規則合成を選択することになる。一方、規則合成については、通常、任意の単語を合成することが可能であるため、常に選択可能である。

以上の処理によれば、注目単語の直前の単語に対する音声合成方法に準じて注目単語の音声合成方法が選択される。このため、同じ音声合成方法を連続させることができ、音声合成方法が切り替わる回数が抑制される。これにより、合成音声の了解性の向上が期待できる。

＜第２実施形態＞
上述の第１実施形態は、注目単語に対して、その注目単語の直前の単語について選択された音声合成方法と同じ合成方法を優先的に選択するものであった。これに対し本実施形態は、接続歪の最小化を選択基準とする。以下、詳しく説明する。

図４は、第２実施形態における音声合成装置のモジュール構成を示すブロック図である。

図４において、第１実施形態と同じ処理を行うモジュールには図２と同じ参照番号を付与し、それらの説明は省略する。図４は、図２に対して、接続歪計算部４０１が付加された構成を示している。接続歪計算部４０１は、合成音保持部２０８が保持する注目単語の直前の単語の合成音声と注目単語の合成候補音声との接続歪を計算する。合成音保持部２０８は、規則合成部２０４又は録音合成部２０６が合成した合成音声を、次の単語に対する音声合成方法が選択されるまでの間保持する。合成選択部２０９は、接続歪計算部４０１が計算した接続歪が最小となる合成候補音声とそれに対応する音声合成方法を選択する。選択結果保持部２１０は、合成候補音声とそれに対応する音声合成方法を保持する。

第１実施形態の図３を用いて、本実施形態における音声合成装置の処理の流れを説明する。なお、ステップＳ３０３以外の処理の流れは第１実施形態と同じであるため説明を省略する。
ステップＳ３０３では、接続歪計算部４０１が、合成音保持部２０８が保持する注目単語の直前の単語の合成音声と注目単語の合成候補音声との接続歪を計算する。次に、合成選択部２０９は、接続歪計算部４０１が計算した接続歪が最小となる合成候補音声とそれに対応する音声合成方法を選択する。この選択結果は選択結果保持部２１０に保持される。選択された音声合成方法が規則合成の場合、処理はステップＳ３０４に移る。一方、選択された音声合成方法が規則合成ではなく録音合成の場合、処理ステップＳ３０５に移る。

図５は、第２実施形態における接続歪について説明するための模式図である。

図５において、５０１は注目単語の直前の単語の合成音声である。５０２は注目単語の読みに規則合成を適用した合成候補音声である。５０３は録音音声に録音合成を適用した合成候補音声である。

本実施形態における接続歪は、注目単語の直前の単語の合成音声の末尾と注目単語の合成音声の先頭とのスペクトル距離とする。接続歪計算部４０１は、直前の単語の合成音声５０１と注目単語の規則合成による合成候補音声（読みから合成した音声）５０２との接続歪と、直前の単語の合成音声５０１と録音合成による合成候補音声５０３との接続歪を、それぞれ計算する。そして合成選択部２０９は、接続歪が最小となる合成候補音声及びその音声合成方法を選択する。

なお、言うまでもないことであるが、接続歪はスペクトル距離に限定されるものではなく、ケプストラム距離や基本周波数に代表される音響特徴量等を基にして定義してもよいし、その他の公知技術を利用することもできる。例えば、発声速度に着目する場合は、直前の単語の発声速度と合成候補音声の発声速度との差又は比を基に接続歪を定義することができる。発声速度の差を接続歪とする場合は、差が小さいほど接続歪が小さいと定義することができる。また、発声速度の比を接続歪とする場合は、発声速度の比が基準比率１に近いほどよいと定義できる。言い換えると、発声速度の比の基準比率１からの距離が小さいほど接続歪が小さいと定義することができる。

以上説明したように、注目単語に複数の合成候補音声が存在する場合に、接続歪最小化を選択基準とすることによって、接続点での歪が小さい合成候補音声とその音声合成方法を選択することが可能となり、了解性の向上が期待できる。

＜第３実施形態＞
上述の第１及び第２実施形態では、一単語ずつ音声合成方法を選択するものであったが、本発明はこれに限定されるものではない。例えば、供給されたテキスト全体又は一部に対して選択基準を満足するように各単語の合成候補音声とその音声合成方法を選択してもよい。

また、第１及び第２実施形態では、言語処理部２０２が一意に単語の同定を行うことを仮定したが、これに限定されるものではなく、解析結果として複数解が存在してもよい。本実施形態では、複数解が存在する場合について説明する。

図６は、本実施形態における音声合成装置の処理を示すフローチャートである。図３と同じ処理を示す工程には図３と同じ参照番号を付与している。なお、本実施形態における音声合成装置のモジュール構成として図２の構成を援用する。

図６において、ステップＳ３０１では、言語処理部２０２が、テキスト保持部２０１が保持する合成対象のテキストに対して、言語辞書２１２を使って辞書引きを行い単語ラティスを構築する。さらに、各単語に読みを付与し、各単語に対応する録音音声が存在するか否かの情報を録音合成データ２０７から抽出する。第１実施形態との違いは解析結果が複数解であるという点である。解析結果は解析結果保持部２０３に保持され、その後、処理はステップＳ６０１に移る。

ステップＳ６０１では、合成選択部２０９が、解析結果保持部２０３が保持する解析結果に基づいて、テキストの全体又は一部に対して選択基準を満足する合成候補音声の最適系列を選択する。選択した最適系列は選択結果保持部２１０に保持され、その後、処理はステップＳ３０２に移る。

本実施形態における合成選択部２０９が採用する選択基準は、「音声合成方法の変更回数と合成候補音声の接続回数との和を最小化すること」とする。

ステップＳ３０２では、選択結果保持部２１０が保持する最適系列の中に、合成していない単語が存在する場合はステップＳ３０３に移る。合成していない単語が存在しない場合は本処理は終了する。

ステップＳ３０３では、合成選択部２０９が、選択結果保持部２１０が保持する最適系列に基づいて注目単語に適用する処理をステップＳ３０４とステップＳ３０５に振り分ける。注目単語に対し規則合成が選択される場合はステップＳ３０４に移る。注目単語に対し規則合成ではなく録音合成が選択される場合はステップＳ３０５に移る。ステップＳ３０４、ステップＳ３０５、ステップＳ３０６は第１実施形態に示した処理と同じであるため、説明を省略する。

次に、図７及び図８を用いて、言語解析の複数解及び最適系列の選択について説明する。図７は、本実施形態における言語解析の解析結果である複数解をラティス状に表現した模式図である。

図７において、７０１はラティスの始端、７０７はラティスの終端と表すノードである。７０２〜７０６は単語の候補を表す。この例では、以下に示す３通りの解に従う単語系列が存在する。
（１）７０２−７０３−７０６
（２）７０２−７０４−７０６
（３）７０２−７０５

図８は、図７における単語候補を合成候補音声に展開してラティス状に表現した模式図である。

図８において、８０１〜８０９は合成候補音声を表す。合成候補音声のうち、ハッチングなしの楕円（８０１，８０２，８０４，８０５，８０８）は、言語辞書２１２に登録されている単語の読みに規則合成を適用した合成候補音声である。一方、ハッチングされた楕円（８０３，８０６，８０７，８０９）は、録音合成データ２０７に登録されている録音音声に録音合成を適用した合成候補音声である。７０２及び７０４には、録音合成データ２０７に対応する録音音声データが登録されていないため、録音合成による合成候補音声が存在していない。なお、図８においては、図７に表された単語候補は図７と同じ番号を付与して破線で表されている。

図８の例では、以下に示す９通りの合成候補音声の系列が存在することになる。
（１）８０１−８０２−８０８
（２）８０１−８０２−８０９
（３）８０１−８０３−８０８
（４）８０１−８０３−８０９
（５）８０１−８０４−８０８
（６）８０１−８０４−８０９
（７）８０１−８０５
（８）８０１−８０６
（９）８０１−８０７

これらの合成候補音声の系列はそれぞれ、各単語の録音音声データの有無を考慮した音声合成方法の選択パターンを表していることが理解されよう。そして本実施形態では、得られた選択パターンのうち、音声合成方法の変更回数と単語の接続回数との和が最小となるものを選択する。この例の場合、音声合成方法の変更回数と単語の接続回数との和が最小となるのは、（７）８０１−８０５の系列である。よって合成選択部２０９は、この８０１−８０５の系列を選択する。

＜第４実施形態＞
一般的な音声合成のユーザ辞書機能は、表記と読みのペアをユーザ辞書に登録する。しかしながら、本発明のように規則合成と録音合成とを有する音声合成装置の場合は、ユーザが読み以外に録音音声を登録できると都合がよい。さらに、録音音声は複数登録できることが望ましい。本実施形態では、表記と読み、表記と録音音声、表記と読みと録音音声、のいずれの組み合わせでも登録可能なユーザ辞書機能が提供されている場合を考える。ユーザが登録した読みは規則合成を適用して合成音声に変換される。また、ユーザが登録した録音音声は録音合成を適用して合成音声に変換される。

本実施形態では、システムに登録されている録音音声が存在する場合はそれに録音合成を適用した合成音声を選択するものとする。また、システムに登録されている録音音声が存在しない場合は、読みに規則合成を適用した合成音声を選択するものとする。

一方で、ユーザが登録した録音音声に関しては、録音環境などによっては音質が高品位とは限らないため、ユーザが登録した単語の合成音声を選択する際には工夫が必要である。そこで本実施形態では、前後の単語の音声合成方法の情報を利用して、ユーザが登録した単語の合成音声を選択する方法について説明する。

図９は、本実施形態における音声合成装置のモジュール構成を示すブロック図である。なお、図９において、第１実施形態と同じ処理を行うモジュールには図２と同じ参照番号が付与されている。

テキスト保持部２０１は、音声合成の対象となるテキストを保持する。テキスト規則合成部９０１は、同定結果保持部９０４が保持する未知語（後述）の表記に対し、言語辞書２１２及びユーザ辞書９０６に読みが登録されている単語を用いて言語解析を行った後、言語解析結果を基に規則合成を行い、合成音声を出力する。読み規則合成部９０２は、ユーザ辞書９０６に登録されている読みを入力とし、規則合成を行い、合成音声を出力する。録音合成部２０６は、同定結果保持部９０４が保持する単語同定結果の中で単語として同定されたものに対して、録音合成データ２０７を用いて録音合成を行い、合成音声を出力する。録音合成データ２０７は単語やフレーズの表記と録音音声を保持する。

単語同定部９０３は、テキスト保持部２０１が保持するテキストに対して、録音合成データ２０７及びユーザ辞書９０６に登録されている録音音声の表記を用いて、単語の同定を行う。同定結果保持部９０４は単語同定結果を保持する。単語同定結果には、録音合成データ２０７及びユーザ辞書９０６に登録されていない文字列（本実施形態ではこれを未知語と呼ぶ）が含まれることがある。単語登録部９０５は、ユーザが入力装置１０５を介して入力する表記と読みをユーザ辞書９０６に登録する。

単語登録部９０５は、ユーザが音声入力装置１０９を介して入力する録音音声と入力装置１０５を介して入力する表記をユーザ辞書９０６に登録する。ユーザ辞書９０６は、表記と読み、表記と録音音声、表記と読みと録音音声、のいずれの組み合わせでも登録可能なユーザ辞書である。合成音声選択部９０７は、ユーザ辞書９０６に登録されている単語が同定結果保持部９０４に存在する場合に、選択基準に従って注目単語の合成音声を選択する。音声出力部２１１は、合成音保持部２０８が保持する合成音声を出力する。合成音保持部２０８は、テキスト規則合成部９０１、読み規則合成部９０２、録音合成部２０６がそれぞれ出力する合成音声を保持する。

次に、図１０を用いて本実施形態における音声合成装置の処理を説明する。

図１０において、ステップＳ１００１では、単語同定部９０３が、テキスト保持部２０１が保持するテキストに対して、録音合成データ２０７及びユーザ辞書９０６に登録されている録音音声の表記を使って単語の同定を行う。単語が同定できなかった文字列は、未知語として、同定した単語とともに同定結果保持部９０４に保持される。その後、処理はステップＳ１００２に移る。

ステップＳ１００２では、録音合成部２０６が、同定結果保持部９０４が保持する単語同定結果の中で単語として同定されたものに対して、録音合成データ２０７及びユーザ辞書９０６に登録されている録音音声を用いて録音合成を行う。生成された合成音声は合成音保持部２０８に保持される。その後、処理はステップＳ１００３に移る。

ステップＳ１００３では、テキスト規則合成部９０１が、同定結果保持部９０４が保持する未知語の表記に対し、言語辞書１２１及びユーザ辞書９０６に読みが登録されている単語を用いて言語解析を行った後、言語解析結果を基に規則合成を行う。生成された合成音声は合成音保持部２０８に保持される。その後、処理はステップＳ１００４に移る。

ステップＳ１００４では、同定結果保持部９０４が保持する単語同定結果の中でユーザ辞書９０６に読みが登録されている単語に対して、読み規則合成部９０２が規則合成を行う。生成された合成音声は合成音保持部２０８に保持される。その後、処理はステップＳ１００５に移る。

ステップＳ１００５では、合成音声選択部９０７が、同定結果保持部９０４の中で未知語を含む単語に対して、合成候補音声が複数存在する場合はその中からひとつを選択する。選択結果は合成音保持部２０８に反映される（例えば、選択された合成音声を記録する、又は、選択されなかった合成音声を削除する。）。その後、処理はステップＳ１００６に移る。

ステップＳ１００６では、音声出力部２１１が、合成音保持部２０８が保持する合成音声をテキストの先頭から順に出力して、本処理は終了する。

図１１は、上記したステップＳ１００４の終了時点を示した模式図である。

図１１において、データは角が丸められた四角で、処理モジュールは角ありの四角で表現されている。１１０１はテキスト保持部２０１が保持するテキストである。１１０２〜１１０４はテキスト１１０１に対して単語同定を行った結果であり、１１０２は未知語、１１０３及び１１０４は録音合成データ２０７に登録されている単語である。また、１１０３はユーザ辞書に読みと録音音声が登録されている単語でもある。一方、１１０４は録音合成データ２０７にだけ登録されている。

１１０５、１１０６、１１０７は、ステップＳ１００４までの音声合成処理の結果として得られる合成音声を表している。１１０５は、１１０２に対応する合成音声であり、テキスト規則合成音声だけが存在する。１１０６は１１０３に対応する合成音声であり、録音合成音声、ユーザ録音合成音声、ユーザ読み規則合成音声が存在する。１１０７は、１１０４に対応する合成音声であり、録音合成音声だけが存在する。

テキスト規則合成音声はテキスト規則合成部９０１の出力であり、ユーザ読み規則合成音声は読み規則合成部９０２の出力であり、録音合成音声及びユーザ録音合成音声は録音合成部２０６の出力である。

図１２は、ステップＳ１００４までの音声合成処理の結果として得られる合成音声の詳細を示した模式図である。

図１２を用いて、ステップＳ１００５の処理について説明する。図１２において、１２０１はテキスト規則合成音声である。１２０２は録音合成音声である。１２０３はユーザ録音合成音声である。１２０４はユーザ読み規則合成音声である。１２０５は録音合成音声である。なお、本実施形態の場合は、注目単語の前後はそれぞれ１２０１と１２０５であり、他の合成候補音声はないものとする。

合成音声選択部９０７は、録音合成音声１２０２、ユーザ録音合成音声１２０３、ユーザ読み規則合成音声１２０４の中から選択基準を満足する合成音声を１つ選択する。

選択基準が「直前の音声合成方法と同じ又は類似する音声合成方法を優先する」である場合を考える。この場合、直前の音声合成方法はテキスト規則合成であるため、規則合成の一種であるユーザ読み規則合成音声１２０４が選択される。

また、選択基準が「直後の音声合成方法と同じ又は類似する音声合成方法を優先する」である場合は、録音合成音声１２０２が選択される。

以上説明したように、単語の表記に対して読みと録音音声をユーザ辞書に登録する機能を提供することにより、音声合成方法を選択する選択肢が増え、了解性の向上が期待できる。

＜第５実施形態＞
第４実施形態では、ユーザが登録した単語の前後に関しては合成候補音声が１つしかない場合を説明した。本実施形態では、ユーザが登録した単語が連続する場合について説明する。

図１３は、第５実施形態における合成候補音声を表現した模式図である。

図１３において、両端の２単語は既に選択される合成音声が決まっている（１３０１及び１３０８）。一方、１３０２〜１３０７はユーザが登録した単語に対応する合成候補音声である。

第４実施形態と同様に、合成音声選択部９０７は、所定の選択基準に従って合成候補音声の中から１つの合成音声を選択する。例えば、選択基準が「音声合成方法の変更回数を最小化し、録音合成音声を優先すること」である場合は、１３０１−１３０２−１３０５−１３０８が選択される。また、選択基準が「ユーザ録音合成音声を優先し、その上で音声合成方法の変更回数を最小化する」である場合は、１３０１−１３０３−１３０６−１３０８が選択される。

また、ユーザが登録した録音音声の音質が安定していない可能性を考慮すると、「接続点における接続歪の総和を最小化する」という選択基準を採用することも有効である。

以上説明したように、ユーザが登録した単語が連続する場合についても全体又は部分最適化を実現する選択基準を設定することにより、了解性の向上が期待できる。

＜第６実施形態＞
第１実施形態から第５実施形態では、注目単語以外の単語情報に基づいて注目単語の音声合成方法を選択する場合について説明したが、これに限定されるものではなく、注目単語の単語情報のみに基づいて音声合成方法を選択する構成をとることも可能である。

図１４は、第６実施形態における音声合成装置のモジュール構成を示すブロック図である。

図１４において、第１実施形態から第５実施形態と同じ処理を行うモジュールには図２及び図９と同じ参照番号を付与し、それらの説明は省略する。波形歪計算部１４０１は、言語辞書２１２に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書９０６に登録されている録音音声に録音合成を適用した合成候補音声との波形歪（後述）を計算する。合成選択部２０９は、波形歪計算部１４０１が求めた波形歪と事前に設定しておいた閾値とを比較して、波形歪が閾値よりも大きい場合は、前後の単語の音声合成方法に関係なくユーザ登録単語を選択する。

本実施形態における処理の流れは第１実施形態の処理の流れと同じであるため、図３を用いて、本実施形態における処理の流れを説明する。

図３において、ステップＳ３０１、ステップＳ３０２、ステップＳ３０４、ステップＳ３０５、ステップＳ３０６の処理の流れは第１実施形態と同じであるため説明を省略する。

ステップＳ３０３では、波形歪計算部１４０１が、言語辞書２１２に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書９０６に登録されている録音音声に録音合成を適用した合成候補音声との波形歪を計算する。次に、合成選択部２０９が、波形歪計算部１４０１が求めた波形歪と事前に設定しておいた閾値とを比較する。波形歪が閾値よりも大きい場合は、前後の単語の音声合成方法に関係なく録音合成を選択し、ステップＳ３０５に移る。それ以外の場合は、ステップＳ３０４に移る。

波形歪に関しては、各時点における波形の振幅の差の総和、スペクトル距離の総和など公知技術が利用できる。また、動的計画法などを用いて両合成候補音声の時間的な対応関係をとってから波形歪を計算してもよい。

以上説明したように、波形歪を導入することにより、ユーザが録音音声を登録した意図（単なるバリエーションを増やすこと以上の、例えば、登録した録音音声通りに読ませたいなど）を優先させることができる。

＜第７実施形態＞
第６実施形態では、言語辞書２１２に登録されている読みに規則合成を適用した合成候補音声と、ユーザ辞書９０２に登録されている録音音声に録音合成を適用した合成候補音声との波形歪に着目して、注目単語の音声合成方法を選択する場合について説明した。しかしながら、波形歪を求める対象はこれに限定されるものではない。すなわち、システムに登録されている読みや録音音声に基づく合成候補音声と、ユーザ辞書に登録されている読みや録音音声に基づく合成候補音声との間の波形歪に着目するようにしてもよい。この場合、波形歪が閾値よりも大きい場合は、ユーザ辞書に登録されている読みや録音音声に基づく合成候補音声を優先するものとする。

＜第８実施形態＞
第１実施形態及び第２実施形態では、各単語の音声合成方法を選択する際にテキストの先頭単語から処理する場合について説明したが、これに限定されるものではなく、末尾から処理する構成を採用してもよい。末尾から処理する場合は、直後の単語の音声合成方法を基に注目単語の音声合成方法を選択する。また、テキスト中の任意の単語から処理する構成をとることもできる。この場合、すでに選択済みの直前又は直後の単語の音声合成方法を基に注目単語の音声合成方法を選択する。

＜第９実施形態＞
第１実施形態乃至第３実施形態では、言語処理部２０２が言語辞書２１２を使ってテキストを単語に分割する場合について説明したが、これに限定されるものではない。例えば、言語辞書２１２と録音合成データ２０７に含まれる単語やフレーズを使って単語の同定を行う構成も本発明の範囲に含まれうる。

図１５は、言語処理部２１２が言語辞書２１２と録音合成データ２０７に含まれる単語やフレーズを使って、テキストを単語又はフレーズに分割した結果を示す模式図である。図１５において、１５０１〜１５０３は録音合成用の録音合成データ２０７に含まれる単語やフレーズによる同定結果である。１５０１及び１５０３は、複数の単語からなるフレーズを示している。一方、１５０４〜１５０９は、規則合成用の言語辞書２１２による同定結果である。１５１０は次に音声合成処理を行う位置を示している。

図３のステップＳ３０３において、規則合成を選択した場合は、１５０４〜１５０９の単語が音声合成の処理単位として選択される。一方、録音合成を選択した場合は、フレーズ１５０１、１５０３又は単語１５０２が合成の処理単位として選択される。図１５では、音声合成処理が１５１０まで完了しているものとする。この場合、次に音声合成処理を行うフレーズまたは単語は、フレーズ１５０３又は単語１５０７である。録音合成を選択した場合は、フレーズ１５０３が録音合成部２０６で処理される。フレーズ１５０３を処理した場合は、単語１５０７〜１５０９はステップＳ３０２の選択対象から除外される。図１５でいうと、次の音声合成処理を行う位置を示す点線１５１０が、フレーズ１５０３（単語１５０９）の後ろに移動することに相当する。

一方、規則合成を選択した場合は、単語１５０７が規則合成２０４で処理される。単語１５０７を処理した場合は、フレーズ１５０３はステップＳ３０２の選択対象から除外され、次に処理される単語は１５０８となる。図１５でいうと、次の音声合成処理を行う位置を示す点線１５１０が単語１５０７の後ろに移動することに相当する。

以上説明したように、言語辞書２１２と録音合成データ２０７に含まれる単語やフレーズを使って言語解析を行った結果を用いる場合には、フレーズとそれに対応する単語の対応をとりながら処理を進める必要がある。

また、言語辞書２１２を作成する際、言語辞書２１２に録音合成データ２０７の単語やフレーズの情報を組み込んでおくことにより、言語解析の実行時に言語処理部２０２が録音合成データ２０７にアクセスする必要がなくなる。

＜第１０実施形態＞
第１実施形態では、「直前の単語が選択した音声合成方法と同じ音声合成方法を優先的に選択する」ことを音声合成方法の選択基準としたが、これに限定されるものではない。別の選択基準を用いてよいし、任意の選択基準と組み合わせてもよい。

例えば、「呼気段落で音声合成方法をリセットする」という選択基準を上記の選択基準と組み合わせて、「直前の単語が選択した音声合成方法と同じ音声合成方法を優先的に選択する。ただし、呼気段落で音声合成方法をリセットし、録音音声合成方法を優先する。」という選択基準でもよい。呼気段落か否かの情報は、言語解析によって得られる単語情報のひとつである。すなわち、言語処理部２０２は同定した各単語が呼気段落である否かを判定する手段を有する。

第１実施形態の選択基準の場合、基本的には、いったん規則合成が選択されると最後まで規則合成が連続することになる。しかし、上記の組み合わせ選択基準の場合は、呼気段落でリセットされるため、録音音声合成方法が選択されやすくなり、音質の向上が期待できる。なお、呼気段落での音声合成方法の切り替えは了解性にほとんど影響を与えない。

＜第１１実施形態＞
第２実施形態では、注目単語に対応する録音音声がひとつの場合について説明したが、これに限定されるものではなく、複数の録音音声が存在してもよいものとする。この場合、単語の読みに規則合成を適用した合成候補音声と直前の合成音声との接続歪と、複数の録音音声に録音合成を適用した合成候補音声と直前の合成音声との接続歪をそれぞれ計算し、その中で接続歪が最小である合成候補音声を選択する。ひとつの単語に対して複数の録音音声を用意しておくことは多様性の観点や接続歪を低減する観点からも有効な方法といえる。

＜第１２実施形態＞
第３実施形態では、「音声合成方法の変更回数と合成候補音声の接続回数の和の最小化すること」を選択基準としたが、これに限定されるものではない。例えば、第２実施形態で用いた接続歪最小化など公知の選択基準を使ってもよいし、任意の選択基準を導入してもよい。

＜第１３実施形態＞
第４実施形態では、図１１に示したように、録音合成音声が存在する場合はテキスト規則合成音声を合成候補音声としない場合について説明したが、これに限定されるものではない。図１１の１１０６において、合成候補音声としてテキスト規則合成音声がさらに存在する場合もある。この場合は、ステップＳ１００３（図１０参照）において、未知語以外の単語に対してもテキスト規則合成を行う必要がある。

＜他の実施形態＞
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。

したがって、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。

また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明の構成要件となる場合がある。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。

第１実施形態における音声合成装置のハードウエア構成を示すブロック図である。第１実施形態における音声合成装置のモジュール構成を示すブロック図である。第１実施形態における音声合成装置の処理を示すフローチャートである。第２実施形態における音声合成装置のモジュール構成を示すブロック図である。第２実施形態における接続歪みを説明するための模式図である。第３実施形態における音声合成装置の処理を示すフローチャートである。第３実施形態における言語解析の解析結果である複数解をラティス状に表現した模式図である。図７における単語候補を合成候補音声に展開してラティス状に表現した模式図である。第４実施形態における音声合成装置のモジュール構成を示すブロック図である。第４実施形態における音声合成装置の処理を示すフローチャートである。第４実施形態におけるステップＳ１００４の終了時点を示した模式図である。第４実施形態におけるステップＳ１００４までの音声合成処理の結果として得られる合成候補音声を示した模式図である。第５実施形態における合成候補音声を示した模式図である。第６実施形態における音声合成装置のモジュール構成を示すブロック図である第９実施形態における言語解析の解析結果を示す模式図である。

符号の説明

２０１：テキスト保持部
２０２：言語処理部
２０３：解析結果保持部
２０４：規則合成部
２０５：規則合成データ
２０６：録音合成部
２０７：録音合成データ
２０８：合成音保持部
２０９：合成選択部
２１０：選択結果保持部
２１１：音声出力部
２１２：言語辞書
４０１：接続歪計算部
９０１：テキスト規則合成部
９０２：読み規則合成部
９０３：単語同定部
９０４：同定結果保持部
９０５：単語登録部
９０６：ユーザ辞書
９０７：合成音声選択部
１４０１：波形歪計算部

Claims

供給されたテキストに対して言語解析を行って単語を同定する言語解析手段と、
前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第１の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第２の音声合成処理のいずれか１つを選択する選択手段と、
前記選択手段が選択した前記第１又は第２の音声合成処理を、前記注目単語に対して実行する処理実行手段と、
前記処理実行手段により生成された合成音声を出力する出力手段と、
を備えることを特徴とする音声合成装置。
前記選択手段は、前記注目単語に隣接する単語に対して先に前記処理実行手段によって実行された音声合成処理と同じ音声合成処理を選択することを特徴とする請求項１に記載の音声合成装置。
前記選択手段は、前記第１の音声合成処理を選択した場合における前記注目単語の合成音声と前記隣接する単語の合成音声との接続歪と、前記第２の音声合成処理を選択した場合における前記注目単語の合成音声と前記注目単語に隣接する単語の合成音声との接続歪とをそれぞれ計算し、接続歪が最小となる音声合成処理を選択することを特徴とする請求項１に記載の音声合成装置。
前記接続歪は、前記注目単語に隣接する単語の合成音声と前記注目単語の合成音声とのスペクトル距離であることを特徴とする請求項３に記載の音声合成装置。
前記接続歪は、前記注目単語に隣接する単語の合成音声の発声速度と前記注目単語の合成音声の発声速度との差であることを特徴とする請求項３に記載の音声合成装置。
前記接続歪は、前記注目単語に隣接する単語の合成音声の発声速度と前記注目単語の合成音声の発声速度との比の基準比率からの距離であることを特徴とする請求項３に記載の音声合成装置。
前記言語解析手段は複数解を出力するように構成され、
前記選択手段は、前記複数解のそれぞれについて、各単語の前記録音音声データの有無に応じて、当該解において同定される単語系列に対する前記第１及び第２の音声合成処理の選択パターンを求め、得られた選択パターンのうち、前記第１及び第２の音声合成処理の変更回数と単語の接続回数との和が最小となるものを選択する
ことを特徴とする請求項１に記載の音声合成装置。
ユーザの指示に応じて、登録に係る単語について、表記及び読みの情報、表記の情報及び録音音声、表記及び読みの情報及び録音音声、のいずれかの組み合わせをユーザ辞書に登録する登録手段を更に備え、
前記処理実行手段は、前記ユーザ辞書に基づいて、前記選択手段が選択した前記第１又は第２の音声合成処理を、前記注目単語に対して実行する
ことを特徴とする請求項１から７までのいずれか１項に記載の音声合成装置。
前記注目単語が前記ユーザ辞書に登録された単語である場合において、前記選択手段は、前記第１の音声合成処理を選択した場合の前記注目単語の合成音声と、前記第２の音声合成処理を選択した場合の前記ユーザ辞書を用いた録音合成により生成された合成音声との波形歪を計算し、該波形歪が閾値より大きい場合、前記第２の音声合成処理を選択することを特徴とする請求項８に記載の音声合成装置。
前記言語解析手段は、同定した各単語が呼気段落の先頭であるか否かを判定する手段を含み、
前記選択手段は更に、前記注目単語に対して前記第１の音声合成処理を選択した後において、前記言語解析手段が現在処理中の注目単語を呼気段落の先頭と判定した場合、当該注目単語に対して前記第２の音声合成処理を選択する
ことを特徴とする請求項２に記載の音声合成装置。
言語解析手段が、供給されたテキストに対して言語解析を行って単語を同定する言語解析ステップと、
選択手段が、前記言語解析の結果から抽出される注目単語に対して実行する音声合成処理として、前記言語解析の結果に基づいて規則合成を行う第１の音声合成処理、又は、予め録音された録音音声データを再生する録音合成を行う第２の音声合成処理のいずれか１つを選択する選択ステップと、
処理実行手段が、前記選択ステップで選択された前記第１又は第２の音声合成処理を、前記注目単語に対して実行する処理実行ステップと、
出力手段が、前記処理実行ステップにより生成された合成音声を出力する出力ステップと、
を備えることを特徴とする音声合成方法。
請求項１１に記載の音声合成方法をコンピュータに実行させるためのプログラム。
請求項１２に記載のプログラムを記憶したコンピュータ読取り可能な記憶媒体。