JP3910628B2

JP3910628B2 - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP3910628B2
Application number: JP2006521338A
Authority: JP
Inventors: 良文廣瀬; 孝浩釜井; 弓子加藤; 夏樹齋藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-06-16
Filing date: 2006-05-09
Publication date: 2007-04-25
Anticipated expiration: 2026-05-09
Also published as: JPWO2006134736A1; US7454343B2; WO2006134736A1; US20070203702A1

Description

本発明は、高音質で、かつ安定した音質の合成音を提供する音声合成装置に関するものである。

従来の肉声感の高い音声合成装置としては、大規模な素片ＤＢから波形を選択して接続する波形接続方式を用いるものがあった（例えば、特許文献１参照）。図１は、波形接続型音声合成装置の典型的な構成図である。

波形接続型音声合成装置は、入力されたテキストを合成音声に変換する装置であり、言語解析部１０１と、韻律生成部２０１と、音声素片ＤＢ（データベース）２０２と、素片選択部１０４と、波形接続部２０３とを備えている。

言語解析部１０１は、入力されたテキストを言語的に解析し、発音記号およびアクセント情報を出力する。韻律生成部２０１は、言語解析部１０１より出力された発音記号およびアクセント情報に基づいて、発音記号毎に基本周波数、継続時間長、パワーなどの韻律情報を生成する。音声素片ＤＢ２０２は、予め収録された音声波形を保持する。素片選択部１０４は、韻律生成部２０１により生成された韻律情報に基づいて、音声素片ＤＢ２０２より最適な音声素片を選択する処理部である。波形接続部２０３は、素片選択部１０４により選択された音声素片を接続し、合成音声を生成する。

また、安定した音質の音声を提供する音声合成装置としては、統計モデルを学習することにより合成パラメータを生成し、音声を合成する装置も知られている（例えば、特許文献２参照）。図２は、統計モデルによる音声合成方式の一つであるＨＭＭ（隠れマルコフモデル）音声合成方式を用いた音声合成装置の構成図である。

音声合成装置は、学習部１００および音声合成部２００から構成される。学習部１００は、音声ＤＢ２０２、励振源スペクトルパラメータ抽出部４０１、スペクトルパラメータ抽出部４０２およびＨＭＭの学習部４０３を備えている。また、音声合成部２００は、コンテキスト依存ＨＭＭファイル３０１、言語解析部１０１、ＨＭＭからのパラメータ生成部４０４、励振源生成部４０５および合成フィルタ３０３を備えている。

学習部１００は、音声ＤＢ２０２に格納された音声情報よりコンテキスト依存ＨＭＭファイル３０１を学習させる機能をもつ。音声ＤＢ２０２には、あらかじめサンプルとして用意された多数の音声情報が格納されている。音声情報は、図示の例のように、音声信号に波形の各音素等の部分を識別するラベル（ａｒａｙｕｒｕやｎｕｕｙｏｏｋｕ）を付加したものである。励振源スペクトルパラメータ抽出部４０１およびスペクトルパラメータ抽出部４０２は、それぞれ音声ＤＢ２０２から取り出した音声信号ごとに、励振源パラメータ列およびスペクトルパラメータ列を抽出する。ＨＭＭの学習部４０３は、抽出された励振源パラメータ列およびスペクトルパラメータ列について、音声ＤＢ２０２から音声信号とともに取り出したラベルおよび時間情報を用いて、ＨＭＭの学習処理を行なう。学習されたＨＭＭは、コンテキスト依存ＨＭＭファイル３０１に格納される。励振源モデルのパラメータは、多空間分布ＨＭＭを用いて学習を行う。多空間分布ＨＭＭは、パラメータベクトルの次元が、毎回、異なることを許すように拡張されたＨＭＭであり、有声／無声フラグを含んだピッチは、このような次元が変化するパラメータ列の例である。つまり、有声時には１次元、無声時には０次元のパラメータベクトルとなる。学習部１００では、この多空間分布ＨＭＭによる学習を行っている。ラベル情報とは、具体的には、例えば、以下のようなものを指し、各ＨＭＭは、これらを属性名（コンテキスト）として持つ。
・｛先行、当該、後続｝音素
・当該音素のアクセント句内でのモーラ位置
・｛先行、当該，後続｝の品詞，活用形，活用型
・｛先行，当該、後続｝アクセント句のモーラ長，アクセント型
・当該アクセント句の位置，前後のポーズの有無
・｛先行，当該，後続｝呼気段落のモーラ長
・当該呼気段落の位置
・文のモーラ長
このようなＨＭＭは、コンテキスト依存ＨＭＭと呼ばれる。

音声合成部２００は、任意の電子的なテキストから読み上げ形式の音声信号列を生成する機能をもつ。言語解析部１０１は、入力されたテキストを解析して、音素の配列であるラベル情報に変換する。ＨＭＭからのパラメータ生成部４０４は、言語解析部１０１より出力されるラベル情報に基づいてコンテキスト依存ＨＭＭファイル３０１を検索する。そして、得られたコンテキスト依存ＨＭＭを接続し、文ＨＭＭを構成する。励振源生成部４０５は、得られた文ＨＭＭから、さらにパラメータ生成アルゴリズムにより、励振源パラメータを生成する。また、ＨＭＭからのパラメータ生成部４０４は、スペクトルパラメータの列を生成する。さらに、合成フィルタ３０３が、合成音を生成する。

また、実音声波形と、パラメータとを組み合わせる方法としては、例えば特許文献３の方法がある。図３は、特許文献３の音声合成装置の構成を示す図である。

特許文献３の音声合成装置には音韻記号解析部１が設けられ、その出力は制御部２に接続されている。また、音声合成装置には個人情報ＤＢ１０が設けられ、制御部２と互いに接続されている。さらに、音声合成装置には自然音声素片チャンネル１２と合成音声素片チャンネル１１とが設けられている。自然音声素片チャンネル１２の内部には音声素片ＤＢ６と音声素片読み出し部５とが設けられている。合成音声素片チャンネル１１の内部にも同様に音声素片ＤＢ４と音声素片読み出し部３とが設けられている。音声素片読み出し部５は音声素片ＤＢ６と互いに接続されている。音声素片読み出し部３は音声素片ＤＢ４と互いに接続されている。音声素片読み出し部３と音声素片読み出し部５との出力は混合部７の二つの入力に接続されており、混合部７の出力は振幅制御部８に入力されている。振幅制御部８の出力は出力部９に入力されている。

制御部２からは各種の制御情報が出力される。制御情報には自然音声素片インデックス、合成音声素片ンデックス、混合制御情報および振幅制御情報が含まれる。まず、自然音声素片インデックスは自然音声素片チャンネル１２の音声素片読み出し部５に入力されている。合成音声素片インデックスは合成音声素片チャンネル１１の音声素片読み出し部３に入力されている。混合制御情報は混合部７に入力されている。そして、振幅制御情報は振幅制御部８に入力されている。

この方法では、予め作成しておいたパラメータによる合成素片と、収録された合成素片とを混合する方法として、自然音声素片と合成音声素片の双方をCV単位（日本語の１音節に対応する一対の子音と母音の組み合わせの単位）などで時間的に比率を変更しながら混合する。よって、自然音声素片を用いた場合と比較して記憶量を削減でき、かつ、少ない計算量で、合成音を得ることができる。
特開平１０−２４７０９７号公報（段落０００７、図１）特開２００２−２６８６６０号公報（段落０００８−００１１、図１）特開平９−６２２９５号公報（段落００３０−００３１、図１）

しかしながら、前記従来の波形接続型音声合成装置（特許文献１）の構成では、音声素片ＤＢ２０２に予め保持されている音声素片だけしか音声合成に利用することが出来ない。つまり、韻律生成部２０１により生成された韻律に類似した音声素片がない場合には、韻律生成部２０１により生成された韻律とは、大きく異なる音声素片を選択せざるを得ない。したがって、局所的に音質が劣化するという課題を有している。また、音声素片ＤＢ２０２が十分に大きく構築できない場合は、上記課題が顕著に生じるという課題を有している。

一方、前記従来の統計モデルによる音声合成装置（特許文献２）の構成では、予め収録された音声ＤＢ２０２により統計的に学習されたＨＭＭモデル（隠れマルコフモデル）を用いることにより、言語解析部１０１により出力される発音記号およびアクセント情報のコンテキストラベルに基づいて、統計的に合成パラメータを生成する。そのため、全ての音韻において安定した音質の合成音を得ることが可能である。しかし、一方で、ＨＭＭモデルによる統計的な学習を用いていることにより、個々の音声波形が保有する微細な特徴（韻律の微細な変動で合成音声の自然さに影響を及ぼすマイクロプロソディなど）が統計処理によって失われるために合成音声の肉声感は低下し、鈍った音声になるという課題を有している。

また、前記従来のパラメータ統合方法では、合成音声素片と自然音声素片の混合は、CV間の過渡期に時間的に用いていた為、全時間にわたる均一な品質を得ることが困難であり、時間的に音声の質が変化するという課題が存在する。

本発明は、前記従来の課題を解決するもので、高音質で且つ安定した音質の合成音を提供することを目的とする。

本発明に係る音声合成装置は、少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成する目標パラメータ生成部と、予め録音された音声を、前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースと、前記目標パラメータに対応する音声素片を前記音声素片データベースより選択する素片選択部と、音声素片ごとに、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するパラメータ群合成部と、合成された前記パラメータ群に基づいて、合成音波形を生成する波形生成部とを備えることを特徴とする。例えば、前記コスト算出部は、前記素片選択部により選択された音声素片の部分集合と、当該音声素片の部分集合に対応する前記目標パラメータの部分集合との非類似性を示すコストを算出するターゲットコスト判定部を有していてもよい。

本構成によって、目標パラメータ生成部により生成される音質の安定したパラメータと、前記素片選択部により選択される肉声感が高く音質の高い音声素片とを組み合わせることにより、高音質かつ安定した音質の合成音を生成することができる。

また、前記パラメータ群合成部は、前記目標パラメータ生成部により生成された目標パラメータを、少なくとも１つ以上の部分集合に分割することによって得られるパラメータパターンを少なくとも１つ以上生成する目標パラメータパターン生成部と、前記目標パラメータパターン生成部により生成された前記目標パラメータの部分集合ごとに、当該部分集合に対応する音声素片を前記音声素片データベースより選択する素片選択部と、前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合とに基づいて、当該音声素片の部分集合を選択することによるコストを算出するコスト算出部と、前記コスト算出部によるコスト値に基づいて、前記目標パラメータの部分集合の最適な組み合わせを、素片ごとに判定する組み合わせ判定部と、前記組み合わせ判定部により判定された組み合わせに基づいて、前記素片選択部により選択された前記音声素片の部分集合を統合することによりパラメータ群を合成するパラメータ統合部とを有していてもよい。

本構成によって、前記目標パラメータパターン生成部により生成される複数のパラメータの部分集合に基づいて、前記素片選択部により選択される肉声感が高く音質の高い音声素片のパラメータの部分集合を組み合わせ判定部により適切に組み合わせている。このため、高音質かつ安定した合成音を生成することができる。

本発明の音声合成装置によれば、実音声に基づく音声素片データベースから選択した音声素片のパラメータと、統計モデルに基づく安定した音質のパラメータとを適宜混合することにより、安定でかつ高音質の合成音を得ることができる。

以下本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図４は、本発明の実施の形態１における音声合成装置の構成図である。

本実施の形態の音声合成装置は、高音質と音質の安定性とを両立させた音声を合成する装置であって、言語解析部１０１と、目標パラメータ生成部１０２と、音声素片ＤＢ１０３と、素片選択部１０４と、コスト算出部１０５と、混合パラメータ判定部１０６と、パラメータ統合部１０７と、波形生成部１０８とを備えている。コスト算出部１０５は、ターゲットコスト判定部１０５ａと、連続性判定部１０５ｂとを備えている。

言語解析部１０１は、入力されたテキストを解析し、発音記号やアクセント情報を出力する。例えば、「今日の天気は」というテキストが入力された場合、「ｋｙｏ’−ｎｏ／ｔｅ’Ｎｋｉｗａ」といったような発音記号、およびアクセント情報を出力する。ここで、「’」はアクセント位置を示し、「／」はアクセント句境界を示す。

目標パラメータ生成部１０２は、言語解析部１０１により出力された発音記号やアクセント情報に基づいて、音声を合成するために必要なパラメータ群を生成する。パラメータ群を生成する方法は特に限定するものではない。例えば、特許文献２に示されているようにＨＭＭ（隠れマルコフモデル）を用いることにより、安定した音質のパラメータを生成することが可能である。

具体的には特許文献２に記載の方法を用いればよい。なおパラメータの生成方法はこれに限るものではない。

音声素片ＤＢ１０３は、予め収録した音声（自然音声）を分析し、再合成可能なパラメータ群として保持するデータベースである。また、保持する単位を素片と呼ぶ。素片の単位は特に限定するものではなく、音素、音節、モーラ、アクセント句などを用いればよい。本発明の実施の形態では、素片の単位として音素を用いて説明する。また、パラメータの種類は特に限定するものではないが、例えば、パワー、継続時間長、基本周波数といった音源情報と、ケプストラムなどの声道情報をパラメータ化し保持すればよい。１つの音声素片は、図５に示すように複数フレームのｋ次元のパラメータで表現される。図５では、素片Ｐ_iは、ｍフレームにより構成されており、各フレームはｋ個のパラメータにより構成される。このようにして構成されるパラメータにより音声を再合成することが可能となる。例えば、図中、Ｐ_i1＝（ｐ₁₁，ｐ₂₁，ｐ₃₁，…，ｐ_m1）と示されているのは、素片Ｐ_iにおける１番目のパラメータのｍフレームにわたる時間変化を示している。

素片選択部１０４は、目標パラメータ生成部１０２により生成された、目標パラメータに基づいて、音声素片ＤＢ１０３から、音声素片系列を選択する選択部である。

ターゲットコスト判定部１０５ａは目標パラメータ生成部１０２により生成された目標パラメータと、素片選択部１０４により選択された音声素片との類似度に基づくコストを、素片単位ごとに算出する。

連続性判定部１０５ｂは、素片選択部１０４により選択された音声素片のパラメータの一部を、目標パラメータ生成部１０２により生成された目標パラメータで置き換える。そして、音声素片を接続した場合に起こる歪み、つまりパラメータの連続性を算出する。

混合パラメータ判定部１０６は、ターゲットコスト判定部１０５ａと連続性判定部１０５ｂとにより算出されるコスト値に基づいて、音声合成時に使用するパラメータとして、音声素片ＤＢ１０３より選択したパラメータを用いるか、目標パラメータ生成部１０２により生成されたパラメータを用いるかを示す選択ベクトルを素片単位毎に決定する。混合パラメータ判定部１０６の動作は後で詳述する。

パラメータ統合部１０７は混合パラメータ判定部１０６により決定された選択ベクトルに基づいて、音声素片ＤＢ１０３より選択されたパラメータと目標パラメータ生成部１０２により生成されたパラメータとを統合する。

波形生成部１０８は、パラメータ統合部１０７により生成された合成パラメータに基づいて合成音を合成する。

上記のように構成した音声合成装置の動作について、次に詳述する。

図６は、音声合成装置の動作の流れを示すフローチャートである。言語解析部１０１は、入力されたテキストを言語的に解析し、発音記号およびアクセント記号を生成する（ステップＳ１０１）。目標パラメータ生成部１０２は、発音記号およびアクセント記号に基づいて、上述のＨＭＭ音声合成法により、再合成可能なパラメータ系列Ｔ＝ｔ₁，ｔ₂，・・・，ｔ_nを生成する（ｎは素片数）（ステップＳ１０２）。以後、この目標パラメータ生成部１０２により生成されたパラメータ系列を目標パラメータと呼ぶ。

素片選択部１０４は、生成された目標パラメータに基づいて、音声素片ＤＢ１０３から目標パラメータに最も近い音声素片系列Ｕ＝ｕ₁，ｕ₂，…，ｕ_nを選択する（ステップＳ１０３）。以降、選択された音声素片系列を実音声パラメータと呼ぶ。選択の方法は特に限定するものではないが、例えば、特許文献１に記載の方法により選択することが可能である。

混合パラメータ判定部１０６は、目標パラメータと実音声パラメータとを入力とし、パラメータの次元毎にどちらのパラメータを使用するかを示す選択ベクトル系列Ｃを決定する（ステップＳ１０４）。選択ベクトル系列Ｃは、式１に示すように素片ごとの選択ベクトルＣ_iからなる。選択ベクトルＣ_iは、ｉ番目の素片について、パラメータ次元毎に目標パラメータと実音声パラメータのどちらを使用するかを２値で示している。例えば、ｃ_ijが０の場合には、ｉ番目の素片のｊ番目のパラメータについては、目標パラメータを使用する。また、ｃ_ijが１の場合には、ｉ番目の素片のｊ番目のパラメータについては、音声素片ＤＢ１０３より選択された実音声パラメータを使用することを示している。

図７は、選択ベクトル系列Ｃによって、目標パラメータと、実音声パラメータとを切り分けた例である。図７には、実音声パラメータを使用する領域４２、４３および４４と、目標パラメータを使用する領域４１および４５とが示されている。例えば、１番目の素片Ｐ₁₁からＰ_k1に着目すると、１番目のパラメータについては、目標パラメータを使用し、２番目からｋ番目のパラメータについては、実音声パラメータを使用することが示されている。

この選択ベクトル系列Ｃを適切に決定することにより、目標パラメータによる安定した音質と、実音声パラメータによる肉声感の高い高音質とを両立する高音質且つ安定した合成音を生成することが可能になる。

次に選択ベクトル系列Ｃの決定方法（図６のステップＳ１０４）について説明する。混合パラメータ判定部１０６は、高音質で且つ安定し合成音を生成する為に、実音声パラメータが目標パラメータに類似している場合は、実音声パラメータを使用し、類似していない場合は目標パラメータを使用する。また、この時、目標パラメータとの類似度だけではなく、前後の素片との連続性を考慮する。これにより、パラメータの入替えによる不連続を軽減することが可能である。この条件を満たす選択ベクトル系列Ｃは、ビタビアルゴリズムを用いて探索する。

探索アルゴリズムを図８に示すフローチャートを用いて説明する。素片ｉ＝１，…，ｎに対して順次ステップＳ２０１からステップＳ２０５までの処理が繰り返される。

混合パラメータ判定部１０６は、対象となる素片に対して、選択ベクトルＣ_iの候補ｈ_iとして、ｐ個の候補ｈ_i,1，ｈ_i,2，…，ｈ_i,pを生成する（ステップＳ２０１）。生成する方法は特に限定するものではない。例えば、生成方法として、ｋ次元のそれぞれのパラメータに対しての全ての組み合わせを生成しても構わない。また、より効率的に候補の生成を行うために、図９に示すように、１つ前の選択ベクトルＣ_i-1との差分が所定の閾値以下になるような組み合わせのみを生成するようにしても構わない。また、最初の素片（ｉ＝１）に関しては、例えば、全て目標パラメータを使用するような候補を生成してもよいし（Ｃ₁＝（０，０，…，０））、逆に全て実音声パラメータを使用するような候補を生成するようにしてもよい（Ｃ₁＝（１，１，…，１））。

ターゲットコスト判定部１０５ａは、選択ベクトルＣ_iのｐ個の候補ｈ_i,1，ｈ_i,2，…，ｈ_i,pの各々について、目標パラメータ生成部１０２により生成された目標パラメータｔ_iと、素片選択部１０４により選択された音声素片ｕ_iとの類似度に基づくコストを、式２により計算する（ステップＳ２０２）。

ここで、ω₁,ω₂は、重みであり、ω₁＞ω₂とする。重みの決定方法は特に限定するものではないが、経験に基づき決定することが可能である。また、ｈ_i,j・ｕ_iは、は、ベクトルｈ_i,jとベクトルｕ_iの内積であり、実音声パラメータｕ_iのうち、選択ベクトル候補ｈ_i,jによって採用される部分パラメータ集合を示す。一方、（１−ｈ_i,j）・ｕ_iは、実音声パラメータｕ_iのうち、選択ベクトル候補ｈ_i,jによって採用されなかった部分パラメータ集合を示す。目標パラメータｔ_iについても同様である。関数Ｔｃは、パラメータ間の類似度に基づくコスト値を算出する。算出方法は特に限定するものではないが、例えば、各パラメータ次元間の差分の重み付け加算により算出することが可能である。例えば、類似度が大きくなるほどコスト値が小さくなるように関数Ｔｃが定められている。

繰り返すと、式２の１項目の関数Ｔｃの値は、選択候補ベクトルｈ_i,jによって採用された、実音声パラメータｕ_iの部分パラメータ集合および目標パラメータｔ_iの部分パラメータ集合同士の類似度に基づくコスト値を示す。式２の２項目の関数Ｔｃの値は、選択候補ベクトルｈ_i,jによって採用されなかった実音声パラメータｕ_iの部分パラメータ集合、および目標パラメータｔ_iの部分パラメータ集合同士の類似度に基づくコスト値を示している。式２はこれら２つのコスト値の重み付け和を示したものである。

連続性判定部１０５ｂは、選択ベクトル候補ｈ_i,jそれぞれについて、１つ前の選択ベクトル候補との連続性に基づくコストを式３を用いて評価する（ステップＳ２０３）。

ここで、ｈ_i,j・ｕ_i＋（１−ｈ_i,j）・ｕ_iは、選択ベクトル候補ｈ_i,jによって規定される目標パラメータ部分集合と、実音声パラメータ部分集合の組み合わせによって構成される素片ｉを形成するパラメータであり、ｈ_i-1,r・ｕ_i-1＋（１−ｈ_i-1,r）・ｕ_i-1は、１つ前の素片ｉ−１に対する選択ベクトル候補ｈ_i-1,rにより規定される素片ｉ−１を形成するパラメータである。

関数Ｃｃは、２つの素片パラメータの連続性に基づくコストを評価する関数である。すなわち、２つの素片パラメータの連続性がよい場合には、値が小さくなる関数である。算出方法は特に限定するものではないが、例えば、素片ｉ−１の最終フレームと素片ｉの先頭フレームにおける各パラメータ次元の差分値の重み付け和により計算すればよい。

混合パラメータ判定部１０６は、図１０に示すように、式４に基づいて選択ベクトル候補ｈ_i,jに対するコスト（Ｃ（ｈ_i,j））を算定し、同時に素片ｉ−１に対する選択ベクトル候補ｈ_i-1,rのうちどの選択ベクトル候補と接続すべきかを示す接続元（Ｂ（ｈ_i,j））を決定する（ステップＳ２０４）。なお、図１０では、接続元としてｈ_i-1,3が選択されている）。

ただし、

は、ｐを変化させたときに、括弧内の値が最小となる値を示し、

は、ｐを変化させたときに、括弧内の値が最小となるときのｐの値を示す。

混合パラメータ判定部１０６は、探索の空間を削減する為に、素片ｉにおける選択ベクトル候補ｈ_i,jをコスト値（Ｃ（ｈ_i,j））に基づいて削減する（ステップＳ２０５）。例えば、ビームサーチを用いて、最小コスト値から所定の閾値以上大きいコスト値を持つ選択ベクトル候補を削減するようにすればよい。または、コストの小さい候補から所定の個数の候補のみを残すようにすればよい。

なお、ステップＳ２０５の枝狩り処理は、計算量を削減する為の処理であり、計算量に問題がない場合は、この処理を省いても構わない。

以上のステップＳ２０１からステップＳ２０５までの処理を素片ｉ（ｉ＝１，…，ｎ）について繰り返す。混合パラメータ判定部１０６は、最終素片ｉ＝ｎの時の最小コストの選択候補

を選択し、接続元の情報を用いて順次バックトラックを

のように行い、式５を用いて選択ベクトル系列Ｃを求めることが可能になる。

このようにして得られた選択ベクトル系列Ｃを用いることにより、実音声パラメータが目標パラメータに類似している場合には、実音声パラメータを使用し、そうでない場合は、目標パラメータを用いることが可能となる。

パラメータ統合部１０７は、ステップＳ１０２で得られた目標パラメータ系列Ｔ＝ｔ₁，ｔ₂，…，ｔ_nとステップＳ１０３で得られた実音声パラメータ系列Ｕ＝ｕ₁，ｕ₂，…，ｕ_nと、ステップＳ１０４で得られた選択ベクトル系列Ｃ＝Ｃ₁，Ｃ₂，…，Ｃ_nを用いて、合成パラメータ系列Ｐ＝ｐ₁，ｐ₂，…，ｐ_nを式６を用いて生成する（ステップＳ１０５）。

波形生成部１０８は、ステップＳ１０５により生成された合成パラメータ系列Ｐ＝ｐ₁，ｐ₂，…，ｐ_nを用いて合成音を合成する（ステップＳ１０６）。合成方法は特に限定するものではない。目標パラメータ生成部が生成するパラメータにより決定される合成方法を用いればよく、例えば、特許文献２の励振源生成と合成フィルタとを用いて合成音を合成するように構成すればよい。

以上のように構成した音声合成装置によれば、目標パラメータを生成する目標パラメータ生成部と、目標パラメータに基づいて実音声パラメータを選択する素片選択部と、目標パラメータと実音声パラメータとの類似度に基づいて、目標パラメータおよび実音声パラメータを切替える選択ベクトル系列Ｃを生成する混合パラメータ判定部とを用いることにより、実音声パラメータが目標パラメータに類似している場合には、実音声パラメータを使用し、そうでない場合は、目標パラメータを用いることが可能となる。

以上のような構成によれば、目標パラメータ生成部１０２が生成するパラメータの形式と、音声素片ＤＢ１０３が保持する素片の形式とが同一である。そのため、図７に示すように、従来の波形接続型音声合成では目標パラメータとの類似度が低い場合（すなわち、目標パラメータに近い音声素片が音声素片ＤＢ１０３に保持されていない場合）でも、目標パラメータに部分的に近い音声素片を選択し、その音声素片のパラメータのうち、目標パラメータと類似していないパラメータについては、目標パラメータ自体を使用することにより、実音声パラメータを使用していたことによる局所的な音声品質の劣化を防止することが可能となる。

また、同時に、従来の統計モデルによる音声合成方式では、目標パラメータに類似した素片が存在する場合においても、統計モデルにより生成されるパラメータを用いていた為、肉声感が低下していたが、実音声パラメータを使用することにより（すなわち、目標パラメータに近い音声素片を選択し、その音声素片のパラメータのうち、目標パラメータと類似するパラメータについては、音声素片のパラメータ自体を使用することにより）、肉声感が低下することなく、肉声感が高く高音質な合成音を得ることが可能となる。したがって、目標パラメータによる安定した音質と、実音声パラメータによる肉声感の高い高音質とを両立させた合成音を生成することが可能となる。

なお、本実施の形態において、選択ベクトルＣ_iはパラメータのそれぞれの次元毎に設定するように構成したが、図１１に示すように全ての次元において同じ値とすることにより、素片ｉについて、目標パラメータを使用するか、実音声パラメータを使用するかを選択するように構成しても良い。図１１には、実音声パラメータを使用する素片の領域６０１および６０３と、目標パラメータを使用する素片の領域６０２および６０４とが一例として示されている。

１つの声質（例えば読上げ調）だけではなく、「怒り」「喜び」等といった多数の声質の合成音を生成する場合には、本発明は非常に効果的である。

なぜならば、多種多様な声質の音声データをそれぞれ十分な分量用意することは、非常にコストが掛かることから、困難である。

上記の説明ではＨＭＭモデルと音声素片とは特に限定していなかったが、ＨＭＭモデルと音声素片とを次のように構成することにより、多数の声質の合成音を生成することが可能となる。すなわち、図１２に示すように、目標パラメータ生成部１０２の他に目標パラメータを生成する為に文章ＨＭＭ作成部３０２を用意し、文章ＨＭＭ作成部３０２が参照するＨＭＭモデル３０１を標準音声ＤＢとして、通常の読み上げ音声ＤＢ１１０１により作成しておく。更に、文章ＨＭＭ作成部３０２が、「怒り」「喜び」等の感情音声ＤＢ１１０２により、当該感情を前記ＨＭＭモデル３０１に適応させる。なお、文章ＨＭＭ作成部３０２は、特殊な感情を有する音声の統計モデルを作成する統計モデル作成手段に対応する。

これにより、目標パラメータ生成部１０２は、感情を有する目標パラメータを生成することができる。適応させる方法は特に限定するものではなく、例えば、橘誠、外４名、”ＨＭＭ音声合成におけるモデル補間・適応による発話スタイルの多様性の検討”、信学技報ＴＥＣＨＮＩＣＡＬＲＥＰＯＲＴＯＦＩＥＩＣＥＳＰ２００３−８０（２００３−０８）に記載の方法により適応することが可能である。また、一方で、素片選択部１０４が選択する音声素片ＤＢとして前記感情音声ＤＢ１１０２を用いる。

このように構成することによって、感情音声ＤＢ１１０２により適応されたＨＭＭ３０１を用いて安定した音質で、指定された感情の合成パラメータを生成でき、且つ、素片選択部１０４により感情音声ＤＢ１１０２から、感情音声素片を選択する。混合パラメータ判定部１０６により、ＨＭＭにより生成されたパラメータと、感情音声ＤＢ１１０２から選択されたパラメータとの混合を判定し、パラメータ統合部１０７により統合する。

従来の波形重畳型の感情を表現する音声合成装置は、十分な音声素片ＤＢを用意しなければ、高音質な合成音を生成することが困難であった。また、従来のＨＭＭ音声合成では、モデル適応は可能であるが、統計処理であるので合成音になまり（肉声感の低下）が生じるという問題があった。しかし、上記のように感情音声ＤＢ１１０２をＨＭＭモデルの適用データおよび音声素片ＤＢとして構成することにより、適応モデルにより生成される目標パラメータによる安定した音質と、感情音声ＤＢ１１０２から選択される実音声パラメータによる高品質で肉声感の高い音質とを両立した合成音声を生成することが可能なる。つまり、目標パラメータに類似した実音声パラメータが選択できた場合には、従来は、統計モデルにより生成される肉声感が低いパラメータを使用していたのに対して、実音声パラメータを使用することにより、肉声感が高く、且つ自然な感情を含む音質を実現できる。一方、目標パラメータとの類似度が低い実音声パラメータが選択された場合には、従来の波形接続型音声合成方式では、局所的に音質が劣化していたのに対し、目標パラメータを使用することにより、局所的な劣化を防ぐことが可能となる。

したがって、本発明によれば、複数の声質の合成音を作成したい場合においても、それぞれの声質で大量の音声を収録することなく、かつ、統計モデルにより生成される合成音よりも肉声感の高い合成音を生成することが可能となる。

また、感情音声ＤＢ１１０２の変わりに、特定の人物による音声ＤＢを用いることにより、特定の個人に適応した合成音を同様に生成することが可能である。

（実施の形態２）
図１３は、本発明の実施の形態２の音声合成装置の構成図である。図１３において、図４と同じ構成要素については同じ符号を用い、説明を省略する。

図１３において、目標パラメータパターン生成部８０１は、目標パラメータ生成部１０２で生成された目標パラメータに基づいて、後述する目標パラメータパターンを生成する処理部である。

音声素片ＤＢ１０３Ａ１〜１０３Ｃ２は、音声素片ＤＢ１０３の部分集合であり、目標パラメータパターン生成部８０１により生成された目標パラメータパターンそれぞれに対応したパラメータを格納する音声素片ＤＢである。

素片選択部１０４Ａ１〜１０４Ｃ２は、目標パラメータパターン生成部８０１により生成された目標パラメータパターンに最も類似した素片を音声素片ＤＢ１０３Ａ１〜１０３Ｃ２からそれぞれ選択する処理部である。

以上のように音声合成装置を構成することにより、パラメータパターンごとに選択した音声素片のパラメータの部分集合を組み合わせることができる。これにより、単一の素片に基づいて選択した場合と比較して、目標パラメータにより類似した実音声に基づくパラメータを生成することが可能となる。

以下に、本発明の実施の形態２の音声合成装置の動作について図１４のフローチャートを用いて説明する。

言語解析部１０１は、入力されたテキストを言語的に解析し、発音記号およびアクセント記号を生成する（ステップＳ１０１）。目標パラメータ生成部１０２は、発音記号およびアクセント記号に基づいて、上述のＨＭＭ音声合成法により、再合成可能なパラメータ系列Ｔ＝ｔ₁，ｔ₂，・・・，ｔ_nを生成する（ステップＳ１０２）。このパラメータ系列を目標パラメータと呼ぶ。

目標パラメータパターン生成部８０１は、目標パラメータを図１５に示すようなパラメータの部分集合に分割する（ステップＳ３０１）。分割の方法は特に限定するものではないが、例えば以下のように分割することが可能である。なお、これらの分け方は一例であり、これらに限定されるものではない。

・音源情報と声道情報
・基本周波数とスペクトル情報と揺らぎ情報
・基本周波数と音源スペクトル情報と声道スペクトル情報と音源揺らぎ情報

このようにして分割したパラメータパターンを複数用意する（図１５のパターンＡ、パターンＢ、パターンＣ）。図１５では、パターンＡを、パターンＡ１，Ａ２およびＡ３の３つの部分集合に分割している。また、同様にパターンＢを、パターンＢ１およびＢ２の２つの部分集合に分割しており、パターンＣを、パターンＣ１およびＣ２の２つの部分集合に分割している。

次に、素片選択部１０４Ａ１〜１０４Ｃ２は、ステップＳ３０１で生成された複数のパラメータパターンのそれぞれについて、素片選択を行なう（ステップＳ１０３）。

ステップＳ１０３では、素片選択部１０４Ａ１〜１０４Ｃ２は、目標パラメータパターン生成部８０１によって生成されたパターンの部分集合（パターンＡ１、Ａ２、…、Ｃ２）毎に最適な音声素片を音声素片ＤＢ１０３Ａ１〜１０３Ｃ２から選択し、素片候補集合列Ｕを作成する。各素片候補ｕ_iの選択の方法は、上記実施の形態１と同じ方法でよい。

図１３では、素片選択部および音声素片ＤＢは複数用意されているが、物理的に用意する必要はなく、実施の形態１の音声素片ＤＢおよび素片選択部を複数回使用するように設計しても良い。

組み合わせ判定部８０２は、それぞれの素片選択部（Ａ１，Ａ２，・・・，Ｃ２）により選択された実音声パラメータの組み合わせベクトル系列Ｓを決定する（ステップＳ３０２）。組み合わせベクトル系列Ｓは式８のように定義する。

組み合わせベクトルの決定方法（ステップＳ３０２）について図１６を用いて詳しく説明する。探索アルゴリズムを図１６のフローチャートを用いて説明する。素片ｉ（ｉ＝１，…，ｎ）に対して、ステップＳ４０１からステップＳ４０５の処理が順次繰り返される。

組み合わせ判定部８０２は、対象となる素片に対して、組み合わせベクトルＳ_iの候補ｈ_iとして、ｐ個の候補ｈ_i,1，ｈ_i,2，…，ｈ_i,pを生成する（ステップＳ４０１）。生成する方法は特に限定するものではない。例えば図１７Ａ（ａ）および図１７Ｂ（ａ）に示すように、ある一つのパターンに含まれる部分集合のみを生成しても良い。また、図１７Ａ（ｂ）および図１７Ｂ（ｂ）に示すように、複数のパターンに属する部分集合をパラメータ同士（９０７と９０８）で、重なりが生じないように生成しても良い。また、図１７Ａ（ｃ）および図１７Ｂ（ｃ）のパラメータ９０９に示すように、複数のパターンに属する部分集合をパラメータ同士で一部重なりが生じるように生成しても良い。この場合は、重なりが生じたパラメータに関しては、それぞれのパラメータの重心点を用いるようにする。また、図１７Ａ（ｄ）および図１７Ｂ（ｄ）のパラメータ９１０に示すように、複数のパターンに属する部分集合をパラメータ同士を組み合わせた時に、一部パラメータが欠落した状態になるように生成しても良い。この場合は、欠落したパラメータに関しては、目標パラメータ生成部によって生成された目標パラメータで代用する。

ターゲットコスト判定部１０５ａは、選択ベクトルＳ_iの候補ｈ_i,1，ｈ_i,2，…，ｈ_i,pと、素片ｉの目標パラメータｔ_iとの類似度に基づくコストを式９により計算する（ステップＳ４０２）。

ここで、ω₁は、重みである。重みの決定方法は特に限定するものではないが、経験に基づき決定することが可能である。また、ｈ_i、_j・Ｕ_iは、ベクトルｈ_i,jとベクトルＵ_iの内積であり、組み合わせベクトルｈ_i、_jによって決定される各素片候補の部分集合を示す。関数Ｔｃは、パラメータ間の類似度に基づくコスト値を算出する。算出方法は特に限定するものではないが、例えば、各パラメータ次元間の差分の重み付け加算により算出することが可能である。

連続性判定部１０５ｂは、選択ベクトル候補ｈ_i、_jそれぞれについて、1つ前の選択ベクトル候補との連続性に基づくコストを式１０を用いて評価する（ステップＳ４０３）。

関数Ｃｃは、２つの素片パラメータの連続性に基づくコストを評価する関数である。算出方法は特に限定するものではないが、例えば、素片ｉ−１の最終フレームと素片ｉの先頭フレームにおける各パラメータ次元の差分値の重み付け和により計算すればよい。

組み合わせ判定部８０２は、選択ベクトル候補ｈ_i、_jに対するコスト（Ｃ（ｈ_i、_j））を算定し、同時に素片ｉ−１に対する選択ベクトル候補ｈ_i-1、_rのうちどの選択ベクトル候補と接続すべきかを示す接続元（Ｂ（ｈ_i、_j））を式１１に基づいて決定する（ステップＳ４０４）。

組み合わせ判定部８０２は、探索の空間を削減する為に、素片ｉにおける選択ベクトル候補ｈ_i、_jをコスト値（Ｃ（ｈ_i、_j））に基づいて削減する（ステップＳ４０５）。例えば、ビームサーチを用いて、最小コスト値から所定の閾値以上大きいコスト値を持つ選択ベクトル候補を削減するようにすればよい。または、コストの小さい候補から所定の個数の候補のみを残すようにすればよい。

なお、ステップＳ４０５の枝狩り処理は、計算量を削減する為のステップであり、計算量に問題がない場合は、処理を省いても構わない。

以上のステップＳ４０１からステップＳ４０５までの処理を素片ｉ（ｉ＝１，…，ｎ）について繰り返す。組み合わせ判定部８０２は、最終素片ｉ＝ｎの時の最小コストの選択候補

を選択する。以降は、接続元の情報を用いて順次バックトラックを

のように行い、式１２により組み合わせベクトル系列Ｓを求めることが可能になる。

パラメータ統合部１０７は、組み合わせ判定部８０２により決定された組み合わせベクトルに基づいて、各素片選択部（Ａ１，Ａ２，・・・，Ｃ２）により選択された素片のパラメータを式１３を用いて統合する（ステップＳ１０５）。図１８は、統合の例を示す図である。この例では、素片１の組み合わせベクトルＳ₁＝（Ａ₁，０，０，０，０，０，Ｃ₂）であり、パターンＡによるＡ１と、パターンＣによるＣ２の組み合わせが選択されている。これにより、パターンＡ１により選択された素片１５０１と、パターンＣ２により選択された素片１５０２を組み合わせて素片１のパラメータとしている。以下、Ｓ₂，…，Ｓ_nまで繰り返すことにより、パラメータ系列を得ることが可能である。

波形生成部１０８は、パラメータ統合部１０７により生成された合成パラメータに基づいて合成音を合成する（ステップＳ１０６）。合成方法は特に限定するものではない。

以上のように構成した音声合成装置によれば、目標パラメータ生成部が生成する目標パラメータに近いパラメータ系列を、複数の実音声素片の部分集合である実音声パラメータを組み合わせる。これによって、図１８に示すように、従来の波形接続型音声合成方式では目標パラメータとの類似度が低い実音声パラメータが選択された場合には、局所的に音質が劣化していたの対し、目標パラメータとの類似度が低い場合には、複数のパラメータ集合ごとに選択された複数の実音声素片の実音声パラメータを組み合わせることにより、目標パラメータに類似した実音声パラメータを合成することが可能となる。これにより安定して目標パラメータに近い素片を選択することが可能となり、かつ実音声素片を用いている為、高音質となる。つまり、高音質と安定性の双方を両立させた合成音を生成することが可能となる。

特に、素片ＤＢが十分に大きくない場合においても、音質と安定性を両立した合成音を得ることが可能となる。なお、本実施の形態において、１つの声質（例えば読上げ調）だけではなく、「怒り」「喜び」等といった多数の声質の合成音を生成する場合には、図１２に示すように、目標パラメータ生成部１０２が目標パラメータを生成する為に文章ＨＭＭ作成部３０２を用意し、文章ＨＭＭ作成部３０２が参照するＨＭＭモデルを標準音声ＤＢとして、通常の読み上げ音声ＤＢ１１０１により作成しておく。更に、「怒り」「喜び」等の感情音声ＤＢ１１０２により、前記ＨＭＭモデル３０１を適応する。適応する方法は特に限定するものではなく、例えば、「橘誠外４名、”ＨＭＭ音声合成におけるモデル補間・適応による発話スタイルの多様性の検討”、信学技報ＴＥＣＨＮＩＣＡＬＲＥＰＯＲＴＯＦＩＥＩＣＥＳＰ２００３−８０（２００３−０８）」に記載の方法により適応することが可能である。また、一方で、素片選択部１０４が選択する音声素片ＤＢとして前記感情音声ＤＢ１１０２を用いる。

このように構成することによって、感情音声ＤＢ１１０２により適応されたＨＭＭ３０１を用いて安定した音質で、指定された感情の合成パラメータを生成でき、且つ、素片選択部１０４により感情音声ＤＢ１１０２から、感情音声素片を選択する。混合パラメータ判定部により、ＨＭＭにより生成されたパラメータと、感情音声ＤＢ１１０２から選択されたパラメータとの混合を判定し、パラメータ統合部１０７により統合する。これにより、従来の感情を表現する音声合成装置は、十分な音声素片DBを用意しなければ、高音質な合成音を生成することが困難であったのに対し、感情音声ＤＢ１１０２を音声素片DBとして用いた場合においても、複数のパラメータ集合ごとに選択された複数の実音声素片の実音声パラメータを組み合わせる。これにより目標パラメータに類似した実音声パラメータに基づくパラメータにより高品質な音質とを両立した合成音声を生成することが可能なる。

また、感情音声ＤＢ１１０２の変わりに、別人による音声ＤＢを用いることにより、個人に適応した合成音を同様に生成することが可能である。

また、言語解析部１０１は必ずしも必須の構成要件ではなく、言語解析された結果である発音記号やアクセント情報等が音声合成装置に入力されるような構成であっても構わない。

なお、本実施の形態１および２に示した音声合成装置をＬＳＩ（集積回路）で実現することも可能である。

例えば、実施の形態１に係る音声合成装置をＬＳＩ（集積回路）で実現すると、言語解析部１０１、目標パラメータ生成部１０２、素片選択部１０４、コスト算出部１０５、混合パラメータ判定部１０６、パラメータ統合部１０７、波形生成部１０８のすべてを１つのＬＳＩで実現することができる。または、各処理部を１つのＬＳＩで実現することもできる。さらに、各処理部を複数のＬＳＩで構成することもできる。音声素片ＤＢ１０３は、ＬＳＩの外部の記憶装置により実現してもよいし、ＬＳＩの内部に備えられたメモリにより実現してもよい。ＬＤＩの外部の記憶装置により音声素片ＤＢ１０３を実現する場合には、インターネット経由で音声素片ＤＢ１０３に記憶されている音声素片を取得しても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限られるものではなく、専用回路または汎用プロセサにより実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

また、本実施の形態１および２に示した音声合成装置をコンピュータで実現することも可能である。図１９は、コンピュータの構成の一例を示す図である。コンピュータ１２００は、入力部１２０２と、メモリ１２０４と、ＣＰＵ１２０６と、記憶部１２０８と、出力部１２１０とを備えている。入力部１２０２は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信Ｉ／Ｆ部等から構成される。メモリ１２０４は、プログラムやデータを一時的に保持する記憶装置である。ＣＰＵ１２０６は、プログラムを実行する処理部である。記憶部１２０８は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部１２１０は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。

例えば、実施の形態１に係る音声合成装置をコンピュータ１２００で実現した場合には、言語解析部１０１、目標パラメータ生成部１０２、素片選択部１０４、コスト算出部１０５、混合パラメータ判定部１０６、パラメータ統合部１０７、波形生成部１０８は、ＣＰＵ１２０６上で実行されるプログラムに対応し、音声素片ＤＢ１０３は、記憶部１２０８に記憶される。また、ＣＰＵ１２０６で計算された結果は、メモリ１２０４や記憶部１２０８に一旦記憶される。メモリ１２０４や記憶部１２０８は、言語解析部１０１等の各処理部とのデータの受け渡しに利用されてもよい。また、音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ１２００のＣＰＵ１２０６に読み込まれてもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明にかかる音声合成装置は、実音声による高音質の特徴と、モデルベース合成の安定性を有し、カーナビゲーションシステムや、ディジタル家電のインタフェース等として有用である。また、音声ＤＢを用いてモデル適応を行うことにより声質を変更が可能な音声合成装置等の用途にも応用できる。

図１は、従来の波形接続型音声合成装置の構成図である。図２は、従来の統計モデルに基づく音声合成装置の構成図である。図３は、従来のパラメータ統合方法の構成図である。図４は、本発明の実施の形態１における音声合成装置の構成図である。図５は、音声素片の説明図である。図６は、本発明の実施の形態１のフローチャートである。図７は、パラメータ混合結果の説明図である。図８は、混合パラメータ判定部のフローチャートである。図９は、組み合わせベクトル候補生成の説明図である。図１０は、ビタビアルゴリズムの説明図である。図１１は、混合ベクトルをスカラー値にした場合のパラメータ混合結果を示す図である。図１２は、声質変換を行う場合の説明図である。図１３は、本発明の実施の形態２における音声合成装置の構成図である。図１４は、本発明の実施の形態２のフローチャートである。図１５は、目標パラメータパターン生成部の説明図である。図１６は、組み合わせベクトル判定部のフローチャートである。図１７Ａは、選択ベクトル候補生成の説明図である。図１７Ｂは、選択ベクトル候補生成の説明図である。図１８は、組み合わせ結果の説明図である。図１９は、コンピュータの構成の一例を示す図である。

符号の説明

１音韻記号列解析部
２制御部
３音声素片読み出し部
４音声素片ＤＢ
５音声素片読み出し部
６音声素片ＤＢ
７混合部
８振幅制御部
９出力部
１０個人情報ＤＢ
１１合成音声素片チャンネル
１２自然音清素片チャンネル
４１目標パラメータを使用する領域
４２実音声パラメータを使用する領域
４３実音声パラメータを使用する領域
４４実音声パラメータを使用する領域
４５目標パラメータを使用する領域
１００学習部
２００音声合成部
１０１言語解析部
１０２目標パラメータ生成部
１０３音声素片ＤＢ
１０４素片選択部
１０５コスト算出部
１０５ａターゲットコスト判定部
１０５ｂ連続性コスト判定部
１０６混合パラメータ判定部
１０７パラメータ統合部
１０８波形生成部
２０１韻律生成部
２０２音声素片ＤＢ
２０３波形接続部
３０１コンテキスト依存ＨＭＭファイル
３０２文章ＨＭＭ作成部
３０３合成フィルタ
４０１励振源スペクトルパラメータ抽出部
４０２スペクトルパラメータ抽出部
４０３ＨＭＭの学習部
４０４ＨＭＭからのパラメータ生成部
４０５励振源生成部
６０１実音声パラメータを使用する素片の領域
６０２目標パラメータを使用する素片の領域
６０３実音声パラメータを使用する素片の領域
６０４目標パラメータを使用する素片の領域
８０１目標パラメータパターン生成部
８０２組み合わせ判定部
１１０１標準音声ＤＢ
１１０２感情音声ＤＢ
１５０１パターンＡ１により選択された素片
１５０２パターンＣ２により選択された素片

Claims

少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成する目標パラメータ生成部と、
予め録音された音声を、前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースと、
前記目標パラメータに類似するパラメータ群を有する音声素片を前記音声素片データベースより選択する素片選択部と、
素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するパラメータ群合成部と、
合成された前記パラメータ群に基づいて、合成音波形を生成する波形生成部とを備える
ことを特徴とする音声合成装置。
前記パラメータ群合成部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合とに基づいて、前記目標パラメータと前記音声素片との非類似性を示すコストを算出するコスト算出部と、
前記コスト算出部により算出されたコストに基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータと前記音声素片との最適なパラメータの組み合わせを、素片単位で判定する混合パラメータ判定部と、
前記混合パラメータ判定部により判定された組み合わせに基づいて、前記目標パラメータと前記音声素片とを統合することによりパラメータ群を合成するパラメータ統合部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
前記コスト算出部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合との非類似性を示すコストを算出するターゲットコスト判定部を有する
ことを特徴とする請求項２に記載の音声合成装置。
前記コスト算出部は、さらに、
前記素片選択部により選択された音声素片の部分集合を当該音声素片の部分集合に対応する前記目標パラメータの部分集合に置き換えた音声素片に基づいて、時間的に連続する音声素片同士の不連続性を示すコストを算出する連続性判定部を有し、
前記混合パラメータ判定部は、前記ターゲットコスト判定部で算出された前記非類似性を示すコストと前記連続性判定部で算出された前記不連続性を示すコストとの和が最小となるような前記目標パラメータと前記音声素片との最適なパラメータの組み合わせを、ビタビアルゴリズムを用いて求める
ことを特徴とする請求項３に記載の音声合成装置。
前記音声素片データベースは、
標準的な感情を有する音声素片を記憶している標準音声データベースと、
特殊な感情を有する音声素片を記憶している感情音声データベースとを有し、
前記音声合成装置は、さらに、前記標準的な感情を有する音声素片および前記特殊な感情を有する音声素片に基づいて、特殊な感情を有する音声の統計モデルを作成する統計モデル作成手段を備え、
前記目標パラメータ生成部は、前記特殊な感情を有する音声の統計モデルに基づいて、目標パラメータを素片単位で生成し、
前記素片選択部は、前記目標パラメータに類似するパラメータ群を有する音声素片を前記感情音声データベースより選択する
ことを特徴とする請求項１に記載の音声合成装置。
前記音声合成装置は、さらに、前記目標パラメータ生成部により生成された目標パラメータを、少なくとも１つ以上の部分集合に分割することによって得られるパラメータパターンを少なくとも１つ以上生成する目標パラメータパターン生成部を備え、
前記素片選択部は、前記目標パラメータパターン生成部により生成された前記目標パラメータの部分集合ごとに、当該部分集合に類似するパラメータ群を有する音声素片を前記音声素片データベースより選択し、
前記パラメータ群合成部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合とに基づいて、前記目標パラメータと前記音声素片との非類似性を示すコストを算出するコスト算出部と、
前記コスト算出部により算出されたコストに基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータの部分集合の最適な組み合わせを、素片ごとに判定する組み合わせ判定部と、
前記組み合わせ判定部により判定された組み合わせに基づいて、前記素片選択部により選択された前記音声素片の部分集合を統合することによりパラメータ群を合成するパラメータ統合部とを有する
ことを特徴とする請求項１に記載の音声合成装置。
前記組み合わせ判定部は、前記音声素片の部分集合を組み合わせる際に、部分集合同士に重なりが生じる場合には、重なりが生じたパラメータに関しては平均値を当該パラメータの値として、最適な組み合わせを判定する
ことを特徴とする請求項６に記載の音声合成装置。
前記組み合わせ判定部は、前記音声素片の部分集合を組み合わせる際に、パラメータの欠落が生じる場合には、欠落したパラメータを目標パラメータにより代用して、最適な組み合わせを判定する
ことを特徴とする請求項６に記載の音声合成装置。
目標パラメータ生成部と、素片選択部と、パラメータ群合成部と、波形生成部とを備える音声合成装置による音声合成方法であって、
目標パラメータ生成部が、少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成するステップと、
素片選択部が、前記目標パラメータに類似するパラメータ群を有する音声素片を、予め録音された音声を前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースより選択するステップと、
パラメータ群合成部が、素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するステップと、
波形生成部が、合成された前記パラメータ群に基づいて、合成音波形を生成するステップとを含む
ことを特徴とする音声合成方法。
少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成するステップと、
前記目標パラメータに類似するパラメータ群を有する音声素片を、予め録音された音声を前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースより選択するステップと、
素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するステップと、
合成された前記パラメータ群に基づいて、合成音波形を生成するステップとをコンピュータに実行させる
ことを特徴とするプログラム。