JP2013117638A

JP2013117638A - 音声合成装置および音声合成プログラム

Info

Publication number: JP2013117638A
Application number: JP2011265125A
Authority: JP
Inventors: Hiroyuki Segi; 寛之世木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2013-06-13

Abstract

【課題】自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供する。
【解決手段】音声合成装置１は、入力文を解析して音素ごとに分割する入力文解析手段３０と、音素ごとに音声データの候補を列挙する音声データ候補列挙手段４０と、音声データの候補の中から音響特徴量の差分の積算値が最小となる組み合わせを探索し、入力文に対応した音声データの組み合わせを決定する音声データ決定手段５０と、入力文に対応する音響モデルの列を列挙する統計モデル列挙手段と、統計モデルを音声データの音響特徴量によって置き換えて統計モデルを修正する統計モデル修正手段６０と、修正された統計モデルの列を平滑化して入力文に対応した音響特徴量の列として出力する音響特徴量列生成手段７０と、生成された音響特徴量の列を音声波形に変換する音声波形変換手段８０と、を備える。
【選択図】図１

Description

本発明は、統計モデルを用いて入力文に対応した音声を合成する音声合成装置および音声合成プログラムに関する。

従来、統計モデルの一つである隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いた音声合成方法として、例えば特許文献１で提案されているような手法が利用されていた。特許文献１で提案された音声合成方法は、事前に音声データから隠れマルコフモデル（以下、ＨＭＭという）を作成しておき、音声合成時には、入力文（入力テキスト）に対応するＨＭＭを用いることにより音響特徴量の列を生成し、当該音響特徴量の列を音声波形に変換して音声合成するという仕組みである。

特開２００２−２６８６６０号公報

しかしながら、特許文献１で提案された音声合成方法は、例えば「あ」の音素のＨＭＭを作成する際に、「あ」に該当する全ての音響特徴量の統計量を計算することによって音響特徴量が平均化されてしまうため、平坦で肉声感のない合成音しか得ることができなかった。

すなわち、特許文献１で提案された音声合成方法は、例えば前後の接続関係がそれぞれ異なる「あいうえお」、「いうあえお」における「あ」の音響特徴量をそれぞれ算出し、両者を平均化したものを「あ」の音素のＨＭＭとしていた。従って、特許文献１で提案された音声合成方法は、音声データとしては安定している一方で、前記したように平均的な肉声感のない音声しか合成することができなかった。

本発明はかかる点に鑑みてなされたものであって、自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供することを課題とする。

前記課題を解決するために請求項１に係る音声合成装置は、予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成する音声合成装置であって、入力文解析手段と、音声データ候補列挙手段と、音声データ決定手段と、統計モデル列挙手段と、統計モデル修正手段と、音響特徴量列生成手段と、音声波形変換手段と、を備える構成とした。

このような構成を備える音声合成装置は、入力文解析手段によって、入力文を解析し、統計モデルの単位である音素ごとに分割する。また、音声合成装置は、音声データ候補列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する音声データの候補を列挙する。また、音声合成装置は、音声データ決定手段によって、音声データ候補列挙手段により列挙された音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定する。また、音声合成装置は、統計モデル列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する統計モデルを列挙する。また、音声合成装置は、統計モデル修正手段によって、統計モデル列挙手段により列挙された統計モデルを、音声データ決定手段により決定された音声データの組み合わせから抽出した音響特徴量で置き換えることで修正する。また、音声合成装置は、音響特徴量列生成手段によって、統計モデル修正手段により修正された統計モデルの列を平滑化し、入力文に対応する音響特徴量の列として出力する。また、音声合成装置は、音声波形変換手段によって、音響特徴量列生成手段によって生成された音響特徴量の列を音声波形に変換する。

このように、音声合成装置は、音声データ候補列挙手段によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成装置は、統計モデル修正手段によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。

また、請求項２に係る音声合成装置は、請求項１に係る音声合成装置において、統計モデル修正手段が、音声データ決定手段によって決定された音声データの長さと、統計モデル列挙手段によって列挙された統計モデルによってモデル化された音素の長さとが異なる場合において、音声データの前後に位置する音声データによって当該音声データの長さを補間するか、音声データの一部を間引く、もしくは平均化することで、音声データの長さが統計モデルによってモデル化された音素の長さと一致するように調整し、統計モデルを調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正する構成とした。

また、請求項３に係る音声合成装置は、請求項１または請求項２に係る音声合成装置において、韻律目標推定手段をさらに備える構成とした。

このような構成を備える音声合成装置は、韻律目標推定手段によって、予め定められた韻律モデルに従って、入力文における韻律の目標値を推定する。そして、音声合成装置は、音声データ決定手段によって、音声データの候補の中から、当該音声データの音響特徴量の差分の積算値と、韻律目標手段により推定された韻律の目標値との差分と、を合計した値が最小となる組み合わせを探索することで、入力文に対応した音声データの組み合わせを決定する。

このように、音声合成装置は、音声データ決定手段によって入力文に対応する音声データの組み合わせを決定する際に、音声データの音響特徴量の差分の積算値と韻律の目標値との差分、すなわち韻律の距離との合計値が最小のもの探索することで、実際の音声により近い音声データの組み合わせを探索することができる。

前記課題を解決するために請求項４に係る音声合成プログラムは、予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成するために、コンピュータを、入力文解析手段、音声データ候補列挙手段、音声データ決定手段、統計モデル列挙手段、統計モデル修正手段、音響特徴量列生成手段、音声波形変換手段、として機能させることとした。

このような構成を備える音声合成プログラムは、入力文解析手段によって、入力文を解析し、統計モデルの単位である音素ごとに分割する。また、音声合成プログラムは、音声データ候補列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する音声データの候補を列挙する。また、音声合成プログラムは、音声データ決定手段によって、音声データ候補列挙手段により列挙された音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定する。また、音声合成プログラムは、統計モデル列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する統計モデルを列挙する。また、音声合成プログラムは、統計モデル修正手段によって、統計モデル列挙手段により列挙された統計モデルを、音声データ決定手段により決定された音声データの組み合わせから抽出した音響特徴量で置き換えることで修正する。また、音声合成プログラムは、音響特徴量列生成手段によって、統計モデル修正手段により修正された統計モデルの列を平滑化し、入力文に対応する音響特徴量の列として出力する。また、音声合成プログラムは、音声波形変換手段によって、音響特徴量列生成手段によって生成された音響特徴量の列を音声波形に変換する。

このように、音声合成プログラムは、音声データ候補列挙手段によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成プログラムは、統計モデル修正手段によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。

請求項１および請求項４に係る発明によれば、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うため、自然で肉声感のある音声を合成することができる。

請求項２に係る発明によれば、音声データ決定手段によって決定された音声データの長さと、統計モデル列挙手段によって列挙された統計モデルによってモデル化された音素の長さとが異なる場合であっても、音声データの長さを調整することができるため、より自然で肉声感のある音声を合成することができる。

請求項３に係る発明によれば、音響特徴量の距離のみならず韻律の距離も加味して音声データの組み合わせを決定するため、韻律の目標値にも近似した、より自然で肉声感のある音声を合成することができる。

本発明の第１実施形態に係る音声合成装置の全体構成を示すブロック図である。本発明に係る音声合成装置の入力文解析手段における処理を説明するための概略図であって、入力文の解析結果の一例を示す概略図である。本発明に係る音声合成装置の音声データ候補列挙手段における処理を説明するための概略図であって、（ａ）は、音声データのクラスタリング情報の一例を示す概略図、（ｂ）は、クラスタリング情報におけるクラスタ木の分岐条件の一例を示す概略図、である。本発明に係る音声合成装置の組み合わせ決定手段における処理を説明するための概略図であって、特徴量距離が最小の音声データの組み合わせを決定する場合の一例を示す概略図である。本発明の第１実施形態に係る音声合成装置の動作を示すフローチャートである。本発明の第２実施形態に係る音声合成装置の全体構成を示すブロック図である。

本発明の実施形態に係る音声合成装置および音声合成プログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。

［第１実施形態］
以下、本発明の第１実施形態に係る音声合成装置１について、図１〜図４を参照しながら詳細に説明する。音声合成装置１は、図１に示すように、入力文が入力され、当該入力文に対応した合成音声を生成して出力するものである。音声合成装置１は、具体的には予め音声データの音響特徴量を音素ごとにモデル化した統計モデルであるＨＭＭを用いて音声合成を行う。なお、ＨＭＭとは、音声データを統計パラメータとしてモデル化したものである。

音声合成装置１は、図１に示すように、統計モデル記憶手段１０と、音声データ記憶手段２０と、入力文解析手段３０と、音声データ候補列挙手段４０と、音声データ決定手段５０と、統計モデル列挙手段６０と、統計モデル修正手段７０と、音響特徴量列生成手段８０と、音声波形変換手段９０と、を備えている。

統計モデル記憶手段１０は、統計モデル（ＨＭＭ）を記憶するものである。この統計モデルは、図示しない統計モデル生成手段によって、音声データ記憶手段２０に記憶された音声データから予め生成され、統計モデル記憶手段１０に格納される。図示しない統計モデル生成手段は、例えば「あ」の統計モデルを生成する場合、音声データ記憶手段２０に記憶された、前後の接続関係が異なる複数の「あ」の音声データ（例えば「あいうえお」の「あ」の音声データと、「いうあえお」の「あ」の音声データ）の音響特徴量をそれぞれ算出するとともに、両者を平均化して「あ」の統計モデルを生成する。なお、前記した「あいうえお」の「あ」の音声データや、「いうあえお」の「あ」の音声データは一例に過ぎず、音声データ記憶手段２０には、前後の接続関係が異なる様々な「あ」の音声データが記憶されている。

また、統計モデル記憶手段１０は、前記した統計モデルの他に、音声データのクラスタリング情報も記憶する。クラスタリング情報とは、音声データ記憶手段２０に記憶された音声データを所定条件でクラスタリングした情報を示している（図３参照）。例えば、図示しない統計モデル生成手段は、前記したように、音声データ記憶手段２０に記憶された「あいういお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、から「あ」の統計モデルを生成する際に、「あいういお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、を予め定めた条件によってクラスタリングし、そのクラスタリング情報（クラスタ木）も統計モデル記憶手段１０に格納する（図３参照）。

統計モデル記憶手段１０は、具体的にはデータを記憶することができるメモリ、ハードディスク等で具現される。そして、統計モデル記憶手段１０は、図１に示すように、前記した統計モデルを統計モデル列挙手段６０に出力し、前記したクラスタリング情報を音声データ候補列挙手段４０に出力する。

音声データ記憶手段２０は、音声データを記憶するものである。音声データ記憶手段２０は、予め定められた統計モデルの単位（例えば音素）ごとに音声データを記憶する。また、音声データ記憶手段２０は、例えば「あいうえお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、をそれぞれ別々のデータとして記憶する。

音声データ記憶手段２０は、具体的にはデータを記憶することができるメモリ、ハードディスク等で具現される。そして、音声データ記憶手段２０は、図１に示すように、前記した音声データを音声データ候補列挙手段４０に出力する。

入力文解析手段３０は、入力文（入力テキスト）を解析するものである。入力文解析手段３０は、具体的には、図示しないテキスト入力手段（例えばキーボード等）から入力された入力文の解析を行い、かな漢字交じり文である入力を予め定められた統計モデルの単位に分割（変換）する。そして、入力文解析手段３０は、当該統計モデルの単位ごとに、品詞、アクセント、文内や単語内における位置等を解析し、図２に示しように、その解析結果を音声データ候補列挙手段４０に出力する。

入力文解析手段３０は、図示しないテキスト入力手段から例えば「日本政府の反応です」という入力文が入力された場合であって、統計モデルが音素単位で作成されている場合、図２に示すように、入力文を解析し、統計モデルの単位である音素ごと、すなわち「ｓｉｌ」、「ｎ」、「ｉ」、「Ｑ」、「ｐ」、「ｏ」、「Ｎ」、「ｓ」、「ｅ：」、「ｆ」、「ｕ」、「ｎ」、「ｏ」、「ｈ」、「ａ」、「Ｎ」、「ｎ」、「ｏ：」、「ｄ」、「ｅ」、「ｓ」、「ｕ」、「ｓｉｌ」、に分割する。なお、前記した「Ｑ」は促音（「っ」）を示しており、「Ｎ」は撥音（「ん」）を示している。

そして、入力文解析手段３０は、例えば図２に示すように、それぞれの音素について、左右の音素、アクセントの型、モーラおよび入力文の種類（単文と複文のどちらであるか）を解析し、当該音素ごとの解析結果を音声データ候補列挙手段４０に出力する。なお、図２における「ｓｉｌ」は、無音の音声記号を示しており、「ｅ：」および「ｏ：」は、「えー」および「おー」に対応している。また、図２において、６モーラおよび１２モーラは前記した「えー」および「おー」の長音に相当するため、図示を省略している。

音声データ候補列挙手段４０は、入力文に対応する音声データの候補（以下、音声データ候補という）を列挙するものである。音声データ候補列挙手段４０は、具体的には入力文解析手段３０から入力された解析結果と、統計モデル記憶手段１０から入力された音声データのクラスタリング情報と、に基づいて音声データ記憶手段２０を探索し、統計モデルの単位である音素ごとに、入力文に対応する音声データの候補を列挙する。そして、音声データ候補列挙手段４０は、図１に示すように、列挙した音声データの候補を音声データ決定手段５０の音響特徴量算出手段５１に出力する。

音声データ候補列挙手段４０は、例えば図２に示す「ｓｉｌ；左未定義；右音素ｎ；アクセント５型；１４モーラ中１モーラ目；単文」という音素（以下、第１音素という）の音声データ候補を列挙する場合、統計モデル記憶手段１０に格納されたクラスタリング情報、すなわち事前にＨＭＭを生成する際に作成された図３（ａ）に示すようなクラスタ木を辿ることで、音声データ候補を探索する。なお、図３（ａ）における０〜４の数字は、図３（ｂ）に示すようにクラスタ木の分岐を示しており、同図に示す分岐条件に従って、Ｙｅｓの場合は左に分岐し、Ｎｏの場合は右に分岐するように定められている。また、図３（ｂ）に示す分岐条件は一例に過ぎず、この分岐条件は任意に定めることができる。

音声データ候補列挙手段４０は、図３（ｂ）に示すようなクラスタ木を辿る場合、第１音素の右側の音素はｎであるため母音ではなく、左側の音素は未定義であるため、クラスタ４に属する音声データを選択する。但し、音声データ候補列挙手段４０は、クラスタ４に属する音声データの数が１００個以下の場合は、図３（ａ）に示すクラスタ木を一つ遡り、分岐３（クラスタ３，４）に属する音声データを候補として選択する。また、音声データ候補列挙手段４０は、分岐３に属する音声データの数が１００個以下の場合は、図３（ａ）に示すクラスタ木をさらに一つ遡り、分岐０（クラスタ１〜６）に属する音声データの数も１００個以下の場合はさらに一つ遡るというように、音声データの数が少なくとも１００個以上となるようにクラスタ木を探索し、音声データ候補を選択する。これにより、音声データ候補列挙手段４０は、統計モデルの単位（例えば音素）ごとに、少なくとも１００個以上の音声データ候補を列挙し、音声データ決定手段５０の音響特徴量算出手段５１に出力することができる。なお、前記したクラスタ木を遡る音声データの数の条件（１００個以下）は一例に過ぎず、音声データの総数等に応じて定めることができる。

音声データ決定手段５０は、音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。音声データ決定手段５０は、ここでは図１に示すように、音響特徴量算出手段５１と、特徴量距離算出手段５２と、組み合わせ決定手段５３と、を備え、これらの手段によって前記した処理を行う。

音響特徴量算出手段５１は、音声データの音響特徴量を算出するものである。音響特徴量算出手段５１は、具体的には、音声データ候補列挙手段４０から入力された音声データのそれぞれについて、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を行うことで、例えばメル一般化ケプストラムや、対数基本周波数、非周期成分等の音響特徴量を算出し、当該音響特徴量を特徴量距離算出手段５２に出力する。

特徴量距離算出手段５２は、隣り合う音声データの音響特徴量の距離（以下、特徴量距離という）を算出するものである。特徴量距離算出手段５２は、具体的には、音響特徴量算出手段５１から入力された音響特徴量のそれぞれについて、例えば以下の式（１）によって、隣り合う音声データＡ，Ｂ間における音響特徴量の差分の積算値を求めることで、音声データＡ，Ｂ間の特徴量距離Ｓ_Ｃ（Ａ，Ｂ）を算出し、当該特徴量距離Ｓ_Ｃ（Ａ，Ｂ）を組み合わせ決定手段５３に出力する。

組み合わせ決定手段５３は、音声データ候補列挙手段４０によって列挙された音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。組み合わせ決定手段５３は、具体的には、音声データ候補の中から、特徴量距離算出手段５２から入力された特徴量距離Ｓ_Ｃ（Ａ，Ｂ）が最小となる組み合わせを決定し、当該音声データの組み合わせを統計モデル修正手段７０に出力する。

組み合わせ決定手段５３は、例えば図４に示すように、「Ｓｉｌ」、「ｎ」、「ｉ」の３音素の組み合わせを決定する場合において、当該「Ｓｉｌ」、「ｎ」、「ｉ」がそれぞれ３つ、２つ、３つの音声データ候補を有する場合、０．４が全体として距離が最小となるため、「Ｓｉｌ」の音声データ候補１−２、「ｎ」の音声データ候補２−１、「ｉ」の音声データ候補３−３を音声データの組み合わせとして決定する。なお、音声データ候補の数は、実際には前記したように「Ｓｉｌ」、「ｎ」、「ｉ」のそれぞれにおいて１００個以上存在するが、ここでは説明の便宜上３つとして説明している。

統計モデル列挙手段６０は、入力文に対応する音響モデルの列を列挙するものである。統計モデル列挙手段６０は、具体的には、入力文解析手段３０から入力文の解析結果が入力され、当該解析結果に基づいて統計モデル記憶手段１０から統計モデルを読み出し、統計モデル修正手段７０に出力する。

統計モデル列挙手段６０は、図示しないテキスト入力手段から入力文解析手段３０に対して、例えば「日本政府の反応です」という入力文が入力された場合であって、統計モデルが音素単位で作成されている場合、統計モデル記憶手段１０から「ｓｉｌ」、「ｎ」、「ｉ」、「Ｑ」、「ｐ」、「ｏ」、「Ｎ」、「ｓ」、「ｅ：」、「ｆ」、「ｕ」、「ｎ」、「ｏ」、「ｈ」、「ａ」、「Ｎ」、「ｎ」、「ｏ：」、「ｄ」、「ｅ」、「ｓ」、「ｕ」、「ｓｉｌ」、の統計モデルをそれぞれ読み出し、これらの統計モデルの列（以下、統計モデル列という）を統計モデル修正手段７０に出力する。

統計モデル修正手段７０は、入力文に対応した統計モデルを修正するものである。統計モデル修正手段７０は、具体的には、組み合わせ決定手段５３から入力された音声データの組み合わせに含まれるそれぞれの音声データの音響特徴量を算出する。そして、統計モデル修正手段７０は、図１に示すように、統計モデル列挙手段６０によって列挙された統計モデルのパラメータを、前記した音声データの音響特徴量によって置き換えることで、統計モデルを修正し、修正後の統計モデル列を音響特徴量列生成手段８０に出力する。

統計モデル修正手段７０は、例えば統計モデル列挙手段６０から「ｓｉｌ」、「ｎ」、「ｉ」の統計モデル列が入力され、組み合わせ決定手段５３から「ｓｉｌ」、「ｎ」、「ｉ」の音声データの組み合わせが入力された場合、まず「ｓｉｌ」、「ｎ」、「ｉ」の音声データの音響特徴量をそれぞれ算出する。そして、統計モデル修正手段７０は、「ｓｉｌ」の統計モデル（「ｓｉｌ」の音響特徴量の平均値）を「ｓｉｌ」の音声データの音響特徴量で置換し、「ｎ」の統計モデル（「ｎ」の音響特徴量の平均値）を「ｎ」の音声データの音響特徴量で置換し、「ｉ」の統計モデル（「ｉ」の音響特徴量の平均値）を「ｉ」の音声データの音響特徴量で置換し、図１に示すように、これらの修正後の統計モデル列を音響特徴量列生成手段８０に出力する。

なお、統計モデル修正手段７０は、前記したように統計モデルを修正する際に、例えば音声データ決定手段５３によって決定された「ｎ」の音声データの長さと、統計モデル列挙手段６０によって列挙された「ｎ」の統計モデルによってモデル化された音素の長さとが異なる場合は、「ｎ」の音声データの長さを調整することが好ましい。すなわち、統計モデル修正手段７０は、「ｎ」の音声データの長さが「ｎ」の統計モデルの長さよりも短い場合は、「ｎ」の音声データの前後に位置する音声データを繰り返すことで長さを補間する処理を行う。一方、統計モデル修正手段７０は、「ｎ」の音声データの長さが「ｎ」の統計モデルの長さよりも長い場合は、「ｎ」の音声データの一部を間引く処理、もしくは平均化する処理を行う。これにより、統計モデル修正手段７０は、音声データの長さが統計モデルによってモデル化された音素の長さと一致するように調整し、統計モデルを調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正することができる。

このように、音声データ決定手段５０によって決定された音声データの音響特徴量をそのまま用いるのではなく、統計モデル修正手段７０によって統計モデルを修正する理由としては、音声データの音響特徴量をそのまま用いると正しい音声波形に戻らないということがまず挙げられる。すなわち、一般に、音響特徴量はメル一般化ケプストラムとその差分値で構成されており、両者の整合性がとれている必要があるが、音声データの音響特徴量は音素のつなぎ目の部分でこのような整合性を考慮していないため、音声波形に戻そうとしても発散してしまう可能性が高い。一方、統計モデルから得られる音響特徴量は、メル一般化ケプストラムとその差分値との整合性をとるという拘束条件のもとで生成されているため、音声波形に戻らないということが起こりにくいという特徴がある。

また、仮に音声データの音響特徴量を音声波形に戻すことができたとしても、音素のつなぎ目の部分でギャップが生じる可能性が高い。従って、音響特徴量列生成手段８０によって当該つなぎ目の部分をスムージングしたとしても、これにより得られた合成音声よりも、統計モデルから得られた音響特徴量から生成された合成音声のほうが自然な音になる可能性が高い。このように、本発明に係る音声合成装置１は、前記した統計モデルの拘束条件を利用して、より自然で肉声感のある音声を合成するために、統計モデル列挙手段６０によって列挙された統計モデルのパラメータを音声データの音響特徴量によって置き換えることで修正し、後記するように、修正後の統計モデル列を音響特徴量列生成手段８０によってスムージングし、音声波形変換手段９０によって音声波形に戻すこととしている。

音響特徴量列生成手段８０は、音響特徴量列を生成するものである。音響特徴量列生成手段８０は、具体的には、統計モデル修正手段７０から入力された統計モデル列における各統計モデルの接続部を直線補間等によって平滑化し、入力文に対応した音響特徴量列として音声波形変換手段９０に出力する。

音声波形変換手段９０は、音響特徴量列を音声波形に変換するものである。音声波形変換手段９０は、例えば図１に示すように、音響特徴量列生成手段８０から入力された音響特徴量列からメル一般化ケプストラム、ピッチ、有声強度、フーリエ振幅を生成する。そして、音声波形変換手段９０は、生成したピッチとフーリエ振幅に基づいてパルス列を出力し、有声の場合はパルス列、無声の場合はノイズを各帯域に割り当てて、周波数帯域上で混合する。そして音声波形変換手段９０は、例えば三角パルスのスペクトルを白色化したフィルタに混合した信号を通し、メル一般化ケプストラムに基づいて構成されたメル対数スペクトル近似（ＭＬＳＡ：mel log spectrum approximation）フィルタを、得られた混合励振源によって励振して合成音声を生成する。

以上のような構成を備える音声合成装置１は、音声データ候補列挙手段４０によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段５０によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成装置１は、統計モデル修正手段７０によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。

従って、音声合成装置１によれば、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うため、自然で肉声感のある音声を合成することができる。

［音声合成装置１の動作］
以下、音声合成装置１の動作について、図５を参照しながら簡単に説明する。

まず、音声合成装置１は、入力文解析手段３０によって、入力文を解析してその解析結果を音声データ候補列挙手段４０に出力する（ステップＳ１）。次に、音声合成装置１は、前記した解析結果に従って、音声データ候補列挙手段４０によって、入力文に対応する音声データ候補を音声データ記憶手段２０から読み出して音声データ決定手段５０に出力するととともに、統計モデル列挙手段６０によって、入力文に対応する統計モデルを統計モデル記憶手段１０から読み出して統計モデル修正手段７０に出力する（ステップＳ２）。

次に、音声合成装置１は、音声データ決定手段５０によって、音声データ候補の中から音響特徴量の差分の積算値が最小となる組み合わせを探索して入力文に対応する音声データの組み合わせを決定し、統計モデル修正手段７０に出力する（ステップＳ３）。次に、音声合成装置１は、統計モデル修正手段７０によって、入力文に対応する統計モデルのパラメータを、音声データ決定手段５０によって決定された音声データの音響特徴量に置き換えることで統計モデルを修正する（ステップＳ４）。次に、音声合成装置１は、音響特徴量列生成手段８０によって、統計モデル列を平滑化し、入力文に対応した音響特徴量列として出力する（ステップＳ５）。そして最後に、音声合成装置１は、音声波形変換手段９０によって、音響特徴量列を音声波形に変換する（ステップＳ６）。

音声合成装置１は、以上のような動作を行うことで、音響特徴量が平均化された統計モデルを入力文の解析結果から得た音声データの特徴量の列に置き換えた上で、当該音声データの特徴量の列を用いて音声合成を行うため、合成された音声が自然な音声に近いものとなる。

［第２実施形態］
以下、本発明の第２実施形態に係る音声合成装置１Ａについて、図６を参照しながら詳細に説明する。音声合成装置１Ａは、図６に示すように、音声データ決定手段５０の代わりに音声データ決定手段５０Ａを備えること以外は、前記した第１実施形態に係る音声合成装置１と同様の構成を備えている。従って、前記した音声合成装置１と重複する構成については、同じ符号を付して説明を省略し、動作についても説明を省略する。

音声データ決定手段５０Ａは、前記した音声データ決定手段５０と同様に、音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。但し、音声データ決定手段５０Ａは、ここでは図６に示すように、音響特徴量算出手段５１、特徴量距離算出手段５２および組み合わせ決定手段５３に加えて、韻律目標推定手段５４と、韻律距離算出手段５５と、をさらに備えている。

韻律目標推定手段５４は、入力文の韻律の目標値（以下、韻律目標値という）を推定するものである。韻律目標推定手段５４は、具体的には図６に示すように、入力文解析手段３０から入力文の解析結果が入力され、予め定められた韻律モデルに従って、当該入力文における韻律目標値を推定し、当該韻律目標値を韻律距離算出手段５５に出力する。なお、韻律モデルとは、例えばある単語の音の高さの軌跡を示すモデルデータを示している。

韻律距離算出手段５５は、韻律目標値と音声データ候補の韻律と間における距離を算出するものである。韻律距離算出手段５５は、具体的には、韻律目標推定手段５４から入力された韻律目標値と、音声データ候補列挙手段４０から入力された音声データ候補の韻律と、に基づいて、例えば以下の式（２）によって、韻律目標手段によって推定された韻律目標値との差分を求めることで、韻律距離Ｓ_Ｔ（Ｙ，Ｄ）を算出し、組み合わせ決定手段５３に出力する。

そして、組み合わせ決定手段５３は、音声データ候補の中から、当該音声データの音響特徴量の差分の積算値である特徴量距離Ｓ_Ｃ（Ａ，Ｂ）と、韻律目標値との差分である韻律距離Ｓ_Ｔ（Ｙ，Ｄ）と、を合計した値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定し、図１に示すように、当該音声データの組み合わせを統計モデル修正手段７０に出力する。なお、式（２）におけるｗ_３およびｗ_４は特に限定されないが、予備実験では、ｗ_３＝０．０６２５、ｗ_４＝４．０を用いた。

以上のような構成を備える音声合成装置１Ａは、音声データ決定手段５０Ａによって入力文に対応する音声データの組み合わせを決定する際に、音声データの音響特徴量の差分の積算値と韻律の目標値との差分、すなわち韻律の距離との合計値が最小のもの探索することで、実際の音声により近い音声データの組み合わせを探索することができる。

従って、音声合成装置１Ａによれば、音響特徴量の距離のみならず韻律の距離も加味して音声データの組み合わせを決定するため、韻律の目標値にも近似した、より自然で肉声感のある音声を合成することができる。

［音声合成出プログラム］
ここで、前記した音声合成装置１，１Ａは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

以上、本発明に係る音声合成装置および音声合成プログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。

１，１Ａ音声合成装置
１０統計モデル記憶手段
２０音声データ記憶手段
３０入力文解析手段
４０音声データ候補列挙手段
５０，５０Ａ音声データ決定手段
５１音響特徴量算出手段
５２特徴量距離算出手段
５３組み合わせ決定手段
５４韻律目標推定手段
５５韻律距離算出手段
６０統計モデル列挙手段
７０統計モデル修正手段
８０音響特徴量列生成手段
９０音声波形変換手段

Claims

予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成する音声合成装置であって、
前記入力文を解析し、前記統計モデルの単位である音素ごとに分割する入力文解析手段と、
前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する音声データの候補を列挙する音声データ候補列挙手段と、
前記音声データ候補列挙手段によって列挙された前記音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、前記入力文に対応する音声データの組み合わせを決定する音声データ決定手段と、
前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する前記統計モデルを列挙する統計モデル列挙手段と、
前記統計モデル列挙手段によって列挙された前記統計モデルを、前記音声データ決定手段によって決定された前記音声データの組み合わせから抽出した音響特徴量によって置き換えることで修正する統計モデル修正手段と、
前記統計モデル修正手段によって修正された前記統計モデルの列を平滑化し、前記入力文に対応する音響特徴量の列として出力する音響特徴量列生成手段と、
前記音響特徴量列生成手段によって生成された前記音響特徴量の列を音声波形に変換する音声波形変換手段と、
を備えることを特徴とする音声合成装置。
前記統計モデル修正手段は、前記音声データ決定手段によって決定された前記音声データの長さと、前記統計モデル列挙手段によって列挙された前記統計モデルによってモデル化された音素の長さとが異なる場合は、前記音声データの前後に位置する音声データによって当該音声データの長さを補間するか、前記音声データの一部を間引く、もしくは平均化することで、前記音声データの長さが前記統計モデルによってモデル化された音素の長さと一致するように調整し、前記統計モデルを前記調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正することを特徴とする請求項１に記載の音声合成装置。
予め定められた韻律モデルに従って、前記入力文における韻律の目標値を推定する韻律目標推定手段を備え、
前記音声データ決定手段は、前記音声データの候補の中から、当該音声データの音響特徴量の差分の積算値と、前記韻律目標手段によって推定された韻律の目標値との差分と、を合計した値が最小となる組み合わせを探索することで、前記入力文に対応した音声データの組み合わせを決定することを特徴とする請求項１または請求項２に記載の音声合成装置。
予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成するために、コンピュータを、
前記入力文を解析し、前記統計モデルの単位である音素ごとに分割する入力文解析手段、
前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する音声データの候補を列挙する音声データ候補列挙手段、
前記音声データ候補列挙手段によって列挙された前記音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、前記入力文に対応する音声データの組み合わせを決定する音声データ決定手段、
前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する前記統計モデルを列挙する統計モデル列挙手段、
前記統計モデル列挙手段によって列挙された前記統計モデルを、前記音声データ決定手段によって決定された前記音声データの組み合わせから抽出した音響特徴量によって置き換えることで修正する統計モデル修正手段、
前記統計モデル修正手段によって修正された前記統計モデルの列を平滑化し、前記入力文に対応する音響特徴量の列として出力する音響特徴量列生成手段、
前記音響特徴量列生成手段によって生成された前記音響特徴量の列を音声波形に変換する音声波形変換手段、
として機能させるための音声合成プログラム。