JP2013117638A - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP2013117638A
JP2013117638A JP2011265125A JP2011265125A JP2013117638A JP 2013117638 A JP2013117638 A JP 2013117638A JP 2011265125 A JP2011265125 A JP 2011265125A JP 2011265125 A JP2011265125 A JP 2011265125A JP 2013117638 A JP2013117638 A JP 2013117638A
Authority
JP
Japan
Prior art keywords
speech
statistical model
input sentence
acoustic feature
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011265125A
Other languages
English (en)
Inventor
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2011265125A priority Critical patent/JP2013117638A/ja
Publication of JP2013117638A publication Critical patent/JP2013117638A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供する。
【解決手段】音声合成装置1は、入力文を解析して音素ごとに分割する入力文解析手段30と、音素ごとに音声データの候補を列挙する音声データ候補列挙手段40と、音声データの候補の中から音響特徴量の差分の積算値が最小となる組み合わせを探索し、入力文に対応した音声データの組み合わせを決定する音声データ決定手段50と、入力文に対応する音響モデルの列を列挙する統計モデル列挙手段と、統計モデルを音声データの音響特徴量によって置き換えて統計モデルを修正する統計モデル修正手段60と、修正された統計モデルの列を平滑化して入力文に対応した音響特徴量の列として出力する音響特徴量列生成手段70と、生成された音響特徴量の列を音声波形に変換する音声波形変換手段80と、を備える。
【選択図】図1

Description

本発明は、統計モデルを用いて入力文に対応した音声を合成する音声合成装置および音声合成プログラムに関する。
従来、統計モデルの一つである隠れマルコフモデル(HMM:Hidden Markov Model)を用いた音声合成方法として、例えば特許文献1で提案されているような手法が利用されていた。特許文献1で提案された音声合成方法は、事前に音声データから隠れマルコフモデル(以下、HMMという)を作成しておき、音声合成時には、入力文(入力テキスト)に対応するHMMを用いることにより音響特徴量の列を生成し、当該音響特徴量の列を音声波形に変換して音声合成するという仕組みである。
特開2002−268660号公報
しかしながら、特許文献1で提案された音声合成方法は、例えば「あ」の音素のHMMを作成する際に、「あ」に該当する全ての音響特徴量の統計量を計算することによって音響特徴量が平均化されてしまうため、平坦で肉声感のない合成音しか得ることができなかった。
すなわち、特許文献1で提案された音声合成方法は、例えば前後の接続関係がそれぞれ異なる「あいうえお」、「いうあえお」における「あ」の音響特徴量をそれぞれ算出し、両者を平均化したものを「あ」の音素のHMMとしていた。従って、特許文献1で提案された音声合成方法は、音声データとしては安定している一方で、前記したように平均的な肉声感のない音声しか合成することができなかった。
本発明はかかる点に鑑みてなされたものであって、自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供することを課題とする。
前記課題を解決するために請求項1に係る音声合成装置は、予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成する音声合成装置であって、入力文解析手段と、音声データ候補列挙手段と、音声データ決定手段と、統計モデル列挙手段と、統計モデル修正手段と、音響特徴量列生成手段と、音声波形変換手段と、を備える構成とした。
このような構成を備える音声合成装置は、入力文解析手段によって、入力文を解析し、統計モデルの単位である音素ごとに分割する。また、音声合成装置は、音声データ候補列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する音声データの候補を列挙する。また、音声合成装置は、音声データ決定手段によって、音声データ候補列挙手段により列挙された音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定する。また、音声合成装置は、統計モデル列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する統計モデルを列挙する。また、音声合成装置は、統計モデル修正手段によって、統計モデル列挙手段により列挙された統計モデルを、音声データ決定手段により決定された音声データの組み合わせから抽出した音響特徴量で置き換えることで修正する。また、音声合成装置は、音響特徴量列生成手段によって、統計モデル修正手段により修正された統計モデルの列を平滑化し、入力文に対応する音響特徴量の列として出力する。また、音声合成装置は、音声波形変換手段によって、音響特徴量列生成手段によって生成された音響特徴量の列を音声波形に変換する。
このように、音声合成装置は、音声データ候補列挙手段によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成装置は、統計モデル修正手段によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。
また、請求項2に係る音声合成装置は、請求項1に係る音声合成装置において、統計モデル修正手段が、音声データ決定手段によって決定された音声データの長さと、統計モデル列挙手段によって列挙された統計モデルによってモデル化された音素の長さとが異なる場合において、音声データの前後に位置する音声データによって当該音声データの長さを補間するか、音声データの一部を間引く、もしくは平均化することで、音声データの長さが統計モデルによってモデル化された音素の長さと一致するように調整し、統計モデルを調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正する構成とした。
また、請求項3に係る音声合成装置は、請求項1または請求項2に係る音声合成装置において、韻律目標推定手段をさらに備える構成とした。
このような構成を備える音声合成装置は、韻律目標推定手段によって、予め定められた韻律モデルに従って、入力文における韻律の目標値を推定する。そして、音声合成装置は、音声データ決定手段によって、音声データの候補の中から、当該音声データの音響特徴量の差分の積算値と、韻律目標手段により推定された韻律の目標値との差分と、を合計した値が最小となる組み合わせを探索することで、入力文に対応した音声データの組み合わせを決定する。
このように、音声合成装置は、音声データ決定手段によって入力文に対応する音声データの組み合わせを決定する際に、音声データの音響特徴量の差分の積算値と韻律の目標値との差分、すなわち韻律の距離との合計値が最小のもの探索することで、実際の音声により近い音声データの組み合わせを探索することができる。
前記課題を解決するために請求項4に係る音声合成プログラムは、予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成するために、コンピュータを、入力文解析手段、音声データ候補列挙手段、音声データ決定手段、統計モデル列挙手段、統計モデル修正手段、音響特徴量列生成手段、音声波形変換手段、として機能させることとした。
このような構成を備える音声合成プログラムは、入力文解析手段によって、入力文を解析し、統計モデルの単位である音素ごとに分割する。また、音声合成プログラムは、音声データ候補列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する音声データの候補を列挙する。また、音声合成プログラムは、音声データ決定手段によって、音声データ候補列挙手段により列挙された音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定する。また、音声合成プログラムは、統計モデル列挙手段によって、入力文解析手段による解析結果に従って、音素ごとに、入力文に対応する統計モデルを列挙する。また、音声合成プログラムは、統計モデル修正手段によって、統計モデル列挙手段により列挙された統計モデルを、音声データ決定手段により決定された音声データの組み合わせから抽出した音響特徴量で置き換えることで修正する。また、音声合成プログラムは、音響特徴量列生成手段によって、統計モデル修正手段により修正された統計モデルの列を平滑化し、入力文に対応する音響特徴量の列として出力する。また、音声合成プログラムは、音声波形変換手段によって、音響特徴量列生成手段によって生成された音響特徴量の列を音声波形に変換する。
このように、音声合成プログラムは、音声データ候補列挙手段によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成プログラムは、統計モデル修正手段によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。
請求項1および請求項4に係る発明によれば、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うため、自然で肉声感のある音声を合成することができる。
請求項2に係る発明によれば、音声データ決定手段によって決定された音声データの長さと、統計モデル列挙手段によって列挙された統計モデルによってモデル化された音素の長さとが異なる場合であっても、音声データの長さを調整することができるため、より自然で肉声感のある音声を合成することができる。
請求項3に係る発明によれば、音響特徴量の距離のみならず韻律の距離も加味して音声データの組み合わせを決定するため、韻律の目標値にも近似した、より自然で肉声感のある音声を合成することができる。
本発明の第1実施形態に係る音声合成装置の全体構成を示すブロック図である。 本発明に係る音声合成装置の入力文解析手段における処理を説明するための概略図であって、入力文の解析結果の一例を示す概略図である。 本発明に係る音声合成装置の音声データ候補列挙手段における処理を説明するための概略図であって、(a)は、音声データのクラスタリング情報の一例を示す概略図、(b)は、クラスタリング情報におけるクラスタ木の分岐条件の一例を示す概略図、である。 本発明に係る音声合成装置の組み合わせ決定手段における処理を説明するための概略図であって、特徴量距離が最小の音声データの組み合わせを決定する場合の一例を示す概略図である。 本発明の第1実施形態に係る音声合成装置の動作を示すフローチャートである。 本発明の第2実施形態に係る音声合成装置の全体構成を示すブロック図である。
本発明の実施形態に係る音声合成装置および音声合成プログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。
[第1実施形態]
以下、本発明の第1実施形態に係る音声合成装置1について、図1〜図4を参照しながら詳細に説明する。音声合成装置1は、図1に示すように、入力文が入力され、当該入力文に対応した合成音声を生成して出力するものである。音声合成装置1は、具体的には予め音声データの音響特徴量を音素ごとにモデル化した統計モデルであるHMMを用いて音声合成を行う。なお、HMMとは、音声データを統計パラメータとしてモデル化したものである。
音声合成装置1は、図1に示すように、統計モデル記憶手段10と、音声データ記憶手段20と、入力文解析手段30と、音声データ候補列挙手段40と、音声データ決定手段50と、統計モデル列挙手段60と、統計モデル修正手段70と、音響特徴量列生成手段80と、音声波形変換手段90と、を備えている。
統計モデル記憶手段10は、統計モデル(HMM)を記憶するものである。この統計モデルは、図示しない統計モデル生成手段によって、音声データ記憶手段20に記憶された音声データから予め生成され、統計モデル記憶手段10に格納される。図示しない統計モデル生成手段は、例えば「あ」の統計モデルを生成する場合、音声データ記憶手段20に記憶された、前後の接続関係が異なる複数の「あ」の音声データ(例えば「あいうえお」の「あ」の音声データと、「いうあえお」の「あ」の音声データ)の音響特徴量をそれぞれ算出するとともに、両者を平均化して「あ」の統計モデルを生成する。なお、前記した「あいうえお」の「あ」の音声データや、「いうあえお」の「あ」の音声データは一例に過ぎず、音声データ記憶手段20には、前後の接続関係が異なる様々な「あ」の音声データが記憶されている。
また、統計モデル記憶手段10は、前記した統計モデルの他に、音声データのクラスタリング情報も記憶する。クラスタリング情報とは、音声データ記憶手段20に記憶された音声データを所定条件でクラスタリングした情報を示している(図3参照)。例えば、図示しない統計モデル生成手段は、前記したように、音声データ記憶手段20に記憶された「あいういお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、から「あ」の統計モデルを生成する際に、「あいういお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、を予め定めた条件によってクラスタリングし、そのクラスタリング情報(クラスタ木)も統計モデル記憶手段10に格納する(図3参照)。
統計モデル記憶手段10は、具体的にはデータを記憶することができるメモリ、ハードディスク等で具現される。そして、統計モデル記憶手段10は、図1に示すように、前記した統計モデルを統計モデル列挙手段60に出力し、前記したクラスタリング情報を音声データ候補列挙手段40に出力する。
音声データ記憶手段20は、音声データを記憶するものである。音声データ記憶手段20は、予め定められた統計モデルの単位(例えば音素)ごとに音声データを記憶する。また、音声データ記憶手段20は、例えば「あいうえお」の「あ」の音声データと、「いうあえお」の「あ」の音声データと、をそれぞれ別々のデータとして記憶する。
音声データ記憶手段20は、具体的にはデータを記憶することができるメモリ、ハードディスク等で具現される。そして、音声データ記憶手段20は、図1に示すように、前記した音声データを音声データ候補列挙手段40に出力する。
入力文解析手段30は、入力文(入力テキスト)を解析するものである。入力文解析手段30は、具体的には、図示しないテキスト入力手段(例えばキーボード等)から入力された入力文の解析を行い、かな漢字交じり文である入力を予め定められた統計モデルの単位に分割(変換)する。そして、入力文解析手段30は、当該統計モデルの単位ごとに、品詞、アクセント、文内や単語内における位置等を解析し、図2に示しように、その解析結果を音声データ候補列挙手段40に出力する。
入力文解析手段30は、図示しないテキスト入力手段から例えば「日本政府の反応です」という入力文が入力された場合であって、統計モデルが音素単位で作成されている場合、図2に示すように、入力文を解析し、統計モデルの単位である音素ごと、すなわち「sil」、「n」、「i」、「Q」、「p」、「o」、「N」、「s」、「e:」、「f」、「u」、「n」、「o」、「h」、「a」、「N」、「n」、「o:」、「d」、「e」、「s」、「u」、「sil」、に分割する。なお、前記した「Q」は促音(「っ」)を示しており、「N」は撥音(「ん」)を示している。
そして、入力文解析手段30は、例えば図2に示すように、それぞれの音素について、左右の音素、アクセントの型、モーラおよび入力文の種類(単文と複文のどちらであるか)を解析し、当該音素ごとの解析結果を音声データ候補列挙手段40に出力する。なお、図2における「sil」は、無音の音声記号を示しており、「e:」および「o:」は、「えー」および「おー」に対応している。また、図2において、6モーラおよび12モーラは前記した「えー」および「おー」の長音に相当するため、図示を省略している。
音声データ候補列挙手段40は、入力文に対応する音声データの候補(以下、音声データ候補という)を列挙するものである。音声データ候補列挙手段40は、具体的には入力文解析手段30から入力された解析結果と、統計モデル記憶手段10から入力された音声データのクラスタリング情報と、に基づいて音声データ記憶手段20を探索し、統計モデルの単位である音素ごとに、入力文に対応する音声データの候補を列挙する。そして、音声データ候補列挙手段40は、図1に示すように、列挙した音声データの候補を音声データ決定手段50の音響特徴量算出手段51に出力する。
音声データ候補列挙手段40は、例えば図2に示す「sil;左未定義;右音素n;アクセント5型;14モーラ中1モーラ目;単文」という音素(以下、第1音素という)の音声データ候補を列挙する場合、統計モデル記憶手段10に格納されたクラスタリング情報、すなわち事前にHMMを生成する際に作成された図3(a)に示すようなクラスタ木を辿ることで、音声データ候補を探索する。なお、図3(a)における0〜4の数字は、図3(b)に示すようにクラスタ木の分岐を示しており、同図に示す分岐条件に従って、Yesの場合は左に分岐し、Noの場合は右に分岐するように定められている。また、図3(b)に示す分岐条件は一例に過ぎず、この分岐条件は任意に定めることができる。
音声データ候補列挙手段40は、図3(b)に示すようなクラスタ木を辿る場合、第1音素の右側の音素はnであるため母音ではなく、左側の音素は未定義であるため、クラスタ4に属する音声データを選択する。但し、音声データ候補列挙手段40は、クラスタ4に属する音声データの数が100個以下の場合は、図3(a)に示すクラスタ木を一つ遡り、分岐3(クラスタ3,4)に属する音声データを候補として選択する。また、音声データ候補列挙手段40は、分岐3に属する音声データの数が100個以下の場合は、図3(a)に示すクラスタ木をさらに一つ遡り、分岐0(クラスタ1〜6)に属する音声データの数も100個以下の場合はさらに一つ遡るというように、音声データの数が少なくとも100個以上となるようにクラスタ木を探索し、音声データ候補を選択する。これにより、音声データ候補列挙手段40は、統計モデルの単位(例えば音素)ごとに、少なくとも100個以上の音声データ候補を列挙し、音声データ決定手段50の音響特徴量算出手段51に出力することができる。なお、前記したクラスタ木を遡る音声データの数の条件(100個以下)は一例に過ぎず、音声データの総数等に応じて定めることができる。
音声データ決定手段50は、音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。音声データ決定手段50は、ここでは図1に示すように、音響特徴量算出手段51と、特徴量距離算出手段52と、組み合わせ決定手段53と、を備え、これらの手段によって前記した処理を行う。
音響特徴量算出手段51は、音声データの音響特徴量を算出するものである。音響特徴量算出手段51は、具体的には、音声データ候補列挙手段40から入力された音声データのそれぞれについて、高速フーリエ変換(FFT:Fast Fourier Transform)を行うことで、例えばメル一般化ケプストラムや、対数基本周波数、非周期成分等の音響特徴量を算出し、当該音響特徴量を特徴量距離算出手段52に出力する。
特徴量距離算出手段52は、隣り合う音声データの音響特徴量の距離(以下、特徴量距離という)を算出するものである。特徴量距離算出手段52は、具体的には、音響特徴量算出手段51から入力された音響特徴量のそれぞれについて、例えば以下の式(1)によって、隣り合う音声データA,B間における音響特徴量の差分の積算値を求めることで、音声データA,B間の特徴量距離S(A,B)を算出し、当該特徴量距離S(A,B)を組み合わせ決定手段53に出力する。
Figure 2013117638
組み合わせ決定手段53は、音声データ候補列挙手段40によって列挙された音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。組み合わせ決定手段53は、具体的には、音声データ候補の中から、特徴量距離算出手段52から入力された特徴量距離S(A,B)が最小となる組み合わせを決定し、当該音声データの組み合わせを統計モデル修正手段70に出力する。
組み合わせ決定手段53は、例えば図4に示すように、「Sil」、「n」、「i」の3音素の組み合わせを決定する場合において、当該「Sil」、「n」、「i」がそれぞれ3つ、2つ、3つの音声データ候補を有する場合、0.4が全体として距離が最小となるため、「Sil」の音声データ候補1−2、「n」の音声データ候補2−1、「i」の音声データ候補3−3を音声データの組み合わせとして決定する。なお、音声データ候補の数は、実際には前記したように「Sil」、「n」、「i」のそれぞれにおいて100個以上存在するが、ここでは説明の便宜上3つとして説明している。
統計モデル列挙手段60は、入力文に対応する音響モデルの列を列挙するものである。統計モデル列挙手段60は、具体的には、入力文解析手段30から入力文の解析結果が入力され、当該解析結果に基づいて統計モデル記憶手段10から統計モデルを読み出し、統計モデル修正手段70に出力する。
統計モデル列挙手段60は、図示しないテキスト入力手段から入力文解析手段30に対して、例えば「日本政府の反応です」という入力文が入力された場合であって、統計モデルが音素単位で作成されている場合、統計モデル記憶手段10から「sil」、「n」、「i」、「Q」、「p」、「o」、「N」、「s」、「e:」、「f」、「u」、「n」、「o」、「h」、「a」、「N」、「n」、「o:」、「d」、「e」、「s」、「u」、「sil」、の統計モデルをそれぞれ読み出し、これらの統計モデルの列(以下、統計モデル列という)を統計モデル修正手段70に出力する。
統計モデル修正手段70は、入力文に対応した統計モデルを修正するものである。統計モデル修正手段70は、具体的には、組み合わせ決定手段53から入力された音声データの組み合わせに含まれるそれぞれの音声データの音響特徴量を算出する。そして、統計モデル修正手段70は、図1に示すように、統計モデル列挙手段60によって列挙された統計モデルのパラメータを、前記した音声データの音響特徴量によって置き換えることで、統計モデルを修正し、修正後の統計モデル列を音響特徴量列生成手段80に出力する。
統計モデル修正手段70は、例えば統計モデル列挙手段60から「sil」、「n」、「i」の統計モデル列が入力され、組み合わせ決定手段53から「sil」、「n」、「i」の音声データの組み合わせが入力された場合、まず「sil」、「n」、「i」の音声データの音響特徴量をそれぞれ算出する。そして、統計モデル修正手段70は、「sil」の統計モデル(「sil」の音響特徴量の平均値)を「sil」の音声データの音響特徴量で置換し、「n」の統計モデル(「n」の音響特徴量の平均値)を「n」の音声データの音響特徴量で置換し、「i」の統計モデル(「i」の音響特徴量の平均値)を「i」の音声データの音響特徴量で置換し、図1に示すように、これらの修正後の統計モデル列を音響特徴量列生成手段80に出力する。
なお、統計モデル修正手段70は、前記したように統計モデルを修正する際に、例えば音声データ決定手段53によって決定された「n」の音声データの長さと、統計モデル列挙手段60によって列挙された「n」の統計モデルによってモデル化された音素の長さとが異なる場合は、「n」の音声データの長さを調整することが好ましい。すなわち、統計モデル修正手段70は、「n」の音声データの長さが「n」の統計モデルの長さよりも短い場合は、「n」の音声データの前後に位置する音声データを繰り返すことで長さを補間する処理を行う。一方、統計モデル修正手段70は、「n」の音声データの長さが「n」の統計モデルの長さよりも長い場合は、「n」の音声データの一部を間引く処理、もしくは平均化する処理を行う。これにより、統計モデル修正手段70は、音声データの長さが統計モデルによってモデル化された音素の長さと一致するように調整し、統計モデルを調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正することができる。
このように、音声データ決定手段50によって決定された音声データの音響特徴量をそのまま用いるのではなく、統計モデル修正手段70によって統計モデルを修正する理由としては、音声データの音響特徴量をそのまま用いると正しい音声波形に戻らないということがまず挙げられる。すなわち、一般に、音響特徴量はメル一般化ケプストラムとその差分値で構成されており、両者の整合性がとれている必要があるが、音声データの音響特徴量は音素のつなぎ目の部分でこのような整合性を考慮していないため、音声波形に戻そうとしても発散してしまう可能性が高い。一方、統計モデルから得られる音響特徴量は、メル一般化ケプストラムとその差分値との整合性をとるという拘束条件のもとで生成されているため、音声波形に戻らないということが起こりにくいという特徴がある。
また、仮に音声データの音響特徴量を音声波形に戻すことができたとしても、音素のつなぎ目の部分でギャップが生じる可能性が高い。従って、音響特徴量列生成手段80によって当該つなぎ目の部分をスムージングしたとしても、これにより得られた合成音声よりも、統計モデルから得られた音響特徴量から生成された合成音声のほうが自然な音になる可能性が高い。このように、本発明に係る音声合成装置1は、前記した統計モデルの拘束条件を利用して、より自然で肉声感のある音声を合成するために、統計モデル列挙手段60によって列挙された統計モデルのパラメータを音声データの音響特徴量によって置き換えることで修正し、後記するように、修正後の統計モデル列を音響特徴量列生成手段80によってスムージングし、音声波形変換手段90によって音声波形に戻すこととしている。
音響特徴量列生成手段80は、音響特徴量列を生成するものである。音響特徴量列生成手段80は、具体的には、統計モデル修正手段70から入力された統計モデル列における各統計モデルの接続部を直線補間等によって平滑化し、入力文に対応した音響特徴量列として音声波形変換手段90に出力する。
音声波形変換手段90は、音響特徴量列を音声波形に変換するものである。音声波形変換手段90は、例えば図1に示すように、音響特徴量列生成手段80から入力された音響特徴量列からメル一般化ケプストラム、ピッチ、有声強度、フーリエ振幅を生成する。そして、音声波形変換手段90は、生成したピッチとフーリエ振幅に基づいてパルス列を出力し、有声の場合はパルス列、無声の場合はノイズを各帯域に割り当てて、周波数帯域上で混合する。そして音声波形変換手段90は、例えば三角パルスのスペクトルを白色化したフィルタに混合した信号を通し、メル一般化ケプストラムに基づいて構成されたメル対数スペクトル近似(MLSA:mel log spectrum approximation)フィルタを、得られた混合励振源によって励振して合成音声を生成する。
以上のような構成を備える音声合成装置1は、音声データ候補列挙手段40によって、入力文の音声出力を実現する音声データの候補をリストアップし、音声データ決定手段50によって、入力文に対応する音声データの組み合わせを決定することで最適な音声データの系列を求める。そして、音声合成装置1は、統計モデル修正手段70によって、音声データの系列から抽出した音響特徴量を用いて統計モデルの修正を行うことで、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うことができる。
従って、音声合成装置1によれば、音響特徴量が平均化された統計モデルをそのまま用いるのではなく、入力文を解析して得た音声データの特徴量を用いて音声合成を行うため、自然で肉声感のある音声を合成することができる。
[音声合成装置1の動作]
以下、音声合成装置1の動作について、図5を参照しながら簡単に説明する。
まず、音声合成装置1は、入力文解析手段30によって、入力文を解析してその解析結果を音声データ候補列挙手段40に出力する(ステップS1)。次に、音声合成装置1は、前記した解析結果に従って、音声データ候補列挙手段40によって、入力文に対応する音声データ候補を音声データ記憶手段20から読み出して音声データ決定手段50に出力するととともに、統計モデル列挙手段60によって、入力文に対応する統計モデルを統計モデル記憶手段10から読み出して統計モデル修正手段70に出力する(ステップS2)。
次に、音声合成装置1は、音声データ決定手段50によって、音声データ候補の中から音響特徴量の差分の積算値が最小となる組み合わせを探索して入力文に対応する音声データの組み合わせを決定し、統計モデル修正手段70に出力する(ステップS3)。次に、音声合成装置1は、統計モデル修正手段70によって、入力文に対応する統計モデルのパラメータを、音声データ決定手段50によって決定された音声データの音響特徴量に置き換えることで統計モデルを修正する(ステップS4)。次に、音声合成装置1は、音響特徴量列生成手段80によって、統計モデル列を平滑化し、入力文に対応した音響特徴量列として出力する(ステップS5)。そして最後に、音声合成装置1は、音声波形変換手段90によって、音響特徴量列を音声波形に変換する(ステップS6)。
音声合成装置1は、以上のような動作を行うことで、音響特徴量が平均化された統計モデルを入力文の解析結果から得た音声データの特徴量の列に置き換えた上で、当該音声データの特徴量の列を用いて音声合成を行うため、合成された音声が自然な音声に近いものとなる。
[第2実施形態]
以下、本発明の第2実施形態に係る音声合成装置1Aについて、図6を参照しながら詳細に説明する。音声合成装置1Aは、図6に示すように、音声データ決定手段50の代わりに音声データ決定手段50Aを備えること以外は、前記した第1実施形態に係る音声合成装置1と同様の構成を備えている。従って、前記した音声合成装置1と重複する構成については、同じ符号を付して説明を省略し、動作についても説明を省略する。
音声データ決定手段50Aは、前記した音声データ決定手段50と同様に、音声データ候補の中から、入力文に対応した音声データの組み合わせを決定するものである。但し、音声データ決定手段50Aは、ここでは図6に示すように、音響特徴量算出手段51、特徴量距離算出手段52および組み合わせ決定手段53に加えて、韻律目標推定手段54と、韻律距離算出手段55と、をさらに備えている。
韻律目標推定手段54は、入力文の韻律の目標値(以下、韻律目標値という)を推定するものである。韻律目標推定手段54は、具体的には図6に示すように、入力文解析手段30から入力文の解析結果が入力され、予め定められた韻律モデルに従って、当該入力文における韻律目標値を推定し、当該韻律目標値を韻律距離算出手段55に出力する。なお、韻律モデルとは、例えばある単語の音の高さの軌跡を示すモデルデータを示している。
韻律距離算出手段55は、韻律目標値と音声データ候補の韻律と間における距離を算出するものである。韻律距離算出手段55は、具体的には、韻律目標推定手段54から入力された韻律目標値と、音声データ候補列挙手段40から入力された音声データ候補の韻律と、に基づいて、例えば以下の式(2)によって、韻律目標手段によって推定された韻律目標値との差分を求めることで、韻律距離S(Y,D)を算出し、組み合わせ決定手段53に出力する。
Figure 2013117638
そして、組み合わせ決定手段53は、音声データ候補の中から、当該音声データの音響特徴量の差分の積算値である特徴量距離S(A,B)と、韻律目標値との差分である韻律距離S(Y,D)と、を合計した値が最小となる組み合わせを探索することで、入力文に対応する音声データの組み合わせを決定し、図1に示すように、当該音声データの組み合わせを統計モデル修正手段70に出力する。なお、式(2)におけるwおよびwは特に限定されないが、予備実験では、w=0.0625、w=4.0を用いた。
以上のような構成を備える音声合成装置1Aは、音声データ決定手段50Aによって入力文に対応する音声データの組み合わせを決定する際に、音声データの音響特徴量の差分の積算値と韻律の目標値との差分、すなわち韻律の距離との合計値が最小のもの探索することで、実際の音声により近い音声データの組み合わせを探索することができる。
従って、音声合成装置1Aによれば、音響特徴量の距離のみならず韻律の距離も加味して音声データの組み合わせを決定するため、韻律の目標値にも近似した、より自然で肉声感のある音声を合成することができる。
[音声合成出プログラム]
ここで、前記した音声合成装置1,1Aは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
以上、本発明に係る音声合成装置および音声合成プログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
1,1A 音声合成装置
10 統計モデル記憶手段
20 音声データ記憶手段
30 入力文解析手段
40 音声データ候補列挙手段
50,50A 音声データ決定手段
51 音響特徴量算出手段
52 特徴量距離算出手段
53 組み合わせ決定手段
54 韻律目標推定手段
55 韻律距離算出手段
60 統計モデル列挙手段
70 統計モデル修正手段
80 音響特徴量列生成手段
90 音声波形変換手段

Claims (4)

  1. 予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成する音声合成装置であって、
    前記入力文を解析し、前記統計モデルの単位である音素ごとに分割する入力文解析手段と、
    前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する音声データの候補を列挙する音声データ候補列挙手段と、
    前記音声データ候補列挙手段によって列挙された前記音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、前記入力文に対応する音声データの組み合わせを決定する音声データ決定手段と、
    前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する前記統計モデルを列挙する統計モデル列挙手段と、
    前記統計モデル列挙手段によって列挙された前記統計モデルを、前記音声データ決定手段によって決定された前記音声データの組み合わせから抽出した音響特徴量によって置き換えることで修正する統計モデル修正手段と、
    前記統計モデル修正手段によって修正された前記統計モデルの列を平滑化し、前記入力文に対応する音響特徴量の列として出力する音響特徴量列生成手段と、
    前記音響特徴量列生成手段によって生成された前記音響特徴量の列を音声波形に変換する音声波形変換手段と、
    を備えることを特徴とする音声合成装置。
  2. 前記統計モデル修正手段は、前記音声データ決定手段によって決定された前記音声データの長さと、前記統計モデル列挙手段によって列挙された前記統計モデルによってモデル化された音素の長さとが異なる場合は、前記音声データの前後に位置する音声データによって当該音声データの長さを補間するか、前記音声データの一部を間引く、もしくは平均化することで、前記音声データの長さが前記統計モデルによってモデル化された音素の長さと一致するように調整し、前記統計モデルを前記調整後の音声データから抽出した音響特徴量によって置き換えることで、当該統計モデルを修正することを特徴とする請求項1に記載の音声合成装置。
  3. 予め定められた韻律モデルに従って、前記入力文における韻律の目標値を推定する韻律目標推定手段を備え、
    前記音声データ決定手段は、前記音声データの候補の中から、当該音声データの音響特徴量の差分の積算値と、前記韻律目標手段によって推定された韻律の目標値との差分と、を合計した値が最小となる組み合わせを探索することで、前記入力文に対応した音声データの組み合わせを決定することを特徴とする請求項1または請求項2に記載の音声合成装置。
  4. 予め音声データの音響特徴量を音素ごとにモデル化した統計モデルを用いて、入力文に対応する音声を合成するために、コンピュータを、
    前記入力文を解析し、前記統計モデルの単位である音素ごとに分割する入力文解析手段、
    前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する音声データの候補を列挙する音声データ候補列挙手段、
    前記音声データ候補列挙手段によって列挙された前記音声データの候補の中から、音響特徴量の差分の積算値が最小となる組み合わせを探索することで、前記入力文に対応する音声データの組み合わせを決定する音声データ決定手段、
    前記入力文解析手段による解析結果に従って、前記音素ごとに、前記入力文に対応する前記統計モデルを列挙する統計モデル列挙手段、
    前記統計モデル列挙手段によって列挙された前記統計モデルを、前記音声データ決定手段によって決定された前記音声データの組み合わせから抽出した音響特徴量によって置き換えることで修正する統計モデル修正手段、
    前記統計モデル修正手段によって修正された前記統計モデルの列を平滑化し、前記入力文に対応する音響特徴量の列として出力する音響特徴量列生成手段、
    前記音響特徴量列生成手段によって生成された前記音響特徴量の列を音声波形に変換する音声波形変換手段、
    として機能させるための音声合成プログラム。
JP2011265125A 2011-12-02 2011-12-02 音声合成装置および音声合成プログラム Pending JP2013117638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011265125A JP2013117638A (ja) 2011-12-02 2011-12-02 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011265125A JP2013117638A (ja) 2011-12-02 2011-12-02 音声合成装置および音声合成プログラム

Publications (1)

Publication Number Publication Date
JP2013117638A true JP2013117638A (ja) 2013-06-13

Family

ID=48712231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011265125A Pending JP2013117638A (ja) 2011-12-02 2011-12-02 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP2013117638A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2008191477A (ja) * 2007-02-06 2008-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2008191477A (ja) * 2007-02-06 2008-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JPWO2016042659A1 (ja) * 2014-09-19 2017-04-27 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10529314B2 (en) 2014-09-19 2020-01-07 Kabushiki Kaisha Toshiba Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection

Similar Documents

Publication Publication Date Title
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP5159279B2 (ja) 音声処理装置及びそれを用いた音声合成装置。
CN113724685B (zh) 语音合成模型学习装置、语音合成模型学习方法及存储介质
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2010049196A (ja) 声質変換装置及び方法、音声合成装置及び方法
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2013117638A (ja) 音声合成装置および音声合成プログラム
JP2009133890A (ja) 音声合成装置及びその方法
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2004233774A (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160322