JP6291808B2

JP6291808B2 - 音声合成装置及び方法

Info

Publication number: JP6291808B2
Application number: JP2013244525A
Authority: JP
Inventors: 充伸神沼; 健太南
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2018-03-14
Anticipated expiration: 2033-11-27
Also published as: JP2015102773A

Description

本発明は、音声を聞いた人が感じる親しさの程度を増減させた音声を再生することができる音声発生装置、音声を聞いた人が感じる親しさの程度を増減させることができる音声合成装置及び方法に関する。

近年、電子機器の操作方法を操作者に音声で説明する音声ガイダンスが普及している。音声ガイダンスに用いられる音声は、韻律が平坦で感情のこもっていない音声であることが多い。特許文献１には、無感情な音声に感情を付与する音声合成装置が記載されている。

特開平７−７２９００号公報

従来の音声合成装置である特許文献１に記載の音声合成装置は、ニューラルネットワークを用いて無感情な音声のパラメータを感情のこもったパラメータに変換する学習を行わせることによって、無感情な音声に感情を付与する。よって、特許文献１に記載の音声合成装置においては、煩雑な構成・手順が必要となってしまうという問題点がある。

本発明はこのような問題点に鑑み、簡易な構成・手順で音声の親しさの程度を効果的に増大させることができる音声合成装置及び方法を提供することを目的とする。

本発明は、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とし、開始位置以降の周波数を一定の周波数だけ上昇させた韻律情報を含む音声とすることによって、人が感じる音声の親しさの程度を増大させる。

本発明の音声合成装置及び方法によれば、簡易な構成・手順で音声の親しさの程度を効果的に増大させることができる。

第１実施形態の音声発生装置及び音声合成装置を示すブロック図である。第２実施形態の音声発生装置及び音声合成装置を示すブロック図である。第３実施形態の音声発生装置及び音声合成装置を示すブロック図である。実施形態の音声合成方法を説明するための第１の例文の振幅波形と第１の例文を構成する文節及び音素を示す図である。実施形態の音声合成方法を説明するための第２の例文の振幅波形と第２の例文を構成する文節及び音素を示す図である。文章における最後の文節の最後の音素の部分の周波数を上昇させたときの振幅と周波数の特性を示す図である。文章における最後の文節の最後の音素を開始位置として、周波数を上昇させる例を示す図である。文章における最後の文節の最後の音素より１つ前の音素を開始位置として、周波数を上昇させる例を示す図である。文章における最後の文節の最後の音素の母音を開始位置として、周波数を上昇させる例を示す図である。文章の韻律が示す周波数特性における、文章の最後の文節の最後の音素に最も近い極点または変曲点を、周波数を上昇させる開始位置とする場合を説明するための図である。

以下、各実施形態の音声発生装置、音声合成装置及び方法について、添付図面を参照して説明する。各実施形態の音声発生装置、音声合成装置及び方法は、音声に親しさを付与して音声の親しさの程度を増大させることができる。また、各実施形態の音声発生装置、音声合成装置及び方法は、音声の親しさの程度を減少させることもできる。以下の説明では、音声の親しさの程度を増大させる動作を中心に説明することとする。

＜第１実施形態の音声発生装置及び音声合成装置＞
図１に示す第１実施形態の音声発生装置及び音声合成装置は、音声合成によって音声データを生成する際に、音声の親しさの程度を増大させる構成例である。第１実施形態の音声発生装置及び音声合成装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置である。

図１において、所定の文章を示すテキストデータは、韻律情報生成部１１と韻律情報修正部１３と合成部１４とに入力される。テキストデータは、例えばアスキーコードである。

韻律辞書１２は、複数の韻律情報のパターンを保持している。韻律情報とは、音声における声質以外の部分であり、アクセントやリズム等を形成する部分である。韻律情報生成部１１は、韻律辞書１２より、入力されたテキストデータの文章の各文節に適したパターンの韻律情報を読み出して、文章の韻律情報を生成する。韻律情報は、韻律情報修正部１３に入力される。

例えば、テキストデータが示す文章が「…を設定いたします」という文章であり、文節「…を」と文節「設定」との間、文節「設定」と文節「いたします」との間に、息継ぎの時間に相当する短時間の間隔を設けるとする。この場合、テキストデータ自体に間隔を設けてもよいし、韻律情報生成部１１において間隔を設けた状態の韻律情報を生成してもよい。

韻律情報修正部１３は、音声の親しさの程度を増大させるよう韻律情報を修正する。韻律情報修正部１３における韻律情報の具体的な修正の仕方については後に詳述する。修正された韻律情報は合成部１４に入力される。

音道辞書１５は、複数の音道情報のパターンを保持している。音道情報とは、音声における声質の部分である。音道辞書１５は、音道情報のパターンを文章単位で保持していてもよいし、単語単位で保持していてもよいし、音素単位で保持していてもよい。

合成部１４は、入力されたテキストデータの文章に適したパターンの音道情報を読み出し、修正された韻律情報と音道情報とを合成することによってデジタル信号の音声データを生成する。音声データはＤ／Ａ変換器１６によってアナログ信号に変換されて、スピーカ１７より音声として出力される。

図１に示す音声合成装置によって構成した音声発生装置は、韻律情報生成部１１〜音道辞書１５の部分を、演算処理装置（マイクロプロセッサ）と記憶装置とを含むマイクロコンピュータで構成することができる。

＜第２実施形態の音声発生装置及び音声合成装置＞
図２に示す第２実施形態の音声発生装置及び音声合成装置は、音声データが予め音声ファイルとして形成されている場合に音声の親しさの程度を増大させる構成例である。第２実施形態の音声発生装置及び音声合成装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。

図２において、韻律・声道分離部２１には文章の音声データを含む音声ファイルが入力される。音声ファイルは、例えばＷＡＶ形式である。音声ファイルはＷＡＶ形式に限定されない。

韻律・声道分離部２１は、音声ファイルの音声データを韻律情報と声道情報とに分離する。声道情報保持部２２は声道情報を保持する。韻律情報保持部２３は韻律情報を保持する。

修正位置検出部２６には、音声ファイルの音声データを示すテキストデータとタイミングデータとが入力される。タイミングデータは、音声データの時間位置を示す。タイミングデータによって、音素の発話開始位置や文節間に息継ぎの時間に相当する間隔を設定することができる。修正位置検出部２６は、テキストデータ及びタイミングデータに基づいて、韻律情報修正部２４において韻律情報を修正する際の修正位置を検出する。

韻律情報修正部２４は、修正位置検出部２６が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。修正された韻律情報は合成部１４に入力される。修正位置検出部２６における修正位置の検出の仕方、及び、韻律情報修正部２４における具体的な修正の仕方については後に詳述する。

合成部１４は、修正された韻律情報と声道情報保持部２２に保持された声道情報とを合成することによってデジタル信号の音声データを生成する。音声データはＤ／Ａ変換器２７によってアナログ信号に変換されて、スピーカ２８より音声として出力される。

図２に示す音声処理装置によって構成した音声発生装置及び音声合成装置は、韻律・声道分離部２１〜修正位置検出部２６の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。

＜第３実施形態の音声発生装置及び音声合成装置＞
図３に示す第３実施形態の音声発生装置及び音声合成装置は、人が話した音声の親しさの程度を増大させる構成例である。図３において、図２と同一部分には同一符号を付し、その説明を適宜省略する。

第３実施形態の音声発生装置及び音声合成装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。

図３において、マイクロホン３１は人が発した音声を収音してアナログの音声信号を出力する。Ａ／Ｄ変換器３２は、アナログの音声信号をデジタルの音声データに変換する。音声データは、韻律・声道分離部２１と音声認識部３３とに入力される。

音声認識部３３は、入力された音声データの音声を認識してテキストデータを出力する。テキストデータは、修正位置検出部３４に入力される。修正位置検出部３４は、例えば形態素解析の手法を用いて韻律情報を修正する際の修正位置を検出する。韻律情報修正部２４は、修正位置検出部３４が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。

図３に示す音声処理装置によって構成した音声発生装置及び音声合成装置は、マイクロホン３１，Ａ／Ｄ変換器３２，Ｄ／Ａ変換器２７，スピーカ２８以外の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。

＜実施形態の音声合成方法＞
図１の韻律情報修正部１３、図２及び図３の韻律情報修正部２４における韻律情報の修正方法、及び、図２の修正位置検出部２６、図３の修正位置検出部３４における修正位置の検出方法について説明する。

図４の（ａ）は、第１の例文として「経由地にします」なる音声を発生させたときの振幅波形を示している。図４の（ｂ）に示すように、「経由地にします」をローマ字表記した「KeIYuChiNiShiMaSu」のKe，I，Yu，Chi，Ni，Shi，Ma，Suはそれぞれ音素番号１〜８の音素を示している。音素番号１〜８の音素は、例えば時間位置2.22秒から2.85秒までのそれぞれの時間位置に位置している。

「KeIYuChi」は文節Ｐｈ１、「Ni」は文節Ｐｈ２、「ShiMaSu」は文節Ｐｈ３である。実施形態の音声合成方法においては、複数の文節を有する文章の音声を発生させるとき、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とし、開始位置以降の周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。

図４の（ｂ）に示す例では、図１の韻律情報修正部１３、図２及び図３の韻律情報修正部２４は、最後の文節である文節Ｐｈ３の最初の音素「Shi」より後であり、文節Ｐｈ３内のいずれかの位置を開始位置とする。韻律情報修正部１３，２４は、その開始位置以降の周波数を一定の周波数だけ上昇させる。図２の修正位置検出部２６、図３の修正位置検出部３４は、最後の文節である文節Ｐｈ３を検出する。

図５の（ａ），（ｂ）は他の例を示す。図５の（ａ）は、第２の例文として「ゆっくり楽しんできて下さいね」なる音声を発生させたときの振幅波形を示している。

図５の（ｂ）に示すように、「ゆっくり楽しんできて下さいね」をローマ字表記した「YuKkuRiTaNoShiNDeKiTeKuDaSaINe」のYu，Kku，Ri，Ta，No，Shi，N，De，Ki，Te，Ku，Da，Sa，I，Neはそれぞれ音素番号１〜１５の音素を示している。音素番号１〜１５の音素は、例えば時間位置2.22秒から3.49秒までのそれぞれの時間位置に位置している。

「YuKkuRi」は文節Ｐｈ１、「TaNoShiNDe」は文節Ｐｈ２、「KiTe」は文節Ｐｈ３、「KuDaSaINe」は文節Ｐｈ４である。図５の（ｂ）に示す例では、図１の韻律情報修正部１３、図２及び図３の韻律情報修正部２４は、文章における最後の文節Ｐｈ４の文節の最初の音素「Ku」より後であり、最後の文節内のいずれかの位置を開始位置とする。韻律情報修正部１３，２４は、その開始位置以降の周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。

図６の（ａ），（ｂ）は、図５の（ｂ）における文節Ｐｈ４の語尾である音素「Ne」の部分の周波数を上昇させたときの振幅と周波数の特性を示している。図６の（ｂ）に示す黒丸の点は、周波数特性における極大値もしくは極小値を示す極点、または、変曲点を示している。黒丸の点の位置は、音素の位置とは必ずしも一致しない。但し、音素の位置が極点または変曲点となる場合も多い。

図６の（ａ），（ｂ）は、音素「Ne」における子音N以降の周波数を上昇させた場合を示している。図６の（ｂ）において、破線は周波数を上昇させていない状態の特性、実線は周波数を上昇させた状態の特性を示している。ここでは、音素「Ne」の部分の韻律の周波数を４０Ｈｚ上昇させた例を示している。

周波数を上昇させても、図６の（ａ）に示す振幅の特性には影響を与えない。よって、周波数を上昇させていない状態と周波数を上昇させた状態とで、振幅の特性には変化はない。

図７は、図６の（ａ），（ｂ）と同様であり、最後の文節Ｐｈ４の最後の音素「Ne」を開始位置とした例である。図７では、文節Ｐｈ４における音素「Ne」の時間位置は3.49と設定されている。この時間位置3.49は子音Nの位置を示す。よって、文節Ｐｈ４の子音N以降の周波数が上昇することになる。

図８は、最後の文節Ｐｈ４の最後の音素より１つ前の音素「I」を開始位置とした例である。文節Ｐｈ４の最初の音素「Ku」より後の開始位置としては、図７に示すように、語尾である最後の音素「Ne」が好適である。しかしながら、語尾が弱く発音されると、語尾を開始位置としてもさほど効果が得られない。この場合には、図８に示すように、語尾より１つ前の音素「I」を開始位置とするのがよい。

特に図示していないが、文節Ｐｈ４では、語尾より前に最初の音素「Ku」以外で音素「Da」，「Sa」が存在している。音素「Sa」または「Da」を開始位置とすることも可能である。

なお、文節Ｐｈ４の最初の音素「Ku」を開始位置とせず、音素「Da」以降を開始位置とすると、柔らかな印象となる場合が多い。

図９に示す例は、図４の（ｂ）と同様、「経由地にします」（「KeIYuChiNiShiMaSu」）を示している。図９においては、音素「Su」の子音Sの時間位置が2.85、母音uの時間位置が2.90と別々に設定されている。このような場合には、最後の音素「Su」における母音u以降の周波数を上昇させてもよい。

最後の文節の最初の音素以外で、最後の音素より前の音素を開始位置とする場合においても、音素の子音の時間位置と母音の時間位置とが別々に設定されている場合には、子音を開始位置としてもよいし、母音を開始位置としてもよい。

図１０を用いて、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置として、周波数を上昇させる際のさらに詳細かつ好ましい音声合成方法について説明する。ここでは、「ゆっくり楽しんできて下さいね」という文章の「…いね」の部分を例とする。「…いね」の部分の音声の韻律が図１０の（ａ）に示すような周波数特性を有するとする。ここでは、簡略化のため周波数特性を概略的に示している。

図１０の（ａ）〜（ｃ）において、黒丸の点ｐ１〜ｐ６は、図６と同様、極点または変曲点を示している。点ｐ１〜ｐ６の位置は、音素の位置とは必ずしも一致しないが、音素の位置が極点または変曲点となる場合も多い。

図１の韻律情報修正部１３、図２及び図３の韻律情報修正部２４は、最後の文節の最後の音素「ね」を選択した場合、音素「ね」に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を、周波数を一定の周波数だけ上昇させる開始位置とすることができる。

図１０の（ａ）の例では、「…いね」の最後の音素「ね」に最も近い極点または変曲点は点ｐ６である。図１の韻律情報修正部１３、図２及び図３の韻律情報修正部２４は、点ｐ６を周波数上昇の開始位置として、点ｐ６以降の周波数を上昇させる。

図１０の（ｂ）は、点ｐ６以降の周波数を上昇させた状態を示している。周波数の上昇によって、点ｐ６は点ｐ６’へと移る。

図１０の（ｂ）に示すような周波数特性は、周波数が急激に変化する。そこで、周波数を一定の周波数だけ上昇させる開始位置（ここでは点ｐ６（ｐ６’））より所定時間前の位置より、開始位置まで周波数を連続的に変化させることが好ましい。開始位置より所定時間前の位置も、極点または変曲点であるのがよい。

図１０の（ｃ）の例では、所定時間前の位置を、開始位置より前に位置する極点または変曲点である点ｐ５としている。点ｐ５から点ｐ６’まで周波数が連続的に上昇するように周波数を直線的に変化させてもよいし、上に凸の曲線状または下に凸の曲線状に変化させてもよい。

ここで、点ｐ５から点ｐ６’までは０．０５秒以上の時間があると自然に聞こえやすい。よって、開始位置である極点または変曲点と、開始位置の直前に位置する極点または変曲点との時間間隔が０．０５秒未満である場合には、開始位置に対して、開始位置より前の０．０５秒以上の時間間隔を有する極点または変曲点を選択するのがよい。

文章の最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置とは、最後の文節の最初の音素を除き、最後の文節内のいずれかの音素に最も近い極点または変曲点であってもよい。

なお、「はい」や「すみません」のように文章が１つの文節のみからなる場合も、周波数を上昇させる対象とする。１つの文節のみの文章における文節も最後の文節と称することとする。

上述した開始位置以降全体の周波数を一定の周波数だけ上昇させた音声を複数の人が聞き、親しさの程度の変化を評価した結果、音声の親しさの程度を増大させる効果が確認されている。

また、上述した開始位置以降の周波数を一定の周波数だけ下降させると、音声の親しさの程度が減少することも確認されている。各実施形態の音声発生装置、音声合成装置及び方法は、人が音声を聞いたときに感じる親しさの程度を意図的に減少させるために、上述した開始位置以降の周波数を一定の周波数だけ下降させることも可能である。

以上のように、各実施形態の音声発生装置及び音声合成装置は、韻律情報修正部１３，２４と、合成部１４，２５とを備える。韻律情報修正部１３，２４は、複数の文節よりなる文章を音声で表現するに際し、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とする。韻律情報修正部１３，２４は、開始位置以降の周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する。

合成部１４，２５は、韻律情報修正部１３，２４によって修正された韻律情報と音道情報とを合成することにより、文章の音声データを生成する。

各実施形態の音声発生装置及び音声合成装置によれば、簡易な構成で音声の親しさの程度を効果的に増減させることができる。

韻律情報修正部１３，２４は、最後の文節内の最初の音素を除くいずれかの音素の子音または母音の位置を、周波数を一定の周波数だけ上昇または下降させる開始位置とする。これによって、最後の文節の最初の音素より後の開始位置より韻律情報を修正することができる。

韻律情報修正部１３，２４は、上記のいずれかの音素を最後の文節の最後の音素とし、語尾の１文字のみ韻律情報を修正することができる。例えば語尾のみ周波数を上昇させると、柔らかな印象を与えつつ、音声の親しさの程度を増大させることができる。

韻律情報修正部１３，２４は、最後の文節内の最初の音素を除くいずれかの音素に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を開始位置としてもよい。これによって、最後の文節の最初の音素より後の開始位置より韻律情報を修正することができる。

このとき、韻律情報修正部１３，２４は、開始位置より所定時間前の位置より開始位置まで周波数を連続的に変化させることが好ましい。このようにすれば、違和感がほとんどなく、音声の親しさの程度を増減させることができる。

韻律情報修正部１３，２４は、所定時間前の位置を、開始位置より前に位置する極点または変曲点とするのがよい。このようにすれば、周波数特性の変化に合わせて周波数を連続的に変化させることができる。

実施形態の音声発生装置及び音声合成装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置であってよい。音声合成装置は、音声合成によって音声の親しさの程度を増減させた音声データを生成することができる。

実施形態の音声発生装置及び音声合成装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声合成装置をこのように動作する音声処理装置で構成すれば、音声ファイルとして記録された音声データの音声の親しさの程度を増減させることができる。

実施形態の音声発生装置及び音声合成装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声合成装置をこのように動作する音声処理装置で構成すれば、人が発する音声の親しさの程度を増減させることができる。

実施形態の音声合成方法は、韻律情報修正工程と合成工程とを含む。韻律情報修正工程は、複数の文節よりなる文章の音声データを構成する韻律情報と音道情報とのうち、韻律情報における文章の最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とする。韻律情報修正工程は、開始位置以降の周波数を一定の周波数だけ上昇または下降させるよう修正する。

合成工程は、韻律情報修正工程にて修正された韻律情報と音道情報とを合成して、文章の音声データを発音させたときの音声が有する親しさの程度を変化させた音声データを生成する。

実施形態の音声合成方法によれば、簡易な手順で音声の親しさの程度を効果的に増減させることができる。

本発明は以上説明した各実施形態の音声発生装置、音声合成装置及び方法に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。

図１〜図３に示す音声発生装置は、音声合成装置を備えた構成を示している。音声発生装置が音声合成装置を備えず、音声合成装置を音声発生装置の外部に設けてもよい。音声発生装置は、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とし、開始位置以降の周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを保持する記憶部と、記憶部より読み出された音声データを再生する音声再生部とを備える構成であってもよい。

図１におけるＤ／Ａ変換器１６及びスピーカ１７、図２，図３におけるＤ／Ａ変換器２７及びスピーカ２８は、音声再生部の少なくとも一部を構成する。音声発生装置が音声データを保持する記憶部を備える場合、記憶部から音声データを読み出す読み出し部も音声再生部の一部とすることができる。

このように、音声発生装置は、文章における最後の文節の最初の音素より後であり、最後の文節内のいずれかの位置を開始位置とし、開始位置以降の周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを再生する音声再生部を備えればよい。

音声発生装置及び音声合成装置をハードウェアで構成してもよいし、ソフトウェアで構成してもよく、両者を混在させて構成してもよい。

音声を韻律情報と声道とに分離して合成する際に、例えば、vocoderと称される一般的な音声分析合成系を用いることが可能である。ソフトウェアとしては、音声分析用ソフトウェアPraatを用いることが可能である。Praatで使われているT-SOLAアルゴリズムを用いるとよい。

本発明を、コンピュータに、音声合成方法における韻律情報修正工程と合成工程と同等の、韻律情報修正ステップと合成ステップとを実行させる音声合成プログラムによって実現することも可能である。

１３，２４韻律情報修正部
１４，２５合成部
１６，２７Ｄ／Ａ変換器（音声再生部）
１７，２８スピーカ（音声再生部）

Claims

文章を音声で表現するに際し、前記文章における最後の文節の最初の音素より後であり、前記最後の文節内のいずれかの位置を開始位置とし、前記開始位置以降の周波数を一定の周波数だけ上昇させるように韻律情報を修正する韻律情報修正部と、
前記韻律情報修正部によって修正された韻律情報と音道情報とを合成することにより、前記文章の音声データを生成する合成部と、
を備え、
前記韻律情報修正部は、前記最後の文節内の最初の音素を除くいずれかの音素に最も近い位置であり、前記文章の韻律が示す周波数特性の極点または変曲点を前記開始位置とする
ことを特徴とする音声合成装置。
前記韻律情報修正部は、前記開始位置より所定時間前の位置より前記開始位置まで周波数を連続的に変化させることを特徴とする請求項１に記載の音声合成装置。
前記韻律情報修正部は、前記所定時間前の位置を、前記開始位置より前に位置する極点または変曲点とすることを特徴とする請求項２に記載の音声合成装置。
前記音声合成装置は、前記文章を示すテキストデータに基づいて前記音声データを生成する音声合成装置であることを特徴とする請求項１〜３のいずれか１項に記載の音声合成装置。
前記音声合成装置は、前記文章の音声データを含む音声ファイルと、前記文章を示すテキストデータと、前記テキストデータのタイミングデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項１〜３のいずれか１項に記載の音声合成装置。
前記音声合成装置は、人が発する文章の音声をマイクロホンで収音した音声データと、前記マイクロホンで収音した音声データを音声認識することによって生成した前記文章を示すテキストデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項１〜３のいずれか１項に記載の音声合成装置。
文章の音声データを構成する韻律情報と音道情報とのうち、前記韻律情報における前記文章の最後の文節の最初の音素より後であり、前記最後の文節内のいずれかの位置を開始位置とし、前記開始位置以降の周波数を一定の周波数だけ上昇させるよう修正する韻律情報修正工程と、
前記韻律情報修正工程にて修正された韻律情報と前記音道情報とを合成して、前記文章の音声データを発音させたときの音声が有する親しさの程度を増大させた音声データを生成する合成工程と、
を含むことを特徴とする音声合成方法。
前記韻律情報修正工程にて、前記最後の文節内の最初の音素を除くいずれかの音素の子音または母音の位置を前記開始位置とすることを特徴とする請求項７に記載の音声合成方法。
前記韻律情報修正工程にて、前記いずれかの音素を前記最後の文節の最後の音素とすることを特徴とする請求項８に記載の音声合成方法。
入力音声データを入力する音声データ入力工程と、
前記入力音声データから音声を認識してテキストデータを出力する音声認識工程と、
前記テキストデータから前記開始位置を検出する開始位置検出工程と、
をさらに備えることを特徴とする請求項７〜９のいずれか１項に記載の音声合成方法。
前記開始位置検出工程にて、前記テキストデータに含まれる文節を検出することを特徴とする請求項１０に記載の音声合成方法。
前記一定の周波数は４０Ｈｚであることを特徴とする請求項７〜１１のいずれか１項に記載の音声合成方法。