JP4648878B2

JP4648878B2 - 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体

Info

Publication number: JP4648878B2
Application number: JP2006189291A
Authority: JP
Inventors: 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-07-10
Filing date: 2006-07-10
Publication date: 2011-03-09
Anticipated expiration: 2026-07-10
Also published as: JP2008015424A

Description

この発明は、テキストと、その他に発話様式とを入力して、それらに対応した音声合成出力を得る音声合成方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。

テキストを入力し、音声を出力する従来の音声合成技術においては、まず、テキストに対応する発音情報を、辞書や規則などを用いて作成する。ここで、発音情報とは、カナで表現されるような発音に加えて、アクセントの位置や、アクセント句境界、もしくは母音の無声化情報などをさしている。
次に、方式によっては、発音情報から韻律情報を生成する。ここで、韻律とは、例えば声の高さ、声の大きさおよび発話速度の平均的な値や、時間的に変化する変化パタンである。
次に、発音情報や韻律情報に対応する音声波形を生成する。近年の音声合成の技術分野においては、特定の話者が発声した音声データを大量に収集して音声データベースを作成し、この音声データベースの中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて出力する波形素片接続方式が知られている。波形素片接続方式を用いると、高品質な合成音声を得られることが知られている。この発明もこの方式を用いることを前提とする。
テキストを入力し、音声を出力する従来の音声合成技術において、発話様式を考慮したものとしては、非特許文献１に開示されている。発話様式とは、例えば非特許文献１では、喜び、悲しみ等の感情の籠った合成音声の種別である。図１３を参照して上記非特許文献１に示された技術を簡単に説明する。

例えばＮＨＫアナウンサーのナレーションの様な感情によらないセリフが記憶された読み上げ音声データベース１３１（以降、データベースはＤＢと省略する）の音声と、その同一のセリフを指定した感情に従ってナレータに発話してもらった音声が記憶された感情別音声ＤＢ１３０内の音声と、の差から韻律学習部１３２が韻律情報を生成し、それらを感情別韻律辞書１３３に登録する。ここで韻律とは、例えば声の高さ、声の大きさ、および発話速度の平均的な値や、時間的に変化する変化パタンである。感情別韻律辞書１３３に韻律情報が登録されるのと同時に、素片学習部１３４が音声波形の素片を抽出して素片辞書１３５に登録する。
言語解析部１３６にテキストが入力されると、テキストが単語に分割され、単語に発音（読み）が与えられ１つの発音情報が生成される。その発音情報が入力される韻律生成部１３７は、指定された発話様式の感情別韻律辞書１３３に基づいて、発音情報に１つの韻律情報を与える。波形生成部１３８は、素片辞書の中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて合成音声として出力する。
感情音声合成のための基本周波数制御、日本音響学会講演論文集2003年3月、265頁

ここで、発話様式を、例えば丁寧な人、ぞんざいな人等のような発話者の口調や、その場の状況、及び発話者の感情などを反映した発話のかたちであると定義する。この発明は、その発話様式が反映された音声が、感情や口調を反映しない平静な音声に比べると、特に発音や韻律が大きく変化することに着目する。そこで、発話様式を考慮して発音情報や韻律情報の変更を試みると、表現が多様化するために、様々な発音情報や韻律情報が求められることとなり、音声ＤＢの中に韻律情報に十分近い音声波形が存在しない場合が発生し易くなる。このような場合、従来の音声合成方式では、発音情報は合致するが、韻律情報とは乖離（かいり）の大きな音声波形を代用して用いるため、音声波形の素片をつなぎ合わせる際に大きな不連続性などが発生し、合成音声の品質が致命的に劣化する可能性がある。
上記した従来例では、感情別韻律辞書１３３及び素片辞書１３５にデータを登録するときと、全く同じテキストが入力された時の合成音声の品質は高い。しかし、異なるテキストが入力されると、表現を多様化しているために、そのテキストと発話様式に合致した音声波形の素片が、音声ＤＢに無い可能性が高くなる。これは、上記した素片辞書に登録される素片データの数をいくら増やしても完全に回避することは出来ない。

つまり、従来の方法では、１つの発音情報とそれに対する１つの韻律情報とに基づいて合成音声を生成するので、必要な音声波形の素片が音声ＤＢ内に無い可能性が高く、その様な場合、代用される音声波形の素片が合成音声の品質を致命的に劣化させる。
この発明は、このような点に鑑みてなされたものであり、発話様式を指定して音声合成を行なうが、品質が致命的に悪化した合成音声を出力させる可能性を低めた様式指定型音声合成方法、及びその装置、そのプログラム及びその記憶媒体を提供することを目的とする。

この発明による様式指定型音声合成装置は、テキストと、テキストで表現される内容以外の音声に変化を与える要因であるところの発話様式情報とが入力され、１つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発話様式スコアとを、発音情報生成手段が出力する。発話様式情報と発音情報を入力として、韻律情報生成手段が、発音情報のそれぞれについて１つ以上の韻律情報と、それら韻律情報それぞれについて発話様式の反映の度合いを表す韻律様式スコアとを出力する。発音情報生成手段からの発音情報と韻律情報生成手段からの韻律情報とを入力として、音声合成手段が、それぞれの上記発音情報または／及び韻律情報が異なる複数の合成音声と、それぞれの合成音声の品質の程度を表す品質スコアを出力する。複数の合成音声の中から、合成音声選択手段が、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。

音声合成の評価においては、高品質で、所望の発話様式を感じられるような合成音声が求められることはもちろんである。しかし、それよりも、大きな接続歪を持ったり異音が含まれたりといった、致命的に劣化した品質の音声が少しでも出力されると、主観的な印象に大きく影響することが知られている。この発明による様式指定型音声合成装置によれば、発話情報または／及び韻律情報が異なる複数の合成音声の中から、品質スコアが閾値を超え、かつ、様式スコアの最も高い合成音声を選択するので品質がよく、かつ、指定した発話様式とよく一致した合成音声となる。しかも品質スコアが閾値を超える合成音声が無い場合も、最も品質スコアの高い合成音声を出力するため、品質スコアが致命的に低い合成音声を出力する可能性を低めることが可能となる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

この発明の様式指定型音声合成装置３００の実施例１の機能構成ブロックを図１に示す。漢字かな混じりのテキストαと、テキストαで表現される内容以外の音声に変化を与える要因である発話様式情報βとが、発音情報生成手段１０に入力される。発音情報生成手段１０は、例えば、「私は傘をさした」のテキストαと、例えば「丁寧な」の発話様式情報βとに基づいて、複数の発音情報と発話様式スコアを韻律情報生成手段１２に出力する。発音情報としては、例えば「ワタクシワ、カサヲサシタ」と「ワタシワ、カサヲサシタ」などが考えられる。「丁寧な」の発話様式情報に対する発話様式スコアは、「ワタクシワ、カサヲサシタ」の方が高くなる。
韻律情報生成手段１２は、入力された発音情報それぞれに対して、複数の韻律情報を与える。例えば「丁寧な」という発話様式を反映させた音声は、通常の音声に比べればはっきりとした抑揚で発声し、通常よりも改まった発声になる。「ワタクシワ、カサヲサシタ」という発音情報に対して、抑揚を表す声の大きさや声の高さの変化幅が自然性を損なわない範囲で平均よりも大きければ、「丁寧な」という発話様式に対する韻律様式スコアは高くなる。

このような韻律情報は、１つの発音情報に対して１個以上付与される。韻律情報生成手段１２は、発音情報生成手段１０から入力された発音情報と発音様式スコアと、その発音情報に対して生成した韻律情報と韻律様式スコアとを、音声合成手段１４に出力する。
音声合成手段１４は、入力された発音情報と韻律情報に基づき全ての合成音声を合成し、各合成音声に対して品質の程度を表す品質スコアを生成する。品質スコアについては、詳しくは後述するが、例えば合成音声と韻律情報との間の基本周波数の一致度合いを反映する値である。音声合成手段１４は、生成した合成音声とその品質スコアと、韻律情報生成手段から入力された発音様式スコアと韻律様式スコアと、を合成音声選択手段１６に出力する。
合成音声選択手段１６は、入力された合成音声の中から、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。なお、発音情報生成手段１０が生成出力する発音様式スコアは、韻律情報生成手段１２、音声合成手段１４、合成音声選択手段１６の順で転送されて行く例を示したが、図１に破線で示すように発音様式スコアを使用して合成音声を選択する合成音声選択手段１６に直接出力するようにしても良い。韻律情報生成手段１２が生成出力する韻律様式スコアも同様に、合成音声選択手段１６に直接出力するようにしてもよい。

このようにこの実施例では、発音情報や韻律情報を唯一に定めず、複数の候補を作成し、それら全てに対する合成音声を作成した上で品質スコアが閾値を超えるもの、或いは品質スコアの最も高いものを出力するため、極端に品質の劣化した合成音声を出力する可能性が減る。
上記した実施例１の動作を整理する目的で、実施例１の動作フローを図２に示す。漢字かな混じりのテキストαと発話様式情報βが発音情報生成手段１０に入力される（ステップＳ１１）。発音情報生成手段１０は、発話様式を反映した１つ以上の発音情報と発音様式スコアを生成する（ステップＳ１２）。韻律情報生成手段１２は、上記生成された発音情報に対して発話様式情報βを反映した韻律情報と韻律様式スコアを生成する（ステップＳ１３）。音声合成手段は、発音情報と韻律情報から複数の合成音声と、その合成音声の品質スコアを生成する（ステップＳ１４）。合成音声選択手段１６は、上記合成音声中に品質スコアが閾値を越えている合成音声が在る場合は、その中の発音様式スコアと韻律様式スコアに基づいた様式スコア、つまり、様式の度合いを一番反映した合成音声を選択して出力し、品質スコアが閾値を超えるものがない場合は、品質スコアの最も高い合成音声を選択（ステップＳ１５）して出力する（ステップＳ１６）。

〔各機能構成ブロックの説明〕
〔発音情報生成手段〕
発音情報生成手段１０の機能構成例を図３に示しその動作を説明する。テキストαと発話様式情報βは形態素解析部３０に入力される。形態素解析部３０は、入力された例えば、「私は傘をさした」のテキストαを単語に分割して、品詞や読み等の単語情報を付与する。このとき、形態素解析部３０は、入力された発話様式情報βが例えば「丁寧な」であれば、その様式によって、読みが変わる単語を図４に示すような様式依存辞書３１から読みを検索して、複数の発音情報を生成する。

発音情報としては、カタカナの列にアクセント核情報が埋め込まれた形式とし、例えば、発音情報１ｈであるワタシワ［００］カサオ［０１］サシタ［０１］と、発音情報２ｈであるワタクシワ［００］カサオ［０１］サシタ［０１］とが生成される。［］内の数字は、直前のアクセント句のアクセント核位置を示している。ワタシワの［００］は、アクセントの無い平坦な調子を意味し、アクセントの型は０型とも呼ばれる。カサオの［０１］は、最初のカの音にアクセントがあることを意味する。アクセントの型は1型とも呼ばれる。その発音情報に対して、この例の場合、発音情報１ｈと発音情報２ｈ、それぞれに発音様式スコア生成部が、発音様式スコアを付与する。発話様式スコアとしては、例えば図５に示すように様式依存辞書から引用したアクセント句の割合としてもよい。発音情報１ｈの、ワタクシワ［００］カサオ［０１］サシタ［０１］に対しては、３個のアクセント句の内の1個が様式依存辞書３１から引用しているので、例えば発音様式スコア１ｓを０．３３としている。
それに対して発音情報２ｈの、ワタシワ［００］カサオ［０１］サシタ［０１］に対しては、３個のアクセント句の読みを、図示しない形態素解析部３０内の単語辞書から得ているので、発話様式情報βに依存していないとして発音様式スコア１ｓを０．０としている。

この例では、２個の発音情報１ｈｓと２ｈｓが生成される場合を示しているが、入力されるテキストによっては、ｎ個の発音情報とｎ個の発音様式スコアが生成される。
発音情報１ｈｓと２ｈｓと発話様式情報βは、読み付与部３３に入力され、アクセント句が結合されたことによる連濁化の調整がされる。上記した例では、連濁化の調整は必要ないが、例えば、２語が複合して1語をつくるときに下に来る語の初めの清音を濁音に変える必要が在る場合に、ここで読みが調整される。
読み付与部３３においても、発話様式情報βに依存した発音情報の調整が可能である。例えば、様式依存句末長音化頻度情報３４にアクセント句の語尾の引き伸ばし情報を記憶して置き、その情報に基づいて読み付与部３３が語尾を変化させてもよい。例えば、「それで」と言うところを「それでー」と、句末を引き伸ばすことによっても、発話様式情報βに依存させた表現にすることが出来る。
また、例えば「やりました」に対して、よりくだけた調子の「やっちゃいました」や、「行きました」に対して「行っちゃったすよ」のように、同一の意味に対して読み付与部３３が、異なる発音情報を記憶した様式依存発音変換情報３５の情報に基づき、発音を変換させることでも発話様式情報βに対応させることが可能である。この場合は、発音内容に発音様式スコアは依存する。例えば、「昨日、二次会に行きました」に対して「昨日、二次会に行っちゃったすよ」は、上記したアクセント句の割合よりも、その発音が適用されたことによって、「丁寧な」の発話様式情報βに対する発音様式スコアが低下する。つまり、発音情報そのものにスコアの重み付けをしてもよい。

連濁化等の読みが調整された発音情報は発音様式スコアと共に、アクセント付与部３６で発音情報全体としてアクセントをどこに置くかのアクセント型が決定され、韻律情報生成手段１２に出力される。発音情報とその発音様式スコアは、発音情報生成手段１０内の発音情報記憶部３７に記憶しても良いし、順次、韻律情報生成手段１２に出力するようにしてもよい。説明の例では、ワタクシワ［００］カサオ［０１］サシタ［０１］の発音情報１ｈと、その発話様式スコア１ｓの０.３３との組みを発音情報１ｈｓ、及び、ワタシワ［００］カサオ［０１］サシタ［０１］の発音情報２ｈと、その発話様式スコア２ｓの０.０との組を発音情報２ｈｓとしている。この発音情報１ｈｓと２ｈｓが、韻律情報生成手段１２に入力される。
〔韻律情報生成手段〕
韻律情報生成手段１２の構成例を図６に示しその動作を説明する。発音情報生成手段１０で生成された発音情報１ｈｓと２ｈｓが順次、発音情報取得部６０に取り込まれ、発音情報が韻律生成部６１に入力される。韻律生成部６１は、発話様式情報βに基づき代表的な発話様式を数段階の割合で強調して発声した音声から作成した韻律ＤＢ６２を、参照して韻律情報を生成する。この実施例の特徴は、韻律ＤＢ６２に代表的な発話様式毎に、数段階の水準を用意している点である。

韻律ＤＢ６２に示すように、例えば、発話様式情報βの「丁寧な」に対して、その様式をより強調した１．０の水準と、あまり反映していない０．５の水準の２種類が用意される。他の発話様式情報βの「喜び」や「怒り」についても同様である。韻律情報とは、音声の基本周波数の変化パタンと、そのポーズの長さであるとし、例えば、横軸が時間、縦軸が基本周波数で表される図７に示すようなものとする。この韻律ＤＢ６２は、従来技術で説明した感情別韻律辞書１３３と同様な作り方で作成され、予めハードディスク等に記憶されたものである。
「丁寧な」という発話様式については、図８中の韻律情報１ａ_Ｒと１ｂ_Ｒに示す水準１.０（韻律様式スコア）と０.５（韻律様式スコア）の韻律情報例から理解されるように、その様式を反映している度合いの高いものを、例えば、抑揚が大きくて、ポーズをやや長めに取る様式であるとする。その場合、韻律ＤＢ６２内の水準１.０は、０．５に対して基本周波数の変化幅が大きくて、ポーズの時間が長いものになる。韻律ＤＢ６２は、このようなものであるので、その水準は２種類に限られることは無く、例えば０.7や０.８の水準も簡単に用意することが出来る。例えば、０.７は、１.０を１００％、０.５を５０％としたものに対して基本周波数の変化幅やポーズ時間を７０％の大きさにすれば良い。このように韻律ＤＢ６２内の発話様式情報βに対応する水準の数を増やせば、その分、韻律生成部６１で生成する韻律情報を増やすことができる。
韻律生成部６１は、1個の発音情報に対して複数の韻律情報を生成する。上記した発音情報１ｈに対して、韻律生成部６１は、例えば図８に示すような韻律情報１ａ_Ｒと１ｂ_Ｒを生成する。また、発音情報２ｈに対しては、韻律情報２ａ_Ｒと２ｂ_Ｒを生成する。生成された韻律情報それぞれに対して韻律様式スコア付与部６３が、韻律様式スコアを付与する。韻律情報１ａ_Ｒには、韻律様式スコア１．０が、韻律情報１ｂ_Ｒには０．５が付与され、韻律情報２ａ_Ｒには、韻律様式スコア１．０が、韻律情報２ｂ_Ｒには０．５が付与される。

なお、ここでは韻律情報として基本周波数の時間変化パタンおよびポーズの長さを取り上げたが、発話速度の変化パタンや音声のパワーの変化パタンなどを考慮した韻律情報生成方式も考えられる。
韻律生成部６１で生成された複数の韻律情報と韻律様式スコアは、それぞれの発音情報と組になった音声合成情報として、順次、音声合成手段１４に出力される。この例では、音声合成情報１ｇと２ｇの２個であり、それぞれの音声合成情報には、１個の発音情報と発音様式スコアに対して、２個の韻律情報とそれぞれの韻律スコアとが付与されている。
このような音声合成情報は、発音情報と韻律情報の組み合わせの数だけ生成される。この例の場合、発音情報１と２に対して、それぞれ２個の韻律情報が付与されているので、４個の音声合成情報１ｇ_１，１ｇ_２，２ｇ_１，２ｇ_２が生成される。ｎ個の音声合成情報は、韻律情報生成手段１２内に音声合成情報記憶部６５を設け、そこで記憶しても良い。
なお、発音様式スコアと韻律様式スコアとを様式スコア生成部６４で足し合わせて、１個の発話様式の反映の度合いを表す様式スコアとして音声合成情報記憶部６５に記憶してもよい。

〔音声合成手段〕
音声合成手段１４の構成例を図９に示しその動作を説明する。音声合成情報取得部９０が、韻律情報生成手段１２から音声合成情報１ｇ_＊〜Ｎｇ_＊（＊は１，２，…，ｎを省略して表す）を順次取得し、音素片選択部９１に出力する。音素片選択部９１は、音声合成情報１ｇ_*〜Ｎｇ_*内の発音情報と韻律情報に合致する音声波形の音素片を音声ＤＢ９２から読み出して、音素片接続部９３に出力する。音素片接続部９３は、音素片を接続して合成音声を生成し、合成音声選択手段１６に出力する。
品質スコア生成部９４によって、音素片接続部９３で生成されたそれぞれの合成音声に対して、合成音声の品質の指標である品質スコアが付与される。品質スコアは、例えば、参考特許文献、「波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化、信学技報SP2003-81」に示されているような、基本周波数の一致度合いを数値化する方法、平均スペクトルの一致度合いを数値化する方法、スペクトルの不連続性を数値化する方法、或いはこれらを統合する方法などが考えられる。

ここで、仮に音声ＤＢ９２に保持されている音声波形の音素片が、上記した音声合成情報１ｇ_１の韻律情報１ａ_Ｒ及び１ｂ_Ｒと、音声合成情報２ｇ_１と２ｇ_２の韻律情報２ａ_Ｒ，２ｂ_Ｒに相当する音素片をほぼ含んでいるが、音声合成情報１ｇ_１の韻律情報１ａ_Ｒに含まれる「ワタクシ」の「タク」の部分に相当する音素片を含んでいなかったとする。
この場合、音声合成情報１ｇ_１の韻律情報1ａ_Ｒに基づいて合成される合成音声１ａ_Oは、その該当する音素片の無い部分に、例えば基本周波数の異なる「タ」や「ク」の音素片が用いられる。その結果、韻律情報１ａ_Ｒと合成音声との基本周波数の一致度合いを表す品質スコアが低下する。例えば音声合成情報１ｇ_１の韻律情報1ａ_Ｒに基づく合成音声１a_Oの品質スコア１ａ_ＱＳが０．７であり、音声合成情報１ｇ_２の韻律情報１ｂ_Ｒに基づく合成音声１ｂ_Oと音声合成情報２ｇ_１，２ｇ_２に対する合成音声２a_O，２ｂ_Oの品質スコア１ｂ_ＱＳ、２ａ_ＱＳ、２ｂ_ＱＳが０．９５であるとする。例えば０．７は、音素片と韻律情報との基本周波数の一致する割合が７０％、０．９５は９５％であると言った意味を持つものである。
合成音声とその品質スコアと、発音様式スコアと韻律様式スコアとは、組みとなって合成音声情報を形成し、これら複数の合成音声情報が合成音声選択手段１６に出力される。つまり、各合成音声情報には、発音様式スコアと韻律様式スコアと品質スコアが添付されて合成音声選択手段１６へ出力される。従って、合成音声情報を見れば、各合成音声の品質の程度と発話様式の反映の程度が分かるようになっている。
なお、合成音声情報は、音声合成手段１４内に音声合成記憶部９５を設けて記憶しても良いし、順次、合成音声選択手段１６に出力するようにしてもよい。

〔合成音声選択手段〕
合成音声選択手段１６の構成例を図１０に示しその動作を説明する。合成音声情報取得部１００が、音声合成手段１４から音声合成情報を取得して合成音声記憶部１０１に記憶する。このとき、合成音声情報取得部１００内の様式スコア生成部１００ａが、音声合成情報それぞれに添付された発音様式スコアと韻律様式スコアとを、例えば、足し合わせて様式スコアとし、音声合成情報内の合成音声と組にして合成音声記憶部１０１に記憶する。
ここで、発音様式スコアと韻律様式スコアとを単純に足し合わせて様式スコアにするのでは無く、それぞれに重み付けをして発話様式にそれぞれが反映される影響度を調整するようにしても良い。例えば、発話様式スコアの方が、発話様式に反映される度合いが大きければ、例えば発話様式スコアを０．８倍し、韻律様式スコアを０.２倍に重み付けして足し合わせる。

合成音声選択部１０２は、合成音声記憶部１０１に記憶された合成音声情報の中から、品質スコアが、レジスタ１０２ａに保持された閾値γを超え、且つ、様式スコアの最も高い合成音声を選択して出力する。閾値γを超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
合成音声選択部１０２の動作フローを図１１に示す。まず、合成音声記憶部１０１内に記憶された合成音声情報の中から、最も様式スコアの高い合成音声情報を選択する（ステップＳ２１）。その選択した合成音声情報の品質スコアが閾値γを上回るか否かが判断される（ステップＳ２２）。選択した合成音声情報の品質スコアが、閾値γを上回る場合（Yes）、合成音声選択部１０２は、その選択した合成音声情報の合成音声を合成音声として出力する（ステップＳ２５）。
閾値γを下回る場合（No）、次に様式スコアの高い合成音声を選択（ステップＳ２４）し、ステップＳ２２でその合成音声の品質スコアが閾値γを上回るか否かが判断され、閾値γを超えていればその合成音声を出力する（ステップＳ２５）。

以上の動作を、合成音声選択部１０２は、様式スコアの低い方向に検索を繰り返し、ステップＳ２３において、合成音声記憶部１０１内の全ての合成音声情報を調べたか否かを判断する（ステップＳ２３）。全ての合成音声情報を調べていれば（Yes）、その中から最も品質スコアの高い合成音声情報の合成音声を合成音声として出力する（ステップＳ２６）。
つまり、様式スコアが最も高い合成音声情報の品質スコアが、閾値γを上回る場合は、その合成音声を出力とし、そうでない場合は、次に様式スコアの高い合成音声を選択し、その品質スコアが閾値γを超えていればその合成音声を出力とする。この動作を繰り返し行い、品質スコアが閾値γを超える合成音声が無い場合は、品質スコアの最も高い合成音声が出力される。
一例として説明して来た各スコアの値を整理する。合成音声１ａと１ｂの様式スコアは、合成音声１ａ_Ｏが１.３３、１ｂ_Ｏが０.８３である。これは、合成音声１ａ_Ｏと１ｂ_Ｏの発話様式スコアが共に０.３３（図５を参照）で、合成音声１ａ_Ｏの韻律様式スコア１ａ_ＲＳが１.０（図８を参照）、合成音声１ｂ_Ｏの韻律様式スコア１ｂ_ＲＳが０.５であることによる。
合成音声２ａ_Ｏと２ｂ_Ｏの様式スコアは、合成音声２ａ_Ｏが１.０、２ｂ_Ｏが０.５である。これは、合成音声２ａ_Ｏと２ｂ_Ｏの発音様式スコアが共に０.０で、合成音声２ａ_Ｏの韻律様式スコア２ａ_ＲＳが１.０、合成音声２ｂ_Ｏの韻律様式スコア２ｂ_ＲＳが０.５であることによる。
各合成音声１ａ_Ｏ〜２ｂ_Ｏの品質スコアは、上記したように韻律情報１ａ_Ｒに合致する音素片が無い合成音声１a_Ｏの品質スコアが０．７で最も低く、他の合成音声１ｂ_Ｏと２ａ_Ｏと２ｂ_Ｏの品質スコアは０.９５である。

この状況で、閾値γを例えば、０.８とすると、最も様式スコアの高い合成音声は、合成音声１ａ_Ｏと判定される。しかし、合成音声１ａ_Ｏは、その品質スコア１ａ_ＱＳが０.７であるので、合成音声選択部１０２において、品質が基準を満たさないと判定され、合成音声出力として選択されない。
その次に様式スコアの高い合成音声は、様式スコアが１.０の合成音声２ａ_Ｏであり、この品質スコア２ａ_ＱＳは閾値γを上回る０.９５である。従って、合成音声２ａ_Ｏが選択されて出力される。
上記したような例の場合、従来の技術では、１個の発音情報と１個の韻律情報とに基づいて合成された品質スコアの低い合成音声１ａ_Ｏが出力されていた。
それに対して、この実施例１による様式指定型音声合成装置では、複数の発音情報それぞれに対して複数の韻律情報に基づいて生成した複数の合成音声のそれぞれについて品質スコアを計算し、品質スコアと様式スコアの双方を考慮して１個の合成音声を選択するので、品質スコアが致命的に低い合成音声を出力する可能性を低めることができる。
なお、実施例１においては、１個の発音情報に対して複数の韻律情報の合成音声を生成する例で説明を行ったが、複数の発音情報に対して１個の韻律情報を適用して合成音声を生成してもよい。これを簡潔に表現すると、発音情報または／及び韻律情報が異なる複数の合成音声となる。

また、この発明によれば、合成音声の品質と、所望の発話様式のどちらを重視するかを、合成音声選択手段１６で用いる閾値γの値で操作することができる。所望の発話様式にできるだけ近い合成音声を得るか、発話様式はあまり反映されなくても品質劣化を避けたいかの判断は、音声合成を用いるアプリケーションに強く依存する。この発明によれば、閾値γを高めに設定すれば低い品質の合成音声が出力することを避けることができ、また、閾値γを低めに設定すれば、多少品質が低くとも所望の発話様式を強く反映した合成音声が得られる。したがって、この発明の様式指定型音声合成装置は、アプリケーションの要求に応じて容易に挙動を変更することが出来る。
上記した様式指定型音声合成方法を整理する。図１２に様式指定型音声合成方法の動作フローを示して説明する。まず始めに、発音情報生成過程１２０において、発音情報生成手段１０は、入力されるテキストαと発話様式情報βに基づいて１つ以上の発音情報と上記発音情報それぞれに対応しテキストで表現される内容以外の音声に変化を与える要因を表す発音様式スコアとを生成する。
次に韻律情報生成過程１２１において、韻律情報生成手段１２は、発音情報生成手段からの複数の発音情報と複数の発音様式スコアとが入力され、発音情報のそれぞれについて１つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する。
次に音声合成過程１２２において、音声合成手段１４は、韻律情報生成手段１２からの発音情報と発音様式スコアと、韻律情報と韻律様式スコアとが入力され、発音情報それぞれについてそれぞれの韻律情報に従った複数の合成音声を生成する。
次に合成音声選択過程１２３において、発音様式スコアと、韻律様式スコアと、品質スコアとを入力とし、品質スコアが閾値γを超える上記合成音声の中から発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。

以上の実施例１の他、この発明である各手段と装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、実施例１で示した発音情報に韻律情報を付与する方法以外の方法として、韻律ＤＢ６２内には発話様式情報に対する上限下限の２水準を用意し、その２水準の間の韻律情報を韻律生成部６１が計算して求める方法も考えられる。
また、上記各手段と装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各手段と装置及び方法における処理機能をコンピュータによって実現する場合、様式指定型音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記様式指定型音声合成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記録しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記憶媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の様式指定型音声合成装置の実施例１の機能構成ブロックを示す図。実施例１の動作フローを示す図。この発明の発音情報生成手段１０の機能構成例を示す図。様式依存辞書３１の一例を示す図。この発明の発音情報の一例を示す図。この発明の韻律情報生成手段１２の機能構成例を示す図。韻律情報の一例を示す図。この発明の韻律生成部６０が生成する韻律情報の一例を示す図。この発明の音声合成手段１４の機能構成例を示す図。この発明の合成音声選択手段１６の機能構成例を示す図。合成音声選択部１０２の動作フローの一例を示す図。この発明の様式指定型音声合成方法のフローを示す図。非特許文献１に開示された従来の様式依存音声合成装置を示す図。

Claims

テキストと、テキストで表現される内容以外の音声に変化を与える要因であるところの発話様式情報とが入力され、１つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発音様式スコアと、を生成出力する発音情報生成手段と、
上記発話様式情報と、上記発音情報生成手段からの上記発音情報とを入力として、上記発音情報のそれぞれについて１つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアと、を生成出力する韻律情報生成手段と、
上記発音情報生成手段からの上記発音情報と、上記韻律情報生成手段からの韻律情報とを入力として、上記発音情報または／及び韻律情報が異なる複数の合成音声と、それぞれの合成音声信号の品質の程度を表す品質スコアを生成出力する音声合成手段と、
上記音声合成手段から上記合成音声と上記品質スコアとが入力され、上記合成音声の中から、上記品質スコアが閾値を超え、且つ、上記発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する合成音声選択手段と、
を具備する様式指定型音声合成装置。
請求項１に記載の様式指定型音声合成装置において、
上記韻律情報生成手段における上記韻律情報の生成は、上記発話様式情報の発話様式を数段階の割合で強調した韻律データベースを参照して生成することを特徴とする様式指定型音声合成装置。
請求項１又は２に記載の様式指定型音声合成装置において、
上記様式スコアを、上記発音様式スコアと上記韻律様式スコアの重み付け和として求める様式スコア生成部を備えることを特徴とする様式指定型音声合成装置。
請求項１乃至３の何れかに記載の様式指定型音声合成装置において、
上記発音情報生成手段における上記発音様式スコアは、発話様式に依存して異なる発音を記録した様式依存辞書から、その発音を適用した単語の数の度合いを生成し、
上記韻律情報生成手段における上記韻律様式スコアは、上記発話様式情報の発話様式の強調割合を生成したものであることを特徴とする様式指定型音声合成装置。
請求項１乃至４に記載の様式指定型音声合成装置において、
上記閾値は、外部から設定可能であることを特徴とする様式指定型音声合成装置。
発音情報生成手段が、入力されたテキストと音声に変化を与える要因である発話様式情報に対し、１つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発音様式スコアとを生成する発音情報生成過程と、
韻律情報生成手段が、上記発話様式情報と、上記発音情報とから、上記発音情報のそれぞれについて１つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する韻律情報生成過程と、
音声合成手段が、上記発音情報と上記韻律情報とから、上記発話情報または／及び韻律情報が異なる複数の合成音声信号を生成し、かつその合成音声信号の品質の程度を表す品質スコアを生成する音声合成過程と、
合成音声選択手段が、上記合成音声中から、上記品質スコアが閾値を超え、かつ発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択する合成音声選択過程と、
を有する様式指定型音声合成方法。
請求項１乃至５の何れかに記載した各装置としてコンピュータを機能させるための様式指定型音声合成プログラム。
請求項７に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記憶媒体。