JP4648878B2 - 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 - Google Patents

様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 Download PDF

Info

Publication number
JP4648878B2
JP4648878B2 JP2006189291A JP2006189291A JP4648878B2 JP 4648878 B2 JP4648878 B2 JP 4648878B2 JP 2006189291 A JP2006189291 A JP 2006189291A JP 2006189291 A JP2006189291 A JP 2006189291A JP 4648878 B2 JP4648878 B2 JP 4648878B2
Authority
JP
Japan
Prior art keywords
information
style
pronunciation
speech
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006189291A
Other languages
English (en)
Other versions
JP2008015424A (ja
Inventor
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006189291A priority Critical patent/JP4648878B2/ja
Publication of JP2008015424A publication Critical patent/JP2008015424A/ja
Application granted granted Critical
Publication of JP4648878B2 publication Critical patent/JP4648878B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、テキストと、その他に発話様式とを入力して、それらに対応した音声合成出力を得る音声合成方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。
テキストを入力し、音声を出力する従来の音声合成技術においては、まず、テキストに対応する発音情報を、辞書や規則などを用いて作成する。ここで、発音情報とは、カナで表現されるような発音に加えて、アクセントの位置や、アクセント句境界、もしくは母音の無声化情報などをさしている。
次に、方式によっては、発音情報から韻律情報を生成する。ここで、韻律とは、例えば声の高さ、声の大きさおよび発話速度の平均的な値や、時間的に変化する変化パタンである。
次に、発音情報や韻律情報に対応する音声波形を生成する。近年の音声合成の技術分野においては、特定の話者が発声した音声データを大量に収集して音声データベースを作成し、この音声データベースの中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて出力する波形素片接続方式が知られている。波形素片接続方式を用いると、高品質な合成音声を得られることが知られている。この発明もこの方式を用いることを前提とする。
テキストを入力し、音声を出力する従来の音声合成技術において、発話様式を考慮したものとしては、非特許文献1に開示されている。発話様式とは、例えば非特許文献1では、喜び、悲しみ等の感情の籠った合成音声の種別である。図13を参照して上記非特許文献1に示された技術を簡単に説明する。
例えばNHKアナウンサーのナレーションの様な感情によらないセリフが記憶された読み上げ音声データベース131(以降、データベースはDBと省略する)の音声と、その同一のセリフを指定した感情に従ってナレータに発話してもらった音声が記憶された感情別音声DB130内の音声と、の差から韻律学習部132が韻律情報を生成し、それらを感情別韻律辞書133に登録する。ここで韻律とは、例えば声の高さ、声の大きさ、および発話速度の平均的な値や、時間的に変化する変化パタンである。感情別韻律辞書133に韻律情報が登録されるのと同時に、素片学習部134が音声波形の素片を抽出して素片辞書135に登録する。
言語解析部136にテキストが入力されると、テキストが単語に分割され、単語に発音(読み)が与えられ1つの発音情報が生成される。その発音情報が入力される韻律生成部137は、指定された発話様式の感情別韻律辞書133に基づいて、発音情報に1つの韻律情報を与える。波形生成部138は、素片辞書の中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて合成音声として出力する。
感情音声合成のための基本周波数制御、日本音響学会講演論文集2003年3月、265頁
ここで、発話様式を、例えば丁寧な人、ぞんざいな人等のような発話者の口調や、その場の状況、及び発話者の感情などを反映した発話のかたちであると定義する。この発明は、その発話様式が反映された音声が、感情や口調を反映しない平静な音声に比べると、特に発音や韻律が大きく変化することに着目する。そこで、発話様式を考慮して発音情報や韻律情報の変更を試みると、表現が多様化するために、様々な発音情報や韻律情報が求められることとなり、音声DBの中に韻律情報に十分近い音声波形が存在しない場合が発生し易くなる。このような場合、従来の音声合成方式では、発音情報は合致するが、韻律情報とは乖離(かいり)の大きな音声波形を代用して用いるため、音声波形の素片をつなぎ合わせる際に大きな不連続性などが発生し、合成音声の品質が致命的に劣化する可能性がある。
上記した従来例では、感情別韻律辞書133及び素片辞書135にデータを登録するときと、全く同じテキストが入力された時の合成音声の品質は高い。しかし、異なるテキストが入力されると、表現を多様化しているために、そのテキストと発話様式に合致した音声波形の素片が、音声DBに無い可能性が高くなる。これは、上記した素片辞書に登録される素片データの数をいくら増やしても完全に回避することは出来ない。
つまり、従来の方法では、1つの発音情報とそれに対する1つの韻律情報とに基づいて合成音声を生成するので、必要な音声波形の素片が音声DB内に無い可能性が高く、その様な場合、代用される音声波形の素片が合成音声の品質を致命的に劣化させる。
この発明は、このような点に鑑みてなされたものであり、発話様式を指定して音声合成を行なうが、品質が致命的に悪化した合成音声を出力させる可能性を低めた様式指定型音声合成方法、及びその装置、そのプログラム及びその記憶媒体を提供することを目的とする。
この発明による様式指定型音声合成装置は、テキストと、テキストで表現される内容以外の音声に変化を与える要因であるところの発話様式情報とが入力され、1つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発話様式スコアとを、発音情報生成手段が出力する。発話様式情報と発音情報を入力として、韻律情報生成手段が、発音情報のそれぞれについて1つ以上の韻律情報と、それら韻律情報それぞれについて発話様式の反映の度合いを表す韻律様式スコアとを出力する。発音情報生成手段からの発音情報と韻律情報生成手段からの韻律情報とを入力として、音声合成手段が、それぞれの上記発音情報または/及び韻律情報が異なる複数の合成音声と、それぞれの合成音声の品質の程度を表す品質スコアを出力する。複数の合成音声の中から、合成音声選択手段が、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
音声合成の評価においては、高品質で、所望の発話様式を感じられるような合成音声が求められることはもちろんである。しかし、それよりも、大きな接続歪を持ったり異音が含まれたりといった、致命的に劣化した品質の音声が少しでも出力されると、主観的な印象に大きく影響することが知られている。この発明による様式指定型音声合成装置によれば、発話情報または/及び韻律情報が異なる複数の合成音声の中から、品質スコアが閾値を超え、かつ、様式スコアの最も高い合成音声を選択するので品質がよく、かつ、指定した発話様式とよく一致した合成音声となる。しかも品質スコアが閾値を超える合成音声が無い場合も、最も品質スコアの高い合成音声を出力するため、品質スコアが致命的に低い合成音声を出力する可能性を低めることが可能となる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
この発明の様式指定型音声合成装置300の実施例1の機能構成ブロックを図1に示す。漢字かな混じりのテキストαと、テキストαで表現される内容以外の音声に変化を与える要因である発話様式情報βとが、発音情報生成手段10に入力される。発音情報生成手段10は、例えば、「私は傘をさした」のテキストαと、例えば「丁寧な」の発話様式情報βとに基づいて、複数の発音情報と発話様式スコアを韻律情報生成手段12に出力する。発音情報としては、例えば「ワタクシワ、カサヲサシタ」と「ワタシワ、カサヲサシタ」などが考えられる。「丁寧な」の発話様式情報に対する発話様式スコアは、「ワタクシワ、カサヲサシタ」の方が高くなる。
韻律情報生成手段12は、入力された発音情報それぞれに対して、複数の韻律情報を与える。例えば「丁寧な」という発話様式を反映させた音声は、通常の音声に比べればはっきりとした抑揚で発声し、通常よりも改まった発声になる。「ワタクシワ、カサヲサシタ」という発音情報に対して、抑揚を表す声の大きさや声の高さの変化幅が自然性を損なわない範囲で平均よりも大きければ、「丁寧な」という発話様式に対する韻律様式スコアは高くなる。
このような韻律情報は、1つの発音情報に対して1個以上付与される。韻律情報生成手段12は、発音情報生成手段10から入力された発音情報と発音様式スコアと、その発音情報に対して生成した韻律情報と韻律様式スコアとを、音声合成手段14に出力する。
音声合成手段14は、入力された発音情報と韻律情報に基づき全ての合成音声を合成し、各合成音声に対して品質の程度を表す品質スコアを生成する。品質スコアについては、詳しくは後述するが、例えば合成音声と韻律情報との間の基本周波数の一致度合いを反映する値である。音声合成手段14は、生成した合成音声とその品質スコアと、韻律情報生成手段から入力された発音様式スコアと韻律様式スコアと、を合成音声選択手段16に出力する。
合成音声選択手段16は、入力された合成音声の中から、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。なお、発音情報生成手段10が生成出力する発音様式スコアは、韻律情報生成手段12、音声合成手段14、合成音声選択手段16の順で転送されて行く例を示したが、図1に破線で示すように発音様式スコアを使用して合成音声を選択する合成音声選択手段16に直接出力するようにしても良い。韻律情報生成手段12が生成出力する韻律様式スコアも同様に、合成音声選択手段16に直接出力するようにしてもよい。
このようにこの実施例では、発音情報や韻律情報を唯一に定めず、複数の候補を作成し、それら全てに対する合成音声を作成した上で品質スコアが閾値を超えるもの、或いは品質スコアの最も高いものを出力するため、極端に品質の劣化した合成音声を出力する可能性が減る。
上記した実施例1の動作を整理する目的で、実施例1の動作フローを図2に示す。漢字かな混じりのテキストαと発話様式情報βが発音情報生成手段10に入力される(ステップS11)。発音情報生成手段10は、発話様式を反映した1つ以上の発音情報と発音様式スコアを生成する(ステップS12)。韻律情報生成手段12は、上記生成された発音情報に対して発話様式情報βを反映した韻律情報と韻律様式スコアを生成する(ステップS13)。音声合成手段は、発音情報と韻律情報から複数の合成音声と、その合成音声の品質スコアを生成する(ステップS14)。合成音声選択手段16は、上記合成音声中に品質スコアが閾値を越えている合成音声が在る場合は、その中の発音様式スコアと韻律様式スコアに基づいた様式スコア、つまり、様式の度合いを一番反映した合成音声を選択して出力し、品質スコアが閾値を超えるものがない場合は、品質スコアの最も高い合成音声を選択(ステップS15)して出力する(ステップS16)。
〔各機能構成ブロックの説明〕
〔発音情報生成手段〕
発音情報生成手段10の機能構成例を図3に示しその動作を説明する。テキストαと発話様式情報βは形態素解析部30に入力される。形態素解析部30は、入力された例えば、「私は傘をさした」のテキストαを単語に分割して、品詞や読み等の単語情報を付与する。このとき、形態素解析部30は、入力された発話様式情報βが例えば「丁寧な」であれば、その様式によって、読みが変わる単語を図4に示すような様式依存辞書31から読みを検索して、複数の発音情報を生成する。
発音情報としては、カタカナの列にアクセント核情報が埋め込まれた形式とし、例えば、発音情報1hであるワタシワ[00]カサオ[01]サシタ[01]と、発音情報2hであるワタクシワ[00]カサオ[01]サシタ[01]とが生成される。[]内の数字は、直前のアクセント句のアクセント核位置を示している。ワタシワの[00]は、アクセントの無い平坦な調子を意味し、アクセントの型は0型とも呼ばれる。カサオの[01]は、最初のカの音にアクセントがあることを意味する。アクセントの型は1型とも呼ばれる。その発音情報に対して、この例の場合、発音情報1hと発音情報2h、それぞれに発音様式スコア生成部が、発音様式スコアを付与する。発話様式スコアとしては、例えば図5に示すように様式依存辞書から引用したアクセント句の割合としてもよい。発音情報1hの、ワタクシワ[00]カサオ[01]サシタ[01]に対しては、3個のアクセント句の内の1個が様式依存辞書31から引用しているので、例えば発音様式スコア1sを0.33としている。
それに対して発音情報2hの、ワタシワ[00]カサオ[01]サシタ[01]に対しては、3個のアクセント句の読みを、図示しない形態素解析部30内の単語辞書から得ているので、発話様式情報βに依存していないとして発音様式スコア1sを0.0としている。
この例では、2個の発音情報1hsと2hsが生成される場合を示しているが、入力されるテキストによっては、n個の発音情報とn個の発音様式スコアが生成される。
発音情報1hsと2hsと発話様式情報βは、読み付与部33に入力され、アクセント句が結合されたことによる連濁化の調整がされる。上記した例では、連濁化の調整は必要ないが、例えば、2語が複合して1語をつくるときに下に来る語の初めの清音を濁音に変える必要が在る場合に、ここで読みが調整される。
読み付与部33においても、発話様式情報βに依存した発音情報の調整が可能である。例えば、様式依存句末長音化頻度情報34にアクセント句の語尾の引き伸ばし情報を記憶して置き、その情報に基づいて読み付与部33が語尾を変化させてもよい。例えば、「それで」と言うところを「それでー」と、句末を引き伸ばすことによっても、発話様式情報βに依存させた表現にすることが出来る。
また、例えば「やりました」に対して、よりくだけた調子の「やっちゃいました」や、「行きました」に対して「行っちゃったすよ」のように、同一の意味に対して読み付与部33が、異なる発音情報を記憶した様式依存発音変換情報35の情報に基づき、発音を変換させることでも発話様式情報βに対応させることが可能である。この場合は、発音内容に発音様式スコアは依存する。例えば、「昨日、二次会に行きました」に対して「昨日、二次会に行っちゃったすよ」は、上記したアクセント句の割合よりも、その発音が適用されたことによって、「丁寧な」の発話様式情報βに対する発音様式スコアが低下する。つまり、発音情報そのものにスコアの重み付けをしてもよい。
連濁化等の読みが調整された発音情報は発音様式スコアと共に、アクセント付与部36で発音情報全体としてアクセントをどこに置くかのアクセント型が決定され、韻律情報生成手段12に出力される。発音情報とその発音様式スコアは、発音情報生成手段10内の発音情報記憶部37に記憶しても良いし、順次、韻律情報生成手段12に出力するようにしてもよい。説明の例では、ワタクシワ[00]カサオ[01]サシタ[01]の発音情報1hと、その発話様式スコア1sの0.33との組みを発音情報1hs、及び、ワタシワ[00]カサオ[01]サシタ[01]の発音情報2hと、その発話様式スコア2sの0.0との組を発音情報2hsとしている。この発音情報1hsと2hsが、韻律情報生成手段12に入力される。
〔韻律情報生成手段〕
韻律情報生成手段12の構成例を図6に示しその動作を説明する。発音情報生成手段10で生成された発音情報1hsと2hsが順次、発音情報取得部60に取り込まれ、発音情報が韻律生成部61に入力される。韻律生成部61は、発話様式情報βに基づき代表的な発話様式を数段階の割合で強調して発声した音声から作成した韻律DB62を、参照して韻律情報を生成する。この実施例の特徴は、韻律DB62に代表的な発話様式毎に、数段階の水準を用意している点である。
韻律DB62に示すように、例えば、発話様式情報βの「丁寧な」に対して、その様式をより強調した1.0の水準と、あまり反映していない0.5の水準の2種類が用意される。他の発話様式情報βの「喜び」や「怒り」についても同様である。韻律情報とは、音声の基本周波数の変化パタンと、そのポーズの長さであるとし、例えば、横軸が時間、縦軸が基本周波数で表される図7に示すようなものとする。この韻律DB62は、従来技術で説明した感情別韻律辞書133と同様な作り方で作成され、予めハードディスク等に記憶されたものである。
「丁寧な」という発話様式については、図8中の韻律情報1aと1bに示す水準1.0(韻律様式スコア)と0.5(韻律様式スコア)の韻律情報例から理解されるように、その様式を反映している度合いの高いものを、例えば、抑揚が大きくて、ポーズをやや長めに取る様式であるとする。その場合、韻律DB62内の水準1.0は、0.5に対して基本周波数の変化幅が大きくて、ポーズの時間が長いものになる。韻律DB62は、このようなものであるので、その水準は2種類に限られることは無く、例えば0.7や0.8の水準も簡単に用意することが出来る。例えば、0.7は、1.0を100%、0.5を50%としたものに対して基本周波数の変化幅やポーズ時間を70%の大きさにすれば良い。このように韻律DB62内の発話様式情報βに対応する水準の数を増やせば、その分、韻律生成部61で生成する韻律情報を増やすことができる。
韻律生成部61は、1個の発音情報に対して複数の韻律情報を生成する。上記した発音情報1hに対して、韻律生成部61は、例えば図8に示すような韻律情報1aと1bを生成する。また、発音情報2hに対しては、韻律情報2aと2bを生成する。生成された韻律情報それぞれに対して韻律様式スコア付与部63が、韻律様式スコアを付与する。韻律情報1aには、韻律様式スコア1.0が、韻律情報1bには0.5が付与され、韻律情報2aには、韻律様式スコア1.0が、韻律情報2bには0.5が付与される。
なお、ここでは韻律情報として基本周波数の時間変化パタンおよびポーズの長さを取り上げたが、発話速度の変化パタンや音声のパワーの変化パタンなどを考慮した韻律情報生成方式も考えられる。
韻律生成部61で生成された複数の韻律情報と韻律様式スコアは、それぞれの発音情報と組になった音声合成情報として、順次、音声合成手段14に出力される。この例では、音声合成情報1gと2gの2個であり、それぞれの音声合成情報には、1個の発音情報と発音様式スコアに対して、2個の韻律情報とそれぞれの韻律スコアとが付与されている。
このような音声合成情報は、発音情報と韻律情報の組み合わせの数だけ生成される。この例の場合、発音情報1と2に対して、それぞれ2個の韻律情報が付与されているので、4個の音声合成情報1g,1g,2g,2gが生成される。n個の音声合成情報は、韻律情報生成手段12内に音声合成情報記憶部65を設け、そこで記憶しても良い。
なお、発音様式スコアと韻律様式スコアとを様式スコア生成部64で足し合わせて、1個の発話様式の反映の度合いを表す様式スコアとして音声合成情報記憶部65に記憶してもよい。
〔音声合成手段〕
音声合成手段14の構成例を図9に示しその動作を説明する。音声合成情報取得部90が、韻律情報生成手段12から音声合成情報1g〜Ng(*は1,2,…,nを省略して表す)を順次取得し、音素片選択部91に出力する。音素片選択部91は、音声合成情報1g*〜Ng*内の発音情報と韻律情報に合致する音声波形の音素片を音声DB92から読み出して、音素片接続部93に出力する。音素片接続部93は、音素片を接続して合成音声を生成し、合成音声選択手段16に出力する。
品質スコア生成部94によって、音素片接続部93で生成されたそれぞれの合成音声に対して、合成音声の品質の指標である品質スコアが付与される。品質スコアは、例えば、参考特許文献、「波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化、信学技報SP2003-81」に示されているような、基本周波数の一致度合いを数値化する方法、平均スペクトルの一致度合いを数値化する方法、スペクトルの不連続性を数値化する方法、或いはこれらを統合する方法などが考えられる。
ここで、仮に音声DB92に保持されている音声波形の音素片が、上記した音声合成情報1gの韻律情報1a及び1bと、音声合成情報2gと2gの韻律情報2a,2bに相当する音素片をほぼ含んでいるが、音声合成情報1gの韻律情報1aに含まれる「ワタクシ」の「タク」の部分に相当する音素片を含んでいなかったとする。
この場合、音声合成情報1gの韻律情報1aに基づいて合成される合成音声1aOは、その該当する音素片の無い部分に、例えば基本周波数の異なる「タ」や「ク」の音素片が用いられる。その結果、韻律情報1aと合成音声との基本周波数の一致度合いを表す品質スコアが低下する。例えば音声合成情報1gの韻律情報1aに基づく合成音声1aOの品質スコア1aQSが0.7であり、音声合成情報1gの韻律情報1bに基づく合成音声1bOと音声合成情報2g,2gに対する合成音声2aO,2bOの品質スコア1bQS、2aQS、2bQSが0.95であるとする。例えば0.7は、音素片と韻律情報との基本周波数の一致する割合が70%、0.95は95%であると言った意味を持つものである。
合成音声とその品質スコアと、発音様式スコアと韻律様式スコアとは、組みとなって合成音声情報を形成し、これら複数の合成音声情報が合成音声選択手段16に出力される。つまり、各合成音声情報には、発音様式スコアと韻律様式スコアと品質スコアが添付されて合成音声選択手段16へ出力される。従って、合成音声情報を見れば、各合成音声の品質の程度と発話様式の反映の程度が分かるようになっている。
なお、合成音声情報は、音声合成手段14内に音声合成記憶部95を設けて記憶しても良いし、順次、合成音声選択手段16に出力するようにしてもよい。
〔合成音声選択手段〕
合成音声選択手段16の構成例を図10に示しその動作を説明する。合成音声情報取得部100が、音声合成手段14から音声合成情報を取得して合成音声記憶部101に記憶する。このとき、合成音声情報取得部100内の様式スコア生成部100aが、音声合成情報それぞれに添付された発音様式スコアと韻律様式スコアとを、例えば、足し合わせて様式スコアとし、音声合成情報内の合成音声と組にして合成音声記憶部101に記憶する。
ここで、発音様式スコアと韻律様式スコアとを単純に足し合わせて様式スコアにするのでは無く、それぞれに重み付けをして発話様式にそれぞれが反映される影響度を調整するようにしても良い。例えば、発話様式スコアの方が、発話様式に反映される度合いが大きければ、例えば発話様式スコアを0.8倍し、韻律様式スコアを0.2倍に重み付けして足し合わせる。
合成音声選択部102は、合成音声記憶部101に記憶された合成音声情報の中から、品質スコアが、レジスタ102aに保持された閾値γを超え、且つ、様式スコアの最も高い合成音声を選択して出力する。閾値γを超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
合成音声選択部102の動作フローを図11に示す。まず、合成音声記憶部101内に記憶された合成音声情報の中から、最も様式スコアの高い合成音声情報を選択する(ステップS21)。その選択した合成音声情報の品質スコアが閾値γを上回るか否かが判断される(ステップS22)。選択した合成音声情報の品質スコアが、閾値γを上回る場合(Yes)、合成音声選択部102は、その選択した合成音声情報の合成音声を合成音声として出力する(ステップS25)。
閾値γを下回る場合(No)、次に様式スコアの高い合成音声を選択(ステップS24)し、ステップS22でその合成音声の品質スコアが閾値γを上回るか否かが判断され、閾値γを超えていればその合成音声を出力する(ステップS25)。
以上の動作を、合成音声選択部102は、様式スコアの低い方向に検索を繰り返し、ステップS23において、合成音声記憶部101内の全ての合成音声情報を調べたか否かを判断する(ステップS23)。全ての合成音声情報を調べていれば(Yes)、その中から最も品質スコアの高い合成音声情報の合成音声を合成音声として出力する(ステップS26)。
つまり、様式スコアが最も高い合成音声情報の品質スコアが、閾値γを上回る場合は、その合成音声を出力とし、そうでない場合は、次に様式スコアの高い合成音声を選択し、その品質スコアが閾値γを超えていればその合成音声を出力とする。この動作を繰り返し行い、品質スコアが閾値γを超える合成音声が無い場合は、品質スコアの最も高い合成音声が出力される。
一例として説明して来た各スコアの値を整理する。合成音声1aと1bの様式スコアは、合成音声1aが1.33、1bが0.83である。これは、合成音声1aと1bの発話様式スコアが共に0.33(図5を参照)で、合成音声1aの韻律様式スコア1aRSが1.0(図8を参照)、合成音声1bの韻律様式スコア1bRSが0.5であることによる。
合成音声2aと2bの様式スコアは、合成音声2aが1.0、2bが0.5である。これは、合成音声2aと2bの発音様式スコアが共に0.0で、合成音声2aの韻律様式スコア2aRSが1.0、合成音声2bの韻律様式スコア2bRSが0.5であることによる。
各合成音声1a〜2bの品質スコアは、上記したように韻律情報1aに合致する音素片が無い合成音声1aの品質スコアが0.7で最も低く、他の合成音声1bと2aと2bの品質スコアは0.95である。
この状況で、閾値γを例えば、0.8とすると、最も様式スコアの高い合成音声は、合成音声1aと判定される。しかし、合成音声1aは、その品質スコア1aQSが0.7であるので、合成音声選択部102において、品質が基準を満たさないと判定され、合成音声出力として選択されない。
その次に様式スコアの高い合成音声は、様式スコアが1.0の合成音声2aであり、この品質スコア2aQSは閾値γを上回る0.95である。従って、合成音声2aが選択されて出力される。
上記したような例の場合、従来の技術では、1個の発音情報と1個の韻律情報とに基づいて合成された品質スコアの低い合成音声1aが出力されていた。
それに対して、この実施例1による様式指定型音声合成装置では、複数の発音情報それぞれに対して複数の韻律情報に基づいて生成した複数の合成音声のそれぞれについて品質スコアを計算し、品質スコアと様式スコアの双方を考慮して1個の合成音声を選択するので、品質スコアが致命的に低い合成音声を出力する可能性を低めることができる。
なお、実施例1においては、1個の発音情報に対して複数の韻律情報の合成音声を生成する例で説明を行ったが、複数の発音情報に対して1個の韻律情報を適用して合成音声を生成してもよい。これを簡潔に表現すると、発音情報または/及び韻律情報が異なる複数の合成音声となる。
また、この発明によれば、合成音声の品質と、所望の発話様式のどちらを重視するかを、合成音声選択手段16で用いる閾値γの値で操作することができる。所望の発話様式にできるだけ近い合成音声を得るか、発話様式はあまり反映されなくても品質劣化を避けたいかの判断は、音声合成を用いるアプリケーションに強く依存する。この発明によれば、閾値γを高めに設定すれば低い品質の合成音声が出力することを避けることができ、また、閾値γを低めに設定すれば、多少品質が低くとも所望の発話様式を強く反映した合成音声が得られる。したがって、この発明の様式指定型音声合成装置は、アプリケーションの要求に応じて容易に挙動を変更することが出来る。
上記した様式指定型音声合成方法を整理する。図12に様式指定型音声合成方法の動作フローを示して説明する。まず始めに、発音情報生成過程120において、発音情報生成手段10は、入力されるテキストαと発話様式情報βに基づいて1つ以上の発音情報と上記発音情報それぞれに対応しテキストで表現される内容以外の音声に変化を与える要因を表す発音様式スコアとを生成する。
次に韻律情報生成過程121において、韻律情報生成手段12は、発音情報生成手段からの複数の発音情報と複数の発音様式スコアとが入力され、発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する。
次に音声合成過程122において、音声合成手段14は、韻律情報生成手段12からの発音情報と発音様式スコアと、韻律情報と韻律様式スコアとが入力され、発音情報それぞれについてそれぞれの韻律情報に従った複数の合成音声を生成する。
次に合成音声選択過程123において、発音様式スコアと、韻律様式スコアと、品質スコアとを入力とし、品質スコアが閾値γを超える上記合成音声の中から発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
以上の実施例1の他、この発明である各手段と装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、実施例1で示した発音情報に韻律情報を付与する方法以外の方法として、韻律DB62内には発話様式情報に対する上限下限の2水準を用意し、その2水準の間の韻律情報を韻律生成部61が計算して求める方法も考えられる。
また、上記各手段と装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各手段と装置及び方法における処理機能をコンピュータによって実現する場合、様式指定型音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記様式指定型音声合成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記録しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の様式指定型音声合成装置の実施例1の機能構成ブロックを示す図。 実施例1の動作フローを示す図。 この発明の発音情報生成手段10の機能構成例を示す図。 様式依存辞書31の一例を示す図。 この発明の発音情報の一例を示す図。 この発明の韻律情報生成手段12の機能構成例を示す図。 韻律情報の一例を示す図。 この発明の韻律生成部60が生成する韻律情報の一例を示す図。 この発明の音声合成手段14の機能構成例を示す図。 この発明の合成音声選択手段16の機能構成例を示す図。 合成音声選択部102の動作フローの一例を示す図。 この発明の様式指定型音声合成方法のフローを示す図。 非特許文献1に開示された従来の様式依存音声合成装置を示す図。

Claims (8)

  1. テキストと、テキストで表現される内容以外の音声に変化を与える要因であるところの発話様式情報とが入力され、1つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発音様式スコアと、を生成出力する発音情報生成手段と、
    上記発話様式情報と、上記発音情報生成手段からの上記発音情報とを入力として、上記発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアと、を生成出力する韻律情報生成手段と、
    上記発音情報生成手段からの上記発音情報と、上記韻律情報生成手段からの韻律情報とを入力として、上記発音情報または/及び韻律情報が異なる複数の合成音声と、それぞれの合成音声信号の品質の程度を表す品質スコアを生成出力する音声合成手段と、
    上記音声合成手段から上記合成音声と上記品質スコアとが入力され、上記合成音声の中から、上記品質スコアが閾値を超え、且つ、上記発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する合成音声選択手段と、
    を具備する様式指定型音声合成装置。
  2. 請求項1に記載の様式指定型音声合成装置において、
    上記韻律情報生成手段における上記韻律情報の生成は、上記発話様式情報の発話様式を数段階の割合で強調した韻律データベースを参照して生成することを特徴とする様式指定型音声合成装置。
  3. 請求項1又は2に記載の様式指定型音声合成装置において、
    上記様式スコアを、上記発音様式スコアと上記韻律様式スコアの重み付け和として求める様式スコア生成部を備えることを特徴とする様式指定型音声合成装置。
  4. 請求項1乃至3の何れかに記載の様式指定型音声合成装置において、
    上記発音情報生成手段における上記発音様式スコアは、発話様式に依存して異なる発音を記録した様式依存辞書から、その発音を適用した単語の数の度合いを生成し、
    上記韻律情報生成手段における上記韻律様式スコアは、上記発話様式情報の発話様式の強調割合を生成したものであることを特徴とする様式指定型音声合成装置。
  5. 請求項1乃至4に記載の様式指定型音声合成装置において、
    上記閾値は、外部から設定可能であることを特徴とする様式指定型音声合成装置。
  6. 発音情報生成手段が、入力されたテキストと音声に変化を与える要因である発話様式情報に対し、1つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発音様式スコアとを生成する発音情報生成過程と、
    韻律情報生成手段が、上記発話様式情報と、上記発音情報とから、上記発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する韻律情報生成過程と、
    音声合成手段が、上記発音情報と上記韻律情報とから、上記発話情報または/及び韻律情報が異なる複数の合成音声信号を生成し、かつその合成音声信号の品質の程度を表す品質スコアを生成する音声合成過程と、
    合成音声選択手段が、上記合成音声中から、上記品質スコアが閾値を超え、かつ発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択する合成音声選択過程と、
    を有する様式指定型音声合成方法。
  7. 請求項1乃至5の何れかに記載した各装置としてコンピュータを機能させるための様式指定型音声合成プログラム。
  8. 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記憶媒体。
JP2006189291A 2006-07-10 2006-07-10 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 Expired - Fee Related JP4648878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006189291A JP4648878B2 (ja) 2006-07-10 2006-07-10 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006189291A JP4648878B2 (ja) 2006-07-10 2006-07-10 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体

Publications (2)

Publication Number Publication Date
JP2008015424A JP2008015424A (ja) 2008-01-24
JP4648878B2 true JP4648878B2 (ja) 2011-03-09

Family

ID=39072471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006189291A Expired - Fee Related JP4648878B2 (ja) 2006-07-10 2006-07-10 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体

Country Status (1)

Country Link
JP (1) JP4648878B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2010039289A (ja) * 2008-08-06 2010-02-18 Toshiba Corp 携帯型電子機器
US20110196680A1 (en) * 2008-10-28 2011-08-11 Nec Corporation Speech synthesis system
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH10222187A (ja) * 1996-12-04 1998-08-21 Just Syst Corp 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2004294577A (ja) * 2003-03-26 2004-10-21 Fujitsu Ltd 文字情報音声変換方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH10222187A (ja) * 1996-12-04 1998-08-21 Just Syst Corp 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2004294577A (ja) * 2003-03-26 2004-10-21 Fujitsu Ltd 文字情報音声変換方法

Also Published As

Publication number Publication date
JP2008015424A (ja) 2008-01-24

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
EP2140447B1 (en) System and method for hybrid speech synthesis
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US20200410981A1 (en) Text-to-speech (tts) processing
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20150228271A1 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
EP1589524B1 (en) Method and device for speech synthesis
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
EP1640968A1 (en) Method and device for speech synthesis
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH1097268A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees