JPH10254471A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH10254471A
JPH10254471A JP9061037A JP6103797A JPH10254471A JP H10254471 A JPH10254471 A JP H10254471A JP 9061037 A JP9061037 A JP 9061037A JP 6103797 A JP6103797 A JP 6103797A JP H10254471 A JPH10254471 A JP H10254471A
Authority
JP
Japan
Prior art keywords
prosody
evaluation
rule
parameter
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9061037A
Other languages
English (en)
Inventor
Shinko Morita
眞弘 森田
Shigenobu Seto
重宣 瀬戸
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9061037A priority Critical patent/JPH10254471A/ja
Publication of JPH10254471A publication Critical patent/JPH10254471A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】韻律パラメータの最適化のための評価に用いる
評価関数自体を最適化できるようにする。 【解決手段】各種学習用テキスト情報からパラメータ生
成部23により韻律規則で適用する韻律パラメータ値を
切り替えながら順次生成される韻律パラメータ時系列
と、対応する自然音声データからパラメータ分析部24
により生成される韻律パラメータ時系列とを、評価部2
51にて所定の評価関数を用いて順に比較評価し、その
評価値をもとにパラメータ生成規則学習部26にて該当
韻律規則で適用する最適韻律パラメータ値を決定する。
また学習部26は、パラメータ生成部23で順次生成さ
れる韻律パラメータ時系列をもとに対応する合成音声を
オペレータ試聴評価のために出力させ、その試聴評価結
果と対応する評価関数を用いた評価部251での評価結
果とが無矛盾となる方向に評価関数を修正する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力されたテキス
ト情報から合成音声の音韻、韻律に関する情報を生成し
て、その情報をもとに合成音声の各音韻の韻律パラメー
タ値及び音韻記号を決定し、その韻律パラメータ値及び
音韻記号に基づいて音声合成に必要な音声パラメータを
生成して当該音声パラメータをもとに合成音声を出力す
る音声合成装置に係り、特に韻律パラメータの最適化、
韻律規則の最適化に好適な音声合成装置に関する。
【0002】
【従来の技術】テキスト情報からの音声合成は、音韻面
と韻律面の2つの特徴を制御することによって実現する
のが一般的である。このうち音韻面の自然性は、近年の
ハードウェア技術の進歩により飛躍的に向上してきた。
【0003】もともと、テキスト情報から韻律規則(韻
律パラメータ生成規則)により韻律制御モデルにおける
韻律パラメータを生成し、そのパラメータを韻律制御モ
デルに適用することで韻律パラメータ時系列を生成して
音声波形を生成する一連の音声合成の処理の流れの中
で、韻律の制御に関しては、テキスト情報から韻律パラ
メータを生成するまでの処理(全般の処理)のウエイト
が大きい。一方、音韻面の制御に関しては、韻律パラメ
ータから音声波形の生成までの処理(後半の処理)のウ
エイトが大きい。このため、扱うデータサイズが大きく
なる後半の処理はハードウェアの制約を大きく受けてい
た。
【0004】しかし現在は、音韻の自然性を保持・再合
成するのに十分な記憶容量・処理速度が容易に実現で
き、全般に自然な音韻性を持つ合成音が得られるように
なってきている。このため、韻律面の制御に失敗して不
自然さが目立つことのないよう、韻律制御の品質向上が
大きな課題となっている。
【0005】韻律制御とは、入力されたテキスト情報を
解析することによって得られる言語・音韻的な属性の並
びから、予め用意した韻律規則(韻律パラメータ生成規
則)により、ピッチや音韻時間長、ポーズ長、パワーな
どの、韻律制御モデルにおけるモデルパラメータ、即ち
韻律パラメータへ変換する処理のことである。この韻律
制御の品質を向上するには、自然な合成音声を生成する
ように韻律規則を最適化(チューニング)する必要があ
る。
【0006】従来、韻律制御の品質向上には、テキスト
解析によって得た言語・音韻的な属性の特徴的な並びに
着目して、その並びに対して少数の自然音声データの分
析を行なって得た韻律パラメータにマッピングする対応
関係を定義させる問題として扱うアプローチをとってい
た。しかしながら、この対応関係は、着目している属性
の並びがその韻律的な特徴を顕在化させる主要因である
という仮定のもとに定義されたに過ぎず、拠り所となる
自然音声データの分析例が少数であるほど、その妥当性
は希薄になるという問題があった。
【0007】このため、最近では、比較的規模の大きい
自然音声とその分析データを集めた音声コーパスを用い
て、その統計的な傾向を規則として扱うアプローチが増
えてきている。この方法は、韻律的な特徴を顕在化させ
る主要因が何であるかを、規模の大きいコーパスを統計
的に分析した結果に基づいて評価しているため、得られ
る規則の妥当性は比較的高いといえる。但し、大量のデ
ータを統計的に扱うために、予め定義した客観的な尺度
に基づいて評価値を算出する(即ちスコアリングする)
が、この尺度が主観的な聞こえにどう効いてくるかにつ
いては直接的な対応が明確でないという問題がある。ま
た、この方法により作成した規則の性能はコーパスのデ
ータ量をどれだけ充実できるかに依存するが、規摸が大
きく、バリエーションも豊富で、しかも品質的に均質な
コーパスを作成することは、多大な労力が必要となるた
めに実現が困難であるという問題もある。
【0008】このような問題意識から、大規模コーパス
を整備するプロジェクトが運営されて研究用として提供
されているが、扱うトピックや文体は比較的「質が良
い」文であって、計算機ネットワークを通じて流通量が
増え続ける様々なテキストの文体も含めて考えると、や
やバランスに欠けると言えなくもない。
【0009】以上のことから、韻律制御の品質向上の問
題は、同種の文例を大量に集めて同時に考慮すること、
様々な文体・新たな文例を取り込む柔軟性を有するこ
と、主観的な聞こえにどう効いてくるかについてをいか
に反映させるか、また、韻律的な特徴を顕在化させる主
要因が何であるかの選択が恣意的でないように、統計的
な視点で判断する、などを考慮して解く必要がある。
【0010】
【発明が解決しようとする課題】しかしながら従来技術
にあっては、少数の自然音声データの解析によって一意
に決定された韻律パラメータ値を用いているため、想定
していない文例に対して、不適切なパラメータを決定す
ることが多いという問題があった。また、一意に決定さ
れているため、あらゆる文に対して最適なパラメータと
なるかはわからないという問題があった。
【0011】そこで、韻律パラメータの最適化を自動的
に行なう従来技術の例もある。しかし、この種の従来技
術では、自然音声データから推定される(アクセント指
令値、フレーズ指令値等からなる)韻律パラメータ(モ
デルパラメータ)と、当該自然音声データに対応するテ
キスト情報から音声合成装置内で音声合成用に決定され
る韻律パラメータとの、パラメータ同士の比較を評価に
用いるため、韻律パラメータの時間変化が考慮されてい
ないという問題があった。また、基本周波数制御パラメ
ータのように自然音声データからモデルパラメータに変
換するのが容易でないものもあり、多量のデータを収集
するのが容易ではないという問題があった。
【0012】また、自然音声データから比較的容易に分
析できる韻律パラメータ時系列と、合成装置内で決定さ
れる韻律パラメータ時系列という時系列同士の比較を評
価に用いる従来技術の例もわずかながらある。しかし、
このような従来技術にあっては、基本周波数パラメータ
の最適化を例にとると、評価関数として二乗誤差総和を
単純に用いており、自然音声データの無声区間でのデー
タ欠落や、子音などによる局所変動、知覚的に影響の少
ない部分での誤差などの影響を受けやすいという問題が
あった。
【0013】また従来技術にあっては、不適切な韻律規
則の発見、改良が容易ではないという問題もあった。ま
た従来技術にあっては、自然音声データの不足する韻律
規則の最適化が行なえないという問題もあった。
【0014】本発明は上記事情を考慮してなされたもの
でその目的は、韻律パラメータの最適化のための評価に
用いる評価関数自体を最適化できる音声合成装置を提供
することにある。
【0015】本発明の他の目的は、不適切な韻律規則を
抽出して改良することができる音声合成装置を提供する
ことにある。本発明の更に他の目的は、韻律規則で考慮
されていない韻律パラメータ決定要因の要素を用いてク
ラスタリングを行ない、韻律規則を分割した方が評価値
が良くなる場合には当該韻律規則の分割を行なうことが
できる音声合成装置を提供することにある。
【0016】本発明の更に他の目的は、自然音声データ
の不足した韻律規則に関してオペレータによる試聴評価
を利用することで、その韻律規則の最適化を行なうこと
ができる音声合成装置を提供することにある。
【0017】
【課題を解決するための手段】本発明の第1の観点に係
る音声合成装置は、種々の学習用テキスト情報を順次解
析して、合成音声の音韻、韻律を表す情報を生成するテ
キスト解析手段と、韻律パラメータ生成のための各種韻
律規則が予め登録されている韻律規則記憶手段と、上記
テキスト解析手段により生成された上記情報、及び上記
韻律規則記憶手段に登録されている対応する韻律規則を
もとに、当該韻律規則で適用する韻律パラメータ値を予
め定められた複数候補の中から順次選択しながら音声合
成用の第1の韻律パラメータ時系列を順に生成するパラ
メータ時系列生成手段と、上記学習用テキスト情報に対
応する自然音声データを分析して第2の韻律パラメータ
時系列を生成するパラメータ分析手段と、このパラメー
タ分析手段により生成される第2の韻律パラメータ時系
列と上記パラメータ時系列生成手段により韻律パラメー
タ値を切り替えながら順に生成される第1の韻律パラメ
ータ時系列とを所定の評価関数を用いて比較評価する評
価手段と、この評価手段の評価結果をもとに対応する韻
律規則で適用する韻律パラメータ値を最適化する韻律パ
ラメータ値学習手段と、上記パラメータ時系列生成手段
により生成される第1の韻律パラメータ時系列をもとに
対応する合成音声をオペレータによる試聴評価のために
出力させる試聴評価要求手段と、上記オペレータによる
試聴評価結果が入力されるオペレータ入力手段と、この
オペレータ入力手段から入力されたオペレータによる試
聴評価結果と対応する上記評価手段の評価結果とが無矛
盾となる方向に上記評価関数を修正する評価関数学習手
段とを備えたことを特徴とする。
【0018】ここで、韻律パラメータ値の最適化には、
各韻律パラメータ値の候補ごとに評価関数の値の例えば
平均値(総和だけでもよい)を求めて、その値が最良と
なる韻律パラメータを求めればよい。
【0019】このような構成においては、自然音声デー
タから得られる韻律パラメータ時系列と、その自然音声
データに対応するテキスト情報から音声合成のために得
られる韻律パラメータ時系列との比較により韻律パラメ
ータの評価が行なわれると共に、この評価(客観評価)
の結果とオペレータの試聴による評価(主観評価)の結
果の相関が考慮される結果、両結果の間で矛盾が生じに
くい評価関数が得られ、評価関数自体を最適化すること
が可能となる。ここで評価関数の最適化には、基準の評
価関数に重み(初期値は例えば1)を持たせ、客観評価
結果を対応する主観評価結果がよいグループと悪いグル
ープとに(予め定められた閾値で)2分した場合に、両
グループの客観スコアの分布の統計的な差が予め定めら
れた閾値より大きくなるような重みを選択し、その選択
した重みを持つ重み付き評価関数を採用すればよい。
【0020】本発明の第2の観点に係る音声合成装置
は、上記第1の観点に係る音声合成装置における上記試
聴評価要求手段に代えて、上記評価手段の評価結果を統
計処理して不適切な韻律規則を検出し、当該規則を修正
して、その修正後の規則を適用した上記音声合成用の第
1の韻律パラメータ時系列を上記パラメータ時系列生成
手段により生成させて対応する合成音声をオペレータに
よる試聴評価のために出力させる試聴評価要求手段を設
けると共に、上記第1の観点に係る音声合成装置におけ
る上記評価関数学習手段に代えて、上記オペレータ入力
手段から入力されたオペレータによる試聴評価結果をも
とに上記不適切な韻律規則を修正・最適化する韻律規則
学習手段を設けたことを特徴とする。
【0021】ここで不適切な韻律規則の検出には、当該
規則が適用されたそれぞれのテキスト情報(文例)に対
する最適なパラメータ値の分散を求め、その分散が予め
定められた閾値以上であるか否かを判断すればよい。
【0022】このような構成においては、不適切な韻律
規則を抽出して改良することができる。本発明の第3の
観点に係る音声合成装置は、上記第2の観点に係る音声
合成装置に、上記評価手段の評価結果及び上記オペレー
タ入力手段から入力されたオペレータによる試聴評価結
果を、対応する韻律規則ごとに、当該規則で考慮された
韻律パラメータ決定要因の要素及び該当するテキスト情
報で決まる当該規則で非考慮の他の韻律パラメータ決定
要因の要素とを組にして記憶しておくための評価結果記
憶手段を設けると共に、上記第2の観点に係る音声合成
装置における上記韻律規則学習手段に代えて、上記評価
結果記憶手段に記憶されている上記評価手段の評価結果
を統計処理して不適切な韻律規則を検出し、当該規則で
非考慮の韻律パラメータ決定要因の要素を用いてクラス
タリングを行なうことで、そのクラスタリング結果をも
とに当該規則を分割する韻律規則学習手段を設けたこと
を特徴とする。
【0023】ここで、韻律規則学習手段を、上記評価結
果記憶手段に記憶されている評価手段の評価結果を統計
処理して不適切な韻律規則を検出し、当該規則で非考慮
の韻律パラメータ決定要因の要素を用いてクラスタリン
グを行なうクラスタリング手段と、このクラスタリング
手段のクラスタリング結果の分布が複数に別れている場
合に、各分布ごとにその分布の重心に最も近いテキスト
情報を選択すると共に、対応する韻律規則を分割して新
たな複数の韻律規則を生成する韻律規則分割手段とで構
成し、上記韻律規則分割手段により選択された各テキス
ト情報に対応する上記第1の韻律パラメータ時系列を、
上記韻律規則分割手段により生成された各韻律規則に従
って上記パラメータ時系列生成手段にて生成させて、対
応する合成音声をオペレータによる試聴評価のために出
力させ、上記韻律規則分割手段では、自身が選択した各
テキスト情報についてのオペレータによる試聴評価結果
をもとに上記生成した複数の韻律規則を採用するか否か
を決定するようにするとよい。
【0024】このような構成においては、韻律規則で考
慮されていない韻律パラメータ決定要因(考慮した方が
良いかもしれない韻律パラメータ決定要因)の要素を用
いてクラスタリングが行なわれ、韻律規則を分割した方
が評価値が高くなる場合には当該韻律規則が分割され、
韻律規則の最適化が図れる。
【0025】また、上記第1乃至第4の観点に係る音声
合成装置のいずれかの試聴評価要求手段に、学習用テキ
スト情報に対応する自然音声データの数が予め定められ
た閾値以下の場合、上記学習用テキスト情報に対応する
合成音声をオペレータによる試聴評価のために出力させ
る機能を持たせると共に、上記韻律パラメータ値学習手
段に、上記オペレータによる試聴評価結果及び評価手段
の評価結果をもとに対応する韻律規則で適用する韻律パ
ラメータ値を最適化する機能を持たせたことを特徴とす
る。
【0026】このような構成においては、自然音声デー
タの不足した韻律規則に関してオペレータによる試聴評
価を利用することで、その韻律規則の最適化を行なうこ
とができる。
【0027】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図1は本発明の一実施形態に
係る音声合成装置の構成を示すブロック図である。
【0028】図1に示す音声合成装置は、テキスト入力
部1、パラメータ生成・評価部2、合成器3、音声合成
単位辞書4、及び音声出力部5から構成されており、任
意のテキスト情報から合成音声を出力するものである。
この音声合成装置でのテキスト情報からの合成音声の出
力は、次のように行なわれる。
【0029】まずテキスト入力部1は、音声合成の対象
となる任意のテキスト情報(以下、単にテキストと称す
る)の入力を司る。このテキスト入力部1は、オペレー
タ(ユーザ)操作によりテキスト(を構成する例えば漢
字仮名混じり文)の入力が可能なキーボード、テキスト
の保存と、その保存テキストの読み出しが可能なハード
ディスク装置、CD−ROM装置等の外部記憶装置、或
いはネットワーク等を介して転送されるテキストを受信
して入力することが可能な通信インタフェース等を用い
て実現される。
【0030】テキスト入力部1により任意のテキストが
入力されると、その入力テキストは、パラメータ生成・
評価部2に設けられたパラメータ生成部23内のテキス
ト解析部231に与えられる。テキスト解析部231
は、この入力テキストを対象とする形態素解析、構文解
析等を行なうことで、合成音声の音韻、韻律に関する情
報を生成する。この音韻、韻律に関する情報は、パラメ
ータ時系列生成部232に与えられる。
【0031】パラメータ時系列生成部232は韻律パラ
メータの生成機能と音韻記号の生成機能とを有してお
り、テキスト解析部231から与えられた音韻、韻律に
関する情報と、韻律規則記憶部233に格納されている
韻律規則(韻律パラメータ生成規則)とに基づいて、各
音韻の基本周波数(ピッチ周波数)、継続時間長、パワ
ー、ポーズなどの韻律パラメータの時系列を生成すると
共に、音韻記号列を生成する。この韻律パラメータ時系
列及び音韻記号列は合成器3に与えられる。
【0032】合成器3は、音声パラメータ生成機能と音
声合成機能とを有しており、パラメータ時系列生成部2
32から与えられた音声記号列に従って、合成に必要な
音声合成単位を音声合成単位辞書4から選択し、その選
択した音声合成単位をパラメータ時系列生成部232か
ら与えられた韻律パラメータ時系列に従って接続して、
音声パラメータの時系列を生成する。ここで、音声合成
単位辞書4に格納(登録)されている音声合成単位は、
例えば、アナウンサ等が発声した音声を分析した所定の
音声の特徴パラメータを得た後、日本語の音節単位など
の所定の合成単位で、日本語の音声に含まれる全ての音
節を上記特徴パラメータから切り出すことにより作成さ
れた音声素片である。音声合成単位辞書4は、ハードデ
ィスク装置、ROM等を用いて実現される。
【0033】合成器3は、生成した音声パラメータの時
系列に基づいて音声を合成する。合成器3により合成さ
れた音声は音声出力部5に与えられてD/A(ディジタ
ル/アナログ変換)された後、合成音声としてスピーカ
等から出力される。
【0034】以上、図1の音声合成装置において入力テ
キストから合成音声を生成する従来からよく知られてい
る動作につき説明した。次に、図1の音声合成装置の特
徴である韻律規則の評価・学習機能について説明する。
【0035】まず、パラメータ生成・評価部2は、テキ
ストデータ記憶部21及び音声データ記憶部22を含ん
でいる。テキストデータ記憶部21には学習に用いるテ
キストデータが格納されており、音声データ記憶部22
には、テキストデータ記憶部21に記憶されたテキスト
データに対応する音韻ラベル情報付きの音声データ(自
然音声データ)が格納されている。
【0036】本実施形態では、前記した入力テキストか
ら合成音声を生成するモード(通常モード)と、韻律規
則記憶部233に格納されている韻律規則の学習を行な
う学習モードとが選択指定できるようになっている。こ
こでは、オペレータからの特別の指定がない状態(例え
ばシステム立ち上げ時)では通常モードが自動設定され
る。通常モードから学習モードへの切り替えと、学習モ
ードから通常モードへの切り替えは、オペレータ入力部
28からの選択指定が必要となる。また、学習モードで
は、韻律規則の特殊化を自動的に行なう規則特殊化自動
モードと、オペレータによる試聴評価を要求し、その評
価結果を考慮して韻律規則の特殊化を行なう規則特殊化
オペレータ介在モードとが選択指定可能である。この規
則特殊化自動モードと規則特殊化オペレータ介在モード
については後述する。
【0037】学習モードでは、パラメータ生成部23内
のテキスト解析部231は、パラメータ生成規則学習部
26の制御のもとで、テキストデータ記憶部21に格納
されている学習用テキストデータを読み込んで周知の形
態素解析、構文解析等を行ない、テキストデータ(文)
中の各アクセント単位に対して、読み情報、文法属性
(品詞等)、アクセント型、モーラ数などの音韻、韻律
に関する情報を付与する。テキスト解析部231は、学
習用テキストデータについての音韻、韻律に関する情報
を取得すると、その情報をパラメータ時系列生成部23
2に与える。
【0038】パラメータ時系列生成部232は、テキス
ト解析部231から音韻、韻律に関する情報が与えられ
ると、ハードディスク装置等の外部記憶装置を用いて実
現される韻律規則記憶部233をアクセスする。この韻
律規則記憶部233には、基本周波数、音韻継続時間
長、ポーズ長、パワーなどの韻律に関する韻律規則(韻
律パラメータ生成規則)の集合が格納されている パラメータ時系列生成部232は、テキスト解析部23
1から与えられた音韻、韻律に関する情報をもとに、韻
律規則記憶部233の中から対応する韻律規則を選択
し、その韻律規則を当該情報に適用して、基本周波数、
音韻継続時間長、ポーズ長、パワーといった韻律パラメ
ータの時系列を生成する。ここで、基本周波数に関して
は、基本周波数パターンを話調成分とアクセント成分の
和であると仮定する重畳モデルなどの韻律制御モデル、
例えば藤崎モデル(電子情報通信学会論文誌 A Vol.J7
2-A No.1 pp32-40 1989-01)で記述され、韻律規則によ
ってフレーズ指令値(例えばフレーズ指令の大きさ、フ
レーズ指令の時点)、アクセント指令値(アクセント指
令の大きさ、アクセント指令の始点並びに終点)など、
当該モデルにおけるモデルパラメータ(韻律パラメー
タ)が決定され、しかる後に韻律規則によって決定され
た韻律パラメータをパラメータ時系列生成部232にお
いて当該モデルに適用することで、韻律パラメータ時系
列が生成される。
【0039】パラメータ生成・評価部2はまた、パラメ
ータ分析部24、パラメータ生成規則評価部25、及び
パラメータ生成規則学習部26を含んでいる。パラメー
タ分析部24は、学習モードにおいてパラメータ生成規
則学習部26により起動され、テキスト解析部231に
より解析されてパラメータ時系列生成部232により韻
律パラメータ時系列に変換された学習用テキストデータ
に対応する音韻ラベル情報付きの音声データを読み込ん
で分析することで、対応する分析パラメータ時系列(韻
律パラメータ時系列)を生成する。
【0040】学習モードにおいて、パラメータ時系列生
成部232により生成された韻律パラメータ時系列は、
パラメータ生成規則評価部25内の評価部251に与え
られる。この評価部251には、パラメータ分析部24
での分析により生成された(上記パラメータ時系列生成
部232からの韻律パラメータ時系列に対応する)韻律
パラメータ時系列も与えられる。
【0041】評価部251は、パラメータ時系列生成部
232からの韻律パラメータ時系列とパラメータ分析部
24からの韻律パラメータ時系列(分析パラメータ時系
列)とを、着目する韻律規則の韻律パラメータの影響が
及ぶ範囲内で比較して、評価スコア(評価値)を算出す
る。ここで、着目する韻律規則の韻律パラメータの影響
が及ぶ範囲とは、その韻律パラメータを何通りか変化さ
せたとき、その結果生成される合成音声に人間が聞き分
けられる大きさ以上の変化が生じるような時間範囲のこ
とである。例えば基本周波数の場合では、数Hz以上、
あるいは数%以上の変化が生じる範囲などと定義するこ
とができる。また、評価スコアは、(継続時間長、パワ
ー等の)韻律パラメータ種別ごとに用意された評価関数
によって与えられる。評価部251で算出された評価ス
コアは、パラメータ生成規則評価部25内の評価結果記
憶部252に、適用韻律規則、対象テキストデータ、適
用韻律パラメータ値に対応させて格納される。
【0042】以上の動作は、着目する韻律規則ごとに、
パラメータ時系列生成部232で適用する韻律パラメー
タ値を予め用意されている複数の候補の中からパラメー
タ生成規則学習部26の制御により順次切り替えなが
ら、繰り返し行なわれる。
【0043】パラメータ生成規則評価部25には、統計
的規則評価部253が設けられている。統計的規則評価
部253は、評価結果記憶部252に格納されている評
価スコアを各韻律規則ごとに統計的に分析する。
【0044】パラメータ生成規則学習部26は、統計的
規則評価部253の評価結果等に従って、韻律規則記憶
部233に格納されている対応する韻律規則(韻律パラ
メータ生成規則)、或いは当該規則で適用する韻律パラ
メータ値を修正する。パラメータ生成規則学習部26は
また、不適切な韻律規則(これの定義については後述す
る)を検出した場合には、CRTディスプレイ、液晶デ
ィスプレイ等を用いて構成される情報提示部27に当該
規則を表示することで、オペレータに当該規則を提示
し、加えてオペレータに試聴評価を促す。
【0045】この際、パラメータ生成規則学習部26
は、不適切な(問題のある)韻律規則が適用されるテキ
ストデータをテキスト解析部231により順次解析させ
て、パラメータ時系列生成部232により対応する韻律
パラメータ時系列を生成させる制御動作を、当該韻律規
則で適用する韻律パラメータ値を複数の候補の中から選
択的に切り替えながら繰り返す。ここで、他の韻律規則
で適用する韻律パラメータ値には、即ち試聴する範囲の
音に影響する、着目していない韻律規則の韻律パラメー
タには、その時点で最適とされている韻律パラメータ値
が用いられる。
【0046】なお、試聴評価用の合成音の生成に、自然
音声データを用いるようにしても構わない。即ち自然音
声データの韻律を、着目する韻律パラメータの影響の及
ぶ範囲に関して、パラメータ生成部23で生成された韻
律パラメータ時系列に従って変更し、それによって生成
される合成音をオペレータに試聴させるようにしても構
わない。
【0047】例えば、着目する韻律パラメータが、ある
韻律規則によって決定されるアクセント指令値の大きさ
の場合、まず自然音声データを分析して基本周波数の時
系列を抽出する一方で、パラメータ生成部23では該当
アクセント指令を含むアクセント句(1アクセントを含
む句)のアクセント成分時系列を生成する。このとき、
アクセント指令の始点及び終点は自然音声データに付与
された音韻ラベルを参照することによって、自然音声デ
ータに対応したものにする。次に、自然音声データから
分析された基本周波数の時系列において、上記パラメー
タ生成部23で生成されたアクセント成分時系列中のア
クセント成分0の時点に対応する基本周波数を直線で近
似したものを話調成分と見なし、上記アクセント句に対
応する部分に関して話調成分以外を取り除いた後、代わ
りにパラメータ生成部23で生成されたアクセント成分
時系列を加算する。なおこの際、該当アクセント指令値
を切り替えて同様の基本周波数の時系列を生成したと
き、いずれかのパラメータ値のときに元の自然音声デー
タの基本周波数の時系列との誤差がある閾値以下である
こと、即ち仮定した話調成分が不適切でないことを確認
した方が良い。こうして生成された基本周波数の時系列
に合わせて、音声データの波形を変える(TD-PSOLA法
Speech Commun. 9,453-467,1990 )ことによって生成さ
れる合成音を、オペレータに試聴させる。
【0048】パラメータ時系列生成部232では、韻律
パラメータ時系列と共に音韻記号列が生成される。韻律
パラメータ時系列はパラメータ生成規則評価部25(内
の評価部251)に与えられる他、通常モードと同様に
対応する音韻記号列と共に合成器3にも与えられる。す
ると合成器3では、韻律パラメータ時系列及び音韻記号
列に基づいて音声合成に必要な音声パラメータの時系列
が生成されて音声が合成され、音声出力部5により合成
音声が出力される。これによりオペレータは、問題のあ
った韻律規則を適用して、韻律パラメータ値の候補(着
目する韻律パラメータ値)を順次切り替えながら韻律制
御を行なった場合の、各合成音声を逐次試聴して評価す
ることができる。
【0049】オペレータによる試聴評価の結果(主観ス
コア)はオペレータ入力部28を介して入力され、評価
結果記憶部252に格納される。また、試聴評価の結果
はパラメータ生成規則学習部26に渡され、当該学習部
26での韻律規則の修正に用いられる。
【0050】図2は、上記評価部251の構成を示すブ
ロック図である。評価部251は、図2に示すように、
分析パラメータ評価用データ生成部251a、韻律パラ
メータ評価用データ生成部251b、及び比較部251
cから構成される。
【0051】分析パラメータ評価用データ生成部251
aには、パラメータ分析部24での音声データ分析結果
である分析パラメータ時系列(韻律パラメータ時系列)
が、対応する音声データに付されている音韻ラベル情報
と共に、パラメータ分析部24から入力される。分析パ
ラメータ評価用データ生成部251aにはまた、着目し
ている韻律パラメータに関する情報がパラメータ時系列
生成部232から入力される。これにより分析パラメー
タ評価用データ生成部251aは、着目している韻律パ
ラメータの影響する範囲に(予め定められた数の)前後
数単語を加えた範囲の分析パラメータ時系列(韻律パラ
メータ時系列)を音韻ラベル情報をもとに評価用データ
として抽出する。
【0052】さて、上記着目している韻律パラメータに
関する情報は、韻律パラメータ評価用データ生成部25
1bにも入力される。韻律パラメータ評価用データ生成
部251bにはまた、パラメータ時系列生成部232で
生成された韻律パラメータ時系列も入力される。これに
より韻律パラメータ評価用データ生成部251aは、着
目している韻律パラメータの影響する範囲に(予め定め
られた数の)前後数単語を加えた範囲の韻律パラメータ
時系列を評価用データとして抽出する。
【0053】比較部251cは、分析パラメータ評価用
データ生成部251aと韻律パラメータ評価用データ生
成部251bでそれぞれ抽出された評価用データ(評価
用の韻律パラメータ時系列)を、二乗誤差総和に代表さ
れる評価関数を用いて比較し、その類似性を示す評価ス
コア(評価値)を算出する。この比較部251cで算出
された評価スコアは、適用韻律規則に対応して確保され
る評価結果記憶部252内領域(テーブル領域)に格納
される。
【0054】図3は、評価結果記憶部252での評価ス
コアの格納形式、更に具体的に述べるならば、適用韻律
規則に対応して確保される評価結果記憶部252内領域
における評価スコアの格納形式の一例を示す。
【0055】ここでは、該当する韻律規則が適用された
データのID(識別子)、韻律パラメータの決定要因の
要素、種々の韻律パラメータ値(図ではA0 〜A5 の6
種)を与えたときのスコア(評価スコア)がセットで格
納される。韻律パラメータ決定要因としては、該当する
韻律規則中で予め考慮されている(記述されている)も
のと、考慮されていない(記述されていない)ものとが
あり、後述する規則の特殊化、一般化の際に用いられ
る。また、韻律パラメータ値ごとのスコア(評価スコ
ア)には、評価部251(内の比較部251c)での比
較・評価結果(客観スコア)の他、オペレータが試聴評
価を行なったデータに関しては主観スコアがある。ここ
で主観スコアには4段階評価値が使用され、二重丸が最
も良く、以下、丸(○)、三角(△)、ばつ(×)の順
となる。なお、客観スコアは、誤差関数によるスコアを
想定しており、値が小さいほど評価が良いことを表す。
【0056】次に、パラメータ生成規則学習部26での
制御のもとでの評価処理の詳細を、図4及び図5のフロ
ーチャートを参照して説明する。まずパラメータ生成規
則学習部26は、韻律規則記憶部233の中から着目す
る規則iを決めて選択する(ステップ401,40
2)。次にパラメータ生成規則学習部26は、選択した
規則iに対応して韻律規則記憶部233内に予め用意さ
れている韻律パラメータ値の候補の1つAj を選択し、
当該規則iの韻律パラメータ値としてセットする(ステ
ップ403,404)。
【0057】次にパラメータ生成規則学習部26は、着
目する規則iを適用する学習用テキストデータk(ここ
では、例えば1文単位)を決めて選択し(ステップ40
5,406)、パラメータ生成部23及びパラメータ分
析部24を起動する。
【0058】これによりパラメータ生成部23内では、
テキストデータ記憶部21内のテキストデータkに対す
るテキスト解析部231による解析処理と、その解析結
果に基づくパラメータ時系列生成部232による韻律パ
ラメータ時系列生成とが行なわれる。このパラメータ時
系列生成部232での韻律パラメータ時系列生成処理に
おいて、規則iが適用可能な部分については、パラメー
タ生成規則学習部26によりセットされた韻律パラメー
タ値Aj が用いられ、他の規則が適用可能な部分につい
ては、その規則に関してその時点において最適であると
されている韻律パラメータ値が用いられる。パラメータ
時系列生成部232により生成された韻律パラメータ時
系列はパラメータ生成規則評価部25内の評価部251
に与えられる。
【0059】一方、パラメータ分析部24では、テキス
トデータkに対応する音声データ記憶部22内の音韻ラ
ベル情報付き学習用音声データを分析して、対応する分
析パラメータ時系列(韻律パラメータ時系列)を生成す
る処理が行なわれる。パラメータ分析部24により生成
された韻律パラメータ時系列も評価部251に与えられ
る。
【0060】評価部251は、パラメータ生成規則学習
部26の制御のもとで、パラメータ時系列生成部232
からの韻律パラメータ時系列中に規則iが適用された部
分があるか否かを調べる(ステップ407)。もし、規
則iが適用された部分があれば、その部分について、パ
ラメータ分析部24からの分析パラメータ時系列との比
較・評価を行ない、その評価結果(評価スコア)を規則
i用の評価結果記憶部252内領域に、該当するデータ
部分(データk内の当該データ部分の位置)及びパラメ
ータ値Aj に対応付けて格納する(ステップ408)。
【0061】このようにしてデータkの最終部分に対応
する韻律パラメータ時系列部分まで進むと、パラメータ
生成規則学習部26は未処理のテキストデータがあるか
否かをチェックし(ステップ501)、あるならば、未
処理のテキストデータを1つ選択して(ステップ50
2,406)、そのデータについて上記と同様の処理
(ステップ407,408)を行なわせる。
【0062】このようにして、すべてのテキストデータ
について規則iを適用した評価が終了したならば、パラ
メータ生成規則学習部26は、規則iについて、すべて
の韻律パラメータ値の候補で評価したか否かをチェック
し(ステップ503)、未評価の韻律パラメータ値の候
補があるならば、その未評価の韻律パラメータ値の候補
を1つ選択して規則iのパラメータとしてセットし(ス
テップ504,404)、上記ステップ405以降の処
理に進む。
【0063】やがて、規則iについて、すべての韻律パ
ラメータ値の候補で評価が行なわれたならば、パラメー
タ生成規則学習部26は、規則i用の評価結果記憶部2
52内領域の評価スコアをもとに、各候補別(図3の例
ではA0 〜A5 別)に評価スコアの平均値(総和でも
可)を求め、その平均値(総和)を最良にする(最も小
さくする)候補Ax を、規則iの最適パラメータに決定
する(ステップ506)。図3の例では、A2 が上記A
x に相当する。
【0064】次にパラメータ生成規則学習部26は、す
べての規則について評価を行なったか否かをチェックし
(ステップ506)、未評価(未適用)の規則があるな
らば、その未評価の規則を1つ選択して(ステップ50
7,402)、上記ステップ403以降の処理に進
む。。
【0065】やがて、すべての規則について評価が行な
われたならば、パラメータ生成規則学習部26は、その
うちのいずれかの規則で最適パラメータの変更がなされ
たか否かをチェックし(ステップ508)、最適パラメ
ータの変更がなされたならば、パラメータ間での相互作
用が見られたものと判断して先頭ステップ401に戻
り、すべての規則の最適パラメータが変更されなくなる
までステップ401以降の処理を繰り返す。
【0066】次に、パラメータ生成規則学習部26によ
るパラメータ生成規則学習処理の1つであるパラメータ
生成規則特殊化処理について図6及び図7のフローチャ
ートを参照して説明する。
【0067】まずパラメータ生成規則学習部26は、着
目する規則iを決めて選択する(ステップ601,60
2)。すると統計的規則評価部253は、パラメータ生
成規則学習部26により選択された規則iが適用された
それぞれの文例(テキストデータ部分)に対する最適な
パラメータ値を規則i用の評価結果記憶部252内領域
を参照して調べて、その分散を計算する(ステップ60
3)。
【0068】パラメータ生成規則学習部26は、統計的
規則評価部253で算出された分散が予め定められた閾
値以上であるか否かをチェックする(ステップ60
4)。もし、算出された分散が閾値を下回った場合に
は、パラメータ生成規則学習部26は、該当する規則i
は適切であると判断して、次の規則について(ステップ
705,706,602)、同様の処理(ステップ60
3以降の処理)を行なう。
【0069】これに対し、算出された分散が閾値以上の
場合には、パラメータ生成規則学習部26は該当する規
則iは不適切であると判断し、対応するテキストデータ
(に対するテキスト解析部231での解析結果)で決ま
る、当該規則i中で考慮していないパラメータ決定要因
(アクセント型など)の要素(アクセント型0、アクセ
ント型1、アクセント型2など)を用いてクラスタリン
グを行ない(ステップ605)、そのクラスタリングの
結果から、規則iを特殊化すると評価スコアの総和が良
くなるか否かを調べる(ステップ606)。
【0070】もし、良くなると判断できた場合、規則特
殊化自動モードが設定されているならば(ステップ70
1)、パラメータ生成規則学習部26は、該当する規則
iを特殊化、例えば分割して2つの規則を生成して、韻
律規則記憶部233に格納する(ステップ702)。
【0071】一方、規則特殊化オペレータ介在モードが
設定されているならば、パラメータ生成規則学習部26
は、パラメータ生成部23及び合成器3を動かして、規
則iを特殊化した場合について、以下に述べるようにし
て選択したテキストデータを対象に、その特殊化した規
則を適用した際の合成音声を音声出力部5から出力させ
ると共に、情報提示部27に対して試聴評価を要求する
案内情報を表示して、オペレータによる試聴評価を行な
わせる(ステップ703)。
【0072】この場合、オペレータは情報提示部27に
表示されている案内に従って、試聴評価の結果をオペレ
ータ入力部28から入力する。パラメータ生成規則学習
部26は、オペレータ入力部28から入力されたオペレ
ータの試聴評価結果が、規則iを特殊化すると良くなる
か否かをチェックし(ステップ704)、良くなるなら
ば、該当する規則iを特殊化、例えば分割して2つの規
則を生成する(ステップ702)。上記ステップ70
3,704の実現例としては、規則iが分割されたと仮
定した場合に、それぞれの典型例となる数テキストデー
タについてオペレータに試聴評価を行なわせ、その結果
両者のスコアにある閾値以上の差が生じた場合に、分割
を決定するという方法が適用可能である。
【0073】例えば、規則Rを規則R1 と規則R2 に分
割した場合に、規則R1 ,R2 をそれぞれ適用するデー
タのうちの典型データとして、図8(a)に示すよう
に、規則R1 ,R2 の各々について、その規則中で考慮
していないパラメータ決定要因で表される空間(例えば
アクセント型を1つの座標軸として、その要素であるア
クセント型0,1,2をその座標軸上の値とし、モーラ
数を別の座標軸として、とり得るモーラ数の値をその座
標軸上の値とするというように、規則中で考慮していな
い各パラメータ決定要因をそれぞれ座標軸とするパラメ
ータ決定要因空間)における、その規則を適用するデー
タ(文例)群の分布の重心に最も近いデータX1 ,X2
を選ぶ。
【0074】そして、選んだデータX1 ,X2 に対して
規則R1 ,R2 を適用した場合の合成音声を出力して、
オペレータによる試聴評価を行なわせ、図8(b)に示
すような、その試聴評価のスコア(主観スコア)の各韻
律パラメータ値に対する分布がデータX1 ,X2 間でど
れだけ異なっているかを評価し、ある閾値以上異なって
いると判断できた場合、分割を行なえば良い。
【0075】次に、パラメータ生成規則学習の1つであ
るパラメータ生成規則の一般化の方法につき説明する。
図9のように、規則pが適用されたデータ数と、規則q
が適用されたデータ数が共に少なく(データは黒丸で表
現)、また、そのデータに対する規則pまたはqの適用
時、その規則中で考慮されているパラメータ決定要因で
表される空間(パラメータ決定要因空間)における、そ
の規則が適用されたデータ(文例)群の分布の重心Gp
,Gq 間の距離dがある閾値より短く、且つ各規則
p,qに与えられている最適なパラメータ値が一致或い
は非常に近い場合、両規則p,qを含む新たな規則rを
作成することが可能である。
【0076】次に、評価部251(内の比較部251
c)での比較・評価により算出される客観スコアと、オ
ペレータ試聴によりオペレータ入力部28を通してオペ
レータから与えられる主観スコアとを用いた、評価部2
51での評価関数の最適化の方法について、図10及び
図11を参照して説明する。
【0077】図10は、ある規則を文iと文jに適用し
た場合に、特に文jについて客観スコアと主観スコアと
が食い違っている例を示す。この場合、客観スコアから
決定した最適韻律パラメータ値A3 では、文jのときに
は非常に聞こえの悪い韻律を生成してしまうことにな
る。このようなことは、評価関数に単純に二乗誤差など
を用いた場合に生じ得る。そのため、客観スコアと主観
スコアの間での矛盾の少ない評価関数を決める必要があ
る。
【0078】そこで本実施形態では、例えば基本周波数
制御パラメータの評価関数として、次式 fi =Σαj *dj ……(1) で表されるfi を適用する。ここで、jは音韻を複数の
タイプに分類したときのカテゴリー番号、dj はカテゴ
リーjの音韻の二乗誤差、αi はカテゴリーjに対する
重み、Σαj *dj はαj *dj の値のすべてのカテゴ
リーjについての総和である。音韻のタイプの分類方法
としては、例えば子音と母音に分ける方法が適用可能で
ある。
【0079】本実施形態では、カテゴリーjの二乗誤差
上dj に対する重みαj をカテゴリーjごとに変えるこ
とで、最適な評価関数fi を決める。図11(a)のグ
ラフは、客観スコアと主観スコアの両者が存在するデー
タに関して、評価関数にfi を用いた場合の、主観スコ
アに対する客観スコアの値の分布を表したものである。
ここで、客観スコアを良い評価のデータ(二重丸と○)
と悪い評価のデータ(△と×)とに分け、両者の客観ス
コアの分布の統計的な差ができるだけ大きくなるような
(予め定められた閾値より大きくなるような)重みaj
を各カテゴリーjごとに選ぶならば、主観スコアと客観
スコアの間の矛盾が生じにくい評価関数fi を得ること
ができる。
【0080】分布の統計的な差の指標の一例としては、
図11(b)に示すような、主観スコアで悪い評価のデ
ータについての客観スコアの分布(発生頻度の分布)1
11aと、主観スコアで良い評価のデータについての客
観スコアの分布(発生頻度の分布)111bとの差に関
するt検定を行なったとき、その差に関する有意水準が
使え、有意水準の小さいものほど統計的な差が大きいと
みなす。
【0081】なお、自然音声データの不足した規則、例
えば適用可能な自然音声データの数がある閾値以下の規
則については、テキストデータ記憶部21に格納されて
いるテキストデータのみを用いてオペレータにより試聴
評価を行なわせ、その試聴評価のスコア(主観スコア)
を客観スコアとして本来の客観スコアと共に用いて、最
適な韻律パラメータを選択することも可能である。
【0082】以上に述べた図1の構成の音声合成装置
は、コンピュータ、例えば図12に示すようなスピーカ
121を内蔵したパーソナルコンピュータ120を、テ
キスト入力部1、パラメータ生成・評価部2、合成器
3、音声合成単位辞書4及び音声出力部5として機能さ
せるためのプログラムを記録した記録媒体、例えばフロ
ッピーディスク122を用い、当該フロッピーディスク
122をパーソナルコンピュータ120に装着して、当
該フロッピーディスク122に記録されているプログラ
ムをパーソナルコンピュータで120で読み取り実行さ
せることにより実現される。ここでは、スピーカ121
は音声出力部5の一部として用いられる。なお、プログ
ラムを記録した記録媒体としては、フロッピーディスク
122の他に、CD−ROM、メモリカード等が利用可
能である。
【0083】
【発明の効果】以上詳述したように本発明によれば、自
然音声データから得られる韻律パラメータ時系列と、そ
の自然音声データに対応するテキスト情報から音声合成
のために得られる韻律パラメータ時系列との比較により
韻律パラメータの評価(客観評価)を行なうと共に、こ
の客観評価(比較評価)と主観評価(オペレータの試聴
による評価)との結果の相関を考慮することで、韻律パ
ラメータの最適化のための評価に用いる評価関数自体を
最適化できる。
【0084】また本発明によれば、自然音声データと対
応する合成音声データとの比較評価結果を統計処理する
ことで不適切な韻律規則を検出して当該規則を修正し、
その修正後の規則を適用して生成される合成音声に対し
てオペレータによる試聴評価を行なわせることで、その
試聴評価結果をもとに不適切な韻律規則の修正・最適化
を図ることができる。
【0085】また本発明によれば、韻律規則で考慮され
ていない韻律パラメータ決定要因の要素を用いてクラス
タリングを行なうことで、当該韻律規則を分割した方が
良いか否かを判断し、評価値が良くなる方向に当該韻律
規則を分割することができる。
【0086】また本発明によれば、自然音声データの不
足した韻律規則に関してオペレータによる試聴評価を利
用することで、その韻律規則の最適化を行なうことがで
きる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声合成装置の構成
を示すブロック図。
【図2】図1中の評価部251の構成を示すブロック
図。
【図3】図1中の評価結果記憶部252での評価スコア
の格納形式の一例を示す図。
【図4】同実施形態における評価処理を説明するための
フローチャートの一部を示す図。
【図5】同実施形態における評価処理を説明するための
フローチャートの残りを示す図。
【図6】同実施形態におけるパラメータ生成規則学習部
26によるパラメータ生成規則特殊化処理を説明するた
めのフローチャートの一部を示す図。
【図7】同実施形態におけるパラメータ生成規則学習部
26によるパラメータ生成規則特殊化処理を説明するた
めのフローチャートの残りを示す図。
【図8】同実施形態におけるパラメータ生成規則の分割
条件を説明するための図。
【図9】同実施形態におけるパラメータ生成規則の一般
化を説明するための図。
【図10】あるパラメータ生成規則を文iと文jに適用
した場合に、客観スコアと主観スコアとが食い違ってい
る例を示す図。
【図11】同実施形態における評価関数の最適化を説明
するための図。
【図12】図1の音声合成装置を実現するパーソナルコ
ンピュータの外観を示す図。
【符号の説明】
1…テキスト入力部 2…パラメータ生成・評価部 3…合成器 4…音声合成単位辞書 5…音声出力部 21…テキストデータ記憶部 22…音声データ記憶部 23…パラメータ生成部 24…パラメータ分析部 25…パラメータ生成規則評価部 26…パラメータ生成規則学習部(韻律パラメータ値学
習手段、試聴評価要求手段、評価関数学習手段、韻律規
則学習手段、クラスタリング手段、韻律規則分割手段) 27…情報提示部 28…オペレータ入力部 231…テキスト解析部 232…パラメータ時系列生成部 233…韻律規則記憶部 251…評価部 252…評価結果記憶部 253…統計的規則評価部。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキスト情報から合成音声の
    音韻、韻律に関する情報を生成して、その情報をもとに
    合成音声の各音韻の韻律パラメータ値及び音韻記号を決
    定し、その韻律パラメータ値及び音韻記号に基づいて音
    声合成に必要な音声パラメータを生成して当該音声パラ
    メータをもとに合成音声を出力する音声合成装置におい
    て、 種々の学習用テキスト情報を順次解析して、合成音声の
    音韻、韻律を表す情報を生成するテキスト解析手段と、 韻律パラメータ生成のための各種韻律規則が予め登録さ
    れている韻律規則記憶手段と、 前記テキスト解析手段により生成された前記情報、及び
    前記韻律規則記憶手段に登録されている対応する前記韻
    律規則をもとに、当該韻律規則で適用する韻律パラメー
    タ値を予め定められた複数候補の中から順次選択しなが
    ら音声合成用の第1の韻律パラメータ時系列を順に生成
    するパラメータ時系列生成手段と、 前記学習用テキスト情報に対応する自然音声データを分
    析して第2の韻律パラメータ時系列を生成するパラメー
    タ分析手段と、 前記パラメータ分析手段により生成される前記第2の韻
    律パラメータ時系列と前記パラメータ時系列生成手段に
    より前記韻律パラメータ値を切り替えながら順に生成さ
    れる前記第1の韻律パラメータ時系列とを所定の評価関
    数を用いて比較評価する評価手段と、 前記評価手段の評価結果をもとに対応する韻律規則で適
    用する韻律パラメータ値を最適化する韻律パラメータ値
    学習手段と、 前記パラメータ時系列生成手段により生成される前記第
    1の韻律パラメータ時系列をもとに対応する合成音声を
    オペレータによる試聴評価のために出力させる試聴評価
    要求手段と、 前記オペレータによる試聴評価結果が入力されるオペレ
    ータ入力手段と、 前記オペレータ入力手段から入力された前記オペレータ
    による試聴評価結果と対応する前記評価手段の評価結果
    とが無矛盾となる方向に前記評価関数を修正する評価関
    数学習手段とを具備することを特徴とする音声合成装
    置。
  2. 【請求項2】 入力されたテキスト情報から合成音声の
    音韻、韻律に関する情報を生成して、その情報をもとに
    合成音声の各音韻の韻律パラメータ値及び音韻記号を決
    定し、その韻律パラメータ値及び音韻記号に基づいて音
    声合成に必要な音声パラメータを生成して当該音声パラ
    メータをもとに合成音声を出力する音声合成装置におい
    て、 種々の学習用テキスト情報を順次解析して、合成音声の
    音韻、韻律を表す情報を生成するテキスト解析手段と、 韻律パラメータ生成のための各種韻律規則が予め登録さ
    れている韻律規則記憶手段と、 前記テキスト解析手段により生成された前記情報、及び
    前記韻律規則記憶手段に登録されている対応する前記韻
    律規則をもとに、当該韻律規則で適用する韻律パラメー
    タ値を予め定められた複数候補の中から順次選択しなが
    ら音声合成用の第1の韻律パラメータ時系列を順に生成
    するパラメータ時系列生成手段と、 前記学習用テキスト情報に対応する自然音声データを分
    析して第2の韻律パラメータ時系列を生成するパラメー
    タ分析手段と、 前記パラメータ分析手段により生成される前記第2の韻
    律パラメータ時系列と前記パラメータ時系列生成手段に
    より前記韻律パラメータ値を切り替えながら順に生成さ
    れる前記第1の韻律パラメータ時系列とを比較評価する
    評価手段と、 前記評価手段の評価結果をもとに対応する韻律規則で適
    用する韻律パラメータ値を最適化する韻律パラメータ値
    学習手段と、 前記評価手段の評価結果を統計処理して不適切な韻律規
    則を検出し、当該規則を修正して、その修正後の規則を
    適用した前記音声合成用の第1の韻律パラメータ時系列
    を前記パラメータ時系列生成手段により生成させて対応
    する合成音声をオペレータによる試聴評価のために出力
    させる試聴評価要求手段と、 前記オペレータによる試聴評価結果が入力されるオペレ
    ータ入力手段と、 前記オペレータ入力手段から入力された前記オペレータ
    による試聴評価結果をもとに前記不適切な韻律規則を修
    正・最適化する韻律規則学習手段とを具備することを特
    徴とする音声合成装置。
  3. 【請求項3】 入力されたテキスト情報から合成音声の
    音韻、韻律に関する情報を生成して、その情報をもとに
    合成音声の各音韻の韻律パラメータ値及び音韻記号を決
    定し、その韻律パラメータ値及び音韻記号に基づいて音
    声合成に必要な音声パラメータを生成して当該音声パラ
    メータをもとに合成音声を出力する音声合成装置におい
    て、 種々の学習用テキスト情報を順次解析して、合成音声の
    音韻、韻律を表す情報を生成するテキスト解析手段と、 韻律パラメータ生成のための各種韻律規則が予め登録さ
    れている韻律規則記憶手段と、 前記テキスト解析手段により生成された前記情報、及び
    前記韻律規則記憶手段に登録されている対応する前記韻
    律規則をもとに、当該韻律規則で適用する韻律パラメー
    タ値を予め定められた複数候補の中から順次選択しなが
    ら音声合成用の第1の韻律パラメータ時系列を順に生成
    するパラメータ時系列生成手段と、 前記学習用テキスト情報に対応する自然音声データを分
    析して第2の韻律パラメータ時系列を生成するパラメー
    タ分析手段と、 前記パラメータ分析手段により生成される前記第2の韻
    律パラメータ時系列と前記パラメータ時系列生成手段に
    より前記韻律パラメータ値を切り替えながら順に生成さ
    れる前記第1の韻律パラメータ時系列とを比較評価する
    評価手段と、 前記評価手段の評価結果を統計処理して不適切な韻律規
    則を検出し、当該規則を修正して、その修正後の規則を
    適用した前記音声合成用の第1の韻律パラメータ時系列
    を前記パラメータ時系列生成手段により生成させて対応
    する合成音声をオペレータによる試聴評価のために出力
    させる試聴評価要求手段と、 前記オペレータによる試聴評価結果が入力されるオペレ
    ータ入力手段と、 前記評価手段の評価結果及び前記オペレータ入力手段か
    ら入力された前記オペレータによる試聴評価結果を、対
    応する前記韻律規則ごとに、当該規則で考慮された韻律
    パラメータ決定要因の要素及び該当するテキスト情報で
    決まる当該規則で非考慮の他の韻律パラメータ決定要因
    の要素とを組にして記憶しておくための評価結果記憶手
    段と、 前記評価結果記憶手段に記憶されている前記評価手段の
    評価結果をもとに対応する韻律規則で適用する韻律パラ
    メータ値を最適化する韻律パラメータ値学習手段と、 前記評価結果記憶手段に記憶されている前記評価手段の
    評価結果を統計処理して不適切な韻律規則を検出し、当
    該規則で非考慮の前記韻律パラメータ決定要因の要素を
    用いてクラスタリングを行なうことで、そのクラスタリ
    ング結果をもとに当該規則を分割する韻律規則学習手段
    とを具備することを特徴とする音声合成装置。
  4. 【請求項4】 前記韻律規則学習手段は、 前記評価結果記憶手段に記憶されている前記評価手段の
    評価結果を統計処理して不適切な韻律規則を検出し、当
    該規則で非考慮の前記韻律パラメータ決定要因の要素を
    用いてクラスタリングを行なうクラスタリング手段と、 前記クラスタリング手段のクラスタリング結果の分布が
    複数に別れている場合に、各分布ごとにその分布の重心
    に最も近いテキスト情報を選択すると共に、対応する前
    記韻律規則を分割して新たな複数の韻律規則を生成する
    韻律規則分割手段とから構成されており、 前記試聴評価要求手段は、前記韻律規則分割手段により
    選択された前記各テキスト情報に対応する前記第1の韻
    律パラメータ時系列を、前記韻律規則分割手段により生
    成された前記各韻律規則に従って前記パラメータ時系列
    生成手段にて生成させて、対応する合成音声をオペレー
    タによる試聴評価のために出力させ、 前記韻律規則分割手段は、自身が選択した前記各テキス
    ト情報についての前記オペレータによる試聴評価結果を
    もとに前記生成した複数の韻律規則を採用するか否かを
    決定することを特徴とする請求項3記載の音声合成装
    置。
  5. 【請求項5】 前記試聴評価要求手段は、前記学習用テ
    キスト情報に対応する自然音声データの数が予め定めら
    れた閾値以下の場合、前記学習用テキスト情報に対応す
    る合成音声をオペレータによる試聴評価のために出力さ
    せ、 前記韻律パラメータ値学習手段は、前記オペレータによ
    る試聴評価結果及び前記評価手段の評価結果をもとに対
    応する韻律規則で適用する韻律パラメータ値を最適化す
    ることを特徴とする請求項1乃至請求項4のいずれかに
    記載の音声合成装置。
  6. 【請求項6】 入力されたテキスト情報から合成音声の
    音韻、韻律に関する情報を生成して、その情報をもとに
    合成音声の各音韻の韻律パラメータ値及び音韻記号を決
    定し、その韻律パラメータ値及び音韻記号に基づいて音
    声合成に必要な音声パラメータを生成して当該音声パラ
    メータをもとに合成音声を出力する音声合成装置に適用
    される評価関数最適化方法であって、 種々の学習用テキスト情報を順次解析して、合成音声の
    音韻、韻律を表す情報を生成し、この生成した情報、及
    び予め用意されている種々の韻律規則のうちの対応する
    韻律規則をもとに、当該韻律規則で適用する韻律パラメ
    ータ値を予め定められた複数候補の中から順次選択しな
    がら音声合成用の第1の韻律パラメータ時系列を順に生
    成する一方、 前記学習用テキスト情報に対応する自然音声データを分
    析して第2の韻律パラメータ時系列を生成し、 前記第2の韻律パラメータ時系列と前記韻律パラメータ
    値を切り替えながら順に生成される前記第1の韻律パラ
    メータ時系列とを所定の評価関数を用いて比較評価し
    て、その評価結果をもとに対応する韻律規則で適用する
    韻律パラメータ値を最適化する一方、 前記韻律パラメータ値を切り替えながら順に生成される
    前記第1の韻律パラメータ時系列をもとに対応する合成
    音声をオペレータによる試聴評価のために出力させて、
    そのオペレータによる試聴評価結果を入力し、 前記入力したオペレータによる試聴評価結果と対応する
    前記評価関数を用いた前記評価結果とが無矛盾となる方
    向に前記評価関数を修正することを特徴とする評価関数
    最適化方法。
  7. 【請求項7】 入力されたテキスト情報から合成音声の
    音韻、韻律に関する情報を生成して、その情報をもとに
    合成音声の各音韻の韻律パラメータ値及び音韻記号を決
    定し、その韻律パラメータ値及び音韻記号に基づいて音
    声合成に必要な音声パラメータを生成して当該音声パラ
    メータをもとに合成音声を出力する音声合成装置に適用
    される評価関数最適化方法であって、 種々の学習用テキスト情報を順次解析して、合成音声の
    音韻、韻律を表す情報を生成し、この生成した情報、及
    び予め用意されている種々の韻律規則のうちの対応する
    韻律規則をもとに、当該韻律規則で適用する韻律パラメ
    ータ値を予め定められた複数候補の中から順次選択しな
    がら音声合成用の第1の韻律パラメータ時系列を順に生
    成する一方、 前記学習用テキスト情報に対応する自然音声データを分
    析して第2の韻律パラメータ時系列を生成し、 前記第2の韻律パラメータ時系列と前記韻律パラメータ
    値を切り替えながら順に生成される前記第1の韻律パラ
    メータ時系列とを所定の評価関数を用いて比較評価し
    て、その評価結果をもとに対応する韻律規則で適用する
    韻律パラメータ値を最適化する一方、 前記評価結果を統計処理して不適切な韻律規則を検出
    し、当該規則を修正して、その修正後の規則を適用した
    前記音声合成用の第1の韻律パラメータ時系列を生成し
    て対応する合成音声をオペレータによる試聴評価のため
    に出力させて、そのオペレータによる試聴評価結果を入
    力し、 前記入力したオペレータによる試聴評価結果をもとに前
    記不適切な韻律規則を修正・最適化することを特徴とす
    る韻律規則最適化方法。
JP9061037A 1997-03-14 1997-03-14 音声合成装置 Pending JPH10254471A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9061037A JPH10254471A (ja) 1997-03-14 1997-03-14 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9061037A JPH10254471A (ja) 1997-03-14 1997-03-14 音声合成装置

Publications (1)

Publication Number Publication Date
JPH10254471A true JPH10254471A (ja) 1998-09-25

Family

ID=13159684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9061037A Pending JPH10254471A (ja) 1997-03-14 1997-03-14 音声合成装置

Country Status (1)

Country Link
JP (1) JPH10254471A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
WO2008056604A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
WO2014203329A1 (ja) * 2013-06-18 2014-12-24 三菱電機株式会社 音声応答装置および応答音声生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
US6823309B1 (en) 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
WO2008056604A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
WO2014203329A1 (ja) * 2013-06-18 2014-12-24 三菱電機株式会社 音声応答装置および応答音声生成方法
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US7603278B2 (en) Segment set creating method and apparatus
US11763797B2 (en) Text-to-speech (TTS) processing
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2002530703A (ja) 音声波形の連結を用いる音声合成
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2006293026A (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
Ross Modeling of intonation for speech synthesis
Panda et al. A waveform concatenation technique for text-to-speech synthesis
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2003271194A (ja) 音声対話装置及びその制御方法
JPH10254471A (ja) 音声合成装置
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
JPH08335096A (ja) テキスト音声合成装置
Yin An overview of speech synthesis technology
JP3505364B2 (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
EP1589524B1 (en) Method and device for speech synthesis