JPH10254471A

JPH10254471A - 音声合成装置

Info

Publication number: JPH10254471A
Application number: JP9061037A
Authority: JP
Inventors: Shinko Morita; 眞弘森田; Shigenobu Seto; 重宣瀬戸; Hiroyuki Tsuboi; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-14
Filing date: 1997-03-14
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】韻律パラメータの最適化のための評価に用いる
評価関数自体を最適化できるようにする。【解決手段】各種学習用テキスト情報からパラメータ生
成部２３により韻律規則で適用する韻律パラメータ値を
切り替えながら順次生成される韻律パラメータ時系列
と、対応する自然音声データからパラメータ分析部２４
により生成される韻律パラメータ時系列とを、評価部２
５１にて所定の評価関数を用いて順に比較評価し、その
評価値をもとにパラメータ生成規則学習部２６にて該当
韻律規則で適用する最適韻律パラメータ値を決定する。
また学習部２６は、パラメータ生成部２３で順次生成さ
れる韻律パラメータ時系列をもとに対応する合成音声を
オペレータ試聴評価のために出力させ、その試聴評価結
果と対応する評価関数を用いた評価部２５１での評価結
果とが無矛盾となる方向に評価関数を修正する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力されたテキス
ト情報から合成音声の音韻、韻律に関する情報を生成し
て、その情報をもとに合成音声の各音韻の韻律パラメー
タ値及び音韻記号を決定し、その韻律パラメータ値及び
音韻記号に基づいて音声合成に必要な音声パラメータを
生成して当該音声パラメータをもとに合成音声を出力す
る音声合成装置に係り、特に韻律パラメータの最適化、
韻律規則の最適化に好適な音声合成装置に関する。

【０００２】

【従来の技術】テキスト情報からの音声合成は、音韻面
と韻律面の２つの特徴を制御することによって実現する
のが一般的である。このうち音韻面の自然性は、近年の
ハードウェア技術の進歩により飛躍的に向上してきた。

【０００３】もともと、テキスト情報から韻律規則（韻
律パラメータ生成規則）により韻律制御モデルにおける
韻律パラメータを生成し、そのパラメータを韻律制御モ
デルに適用することで韻律パラメータ時系列を生成して
音声波形を生成する一連の音声合成の処理の流れの中
で、韻律の制御に関しては、テキスト情報から韻律パラ
メータを生成するまでの処理（全般の処理）のウエイト
が大きい。一方、音韻面の制御に関しては、韻律パラメ
ータから音声波形の生成までの処理（後半の処理）のウ
エイトが大きい。このため、扱うデータサイズが大きく
なる後半の処理はハードウェアの制約を大きく受けてい
た。

【０００４】しかし現在は、音韻の自然性を保持・再合
成するのに十分な記憶容量・処理速度が容易に実現で
き、全般に自然な音韻性を持つ合成音が得られるように
なってきている。このため、韻律面の制御に失敗して不
自然さが目立つことのないよう、韻律制御の品質向上が
大きな課題となっている。

【０００５】韻律制御とは、入力されたテキスト情報を
解析することによって得られる言語・音韻的な属性の並
びから、予め用意した韻律規則（韻律パラメータ生成規
則）により、ピッチや音韻時間長、ポーズ長、パワーな
どの、韻律制御モデルにおけるモデルパラメータ、即ち
韻律パラメータへ変換する処理のことである。この韻律
制御の品質を向上するには、自然な合成音声を生成する
ように韻律規則を最適化（チューニング）する必要があ
る。

【０００６】従来、韻律制御の品質向上には、テキスト
解析によって得た言語・音韻的な属性の特徴的な並びに
着目して、その並びに対して少数の自然音声データの分
析を行なって得た韻律パラメータにマッピングする対応
関係を定義させる問題として扱うアプローチをとってい
た。しかしながら、この対応関係は、着目している属性
の並びがその韻律的な特徴を顕在化させる主要因である
という仮定のもとに定義されたに過ぎず、拠り所となる
自然音声データの分析例が少数であるほど、その妥当性
は希薄になるという問題があった。

【０００７】このため、最近では、比較的規模の大きい
自然音声とその分析データを集めた音声コーパスを用い
て、その統計的な傾向を規則として扱うアプローチが増
えてきている。この方法は、韻律的な特徴を顕在化させ
る主要因が何であるかを、規模の大きいコーパスを統計
的に分析した結果に基づいて評価しているため、得られ
る規則の妥当性は比較的高いといえる。但し、大量のデ
ータを統計的に扱うために、予め定義した客観的な尺度
に基づいて評価値を算出する（即ちスコアリングする）
が、この尺度が主観的な聞こえにどう効いてくるかにつ
いては直接的な対応が明確でないという問題がある。ま
た、この方法により作成した規則の性能はコーパスのデ
ータ量をどれだけ充実できるかに依存するが、規摸が大
きく、バリエーションも豊富で、しかも品質的に均質な
コーパスを作成することは、多大な労力が必要となるた
めに実現が困難であるという問題もある。

【０００８】このような問題意識から、大規模コーパス
を整備するプロジェクトが運営されて研究用として提供
されているが、扱うトピックや文体は比較的「質が良
い」文であって、計算機ネットワークを通じて流通量が
増え続ける様々なテキストの文体も含めて考えると、や
やバランスに欠けると言えなくもない。

【０００９】以上のことから、韻律制御の品質向上の問
題は、同種の文例を大量に集めて同時に考慮すること、
様々な文体・新たな文例を取り込む柔軟性を有するこ
と、主観的な聞こえにどう効いてくるかについてをいか
に反映させるか、また、韻律的な特徴を顕在化させる主
要因が何であるかの選択が恣意的でないように、統計的
な視点で判断する、などを考慮して解く必要がある。

【００１０】

【発明が解決しようとする課題】しかしながら従来技術
にあっては、少数の自然音声データの解析によって一意
に決定された韻律パラメータ値を用いているため、想定
していない文例に対して、不適切なパラメータを決定す
ることが多いという問題があった。また、一意に決定さ
れているため、あらゆる文に対して最適なパラメータと
なるかはわからないという問題があった。

【００１１】そこで、韻律パラメータの最適化を自動的
に行なう従来技術の例もある。しかし、この種の従来技
術では、自然音声データから推定される（アクセント指
令値、フレーズ指令値等からなる）韻律パラメータ（モ
デルパラメータ）と、当該自然音声データに対応するテ
キスト情報から音声合成装置内で音声合成用に決定され
る韻律パラメータとの、パラメータ同士の比較を評価に
用いるため、韻律パラメータの時間変化が考慮されてい
ないという問題があった。また、基本周波数制御パラメ
ータのように自然音声データからモデルパラメータに変
換するのが容易でないものもあり、多量のデータを収集
するのが容易ではないという問題があった。

【００１２】また、自然音声データから比較的容易に分
析できる韻律パラメータ時系列と、合成装置内で決定さ
れる韻律パラメータ時系列という時系列同士の比較を評
価に用いる従来技術の例もわずかながらある。しかし、
このような従来技術にあっては、基本周波数パラメータ
の最適化を例にとると、評価関数として二乗誤差総和を
単純に用いており、自然音声データの無声区間でのデー
タ欠落や、子音などによる局所変動、知覚的に影響の少
ない部分での誤差などの影響を受けやすいという問題が
あった。

【００１３】また従来技術にあっては、不適切な韻律規
則の発見、改良が容易ではないという問題もあった。ま
た従来技術にあっては、自然音声データの不足する韻律
規則の最適化が行なえないという問題もあった。

【００１４】本発明は上記事情を考慮してなされたもの
でその目的は、韻律パラメータの最適化のための評価に
用いる評価関数自体を最適化できる音声合成装置を提供
することにある。

【００１５】本発明の他の目的は、不適切な韻律規則を
抽出して改良することができる音声合成装置を提供する
ことにある。本発明の更に他の目的は、韻律規則で考慮
されていない韻律パラメータ決定要因の要素を用いてク
ラスタリングを行ない、韻律規則を分割した方が評価値
が良くなる場合には当該韻律規則の分割を行なうことが
できる音声合成装置を提供することにある。

【００１６】本発明の更に他の目的は、自然音声データ
の不足した韻律規則に関してオペレータによる試聴評価
を利用することで、その韻律規則の最適化を行なうこと
ができる音声合成装置を提供することにある。

【００１７】

【課題を解決するための手段】本発明の第１の観点に係
る音声合成装置は、種々の学習用テキスト情報を順次解
析して、合成音声の音韻、韻律を表す情報を生成するテ
キスト解析手段と、韻律パラメータ生成のための各種韻
律規則が予め登録されている韻律規則記憶手段と、上記
テキスト解析手段により生成された上記情報、及び上記
韻律規則記憶手段に登録されている対応する韻律規則を
もとに、当該韻律規則で適用する韻律パラメータ値を予
め定められた複数候補の中から順次選択しながら音声合
成用の第１の韻律パラメータ時系列を順に生成するパラ
メータ時系列生成手段と、上記学習用テキスト情報に対
応する自然音声データを分析して第２の韻律パラメータ
時系列を生成するパラメータ分析手段と、このパラメー
タ分析手段により生成される第２の韻律パラメータ時系
列と上記パラメータ時系列生成手段により韻律パラメー
タ値を切り替えながら順に生成される第１の韻律パラメ
ータ時系列とを所定の評価関数を用いて比較評価する評
価手段と、この評価手段の評価結果をもとに対応する韻
律規則で適用する韻律パラメータ値を最適化する韻律パ
ラメータ値学習手段と、上記パラメータ時系列生成手段
により生成される第１の韻律パラメータ時系列をもとに
対応する合成音声をオペレータによる試聴評価のために
出力させる試聴評価要求手段と、上記オペレータによる
試聴評価結果が入力されるオペレータ入力手段と、この
オペレータ入力手段から入力されたオペレータによる試
聴評価結果と対応する上記評価手段の評価結果とが無矛
盾となる方向に上記評価関数を修正する評価関数学習手
段とを備えたことを特徴とする。

【００１８】ここで、韻律パラメータ値の最適化には、
各韻律パラメータ値の候補ごとに評価関数の値の例えば
平均値（総和だけでもよい）を求めて、その値が最良と
なる韻律パラメータを求めればよい。

【００１９】このような構成においては、自然音声デー
タから得られる韻律パラメータ時系列と、その自然音声
データに対応するテキスト情報から音声合成のために得
られる韻律パラメータ時系列との比較により韻律パラメ
ータの評価が行なわれると共に、この評価（客観評価）
の結果とオペレータの試聴による評価（主観評価）の結
果の相関が考慮される結果、両結果の間で矛盾が生じに
くい評価関数が得られ、評価関数自体を最適化すること
が可能となる。ここで評価関数の最適化には、基準の評
価関数に重み（初期値は例えば１）を持たせ、客観評価
結果を対応する主観評価結果がよいグループと悪いグル
ープとに（予め定められた閾値で）２分した場合に、両
グループの客観スコアの分布の統計的な差が予め定めら
れた閾値より大きくなるような重みを選択し、その選択
した重みを持つ重み付き評価関数を採用すればよい。

【００２０】本発明の第２の観点に係る音声合成装置
は、上記第１の観点に係る音声合成装置における上記試
聴評価要求手段に代えて、上記評価手段の評価結果を統
計処理して不適切な韻律規則を検出し、当該規則を修正
して、その修正後の規則を適用した上記音声合成用の第
１の韻律パラメータ時系列を上記パラメータ時系列生成
手段により生成させて対応する合成音声をオペレータに
よる試聴評価のために出力させる試聴評価要求手段を設
けると共に、上記第１の観点に係る音声合成装置におけ
る上記評価関数学習手段に代えて、上記オペレータ入力
手段から入力されたオペレータによる試聴評価結果をも
とに上記不適切な韻律規則を修正・最適化する韻律規則
学習手段を設けたことを特徴とする。

【００２１】ここで不適切な韻律規則の検出には、当該
規則が適用されたそれぞれのテキスト情報（文例）に対
する最適なパラメータ値の分散を求め、その分散が予め
定められた閾値以上であるか否かを判断すればよい。

【００２２】このような構成においては、不適切な韻律
規則を抽出して改良することができる。本発明の第３の
観点に係る音声合成装置は、上記第２の観点に係る音声
合成装置に、上記評価手段の評価結果及び上記オペレー
タ入力手段から入力されたオペレータによる試聴評価結
果を、対応する韻律規則ごとに、当該規則で考慮された
韻律パラメータ決定要因の要素及び該当するテキスト情
報で決まる当該規則で非考慮の他の韻律パラメータ決定
要因の要素とを組にして記憶しておくための評価結果記
憶手段を設けると共に、上記第２の観点に係る音声合成
装置における上記韻律規則学習手段に代えて、上記評価
結果記憶手段に記憶されている上記評価手段の評価結果
を統計処理して不適切な韻律規則を検出し、当該規則で
非考慮の韻律パラメータ決定要因の要素を用いてクラス
タリングを行なうことで、そのクラスタリング結果をも
とに当該規則を分割する韻律規則学習手段を設けたこと
を特徴とする。

【００２３】ここで、韻律規則学習手段を、上記評価結
果記憶手段に記憶されている評価手段の評価結果を統計
処理して不適切な韻律規則を検出し、当該規則で非考慮
の韻律パラメータ決定要因の要素を用いてクラスタリン
グを行なうクラスタリング手段と、このクラスタリング
手段のクラスタリング結果の分布が複数に別れている場
合に、各分布ごとにその分布の重心に最も近いテキスト
情報を選択すると共に、対応する韻律規則を分割して新
たな複数の韻律規則を生成する韻律規則分割手段とで構
成し、上記韻律規則分割手段により選択された各テキス
ト情報に対応する上記第１の韻律パラメータ時系列を、
上記韻律規則分割手段により生成された各韻律規則に従
って上記パラメータ時系列生成手段にて生成させて、対
応する合成音声をオペレータによる試聴評価のために出
力させ、上記韻律規則分割手段では、自身が選択した各
テキスト情報についてのオペレータによる試聴評価結果
をもとに上記生成した複数の韻律規則を採用するか否か
を決定するようにするとよい。

【００２４】このような構成においては、韻律規則で考
慮されていない韻律パラメータ決定要因（考慮した方が
良いかもしれない韻律パラメータ決定要因）の要素を用
いてクラスタリングが行なわれ、韻律規則を分割した方
が評価値が高くなる場合には当該韻律規則が分割され、
韻律規則の最適化が図れる。

【００２５】また、上記第１乃至第４の観点に係る音声
合成装置のいずれかの試聴評価要求手段に、学習用テキ
スト情報に対応する自然音声データの数が予め定められ
た閾値以下の場合、上記学習用テキスト情報に対応する
合成音声をオペレータによる試聴評価のために出力させ
る機能を持たせると共に、上記韻律パラメータ値学習手
段に、上記オペレータによる試聴評価結果及び評価手段
の評価結果をもとに対応する韻律規則で適用する韻律パ
ラメータ値を最適化する機能を持たせたことを特徴とす
る。

【００２６】このような構成においては、自然音声デー
タの不足した韻律規則に関してオペレータによる試聴評
価を利用することで、その韻律規則の最適化を行なうこ
とができる。

【００２７】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図１は本発明の一実施形態に
係る音声合成装置の構成を示すブロック図である。

【００２８】図１に示す音声合成装置は、テキスト入力
部１、パラメータ生成・評価部２、合成器３、音声合成
単位辞書４、及び音声出力部５から構成されており、任
意のテキスト情報から合成音声を出力するものである。
この音声合成装置でのテキスト情報からの合成音声の出
力は、次のように行なわれる。

【００２９】まずテキスト入力部１は、音声合成の対象
となる任意のテキスト情報（以下、単にテキストと称す
る）の入力を司る。このテキスト入力部１は、オペレー
タ（ユーザ）操作によりテキスト（を構成する例えば漢
字仮名混じり文）の入力が可能なキーボード、テキスト
の保存と、その保存テキストの読み出しが可能なハード
ディスク装置、ＣＤ−ＲＯＭ装置等の外部記憶装置、或
いはネットワーク等を介して転送されるテキストを受信
して入力することが可能な通信インタフェース等を用い
て実現される。

【００３０】テキスト入力部１により任意のテキストが
入力されると、その入力テキストは、パラメータ生成・
評価部２に設けられたパラメータ生成部２３内のテキス
ト解析部２３１に与えられる。テキスト解析部２３１
は、この入力テキストを対象とする形態素解析、構文解
析等を行なうことで、合成音声の音韻、韻律に関する情
報を生成する。この音韻、韻律に関する情報は、パラメ
ータ時系列生成部２３２に与えられる。

【００３１】パラメータ時系列生成部２３２は韻律パラ
メータの生成機能と音韻記号の生成機能とを有してお
り、テキスト解析部２３１から与えられた音韻、韻律に
関する情報と、韻律規則記憶部２３３に格納されている
韻律規則（韻律パラメータ生成規則）とに基づいて、各
音韻の基本周波数（ピッチ周波数）、継続時間長、パワ
ー、ポーズなどの韻律パラメータの時系列を生成すると
共に、音韻記号列を生成する。この韻律パラメータ時系
列及び音韻記号列は合成器３に与えられる。

【００３２】合成器３は、音声パラメータ生成機能と音
声合成機能とを有しており、パラメータ時系列生成部２
３２から与えられた音声記号列に従って、合成に必要な
音声合成単位を音声合成単位辞書４から選択し、その選
択した音声合成単位をパラメータ時系列生成部２３２か
ら与えられた韻律パラメータ時系列に従って接続して、
音声パラメータの時系列を生成する。ここで、音声合成
単位辞書４に格納（登録）されている音声合成単位は、
例えば、アナウンサ等が発声した音声を分析した所定の
音声の特徴パラメータを得た後、日本語の音節単位など
の所定の合成単位で、日本語の音声に含まれる全ての音
節を上記特徴パラメータから切り出すことにより作成さ
れた音声素片である。音声合成単位辞書４は、ハードデ
ィスク装置、ＲＯＭ等を用いて実現される。

【００３３】合成器３は、生成した音声パラメータの時
系列に基づいて音声を合成する。合成器３により合成さ
れた音声は音声出力部５に与えられてＤ／Ａ（ディジタ
ル／アナログ変換）された後、合成音声としてスピーカ
等から出力される。

【００３４】以上、図１の音声合成装置において入力テ
キストから合成音声を生成する従来からよく知られてい
る動作につき説明した。次に、図１の音声合成装置の特
徴である韻律規則の評価・学習機能について説明する。

【００３５】まず、パラメータ生成・評価部２は、テキ
ストデータ記憶部２１及び音声データ記憶部２２を含ん
でいる。テキストデータ記憶部２１には学習に用いるテ
キストデータが格納されており、音声データ記憶部２２
には、テキストデータ記憶部２１に記憶されたテキスト
データに対応する音韻ラベル情報付きの音声データ（自
然音声データ）が格納されている。

【００３６】本実施形態では、前記した入力テキストか
ら合成音声を生成するモード（通常モード）と、韻律規
則記憶部２３３に格納されている韻律規則の学習を行な
う学習モードとが選択指定できるようになっている。こ
こでは、オペレータからの特別の指定がない状態（例え
ばシステム立ち上げ時）では通常モードが自動設定され
る。通常モードから学習モードへの切り替えと、学習モ
ードから通常モードへの切り替えは、オペレータ入力部
２８からの選択指定が必要となる。また、学習モードで
は、韻律規則の特殊化を自動的に行なう規則特殊化自動
モードと、オペレータによる試聴評価を要求し、その評
価結果を考慮して韻律規則の特殊化を行なう規則特殊化
オペレータ介在モードとが選択指定可能である。この規
則特殊化自動モードと規則特殊化オペレータ介在モード
については後述する。

【００３７】学習モードでは、パラメータ生成部２３内
のテキスト解析部２３１は、パラメータ生成規則学習部
２６の制御のもとで、テキストデータ記憶部２１に格納
されている学習用テキストデータを読み込んで周知の形
態素解析、構文解析等を行ない、テキストデータ（文）
中の各アクセント単位に対して、読み情報、文法属性
（品詞等）、アクセント型、モーラ数などの音韻、韻律
に関する情報を付与する。テキスト解析部２３１は、学
習用テキストデータについての音韻、韻律に関する情報
を取得すると、その情報をパラメータ時系列生成部２３
２に与える。

【００３８】パラメータ時系列生成部２３２は、テキス
ト解析部２３１から音韻、韻律に関する情報が与えられ
ると、ハードディスク装置等の外部記憶装置を用いて実
現される韻律規則記憶部２３３をアクセスする。この韻
律規則記憶部２３３には、基本周波数、音韻継続時間
長、ポーズ長、パワーなどの韻律に関する韻律規則（韻
律パラメータ生成規則）の集合が格納されているパラメータ時系列生成部２３２は、テキスト解析部２３
１から与えられた音韻、韻律に関する情報をもとに、韻
律規則記憶部２３３の中から対応する韻律規則を選択
し、その韻律規則を当該情報に適用して、基本周波数、
音韻継続時間長、ポーズ長、パワーといった韻律パラメ
ータの時系列を生成する。ここで、基本周波数に関して
は、基本周波数パターンを話調成分とアクセント成分の
和であると仮定する重畳モデルなどの韻律制御モデル、
例えば藤崎モデル（電子情報通信学会論文誌 A Vol.J7
2-A No.1 pp32-40 1989-01）で記述され、韻律規則によ
ってフレーズ指令値（例えばフレーズ指令の大きさ、フ
レーズ指令の時点）、アクセント指令値（アクセント指
令の大きさ、アクセント指令の始点並びに終点）など、
当該モデルにおけるモデルパラメータ（韻律パラメー
タ）が決定され、しかる後に韻律規則によって決定され
た韻律パラメータをパラメータ時系列生成部２３２にお
いて当該モデルに適用することで、韻律パラメータ時系
列が生成される。

【００３９】パラメータ生成・評価部２はまた、パラメ
ータ分析部２４、パラメータ生成規則評価部２５、及び
パラメータ生成規則学習部２６を含んでいる。パラメー
タ分析部２４は、学習モードにおいてパラメータ生成規
則学習部２６により起動され、テキスト解析部２３１に
より解析されてパラメータ時系列生成部２３２により韻
律パラメータ時系列に変換された学習用テキストデータ
に対応する音韻ラベル情報付きの音声データを読み込ん
で分析することで、対応する分析パラメータ時系列（韻
律パラメータ時系列）を生成する。

【００４０】学習モードにおいて、パラメータ時系列生
成部２３２により生成された韻律パラメータ時系列は、
パラメータ生成規則評価部２５内の評価部２５１に与え
られる。この評価部２５１には、パラメータ分析部２４
での分析により生成された（上記パラメータ時系列生成
部２３２からの韻律パラメータ時系列に対応する）韻律
パラメータ時系列も与えられる。

【００４１】評価部２５１は、パラメータ時系列生成部
２３２からの韻律パラメータ時系列とパラメータ分析部
２４からの韻律パラメータ時系列（分析パラメータ時系
列）とを、着目する韻律規則の韻律パラメータの影響が
及ぶ範囲内で比較して、評価スコア（評価値）を算出す
る。ここで、着目する韻律規則の韻律パラメータの影響
が及ぶ範囲とは、その韻律パラメータを何通りか変化さ
せたとき、その結果生成される合成音声に人間が聞き分
けられる大きさ以上の変化が生じるような時間範囲のこ
とである。例えば基本周波数の場合では、数Ｈｚ以上、
あるいは数％以上の変化が生じる範囲などと定義するこ
とができる。また、評価スコアは、（継続時間長、パワ
ー等の）韻律パラメータ種別ごとに用意された評価関数
によって与えられる。評価部２５１で算出された評価ス
コアは、パラメータ生成規則評価部２５内の評価結果記
憶部２５２に、適用韻律規則、対象テキストデータ、適
用韻律パラメータ値に対応させて格納される。

【００４２】以上の動作は、着目する韻律規則ごとに、
パラメータ時系列生成部２３２で適用する韻律パラメー
タ値を予め用意されている複数の候補の中からパラメー
タ生成規則学習部２６の制御により順次切り替えなが
ら、繰り返し行なわれる。

【００４３】パラメータ生成規則評価部２５には、統計
的規則評価部２５３が設けられている。統計的規則評価
部２５３は、評価結果記憶部２５２に格納されている評
価スコアを各韻律規則ごとに統計的に分析する。

【００４４】パラメータ生成規則学習部２６は、統計的
規則評価部２５３の評価結果等に従って、韻律規則記憶
部２３３に格納されている対応する韻律規則（韻律パラ
メータ生成規則）、或いは当該規則で適用する韻律パラ
メータ値を修正する。パラメータ生成規則学習部２６は
また、不適切な韻律規則（これの定義については後述す
る）を検出した場合には、ＣＲＴディスプレイ、液晶デ
ィスプレイ等を用いて構成される情報提示部２７に当該
規則を表示することで、オペレータに当該規則を提示
し、加えてオペレータに試聴評価を促す。

【００４５】この際、パラメータ生成規則学習部２６
は、不適切な（問題のある）韻律規則が適用されるテキ
ストデータをテキスト解析部２３１により順次解析させ
て、パラメータ時系列生成部２３２により対応する韻律
パラメータ時系列を生成させる制御動作を、当該韻律規
則で適用する韻律パラメータ値を複数の候補の中から選
択的に切り替えながら繰り返す。ここで、他の韻律規則
で適用する韻律パラメータ値には、即ち試聴する範囲の
音に影響する、着目していない韻律規則の韻律パラメー
タには、その時点で最適とされている韻律パラメータ値
が用いられる。

【００４６】なお、試聴評価用の合成音の生成に、自然
音声データを用いるようにしても構わない。即ち自然音
声データの韻律を、着目する韻律パラメータの影響の及
ぶ範囲に関して、パラメータ生成部２３で生成された韻
律パラメータ時系列に従って変更し、それによって生成
される合成音をオペレータに試聴させるようにしても構
わない。

【００４７】例えば、着目する韻律パラメータが、ある
韻律規則によって決定されるアクセント指令値の大きさ
の場合、まず自然音声データを分析して基本周波数の時
系列を抽出する一方で、パラメータ生成部２３では該当
アクセント指令を含むアクセント句（１アクセントを含
む句）のアクセント成分時系列を生成する。このとき、
アクセント指令の始点及び終点は自然音声データに付与
された音韻ラベルを参照することによって、自然音声デ
ータに対応したものにする。次に、自然音声データから
分析された基本周波数の時系列において、上記パラメー
タ生成部２３で生成されたアクセント成分時系列中のア
クセント成分０の時点に対応する基本周波数を直線で近
似したものを話調成分と見なし、上記アクセント句に対
応する部分に関して話調成分以外を取り除いた後、代わ
りにパラメータ生成部２３で生成されたアクセント成分
時系列を加算する。なおこの際、該当アクセント指令値
を切り替えて同様の基本周波数の時系列を生成したと
き、いずれかのパラメータ値のときに元の自然音声デー
タの基本周波数の時系列との誤差がある閾値以下である
こと、即ち仮定した話調成分が不適切でないことを確認
した方が良い。こうして生成された基本周波数の時系列
に合わせて、音声データの波形を変える（TD-PSOLA法
Speech Commun. 9,453-467,1990 ）ことによって生成さ
れる合成音を、オペレータに試聴させる。

【００４８】パラメータ時系列生成部２３２では、韻律
パラメータ時系列と共に音韻記号列が生成される。韻律
パラメータ時系列はパラメータ生成規則評価部２５（内
の評価部２５１）に与えられる他、通常モードと同様に
対応する音韻記号列と共に合成器３にも与えられる。す
ると合成器３では、韻律パラメータ時系列及び音韻記号
列に基づいて音声合成に必要な音声パラメータの時系列
が生成されて音声が合成され、音声出力部５により合成
音声が出力される。これによりオペレータは、問題のあ
った韻律規則を適用して、韻律パラメータ値の候補（着
目する韻律パラメータ値）を順次切り替えながら韻律制
御を行なった場合の、各合成音声を逐次試聴して評価す
ることができる。

【００４９】オペレータによる試聴評価の結果（主観ス
コア）はオペレータ入力部２８を介して入力され、評価
結果記憶部２５２に格納される。また、試聴評価の結果
はパラメータ生成規則学習部２６に渡され、当該学習部
２６での韻律規則の修正に用いられる。

【００５０】図２は、上記評価部２５１の構成を示すブ
ロック図である。評価部２５１は、図２に示すように、
分析パラメータ評価用データ生成部２５１ａ、韻律パラ
メータ評価用データ生成部２５１ｂ、及び比較部２５１
ｃから構成される。

【００５１】分析パラメータ評価用データ生成部２５１
ａには、パラメータ分析部２４での音声データ分析結果
である分析パラメータ時系列（韻律パラメータ時系列）
が、対応する音声データに付されている音韻ラベル情報
と共に、パラメータ分析部２４から入力される。分析パ
ラメータ評価用データ生成部２５１ａにはまた、着目し
ている韻律パラメータに関する情報がパラメータ時系列
生成部２３２から入力される。これにより分析パラメー
タ評価用データ生成部２５１ａは、着目している韻律パ
ラメータの影響する範囲に（予め定められた数の）前後
数単語を加えた範囲の分析パラメータ時系列（韻律パラ
メータ時系列）を音韻ラベル情報をもとに評価用データ
として抽出する。

【００５２】さて、上記着目している韻律パラメータに
関する情報は、韻律パラメータ評価用データ生成部２５
１ｂにも入力される。韻律パラメータ評価用データ生成
部２５１ｂにはまた、パラメータ時系列生成部２３２で
生成された韻律パラメータ時系列も入力される。これに
より韻律パラメータ評価用データ生成部２５１ａは、着
目している韻律パラメータの影響する範囲に（予め定め
られた数の）前後数単語を加えた範囲の韻律パラメータ
時系列を評価用データとして抽出する。

【００５３】比較部２５１ｃは、分析パラメータ評価用
データ生成部２５１ａと韻律パラメータ評価用データ生
成部２５１ｂでそれぞれ抽出された評価用データ（評価
用の韻律パラメータ時系列）を、二乗誤差総和に代表さ
れる評価関数を用いて比較し、その類似性を示す評価ス
コア（評価値）を算出する。この比較部２５１ｃで算出
された評価スコアは、適用韻律規則に対応して確保され
る評価結果記憶部２５２内領域（テーブル領域）に格納
される。

【００５４】図３は、評価結果記憶部２５２での評価ス
コアの格納形式、更に具体的に述べるならば、適用韻律
規則に対応して確保される評価結果記憶部２５２内領域
における評価スコアの格納形式の一例を示す。

【００５５】ここでは、該当する韻律規則が適用された
データのＩＤ（識別子）、韻律パラメータの決定要因の
要素、種々の韻律パラメータ値（図ではＡ0 〜Ａ5 の６
種）を与えたときのスコア（評価スコア）がセットで格
納される。韻律パラメータ決定要因としては、該当する
韻律規則中で予め考慮されている（記述されている）も
のと、考慮されていない（記述されていない）ものとが
あり、後述する規則の特殊化、一般化の際に用いられ
る。また、韻律パラメータ値ごとのスコア（評価スコ
ア）には、評価部２５１（内の比較部２５１ｃ）での比
較・評価結果（客観スコア）の他、オペレータが試聴評
価を行なったデータに関しては主観スコアがある。ここ
で主観スコアには４段階評価値が使用され、二重丸が最
も良く、以下、丸（○）、三角（△）、ばつ（×）の順
となる。なお、客観スコアは、誤差関数によるスコアを
想定しており、値が小さいほど評価が良いことを表す。

【００５６】次に、パラメータ生成規則学習部２６での
制御のもとでの評価処理の詳細を、図４及び図５のフロ
ーチャートを参照して説明する。まずパラメータ生成規
則学習部２６は、韻律規則記憶部２３３の中から着目す
る規則ｉを決めて選択する（ステップ４０１，４０
２）。次にパラメータ生成規則学習部２６は、選択した
規則ｉに対応して韻律規則記憶部２３３内に予め用意さ
れている韻律パラメータ値の候補の１つＡj を選択し、
当該規則ｉの韻律パラメータ値としてセットする（ステ
ップ４０３，４０４）。

【００５７】次にパラメータ生成規則学習部２６は、着
目する規則ｉを適用する学習用テキストデータｋ（ここ
では、例えば１文単位）を決めて選択し（ステップ４０
５，４０６）、パラメータ生成部２３及びパラメータ分
析部２４を起動する。

【００５８】これによりパラメータ生成部２３内では、
テキストデータ記憶部２１内のテキストデータｋに対す
るテキスト解析部２３１による解析処理と、その解析結
果に基づくパラメータ時系列生成部２３２による韻律パ
ラメータ時系列生成とが行なわれる。このパラメータ時
系列生成部２３２での韻律パラメータ時系列生成処理に
おいて、規則ｉが適用可能な部分については、パラメー
タ生成規則学習部２６によりセットされた韻律パラメー
タ値Ａj が用いられ、他の規則が適用可能な部分につい
ては、その規則に関してその時点において最適であると
されている韻律パラメータ値が用いられる。パラメータ
時系列生成部２３２により生成された韻律パラメータ時
系列はパラメータ生成規則評価部２５内の評価部２５１
に与えられる。

【００５９】一方、パラメータ分析部２４では、テキス
トデータｋに対応する音声データ記憶部２２内の音韻ラ
ベル情報付き学習用音声データを分析して、対応する分
析パラメータ時系列（韻律パラメータ時系列）を生成す
る処理が行なわれる。パラメータ分析部２４により生成
された韻律パラメータ時系列も評価部２５１に与えられ
る。

【００６０】評価部２５１は、パラメータ生成規則学習
部２６の制御のもとで、パラメータ時系列生成部２３２
からの韻律パラメータ時系列中に規則ｉが適用された部
分があるか否かを調べる（ステップ４０７）。もし、規
則ｉが適用された部分があれば、その部分について、パ
ラメータ分析部２４からの分析パラメータ時系列との比
較・評価を行ない、その評価結果（評価スコア）を規則
ｉ用の評価結果記憶部２５２内領域に、該当するデータ
部分（データｋ内の当該データ部分の位置）及びパラメ
ータ値Ａj に対応付けて格納する（ステップ４０８）。

【００６１】このようにしてデータｋの最終部分に対応
する韻律パラメータ時系列部分まで進むと、パラメータ
生成規則学習部２６は未処理のテキストデータがあるか
否かをチェックし（ステップ５０１）、あるならば、未
処理のテキストデータを１つ選択して（ステップ５０
２，４０６）、そのデータについて上記と同様の処理
（ステップ４０７，４０８）を行なわせる。

【００６２】このようにして、すべてのテキストデータ
について規則ｉを適用した評価が終了したならば、パラ
メータ生成規則学習部２６は、規則ｉについて、すべて
の韻律パラメータ値の候補で評価したか否かをチェック
し（ステップ５０３）、未評価の韻律パラメータ値の候
補があるならば、その未評価の韻律パラメータ値の候補
を１つ選択して規則ｉのパラメータとしてセットし（ス
テップ５０４，４０４）、上記ステップ４０５以降の処
理に進む。

【００６３】やがて、規則ｉについて、すべての韻律パ
ラメータ値の候補で評価が行なわれたならば、パラメー
タ生成規則学習部２６は、規則ｉ用の評価結果記憶部２
５２内領域の評価スコアをもとに、各候補別（図３の例
ではＡ0 〜Ａ5 別）に評価スコアの平均値（総和でも
可）を求め、その平均値（総和）を最良にする（最も小
さくする）候補Ａx を、規則ｉの最適パラメータに決定
する（ステップ５０６）。図３の例では、Ａ2 が上記Ａ
x に相当する。

【００６４】次にパラメータ生成規則学習部２６は、す
べての規則について評価を行なったか否かをチェックし
（ステップ５０６）、未評価（未適用）の規則があるな
らば、その未評価の規則を１つ選択して（ステップ５０
７，４０２）、上記ステップ４０３以降の処理に進
む。。

【００６５】やがて、すべての規則について評価が行な
われたならば、パラメータ生成規則学習部２６は、その
うちのいずれかの規則で最適パラメータの変更がなされ
たか否かをチェックし（ステップ５０８）、最適パラメ
ータの変更がなされたならば、パラメータ間での相互作
用が見られたものと判断して先頭ステップ４０１に戻
り、すべての規則の最適パラメータが変更されなくなる
までステップ４０１以降の処理を繰り返す。

【００６６】次に、パラメータ生成規則学習部２６によ
るパラメータ生成規則学習処理の１つであるパラメータ
生成規則特殊化処理について図６及び図７のフローチャ
ートを参照して説明する。

【００６７】まずパラメータ生成規則学習部２６は、着
目する規則ｉを決めて選択する（ステップ６０１，６０
２）。すると統計的規則評価部２５３は、パラメータ生
成規則学習部２６により選択された規則ｉが適用された
それぞれの文例（テキストデータ部分）に対する最適な
パラメータ値を規則ｉ用の評価結果記憶部２５２内領域
を参照して調べて、その分散を計算する（ステップ６０
３）。

【００６８】パラメータ生成規則学習部２６は、統計的
規則評価部２５３で算出された分散が予め定められた閾
値以上であるか否かをチェックする（ステップ６０
４）。もし、算出された分散が閾値を下回った場合に
は、パラメータ生成規則学習部２６は、該当する規則ｉ
は適切であると判断して、次の規則について（ステップ
７０５，７０６，６０２）、同様の処理（ステップ６０
３以降の処理）を行なう。

【００６９】これに対し、算出された分散が閾値以上の
場合には、パラメータ生成規則学習部２６は該当する規
則ｉは不適切であると判断し、対応するテキストデータ
（に対するテキスト解析部２３１での解析結果）で決ま
る、当該規則ｉ中で考慮していないパラメータ決定要因
（アクセント型など）の要素（アクセント型０、アクセ
ント型１、アクセント型２など）を用いてクラスタリン
グを行ない（ステップ６０５）、そのクラスタリングの
結果から、規則ｉを特殊化すると評価スコアの総和が良
くなるか否かを調べる（ステップ６０６）。

【００７０】もし、良くなると判断できた場合、規則特
殊化自動モードが設定されているならば（ステップ７０
１）、パラメータ生成規則学習部２６は、該当する規則
ｉを特殊化、例えば分割して２つの規則を生成して、韻
律規則記憶部２３３に格納する（ステップ７０２）。

【００７１】一方、規則特殊化オペレータ介在モードが
設定されているならば、パラメータ生成規則学習部２６
は、パラメータ生成部２３及び合成器３を動かして、規
則ｉを特殊化した場合について、以下に述べるようにし
て選択したテキストデータを対象に、その特殊化した規
則を適用した際の合成音声を音声出力部５から出力させ
ると共に、情報提示部２７に対して試聴評価を要求する
案内情報を表示して、オペレータによる試聴評価を行な
わせる（ステップ７０３）。

【００７２】この場合、オペレータは情報提示部２７に
表示されている案内に従って、試聴評価の結果をオペレ
ータ入力部２８から入力する。パラメータ生成規則学習
部２６は、オペレータ入力部２８から入力されたオペレ
ータの試聴評価結果が、規則ｉを特殊化すると良くなる
か否かをチェックし（ステップ７０４）、良くなるなら
ば、該当する規則ｉを特殊化、例えば分割して２つの規
則を生成する（ステップ７０２）。上記ステップ７０
３，７０４の実現例としては、規則ｉが分割されたと仮
定した場合に、それぞれの典型例となる数テキストデー
タについてオペレータに試聴評価を行なわせ、その結果
両者のスコアにある閾値以上の差が生じた場合に、分割
を決定するという方法が適用可能である。

【００７３】例えば、規則Ｒを規則Ｒ1 と規則Ｒ2 に分
割した場合に、規則Ｒ1 ，Ｒ2 をそれぞれ適用するデー
タのうちの典型データとして、図８（ａ）に示すよう
に、規則Ｒ1 ，Ｒ2 の各々について、その規則中で考慮
していないパラメータ決定要因で表される空間（例えば
アクセント型を１つの座標軸として、その要素であるア
クセント型０，１，２をその座標軸上の値とし、モーラ
数を別の座標軸として、とり得るモーラ数の値をその座
標軸上の値とするというように、規則中で考慮していな
い各パラメータ決定要因をそれぞれ座標軸とするパラメ
ータ決定要因空間）における、その規則を適用するデー
タ（文例）群の分布の重心に最も近いデータＸ1 ，Ｘ2
を選ぶ。

【００７４】そして、選んだデータＸ1 ，Ｘ2 に対して
規則Ｒ1 ，Ｒ2 を適用した場合の合成音声を出力して、
オペレータによる試聴評価を行なわせ、図８（ｂ）に示
すような、その試聴評価のスコア（主観スコア）の各韻
律パラメータ値に対する分布がデータＸ1 ，Ｘ2 間でど
れだけ異なっているかを評価し、ある閾値以上異なって
いると判断できた場合、分割を行なえば良い。

【００７５】次に、パラメータ生成規則学習の１つであ
るパラメータ生成規則の一般化の方法につき説明する。
図９のように、規則ｐが適用されたデータ数と、規則ｑ
が適用されたデータ数が共に少なく（データは黒丸で表
現）、また、そのデータに対する規則ｐまたはｑの適用
時、その規則中で考慮されているパラメータ決定要因で
表される空間（パラメータ決定要因空間）における、そ
の規則が適用されたデータ（文例）群の分布の重心Ｇp
，Ｇq 間の距離ｄがある閾値より短く、且つ各規則
ｐ，ｑに与えられている最適なパラメータ値が一致或い
は非常に近い場合、両規則ｐ，ｑを含む新たな規則ｒを
作成することが可能である。

【００７６】次に、評価部２５１（内の比較部２５１
ｃ）での比較・評価により算出される客観スコアと、オ
ペレータ試聴によりオペレータ入力部２８を通してオペ
レータから与えられる主観スコアとを用いた、評価部２
５１での評価関数の最適化の方法について、図１０及び
図１１を参照して説明する。

【００７７】図１０は、ある規則を文ｉと文ｊに適用し
た場合に、特に文ｊについて客観スコアと主観スコアと
が食い違っている例を示す。この場合、客観スコアから
決定した最適韻律パラメータ値Ａ3 では、文ｊのときに
は非常に聞こえの悪い韻律を生成してしまうことにな
る。このようなことは、評価関数に単純に二乗誤差など
を用いた場合に生じ得る。そのため、客観スコアと主観
スコアの間での矛盾の少ない評価関数を決める必要があ
る。

【００７８】そこで本実施形態では、例えば基本周波数
制御パラメータの評価関数として、次式ｆi ＝Σαj ＊ｄj ……（１）で表されるｆi を適用する。ここで、ｊは音韻を複数の
タイプに分類したときのカテゴリー番号、ｄj はカテゴ
リーｊの音韻の二乗誤差、αi はカテゴリーｊに対する
重み、Σαj ＊ｄj はαj ＊ｄj の値のすべてのカテゴ
リーｊについての総和である。音韻のタイプの分類方法
としては、例えば子音と母音に分ける方法が適用可能で
ある。

【００７９】本実施形態では、カテゴリーｊの二乗誤差
上ｄj に対する重みαj をカテゴリーｊごとに変えるこ
とで、最適な評価関数ｆi を決める。図１１（ａ）のグ
ラフは、客観スコアと主観スコアの両者が存在するデー
タに関して、評価関数にｆi を用いた場合の、主観スコ
アに対する客観スコアの値の分布を表したものである。
ここで、客観スコアを良い評価のデータ（二重丸と○）
と悪い評価のデータ（△と×）とに分け、両者の客観ス
コアの分布の統計的な差ができるだけ大きくなるような
（予め定められた閾値より大きくなるような）重みａj
を各カテゴリーｊごとに選ぶならば、主観スコアと客観
スコアの間の矛盾が生じにくい評価関数ｆi を得ること
ができる。

【００８０】分布の統計的な差の指標の一例としては、
図１１（ｂ）に示すような、主観スコアで悪い評価のデ
ータについての客観スコアの分布（発生頻度の分布）１
１１ａと、主観スコアで良い評価のデータについての客
観スコアの分布（発生頻度の分布）１１１ｂとの差に関
するｔ検定を行なったとき、その差に関する有意水準が
使え、有意水準の小さいものほど統計的な差が大きいと
みなす。

【００８１】なお、自然音声データの不足した規則、例
えば適用可能な自然音声データの数がある閾値以下の規
則については、テキストデータ記憶部２１に格納されて
いるテキストデータのみを用いてオペレータにより試聴
評価を行なわせ、その試聴評価のスコア（主観スコア）
を客観スコアとして本来の客観スコアと共に用いて、最
適な韻律パラメータを選択することも可能である。

【００８２】以上に述べた図１の構成の音声合成装置
は、コンピュータ、例えば図１２に示すようなスピーカ
１２１を内蔵したパーソナルコンピュータ１２０を、テ
キスト入力部１、パラメータ生成・評価部２、合成器
３、音声合成単位辞書４及び音声出力部５として機能さ
せるためのプログラムを記録した記録媒体、例えばフロ
ッピーディスク１２２を用い、当該フロッピーディスク
１２２をパーソナルコンピュータ１２０に装着して、当
該フロッピーディスク１２２に記録されているプログラ
ムをパーソナルコンピュータで１２０で読み取り実行さ
せることにより実現される。ここでは、スピーカ１２１
は音声出力部５の一部として用いられる。なお、プログ
ラムを記録した記録媒体としては、フロッピーディスク
１２２の他に、ＣＤ−ＲＯＭ、メモリカード等が利用可
能である。

【００８３】

【発明の効果】以上詳述したように本発明によれば、自
然音声データから得られる韻律パラメータ時系列と、そ
の自然音声データに対応するテキスト情報から音声合成
のために得られる韻律パラメータ時系列との比較により
韻律パラメータの評価（客観評価）を行なうと共に、こ
の客観評価（比較評価）と主観評価（オペレータの試聴
による評価）との結果の相関を考慮することで、韻律パ
ラメータの最適化のための評価に用いる評価関数自体を
最適化できる。

【００８４】また本発明によれば、自然音声データと対
応する合成音声データとの比較評価結果を統計処理する
ことで不適切な韻律規則を検出して当該規則を修正し、
その修正後の規則を適用して生成される合成音声に対し
てオペレータによる試聴評価を行なわせることで、その
試聴評価結果をもとに不適切な韻律規則の修正・最適化
を図ることができる。

【００８５】また本発明によれば、韻律規則で考慮され
ていない韻律パラメータ決定要因の要素を用いてクラス
タリングを行なうことで、当該韻律規則を分割した方が
良いか否かを判断し、評価値が良くなる方向に当該韻律
規則を分割することができる。

【００８６】また本発明によれば、自然音声データの不
足した韻律規則に関してオペレータによる試聴評価を利
用することで、その韻律規則の最適化を行なうことがで
きる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声合成装置の構成
を示すブロック図。

【図２】図１中の評価部２５１の構成を示すブロック
図。

【図３】図１中の評価結果記憶部２５２での評価スコア
の格納形式の一例を示す図。

【図４】同実施形態における評価処理を説明するための
フローチャートの一部を示す図。

【図５】同実施形態における評価処理を説明するための
フローチャートの残りを示す図。

【図６】同実施形態におけるパラメータ生成規則学習部
２６によるパラメータ生成規則特殊化処理を説明するた
めのフローチャートの一部を示す図。

【図７】同実施形態におけるパラメータ生成規則学習部
２６によるパラメータ生成規則特殊化処理を説明するた
めのフローチャートの残りを示す図。

【図８】同実施形態におけるパラメータ生成規則の分割
条件を説明するための図。

【図９】同実施形態におけるパラメータ生成規則の一般
化を説明するための図。

【図１０】あるパラメータ生成規則を文ｉと文ｊに適用
した場合に、客観スコアと主観スコアとが食い違ってい
る例を示す図。

【図１１】同実施形態における評価関数の最適化を説明
するための図。

【図１２】図１の音声合成装置を実現するパーソナルコ
ンピュータの外観を示す図。

【符号の説明】

１…テキスト入力部２…パラメータ生成・評価部３…合成器４…音声合成単位辞書５…音声出力部２１…テキストデータ記憶部２２…音声データ記憶部２３…パラメータ生成部２４…パラメータ分析部２５…パラメータ生成規則評価部２６…パラメータ生成規則学習部（韻律パラメータ値学
習手段、試聴評価要求手段、評価関数学習手段、韻律規
則学習手段、クラスタリング手段、韻律規則分割手段）２７…情報提示部２８…オペレータ入力部２３１…テキスト解析部２３２…パラメータ時系列生成部２３３…韻律規則記憶部２５１…評価部２５２…評価結果記憶部２５３…統計的規則評価部。

Claims

【特許請求の範囲】

【請求項１】入力されたテキスト情報から合成音声の
音韻、韻律に関する情報を生成して、その情報をもとに
合成音声の各音韻の韻律パラメータ値及び音韻記号を決
定し、その韻律パラメータ値及び音韻記号に基づいて音
声合成に必要な音声パラメータを生成して当該音声パラ
メータをもとに合成音声を出力する音声合成装置におい
て、種々の学習用テキスト情報を順次解析して、合成音声の
音韻、韻律を表す情報を生成するテキスト解析手段と、韻律パラメータ生成のための各種韻律規則が予め登録さ
れている韻律規則記憶手段と、前記テキスト解析手段により生成された前記情報、及び
前記韻律規則記憶手段に登録されている対応する前記韻
律規則をもとに、当該韻律規則で適用する韻律パラメー
タ値を予め定められた複数候補の中から順次選択しなが
ら音声合成用の第１の韻律パラメータ時系列を順に生成
するパラメータ時系列生成手段と、前記学習用テキスト情報に対応する自然音声データを分
析して第２の韻律パラメータ時系列を生成するパラメー
タ分析手段と、前記パラメータ分析手段により生成される前記第２の韻
律パラメータ時系列と前記パラメータ時系列生成手段に
より前記韻律パラメータ値を切り替えながら順に生成さ
れる前記第１の韻律パラメータ時系列とを所定の評価関
数を用いて比較評価する評価手段と、前記評価手段の評価結果をもとに対応する韻律規則で適
用する韻律パラメータ値を最適化する韻律パラメータ値
学習手段と、前記パラメータ時系列生成手段により生成される前記第
１の韻律パラメータ時系列をもとに対応する合成音声を
オペレータによる試聴評価のために出力させる試聴評価
要求手段と、前記オペレータによる試聴評価結果が入力されるオペレ
ータ入力手段と、前記オペレータ入力手段から入力された前記オペレータ
による試聴評価結果と対応する前記評価手段の評価結果
とが無矛盾となる方向に前記評価関数を修正する評価関
数学習手段とを具備することを特徴とする音声合成装
置。
【請求項２】入力されたテキスト情報から合成音声の
音韻、韻律に関する情報を生成して、その情報をもとに
合成音声の各音韻の韻律パラメータ値及び音韻記号を決
定し、その韻律パラメータ値及び音韻記号に基づいて音
声合成に必要な音声パラメータを生成して当該音声パラ
メータをもとに合成音声を出力する音声合成装置におい
て、種々の学習用テキスト情報を順次解析して、合成音声の
音韻、韻律を表す情報を生成するテキスト解析手段と、韻律パラメータ生成のための各種韻律規則が予め登録さ
れている韻律規則記憶手段と、前記テキスト解析手段により生成された前記情報、及び
前記韻律規則記憶手段に登録されている対応する前記韻
律規則をもとに、当該韻律規則で適用する韻律パラメー
タ値を予め定められた複数候補の中から順次選択しなが
ら音声合成用の第１の韻律パラメータ時系列を順に生成
するパラメータ時系列生成手段と、前記学習用テキスト情報に対応する自然音声データを分
析して第２の韻律パラメータ時系列を生成するパラメー
タ分析手段と、前記パラメータ分析手段により生成される前記第２の韻
律パラメータ時系列と前記パラメータ時系列生成手段に
より前記韻律パラメータ値を切り替えながら順に生成さ
れる前記第１の韻律パラメータ時系列とを比較評価する
評価手段と、前記評価手段の評価結果をもとに対応する韻律規則で適
用する韻律パラメータ値を最適化する韻律パラメータ値
学習手段と、前記評価手段の評価結果を統計処理して不適切な韻律規
則を検出し、当該規則を修正して、その修正後の規則を
適用した前記音声合成用の第１の韻律パラメータ時系列
を前記パラメータ時系列生成手段により生成させて対応
する合成音声をオペレータによる試聴評価のために出力
させる試聴評価要求手段と、前記オペレータによる試聴評価結果が入力されるオペレ
ータ入力手段と、前記オペレータ入力手段から入力された前記オペレータ
による試聴評価結果をもとに前記不適切な韻律規則を修
正・最適化する韻律規則学習手段とを具備することを特
徴とする音声合成装置。
【請求項３】入力されたテキスト情報から合成音声の
音韻、韻律に関する情報を生成して、その情報をもとに
合成音声の各音韻の韻律パラメータ値及び音韻記号を決
定し、その韻律パラメータ値及び音韻記号に基づいて音
声合成に必要な音声パラメータを生成して当該音声パラ
メータをもとに合成音声を出力する音声合成装置におい
て、種々の学習用テキスト情報を順次解析して、合成音声の
音韻、韻律を表す情報を生成するテキスト解析手段と、韻律パラメータ生成のための各種韻律規則が予め登録さ
れている韻律規則記憶手段と、前記テキスト解析手段により生成された前記情報、及び
前記韻律規則記憶手段に登録されている対応する前記韻
律規則をもとに、当該韻律規則で適用する韻律パラメー
タ値を予め定められた複数候補の中から順次選択しなが
ら音声合成用の第１の韻律パラメータ時系列を順に生成
するパラメータ時系列生成手段と、前記学習用テキスト情報に対応する自然音声データを分
析して第２の韻律パラメータ時系列を生成するパラメー
タ分析手段と、前記パラメータ分析手段により生成される前記第２の韻
律パラメータ時系列と前記パラメータ時系列生成手段に
より前記韻律パラメータ値を切り替えながら順に生成さ
れる前記第１の韻律パラメータ時系列とを比較評価する
評価手段と、前記評価手段の評価結果を統計処理して不適切な韻律規
則を検出し、当該規則を修正して、その修正後の規則を
適用した前記音声合成用の第１の韻律パラメータ時系列
を前記パラメータ時系列生成手段により生成させて対応
する合成音声をオペレータによる試聴評価のために出力
させる試聴評価要求手段と、前記オペレータによる試聴評価結果が入力されるオペレ
ータ入力手段と、前記評価手段の評価結果及び前記オペレータ入力手段か
ら入力された前記オペレータによる試聴評価結果を、対
応する前記韻律規則ごとに、当該規則で考慮された韻律
パラメータ決定要因の要素及び該当するテキスト情報で
決まる当該規則で非考慮の他の韻律パラメータ決定要因
の要素とを組にして記憶しておくための評価結果記憶手
段と、前記評価結果記憶手段に記憶されている前記評価手段の
評価結果をもとに対応する韻律規則で適用する韻律パラ
メータ値を最適化する韻律パラメータ値学習手段と、前記評価結果記憶手段に記憶されている前記評価手段の
評価結果を統計処理して不適切な韻律規則を検出し、当
該規則で非考慮の前記韻律パラメータ決定要因の要素を
用いてクラスタリングを行なうことで、そのクラスタリ
ング結果をもとに当該規則を分割する韻律規則学習手段
とを具備することを特徴とする音声合成装置。
【請求項４】前記韻律規則学習手段は、前記評価結果記憶手段に記憶されている前記評価手段の
評価結果を統計処理して不適切な韻律規則を検出し、当
該規則で非考慮の前記韻律パラメータ決定要因の要素を
用いてクラスタリングを行なうクラスタリング手段と、前記クラスタリング手段のクラスタリング結果の分布が
複数に別れている場合に、各分布ごとにその分布の重心
に最も近いテキスト情報を選択すると共に、対応する前
記韻律規則を分割して新たな複数の韻律規則を生成する
韻律規則分割手段とから構成されており、前記試聴評価要求手段は、前記韻律規則分割手段により
選択された前記各テキスト情報に対応する前記第１の韻
律パラメータ時系列を、前記韻律規則分割手段により生
成された前記各韻律規則に従って前記パラメータ時系列
生成手段にて生成させて、対応する合成音声をオペレー
タによる試聴評価のために出力させ、前記韻律規則分割手段は、自身が選択した前記各テキス
ト情報についての前記オペレータによる試聴評価結果を
もとに前記生成した複数の韻律規則を採用するか否かを
決定することを特徴とする請求項３記載の音声合成装
置。
【請求項５】前記試聴評価要求手段は、前記学習用テ
キスト情報に対応する自然音声データの数が予め定めら
れた閾値以下の場合、前記学習用テキスト情報に対応す
る合成音声をオペレータによる試聴評価のために出力さ
せ、前記韻律パラメータ値学習手段は、前記オペレータによ
る試聴評価結果及び前記評価手段の評価結果をもとに対
応する韻律規則で適用する韻律パラメータ値を最適化す
ることを特徴とする請求項１乃至請求項４のいずれかに
記載の音声合成装置。
【請求項６】入力されたテキスト情報から合成音声の
音韻、韻律に関する情報を生成して、その情報をもとに
合成音声の各音韻の韻律パラメータ値及び音韻記号を決
定し、その韻律パラメータ値及び音韻記号に基づいて音
声合成に必要な音声パラメータを生成して当該音声パラ
メータをもとに合成音声を出力する音声合成装置に適用
される評価関数最適化方法であって、種々の学習用テキスト情報を順次解析して、合成音声の
音韻、韻律を表す情報を生成し、この生成した情報、及
び予め用意されている種々の韻律規則のうちの対応する
韻律規則をもとに、当該韻律規則で適用する韻律パラメ
ータ値を予め定められた複数候補の中から順次選択しな
がら音声合成用の第１の韻律パラメータ時系列を順に生
成する一方、前記学習用テキスト情報に対応する自然音声データを分
析して第２の韻律パラメータ時系列を生成し、前記第２の韻律パラメータ時系列と前記韻律パラメータ
値を切り替えながら順に生成される前記第１の韻律パラ
メータ時系列とを所定の評価関数を用いて比較評価し
て、その評価結果をもとに対応する韻律規則で適用する
韻律パラメータ値を最適化する一方、前記韻律パラメータ値を切り替えながら順に生成される
前記第１の韻律パラメータ時系列をもとに対応する合成
音声をオペレータによる試聴評価のために出力させて、
そのオペレータによる試聴評価結果を入力し、前記入力したオペレータによる試聴評価結果と対応する
前記評価関数を用いた前記評価結果とが無矛盾となる方
向に前記評価関数を修正することを特徴とする評価関数
最適化方法。
【請求項７】入力されたテキスト情報から合成音声の
音韻、韻律に関する情報を生成して、その情報をもとに
合成音声の各音韻の韻律パラメータ値及び音韻記号を決
定し、その韻律パラメータ値及び音韻記号に基づいて音
声合成に必要な音声パラメータを生成して当該音声パラ
メータをもとに合成音声を出力する音声合成装置に適用
される評価関数最適化方法であって、種々の学習用テキスト情報を順次解析して、合成音声の
音韻、韻律を表す情報を生成し、この生成した情報、及
び予め用意されている種々の韻律規則のうちの対応する
韻律規則をもとに、当該韻律規則で適用する韻律パラメ
ータ値を予め定められた複数候補の中から順次選択しな
がら音声合成用の第１の韻律パラメータ時系列を順に生
成する一方、前記学習用テキスト情報に対応する自然音声データを分
析して第２の韻律パラメータ時系列を生成し、前記第２の韻律パラメータ時系列と前記韻律パラメータ
値を切り替えながら順に生成される前記第１の韻律パラ
メータ時系列とを所定の評価関数を用いて比較評価し
て、その評価結果をもとに対応する韻律規則で適用する
韻律パラメータ値を最適化する一方、前記評価結果を統計処理して不適切な韻律規則を検出
し、当該規則を修正して、その修正後の規則を適用した
前記音声合成用の第１の韻律パラメータ時系列を生成し
て対応する合成音声をオペレータによる試聴評価のため
に出力させて、そのオペレータによる試聴評価結果を入
力し、前記入力したオペレータによる試聴評価結果をもとに前
記不適切な韻律規則を修正・最適化することを特徴とす
る韻律規則最適化方法。