JP2009175345A

JP2009175345A - 音声情報処理装置及びその方法

Info

Publication number: JP2009175345A
Application number: JP2008012800A
Authority: JP
Inventors: Nobuaki Mizutani; 伸晃水谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-01-23
Filing date: 2008-01-23
Publication date: 2009-08-06
Anticipated expiration: 2028-01-23
Also published as: US20090187408A1; JP4945465B2; US8160882B2

Abstract

【課題】頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理装置、その方法を提供することを目的とする。
【解決手段】仮子集合作成部１は、韻律制御単位毎の基本周波数パターンをコンテキストに基づいて複数に分類し仮子集合を作成し、代表パターン長決定部２は、仮子集合毎に作成される仮代表パターン長を決定し、伸縮比率計算部３は、モデルパターンの伸縮比率を計算し、伸縮部４は、伸縮比率に基づいてモデルパターンを伸縮し、代表パターン作成部５は、仮子集合毎に仮代表パターン長の仮代表パターンを作成し、子集合決定部６は、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定し、代表パターン記憶部１２は、決定した子集合に基づいて仮代表パターンを正式な代表パターンとして記憶し、規則記憶部１３は、決定した子集合に基づいて分類規則を記憶する。
【選択図】図１

Description

本発明は、例えば、テキスト音声合成のための音声合成装置及びその方法に関し、特に、合成音声の自然性に大きく影響する基本周波数パターン生成に関するものである。

近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の３つのモジュールから構成される。

この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ（基本周波数）の変化パターンである基本周波数パターンは、合成音声の自然性に大きく影響する。

従来のテキスト音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。

こうした問題点を解決するために、例えば、特許文献１では、自然音声から抽出した大量の基本周波数パターンを階層的にクラスタリングし、その基本周波数パターン集合に対して統計的な処理を行うことによって生成される代表パターンを用いた基本周波数パターン生成方法が提案されている。
特開２００７−３３８７０公報

上記したような従来の方法では、階層的なクラスタリングを行うことから下層クラスタの基本周波数パターン集合は必然的に小さくなり、統計的な処理を行い作成される代表パターンの統計的信頼性が低くなり、頑健性、自然性が劣化してしまう。したがって、自然な基本周波数パターンを生成するためには、各下層クラスタの基本周波数パターン集合の大きさの維持や各基本周波数パターンの種類を網羅する必要があり、大量の音声データを用意しなければならないといった問題点があった。

そこで本発明では、上記従来技術の問題点を解決するためになされたものであって、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理装置、その方法を提供することを目的とする。

本発明は、テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理装置であって、韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力部と、前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成部と、前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定部と、前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定部と、前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算部と、前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮部と、前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成部と、前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定部と、前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶部と、前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶部と、を有する音声情報処理装置である。

本発明によれば、作成される代表パターンの信頼性が向上され、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成ができる。

以下、本発明の実施形態について説明する。

第１の実施形態は、音声情報処理装置である代表パターン学習装置に関するものである。また、第２の実施形態は、第１の実施形態の代表パターン学習装置を用いた代表パターン出力装置に関するものである。

（第１の実施形態）
以下、本発明の第１の実施形態の代表パターン学習装置を図１〜図１５に基づいて説明する。

（１）代表パターン学習装置の構成
本実施形態の代表パターン学習装置の構成について図１に基づいて説明する。図１は、代表パターン学習装置を示すブロック図である。

代表パターン学習装置は、仮子集合作成部１、代表パターン長決定部２、伸縮比率計算部３、伸縮部４、代表パターン作成部５、子集合決定部６、代表パターン記憶部１２、代表パターン分類（選択）規則記憶部（以下、規則記憶部という）１３とを備えている。

ここで、「代表パターン」とは、テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターン（合成音声パラメータ）を正規化したパターンをいう。

また、「韻律制御単位」とは、入力するコンテキストに対応する音声の韻律的特徴を制御するための単位をいう。

仮子集合作成部１は、韻律制御単位毎の基本周波数パターンと、それに対応するコンテキストとを含む学習用の音声データ１１に対して、コンテキストに基づいて基本周波数パターンを複数に分類し仮子集合を作成する。

代表パターン長決定部２は、仮子集合毎に作成される仮の代表パターン（以下、「仮代表パターン」という）の長さである仮代表パターン長を決定する。

伸縮比率計算部３は、決定した仮代表パターン長と、仮代表パターン長に合わせるための伸縮区間を有する韻律制御単位の典型的なパターンであるモデルパターン１２とから伸縮比率を計算する。

伸縮部４は、伸縮比率に基づいてモデルパターンを伸縮する。

代表パターン作成部５は、仮子集合毎に、伸縮したモデルパターンを事前知識として用いる統計的処理を行うことによって仮代表パターン長の仮代表パターンを作成する。

子集合決定部６は、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定する。

代表パターン記憶部１２は、決定した子集合に基づいて仮代表パターンを正式な代表パターンとして記憶する。

規則記憶部１３は、決定した子集合に基づいて分類規則を記憶する。

なお、この代表パターン学習装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声データ、モデルパターン、代表パターン、分類規則、そして、各部１〜６、１２、１３は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、代表パターン学習装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声データ、モデルパターン、仮代表パターン、代表パターン、分類規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

次に、図１及び図２を用いて、代表パターン学習装置の動作について説明する。なお、図２は、代表パターン学習装置の動作を示すフローチャートである。

（２）音声データ１１
まず、入力となる学習用の音声データ１１の一例を図３に示す。

学習用の音声データ１１は、音声データベースから抽出される音声パターン系列の１つであるアクセント句毎の基本周波数パターンと、前記アクセント句にそれぞれ対応するコンテキストとを備えたものである。

基本周波数パターンの左側の識別番号（１、２、３、・・・）は、本実施形態の説明用のパターン識別番号であり、以降、パターン識別番号を用いることで対応するコンテキストを参照可能とする。但し、パターン識別番号は、音声データ１１に必ずしも備えておく必要はない。

本実施形態では、韻律制御単位をアクセント句とする。そして、コンテキストの分類項目としては、アクセント句のアクセント型、モーラ数、アクセント句先頭境界のポーズ、品詞、係り先、強調の有無、先行アクセント句のアクセント型、後続アクセント句のモーラ数としている。

（３）仮子集合作成部１
次に、仮子集合作成部１は、音声データ１１を入力として、アクセント句毎の基本周波数パターンの集合に対して、アクセント句に対応する前記コンテキストの分類項目に基づく分類規則により複数に分類して、仮子集合を作成する（ステップＳ１）。

（３−１）動作内容
図４は、仮子集合作成部１による複数の仮子集合４０２の一例であり、図４中の仮子集合４０２の一例について詳しく説明する。

まず、仮子集合４０２は、前記基本周波数パターンに関するコンテキストによるサブ分類規則４０３、４０４、４０５から成る。

次に、基本周波数パターンの集合である音声データ１１を入力とし、各基本周波数パターンに対する分類を行う。例えば、「アクセント型＝１、モーラ数＝４、先頭境界ポーズ＝無」の基本周波数パターン１は、まず、「アクセント型＝３」のサブ分類規則４０３は適合しないことからＮＯの辺を進み、「アクセント型＝２」のサブ分類規則４０４は適合しないことからＮＯの辺を進む結果、基本周波数パターン子集合４０６の要素となる。

以上のようにして仮子集合４０２は、サブ分類規則４０３、４０４、４０５から成る分類規則と、前記分類規則により分類された基本周波数パターン子集合４０６、４０７、４０８、４０９とからで構成されている。

（３−２）仮分類規則
ここで、仮分類規則は、用いているコンテキストの各値が取り得る値及び範囲に関するサブ分類規則の組合せから自動的に作成することが可能である。

また、サブ分類規則は、例えば、「アクセント型＝１」、「アクセント型＜２」、「モーラ数＝３」、「モーラ数＜４」、「先頭境界ポーズ＝有」、「品詞＝名詞」、「係り先＞１」、「先行アクセント句のアクセント型＞０」、「後続アクセント句のモーラ数＝４」などとなる。

また、仮分類規則は、音声学、音韻学などの知識を用いてサブ分類規則の組合せを絞ることも可能である。例えば、「アクセント句単位の基本周波数パターンであれば、アクセント型が異なるパターンを同一の分類にはするべきではない」といった知識から、アクセント型に関するサブ分類規則を優先的に利用するといったことが考えられる。

また、仮分類規則として、質問と呼ばれる前記サブ分類規則が１つの仮分類規則となるものなどを用いてもよい。

また、本実施形態において、サブ分類規則は、２つに分類する例を挙げていたが、３つに分類するサブ分類規則、また、それ以上の個数に分類するサブ分類規則などを用いることもある。

（４）代表パターン長決定部２
次に、代表パターン長決定部２は、作成された仮子集合毎に作成される仮の代表パターンの長さである仮代表パターン長を決定する（ステップＳ２）。

仮代表パターンは、１モーラを３点で表現することとし、子集合中の最大基本周波数パターン長（モーラ数）をＬｐｍａｘとした時、仮代表パターン長Ｌｃは３、Ｌｐｍａｘとなる。

また、仮代表パターン長としては、子集合の平均基本周波数パターン長（モーラ数）を用いて、Ｌｃ＝３、Ｌｐａｖｅなどを用いることもできる。

（５）伸縮比率計算部３
次に、伸縮比率計算部３は、代表パターン長決定部２により決定した仮代表パターン長と仮代表パターン長に合わせるための伸縮区間を有する韻律制御単位の典型的なパターンであるモデルパターンベクトルｅとから、モデルパターン伸縮区間に関する伸縮比率Φを計算する（ステップＳ３）。

（５−１）モデルパターン
ここで、モデルパターンは、仮子集合に含まれる仮代表パターンの親集合、祖先集合から決定される。

具体的には、次のように決定する。図４中の仮子集合４０２において、前記分類規則により分類された基本周波数パターン子集合４０７の親集合は、サブ分類規則１つ分上層の集合として、サブ分類規則４０４の位置に対応する。前記分類規則により分類された基本周波数パターン子集合４０７のモデルパターンは、前記分類規則により分類された基本周波数パターン子集合４０７及び４０６に含まれる基本周波数パターンから代表パターン作成部５により作成される仮代表パターンとする。他の前記分類規則により分類された基本周波数パターン子集合４０６、４０８、４０９も同様にしてモデルパターンを決定する。ここで、仮代表パターンの親集合、祖先集合がない場合は、モデルパターンを１つのベクトルとした時、ベクトルの要素が全て０であるベクトルをモデルパターンとして用意する。

（５−２）図５の説明
図５右は、伸縮比率計算部３による伸縮比率計算の一例である。モデルパターン５０１を作成する仮代表パターン長（Ｌｃ＝１５）に合わせるよう伸縮比率を計算するものであり、符号５０５は前記伸縮区間に対して計算された伸縮比率である。

図５に示すように、モデルベクトル５０１は、アクセント核に後続隣接する音韻である「アクセント核後続隣接音韻」（図５中の符号５０３参照）からアクセント句の終端の音韻である「アクセント句終端音韻」（図５中の符号５０４参照）までのモデルパターン長を可変にするための区間である「伸縮区間」（図５中の符号５０２参照）を有している。

この例では、モデルパターンは大量の基本周波数パターンを備える他音声データ中の２型アクセント句を平均化した２型アクセント句の典型的なパターンであり、モデルパターン長をＬｄ＝２１とし、伸縮区間長をＬｅ＝１５としている。

（５−２）伸縮区間の伸縮比率
この伸縮区間の伸縮比率は、例えば、以下のようにして計算できる。

まず、モデルパターン中の伸縮区間長をＹ（＝Ｌｅ＝１５）、作成される仮代表パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までに対応する区間長をＸ（＝Ｌｅ’＝９）で表すとする。

そして、モデルパターン中の或る点ｙに対応した伸縮済みモデルパターン中の位置ｘとの関係（マッピング関数）を、式（１）及び図６で表すとする。なお、図６において、符号５０２がモデルパターン中の伸縮区間であり、符号５０８が作成される仮代表パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までの区間であり、符号６０１がマッピング関数である。

ここで、αは、シグモイド関数ｇの定義域を有限にするためのものである。関数ｆは、定義域を有限化されたシグモイド関数の定義域と値域を、いずれも［０，１］に正規化するためのものである。

また、ｗは、入力音韻継続時間長と代表ベクトルの長さとの比を基準に、設定してもよい。例えば、入力音韻継続時間長が代表ベクトルと等しい場合にはｗを０．５とし、入力音韻継続時間長が代表ベクトルより大きい場合にはｗを０．５未満の実数とし、入力音韻継続時間長が代表ベクトルより小さい場合にはｗを０．５より大きい実数を設定するなどとしてもよい。

また、関数ｆと関数ｇは、必ずしも用いる必要はない。

そして、或る点ｙ（＝ｂ）となる媒介変数γを用いて計算された値ｘを、ｘ｛ｙｂ｝と表すものとしたときに、代表ベクトル中の或る点ｙ（＝ｂ）の伸縮率ｚ｛ｙｂ｝は、式（２）で計算することができる。

代表ベクトル中の可変音韻数対応区間の伸縮率を求めることができる。

ここで、音韻をモーラとする場合には、図５に示すように、「アクセント核音韻」を「アクセント核モーラ」、「アクセント核後続隣接音韻」を「アクセント核後続モーラ」、「アクセント句終端音韻」を「アクセント句終端モーラ」と呼ぶことができる。

（５−３）モデルベクトルの変更例
なお、上記のモデルベクトルは一例であり、「伸縮区間」の始端は、「アクセント核音韻」としてもよいし、「アクセント核後続隣接音韻」としてもよいし、アクセント核に後続する２音韻目の音韻である「アクセント核後続２音韻目」としてもよい。

また、「伸縮区間」の終端を、韻律制御単位の終端の音韻である「韻律制御単位終端音韻」としてもよいし、「韻律制御単位終端音韻」の一つ前の音韻である「韻律制御単位終端先行隣接音韻」としてもよいし、「韻律制御単位終端音韻」の二つ前の音韻である韻律制御単位終端先行２音韻目としてもよい。

（６）伸縮部４
次に、伸縮部４は、伸縮区間における伸縮比率を用いて、モデルパターンベクトルｅを伸縮する（ステップＳ４）。

図５右に、本実施形態のモデルパターンの伸縮の一例を示す。

図５中の符号５０６は、モデルパターンベクトルｅの伸縮の例を表す。

符号５０７は、伸縮されたモデルパターンベクトルΦｅの例を表す。

符号５０８は伸縮された伸縮済み伸縮区間を表す。

（７）代表パターン作成部５
次に、代表パターン作成部５は、仮子集合作成部１により作成された基本周波数パターンの子集合毎に、伸縮したモデルパターンを事前知識として用いる統計的処理を行うことによって所定の仮代表パターン長となる仮代表パターンを作成する（ステップＳ５）。

（７−１）図５の説明
本実施形態では、仮代表パターンの時系列点での特徴となる統計量を平均値とし、統計的な処理をモデルパターンをバイアス（基準）とする一般的な平均化としている。図５は、本実施形態により生成される仮代表パターン（図５中の符号５１２参照）の一例である。

仮代表パターンを表現する特徴量の統計量として、各点における対数基本周波数の平均値を用いた例であり、１モーラを３点で表現するように正規化されている。

そして、図５は、本実施形態での統計な処理による仮代表パターン作成の一例である。符号４０７は、仮子集合作成部１でのコンテキストにより複数に分類された子集合のうちの一例としての基本周波数パターン子集合である。前記子集合は、３個の基本周波数パターンを含んでおり、基本周波数パターンは、アクセント句単位であり、モーラ境界を示してある。

符号５０９は、基本周波数軸上での伸縮、平行移動をし、正規化が行われた基本周波数パターンである。基本周波数軸上での正規化方法は、基本周波数パターンの始点がある値となるよう平行移動することを挙げている。

符号５１０は、時間軸上での正規化が行われた基本周波数パターンである。時間軸上での正規化方法は、モーラ毎に１モーラ３点となるよう伸縮する。

符号５１２は、時系列点での特徴が平均値で表現されている仮代表パターンである。時系列点での特徴の平均化（図５中の符号５１１参照）は、伸縮したモデルパターンを事前知識としてバイアスとし、正規化された基本周波数パターンの各時系列点を平均したものである。

（７−１）正規化（伸縮）処理
以上の仮代表パターン生成に関する方法は、これらの正規化（伸縮）処理を関数ｆ（・）、基本周波数パターンをベクトルｐｉで表すと、正規化により得られる正規化基本周波数パターンベクトルｒｉは次の式（３）で表すことができる。

ここで、正規化（伸縮）の処理は、行列Ｆｉをベクトルｐｉに前から掛ける形で式としては一般化可能である。行列Ｆｉの各要素を決めるにあたり、基本周波数パターンと正規化基本周波数パターンとの対応関係をとるマッピング関数が必要となる。マッピング関数としては、線形関数、シグモイド関数、多次元ガウス関数、また、これらの関数の組合せなどが考えられる。

図７は、マッピング関数（図７中の符号７０１参照）の一例であり、横軸が元となる基本周波数パターンであり、縦軸が対応先となる正規化基本周波数パターンとなっている。マッピング関数は、線形関数の組合せとなっており、点線で示されているモーラ境界を境に、各モーラ内で線形にマッピングを行っている例である。

このようにして、基本周波数パターンの各時系列点が、正規化基本周波数パターンの各時系列点にどの程度対応付けられるかといったことより、行列Ｆｉの要素を決めることができる。

その際、必要となる情報は、基本周波数パターンのモーラ毎のサンプル数（継続時間長）であるが、これは一般的に音声データベースに含まれる情報であり、容易に得られる。

図７は、行列Ｆｉ（図７中の符号７０４参照）の一例である。ベクトルｐｉは、行列Ｆｉを用いて、１モーラ目を伸張、２モーラ目を縮退、そして、３モーラ目を維持、保存することにより、正規化されたベクトルｒｉとなっている。

また、基本周波数パターンの数をＮ（＝３）で表すと、生成される仮代表パターンベクトルｃは次の式（４）で表すことができる。

ここで、ベクトルΦｅは、伸縮されたモデルパターンを表している。τは、モデルパターンのバイアス度合いを調整するハイパーパラメータであり、基本周波数パターンの数によって調整することも可能であるし、代表ベクトルを作成する際に用いなかった基本周波数パターンを良く表すような値を実験的に求めることも可能である。

（８）子集合決定部６
次に、子集合決定部６は、全ての基本周波数パターンの仮子集合に対応する仮代表パターンが作成された後、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定する（ステップＳ６）。本実施形態では、各時系列点での２乗誤差の総和を歪み量としている。

（８−１）合成基本周波数パターンの作成
まず、仮子集合作成部１で作成された仮子集合について、基本周波数パターン毎に対応する仮代表パターンを選択し、前記基本周波数パターンを目標にして仮代表パターンを変形し、合成基本周波数パターンを作成する。

ここで、各基本周波数パターンと仮代表パターンが対応するとは、例えば、基本周波数パターンが、仮代表パターンの生成を行ったときに用いられたパターンかどうかである。例えば、図５において、基本周波数パターン（図５中の符号４０７参照）との仮代表パターン（図５中の符号５１２）とは対応している。

（８−２）仮代表パターンの変形の一例
図８は、本実施形態での仮代表パターンの変形の一例である。

符号８０１は、仮代表パターンを表しており、目標とする基本周波数パターンに対応して選択されたものである。

符号８０２は、仮代表パターンの時間軸上で伸縮であり、目標とする基本周波数パターンの継続時間長と各モーラの長さが等しくなるよう行われる。

符号８０３は、仮代表パターンの周波数軸上で平行移動であり、目標とする基本周波数パターンとの各時系列点での２乗誤差の総和が小さくなるよう行われる。

このようにして、仮代表パターンを用いて、合成基本周波数パターン（図８中の符号８０４参照）が作成される。但し、以上の変形が必要ない場合もありあえる。

（８−３）子集合の決定
次に、ある仮子集合を作成した分類ｘにより得られた基本周波数パターンの仮子集合の１つをＧとする。

この仮子集合Ｇ内のある基本周波数パターンをベクトルｐｉとする。

このベクトルｐｉを目標として仮代表パターンベクトルｃを変形する（関数ｈ（・）を計算する）。

この変形により、作成された合成基本周波数パターンをベクトル＜ｐｉ＞と表すと、合成基本周波数パターンと基本周波数パターン仮子集合との間で定義される歪み値Ｅ（Ｇ，ｃ）は次の式（５）で表すことができる。

音声データ１１に備えられた基本周波数パターンの集合をＧａｌｌとし、ある仮子集合を作成した分類ｘｋにより得られた基本周波数パターンの子集合の集合をＧ（ｘｋ）＝｛Ｇ^（１）、Ｇ^（２）、・・・、Ｇ^（ｍ）、・・・｝とし、基本周波数パターンの子集合Ｇ^（ｍ）に対応する仮代表パターンをベクトルｃ^（ｍ）と表すと、分類を決定する基準を次の式（６）で表すことができる。

得られた分類ｘｂｅｓｔにより作成された仮子集合Ｇ（ｘｂｅｓｔ）を子集合として決定する。

（９）代表パターン記憶部１３、規則記憶部１４
次に、代表パターン記憶部１３は、前記決定した子集合に対応する仮代表パターンを正式な代表パターンとして記憶し、規則記憶部１４は、前記決定した子集合に対応するコンテキストに基づいた分類を記憶する（ステップＳ７）。

（１０）効果
このように、本実施形態に係る代表パターン学習装置によれば、言語属性などから成るコンテキストにより階層的にクラスタリングされた基本周波数パターンから仮代表パターンを作成するときに、作成する仮代表パターン長に合わせるための伸縮区間を有する典型的なパターンであるモデルパターンを伸縮し事前知識として用いる統計的な処理を行う。

これにより、作成される代表パターンの信頼性が向上され、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成できる。

（１１）変更例
以下では、これまで説明してきた事項に対する変更例について説明する。

（１１−１）変更例１
音声データに備えられる基本周波数パターンは、基本周波数そのものの系列、もしくは、音の高さを知覚する際の人間の聴覚特性を考慮した対数基本周波数の系列を用いることができる。

（１１−２）変更例２
モデルパターンは、基本周波数パターンを備える音声データが小さいときに、大量な基本周波数パターンを備える他音声データ中の特定のＮ型アクセントの基本周波数パターンを平均化することにより得られる典型的なＮ型アクセントパターンを用いることもできる。

他音声データを保持していないときに、音声学有識者の経験、知識から典型的なパターンを作成し用いることもできる。

階層的にクラスタリングされた基本周波数パターンの子集合における仮代表パターンの作成に用いるときに、その親集合において作成された仮代表パターンを用いることもできる。

階層的にクラスタリングされた基本周波数パターンの子集合における仮代表パターンの作成に用いるときに、その親集合の大きさが十分に大きくなく信頼性に欠けるのであれば、その親や更に上層の祖先集合において作成された仮代表パターンを用いることもできる。

（１１−３）変更例３
仮代表パターンの時系列点の統計量は、基本周波数パターンの時系列点に対してモデルパターンを事前知識として用いた統計的な処理を行うことによって得られるものであって、前記時系列点の平均値、分散値、標準偏差値のうち少なくとも１つ用いることができる。

統計量は、分散値、標準偏差値を一定と仮定した場合や、分散値、標準偏差値そのものを扱っていない場合などであれば、平均値若しくは平均値に相当する値のみという場合もできる。

（１１−４）変更例４
仮代表パターンの変形は、目標とする基本周波数パターンに対して、横軸（継続時間長に合わせた時間軸）方向の伸縮、基本周波数の変化に合わせた縦軸（周波数軸）方向の伸縮、縦軸（周波数軸）方向のオフセットに合わせた周波数軸方向の移動、これらの組合せのうち少なくとも１つを用いることができる。

例えば、目標とする基本周波数パターンをベクトルｐｉとし、仮代表パターンをベクトルｃとした時、変形を行う関数（ｈ（・））は、伸縮を行う行列Ｄｉと周波数軸方向の移動を行う値ｂｉと、そして、周波数軸方向の伸縮を行う値ｇｉを用いて、次の式（７）で表すことができる。

ここで、ベクトル１は、要素が全てｌのベクトルとする。

また、変形に用いるＤｉ、ｂｉ、ｇｉは、式（５）をそれぞれで編微分して０とおいた方程式を解くことにより求めることができる。

また、時間軸方向の伸縮を行う行列Ｄｉは、アクセント句単位の仮代表パターンを伸縮する場合はモーラ境界を目標基本周波数パターンに合わせて線形伸縮もしくは傾き一定で伸縮するといった制約を設けることにより、行列の要素を容易に決める（求める）こともできる。

（１１−５）変更例５
さらに、目標とする基本周波数パターンが未知の時、つまり、音声合成などで本変形を行う場合は、仮代表パターンをベクトルｃとしたとき、変形を行う関数（ｈ（・））は、伸縮を行う行列＜Ｄｉ＞と周波数軸方向の移動を行う値と＜ｂｉ＞、そして、周波数軸方向の伸縮を行う値＜ｇｉ＞を用いて、次の式（８）で表すことができる。

ここで、変形に用いる＜Ｄｉ＞、＜ｂｉ＞、＜ｇｉ＞は、それぞれもしくは組合せ毎に数量化Ｉ類などの統計的手法や、なんらかの帰納学習法、多次元正規分布、ＧＭＭなどの公知の方法を用いてモデル化されたモデルから生成されたものを用いることもできる。

（１１−６）変更例６
基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量は、各時系列点での２乗誤差の総和を計算する方法もある。

また、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などを用いる各時系列点での重み付け２乗誤差の総和を計算する方法もある。

また、音声合成装置においては試聴された際に極めて自然に聴こえる箇所より不自然に聴こえる箇所が印象に大きく関係することから、各時系列点での２乗誤差の最大値を計算する方法もある。

また、音声合成装置においては様々な種類の入力コンテキストにおいても安定して自然な音声を出力する安定性が必要であるため、各時系列点での分散値の総和を計算する方法もある。

また、音声合成装置においては様々な種類の入力コンテキストにおいても安定して自然な音声を出力する安定性が必要であるため、各時系列点での分散値の最大値を計算する方法もある。

また、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などによる重要度と、音声合成装置の安定性を加味した各時系列点での重み付け分散値の総和を計算する方法もある。

また、各時系列点の分布は一般的に均一ではないことから、各時系列点の分散（標準偏差）により重み付けが行われる各時系列点での対数尤度の総和を計算する方法もある。

また、前記２乗誤差の総和と同様に各時系列点での重み付け対数尤度の総和を計算する方法もある。

また、前記２乗誤差の最大値と同様に各時系列点での対数尤度の最大値を計算する方法もある。

（１１−７）変更例７
モデルパターンを事前知識として用いる統計的処理は、式（３）、式（４）で示したようなモデルパターンを伸縮しバイアスとし一般的な平均の計算をして仮代表パターンを生成する方法もある。

また、各時系列点の分布は一般的に均一ではないことから、モデルパターンを伸縮しバイアスとし平均及び分散（標準偏差）を計算して仮代表パターンを生成する方法もある。

また、前記歪み評価関数にモデルパターンをバイアスとした式を最適化（最大化もしくは最小化）するよう計算する方法も考えられえる。

例えば、式（５）の歪み評価関数であれば、次の式（９）を仮代表パターンであるベクトルｃについて偏微分して０とおいた式で表される方程式を解くことによって仮代表パターンを生成する方法もある。

ここで、上記の式（９）は、仮代表パターンのベクトルｃを用いているため、方程式を１度解くだけでは良い仮代表パターンは作成できない。そのため、適当な仮代表パターンベクトルｃの初期値を設定し、その都度前記歪み評価関数による方程式を解くというステップを何度か繰り返す必要がある。

ここで、仮代表パターンベクトルｃの初期値としては、例えば、先見的な知識に基づいて用意した適当な特性を持つものであってもよい。あるいは、ノイズ、データの系列を用いてもよい。あるいは、式（３）、式（４）で示したようなベクトルｃを用いてもよい。また、前記ステップの繰り返し条件は、前記歪み評価関数による歪み値の変化がある値に収束したかどうかといったものや、ある指定回数繰り返したかどうかといったものもある。

また、前記歪み評価関数が単純な形ではなく、仮代表パターンのベクトルｃについて編微分して０とおいた式で表される方程式を直接解くことが困難な場合などは、勾配法などを用いて準最適と考えられる代表パラメータを生成する方法もある。

（１１−８）変更例８
韻律制御単位は、入力コンテキストに対応する音声の韻律的特徴を制御するための単位であり、代表ベクトルの容量にも関連するとできる。

本実施形態においては、韻律制御単位には、例えば、「文」、「呼気段落」、「アクセント句」、「形態素」、「単語」、「モーラ」、「音節」、「音素」、「半音素」、もしくは「ＨＭＭ等により１音素を複数に分割した単位」、または「これらを組合せたもの」などを用いることもある。

（１１−９）変更例９
コンテキストは、規則合成器で用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、「アクセント型」、「モーラ数」、「音韻の種類」、「アクセント句境界のポーズの有無」、「文中でのアクセント句の位置」、「品詞」、「係り先といったテキストを解析することにより得られる先行、後続、２先行、２後続、前記韻律制御単位に関する言語情報」、または「所定の属性のうち少なくとも１つの値」などを、用いることもある。

所定の属性には、例えば、「アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報」、或いは「発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚、発話スタイルといった情報」、或いは「質問、断定、強調といった意図を表す情報」、或いは「疑い、関心、落胆、感心といった心的態度を表す情報」などがある。

（１１−１０）変更例１０
音韻は、例えば前記装置の実装における都合などから、「モーラ」、「音節」、「音素」、「半音素」、或いは「ＨＭＭ等により１音素を複数に分割した単位」などを、柔軟に用いることもある。

（１１−１１）変更例１１
伸縮比率計算部３は、図９に示すように、式（１）中のｗを小さな値として、伸縮区間の中央付近をより伸張するようなものを計算することもできる。

また、図１０に示すように、楕円や放物線を組合わせたようなものを計算することもできる。

また、図１１に示すように、伸縮区間の両端付近以外は、一定の比率で伸張するようなものを計算することもできる。

また、図１２に示すように、伸縮区間の中央に向かって、一定に増減するようなものを計算することもできる。

また、図１３に示すように、伸縮区間の始端付近以外を、一定に伸張するようなものを計算することもできる。

また、図１４に示すように、伸縮区間を全体的に縮めるようなものを計算することもできる。

また、上記以外にも、公算曲線、引弧線（追跡線）、懸垂線、擺線（サイクロイド）、餘擺線（トロコイド）、アーネシーの曲線、クロソイド曲線といった、よく知られている曲線や、これらの曲線と上記した図９〜図１４とを組合わせた形で得られる伸縮比率を計算することもできる。

ここで、本実施形態では、伸縮区間の伸縮率を計算していたが、伸縮量を計算することも本質的に同様である。

（第２の実施形態）
次に、本発明の第２の実施形態の仮代表パターン出力装置について図１６〜図１８に基づいて説明する。

（１）代表パターン出力装置の構成
図１６は、本実施形態に係る代表パターン出力装置の構成を示すブロック図である。

図１６に示すように、本実施携帯の代表パターン出力装置は、規則記憶部１４、代表パターン記憶部１３、代表パターン選択部２１を備えている。

代表パターン記憶部１３は、韻律制御単位（例えば、アクセント句の単位）の複数の代表パターンを記憶する。

規則記憶部１４は、入力コンテキスト３１に応じた代表パターンを選択するための規則である分類規則を記憶する。

代表パターン選択部２１は、入力コンテキスト３１に上記分類規則を適用することによって、代表パターン記憶部１３に記憶された複数の代表パターンのうちから、前記入力コンテキスト３１に応じた代表パターンを選択する。

（２）代表パターン出力装置の動作
次に、図１６〜図１８を用いて、本実施形態に係る代表パターン出力装置の動作について説明する。

図１７は、代表パターン出力装置の動作を示すフローチャートである。

図１８は、入力コンテキストの一例及び分類規則の一例、並びに入力コンテキストに分類規則を適用することによって代表パターンを選択する一例について示す。

なお、本実施形態では、韻律制御単位をアクセント句として説明する。しかし、これに限定されるものではない。

代表パターン選択部２１は、入力コンテキストに分類規則を適用することによって代表パターンを選択する（ステップＳ２１）。

入力コンテキスト３１は、アクセント句毎のサブコンテキストから成る。図１８では、３つのサブコンテキストを例示している。韻律制御単位をアクセント句とする場合に、個々のコンテキスト（サブコンテキスト）は、例えば、前記アクセント句のアクセント型、モーラ数、先頭境界ポーズの有無、品詞、係り先、強調の有無、先行アクセント句のアクセント型の全部又は一部を含むこともある。また、個々のコンテキスト（サブコンテキスト）は、これら以外の情報を更に含むこともできるが、図１８では、分類規則１４に関係のあるもののみを明示的に例示している。

分類規則１８０１は、例えば、決定木（回帰木）からなる代表パターンの分類規則である。決定木において、節ノード（非葉ノード）には、「質問」と呼ばれる「コンテキストに関する分類規則」が結び付けられている。また、前記決定木において、各葉ノードには、代表パターンの識別情報（以下、ｉｄ）が対応付けられている。

なお、本実施形態では、各葉ノードに代表パターンの識別情報を対応付けて説明しているが、各葉ノードが直接代表パターンを参照する実施も可能であり、これに限定されるものではない。

コンテキストに関する分類規則には、例えば、「アクセント型＝０」かどうか、「アクセント型＜２」かどうか、「モーラ数＝３」かどうか、「先頭境界ポーズ＝有」かどうか、「品詞＝名詞」かどうか、「係り先＜２」かどうか、「強調＝有」かどうか、「先行アクセント型＝０」かどうかなどの分類規則や、これらを組合せた「先行アクセント型＝０かつアクセント型＝１」かどうかなどの分類規則を用いることができる。

分類規則は、前記サブコンテキストが前記質問に合致するか否かの判別を、決定木の根ノードから葉ノードまで繰り返し行うことによって、最終的に、葉ノードに対応した代表ベクトル１８０２を選択する分類規則である。

例えば、図１８の代表パターンの選択結果１８０３に示すように、第ｌ番目のサブコンテキスト３１０１に、分類規則を適用することによって、ｉｄ＝４の代表パターンが選択され、第２番目のサブコンテキスト３１０２に、分類規則を適用することによって、ｉｄ＝６の代表パターンが選択され、第３番目のサブコンテキスト３１０３に、分類規則を適用することによって、ｉｄ＝１の代表パターンが選択され、時間軸上や周波数軸上での正規化が行われた基本周波数パターンである代表パターンが出力される。

（３）変更例
ここで一般に音声合成などでの利用を想定した実施形態では、選択された代表パターン１８０３を基に、合成音声パラメータである基本周波数パターンを作成するよう各代表パターンの変形が行われる。例えば、第１の実施形態で述べた通り、変形を行う際必要となるサブパラメータ（時間軸伸縮を行う行列＜Ｄ＞、周波数軸方向の移動を行う値＜ｂ＞、周波数軸方向の伸縮を行う値＜ｇ＞など）が必要となる。

そこで、これらサブパラメータは、前記コンテキスト３１と同じく外部から適宜入力されるものとする。

例えば、数量化Ｉ類などの統計的手法や、なんらかの帰納学習法、多次元正規分布、ＧＭＭなどの公知の方法を用いてモデル化されたモデルに、前記コンテキスト３１を入力として、生成する方法ができる。

（４）効果
このように、本実施形態に係る代表パターン出力装置によれば、言語属性などから成るコンテキストにより階層的にクラスタリングされた基本周波数パターンから代表パターンを作成するときに、作成する仮代表パターン長に合わせるための伸縮区間を有する典型的なパターンであるモデルパターンを伸縮し事前知識として用いる統計的な処理を行うことにより作成された代表パターン、分類規則を用いて、入力コンテキストに対する代表パターンを選択することで、信頼性の高い代表パターンを選択することができ、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターン（合成音声パラメータ）を生成することできる。

（変更例）
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係わる代表パターン学習装置の構成例を示すブロック図である。動作例を示すフローチャートである。音声データの一例を説明する図である。仮子集合作成部による幾通りかの分類により作成された仮子集合例を説明する図である。統計的な処理による仮代表パターン作成の一例を説明する図である。伸縮比率計算に係るマッピング関数の一例を説明するための図である。基本周波数パターンと正規化基本周波数パターンの対応関係の一例を説明する図である。仮代表パターンの変形の一例を説明するための図である。伸縮比率の第２の例を説明するための図である。伸縮比率の第３の例を説明するための図である。伸縮比率の第４の例を説明するための図である。伸縮比率の第５の例を説明するための図である。伸縮比率の第６の例を説明するための図である。伸縮比率の第７の例を説明するための図である。仮代表パターンの変形の第２の例を説明するための図である。本発明の第２の実施形態に係わる代表パターン出力装置の構成例を示すブロック図動作例を示すフローチャートである。代表パターン選択部の動作の一例を説明するための図である。

符号の説明

１仮子集合作成部
２代表パターン長決定部
３伸縮比率決定部
４伸縮部
５代表パターン作成部
６子集合決定部
１１音声データ
１２モデルパターン
１３代表パターン記憶部
１４規則記憶部

Claims

テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理装置であって、
韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力部と、
前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成部と、
前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定部と、
前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定部と、
前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算部と、
前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮部と、
前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成部と、
前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定部と、
前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶部と、
前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶部と、
を有する音声情報処理装置。
前記パターン設定部は、
前記仮子集合の親集合、または、祖先集合に属する前記基本周波数パターンを用いて前記モデルパターンを設定する、
請求項１記載の音声情報処理装置。
前記比率計算部は、
前記伸縮区間の始端から前記伸縮区間の終端にかけて単調増加した後に単調減少する伸縮比率の系列、
または、前記始端から前記終端にかけて単調減少した後に単調増加する伸縮比率の系列に基づいて算出する、
請求項１記載の音声情報処理装置。
前記伸縮区間の始端は、アクセント核音韻、アクセント核後続隣接音韻、または、アクセント核後続２音韻目であり、
前記伸縮区間の終端は、前記韻律制御単位の終端音韻、前記韻律制御単位の終端先行隣接音韻、または、前記韻律制御単位の終端先行２音韻目である、
請求項１記載の音声情報処理装置。
前記代表パターンと前記分類規則を用いて、前記韻律制御単位毎のコンテキストに応じた代表パターンを選択する選択部をさらに有する、
請求項１記載の音声情報処理装置。
前記パターン作成部は、
前記基本周波数パターンの時系列点における値を、平均、分散、標準偏差、これらを組み合わせたうち少なくとも１つを用いて前記仮代表パターンを計算する、
請求項１記載の音声情報処理装置。
前記パターン作成部は、
（１）前記モデルパターンを基準として、前記基本周波数パターンを平均して計算すること、
（２）前記モデルパターンを基準として、前記基本周波数パターンを分散を計算すること、
（３）前記モデルパターンを基準として、前記基本周波数パターンの前記歪み評価関数を最大化、または、最少化するように計算すること、
または、（４）前記モデルパターンを基準として、前記基本周波数パターンの前記歪み評価関数を準最適化することにより、
前記仮代表パターンを合成する、
請求項１記載の音声情報処理装置。
前記集合決定部は、
（１）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の２乗誤差の総和、
（２）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け２乗誤差の総和、
（３）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の２乗誤差の最大値、
（４）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の分散値の総和、
（５）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け分散値の総和、
（６）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の分散値の最大値、
（７）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の対数尤度の総和、
（８）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け対数尤度の総和、
または、（９）前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の対数尤度の最大値を、
前記歪み量として用いる、
請求項１記載の音声情報処理装置。
前記韻律制御単位は、文、呼気段落、アクセント句、形態素、単語、モーラ、音節、音素、半音素、ＨＭＭにより１音素を複数に分割した単位のうち少なくとも１つ、または、これらの組合せたもののうち少なくとも１つである、
請求項１記載の音声情報処理装置。
前記コンテキストに分類項目は、テキストを解析することにより得られる前記韻律制御単位に関する言語情報、または、任意の属性のうち少なくとも１つである、
請求項１記載の音声情報処理装置。
前記属性は、プロミネンスに関する情報、発話スタイルの情報、質問、断定、強調の意図を表す情報、疑い、関心、落胆、感心の心的態度を表す情報のうち少なくとも１つである、
請求項１０記載の音声情報処理装置。
前記音韻は、モーラ、音節、音素、半音素、ＨＭＭにより１音素を複数に分割した単位のうち少なくとも１つである、
請求項４記載の音声情報処理装置。
テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理方法であって、
韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力ステップと、
前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成ステップと、
前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定ステップと、
前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定ステップと、
前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算ステップと、
前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮ステップと、
前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成ステップと、
前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定ステップと、
前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶ステップと、
前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶ステップと、
を有する音声情報処理方法。
テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理プログラムであって、
韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力機能と、
前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成機能と、
前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定機能と、
前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定機能と、
前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算機能と、
前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮機能と、
前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成機能と、
前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定機能と、
前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶機能と、
前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶機能と、
をコンピュータによって実現する音声情報処理プログラム。