JP2009175345A - 音声情報処理装置及びその方法 - Google Patents

音声情報処理装置及びその方法 Download PDF

Info

Publication number
JP2009175345A
JP2009175345A JP2008012800A JP2008012800A JP2009175345A JP 2009175345 A JP2009175345 A JP 2009175345A JP 2008012800 A JP2008012800 A JP 2008012800A JP 2008012800 A JP2008012800 A JP 2008012800A JP 2009175345 A JP2009175345 A JP 2009175345A
Authority
JP
Japan
Prior art keywords
pattern
temporary
fundamental frequency
expansion
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008012800A
Other languages
English (en)
Other versions
JP4945465B2 (ja
Inventor
Nobuaki Mizutani
伸晃 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008012800A priority Critical patent/JP4945465B2/ja
Priority to US12/358,660 priority patent/US8160882B2/en
Publication of JP2009175345A publication Critical patent/JP2009175345A/ja
Application granted granted Critical
Publication of JP4945465B2 publication Critical patent/JP4945465B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理装置、その方法を提供することを目的とする。
【解決手段】仮子集合作成部1は、韻律制御単位毎の基本周波数パターンをコンテキストに基づいて複数に分類し仮子集合を作成し、代表パターン長決定部2は、仮子集合毎に作成される仮代表パターン長を決定し、伸縮比率計算部3は、モデルパターンの伸縮比率を計算し、伸縮部4は、伸縮比率に基づいてモデルパターンを伸縮し、代表パターン作成部5は、仮子集合毎に仮代表パターン長の仮代表パターンを作成し、子集合決定部6は、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定し、代表パターン記憶部12は、決定した子集合に基づいて仮代表パターンを正式な代表パターンとして記憶し、規則記憶部13は、決定した子集合に基づいて分類規則を記憶する。
【選択図】 図1

Description

本発明は、例えば、テキスト音声合成のための音声合成装置及びその方法に関し、特に、合成音声の自然性に大きく影響する基本周波数パターン生成に関するものである。
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。
この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ(基本周波数)の変化パターンである基本周波数パターンは、合成音声の自然性に大きく影響する。
従来のテキスト音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
こうした問題点を解決するために、例えば、特許文献1では、自然音声から抽出した大量の基本周波数パターンを階層的にクラスタリングし、その基本周波数パターン集合に対して統計的な処理を行うことによって生成される代表パターンを用いた基本周波数パターン生成方法が提案されている。
特開2007−33870公報
上記したような従来の方法では、階層的なクラスタリングを行うことから下層クラスタの基本周波数パターン集合は必然的に小さくなり、統計的な処理を行い作成される代表パターンの統計的信頼性が低くなり、頑健性、自然性が劣化してしまう。したがって、自然な基本周波数パターンを生成するためには、各下層クラスタの基本周波数パターン集合の大きさの維持や各基本周波数パターンの種類を網羅する必要があり、大量の音声データを用意しなければならないといった問題点があった。
そこで本発明では、上記従来技術の問題点を解決するためになされたものであって、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理装置、その方法を提供することを目的とする。
本発明は、テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理装置であって、韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力部と、前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成部と、前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定部と、前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定部と、前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算部と、前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮部と、前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成部と、前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定部と、前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶部と、前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶部と、を有する音声情報処理装置である。
本発明によれば、作成される代表パターンの信頼性が向上され、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成ができる。
以下、本発明の実施形態について説明する。
第1の実施形態は、音声情報処理装置である代表パターン学習装置に関するものである。また、第2の実施形態は、第1の実施形態の代表パターン学習装置を用いた代表パターン出力装置に関するものである。
(第1の実施形態)
以下、本発明の第1の実施形態の代表パターン学習装置を図1〜図15に基づいて説明する。
(1)代表パターン学習装置の構成
本実施形態の代表パターン学習装置の構成について図1に基づいて説明する。図1は、代表パターン学習装置を示すブロック図である。
代表パターン学習装置は、仮子集合作成部1、代表パターン長決定部2、伸縮比率計算部3、伸縮部4、代表パターン作成部5、子集合決定部6、代表パターン記憶部12、代表パターン分類(選択)規則記憶部(以下、規則記憶部という)13とを備えている。
ここで、「代表パターン」とは、テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターン(合成音声パラメータ)を正規化したパターンをいう。
また、「韻律制御単位」とは、入力するコンテキストに対応する音声の韻律的特徴を制御するための単位をいう。
仮子集合作成部1は、韻律制御単位毎の基本周波数パターンと、それに対応するコンテキストとを含む学習用の音声データ11に対して、コンテキストに基づいて基本周波数パターンを複数に分類し仮子集合を作成する。
代表パターン長決定部2は、仮子集合毎に作成される仮の代表パターン(以下、「仮代表パターン」という)の長さである仮代表パターン長を決定する。
伸縮比率計算部3は、決定した仮代表パターン長と、仮代表パターン長に合わせるための伸縮区間を有する韻律制御単位の典型的なパターンであるモデルパターン12とから伸縮比率を計算する。
伸縮部4は、伸縮比率に基づいてモデルパターンを伸縮する。
代表パターン作成部5は、仮子集合毎に、伸縮したモデルパターンを事前知識として用いる統計的処理を行うことによって仮代表パターン長の仮代表パターンを作成する。
子集合決定部6は、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定する。
代表パターン記憶部12は、決定した子集合に基づいて仮代表パターンを正式な代表パターンとして記憶する。
規則記憶部13は、決定した子集合に基づいて分類規則を記憶する。
なお、この代表パターン学習装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声データ、モデルパターン、代表パターン、分類規則、そして、各部1〜6、12、13は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、代表パターン学習装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声データ、モデルパターン、仮代表パターン、代表パターン、分類規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
次に、図1及び図2を用いて、代表パターン学習装置の動作について説明する。なお、図2は、代表パターン学習装置の動作を示すフローチャートである。
(2)音声データ11
まず、入力となる学習用の音声データ11の一例を図3に示す。
学習用の音声データ11は、音声データベースから抽出される音声パターン系列の1つであるアクセント句毎の基本周波数パターンと、前記アクセント句にそれぞれ対応するコンテキストとを備えたものである。
基本周波数パターンの左側の識別番号(1、2、3、・・・)は、本実施形態の説明用のパターン識別番号であり、以降、パターン識別番号を用いることで対応するコンテキストを参照可能とする。但し、パターン識別番号は、音声データ11に必ずしも備えておく必要はない。
本実施形態では、韻律制御単位をアクセント句とする。そして、コンテキストの分類項目としては、アクセント句のアクセント型、モーラ数、アクセント句先頭境界のポーズ、品詞、係り先、強調の有無、先行アクセント句のアクセント型、後続アクセント句のモーラ数としている。
(3)仮子集合作成部1
次に、仮子集合作成部1は、音声データ11を入力として、アクセント句毎の基本周波数パターンの集合に対して、アクセント句に対応する前記コンテキストの分類項目に基づく分類規則により複数に分類して、仮子集合を作成する(ステップS1)。
(3−1)動作内容
図4は、仮子集合作成部1による複数の仮子集合402の一例であり、図4中の仮子集合402の一例について詳しく説明する。
まず、仮子集合402は、前記基本周波数パターンに関するコンテキストによるサブ分類規則403、404、405から成る。
次に、基本周波数パターンの集合である音声データ11を入力とし、各基本周波数パターンに対する分類を行う。例えば、「アクセント型=1、モーラ数=4、先頭境界ポーズ=無」の基本周波数パターン1は、まず、「アクセント型=3」のサブ分類規則403は適合しないことからNOの辺を進み、「アクセント型=2」のサブ分類規則404は適合しないことからNOの辺を進む結果、基本周波数パターン子集合406の要素となる。
以上のようにして仮子集合402は、サブ分類規則403、404、405から成る分類規則と、前記分類規則により分類された基本周波数パターン子集合406、407、408、409とからで構成されている。
(3−2)仮分類規則
ここで、仮分類規則は、用いているコンテキストの各値が取り得る値及び範囲に関するサブ分類規則の組合せから自動的に作成することが可能である。
また、サブ分類規則は、例えば、「アクセント型=1」、「アクセント型<2」、「モーラ数=3」、「モーラ数<4」、「先頭境界ポーズ=有」、「品詞=名詞」、「係り先>1」、「先行アクセント句のアクセント型>0」、「後続アクセント句のモーラ数=4」などとなる。
また、仮分類規則は、音声学、音韻学などの知識を用いてサブ分類規則の組合せを絞ることも可能である。例えば、「アクセント句単位の基本周波数パターンであれば、アクセント型が異なるパターンを同一の分類にはするべきではない」といった知識から、アクセント型に関するサブ分類規則を優先的に利用するといったことが考えられる。
また、仮分類規則として、質問と呼ばれる前記サブ分類規則が1つの仮分類規則となるものなどを用いてもよい。
また、本実施形態において、サブ分類規則は、2つに分類する例を挙げていたが、3つに分類するサブ分類規則、また、それ以上の個数に分類するサブ分類規則などを用いることもある。
(4)代表パターン長決定部2
次に、代表パターン長決定部2は、作成された仮子集合毎に作成される仮の代表パターンの長さである仮代表パターン長を決定する(ステップS2)。
仮代表パターンは、1モーラを3点で表現することとし、子集合中の最大基本周波数パターン長(モーラ数)をLpmaxとした時、仮代表パターン長Lcは3、Lpmaxとなる。
また、仮代表パターン長としては、子集合の平均基本周波数パターン長(モーラ数)を用いて、Lc=3、Lpaveなどを用いることもできる。
(5)伸縮比率計算部3
次に、伸縮比率計算部3は、代表パターン長決定部2により決定した仮代表パターン長と仮代表パターン長に合わせるための伸縮区間を有する韻律制御単位の典型的なパターンであるモデルパターンベクトルeとから、モデルパターン伸縮区間に関する伸縮比率Φを計算する(ステップS3)。
(5−1)モデルパターン
ここで、モデルパターンは、仮子集合に含まれる仮代表パターンの親集合、祖先集合から決定される。
具体的には、次のように決定する。図4中の仮子集合402において、前記分類規則により分類された基本周波数パターン子集合407の親集合は、サブ分類規則1つ分上層の集合として、サブ分類規則404の位置に対応する。前記分類規則により分類された基本周波数パターン子集合407のモデルパターンは、前記分類規則により分類された基本周波数パターン子集合407及び406に含まれる基本周波数パターンから代表パターン作成部5により作成される仮代表パターンとする。他の前記分類規則により分類された基本周波数パターン子集合406、408、409も同様にしてモデルパターンを決定する。ここで、仮代表パターンの親集合、祖先集合がない場合は、モデルパターンを1つのベクトルとした時、ベクトルの要素が全て0であるベクトルをモデルパターンとして用意する。
(5−2)図5の説明
図5右は、伸縮比率計算部3による伸縮比率計算の一例である。モデルパターン501を作成する仮代表パターン長(Lc=15)に合わせるよう伸縮比率を計算するものであり、符号505は前記伸縮区間に対して計算された伸縮比率である。
図5に示すように、モデルベクトル501は、アクセント核に後続隣接する音韻である「アクセント核後続隣接音韻」(図5中の符号503参照)からアクセント句の終端の音韻である「アクセント句終端音韻」(図5中の符号504参照)までのモデルパターン長を可変にするための区間である「伸縮区間」(図5中の符号502参照)を有している。
この例では、モデルパターンは大量の基本周波数パターンを備える他音声データ中の2型アクセント句を平均化した2型アクセント句の典型的なパターンであり、モデルパターン長をLd=21とし、伸縮区間長をLe=15としている。
(5−2)伸縮区間の伸縮比率
この伸縮区間の伸縮比率は、例えば、以下のようにして計算できる。
まず、モデルパターン中の伸縮区間長をY(=Le=15)、作成される仮代表パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までに対応する区間長をX(=Le’=9)で表すとする。
そして、モデルパターン中の或る点yに対応した伸縮済みモデルパターン中の位置xとの関係(マッピング関数)を、式(1)及び図6で表すとする。なお、図6において、符号502がモデルパターン中の伸縮区間であり、符号508が作成される仮代表パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までの区間であり、符号601がマッピング関数である。
ここで、αは、シグモイド関数gの定義域を有限にするためのものである。関数fは、定義域を有限化されたシグモイド関数の定義域と値域を、いずれも[0,1]に正規化するためのものである。
また、wは、入力音韻継続時間長と代表ベクトルの長さとの比を基準に、設定してもよい。例えば、入力音韻継続時間長が代表ベクトルと等しい場合にはwを0.5とし、入力音韻継続時間長が代表ベクトルより大きい場合にはwを0.5未満の実数とし、入力音韻継続時間長が代表ベクトルより小さい場合にはwを0.5より大きい実数を設定するなどとしてもよい。
また、関数fと関数gは、必ずしも用いる必要はない。
そして、或る点y(=b)となる媒介変数γを用いて計算された値xを、x{yb}と表すものとしたときに、代表ベクトル中の或る点y(=b)の伸縮率z{yb}は、式(2)で計算することができる。
代表ベクトル中の可変音韻数対応区間の伸縮率を求めることができる。
ここで、音韻をモーラとする場合には、図5に示すように、「アクセント核音韻」を「アクセント核モーラ」、「アクセント核後続隣接音韻」を「アクセント核後続モーラ」、「アクセント句終端音韻」を「アクセント句終端モーラ」と呼ぶことができる。
(5−3)モデルベクトルの変更例
なお、上記のモデルベクトルは一例であり、「伸縮区間」の始端は、「アクセント核音韻」としてもよいし、「アクセント核後続隣接音韻」としてもよいし、アクセント核に後続する2音韻目の音韻である「アクセント核後続2音韻目」としてもよい。
また、「伸縮区間」の終端を、韻律制御単位の終端の音韻である「韻律制御単位終端音韻」としてもよいし、「韻律制御単位終端音韻」の一つ前の音韻である「韻律制御単位終端先行隣接音韻」としてもよいし、「韻律制御単位終端音韻」の二つ前の音韻である韻律制御単位終端先行2音韻目としてもよい。
(6)伸縮部4
次に、伸縮部4は、伸縮区間における伸縮比率を用いて、モデルパターンベクトルeを伸縮する(ステップS4)。
図5右に、本実施形態のモデルパターンの伸縮の一例を示す。
図5中の符号506は、モデルパターンベクトルeの伸縮の例を表す。
符号507は、伸縮されたモデルパターンベクトルΦeの例を表す。
符号508は伸縮された伸縮済み伸縮区間を表す。
(7)代表パターン作成部5
次に、代表パターン作成部5は、仮子集合作成部1により作成された基本周波数パターンの子集合毎に、伸縮したモデルパターンを事前知識として用いる統計的処理を行うことによって所定の仮代表パターン長となる仮代表パターンを作成する(ステップS5)。
(7−1)図5の説明
本実施形態では、仮代表パターンの時系列点での特徴となる統計量を平均値とし、統計的な処理をモデルパターンをバイアス(基準)とする一般的な平均化としている。図5は、本実施形態により生成される仮代表パターン(図5中の符号512参照)の一例である。
仮代表パターンを表現する特徴量の統計量として、各点における対数基本周波数の平均値を用いた例であり、1モーラを3点で表現するように正規化されている。
そして、図5は、本実施形態での統計な処理による仮代表パターン作成の一例である。符号407は、仮子集合作成部1でのコンテキストにより複数に分類された子集合のうちの一例としての基本周波数パターン子集合である。前記子集合は、3個の基本周波数パターンを含んでおり、基本周波数パターンは、アクセント句単位であり、モーラ境界を示してある。
符号509は、基本周波数軸上での伸縮、平行移動をし、正規化が行われた基本周波数パターンである。基本周波数軸上での正規化方法は、基本周波数パターンの始点がある値となるよう平行移動することを挙げている。
符号510は、時間軸上での正規化が行われた基本周波数パターンである。時間軸上での正規化方法は、モーラ毎に1モーラ3点となるよう伸縮する。
符号512は、時系列点での特徴が平均値で表現されている仮代表パターンである。時系列点での特徴の平均化(図5中の符号511参照)は、伸縮したモデルパターンを事前知識としてバイアスとし、正規化された基本周波数パターンの各時系列点を平均したものである。
(7−1)正規化(伸縮)処理
以上の仮代表パターン生成に関する方法は、これらの正規化(伸縮)処理を関数f(・)、基本周波数パターンをベクトルpiで表すと、正規化により得られる正規化基本周波数パターンベクトルriは次の式(3)で表すことができる。
ここで、正規化(伸縮)の処理は、行列Fiをベクトルpiに前から掛ける形で式としては一般化可能である。行列Fiの各要素を決めるにあたり、基本周波数パターンと正規化基本周波数パターンとの対応関係をとるマッピング関数が必要となる。マッピング関数としては、線形関数、シグモイド関数、多次元ガウス関数、また、これらの関数の組合せなどが考えられる。
図7は、マッピング関数(図7中の符号701参照)の一例であり、横軸が元となる基本周波数パターンであり、縦軸が対応先となる正規化基本周波数パターンとなっている。マッピング関数は、線形関数の組合せとなっており、点線で示されているモーラ境界を境に、各モーラ内で線形にマッピングを行っている例である。
このようにして、基本周波数パターンの各時系列点が、正規化基本周波数パターンの各時系列点にどの程度対応付けられるかといったことより、行列Fiの要素を決めることができる。
その際、必要となる情報は、基本周波数パターンのモーラ毎のサンプル数(継続時間長)であるが、これは一般的に音声データベースに含まれる情報であり、容易に得られる。
図7は、行列Fi(図7中の符号704参照)の一例である。ベクトルpiは、行列Fiを用いて、1モーラ目を伸張、2モーラ目を縮退、そして、3モーラ目を維持、保存することにより、正規化されたベクトルriとなっている。
また、基本周波数パターンの数をN(=3)で表すと、生成される仮代表パターンベクトルcは次の式(4)で表すことができる。
ここで、ベクトルΦeは、伸縮されたモデルパターンを表している。τは、モデルパターンのバイアス度合いを調整するハイパーパラメータであり、基本周波数パターンの数によって調整することも可能であるし、代表ベクトルを作成する際に用いなかった基本周波数パターンを良く表すような値を実験的に求めることも可能である。
(8)子集合決定部6
次に、子集合決定部6は、全ての基本周波数パターンの仮子集合に対応する仮代表パターンが作成された後、基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量に基づいて子集合を決定する(ステップS6)。本実施形態では、各時系列点での2乗誤差の総和を歪み量としている。
(8−1)合成基本周波数パターンの作成
まず、仮子集合作成部1で作成された仮子集合について、基本周波数パターン毎に対応する仮代表パターンを選択し、前記基本周波数パターンを目標にして仮代表パターンを変形し、合成基本周波数パターンを作成する。
ここで、各基本周波数パターンと仮代表パターンが対応するとは、例えば、基本周波数パターンが、仮代表パターンの生成を行ったときに用いられたパターンかどうかである。例えば、図5において、基本周波数パターン(図5中の符号407参照)との仮代表パターン(図5中の符号512)とは対応している。
(8−2)仮代表パターンの変形の一例
図8は、本実施形態での仮代表パターンの変形の一例である。
符号801は、仮代表パターンを表しており、目標とする基本周波数パターンに対応して選択されたものである。
符号802は、仮代表パターンの時間軸上で伸縮であり、目標とする基本周波数パターンの継続時間長と各モーラの長さが等しくなるよう行われる。
符号803は、仮代表パターンの周波数軸上で平行移動であり、目標とする基本周波数パターンとの各時系列点での2乗誤差の総和が小さくなるよう行われる。
このようにして、仮代表パターンを用いて、合成基本周波数パターン(図8中の符号804参照)が作成される。但し、以上の変形が必要ない場合もありあえる。
(8−3)子集合の決定
次に、ある仮子集合を作成した分類xにより得られた基本周波数パターンの仮子集合の1つをGとする。
この仮子集合G内のある基本周波数パターンをベクトルpiとする。
このベクトルpiを目標として仮代表パターンベクトルcを変形する(関数h(・)を計算する)。
この変形により、作成された合成基本周波数パターンをベクトル<pi>と表すと、合成基本周波数パターンと基本周波数パターン仮子集合との間で定義される歪み値E(G,c)は次の式(5)で表すことができる。
音声データ11に備えられた基本周波数パターンの集合をGallとし、ある仮子集合を作成した分類xkにより得られた基本周波数パターンの子集合の集合をG(xk)={G(1)、G(2)、・・・、G(m)、・・・}とし、基本周波数パターンの子集合G(m)に対応する仮代表パターンをベクトルc(m)と表すと、分類を決定する基準を次の式(6)で表すことができる。
得られた分類xbestにより作成された仮子集合G(xbest)を子集合として決定する。
(9)代表パターン記憶部13、規則記憶部14
次に、代表パターン記憶部13は、前記決定した子集合に対応する仮代表パターンを正式な代表パターンとして記憶し、規則記憶部14は、前記決定した子集合に対応するコンテキストに基づいた分類を記憶する(ステップS7)。
(10)効果
このように、本実施形態に係る代表パターン学習装置によれば、言語属性などから成るコンテキストにより階層的にクラスタリングされた基本周波数パターンから仮代表パターンを作成するときに、作成する仮代表パターン長に合わせるための伸縮区間を有する典型的なパターンであるモデルパターンを伸縮し事前知識として用いる統計的な処理を行う。
これにより、作成される代表パターンの信頼性が向上され、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターンの生成できる。
(11)変更例
以下では、これまで説明してきた事項に対する変更例について説明する。
(11−1)変更例1
音声データに備えられる基本周波数パターンは、基本周波数そのものの系列、もしくは、音の高さを知覚する際の人間の聴覚特性を考慮した対数基本周波数の系列を用いることができる。
(11−2)変更例2
モデルパターンは、基本周波数パターンを備える音声データが小さいときに、大量な基本周波数パターンを備える他音声データ中の特定のN型アクセントの基本周波数パターンを平均化することにより得られる典型的なN型アクセントパターンを用いることもできる。
他音声データを保持していないときに、音声学有識者の経験、知識から典型的なパターンを作成し用いることもできる。
階層的にクラスタリングされた基本周波数パターンの子集合における仮代表パターンの作成に用いるときに、その親集合において作成された仮代表パターンを用いることもできる。
階層的にクラスタリングされた基本周波数パターンの子集合における仮代表パターンの作成に用いるときに、その親集合の大きさが十分に大きくなく信頼性に欠けるのであれば、その親や更に上層の祖先集合において作成された仮代表パターンを用いることもできる。
(11−3)変更例3
仮代表パターンの時系列点の統計量は、基本周波数パターンの時系列点に対してモデルパターンを事前知識として用いた統計的な処理を行うことによって得られるものであって、前記時系列点の平均値、分散値、標準偏差値のうち少なくとも1つ用いることができる。
統計量は、分散値、標準偏差値を一定と仮定した場合や、分散値、標準偏差値そのものを扱っていない場合などであれば、平均値若しくは平均値に相当する値のみという場合もできる。
(11−4)変更例4
仮代表パターンの変形は、目標とする基本周波数パターンに対して、横軸(継続時間長に合わせた時間軸)方向の伸縮、基本周波数の変化に合わせた縦軸(周波数軸)方向の伸縮、縦軸(周波数軸)方向のオフセットに合わせた周波数軸方向の移動、これらの組合せのうち少なくとも1つを用いることができる。
例えば、目標とする基本周波数パターンをベクトルpiとし、仮代表パターンをベクトルcとした時、変形を行う関数(h(・))は、伸縮を行う行列Diと周波数軸方向の移動を行う値biと、そして、周波数軸方向の伸縮を行う値giを用いて、次の式(7)で表すことができる。
ここで、ベクトル1は、要素が全てlのベクトルとする。
また、変形に用いるDi、bi、giは、式(5)をそれぞれで編微分して0とおいた方程式を解くことにより求めることができる。
また、時間軸方向の伸縮を行う行列Diは、アクセント句単位の仮代表パターンを伸縮する場合はモーラ境界を目標基本周波数パターンに合わせて線形伸縮もしくは傾き一定で伸縮するといった制約を設けることにより、行列の要素を容易に決める(求める)こともできる。
(11−5)変更例5
さらに、目標とする基本周波数パターンが未知の時、つまり、音声合成などで本変形を行う場合は、仮代表パターンをベクトルcとしたとき、変形を行う関数(h(・))は、伸縮を行う行列<Di>と周波数軸方向の移動を行う値と<bi>、そして、周波数軸方向の伸縮を行う値<gi>を用いて、次の式(8)で表すことができる。
ここで、変形に用いる<Di>、<bi>、<gi>は、それぞれもしくは組合せ毎に数量化I類などの統計的手法や、なんらかの帰納学習法、多次元正規分布、GMMなどの公知の方法を用いてモデル化されたモデルから生成されたものを用いることもできる。
(11−6)変更例6
基本周波数パターンの仮子集合と仮代表パターンとの間で定義される歪み量は、各時系列点での2乗誤差の総和を計算する方法もある。
また、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などを用いる各時系列点での重み付け2乗誤差の総和を計算する方法もある。
また、音声合成装置においては試聴された際に極めて自然に聴こえる箇所より不自然に聴こえる箇所が印象に大きく関係することから、各時系列点での2乗誤差の最大値を計算する方法もある。
また、音声合成装置においては様々な種類の入力コンテキストにおいても安定して自然な音声を出力する安定性が必要であるため、各時系列点での分散値の総和を計算する方法もある。
また、音声合成装置においては様々な種類の入力コンテキストにおいても安定して自然な音声を出力する安定性が必要であるため、各時系列点での分散値の最大値を計算する方法もある。
また、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などによる重要度と、音声合成装置の安定性を加味した各時系列点での重み付け分散値の総和を計算する方法もある。
また、各時系列点の分布は一般的に均一ではないことから、各時系列点の分散(標準偏差)により重み付けが行われる各時系列点での対数尤度の総和を計算する方法もある。
また、前記2乗誤差の総和と同様に各時系列点での重み付け対数尤度の総和を計算する方法もある。
また、前記2乗誤差の最大値と同様に各時系列点での対数尤度の最大値を計算する方法もある。
(11−7)変更例7
モデルパターンを事前知識として用いる統計的処理は、式(3)、式(4)で示したようなモデルパターンを伸縮しバイアスとし一般的な平均の計算をして仮代表パターンを生成する方法もある。
また、各時系列点の分布は一般的に均一ではないことから、モデルパターンを伸縮しバイアスとし平均及び分散(標準偏差)を計算して仮代表パターンを生成する方法もある。
また、前記歪み評価関数にモデルパターンをバイアスとした式を最適化(最大化もしくは最小化)するよう計算する方法も考えられえる。
例えば、式(5)の歪み評価関数であれば、次の式(9)を仮代表パターンであるベクトルcについて偏微分して0とおいた式で表される方程式を解くことによって仮代表パターンを生成する方法もある。
ここで、上記の式(9)は、仮代表パターンのベクトルcを用いているため、方程式を1度解くだけでは良い仮代表パターンは作成できない。そのため、適当な仮代表パターンベクトルcの初期値を設定し、その都度前記歪み評価関数による方程式を解くというステップを何度か繰り返す必要がある。
ここで、仮代表パターンベクトルcの初期値としては、例えば、先見的な知識に基づいて用意した適当な特性を持つものであってもよい。あるいは、ノイズ、データの系列を用いてもよい。あるいは、式(3)、式(4)で示したようなベクトルcを用いてもよい。また、前記ステップの繰り返し条件は、前記歪み評価関数による歪み値の変化がある値に収束したかどうかといったものや、ある指定回数繰り返したかどうかといったものもある。
また、前記歪み評価関数が単純な形ではなく、仮代表パターンのベクトルcについて編微分して0とおいた式で表される方程式を直接解くことが困難な場合などは、勾配法などを用いて準最適と考えられる代表パラメータを生成する方法もある。
(11−8)変更例8
韻律制御単位は、入力コンテキストに対応する音声の韻律的特徴を制御するための単位であり、代表ベクトルの容量にも関連するとできる。
本実施形態においては、韻律制御単位には、例えば、「文」、「呼気段落」、「アクセント句」、「形態素」、「単語」、「モーラ」、「音節」、「音素」、「半音素」、もしくは「HMM等により1音素を複数に分割した単位」、または「これらを組合せたもの」などを用いることもある。
(11−9)変更例9
コンテキストは、規則合成器で用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、「アクセント型」、「モーラ数」、「音韻の種類」、「アクセント句境界のポーズの有無」、「文中でのアクセント句の位置」、「品詞」、「係り先といったテキストを解析することにより得られる先行、後続、2先行、2後続、前記韻律制御単位に関する言語情報」、または「所定の属性のうち少なくとも1つの値」などを、用いることもある。
所定の属性には、例えば、「アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報」、或いは「発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚、発話スタイルといった情報」、或いは「質問、断定、強調といった意図を表す情報」、或いは「疑い、関心、落胆、感心といった心的態度を表す情報」などがある。
(11−10)変更例10
音韻は、例えば前記装置の実装における都合などから、「モーラ」、「音節」、「音素」、「半音素」、或いは「HMM等により1音素を複数に分割した単位」などを、柔軟に用いることもある。
(11−11)変更例11
伸縮比率計算部3は、図9に示すように、式(1)中のwを小さな値として、伸縮区間の中央付近をより伸張するようなものを計算することもできる。
また、図10に示すように、楕円や放物線を組合わせたようなものを計算することもできる。
また、図11に示すように、伸縮区間の両端付近以外は、一定の比率で伸張するようなものを計算することもできる。
また、図12に示すように、伸縮区間の中央に向かって、一定に増減するようなものを計算することもできる。
また、図13に示すように、伸縮区間の始端付近以外を、一定に伸張するようなものを計算することもできる。
また、図14に示すように、伸縮区間を全体的に縮めるようなものを計算することもできる。
また、上記以外にも、公算曲線、引弧線(追跡線)、懸垂線、擺線(サイクロイド)、餘擺線(トロコイド)、アーネシーの曲線、クロソイド曲線といった、よく知られている曲線や、これらの曲線と上記した図9〜図14とを組合わせた形で得られる伸縮比率を計算することもできる。
ここで、本実施形態では、伸縮区間の伸縮率を計算していたが、伸縮量を計算することも本質的に同様である。
(第2の実施形態)
次に、本発明の第2の実施形態の仮代表パターン出力装置について図16〜図18に基づいて説明する。
(1)代表パターン出力装置の構成
図16は、本実施形態に係る代表パターン出力装置の構成を示すブロック図である。
図16に示すように、本実施携帯の代表パターン出力装置は、規則記憶部14、代表パターン記憶部13、代表パターン選択部21を備えている。
代表パターン記憶部13は、韻律制御単位(例えば、アクセント句の単位)の複数の代表パターンを記憶する。
規則記憶部14は、入力コンテキスト31に応じた代表パターンを選択するための規則である分類規則を記憶する。
代表パターン選択部21は、入力コンテキスト31に上記分類規則を適用することによって、代表パターン記憶部13に記憶された複数の代表パターンのうちから、前記入力コンテキスト31に応じた代表パターンを選択する。
(2)代表パターン出力装置の動作
次に、図16〜図18を用いて、本実施形態に係る代表パターン出力装置の動作について説明する。
図17は、代表パターン出力装置の動作を示すフローチャートである。
図18は、入力コンテキストの一例及び分類規則の一例、並びに入力コンテキストに分類規則を適用することによって代表パターンを選択する一例について示す。
なお、本実施形態では、韻律制御単位をアクセント句として説明する。しかし、これに限定されるものではない。
代表パターン選択部21は、入力コンテキストに分類規則を適用することによって代表パターンを選択する(ステップS21)。
入力コンテキスト31は、アクセント句毎のサブコンテキストから成る。図18では、3つのサブコンテキストを例示している。韻律制御単位をアクセント句とする場合に、個々のコンテキスト(サブコンテキスト)は、例えば、前記アクセント句のアクセント型、モーラ数、先頭境界ポーズの有無、品詞、係り先、強調の有無、先行アクセント句のアクセント型の全部又は一部を含むこともある。また、個々のコンテキスト(サブコンテキスト)は、これら以外の情報を更に含むこともできるが、図18では、分類規則14に関係のあるもののみを明示的に例示している。
分類規則1801は、例えば、決定木(回帰木)からなる代表パターンの分類規則である。決定木において、節ノード(非葉ノード)には、「質問」と呼ばれる「コンテキストに関する分類規則」が結び付けられている。また、前記決定木において、各葉ノードには、代表パターンの識別情報(以下、id)が対応付けられている。
なお、本実施形態では、各葉ノードに代表パターンの識別情報を対応付けて説明しているが、各葉ノードが直接代表パターンを参照する実施も可能であり、これに限定されるものではない。
コンテキストに関する分類規則には、例えば、「アクセント型=0」かどうか、「アクセント型<2」かどうか、「モーラ数=3」かどうか、「先頭境界ポーズ=有」かどうか、「品詞=名詞」かどうか、「係り先<2」かどうか、「強調=有」かどうか、「先行アクセント型=0」かどうかなどの分類規則や、これらを組合せた「先行アクセント型=0かつアクセント型=1」かどうかなどの分類規則を用いることができる。
分類規則は、前記サブコンテキストが前記質問に合致するか否かの判別を、決定木の根ノードから葉ノードまで繰り返し行うことによって、最終的に、葉ノードに対応した代表ベクトル1802を選択する分類規則である。
例えば、図18の代表パターンの選択結果1803に示すように、第l番目のサブコンテキスト3101に、分類規則を適用することによって、id=4の代表パターンが選択され、第2番目のサブコンテキスト3102に、分類規則を適用することによって、id=6の代表パターンが選択され、第3番目のサブコンテキスト3103に、分類規則を適用することによって、id=1の代表パターンが選択され、時間軸上や周波数軸上での正規化が行われた基本周波数パターンである代表パターンが出力される。
(3)変更例
ここで一般に音声合成などでの利用を想定した実施形態では、選択された代表パターン1803を基に、合成音声パラメータである基本周波数パターンを作成するよう各代表パターンの変形が行われる。例えば、第1の実施形態で述べた通り、変形を行う際必要となるサブパラメータ(時間軸伸縮を行う行列<D>、周波数軸方向の移動を行う値<b>、周波数軸方向の伸縮を行う値<g>など)が必要となる。
そこで、これらサブパラメータは、前記コンテキスト31と同じく外部から適宜入力されるものとする。
例えば、数量化I類などの統計的手法や、なんらかの帰納学習法、多次元正規分布、GMMなどの公知の方法を用いてモデル化されたモデルに、前記コンテキスト31を入力として、生成する方法ができる。
(4)効果
このように、本実施形態に係る代表パターン出力装置によれば、言語属性などから成るコンテキストにより階層的にクラスタリングされた基本周波数パターンから代表パターンを作成するときに、作成する仮代表パターン長に合わせるための伸縮区間を有する典型的なパターンであるモデルパターンを伸縮し事前知識として用いる統計的な処理を行うことにより作成された代表パターン、分類規則を用いて、入力コンテキストに対する代表パターンを選択することで、信頼性の高い代表パターンを選択することができ、頑健、かつ、より自然な抑揚を表現可能な基本周波数パターン(合成音声パラメータ)を生成することできる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係わる代表パターン学習装置の構成例を示すブロック図である。 動作例を示すフローチャートである。 音声データの一例を説明する図である。 仮子集合作成部による幾通りかの分類により作成された仮子集合例を説明する図である。 統計的な処理による仮代表パターン作成の一例を説明する図である。 伸縮比率計算に係るマッピング関数の一例を説明するための図である。 基本周波数パターンと正規化基本周波数パターンの対応関係の一例を説明する図である。 仮代表パターンの変形の一例を説明するための図である。 伸縮比率の第2の例を説明するための図である。 伸縮比率の第3の例を説明するための図である。 伸縮比率の第4の例を説明するための図である。 伸縮比率の第5の例を説明するための図である。 伸縮比率の第6の例を説明するための図である。 伸縮比率の第7の例を説明するための図である。 仮代表パターンの変形の第2の例を説明するための図である。 本発明の第2の実施形態に係わる代表パターン出力装置の構成例を示すブロック図 動作例を示すフローチャートである。 代表パターン選択部の動作の一例を説明するための図である。
符号の説明
1 仮子集合作成部
2 代表パターン長決定部
3 伸縮比率決定部
4 伸縮部
5 代表パターン作成部
6 子集合決定部
11 音声データ
12 モデルパターン
13 代表パターン記憶部
14 規則記憶部

Claims (14)

  1. テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理装置であって、
    韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力部と、
    前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成部と、
    前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定部と、
    前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定部と、
    前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算部と、
    前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮部と、
    前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成部と、
    前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定部と、
    前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶部と、
    前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶部と、
    を有する音声情報処理装置。
  2. 前記パターン設定部は、
    前記仮子集合の親集合、または、祖先集合に属する前記基本周波数パターンを用いて前記モデルパターンを設定する、
    請求項1記載の音声情報処理装置。
  3. 前記比率計算部は、
    前記伸縮区間の始端から前記伸縮区間の終端にかけて単調増加した後に単調減少する伸縮比率の系列、
    または、前記始端から前記終端にかけて単調減少した後に単調増加する伸縮比率の系列に基づいて算出する、
    請求項1記載の音声情報処理装置。
  4. 前記伸縮区間の始端は、アクセント核音韻、アクセント核後続隣接音韻、または、アクセント核後続2音韻目であり、
    前記伸縮区間の終端は、前記韻律制御単位の終端音韻、前記韻律制御単位の終端先行隣接音韻、または、前記韻律制御単位の終端先行2音韻目である、
    請求項1記載の音声情報処理装置。
  5. 前記代表パターンと前記分類規則を用いて、前記韻律制御単位毎のコンテキストに応じた代表パターンを選択する選択部をさらに有する、
    請求項1記載の音声情報処理装置。
  6. 前記パターン作成部は、
    前記基本周波数パターンの時系列点における値を、平均、分散、標準偏差、これらを組み合わせたうち少なくとも1つを用いて前記仮代表パターンを計算する、
    請求項1記載の音声情報処理装置。
  7. 前記パターン作成部は、
    (1)前記モデルパターンを基準として、前記基本周波数パターンを平均して計算すること、
    (2)前記モデルパターンを基準として、前記基本周波数パターンを分散を計算すること、
    (3)前記モデルパターンを基準として、前記基本周波数パターンの前記歪み評価関数を最大化、または、最少化するように計算すること、
    または、(4)前記モデルパターンを基準として、前記基本周波数パターンの前記歪み評価関数を準最適化することにより、
    前記仮代表パターンを合成する、
    請求項1記載の音声情報処理装置。
  8. 前記集合決定部は、
    (1)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の2乗誤差の総和、
    (2)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け2乗誤差の総和、
    (3)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の2乗誤差の最大値、
    (4)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の分散値の総和、
    (5)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け分散値の総和、
    (6)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の分散値の最大値、
    (7)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の対数尤度の総和、
    (8)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の重み付け対数尤度の総和、
    または、(9)前記基本周波数パターンと前記仮代表パターンとの各時系列点における値の対数尤度の最大値を、
    前記歪み量として用いる、
    請求項1記載の音声情報処理装置。
  9. 前記韻律制御単位は、文、呼気段落、アクセント句、形態素、単語、モーラ、音節、音素、半音素、HMMにより1音素を複数に分割した単位のうち少なくとも1つ、または、これらの組合せたもののうち少なくとも1つである、
    請求項1記載の音声情報処理装置。
  10. 前記コンテキストに分類項目は、テキストを解析することにより得られる前記韻律制御単位に関する言語情報、または、任意の属性のうち少なくとも1つである、
    請求項1記載の音声情報処理装置。
  11. 前記属性は、プロミネンスに関する情報、発話スタイルの情報、質問、断定、強調の意図を表す情報、疑い、関心、落胆、感心の心的態度を表す情報のうち少なくとも1つである、
    請求項10記載の音声情報処理装置。
  12. 前記音韻は、モーラ、音節、音素、半音素、HMMにより1音素を複数に分割した単位のうち少なくとも1つである、
    請求項4記載の音声情報処理装置。
  13. テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理方法であって、
    韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力ステップと、
    前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成ステップと、
    前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定ステップと、
    前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定ステップと、
    前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算ステップと、
    前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮ステップと、
    前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成ステップと、
    前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定ステップと、
    前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶ステップと、
    前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶ステップと、
    を有する音声情報処理方法。
  14. テキスト音声合成に用いられる韻律制御単位毎の基本周波数パターンを正規化したパターンである代表パターンと、前記代表パターンを用いて前記テキスト音声合成するときに用いる分類規則とを学習する音声情報処理プログラムであって、
    韻律制御単位毎の複数の前記基本周波数パターンと、前記各基本周波数パターンに対応するコンテキストを含む学習用の音声データが入力される入力機能と、
    前記音声データの前記各基本周波数パターンについて、前記各基本周波数パターンに対応する前記コンテキストの分類項目に基いて、前記基本周波数パターンを分類して、前記基本周波数パターンが属する仮子集合を作成する集合作成機能と、
    前記各仮子集合に属する前記基本周波数パターンから求める仮代表パターンの長さである仮代表パターン長を決定するパターン長決定機能と、
    前記仮代表パターン長に長さを合わせるための伸縮区間を有するモデルパターンを設定するパターン設定機能と、
    前記仮代表パターン長と前記モデルパターンの長さとが一致するように、前記モデルパターンの前記伸縮区間の伸縮比率を計算する比率計算機能と、
    前記伸縮比率に基づいて前記モデルパターンの前記伸縮区間を伸縮する伸縮機能と、
    前記伸縮したモデルパターンと前記仮子集合に属する前記基本周波数パターンとを合成して、前記仮代表パターン長を有する前記仮代表パターンを、前記仮子集合毎に作成するパターン作成機能と、
    前記仮子集合に属する前記基本周波数パターンと前記仮代表パターンとの間の歪み量を求め、前記歪み量が閾値より小さい前記子集合を求める集合決定機能と、
    前記求めた子集合に対応する前記仮代表パターンを、前記代表パターンとして記憶するパターン記憶機能と、
    前記求めた子集合に対応する前記コンテキストの分類項目を、前記代表パターンの分類規則として記憶する規則記憶機能と、
    をコンピュータによって実現する音声情報処理プログラム。
JP2008012800A 2008-01-23 2008-01-23 音声情報処理装置及びその方法 Expired - Fee Related JP4945465B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008012800A JP4945465B2 (ja) 2008-01-23 2008-01-23 音声情報処理装置及びその方法
US12/358,660 US8160882B2 (en) 2008-01-23 2009-01-23 Speech information processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008012800A JP4945465B2 (ja) 2008-01-23 2008-01-23 音声情報処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2009175345A true JP2009175345A (ja) 2009-08-06
JP4945465B2 JP4945465B2 (ja) 2012-06-06

Family

ID=40877144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008012800A Expired - Fee Related JP4945465B2 (ja) 2008-01-23 2008-01-23 音声情報処理装置及びその方法

Country Status (2)

Country Link
US (1) US8160882B2 (ja)
JP (1) JP4945465B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
CN105529023B (zh) * 2016-01-25 2019-09-03 百度在线网络技术(北京)有限公司 语音合成方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195783A (ja) * 1997-09-16 1999-04-09 Toshiba Corp 音声情報処理方法
JP2007033870A (ja) * 2005-07-27 2007-02-08 Toshiba Corp 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
JP3771565B2 (ja) 1997-11-28 2006-04-26 松下電器産業株式会社 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195783A (ja) * 1997-09-16 1999-04-09 Toshiba Corp 音声情報処理方法
JP2007033870A (ja) * 2005-07-27 2007-02-08 Toshiba Corp 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Also Published As

Publication number Publication date
US20090187408A1 (en) 2009-07-23
JP4945465B2 (ja) 2012-06-06
US8160882B2 (en) 2012-04-17

Similar Documents

Publication Publication Date Title
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP6499305B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3667950B2 (ja) ピッチパターン生成方法
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
KR20070077042A (ko) 음성처리장치 및 방법
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN108831435B (zh) 一种基于多情感说话人自适应的情感语音合成方法
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4455633B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JPH1097268A (ja) 音声合成装置
Xu et al. Automatic emphasis labeling for emotional speech by measuring prosody generation error
JP2006189723A (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
Khorram et al. Context-dependent deterministic plus stochastic model
JPWO2012115212A1 (ja) 音声合成システム、音声合成方法、および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

R151 Written notification of patent or utility model registration

Ref document number: 4945465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees