JP5025550B2

JP5025550B2 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP5025550B2
Application number: JP2008095101A
Authority: JP
Inventors: ハビエルラトレ; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-04-01
Filing date: 2008-04-01
Publication date: 2012-09-12
Anticipated expiration: 2028-04-01
Also published as: US8407053B2; JP2009251029A; US20090248417A1

Description

本発明は、音声合成のための音声処理装置、音声処理方法及びプログラムに関する。

テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部及び音声信号生成部の３つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト（漢字かな混じり文）を解析し、漢字の読みやアクセントの位置、文節（アクセントの句）の区切りなどを定義した言語情報を出力する。韻律生成部では、言語情報に基づいて、声の高さ（基本周波数）の時間変化パターン（以下、ピッチ包絡という）と、各音韻の長さなどの音韻・韻律情報を出力する。音声信号生成部では、音韻の系列に従って音声素片を選択し、韻律情報に従って変形して接続することで、合成音声を出力する。これら３つの処理部のうち、韻律生成部により生成されるピッチ包絡は、合成音声の音質と全体的な自然性に大きく影響を与えることが分かっている。

従来、ピッチ包絡の生成については種々の手法が提案されており、その中でも、ＣＡＲＴ（Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅｓ）、線形モデル、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などの手法が注目を集めている。これらの手法は、次の２種類に大別することができる。

（１）音素などの言語レベルの単位で確定的な値を出力する手法：コードブックに基づく方法や線形モデルに基づく手法がこの種類に属する。
（２）音素などの言語レベルの単位に対して、確率的な値を出力する手法：一般的には、出力ベクトルは確率分布関数でモデル化され、ピッチ包絡は尤度など複数のサブコストの組み合わせで構成される目的関数が最大となるよう生成される。非特許文献１〜３など、ＨＭＭに基づく手法はこの種類に属する。

Tokuda, K., Masuko, Imai, S., 1995."Speech parameter generation from HMM using dynamic features". Proc. ICASSP, Detroit, USA, pp.660-663 Okuda, K.; Masuko, T.; Miyazaki, N.; Kobayashi, T., 1999. "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling". Proc. ICASSP, Phoenix, Arizona, USA, pp.229-232 Toda. T. and Tokuda K., 2005 "Speech Parameter Generation Algorithm Considering Global Variance for HMM-Based Speech Synthesis". Proc. Interspeech 2005, Lisbon, Portugal, pp.2801-2804

しかしながら、言語レベルの単位で確定的な値を出力する従来の手法では、音素などの言語レベル単位で生成されたピッチを接続するため、滑らかなピッチ包絡の形で出力することが困難である。この場合、接続点で隣り合うピッチの値が必ずしも同じ値にならないため、異音が発生したり、イントネーションが急変したりして不自然な音声になる。そのため、この手法では、不連続感や異音を発生されることなく、個々に生成されたピッチを如何に接続するかということが大きな問題となっている。

なお、上記の問題に対する最も一般的な解決法は、接続したピッチに対してフィルタ処理を施すことで、ピッチ間のギャップを滑らかにすることであるが、接続点でのピッチ間のギャップは緩和されても、連続的に変化するよう滑らかにすることは困難である。また、フィルタ処理を強くかけ過ぎると、ピッチ包絡のパターンがなまってしまうため不自然な音声となる。また、フィルタ処理のパラメータ調整は、音質を確認しながら試行錯誤的に行う必要があるため、多くの時間と労力を要するという問題がある。

一方、上記したピッチの接続に伴う問題は、確率的な値を出力する手法で改善される。しかしながら、確率的な手法では生成されたピッチ包絡が平滑化され過ぎる傾向があり、ピッチパターンがなまってしまうため音声が不自然になる。また、なまったピッチを元に戻すため、生成されたピッチの分散を人工的に拡張する方法も試みられているが、ピッチの小さな段差が拡大されて不安定になるなど、本問題の解消には至っていない。

また、ＨＭＭに基づく従来の手法では、ピッチ包絡が本来、音節など複数のフレームに渡って滑らかに変化するものであるのにも関わらず、フレーム単位でモデル化されている。そのため、フレーム単位で生成されたピッチを接続することになるため、上記同様、ピット間の接続にギャップが発生する可能性がある。なお、音節など複数のフレームに渡ってピッチをモデル化すれば、問題の解決は容易であるように思えるが、従来のＨＭＭに基づく手法ではスペクトルとピッチとを同時にモデル化する必要があり、スペクトルをモデル化するフレーム単位でピッチもモデル化する必要があるため、複数フレームに渡ってピッチをモデル化することは困難である。

本発明は上記に鑑みてなされたものであって、滑らかに変化する自然なピッチ包絡を生成することが可能な音声処理装置、方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じた第１パラメータ群を生成するパラメータ化手段と、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、前記各言語レベルでの第１パラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、前記ピッチ包絡モデルを前記言語レベル単位で記憶する記憶手段と、を備えたことを特徴とする。

また、本発明は、記憶手段を備えた音声処理装置の音声処理方法であって、分割手段が、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割工程と、パラメータ化手段が、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化工程と、記述子生成手段が、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成工程と、モデル学習手段が、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習工程と、記憶制御手段が、前記言語レベル単位で前記ピッチ包絡モデルを前記記憶手段に記憶する記憶制御工程と、を含むことを特徴とする。

また、本発明は、記憶手段を備えた音声処理装置のコンピュータに、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化手段と、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、前記ピッチ包絡モデルを前記言語レベル単位で前記記憶手段に記憶する記憶制御手段と、して機能させることを特徴とする。

本発明によれば、音節など複数の言語レベルでピッチ包絡をモデル化することで、これら複数の言語レベルでのピッチ包絡モデルから、総合的にピッチ包絡パターンを生成することができるため、滑らかに変化する自然なピッチ包絡を生成することができる。

以下に添付図面を参照して、音声処理装置、方法及びプログラムの最良な実施形態を詳細に説明する。

図１は、本実施形態にかかる音声処理装置１００のハードウェア構成を示したブロック図である。同図に示したように、音声処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、記憶部１４と、表示部１５と、操作部１６と、通信部１７とを備え、各部はバス１８を介して接続されている。

ＣＰＵ１１は、ＲＡＭ１３を作業領域として、ＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により各種処理を実行し、音声処理装置１００の動作を統括的に制御する。また、ＣＰＵ１１は、ＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により、後述する各機能部を実現させる。

ＲＯＭ１２は、音声処理装置１００の制御にかかるプログラムや各種設定情報などを書き換え不可能に記憶する。ＲＡＭ１３は、ＳＤＲＡＭやＤＤＲメモリなどの揮発性メモリであって、ＣＰＵ１１の作業エリアとして機能する。

記憶部１４は、磁気的又は光学的に記録可能な記憶媒体を有し、音声処理装置１００の制御にかかるプログラムや各種情報を書き換え可能に記憶する。また、記憶部１４は、後述するモデル学習部２２により生成される、言語レベル単位でのピッチ包絡の統計モデル（以下、ピッチ包絡モデルという）を記憶する。ここで「言語レベル」とは、フレーム、音素、音節、単語、句、呼気段落、発生全体の何れか又はこれらの組み合わせであって、本実施形態では、後述するピッチ包絡モデルの学習、ピッチ包絡パターンの生成に際し、複数の言語レベルを取り扱うものとする。なお、以下の説明では、言語レベルを“Ｌ_i”と表記し（ｉは自然数）、“ｉ”に入力される数値により各言語レベルが識別されるものとする。

表示部１５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示デバイスから構成され、ＣＰＵ１１の制御の下、文字や画像などを表示する。

操作部１６は、マウスやキーボードなどの入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、ＣＰＵ１１に出力する。

通信部１７は、外部装置との間で通信を行うインターフェイスであって、外部装置から受信した各種情報をＣＰＵ１１に出力する。また、通信部１７は、ＣＰＵ１１の制御の下、各種情報を外部装置に送信する。

図２は、音声処理装置１００が備える機能部のうち、ピッチ包絡モデルの学習にかかる機能構成を示したブロック図である。同図に示したように、音声処理装置１００は、ＣＰＵ１１とＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により、パラメータ化部２１と、モデル学習部２２とを備える。

図２において、「言語情報（言語レベルＬ_i）」は、図示しないテキスト解析部などから入力される、入力文書（テキスト）を構成する各言語レベルＬ_iでの文字列（以下、サンプルという）単位の特徴を示した情報であって、各サンプルの読みやアクセントの位置、区切り位置（開始時間、終了時間）などが定義されているものとする。また、「ＬｏｇＦ０」は、言語情報（言語レベルＬ_i）に対応する基本周波数（Ｆ０）を対数で表した対数基本周波数であって、図示しない装置から入力されるものとする。なお、以下では、説明の簡略化のため、言語レベルを音節とした場合について説明するが、音節以外の言語レベルについても同様に処理が行われるものとする。

パラメータ化部２１は、入力文書の言語レベルＬ_iでの言語情報と、この言語情報に対応する対数基本周波数（ｌｏｇＦ０）とを入力とし、この言語情報で定義された各サンプル（各音節）の開始時間、終了時間に基づいて、ｌｏｇＦ０を各サンプルに対応する複数のセグメントに分割する。

また、パラメータ化部２１は、逆変換可能な所定の演算子により線形変換を施すことで、セグメント化したｌｏｇＦ０の各々をパラメータ化し、各セグメントに対応する拡張パラメータＥＰ_i（ｉは“言語レベルＬ_i”のｉに対応）を夫々生成する。なお、拡張パラメータＥＰ_iの生成については後述する。

また、パラメータ化部２１は、セグメント化したＬｏｇＦ０のパラメータ化の際に、言語情報で定義された各サンプルの開始時間と終了時間に基づいて、各サンプルの継続時間長Ｄ_i（ｉは“言語レベルＬ_i”のｉに対応）を算出し、モデル学習部２２に出力する。

モデル学習部２２は、言語レベルＬ_iでの言語情報と、拡張パラメータＥＰ_iと、音節単位での継続時間長Ｄ_iとを入力とし、言語レベルＬ_iについての一組の統計モデルをピッチ包絡モデルとして学習する。以下、図３〜６を参照して、上述した各機能部の詳細について説明する。

図３は、図２に示したパラメータ化部２１の詳細構成を示した図であって、各機能部を接続する線分方向によりパラメータ化の手順を示している。図３に示したように、パラメータ化部２１は、第１パラメータ化部２１１と、第２パラメータ化部２１２と、パラメータ組合せ部２１３とを有している。

ｌｏｇＦ０データは、入力された音声信号の有声部と無声部のピッチ周波数の対数値列から構成されるため、連続的（滑らか）に変化するデータとはなっていない。音声合成においては、音節などの言語レベルでピッチが不連続に変化すると音質や自然性を損なう問題が生じる。このため、第１パラメータ化部２１１では、ｌｏｇＦ０データを滑らかに変化する連続的なデータに加工する。

具体的に、第１パラメータ化部２１１は、入力されたｌｏｇＦ０データを、言語情報（言語レベルＬ_i）に従って音節単位のセグメントに分割し、これらｌｏｇＦ０のセグメントを上述した線形変換によってパラメータ化することで、ｌｏｇＦ０データを平滑化した第１パラメータＰＰ_iを生成する（ｉは“言語レベルＬ_i”のｉに対応）。

ここで、図４を参照して、第１パラメータＰＰ_iの生成について詳細に説明する。図４は第１パラメータＰＰ_iの生成にかかる第１パラメータ化部２１１の詳細構成を示した図であって、各機能部を接続する線分方向により第１パラメータＰＰ_iの生成手順を示している。同図に示したように、第１パラメータ化部２１１は、再サンプリング部２１１１と、内挿処理部２１１２と、セグメント分割部２１１３と、第１パラメータ生成部２１１４とを有している。

まず、再サンプリング部２１１１は、入力された言語レベルＬ_iでの言語情報を用いて、不連続なＬｏｇＦ０データから信頼に値するピッチ周波数を複数抽出する。なお、本実施形態では、信頼に値するピッチ周波数か否かを判別する指標として、以下の基準を用いるものとする。
（１）ピッチ周波数を求めるときに計算する自己相関の値が、予め設定された閾値（例えば０．８など）より大きいこと。
（２）ピッチ周波数を求める区間が、母音や準母音、鼻音など周期的な波形に対応する区間であること。
（３）ピッチ周波数が対象とする音節の平均ピッチ周波数が、予め設定された範囲内（例えば、半オクターブ以内）に入っていること。

内挿処理部２１１２は、再サンプリング部２１１１により抽出された複数のピッチ周波数を内挿（Ｉｎｔｅｒｐｏｌａｔｉｏｎ）することで、ｌｏｇＦ０データの平滑化を行う。なお、内挿法については、スプライン補間など公知の技術を用いることが可能である。

セグメント分割部２１１３は、内挿処理部２１１２より平滑化されたｌｏｇＦ０データを、言語情報（言語レベルＬ_i）で定義された各サンプルの開始時間、終了時間に基づいて複数のセグメントに分割し、第１パラメータ生成部２１１４に出力する。また、セグメント分割部２１１３は、セグメント分割の過程で各音節単位の継続時間長（終了時間−開始時間）を算出し、後段の第２パラメータ化部２１２及びモデル学習部２２に出力する。

第１パラメータ生成部２１１４は、セグメント分割部２１１３によりセグメント分割されたｌｏｇＦ０の各々に、所定の演算子により線形変換を施すことで第１パラメータＰＰ_iを夫々生成し、後段の第２パラメータ化部２１２、パラメータ組合せ部２１３に出力する。ここで、線形変換は離散コサイン変換やフーリエ変換、ウェーブレット変換、テーラー展開、多項式展開などの逆変換可能な演算子の何れかにより行われるものとする。線形変換によるパラメータ化は一般的に下記式（１）で表される。

上記式（１）において、ＰＰ_sは線形変換されたＮ次元のベクトル、ｌｏｇＦ０_sはＤ_s次元の平滑化された対数基本周波数（ｌｏｇＦ０）のベクトル、Ｔ_s ^-1はＮ×Ｄ_sの変換行列である。また、Ｄ_sは音節の継続時間長であり、ｌｏｇＦ０_sベクトルの次元数である。なお、各項に付与された添字“ｓ”は、各セグメントを識別するための識別番号（ｓ＝セグメント数）が入力される（以下、同様）。

上記式（１）による線形変換により、継続時間の異なる音節のピッチ包絡が固定数のパラメータ、言い換えると固定次元（ここではＮ次元）の第１パラメータＰＰ_sで表現されることになる。このように、セグメント化したｌｏｇＦ０の各々を線形変換によりパラメータ化することで、長さの異なる各音節（各サンプル）のピッチ包絡を同一次元のベクトルで表現することが可能となる。

切捨てによる誤差がないと仮定した場合、Ｎ次元ベクトルＰＰ_sを別のＮ次元ベクトルＰＰ_s’で置き換えた場合の誤差ｅ_sは、下記式（２）、（３）により計算することができる。

ここで、線形変換が離散コサイン変換やフーリエ変換、ウェーブレット変換のような直行線形変換である場合、Ｍ_sは対角行列となる。また、線形変換として正規直行変換を用いた場合、Ｍ_sは下記式（４）のようになる。

ここで、Ｉ_sはＮ×Ｎの単位行列、Ｃｔｅは定数である。また、線形変換として変形コサイン変換（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅａｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：ＭＤＣＴ）を用いた場合には、Ｃｔｅ＝２Ｄ_sとなるため、上記式（２）は下記式（５）のように表すことができる。なお、ＰＰ_s＝ＤＣＴ_s、ＰＰ_s’＝ＤＣＴ_s’である。また、Ｄ_sは各音節での継続時間長である。

また、ｌｏｇＦ０_sベクトルの平均値＜ｌｏｇＦ０_s＞は、下記式（６）で表される。

なお、式（６）においてｏｎｅｓは要素が１であるＤ_s次元のベクトルである。この式（６）を用いると、式（１）の線形変換を施した後のｌｏｇＦ０_sの平均値＜ｌｏｇＦ０_s＞は次式（７）で表される。

一般に、Ｋは一つの要素のみが非零のベクトルとなることから、本実施形態で用いている変形コサイン変換の場合、式（７）は下記式（８）のように表すことができる。なお、式（８）において、ＤＣＴ_s［０］は、ＤＣＴ_sの０次の要素を意味している。

さらに、ｌｏｇＦ０_sの分散ｌｏｇＦ０Ｖａｒ_sは、式（２）と式（７）を用いることで、下記式（９）で表すことができる。また、変形コサイン変換を用いた場合には、下記式（１０）のように表すことができる。

図３に戻り、第２パラメータ化部２１２は、第１パラメータ化部２１１で複数のセグメントに分割された各言語レベルＬ_iでの第１パラメータＰＰ_i群と、対応する言語レベルＬ_iでの言語情報とに基づいて、各言語レベルＬ_iでの第１パラメータＰＰ_i間の関係を表す第２パラメータＳＰ_i（ｉは“言語レベルＬ_i”のｉに対応）を生成し、パラメータ組合せ部２１３に出力する。

ここで、図５を参照して、第２パラメータＳＰ_iの生成について詳細に説明する。図５は第２パラメータＳＰ_iの生成にかかる第２パラメータ化部２１２の詳細構成を示した図であって、各機能部を接続する線分方向により第２パラメータＳＰ_iの生成手順を示している。同図に示したように、第２パラメータ化部２１２は、記述パラメータ算出部２１２１と、結合パラメータ算出部２１２２と、結合部２１２３とを有している。

記述パラメータ算出部２１２１は、言語レベルＬ_iの言語情報と、第１パラメータ化部２１１から入力される言語レベルＬ_iでの第１パラメータＰＰ_i及び継続時間長Ｄ_iとに基づいて、記述パラメータＳＰ_i ^dを生成し、結合部２１２３に出力する。ここで、記述パラメータとは、ＤＣＴ_sで表される第１パラメータＰＰ_iの相互の関係を表すものである。なお、本実施形態では、記述パラメータ算出部２１２１が上記式（９）又は（１０）でのｌｏｇＦ０_sの分散ｌｏｇＦ０Ｖａｒ_sを算出し、この分散を記述パラメータとして用いるものとする。

結合パラメータ算出部２１２２は、言語レベルＬ_iの言語情報と、第１パラメータ化部２１１から入力される言語レベルＬ_iでの第１パラメータＰＰ_i及び継続時間長Ｄ_iとに基づいて、結合パラメータＳＰ_i ^cを生成し、結合部２１２３に出力する。

ここで、結合パラメータとは、隣接するサンプル（音節）に対応する第１パラメータＰＰ_i間の関係を表すものである。本実施形態では、この結合パラメータＳＰ_i ^cを、以下に説明するｌｏｇＦ０の平均の一次微分ΔＡｖｇＰｉｔｃｈと、処理対象とする音節の前後の接続点における基本周波数の傾きΔＬｏｇＦ０_s ^begin、ΔＬｏｇＦ０_s ^endとを用いることで表現する。

上記結合パラメータＳＰ_i ^cのうち、ｌｏｇＦ０の平均の一次微分ΔＡｖｇＰｉｔｃｈは、下記式（１１）で導出される。

ここで、Ｗは処理対象とするサンプル（音節）の前後の音節数、βは一次微分Δを算出する際の重み係数である。なお、変形コサイン変換を用いた場合、上記式（１１）は下記式（１２）のように表される。

また、結合パラメータＳＰ_i ^cのうち、ΔＬｏｇＦ０_s ^begin、ΔＬｏｇＦ０_s ^endは、下記式（１３）、（１４）により夫々導出される。なお、ａは重み係数である。

ここで、Ｗは接続点での傾きを算出する際の窓長である。式（１）を用いて、上記式（１３）、（１４）を書き換えると、ΔＬｏｇＦ０_s ^begin、ΔＬｏｇＦ０_s ^endは下記記式（１５）、（１６）のように表すことができる。

ここで、Ｈ_s ^beginとＨ_s ^endは、下記式（１７）、（１８）から導出される固定のベクトルである。なお、Ｔ_sは式（１）で定義される変換行列の逆変換行列、ａは式（１３）、（１４）での重み係数である。

従来のＨＭＭに基づくパラメータ生成では、パラメータそのものの領域で一次微分成分Δや二次微分成分ΔΔなどを定義し、パラメータ生成のときの制約としている。そのため、それらの制約は変えることができない。一方、本実施形態では、一次微分成分などの変数をＤＣＴ係数のようなパラメータそのものの領域ではなく、線形変換される前のピッチ（ｌｏｇＦ０）の領域で定義し、線形変換された領域での解釈は音素などの言語レベル単位の継続時間長Ｄ_iを考慮して行う。その結果、ピッチの強調やダイナミックレンジの拡張などの制御が容易となる。

結合部２１２３は、記述パラメータ算出部２１２１から入力される記述パラメータＳＰ_i ^dと、結合パラメータ算出部２１２２から入力される結合パラメータＳＰ_i ^cとを、言語レベル毎（ＬｏｇＦ０毎）に組み合わせることで、第２パラメータＳＰ_iを生成し、後段のパラメータ組合せ部２１３に出力する。なお、本実施形態では、記述パラメータＳＰ_i ^dと、結合パラメータＳＰ_i ^cとを組み合わせることで第２パラメータＳＰ_iを生成することとしたが、何れか一方のパラメータのみを第２パラメータＳＰ_iとして用いる態様としてもよい。

図３に戻り、パラメータ組合せ部２１３は、第１パラメータＰＰ_iと、第２パラメータＳＰ_iとを組み合わせた拡張パラメータＥＰ_i（ｉは“言語レベルＬ_i”のｉに対応）を生成し、後段のモデル学習部２２に出力する。

本実施形態では、パラメータ組合せ部２１３において、第１パラメータＰＰ_iと、第２パラメータＳＰ_iとを統合することで、拡張パラメータＥＰ_iを生成する構成としているが、パラメータ組合せ部２１３を具備せず、第１パラメータＰＰ_iのみをモデル学習部２２に出力する構成としてもよい。なお、この場合、隣接するサンプル（音節）との関係が考慮されていないため、隣接する音節間で不連続が生じたり、複数の音節にまたがるアクセント句や文全体で不自然な韻律となる可能性がある。

次に、図６を用いて、モデル学習部２２によるピッチ包絡モデルの学習について説明する。図６は、モデル学習部２２の詳細構成を示した図であって、各機能部を接続する線分方向によりピッチ包絡モデルの学習手順を示している。同図に示したように、モデル学習部２２は、記述子生成部２２１と、記述子関係付部２２２と、クラスタリングモデル部２２３とを有している。

まず、記述子生成部２２１は、入力文書に含まれた各言語レベルＬ_iでのサンプル毎に、当該サンプルの特徴を表した記述子Ｒ_iを生成する。ここで生成された記述子Ｒ_iは、記述子関係付部２２２により、対応する拡張パラメータＥＰ_iと関係付けられる。

続いて、クラスタリングモデル部２２３では、記述子Ｒ_iに対応する質問Ｑを用いて決定木の各ノードを分割していく。ここで、各ノードの分割（クラスタリング）は、第１パラメータＰＰ_iに対応するｌｏｇＦ０の領域における平均二乗誤差に基づいて行われる。このとき、誤差は、第１パラメータＰＰ_sを表すベクトルＰＰ_sが、当該ベクトルＰＰ_sの属する決定木のリーフに格納された平均のベクトルＰＰ’で置き換えられることで生じる誤差である。上記式（２）に従えば、これら二つのベクトル（ＰＰ_s−ＰＰ’）間の重み付きユークリッド距離として計算することができる。したがって、平均二乗誤差＜ｅ_s＞は、対応する音節の継続時間長をＤ_sとすると、次式（１９）のように表すことができる。

なお、変形コサイン変換を用いる場合、式（１９）は下記式（２０）のようになる。

ここで、Ｐ（ｓ）は処理の対象とする音節の発生確率であり、これは一般的に音節によらず等確率と仮定される。また、平均二乗誤差＜ｅ_s＞は、ＤＣＴ_sの夫々に対応する重みを用いて平均した場合、次式（２１）のように表すこともできる。

ここで、Σ_DCT ^-1はＤＣＴ_sベクトルの共分散行列の逆行列である。この結果は、基本的にＰ（ｓ）の代わりにＤ_sＰ（ｓ）を用いる最尤基準に基づくクラスタリングの結果と等価になる。

拡張パラメータＥＰ_sに対して直接クラスタリングを適用した場合、平均二乗誤差は第１パラメータＰＰ_sだけではなく、その差分のパラメータである第２パラメータの置き換えに伴う誤差の総和として表される。具体的には、ＥＰ_sベクトルの共分散行列の逆行列に対応する重み付きの誤差ＷｅｉｇｈｔｅｄＥｒｒｏｒとして次式（２２）のように表すことができる。なお、式（２２）のＭ’_sは、式（２３）で表される行列成分あって、Ａは第２パラメータＳＰ_sの次元、０とＩは夫々零ベクトルと単位行列を意味する。

ピッチ包絡モデルは決定木と決定木の全てのノード、即ち、全てのリーフに格納されている平均ベクトルと共分散行列とから構成される。なお、本実施形態では、言語レベルとして音節を用いて説明したが、音素や単語、句、呼気段落、発声全体などの他の言語レベルについても同様の処理が行われるものとする。

モデル学習部２２では、音節など複数のフレームに渡る言語レベルでピッチ包絡を統計的にモデル化し、これら複数の言語レベルＬ_iについてモデル化したピッチ包絡（ピッチ包絡モデル）を言語レベル単位で記憶部１４に記憶する。なお、本実施形態では、モデル化に際し、ＤＣＴ係数ベクトルの平均ベクトルと、共分散行列とで定義されるガウス分布を用いるものとするが、他の統計モデルを用いることとしてもよい。また、本実施形態では、言語レベルＬ_iとして音節を用いて説明したが、音素や単語、句、呼気段落、発声全体などの他の言語レベルについても同様の処理が行われるものとする。

このように、本実施形態のピッチ包絡モデルの学習方法では、複数の言語レベルにおいて複数のフレームに渡るピッチ包絡をＤＣＴの係数で表現する。これにより、音節のように長さの異なるピッチパターンを表すことが可能となるため、異なる言語レベルでモデルの統合が容易となる。なお、ＨＭＭを用いた従来のピッチ包絡パターンの生成方法では、フレーム単位でのみピッチをモデル化しているため、音節レベルやアクセント句レベルなど階層的にモデルを統合することは困難である。

次に、音声処理装置１００の、ピッチ包絡パターンの生成にかかる構成及び動作について説明する。まず、図７を参照して、音声処理装置１００のピッチ包絡パターンの生成にかかる機能部及び動作について説明する。なお、以下では、ピッチ包絡パターン生成の基準となる言語レベルＬ_iを音節とした例について説明するが、これに限らず、他の言語レベルをピッチ包絡パターン生成の基準としてもよい。

図７は、音声処理装置１００が備える機能部のうち、ピッチ包絡の生成にかかる機能構成を示したブロック図である。同図に示したように、音声処理装置１００は、ＣＰＵ１１とＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により、モデル選択部３１と、継続時間長算出部３２と、目的関数生成部３３と、目的関数最大化部３４と、逆変換部３５とを備える。

モデル選択部３１は、入力されたテキストの言語情報に基づいて、当該テキストに含まれる各言語レベルＬ_iでのサンプル毎の記述子Ｒ_iを生成する。なお、本実施形態では、モデル選択部３１が記述子Ｒ_iを生成する態様としたが、上述した記述子生成部２２１が生成する態様としてもよい。また、モデル選択部３１は、記憶部１４に記憶された言語レベル単位のピッチ包絡モデルから、各言語レベルでの記述子Ｒ_iと一致するピッチ包絡モデルを夫々選択する。

継続時間長算出部３２は、入力されたテキストにおいて、各言語レベルＬ_iにおけるサンプル毎の継続時間長を算出する。例えば、言語レベルＬ_iを音節とした場合、継続時間長算出部３２は、言語情報に定義された各音節の開始時間と終了時間とに基づいて継続時間長を算出する。

目的関数生成部３３は、モデル選択部３１で選択された各言語レベルＬ_iでのピッチ包絡モデル群と、継続時間長算出部３２で算出された各言語レベルＬ_iでのサンプル毎の継続時間長とに基づいて、言語レベル毎の目的関数を算出する。ここで、目的関数は、拡張パラメータＥＰ_i（第１パラメータＰＰ_i）の対数尤度（尤度関数）として構成され、次式（２４）で表す総目的関数Ｆの右辺各項のように表される。なお、式（２４）において右辺第１項は音節（ｉ＝０；ｓｙｌｌａｂｌｅ）についての項であり、右辺第２項は他の言語レベル（ｉ＝ｌ（エル））についての項である。

ピッチ包絡を求めるためには、この総目的関数Ｆを基準となる言語レベル（音節）での第１パラメータＰＰ₀について最大化する必要がある。そのため、目的関数生成部３３は、各音節の第２パラメータＳＰ₀と拡張パラメータを第１パラメータＰＰ₀の関数として下記式（２５）、（２６）のように表現する。

従って、上記式（２４）は次式（２７）のように書き換えることができる。なお、式（２７）において、ＰＰ₀は各音節におけるｌｏｇＦ０のＤＣＴベクトルであり、ＳＰ₀は各音節について第２パラメータである。また、λは各項についての重み係数である。

目的関数最大化部３４は、目的関数生成部３３で算出された各目的関数を加算した総目的関数Ｆ、つまり上記式（２７）のＦ（ＰＰ₀）において、第１パラメータＰＰ₀を最大化した値を導出する。なお、第１パラメータＰＰ₀の最大化は、勾配法などの公知の技術を用いるものとする。

逆変換部３５は、目的関数最大化部３４で導出された第１パラメータＰＰ₀を逆変換することで、ｌｏｇＦ０ベクトル即ちピッチ包絡パターンを生成する。なお、逆変換部３５は、継続時間長算出部３２により算出された基準となる言語レベルでの各サンプル（各音節）の継続時間長に渡って逆変換を行うものとする。

以下、図８を参照して、ピッチ包絡が生成される際の動作について説明する。図８は、上述したピッチ包絡の生成にかかる機能部により、ピッチ包絡が生成される際の手順を示した図である。

まず、モデル選択部３１は、入力されたテキストの言語情報から各言語レベルＬ_iにおけるサンプルの記述子Ｒ_iを夫々生成する（ステップＳ１１１、Ｓ１１２）。なお、図８では、言語レベルＬ₀（音節）についての記述子Ｒ₀と、音節以外の他の言語レベルＬ_n（ｎは任意の数値）についての記述子Ｒ_nとの２つの言語レベルについて生成した例を示しているが、３つ以上の言語レベルについても同様に行われるものとする。

次に、モデル選択部３１は、ステップＳ１１１、Ｓ１１２で生成した各記述子Ｒ_i（Ｒ₀、Ｒ_n）に基づいて、各言語レベルに応じたピッチ包絡モデルを記憶部１４から夫々選択する（ステップＳ１２１、Ｓ１２２）。なお、上述したように、モデルの選択は、入力テキストの言語レベルにおける言語情報と、ピッチ包絡モデルの言語情報とが一致するよう行われるものとする。

続いて、継続時間長算出部３２は、入力されたテキストにおける各言語レベルでのサンプル毎の継続時間長Ｄ_iを算出する（ステップＳ１３１、Ｓ１３２）。なお、図８では、言語レベルＬ₀（音節）での各音節ついての継続時間長Ｄ₀と、言語レベルＬ_nでの各サンプルについての継続時間長Ｄ_nとが夫々算出された例を示している。

次いで、目的関数生成部３３では、ステップＳ１１１、Ｓ１１２で選択された各言語レベルＬ_iでのピッチ包絡モデルと、ステップＳ１３１、Ｓ１３２で算出された各言語レベルでの継続時間長Ｄ_iとに基づいて、各言語レベルＬ_iでの目的関数Ｆｉを夫々生成する（ステップＳ１４１、Ｓ１４２）。図８では、言語レベルＬ₀（音節）についての目的関数Ｆ₀と、言語レベルＬ_nについての目的関数Ｆnとが夫々生成されたことを示している。ここで、目的関数Ｆ₀は上記式（２４）での右辺第１項に対応し、目的関数Ｆ_nは上記式（２４）での右辺第２項に対応する。

次に、目的関数生成部３３は、ステップＳ１４１、Ｓ１４２で生成した目的関数を、基準となる言語レベルＬ₀についての第１パラメータＰＰ₀で表すため、上記式（２５）、（２６）に基づいて、各言語レベルＬ_iでの目的関数を変形する（ステップＳ１５１、Ｓ１５２）。具体的に、目的関数Ｆ₀については、上記式（２５）を用いて変形することで、上記式（２７）の右辺第１、２項の式に変形する。また、目的関数Ｆ_nについては、上記式（２６）を用いて変形することで、上記式（２７）の右辺第３項の式に変形する。

目的関数最大化部３４は、ステップＳ１５１、Ｓ１５２で変形された各言語レベルＬ_iについての目的関数の総和、即ち、式（２７）に示した総目的関数Ｆ（ＰＰ₀）に基づき、基準となる言語レベルＬ₀の第１パラメータＰＰ₀について、その値を最大化する（ステップＳ１６）。

次いで、逆変換部３５は、目的関数最大化部３４で最大化された第１パラメータＰＰ₀を逆変換することで、入力されたテキストのイントネーションを表す対数基準周波数ｌｏｇＦ０、即ち、ピッチ包絡パターンを生成する（ステップＳ１７）。

このように、本実施形態のピッチ包絡パターンの生成方法では、ＤＣＴの係数で表現された複数の言語レベルにおけるピッチ包絡モデルを用いて、総合的にピッチ包絡パターンを生成することができるため、滑らかに変化する自然なピッチ包絡を生成することができる。

なお、ピッチ包絡パターンの生成に用いる言語レベルの個数、種別、基準とする言語レベルは任意に設定することが可能であるものとするが、本実施形態で用いた音節などのように、複数のフレームに渡る言語レベルを用いてピッチ包絡パターンを生成することが好ましい。

以上のように、本実施形態の音声処理装置１００によれば、音節など複数のフレームに渡る言語レベルでピッチ包絡を統計的にモデル化し、接続点のピッチの差や傾きを制約条件にして、統計的なモデルの尤度などから構成される目的関数が最大となるようピッチ包絡を生成することができるため、滑らかに変化する自然なピッチ包絡パターンを生成することができる。

また、一次微分成分などの変数をＤＣＴ係数のようなパラメータそのものではなく、線形変換される前のピッチの領域で定義し、変換された領域での解釈は音素などの基準とする言語レベルでの継続時間長を考慮して行うことができるため、ピッチの強調やダイナミックレンジの拡張などの制御が容易に行うことができる。

なお、本実施形態の他の構成例として、第１パラメータＰＰの生成において、ピッチのグローバル分散も考慮に入れて目的関数を最大化することで、ピッチ包絡を生成する態様としてもよい。これにより、生成されるピッチ包絡のパターンが自然音声のピッチパターンの変化幅と同様に変化し、より自然な韻律を生成することができる。なお、ピッチのグローバル分散は、ＤＣＴベクトルを用いると下記式（２８）のように表すことができる。

このグローバル分散を目的関数に加えて、目的関数を最大化する場合、第１パラメータＰＰ₀に関する目的関数の偏微分は非線形関数となる。そのため、目的関数の最大化は、最急勾配法などの数値計算的な解法を用いて行うことになる。この場合の初期値としては、各音節の平均ベクトルを用いることができる。

以上、本発明にかかる実施形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。

例えば、上記実施形態の音声処理装置１００で実行されるプログラムは、ＲＯＭ１２や記憶部１４などに予め組み込まれて提供されるものとするが、これに限らず、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などのコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

また、このプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよく、インターネットなどのネットワーク経由で提供又は配布するように構成してもよい。

音声処理装置のハードウェア構成を示したブロック図である。音声処理装置が備える、ピッチ包絡モデルの学習にかかる機能構成を示したブロック図である。図２に示したパラメータ化部の詳細構成を示した図である。図３に示した第１パラメータ化部の詳細構成を示した図である。図３に示した第２パラメータ化部の詳細構成を示した図である。図２に示したモデル学習部の詳細構成を示した図である。音声処理装置が備えるピッチ包絡の生成にかかる機能構成を示したブロック図である。ピッチ包絡パターンが生成される際の手順を示した図である。

符号の説明

１００音声処理装置
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４記憶部
１５表示部
１６操作部
１７通信部
１８バス
２１パラメータ化部
２１１第１パラメータ化部
２１１１再サンプリング部
２１１２内挿処理部
２１１３セグメント分割部
２１１４第１パラメータ生成部
２１２第２パラメータ化部
２１２１記述パラメータ算出部
２１２２結合パラメータ算出部
２１２３結合部
２１３パラメータ組合せ部
２２モデル学習部
２２１記述子生成部
２２２記述子関係付部
２２３クラスタリングモデル部
３１モデル選択部
３２継続時間長算出部
３３目的関数生成部
３４目的関数最大化部
３５逆変換部

Claims

入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、
前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じた第１パラメータ群を生成するパラメータ化手段と、
前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、
前記各言語レベルでの第１パラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、
前記ピッチ包絡モデルを前記言語レベル単位で記憶する記憶手段と、
を備えたことを特徴とする音声処理装置。
前記基本周波数から所定の条件に適合する複数のピッチ周波数を抽出する抽出手段と、
前記抽出手段で抽出された複数のピッチ周波数を内挿し、前記基本周波数を平滑化する平滑化手段と、
を更に備え、
前記分割手段は、前記内挿処理手段により平滑化された基本周波数を前記複数のセグメントに分割することを特徴とする請求項１に記載の音声処理装置。
前記各言語レベルにおける前記第１パラメータ間の関係を表す第２パラメータを、当該第１パラメータの分散を用いて算出する第２パラメータ算出手段を更に備え、
前記モデル学習手段は、前記第１パラメータと当該第１パラメータに対応する前記第２パラメータとを統合した拡張パラメータについて、前記学習を行うことを特徴とする請求項１又２に記載の音声処理装置。
前記各言語レベルにおける隣接する文字列間の関係を表す第３パラメータを、前記基本周波数の平均の一次微分と、前記文字列の前後の接続点における前記基本周波数の傾きとを用いて算出する第３パラメータ算出手段と更に備え、
前記モデル学習手段は、前記第１パラメータと当該第１パラメータに対応する前記第３パラメータとを統合した拡張パラメータについて、前記学習を行うことを特徴とする請求項１〜３の何れか一項に記載の音声処理装置。
前記モデル学習手段は、前記各言語レベルでの第１パラメータを、前記記述子に対応する決定木を用いてクラスタリングすることを特徴とする請求項１〜４の何れか一項に記載の音声処理装置。
前記モデル学習手段は、前記第１パラメータに対応する前記基本周波数の領域における平均二乗誤差に基づいて、前記決定木によるクラスタリングを行うことを特徴とする請求項５に記載の音声処理装置。
前記モデル学習手段は、前記第１パラメータに対応する文字列の継続時間長を用いて、前記平均二条誤差を算出することを特徴とする請求項６に記載の音声処理装置。
前記言語レベルは、フレーム、音素、音節、単語、句、呼気段落、発声全体の何れか又はこれらの組み合わせであることを特徴とする請求項１に記載の音声処理装置。
前記線形変換は、逆変化することが可能な離散コサイン変換、フーリエ変換、ウェーブレット変換、テーラー展開、多項式展開の何れかであることを特徴とする請求項１に記載の音声処理装置。
前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択手段と、
前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成手段と、
前記各言語レベルでの目的関数の総和を、基準となる言語レベルでの第１パラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応する第１パラメータを生成する目的関数最大化手段と、
前記目的関数最大化手段で生成された第１パラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換手段と、
を更に備えたことを特徴とする請求項１に記載の音声処理装置。
前記目的関数生成手段は、前記言語レベル毎の目的関数を、基準となる言語レベルでの第１パラメータを用いて生成することを特徴とする請求項１０に記載の音声処理装置。
前記目的関数生成手段は、前記言語レベル毎の目的関数を、基準となる言語レベルでの第１パラメータの尤度関数として生成することを特徴とする請求項１１に記載の音声処理装置。
記憶手段を備えた音声処理装置の音声処理方法であって、
分割手段が、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割工程と、
パラメータ化手段が、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化工程と、
記述子生成手段が、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成工程と、
モデル学習手段が、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習工程と、
記憶制御手段が、前記言語レベル単位で前記ピッチ包絡モデルを前記記憶手段に記憶する記憶制御工程と、
を含むことを特徴とする音声処理方法。
選択手段が、前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択工程と、
目的関数生成手段が、前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成工程と、
目的関数最大化手段が、前記各言語レベルでの目的関数の総和を、基準となる言語レベルでのパラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応するパラメータを生成する目的関数最大化工程と、
逆変換手段が、前記目的関数最大化工程で生成されたパラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換工程と、
を更に含むことを特徴とする請求項１３に記載の音声処理方法。
記憶手段を備えた音声処理装置のコンピュータに、
入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、
前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化手段と、
前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、
前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、
前記ピッチ包絡モデルを前記言語レベル単位で前記記憶手段に記憶する記憶制御手段と、
して機能させることを特徴とする音声処理プログラム。
前記コンピュータに、
前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択手段と、
前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成手段と、
前記各言語レベルでの目的関数の総和を、基準となる言語レベルでのパラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応するパラメータを生成する目的関数最大化手段と、
前記目的関数最大化手段で生成されたパラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換手段と、
して更に機能させることを特徴とする請求項１５に記載の音声処理プログラム。