JP2898568B2

JP2898568B2 - 声質変換音声合成装置

Info

Publication number: JP2898568B2
Application number: JP7051039A
Authority: JP
Inventors: 誠橋本; 宜男樋口
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1995-03-10
Filing date: 1995-03-10
Publication date: 1999-06-02
Anticipated expiration: 2014-06-02
Also published as: JPH08248994A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、声質変換音声合成装置
に関する。

【０００２】

【従来の技術】多様な合成音声を生成することのできる
音声合成システムの実現は、合成音声の高品質化や合成
システム自体の普及のためにも非常に重要である。声質
変換も多様な合成音声生成のために必要な技術であり、
これまでにも種々の研究開発がなされてきた。

【０００３】例えば、文献１「松本弘ほか，“教師あり
／教師なしスペクトル写像による声質変換”，日本音響
学会誌，Ｖｏｌ．５０，Ｎｏ．７，ｐｐ．５４９−５５
５，１９９４年７月」（以下、第１の従来例という。）
においては、声質変換の精度向上と品質の改善を目的と
して、変換音声のスペクトル系列と目標話者のスペクト
ル系列との２乗誤差を最小とする基準で写像を行って学
習し、未学習の部分を補間法により計算することが開示
されている。

【０００４】さらに、図３は、文献２「阿部匡伸ほか，
“ベクトル量子化による声質変換”，日本音響学会講演
論文集，２−６−１４，昭和６２年１０月」（以下、第
２の従来例という。）において開示されたピッチ周波数
の変換コードブックを生成する方法を示す第２の従来例
のブロック図であり、図４は、図３の方法で生成された
ピッチ周波数の変換コードブックと同様の方法で生成さ
れたスペクトルパラメータの変換コードブックとを用い
てベクトル量子化による声質変換法を示すブロック図で
ある。この第２の従来例の方法は、話者毎のコードブッ
ク間の対応づけによって話者間の写像をとり、声質変換
を行う方法を用いている。すなわち、大量の学習データ
を用いて予め話者Ａから話者Ｂへの変換コードブックを
作成しておき、これを用いて声質変換を行うものであ
る。変換コードブックを作成するに当たっては、以下の
手順をとる。（Ｉ）クラスタリングされたコードブック間で対応を取
る。（II）対応するコード間の頻度を用いて写像を行う。

【０００５】以下、話者Ａ，Ｂ間のピッチ周波数の変換
コードブックを作成する過程を、図３を参照して説明す
る。（１）話者Ａ，及び話者Ｂのそれぞれのピッチ周波数の
サンプルデータ３０，４０を取り込み、それぞれクラス
タリング３１，４１を行ってピッチ周波数のコードブッ
ク３２，４２を作成する。同様に、スペクトルパラメー
タもクラスタリングしコードブックを作成する。（２）ピッチ周波数のコードブック３２，４２を用い
て、学習データのピッチ周波数をコード化し、すなわち
スカラー量子化３３，４３する。同様に、スペクトルパ
ラメータもコード化し、すなわちベクトル量子化する。（３）コード化されたパラメータを用いて、学習単語毎
にＤＰマッチング（動的計画法によるマッチング処理）
を行い、時間の対応づけ３４を行う。（４）時間的に対応している話者Ａのピッチコードと話
者Ｂのピッチコードからヒストグラム３５を作成する。（５）話者Ａのピッチコードに対し、ヒストグラムが最
大となっている話者Ｂのピッチコードを対応づけて、話
者Ａから話者Ｂへの変換コードブック３６を作成する。
なお、スペクトルパラメータのマッピングは、ヒストグ
ラムによる重み付けを行い、文献３「中村ほか，“ベク
トル量子化を用いたスペクトログラムの正規化”，日本
音響学会音声研究会資料，ＳＰ８７−１７，１９８７
年」に記載された手順に従って、変換コードブック（図
４の３６ａ）を作成する。

【０００６】次いで、上記作成された変換コードブック
を用いた第２の従来例の声質変換法を図４に示す。図４
に示すように、まず、話者Ａの音声をＬＰＣ分析５０
し、スペクトルパラメータとピッチパラメータを求め、
これを話者Ａのスペクトルパラメータとピッチ周波数の
コードブック５１，６１を用いてそれぞれベクトル量子
化５２及びスカラー量子化６２する。さらに、復号化５
３，６３するときには、話者Ａのコードブック５１，６
１の代わりに、上記作成された変換コードブック３６，
３６ａを用いる。これによって、話者Ｂの音声へ変換さ
れたことになり、この後、音声合成手段である合成フィ
ルタ５４を用いて話者Ｂの音声信号を発生して出力す
る。

【０００７】

【発明が解決しようとする課題】しかしながら、第１の
従来例では、異なる話者間のスペクトルの差が比較的大
きなとき、学習処理を実行することがきわめて難しい。
また、第２の従来例では、すべての音声データ毎に異な
る話者間の変換コードブックを作成する必要があるの
で、この場合、大量の学習データを必要とする。すなわ
ち、実用化が難しいという問題点があった。

【０００８】本発明の目的は以上の問題点を解決し、話
者間のスペクトルの差が比較的大きくならないように変
換元話者を選択し、従来例に比較して少量の学習データ
で学習することにより声質変換することができる声質変
換音声合成装置を提供することにある。

【０００９】

【課題を解決するための手段】本発明に係る声質変換音
声合成装置は、第１の記憶手段（１０，１１）、特徴抽
出手段（３）、話者選択手段（５）、写像コードブック
生成手段（６）、第２の記憶手段（１２）、スペクトル
写像処理手段（２２）、パラメータ系列生成手段（２
３）、音声合成手段（２４）からなる声質変換音声合成
装置であって、第１の記憶手段（１０，１１）は、登録
話者毎の音声データベース、登録話者毎のスペクトルコ
ードブックを記憶し、音声データベースは、各音素毎の
登録スペクトルパラメータからなり、特徴抽出手段
（３）は、入力される目標話者の音声信号から話者スペ
クトルパラメータを抽出し、話者選択手段（５）は、話
者スペクトルパラメータと、音声データベースのうちの
予め定められた登録スペクトルパラメータである学習音
声スペクトルパラメータを比較することにより、最も近
い登録話者を選択登録話者として選択し、写像コードブ
ック生成手段（６）は、第１から第４の処理を行い、第
１の処理は、選択登録話者のスペクトルコードブックを
初期写像コードブックとし、第２の処理は、選択登録話
者の学習音声スペクトルパラメータを初期写像コードブ
ックを用いてベクトル量子化することによりベクトルを
求め、第３の処理は、話者スペクトルパラメータと第２
の処理で求めたベクトルとの間で時間的な対応付けの処
理を行った後、それらの差分ベクトルを計算し、差分ベ
クトルに基づいて移動ベクトルを決定し、第４の処理
は、初期写像コードブックを移動ベクトルを用いて移動
させ、目標写像コードブックとして第２の記憶手段（１
２）に記憶させ、スペクトル写像処理手段（２２）は、
第５から第６の処理を行い、第５の処理は、入力される
文字を音素に変換し、音素に対応する登録スペクトルパ
ラメータを選択登録話者の音声データベースから読み出
し、第６の処理は、第５の処理で読み出した登録スペク
トルパラメータに距離の近いベクトルを初期写像コード
ブックから求め、そのベクトルに対応する目標写像コー
ドブック内のベクトルを生成し、パラメータ系列生成手
段（２４）は、第６の処理で生成したベクトルに基づい
て音響特徴パラメータとピッチ周波数を含む時系列デー
タを生成し、音声合成手段（２４）は、パラメータ生成
手段（２４）の生成する時系列データに基づいて、音声
信号を発生することを特徴とする。

【００１０】

【００１１】

【００１２】

【作用】以上のように構成された声質変換音声合成装置
においては、第１の記憶手段（１０，１１）は、登録話
者毎の音声データベース、登録話者毎のスペクトルコー
ドブックを記憶し、音声データベースは、各音素毎の登
録スペクトルパラメータからなる。特徴抽出手段（３）
は、入力される目標話者の音声信号から話者スペクトル
パラメータを抽出し、話者選択手段（５）は、話者スペ
クトルパラメータと、音声データベースのうちの予め定
められた登録スペクトルパラメータである学習音声スペ
クトルパラメータを比較することにより、最も近い登録
話者を選択登録話者として選択する。次いで、写像コー
ドブック生成手段（６）は、第１から第４の処理を行
い、ここで、第１の処理は、選択登録話者のスペクトル
コードブックを初期写像コードブックとし、第２の処理
は、選択登録話者の学習音声スペクトルパラメータを初
期写像コードブックを用いてベクトル量子化することに
よりベクトルを求め、第３の処理は、話者スペクトルパ
ラメータと第２の処理で求めたベクトルとの間で時間的
な対応付けの処理を行った後、それらの差分ベクトルを
計算し、差分ベクトルに基づいて移動ベクトルを決定
し、第４の処理は、初期写像コードブックを移動ベクト
ルを用いて移動させ、目標写像コードブックとして第２
の記憶手段（１２）に記憶させる。そして、スペクトル
写像処理手段（２２）は、第５から第６の処理を行い、
ここで、第５の処理は、入力される文字を音素に変換
し、音素に対応する登録スペクトルパラメータを選択登
録話者の音声データベースから読み出し、第６の処理
は、第５の処理で読み出した登録スペクトルパラメータ
に距離の近いベクトルを初期写像コードブックから求
め、そのベクトルに対応する目標写像コードブック内の
ベクトルを生成する。さらに、パラメータ系列生成手段
（２４）は、第６の処理で生成したベクトルに基づいて
音響特徴パラメータとピッチ周波数を含む時系列データ
を生成し、音声合成手段（２４）は、パラメータ生成手
段（２４）の生成する時系列データに基づいて、音声信
号を発生する。

【００１３】

【００１４】

【００１５】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は、本発明に係る一実施例である
写像コードブック生成装置１００と声質変換音声合成装
置２００のブロック図である。この実施例のシステム
は、写像コードブック生成装置１００において、話者選
択部５と写像コードブック生成部６とを備えたことを特
徴とし、一方、声質変換音声合成装置２００において
は、スペクトル写像処理部２２を備えたことを特徴とす
る。この実施例においては、実用的な声質変換システム
を実現するためには学習データを極力少なくするため
に、話者選択と移動ベクトル場平滑化法（ＶＦＳ：Vect
or Field Smoothing）を用いたスペクトル写像による新
しい声質変換法を開示し、この方法は、少ない学習デー
タでも変換が行えるという特有の効果を有する。なお、
この明細書においては、予め音声データベースを用意し
ておく複数の話者を登録話者とし、変換先の話者を目標
話者とし、複数の登録話者から選ばれた１人の話者を選
択話者と定義する。

【００１６】図１に示すように、音声データベースメモ
リ１０内の音声データベースと、スペクトルコードブッ
クメモリ１１内のスペクトルコードブックとが予め作成
されて記憶される。音声データベースは、複数の登録話
者のピッチ周波数、ケプストラム係数データ、及びパワ
ーデータなどの音響特徴パラメータを含み、スペクトル
コードブックは、複数の登録話者のクラスタリングされ
たケプストラムデータのベクトルをフレーム単位でラベ
リングされてメモリ１１内に記憶される。

【００１７】目標話者の任意の１単語の発声音声はマイ
クロホン１に入力されてアナログ音声信号に変換され、
Ａ／Ｄ変換器２でディジタル音声信号に変換された後、
特徴抽出部３に入力される。このＡ／Ｄ変換器２では、
サンプリング周波数に対応する例えば２０ミリ秒である
所定のフレーム間隔でフレーム毎に音声信号データがラ
ベリングされ、以下の処理はフレーム毎に実行される。
特徴抽出部３は、入力された音声信号を例えばケプスト
ラム分析し、３０次ケプストラム係数、パワー及びピッ
チ周波数を含む３２次元の特徴パラメータを抽出する。
抽出された特徴パラメータの時系列はバッファメモリ４
を介して話者選択部５に入力される。

【００１８】話者選択部５は、入力された目標話者のス
ペクトル時系列と、メモリ１０内の音声データベースに
登録された各登録話者のスペクトル時系列との互いの継
続長が一致するようにＤＴＷ（Dynamic Time Warping：
動的時間整合）法により時間整合した後、目標話者のス
ペクトル時系列と各登録話者のスペクトル時系列との距
離を計算し、２乗誤差が最小となる基準を用いて最も距
離の小さい登録話者を１名だけ選択する。ここで、スペ
クトル時系列はケプストラム時系列に対応する。

【００１９】図２は、図１の写像コードブック生成部６
によって実行される写像コードブック生成処理を示すフ
ローチャートである。

【００２０】この写像コードブック生成部６では、選択
話者のスペクトルコードブックＣ^sを目標話者の音響空
間に写像して目標話者のスペクトルコードブックＣ^tに
変換する。ここで、目標話者の音響空間に写像されたコ
ードブックを、写像コードブックＣ^tと定義する。写像
コードブックＣ^tの生成には移動ベクトル場平滑化法を
用いる。これは、音響空間の話者間の差のベクトルは連
続的に変化するという仮定のもとに、ある話者の音響空
間を他話者の音響空間に写像する方法である。以下に、
その方法の手順を示す。

【００２１】まず、ステップＳ１において、選択話者の
スペクトルコードブックＣ^sをスペクトルコードブック
メモリ１１から読み出して、写像コードブックＣ^tの初
期状態とする。次いで、ステップＳ２で、選択話者の学
習音声スペクトル時系列を写像コードブックＣ^tを用い
てベクトル量子化し、このベクトル量子化後のコード列
と、入力された目標話者の音声スペクトル時系列とをＤ
ＴＷ（Dynamic time warping）法を用いて対応付けの処
理を行う。そして、ステップＳ３において、自然数ｍ番
目のベクトルＣ_m ^sと、これに対応づけられた入力スペク
トルｘの平均ベクトル／Ｃ_m ^sとの差分ベクトルＶ_mを次
の数１に示すように計算し、これを移動ベクトルＶ_mと
する。なお、この明細書において、（Ｃ_m ^s）の上線（バ
ー）を記載することができないため、／Ｃ_m ^sと記す。な
お、数２の右辺の（１／Ｎ_m）の／は分数を示す。

【００２２】

【数１】Ｖ_m＝／Ｃ_m ^s−Ｃ_m ^s ここで、

【数２】

【００２３】ここで、Ｎ_mは選択話者のｍ番目のベクト
ルＣ_m ^sに対応付けられた入力スペクトルベクトルの個数
であり、ＭはベクトルＣ_m ^sに対応付けられた入力スペク
トル時系列のベクトルの集合である。そして、ステップ
Ｓ４では、学習で対応付けが行なわれなかった選択話者
のｎ番目のベクトルＣ_n ^sと、その近傍にある対応付けが
行なわれた所定数のコードベクトルの集合の要素Ｃ_k ^sと
の間のファジィ級関数μ_n,_kを次の数３を用いて計算す
る。

【００２４】

【数３】

【００２５】ここで、ｍａ＝１／（ｍ−１）である。ま
た、ｄ_n,_kはベクトルＣ_n ^SとベクトルＣ_k ^Sとの間の距離
であり、ｍは制御パラメータ（ファジネス）であり、Ｋ
は対応付けのあったベクトルの集合である。さらに、ス
テップＳ５では、対応付けされなかったベクトルＣ_n ^sの
移動ベクトルＶ_nを、次の数４を用いて、対応付けが行
なわれたコードベクトルＣ_k ^sの移動ベクトルＶ_kと上記
ファジィ級関数μ_n,_kを用いて計算し、写像コードブッ
クのすべてのベクトルＣ^sを次の数５に示すごとく移動
ベクトルＶ_nの集合Ｖを用いて目標話者のベクトルＣ^tに
更新してステップＳ６に進む。

【００２６】

【数４】

【数５】Ｃ^t＝Ｃ^s＋Ｖ

【００２７】ステップＳ６では、ＤＴＷ法による対応づ
けの時間整合処理のときの距離が収束していなければ、
ステップＳ２へ戻る。一方、収束していればステップＳ
７に進む。

【００２８】ステップＳ６までの処理では、学習データ
が少ない場合に異話者間の真の対応関係を表せずに移動
ベクトルの誤差が大きくなるという問題が残る。そこ
で、ステップＳ７においては、移動ベクトル場平滑化法
（ＶＦＳ法）を用いて、移動ベクトルに連続性の拘束条
件を入れ、以下に示す３つのステップＳＳ１乃至ＳＳ３
からなる平滑化処理を行なって、誤差を吸収させる。（ＳＳ１）写像コードブック内の選択話者のｌ番目のベ
クトルＣ_l ^sとその近傍にあるベクトルＣ_k ^sとの間のファ
ジィ級関数μ_l,_kを計算する。（ＳＳ２）上記ファジィ級関数μ_l,_kを用いて平滑化移
動ベクトルＶ_lを次の数６を用いて計算する。

【００２９】

【数６】

【００３０】ここで、Ｎ_k ^αは移動ベクトルＶ_kの信頼度
を表し、定数αを持たせた移動ベクトルへの重みとして
いる。ここで、ｋ＝ｌのときファジィ級関数μ_l,_k＝１
とする。（ＳＳ３）平滑化された移動ベクトルＶ_lを用いて、写
像コードブックメモリ１２内の写像コードブックのすべ
てのベクトルＣ_l ^sを次の数７に示すごとくベクトルＣ_l ^t
に更新する。この写像コードブックは、声質変化音声合
成装置２００におけるスペクトル写像処理部２２で用い
られる。

【００３１】

【数７】Ｃ_l ^t＝Ｃ_l ^s＋Ｖ_ｌ

【００３２】次いで、図１の声質変換音声合成装置２０
０の構成と動作について説明する。図１に示すように、
目標話者の音声で音声合成したい文字列をキーボード２
１を用いて入力すると、スペクトル写像処理部２２は、
文字列に対応する選択話者の音声スペクトルのデータを
音声データベース１０から読み出し、その音声スペクト
ルのベクトル列Ｘ_ｐ ^ｓを、生成された写像コードブック
１２を用いてベクトル量子化することにより、以下のご
とくスペクトル写像を行って復号化処理を実行する。

【００３３】スペクトル写像処理部２２では、選択話者
の音声スペクトルのベクトル列Ｘ_p ^sと、その近傍にある
所定数ｋ個のベクトルＣ_q ^s（ここで、ｑ＝１，２，…，
ｋ）との間の重み付け関数であるファジィ級関数μ_p,q
を計算した後、ベクトルＣ_q ^sに対応付けられた目標話者
のベクトルＣ_q ^tとファジィ級関数μ_p,qとに基づいて、
変換後の目標話者のベクトル列Ｘ_p ^tを計算する。そし
て、当該ベクトル列Ｘ_p ^tから、選択話者から目標話者に
写像された音声スペクトル時系列を計算してパラメータ
系列生成部２３に出力する。

【００３４】以上の処理での説明では、写像コードブッ
ク生成装置１００及び声質変換音声合成装置２００にお
いて、スペクトルに関する処理のみについて説明してい
るが、ピッチ周波数について、同様に処理して、写像コ
ードブックを作成して、作成した写像コードブックを用
いて目標話者のピッチ周波数の時系列を計算してパラメ
ータ系列生成部２３に出力する。これにとって代わっ
て、ピッチ周波数の処理については、これに限らず、目
標話者と選択話者の間のピッチ周波数の対数値の平均の
差を予め計算しておき、選択話者のピッチ周波数の対数
値にその差を加算することにより、目標話者のピッチ周
波数の時系列を計算してもよい。

【００３５】最後に、パラメータ系列生成部２３は、入
力されるスペクトル時系列とピッチ周波数の時系列を取
りまとめて内蔵のバッファメモリに一時的に格納した
後、入力された文字列に対応する音声合成のための時系
列データに変換して音声合成部２４に出力する。ここ
で、時系列データは、音声合成のためのピッチ、有声／
無声切り換え、振幅及びフィルタ係数のデータを含む。
さらに、音声合成部２４は、パルス発生器と雑音発生器
とスイッチと振幅変更型増幅器とフィルタとから構成さ
れ、入力される時系列データに基づいて、発声音声信号
を合成してスピーカ２５に出力することにより、上記入
力された文字列に対応する目標話者の合成音声がスピー
カ２５から出力される。

【００３６】さらに、本発明者は、以上のように構成さ
れたシステムについてシミュレーションを以下のごとく
行った。このシミュレーションでは、音声試料として音
素バランス２１６単語のうち、学習用に１語「うちあわ
せ」を使用し、評価用に５０語を使用した。アナウンサ
ー又はナレーターである男女各４名を登録話者とし、別
の男女各４名を目標話者として評価のためのシミュレー
ションを行なった。予め作成しておく各登録話者のコー
ドブックは、音素バランスされた５０３文を用いて作成
した。コードブックサイズは５１２であり、平滑化時の
ファジネスの値は１．１乃至５．０で変化させ、補間時
のファジネスもこれと同じ値に設定した。復号化時のフ
ァジネスは１．５、平滑化時の重み係数αは０．０５に
設定し、その処理の近傍数はすべて４とした。また、ス
ペクトルパラメータは３０次ＦＦＴケプストラムとし、
距離Ｄの計算には次の数８を用いた。

【００３７】

【数８】

【００３８】ここで、ＣＥＰ_ij ^sはＤＴＷ法による時間
整合処理後の選択話者の第ｉフレームのｊ次ケプストラ
ム係数であり、ＣＥＰ_ij ^tは目標話者の第ｉフレームの
ｊ次ケプストラム係数である。また、ｆｒはフレーム数
である。本実施例の方法の基本性能を調べるため、変換
音声と目標話者の音声及び選択話者の音声と目標話者の
音声のケプストラム距離を計算した。ケプストラム距離
の５０単語の平均値の結果より、男性と女性の目標話者
ともに、変換音声と目標話者の音声との距離は選択話者
の音声と目標話者の音声との距離よりも小さくなり、本
実施例の方法の有効性が示された。

【００３９】次に、聴覚的に本実施例の方法の効果があ
るかどうかを調べるため、目標話者男女各１名に対し
て、公知のＡＢＸ法による聴取シミュレーションを行な
った。Ａ、Ｂは、それぞれ目標話者の分析合成音、選択
話者の分析合成音、Ｘはファジネス５の変換音声又は選
択話者の分析合成音である。変換音声は、５０単語のう
ちケプストラム距離の減少比が５０単語平均よりも小さ
い音声、大きい音声、同程度の音声を、１サンプルずつ
抽出したものとした。スペクトル写像精度のみを評価す
るために、基本周波数、音韻継続時間、パワーは目標話
者に合わせた。被験者には、Ｘの音声話者がＡ，Ｂどち
らの話者に近いかを強制判定させた。被験者は６名、呈
示回数は１サンプル当たり４回である。評価は、次の数
９に従って判定率ＣＲを求め、この値で比較した。

【００４０】

【数９】ＣＲ＝（Ｐ_j／Ｐ_all）×１００［％］

【００４１】ここで、Ｐ_jは「Ｘが目標話者に近いと判
定された回数」であり、Ｐ_allは「呈示回数」である。

【００４２】この評価結果より、変換音声が目標話者に
近いと判定された割合は、男性の目標話者の場合約６７
％であって、女性の目標話者の場合６５％である。ま
た、選択話者が目標話者に近いと判定された割合は、男
性の目標話者の場合約１８％であって、女性の目標話者
の場合２５％であり、両者とも高い割合で変換音声が目
標話者に近いと判定されており、聴覚的にも効果のある
ことが示された。選択話者が目標話者に近いと判定され
た割合が、目標話者が男性の場合より女性の場合の方が
高いのは、選択話者と目標話者との距離が男性の目標話
者の場合より近かったためと考えられる。このことは、
登録話者の中に存在する目標話者に近い話者が話者選択
によって適切に選ばれたことを示している。また、変換
音声が目標話者に近いと判定された割合が男性の目標話
者の方が高いのは、ＶＦＳ法の平滑化処理の効果が女性
の目標話者よりも大きいためと考えられる。以上から、
選択話者と目標話者の距離が大きいほどＶＦＳ法の平滑
化処理の効果が増し、距離が小さいほど話者選択の効果
が増すという相乗効果があるといえる。

【００４３】以上説明したように、少ない学習データで
声質変換を実現するため、話者選択と移動ベクトル場平
滑化法によって選択話者から目標話者へのスペクトル写
像を行なうことによる声質変換法を開示している。スペ
クトル距離および聴取シミュレーションによる評価にお
いて、１単語のみで学習させ、５０単語で評価を行なっ
た結果、変換音声と目標話者音声とのスペクトル距離
は、選択話者音声と目標話者音声との距離より小さくな
り、また、聴取シミュレーションでも良好な結果が得ら
れ、本実施例の方法の有効性が示された。

【００４４】第２の従来例では、音声データの登録話者
から目標話者への写像を行う場合、異なる話者間のコー
ドブックの対応関係を学習によって求めるために、大量
の学習データが必要であったり、合成音声の精度を改善
するために複雑な処理を必要としていた。これに対し
て、本発明に係る本実施例によれば、１単語程度の非常
に少ない学習データで登録話者から目標話者への写像関
数を求めることができ、例えばデイジタル計算機を用い
て実用化することができる。また、音声データベースだ
けを予め格納することにより、発話内容に関係なく従来
例に比較してより高い精度で声質を変換することができ
る。すなわち、音声データベースに格納される単語と、
声質変換しようとする単語は異なってもよく、本実施例
を、例えば、日本語の単語から英語の単語への声質変
換、もしくは、英語の単語から日本語の単語への声質に
適用することができる。

【００４５】なお、以上の実施例において、Ａ／Ｄ変換
器２と、特徴抽出部３と、話者選択部５と、写像コード
ブック生成部６と、スペクトル写像処理部２２と、パラ
メータ系列生成部２３は、例えばディジタル計算機で構
成される。

【００４６】以上の実施例においては、スペクトルデー
タとピッチ周波数について、話者選択、写像コードブッ
ク生成、及びスペクトル写像処理を行っているが、同様
に、他の音響特徴パラメータについて処理を行ってもよ
い。以上の実施例において、マイクロホン１に入力する
単語は少なくとも１つの単語でよい。また、音声データ
ベースメモリ１０に予め記憶する音声データベースは、
複数の登録話者の音声データベースのデータでよい。

【００４７】

【発明の効果】以上詳述したように本発明に係る声質変
換音声合成装置によれば、第１の記憶手段（１０，１
１）、特徴抽出手段（３）、話者選択手段（５）、写像
コードブック生成手段（６）、第２の記憶手段（１
２）、スペクトル写像処理手段（２２）、パラメータ系
列生成手段（２３）、音声合成手段（２４）からなる声
質変換音声合成装置であって、第１の記憶手段（１０，
１１）は、登録話者毎の音声データベース、登録話者毎
のスペクトルコードブックを記憶し、音声データベース
は、各音素毎の登録スペクトルパラメータからなり、特
徴抽出手段（３）は、入力される目標話者の音声信号か
ら話者スペクトルパラメータを抽出し、話者選択手段
（５）は、話者スペクトルパラメータと、音声データベ
ースのうちの予め定められた登録スペクトルパラメータ
である学習音声スペクトルパラメータを比較することに
より、最も近い登録話者を選択登録話者として選択し、
写像コードブック生成手段（６）は、第１から第４の処
理を行い、第１の処理は、選択登録話者のスペクトルコ
ードブックを初期写像コードブックとし、第２の処理
は、選択登録話者の学習音声スペクトルパラメータを初
期写像コードブックを用いてベクトル量子化することに
よりベクトルを求め、第３の処理は、話者スペクトルパ
ラメータと第２の処理で求めたベクトルとの間で時間的
な対応付けの処理を行った後、それらの差分ベクトルを
計算し、差分ベクトルに基づいて移動ベクトルを決定
し、第４の処理は、初期写像コードブックを移動ベクト
ルを用いて移動させ、目標写像コードブックとして第２
の記憶手段（１２）に記憶させ、スペクトル写像処理手
段（２２）は、第５から第６の処理を行い、第５の処理
は、入力される文字を音素に変換し、音素に対応する登
録スペクトルパラメータを選択登録話者の音声データベ
ースから読み出し、第６の処理は、第５の処理で読み出
した登録スペクトルパラメータに距離の近いベクトルを
初期写像コードブックから求め、そのベクトルに対応す
る目標写像コードブック内のベクトルを生成し、パラメ
ータ系列生成手段（２４）は、第６の処理で生成したベ
クトルに基づいて音響特徴パラメータとピッチ周波数を
含む時系列データを生成し、音声合成手段（２４）は、
パラメータ生成手段（２４）の生成する時系列データに
基づいて、音声信号を発生する。第２の従来例では、音
声データの登録話者から目標話者への写像を行う場合、
異なる話者間のコードブックの対応関係を学習によって
求めるために、大量の学習データが必要であったり、合
成音声の精度を改善するために複雑な処理を必要として
いた。これに対して、本発明によれば、１単語程度の非
常に少ない学習データで登録話者から目標話者への写像
関数を求めることができ、例えばデイジタル計算機を用
いて実用化することができる。また、上記音声データベ
ースだけを予め格納することにより、発話内容に関係な
く従来例に比較してより高い精度で声質を変換すること
ができる。すなわち、上記音声データベースに格納され
る単語と、声質変換しようとする単語は異なってもよ
く、本発明を、例えば、日本語の単語から英語の単語へ
の声質変換、もしくは、英語の単語から日本語の単語へ
の声質に適用することができる。

【００４８】

【図面の簡単な説明】

【図１】本発明に係る一実施例である写像コードブッ
ク生成装置１００と声質変換音声合成装置２００のブロ
ック図である。

【図２】図１の写像コードブック生成部６によって実
行される写像コードブック生成処理を示すフローチャー
トである。

【図３】ピッチ周波数の変換コードブックを生成する
方法を示す第２の従来例のブロック図である。

【図４】図３の方法で生成されたピッチ周波数の変換
コードブックと同様の方法で生成されたスペクトルパラ
メータの変換コードブックとを用いてベクトル量子化に
よる声質変換法を示すブロック図である。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４…バッファメモリ、５…話者選択部、６…写像コードブック生成部、１０…音声データベース、１１…スペクトルコードブック、２１…キーボード、２２…スペクトル写像処理部、２３…パラメータ系列生成部、２４…音声合成部、２５…スピーカ、１００…写像コードブック生成装置、２００…声質変換音声合成装置。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 9/18 Ｇ１０Ｌ 9/18 Ｅ (56)参考文献特開平９−258779（ＪＰ，Ａ) 特開平６−167990（ＪＰ，Ａ) 特開平４−121791（ＪＰ，Ａ) 特開平１−97997（ＪＰ，Ａ) 特開昭63−125998（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 5/02 G10L 3/00 531 G10L 9/14 G10L 9/18

Claims

(57)【特許請求の範囲】

【請求項１】第１の記憶手段（１０，１１）、特徴抽
出手段（３）、話者選択手段（５）、写像コードブック
生成手段（６）、第２の記憶手段（１２）、スペクトル
写像処理手段（２２）、パラメータ系列生成手段（２
３）、音声合成手段（２４）からなる声質変換音声合成
装置であって、第１の記憶手段（１０，１１）は、登録話者毎の音声デ
ータベース、登録話者毎のスペクトルコードブックを記
憶し、音声データベースは、各音素毎の登録スペクトルパラメ
ータからなり、特徴抽出手段（３）は、入力される目標話者の音声信号
から話者スペクトルパラメータを抽出し、話者選択手段（５）は、話者スペクトルパラメータと、
音声データベースのうちの予め定められた登録スペクト
ルパラメータである学習音声スペクトルパラメータを比
較することにより、最も近い登録話者を選択登録話者と
して選択し、写像コードブック生成手段（６）は、第１から第４の処
理を行い、第１の処理は、選択登録話者のスペクトルコードブック
を初期写像コードブックとし、第２の処理は、選択登録話者の学習音声スペクトルパラ
メータを初期写像コードブックを用いてベクトル量子化
することによりベクトルを求め、第３の処理は、話者スペクトルパラメータと第２の処理
で求めたベクトルとの間で時間的な対応付けの処理を行
った後、それらの差分ベクトルを計算し、差分ベクトル
に基づいて移動ベクトルを決定し、第４の処理は、初期写像コードブックを移動ベクトルを
用いて移動させ、目標写像コードブックとして第２の記
憶手段（１２）に記憶させ、スペクトル写像処理手段（２２）は、第５から第６の処
理を行い、第５の処理は、入力される文字を音素に変換し、音素に
対応する登録スペクトルパラメータを選択登録話者の音
声データベースから読み出し、第６の処理は、第５の処理で読み出した登録スペクトル
パラメータに距離の近いベクトルを初期写像コードブッ
クから求め、そのベクトルに対応する目標写像コードブ
ック内のベクトルを生成し、パラメータ系列生成手段（２４）は、第６の処理で生成
したベクトルに基づいて音響特徴パラメータとピッチ周
波数を含む時系列データを生成し、音声合成手段（２４）は、パラメータ生成手段（２４）
の生成する時系列データに基づいて、音声信号を発生す
る声質変換音声合成装置。