JPH08248994A - 声質変換音声合成装置 - Google Patents

声質変換音声合成装置

Info

Publication number
JPH08248994A
JPH08248994A JP7051039A JP5103995A JPH08248994A JP H08248994 A JPH08248994 A JP H08248994A JP 7051039 A JP7051039 A JP 7051039A JP 5103995 A JP5103995 A JP 5103995A JP H08248994 A JPH08248994 A JP H08248994A
Authority
JP
Japan
Prior art keywords
speaker
voice
codebook
mapping
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7051039A
Other languages
English (en)
Other versions
JP2898568B2 (ja
Inventor
Makoto Hashimoto
誠 橋本
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7051039A priority Critical patent/JP2898568B2/ja
Publication of JPH08248994A publication Critical patent/JPH08248994A/ja
Application granted granted Critical
Publication of JP2898568B2 publication Critical patent/JP2898568B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 異なる話者間のスペクトルの差が大きくなり
すぎないように変換元話者を選択し、少量の学習データ
で学習することにより声質変換することができる声質変
換音声合成装置を提供する。 【構成】 複数の登録話者の音響特徴パラメータを含む
音声データベースを予め記憶する。入力された目標話者
の少なくとも1単語の音声信号に基づいて、声質変換を
すべき目標話者に最も近い話者を、複数の登録話者の中
から選択し、選択された話者の音響空間と目標話者の音
響空間との間の差分を計算することにより、選択された
話者から目標話者への写像コードブックを計算する。入
力された文字列に基づいて、音声データベースに記憶さ
れた選択された話者の音声の音響特徴パラメータを選択
話者のコードブックを用いて量子化して、文字列に対応
する目標話者の音声信号の音響特徴パラメータを生成
し、文字列に対応する目標話者の音声信号を発生して出
力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、声質変換音声合成装置
に関する。
【0002】
【従来の技術】多様な合成音声を生成することのできる
音声合成システムの実現は、合成音声の高品質化や合成
システム自体の普及のためにも非常に重要である。声質
変換も多様な合成音声生成のために必要な技術であり、
これまでにも種々の研究開発がなされてきた。
【0003】例えば、文献1「松本弘ほか,“教師あり
/教師なしスペクトル写像による声質変換”,日本音響
学会誌,Vol.50,No.7,pp.549−55
5,1994年7月」(以下、第1の従来例という。)
においては、声質変換の精度向上と品質の改善を目的と
して、変換音声のスペクトル系列と目標話者のスペクト
ル系列との2乗誤差を最小とする基準で写像を行って学
習し、未学習の部分を補間法により計算することが開示
されている。
【0004】さらに、図3は、文献2「阿部匡伸ほか,
“ベクトル量子化による声質変換”,日本音響学会講演
論文集,2−6−14,昭和62年10月」(以下、第
2の従来例という。)において開示されたピッチ周波数
の変換コードブックを生成する方法を示す第2の従来例
のブロック図であり、図4は、図3の方法で生成された
ピッチ周波数の変換コードブックと同様の方法で生成さ
れたスペクトルパラメータの変換コードブックとを用い
てベクトル量子化による声質変換法を示すブロック図で
ある。この第2の従来例の方法は、話者毎のコードブッ
ク間の対応づけによって話者間の写像をとり、声質変換
を行う方法を用いている。すなわち、大量の学習データ
を用いて予め話者Aから話者Bへの変換コードブックを
作成しておき、これを用いて声質変換を行うものであ
る。変換コードブックを作成するに当たっては、以下の
手順をとる。 (I)クラスタリングされたコードブック間で対応を取
る。 (II)対応するコード間の頻度を用いて写像を行う。
【0005】以下、話者A,B間のピッチ周波数の変換
コードブックを作成する過程を、図3を参照して説明す
る。 (1)話者A,及び話者Bのそれぞれのピッチ周波数の
サンプルデータ30,40を取り込み、それぞれクラス
タリング31,41を行ってピッチ周波数のコードブッ
ク32,42を作成する。同様に、スペクトルパラメー
タもクラスタリングしコードブックを作成する。 (2)ピッチ周波数のコードブック32,42を用い
て、学習データのピッチ周波数をコード化し、すなわち
スカラー量子化33,43する。同様に、スペクトルパ
ラメータもコード化し、すなわちベクトル量子化する。 (3)コード化されたパラメータを用いて、学習単語毎
にDPマッチング(動的計画法によるマッチング処理)
を行い、時間の対応づけ34を行う。 (4)時間的に対応している話者Aのピッチコードと話
者Bのピッチコードからヒストグラム35を作成する。 (5)話者Aのピッチコードに対し、ヒストグラムが最
大となっている話者Bのピッチコードを対応づけて、話
者Aから話者Bへの変換コードブック36を作成する。
なお、スペクトルパラメータのマッピングは、ヒストグ
ラムによる重み付けを行い、文献3「中村ほか,“ベク
トル量子化を用いたスペクトログラムの正規化”,日本
音響学会音声研究会資料,SP87−17,1987
年」に記載された手順に従って、変換コードブック(図
4の36a)を作成する。
【0006】次いで、上記作成された変換コードブック
を用いた第2の従来例の声質変換法を図4に示す。図4
に示すように、まず、話者Aの音声をLPC分析50
し、スペクトルパラメータとピッチパラメータを求め、
これを話者Aのスペクトルパラメータとピッチ周波数の
コードブック51,61を用いてそれぞれベクトル量子
化52及びスカラー量子化62する。さらに、復号化5
3,63するときには、話者Aのコードブック51,6
1の代わりに、上記作成された変換コードブック36,
36aを用いる。これによって、話者Bの音声へ変換さ
れたことになり、この後、音声合成手段である合成フィ
ルタ54を用いて話者Bの音声信号を発生して出力す
る。
【0007】
【発明が解決しようとする課題】しかしながら、第1の
従来例では、異なる話者間のスペクトルの差が比較的大
きなとき、学習処理を実行することがきわめて難しい。
また、第2の従来例では、すべての音声データ毎に異な
る話者間の変換コードブックを作成する必要があるの
で、この場合、大量の学習データを必要とする。すなわ
ち、実用化が難しいという問題点があった。
【0008】本発明の目的は以上の問題点を解決し、話
者間のスペクトルの差が比較的大きくならないように変
換元話者を選択し、従来例に比較して少量の学習データ
で学習することにより声質変換することができる声質変
換音声合成装置を提供することにある。
【0009】
【課題を解決するための手段】本発明に係る請求項1記
載の声質変換音声合成装置は、複数の登録話者の音響特
徴パラメータを含む音声データベースとそのコードブッ
クを予め記憶する記憶手段と、入力された目標話者の少
なくとも1単語の音声信号に基づいて、声質変換をすべ
き目標話者に最も近い話者を、上記複数の登録話者の中
から選択する選択手段と、上記選択手段によって選択さ
れた話者の音響空間と目標話者の音響空間との間の差分
を計算することにより、選択された話者から上記目標話
者への写像コードブックを計算する生成手段と、入力さ
れた音声合成すべき文字列に基づいて、上記音声データ
ベースに記憶された上記選択された話者の音声の音響特
徴パラメータを上記選択された話者のコードブックを用
いて量子化し、上記選択された話者のコードブックと上
記写像コードブックの対応関係に基づいて上記文字列に
対応する目標話者の音声信号の音響特徴パラメータを生
成する写像処理手段と、上記写像処理手段によって生成
された目標話者の音声信号の音響特徴パラメータに基づ
いて、上記文字列に対応する目標話者の音声信号を発生
して出力する音声合成手段とを備えたことを特徴とす
る。
【0010】また、請求項2記載の声質変換音声合成装
置は、請求項1記載の声質変換音声合成装置において、
上記生成手段は、移動ベクトル場平滑化法を用いて、選
択された話者から上記目標話者への写像コードブックを
計算することを特徴とする。
【0011】さらに、請求項3記載の声質変換音声合成
装置は、請求項1又は2記載の声質変換音声合成装置に
おいて、上記音響特徴パラメータは、スペクトルデータ
を含むことを特徴とする。またさらに、請求項4記載の
声質変換音声合成装置は、請求項3記載の声質変換音声
合成装置において、上記音響特徴パラメータはさらに、
ピッチ周波数データを含むことを特徴とする。
【0012】
【作用】以上のように構成された請求項1記載の声質変
換音声合成装置においては、上記選択手段は、入力され
た目標話者の少なくとも1単語の音声信号に基づいて、
声質変換をすべき目標話者に最も近い話者を、上記複数
の登録話者の中から選択し、上記生成手段は、上記選択
手段によって選択された話者の音響空間と目標話者の音
響空間との間の差分を計算することにより、選択された
話者から上記目標話者への写像コードブックを計算す
る。次いで、上記写像処理手段は、入力された音声合成
すべき文字列に基づいて、上記音声データベースに記憶
された上記選択された話者の音声の音響特徴パラメータ
を上記選択された話者のコードブックを用いて量子化
し、上記選択された話者のコードブックと上記写像コー
ドブックの対応関係に基づいて上記文字列に対応する目
標話者の音声信号の音響特徴パラメータを生成する。さ
らに、上記音声合成手段は、上記写像処理手段によって
生成された目標話者の音声信号の音響特徴パラメータに
基づいて、上記文字列に対応する目標話者の音声信号を
発生して出力する。第2の従来例では、音声データの登
録話者から目標話者への写像を行う場合、異なる話者間
のコードブックのすべてのコードの対応関係を学習によ
って補間することなく求めるために、大量の学習データ
が必要であった。これに対して、本発明によれば、1単
語程度の非常に少ない学習データで登録話者から目標話
者への写像関数を求めることができ、例えばデイジタル
計算機を用いて実用化することができる。また、発話内
容に関係なく従来例に比較してより高い精度で声質を変
換することができる。すなわち、声質変換用音声は異な
ってもよく、本発明を、例えば、学習用音声と日本語の
単語から英語の単語への声質変換、もしくは、英語の単
語から日本語の単語への声質変換に適用することができ
る。
【0013】また、請求項2記載の声質変換音声合成装
置においては、上記生成手段は、移動ベクトル場平滑化
法を用いて、選択された話者から上記目標話者への写像
コードブックを計算する。これにより、より簡単にかつ
精度よく声質変換して音声合成することができる。
【0014】さらに、請求項3記載の声質変換音声合成
装置においては、上記音響特徴パラメータは、好ましく
は、スペクトルデータを含む。またさらに、請求項4記
載の声質変換音声合成装置においては、上記音響特徴パ
ラメータはさらに、好ましくは、ピッチ周波数データを
含む。
【0015】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
写像コードブック生成装置100と声質変換音声合成装
置200のブロック図である。この実施例のシステム
は、写像コードブック生成装置100において、話者選
択部5と写像コードブック生成部6とを備えたことを特
徴とし、一方、声質変換音声合成装置200において
は、スペクトル写像処理部22を備えたことを特徴とす
る。この実施例においては、実用的な声質変換システム
を実現するためには学習データを極力少なくするため
に、話者選択と移動ベクトル場平滑化法(VFS:Vect
or Field Smoothing)を用いたスペクトル写像による新
しい声質変換法を開示し、この方法は、少ない学習デー
タでも変換が行えるという特有の効果を有する。なお、
この明細書においては、予め音声データベースを用意し
ておく複数の話者を登録話者とし、変換先の話者を目標
話者とし、複数の登録話者から選ばれた1人の話者を選
択話者と定義する。
【0016】図1に示すように、音声データベースメモ
リ10内の音声データベースと、スペクトルコードブッ
クメモリ11内のスペクトルコードブックとが予め作成
されて記憶される。音声データベースは、複数の登録話
者のピッチ周波数、ケプストラム係数データ、及びパワ
ーデータなどの音響特徴パラメータを含み、スペクトル
コードブックは、複数の登録話者のクラスタリングされ
たケプストラムデータのベクトルをフレーム単位でラベ
リングされてメモリ11内に記憶される。
【0017】目標話者の任意の1単語の発声音声はマイ
クロホン1に入力されてアナログ音声信号に変換され、
A/D変換器2でディジタル音声信号に変換された後、
特徴抽出部3に入力される。このA/D変換器2では、
サンプリング周波数に対応する例えば20ミリ秒である
所定のフレーム間隔でフレーム毎に音声信号データがラ
ベリングされ、以下の処理はフレーム毎に実行される。
特徴抽出部3は、入力された音声信号を例えばケプスト
ラム分析し、30次ケプストラム係数、パワー及びピッ
チ周波数を含む32次元の特徴パラメータを抽出する。
抽出された特徴パラメータの時系列はバッファメモリ4
を介して話者選択部5に入力される。
【0018】話者選択部5は、入力された目標話者のス
ペクトル時系列と、メモリ10内の音声データベースに
登録された各登録話者のスペクトル時系列との互いの継
続長が一致するようにDTW(Dynamic Time Warping:
動的時間整合)法により時間整合した後、目標話者のス
ペクトル時系列と各登録話者のスペクトル時系列との距
離を計算し、2乗誤差が最小となる基準を用いて最も距
離の小さい登録話者を1名だけ選択する。ここで、スペ
クトル時系列はケプストラム時系列に対応する。
【0019】図2は、図1の写像コードブック生成部6
によって実行される写像コードブック生成処理を示すフ
ローチャートである。
【0020】この写像コードブック生成部6では、選択
話者のスペクトルコードブックCsを目標話者の音響空
間に写像して目標話者のスペクトルコードブックCt
変換する。ここで、目標話者の音響空間に写像されたコ
ードブックを、写像コードブックCtと定義する。写像
コードブックCtの生成には移動ベクトル場平滑化法を
用いる。これは、音響空間の話者間の差のベクトルは連
続的に変化するという仮定のもとに、ある話者の音響空
間を他話者の音響空間に写像する方法である。以下に、
その方法の手順を示す。
【0021】まず、ステップS1において、選択話者の
スペクトルコードブックCsをスペクトルコードブック
メモリ11から読み出して、写像コードブックCtの初
期状態とする。次いで、ステップS2で、選択話者の学
習音声スペクトル時系列を写像コードブックCtを用い
てベクトル量子化し、このベクトル量子化後のコード列
と、入力された目標話者の音声スペクトル時系列とをD
TW(Dynamic time warping)法を用いて対応付けの処
理を行う。そして、ステップS3において、自然数m番
目のベクトルCm sと、これに対応づけられた入力スペク
トルxの平均ベクトル/Cm sとの差分ベクトルVmを次
の数1に示すように計算し、これを移動ベクトルVm
する。なお、この明細書において、(Cm s)の上線(バ
ー)を記載することができないため、/Cm sと記す。な
お、数2の右辺の(1/Nm)の/は分数を示す。
【0022】
【数1】Vm=/Cm s−Cm s ここで、
【数2】
【0023】ここで、Nmは選択話者のm番目のベクト
ルCm sに対応付けられた入力スペクトルベクトルの個数
であり、MはベクトルCm sに対応付けられた入力スペク
トル時系列のベクトルの集合である。そして、ステップ
S4では、学習で対応付けが行なわれなかった選択話者
のn番目のベクトルCn sと、その近傍にある対応付けが
行なわれた所定数のコードベクトルの集合の要素Ck s
の間のファジィ級関数μn,kを次の数3を用いて計算す
る。
【0024】
【数3】
【0025】ここで、ma=1/(m−1)である。ま
た、dn,kはベクトルCn SとベクトルCk Sとの間の距離
であり、mは制御パラメータ(ファジネス)であり、K
は対応付けのあったベクトルの集合である。さらに、ス
テップS5では、対応付けされなかったベクトルCn s
移動ベクトルVnを、次の数4を用いて、対応付けが行
なわれたコードベクトルCk sの移動ベクトルVkと上記
ファジィ級関数μn,kを用いて計算し、写像コードブッ
クのすべてのベクトルCsを次の数5に示すごとく移動
ベクトルVnの集合Vを用いて目標話者のベクトルCt
更新してステップS6に進む。
【0026】
【数4】
【数5】Ct=Cs+V
【0027】ステップS6では、DTW法による対応づ
けの時間整合処理のときの距離が収束していなければ、
ステップS2へ戻る。一方、収束していればステップS
7に進む。
【0028】ステップS6までの処理では、学習データ
が少ない場合に異話者間の真の対応関係を表せずに移動
ベクトルの誤差が大きくなるという問題が残る。そこ
で、ステップS7においては、移動ベクトル場平滑化法
(VFS法)を用いて、移動ベクトルに連続性の拘束条
件を入れ、以下に示す3つのステップSS1乃至SS3
からなる平滑化処理を行なって、誤差を吸収させる。 (SS1)写像コードブック内の選択話者のl番目のベ
クトルCl sとその近傍にあるベクトルCk sとの間のファ
ジィ級関数μl,kを計算する。 (SS2)上記ファジィ級関数μl,kを用いて平滑化移
動ベクトルVlを次の数6を用いて計算する。
【0029】
【数6】
【0030】ここで、Nk αは移動ベクトルVkの信頼度
を表し、定数αを持たせた移動ベクトルへの重みとして
いる。ここで、k=lのときファジィ級関数μl,k=1
とする。 (SS3)平滑化された移動ベクトルVlを用いて、写
像コードブックメモリ12内の写像コードブックのすべ
てのベクトルCl sを次の数7に示すごとくベクトルCl t
に更新する。この写像コードブックは、声質変化音声合
成装置200におけるスペクトル写像処理部22で用い
られる。
【0031】
【数7】Cl t=Cl s+V
【0032】次いで、図1の声質変換音声合成装置20
0の構成と動作について説明する。図1に示すように、
目標話者の音声で音声合成したい文字列をキーボード2
1を用いて入力すると、スペクトル写像処理部22は、
文字列に対応する選択話者の音声スペクトルのデータを
音声データベース10から読み出し、その音声スペクト
ルのベクトル列X を、生成された写像コードブック
12を用いてベクトル量子化することにより、以下のご
とくスペクトル写像を行って復号化処理を実行する。
【0033】スペクトル写像処理部22では、選択話者
の音声スペクトルのベクトル列Xp sと、と、その近傍に
ある所定数k個のベクトルCq s(ここで、q=1,2,
…,k)との間の重み付け関数であるファジィ級関数μ
p,qを計算した後、ベクトルCq sに対応付けられた目標
話者のベクトルCq tとファジィ級関数μp,qとに基づい
て、変換後の目標話者のベクトル列Xp tを計算する。そ
して、当該ベクトル列Xp tから、選択話者から目標話者
に写像された音声スペクトル時系列を計算してパラメー
タ系列生成部23に出力する。
【0034】以上の処理での説明では、写像コードブッ
ク生成装置100及び声質変換音声合成装置200にお
いて、スペクトルに関する処理のみについて説明してい
るが、ピッチ周波数について、同様に処理して、写像コ
ードブックを作成して、作成した写像コードブックを用
いて目標話者のピッチ周波数の時系列を計算してパラメ
ータ系列生成部23に出力する。これにとって代わっ
て、ピッチ周波数の処理については、これに限らず、目
標話者と選択話者の間のピッチ周波数の対数値の平均の
差を予め計算しておき、選択話者のピッチ周波数の対数
値にその差を加算することにより、目標話者のピッチ周
波数の時系列を計算してもよい。
【0035】最後に、パラメータ系列生成部23は、入
力されるスペクトル時系列とピッチ周波数の時系列を取
りまとめて内蔵のバッファメモリに一時的に格納した
後、入力された文字列に対応する音声合成のための時系
列データに変換して音声合成部24に出力する。ここ
で、時系列データは、音声合成のためのピッチ、有声/
無声切り換え、振幅及びフィルタ係数のデータを含む。
さらに、音声合成部24は、パルス発生器と雑音発生器
とスイッチと振幅変更型増幅器とフィルタとから構成さ
れ、入力される時系列データに基づいて、発声音声信号
を合成してスピーカ25に出力することにより、上記入
力された文字列に対応する目標話者の合成音声がスピー
カ25から出力される。
【0036】さらに、本発明者は、以上のように構成さ
れたシステムについてシミュレーションを以下のごとく
行った。このシミュレーションでは、音声試料として音
素バランス216単語のうち、学習用に1語「うちあわ
せ」を使用し、評価用に50語を使用した。アナウンサ
ー又はナレーターである男女各4名を登録話者とし、別
の男女各4名を目標話者として評価のためのシミュレー
ションを行なった。予め作成しておく各登録話者のコー
ドブックは、音素バランスされた503文を用いて作成
した。コードブックサイズは512であり、平滑化時の
ファジネスの値は1.1乃至5.0で変化させ、補間時
のファジネスもこれと同じ値に設定した。復号化時のフ
ァジネスは1.5、平滑化時の重み係数αは0.05に
設定し、その処理の近傍数はすべて4とした。また、ス
ペクトルパラメータは30次FFTケプストラムとし、
距離Dの計算には次の数8を用いた。
【0037】
【数8】
【0038】ここで、CEPij sはDTW法による時間
整合処理後の選択話者の第iフレームのj次ケプストラ
ム係数であり、CEPij tは目標話者の第iフレームの
j次ケプストラム係数である。また、frはフレーム数
である。本実施例の方法の基本性能を調べるため、変換
音声と目標話者の音声及び選択話者の音声と目標話者の
音声のケプストラム距離を計算した。ケプストラム距離
の50単語の平均値の結果より、男性と女性の目標話者
ともに、変換音声と目標話者の音声との距離は選択話者
の音声と目標話者の音声との距離よりも小さくなり、本
実施例の方法の有効性が示された。
【0039】次に、聴覚的に本実施例の方法の効果があ
るかどうかを調べるため、目標話者男女各1名に対し
て、公知のABX法による聴取シミュレーションを行な
った。A、Bは、それぞれ目標話者の分析合成音、選択
話者の分析合成音、Xはファジネス5の変換音声又は選
択話者の分析合成音である。変換音声は、50単語のう
ちケプストラム距離の減少比が50単語平均よりも小さ
い音声、大きい音声、同程度の音声を、1サンプルずつ
抽出したものとした。スペクトル写像精度のみを評価す
るために、基本周波数、音韻継続時間、パワーは目標話
者に合わせた。被験者には、Xの音声話者がA,Bどち
らの話者に近いかを強制判定させた。被験者は6名、呈
示回数は1サンプル当たり4回である。評価は、次の数
9に従って判定率CRを求め、この値で比較した。
【0040】
【数9】CR=(Pj/Pall)×100[%]
【0041】ここで、Pjは「Xが目標話者に近いと判
定された回数」であり、Pallは「呈示回数」である。
【0042】この評価結果より、変換音声が目標話者に
近いと判定された割合は、男性の目標話者の場合約67
%であって、女性の目標話者の場合65%である。ま
た、選択話者が目標話者に近いと判定された割合は、男
性の目標話者の場合約18%であって、女性の目標話者
の場合25%であり、両者とも高い割合で変換音声が目
標話者に近いと判定されており、聴覚的にも効果のある
ことが示された。選択話者が目標話者に近いと判定され
た割合が、目標話者が男性の場合より女性の場合の方が
高いのは、選択話者と目標話者との距離が男性の目標話
者の場合より近かったためと考えられる。このことは、
登録話者の中に存在する目標話者に近い話者が話者選択
によって適切に選ばれたことを示している。また、変換
音声が目標話者に近いと判定された割合が男性の目標話
者の方が高いのは、VFS法の平滑化処理の効果が女性
の目標話者よりも大きいためと考えられる。以上から、
選択話者と目標話者の距離が大きいほどVFS法の平滑
化処理の効果が増し、距離が小さいほど話者選択の効果
が増すという相乗効果があるといえる。
【0043】以上説明したように、少ない学習データで
声質変換を実現するため、話者選択と移動ベクトル場平
滑化法によって選択話者から目標話者へのスペクトル写
像を行なうことによる声質変換法を開示している。スペ
クトル距離および聴取シミュレーションによる評価にお
いて、1単語のみで学習させ、50単語で評価を行なっ
た結果、変換音声と目標話者音声とのスペクトル距離
は、選択話者音声と目標話者音声との距離より小さくな
り、また、聴取シミュレーションでも良好な結果が得ら
れ、本実施例の方法の有効性が示された。
【0044】第2の従来例では、音声データの登録話者
から目標話者への写像を行う場合、異なる話者間のコー
ドブックの対応関係を学習によって求めるために、大量
の学習データが必要であったり、合成音声の精度を改善
するために複雑な処理を必要としていた。これに対し
て、本発明に係る本実施例によれば、1単語程度の非常
に少ない学習データで登録話者から目標話者への写像関
数を求めることができ、例えばデイジタル計算機を用い
て実用化することができる。また、音声データベースだ
けを予め格納することにより、発話内容に関係なく従来
例に比較してより高い精度で声質を変換することができ
る。すなわち、音声データベースに格納される単語と、
声質変換しようとする単語は異なってもよく、本実施例
を、例えば、日本語の単語から英語の単語への声質変
換、もしくは、英語の単語から日本語の単語への声質に
適用することができる。
【0045】なお、以上の実施例において、A/D変換
器2と、特徴抽出部3と、話者選択部5と、写像コード
ブック生成部6と、スペクトル写像処理部22と、パラ
メータ系列生成部23は、例えばディジタル計算機で構
成される。
【0046】以上の実施例においては、スペクトルデー
タとピッチ周波数について、話者選択、写像コードブッ
ク生成、及びスペクトル写像処理を行っているが、同様
に、他の音響特徴パラメータについて処理を行ってもよ
い。以上の実施例において、マイクロホン1に入力する
単語は少なくとも1つの単語でよい。また、音声データ
ベースメモリ10に予め記憶する音声データベースは、
複数の登録話者の音声データベースのデータでよい。
【0047】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の声質変換音声合成装置によれば、複数の登録話
者の少なくとも1単語の音声信号の音響特徴パラメータ
を含む音声データベースを予め記憶する記憶手段と、入
力された目標話者の少なくとも1単語の音声信号に基づ
いて、声質変換をすべき目標話者に最も近い話者を、上
記複数の登録話者の中から選択する選択手段と、上記選
択手段によって選択された話者の音響空間と目標話者の
音響空間との間の差分を計算することにより、選択され
た話者から上記目標話者への写像コードブックを計算す
る生成手段と、入力された音声合成すべき文字列に基づ
いて、上記音声データベースに記憶された上記選択され
た話者の音声の音響特徴パラメータを上記選択された話
者のコードブックを用いて量子化し、上記選択された話
者のコードブックと上記写像コードブックの対応関係に
基づいて上記文字列に対応する目標話者の音声信号の音
響特徴パラメータを生成する写像処理手段と、上記写像
処理手段によって生成された目標話者の音声信号の音響
特徴パラメータに基づいて、上記文字列に対応する目標
話者の音声信号を発生して出力する音声合成手段とを備
える。第2の従来例では、音声データの登録話者から目
標話者への写像を行う場合、異なる話者間のコードブッ
クの対応関係を学習によって求めるために、大量の学習
データが必要であったり、合成音声の精度を改善するた
めに複雑な処理を必要としていた。これに対して、本発
明によれば、1単語程度の非常に少ない学習データで登
録話者から目標話者への写像関数を求めることができ、
例えばデイジタル計算機を用いて実用化することができ
る。また、上記音声データベースだけを予め格納するこ
とにより、発話内容に関係なく従来例に比較してより高
い精度で声質を変換することができる。すなわち、上記
音声データベースに格納される単語と、声質変換しよう
とする単語は異なってもよく、本発明を、例えば、日本
語の単語から英語の単語への声質変換、もしくは、英語
の単語から日本語の単語への声質に適用することができ
る。
【0048】また、請求項2記載の声質変換音声合成装
置においては、上記生成手段は、移動ベクトル場平滑化
法を用いて、選択された話者から上記目標話者への写像
コードブックを計算する。これにより、より簡単にかつ
精度よく声質変換して音声合成することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である写像コードブッ
ク生成装置100と声質変換音声合成装置200のブロ
ック図である。
【図2】 図1の写像コードブック生成部6によって実
行される写像コードブック生成処理を示すフローチャー
トである。
【図3】 ピッチ周波数の変換コードブックを生成する
方法を示す第2の従来例のブロック図である。
【図4】 図3の方法で生成されたピッチ周波数の変換
コードブックと同様の方法で生成されたスペクトルパラ
メータの変換コードブックとを用いてベクトル量子化に
よる声質変換法を示すブロック図である。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…話者選択部、 6…写像コードブック生成部、 10…音声データベース、 11…スペクトルコードブック、 21…キーボード、 22…スペクトル写像処理部、 23…パラメータ系列生成部、 24…音声合成部、 25…スピーカ、 100…写像コードブック生成装置、 200…声質変換音声合成装置。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の登録話者の音響特徴パラメータを
    含む音声データベースとそのコードブックを予め記憶す
    る記憶手段と、 入力された目標話者の少なくとも1単語の音声信号に基
    づいて、声質変換をすべき目標話者に最も近い話者を、
    上記複数の登録話者の中から選択する選択手段と、 上記選択手段によって選択された話者の音響空間と目標
    話者の音響空間との間の差分を計算することにより、選
    択された話者から上記目標話者への写像コードブックを
    計算する生成手段と、 入力された音声合成すべき文字列に基づいて、上記音声
    データベースに記憶された上記選択された話者の音声の
    音響特徴パラメータを上記選択された話者のコードブッ
    クを用いて量子化し、上記選択された話者のコードブッ
    クと上記写像コードブックの対応関係に基づいて上記文
    字列に対応する目標話者の音声信号の音響特徴パラメー
    タを生成する写像処理手段と、 上記写像処理手段によって生成された目標話者の音声信
    号の音響特徴パラメータに基づいて、上記文字列に対応
    する目標話者の音声信号を発生して出力する音声合成手
    段とを備えたことを特徴とする声質変換音声合成装置。
  2. 【請求項2】 上記生成手段は、移動ベクトル場平滑化
    法を用いて、選択された話者から上記目標話者への写像
    コードブックを計算することを特徴とする請求項1記載
    の声質変換音声合成装置。
  3. 【請求項3】 上記音響特徴パラメータは、スペクトル
    データを含むことを特徴とする請求項1又は2記載の声
    質変換音声合成装置。
  4. 【請求項4】 上記音響特徴パラメータはさらに、ピッ
    チ周波数データを含むことを特徴とする請求項3記載の
    声質変換音声合成装置。
JP7051039A 1995-03-10 1995-03-10 声質変換音声合成装置 Expired - Fee Related JP2898568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Publications (2)

Publication Number Publication Date
JPH08248994A true JPH08248994A (ja) 1996-09-27
JP2898568B2 JP2898568B2 (ja) 1999-06-02

Family

ID=12875668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7051039A Expired - Fee Related JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Country Status (1)

Country Link
JP (1) JP2898568B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209400A (ja) * 2000-01-24 2001-08-03 Denso Corp 音声合成装置及び音声案内システム
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
WO2010137385A1 (ja) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
CN105280177A (zh) * 2014-07-14 2016-01-27 株式会社东芝 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和***
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209400A (ja) * 2000-01-24 2001-08-03 Denso Corp 音声合成装置及び音声案内システム
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JPWO2005109399A1 (ja) * 2004-05-11 2007-08-02 松下電器産業株式会社 音声合成装置および方法
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JPWO2006040908A1 (ja) * 2004-10-13 2008-05-15 松下電器産業株式会社 音声合成装置及び音声合成方法
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
CN102341842A (zh) * 2009-05-28 2012-02-01 国际商业机器公司 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序
WO2010137385A1 (ja) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
US8744853B2 (en) 2009-05-28 2014-06-03 International Business Machines Corporation Speaker-adaptive synthesized voice
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
JP2013171196A (ja) * 2012-02-21 2013-09-02 Toshiba Corp 音声合成装置、方法およびプログラム
US9135910B2 (en) 2012-02-21 2015-09-15 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
CN105280177A (zh) * 2014-07-14 2016-01-27 株式会社东芝 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
JP2016020972A (ja) * 2014-07-14 2016-02-04 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US10347237B2 (en) 2014-07-14 2019-07-09 Kabushiki Kaisha Toshiba Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和***
CN105741832B (zh) * 2016-01-27 2020-01-07 广东外语外贸大学 一种基于深度学习的口语评测方法和***
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP2898568B2 (ja) 1999-06-02

Similar Documents

Publication Publication Date Title
US7035791B2 (en) Feature-domain concatenative speech synthesis
US5327521A (en) Speech transformation system
EP0458859B1 (en) Text to speech synthesis system and method using context dependent vowell allophones
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2733955B2 (ja) 適応型音声認識装置
US5165008A (en) Speech synthesis using perceptual linear prediction parameters
Airaksinen et al. A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis
CN109817197B (zh) 歌声生成方法、装置、计算机设备和存储介质
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US5307442A (en) Method and apparatus for speaker individuality conversion
JP3189598B2 (ja) 信号合成方法および信号合成装置
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
CN112349289A (zh) 一种语音识别方法、装置、设备以及存储介质
Lee Statistical approach for voice personality transformation
JP2898568B2 (ja) 声質変換音声合成装置
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
Lee MLP-based phone boundary refining for a TTS database
JPH0772900A (ja) 音声合成の感情付与方法
JP2912579B2 (ja) 声質変換音声合成装置
JP3281266B2 (ja) 音声合成方法及び装置
JP2975586B2 (ja) 音声合成システム
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees