JP2898568B2 - 声質変換音声合成装置 - Google Patents

声質変換音声合成装置

Info

Publication number
JP2898568B2
JP2898568B2 JP7051039A JP5103995A JP2898568B2 JP 2898568 B2 JP2898568 B2 JP 2898568B2 JP 7051039 A JP7051039 A JP 7051039A JP 5103995 A JP5103995 A JP 5103995A JP 2898568 B2 JP2898568 B2 JP 2898568B2
Authority
JP
Japan
Prior art keywords
speaker
vector
spectrum
codebook
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7051039A
Other languages
English (en)
Other versions
JPH08248994A (ja
Inventor
誠 橋本
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP7051039A priority Critical patent/JP2898568B2/ja
Publication of JPH08248994A publication Critical patent/JPH08248994A/ja
Application granted granted Critical
Publication of JP2898568B2 publication Critical patent/JP2898568B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、声質変換音声合成装置
に関する。
【0002】
【従来の技術】多様な合成音声を生成することのできる
音声合成システムの実現は、合成音声の高品質化や合成
システム自体の普及のためにも非常に重要である。声質
変換も多様な合成音声生成のために必要な技術であり、
これまでにも種々の研究開発がなされてきた。
【0003】例えば、文献1「松本弘ほか,“教師あり
/教師なしスペクトル写像による声質変換”,日本音響
学会誌,Vol.50,No.7,pp.549−55
5,1994年7月」(以下、第1の従来例という。)
においては、声質変換の精度向上と品質の改善を目的と
して、変換音声のスペクトル系列と目標話者のスペクト
ル系列との2乗誤差を最小とする基準で写像を行って学
習し、未学習の部分を補間法により計算することが開示
されている。
【0004】さらに、図3は、文献2「阿部匡伸ほか,
“ベクトル量子化による声質変換”,日本音響学会講演
論文集,2−6−14,昭和62年10月」(以下、第
2の従来例という。)において開示されたピッチ周波数
の変換コードブックを生成する方法を示す第2の従来例
のブロック図であり、図4は、図3の方法で生成された
ピッチ周波数の変換コードブックと同様の方法で生成さ
れたスペクトルパラメータの変換コードブックとを用い
てベクトル量子化による声質変換法を示すブロック図で
ある。この第2の従来例の方法は、話者毎のコードブッ
ク間の対応づけによって話者間の写像をとり、声質変換
を行う方法を用いている。すなわち、大量の学習データ
を用いて予め話者Aから話者Bへの変換コードブックを
作成しておき、これを用いて声質変換を行うものであ
る。変換コードブックを作成するに当たっては、以下の
手順をとる。 (I)クラスタリングされたコードブック間で対応を取
る。 (II)対応するコード間の頻度を用いて写像を行う。
【0005】以下、話者A,B間のピッチ周波数の変換
コードブックを作成する過程を、図3を参照して説明す
る。 (1)話者A,及び話者Bのそれぞれのピッチ周波数の
サンプルデータ30,40を取り込み、それぞれクラス
タリング31,41を行ってピッチ周波数のコードブッ
ク32,42を作成する。同様に、スペクトルパラメー
タもクラスタリングしコードブックを作成する。 (2)ピッチ周波数のコードブック32,42を用い
て、学習データのピッチ周波数をコード化し、すなわち
スカラー量子化33,43する。同様に、スペクトルパ
ラメータもコード化し、すなわちベクトル量子化する。 (3)コード化されたパラメータを用いて、学習単語毎
にDPマッチング(動的計画法によるマッチング処理)
を行い、時間の対応づけ34を行う。 (4)時間的に対応している話者Aのピッチコードと話
者Bのピッチコードからヒストグラム35を作成する。 (5)話者Aのピッチコードに対し、ヒストグラムが最
大となっている話者Bのピッチコードを対応づけて、話
者Aから話者Bへの変換コードブック36を作成する。
なお、スペクトルパラメータのマッピングは、ヒストグ
ラムによる重み付けを行い、文献3「中村ほか,“ベク
トル量子化を用いたスペクトログラムの正規化”,日本
音響学会音声研究会資料,SP87−17,1987
年」に記載された手順に従って、変換コードブック(図
4の36a)を作成する。
【0006】次いで、上記作成された変換コードブック
を用いた第2の従来例の声質変換法を図4に示す。図4
に示すように、まず、話者Aの音声をLPC分析50
し、スペクトルパラメータとピッチパラメータを求め、
これを話者Aのスペクトルパラメータとピッチ周波数の
コードブック51,61を用いてそれぞれベクトル量子
化52及びスカラー量子化62する。さらに、復号化5
3,63するときには、話者Aのコードブック51,6
1の代わりに、上記作成された変換コードブック36,
36aを用いる。これによって、話者Bの音声へ変換さ
れたことになり、この後、音声合成手段である合成フィ
ルタ54を用いて話者Bの音声信号を発生して出力す
る。
【0007】
【発明が解決しようとする課題】しかしながら、第1の
従来例では、異なる話者間のスペクトルの差が比較的大
きなとき、学習処理を実行することがきわめて難しい。
また、第2の従来例では、すべての音声データ毎に異な
る話者間の変換コードブックを作成する必要があるの
で、この場合、大量の学習データを必要とする。すなわ
ち、実用化が難しいという問題点があった。
【0008】本発明の目的は以上の問題点を解決し、話
者間のスペクトルの差が比較的大きくならないように変
換元話者を選択し、従来例に比較して少量の学習データ
で学習することにより声質変換することができる声質変
換音声合成装置を提供することにある。
【0009】
【課題を解決するための手段】本発明に係る声質変換音
声合成装置は、第1の記憶手段(10,11)、特徴抽
出手段(3)、話者選択手段(5)、写像コードブック
生成手段(6)、第2の記憶手段(12)、スペクトル
写像処理手段(22)、パラメータ系列生成手段(2
3)、音声合成手段(24)からなる声質変換音声合成
装置であって、第1の記憶手段(10,11)は、登録
話者毎の音声データベース、登録話者毎のスペクトルコ
ードブックを記憶し、音声データベースは、各音素毎の
登録スペクトルパラメータからなり、特徴抽出手段
(3)は、入力される目標話者の音声信号から話者スペ
クトルパラメータを抽出し、話者選択手段(5)は、話
者スペクトルパラメータと、音声データベースのうちの
予め定められた登録スペクトルパラメータである学習音
声スペクトルパラメータを比較することにより、最も近
い登録話者を選択登録話者として選択し、写像コードブ
ック生成手段(6)は、第1から第4の処理を行い、第
1の処理は、選択登録話者のスペクトルコードブックを
初期写像コードブックとし、第2の処理は、選択登録話
者の学習音声スペクトルパラメータを初期写像コードブ
ックを用いてベクトル量子化することによりベクトルを
求め、第3の処理は、話者スペクトルパラメータと第2
の処理で求めたベクトルとの間で時間的な対応付けの処
理を行った後、それらの差分ベクトルを計算し、差分ベ
クトルに基づいて移動ベクトルを決定し、第4の処理
は、初期写像コードブックを移動ベクトルを用いて移動
させ、目標写像コードブックとして第2の記憶手段(1
2)に記憶させ、スペクトル写像処理手段(22)は、
第5から第6の処理を行い、第5の処理は、入力される
文字を音素に変換し、音素に対応する登録スペクトルパ
ラメータを選択登録話者の音声データベースから読み出
し、第6の処理は、第5の処理で読み出した登録スペク
トルパラメータに距離の近いベクトルを初期写像コード
ブックから求め、そのベクトルに対応する目標写像コー
ドブック内のベクトルを生成し、パラメータ系列生成手
段(24)は、第6の処理で生成したベクトルに基づい
て音響特徴パラメータとピッチ周波数を含む時系列デー
タを生成し、音声合成手段(24)は、パラメータ生成
手段(24)の生成する時系列データに基づいて、音声
信号を発生することを特徴とする。
【0010】
【0011】
【0012】
【作用】以上のように構成された声質変換音声合成装置
においては、第1の記憶手段(10,11)は、登録話
者毎の音声データベース、登録話者毎のスペクトルコー
ドブックを記憶し、音声データベースは、各音素毎の登
録スペクトルパラメータからなる。特徴抽出手段(3)
は、入力される目標話者の音声信号から話者スペクトル
パラメータを抽出し、話者選択手段(5)は、話者スペ
クトルパラメータと、音声データベースのうちの予め定
められた登録スペクトルパラメータである学習音声スペ
クトルパラメータを比較することにより、最も近い登録
話者を選択登録話者として選択する。次いで、写像コー
ドブック生成手段(6)は、第1から第4の処理を行
い、ここで、第1の処理は、選択登録話者のスペクトル
コードブックを初期写像コードブックとし、第2の処理
は、選択登録話者の学習音声スペクトルパラメータを初
期写像コードブックを用いてベクトル量子化することに
よりベクトルを求め、第3の処理は、話者スペクトルパ
ラメータと第2の処理で求めたベクトルとの間で時間的
な対応付けの処理を行った後、それらの差分ベクトルを
計算し、差分ベクトルに基づいて移動ベクトルを決定
し、第4の処理は、初期写像コードブックを移動ベクト
ルを用いて移動させ、目標写像コードブックとして第2
の記憶手段(12)に記憶させる。そして、スペクトル
写像処理手段(22)は、第5から第6の処理を行い、
ここで、第5の処理は、入力される文字を音素に変換
し、音素に対応する登録スペクトルパラメータを選択登
録話者の音声データベースから読み出し、第6の処理
は、第5の処理で読み出した登録スペクトルパラメータ
に距離の近いベクトルを初期写像コードブックから求
め、そのベクトルに対応する目標写像コードブック内の
ベクトルを生成する。さらに、パラメータ系列生成手段
(24)は、第6の処理で生成したベクトルに基づいて
音響特徴パラメータとピッチ周波数を含む時系列データ
を生成し、音声合成手段(24)は、パラメータ生成手
段(24)の生成する時系列データに基づいて、音声信
号を発生する。
【0013】
【0014】
【0015】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
写像コードブック生成装置100と声質変換音声合成装
置200のブロック図である。この実施例のシステム
は、写像コードブック生成装置100において、話者選
択部5と写像コードブック生成部6とを備えたことを特
徴とし、一方、声質変換音声合成装置200において
は、スペクトル写像処理部22を備えたことを特徴とす
る。この実施例においては、実用的な声質変換システム
を実現するためには学習データを極力少なくするため
に、話者選択と移動ベクトル場平滑化法(VFS:Vect
or Field Smoothing)を用いたスペクトル写像による新
しい声質変換法を開示し、この方法は、少ない学習デー
タでも変換が行えるという特有の効果を有する。なお、
この明細書においては、予め音声データベースを用意し
ておく複数の話者を登録話者とし、変換先の話者を目標
話者とし、複数の登録話者から選ばれた1人の話者を選
択話者と定義する。
【0016】図1に示すように、音声データベースメモ
リ10内の音声データベースと、スペクトルコードブッ
クメモリ11内のスペクトルコードブックとが予め作成
されて記憶される。音声データベースは、複数の登録話
者のピッチ周波数、ケプストラム係数データ、及びパワ
ーデータなどの音響特徴パラメータを含み、スペクトル
コードブックは、複数の登録話者のクラスタリングされ
たケプストラムデータのベクトルをフレーム単位でラベ
リングされてメモリ11内に記憶される。
【0017】目標話者の任意の1単語の発声音声はマイ
クロホン1に入力されてアナログ音声信号に変換され、
A/D変換器2でディジタル音声信号に変換された後、
特徴抽出部3に入力される。このA/D変換器2では、
サンプリング周波数に対応する例えば20ミリ秒である
所定のフレーム間隔でフレーム毎に音声信号データがラ
ベリングされ、以下の処理はフレーム毎に実行される。
特徴抽出部3は、入力された音声信号を例えばケプスト
ラム分析し、30次ケプストラム係数、パワー及びピッ
チ周波数を含む32次元の特徴パラメータを抽出する。
抽出された特徴パラメータの時系列はバッファメモリ4
を介して話者選択部5に入力される。
【0018】話者選択部5は、入力された目標話者のス
ペクトル時系列と、メモリ10内の音声データベースに
登録された各登録話者のスペクトル時系列との互いの継
続長が一致するようにDTW(Dynamic Time Warping:
動的時間整合)法により時間整合した後、目標話者のス
ペクトル時系列と各登録話者のスペクトル時系列との距
離を計算し、2乗誤差が最小となる基準を用いて最も距
離の小さい登録話者を1名だけ選択する。ここで、スペ
クトル時系列はケプストラム時系列に対応する。
【0019】図2は、図1の写像コードブック生成部6
によって実行される写像コードブック生成処理を示すフ
ローチャートである。
【0020】この写像コードブック生成部6では、選択
話者のスペクトルコードブックCsを目標話者の音響空
間に写像して目標話者のスペクトルコードブックCt
変換する。ここで、目標話者の音響空間に写像されたコ
ードブックを、写像コードブックCtと定義する。写像
コードブックCtの生成には移動ベクトル場平滑化法を
用いる。これは、音響空間の話者間の差のベクトルは連
続的に変化するという仮定のもとに、ある話者の音響空
間を他話者の音響空間に写像する方法である。以下に、
その方法の手順を示す。
【0021】まず、ステップS1において、選択話者の
スペクトルコードブックCsをスペクトルコードブック
メモリ11から読み出して、写像コードブックCtの初
期状態とする。次いで、ステップS2で、選択話者の学
習音声スペクトル時系列を写像コードブックCtを用い
てベクトル量子化し、このベクトル量子化後のコード列
と、入力された目標話者の音声スペクトル時系列とをD
TW(Dynamic time warping)法を用いて対応付けの処
理を行う。そして、ステップS3において、自然数m番
目のベクトルCm sと、これに対応づけられた入力スペク
トルxの平均ベクトル/Cm sとの差分ベクトルVmを次
の数1に示すように計算し、これを移動ベクトルVm
する。なお、この明細書において、(Cm s)の上線(バ
ー)を記載することができないため、/Cm sと記す。な
お、数2の右辺の(1/Nm)の/は分数を示す。
【0022】
【数1】Vm=/Cm s−Cm s ここで、
【数2】
【0023】ここで、Nmは選択話者のm番目のベクト
ルCm sに対応付けられた入力スペクトルベクトルの個数
であり、MはベクトルCm sに対応付けられた入力スペク
トル時系列のベクトルの集合である。そして、ステップ
S4では、学習で対応付けが行なわれなかった選択話者
のn番目のベクトルCn sと、その近傍にある対応付けが
行なわれた所定数のコードベクトルの集合の要素Ck s
の間のファジィ級関数μn,kを次の数3を用いて計算す
る。
【0024】
【数3】
【0025】ここで、ma=1/(m−1)である。ま
た、dn,kはベクトルCn SとベクトルCk Sとの間の距離
であり、mは制御パラメータ(ファジネス)であり、K
は対応付けのあったベクトルの集合である。さらに、ス
テップS5では、対応付けされなかったベクトルCn s
移動ベクトルVnを、次の数4を用いて、対応付けが行
なわれたコードベクトルCk sの移動ベクトルVkと上記
ファジィ級関数μn,kを用いて計算し、写像コードブッ
クのすべてのベクトルCsを次の数5に示すごとく移動
ベクトルVnの集合Vを用いて目標話者のベクトルCt
更新してステップS6に進む。
【0026】
【数4】
【数5】Ct=Cs+V
【0027】ステップS6では、DTW法による対応づ
けの時間整合処理のときの距離が収束していなければ、
ステップS2へ戻る。一方、収束していればステップS
7に進む。
【0028】ステップS6までの処理では、学習データ
が少ない場合に異話者間の真の対応関係を表せずに移動
ベクトルの誤差が大きくなるという問題が残る。そこ
で、ステップS7においては、移動ベクトル場平滑化法
(VFS法)を用いて、移動ベクトルに連続性の拘束条
件を入れ、以下に示す3つのステップSS1乃至SS3
からなる平滑化処理を行なって、誤差を吸収させる。 (SS1)写像コードブック内の選択話者のl番目のベ
クトルCl sとその近傍にあるベクトルCk sとの間のファ
ジィ級関数μl,kを計算する。 (SS2)上記ファジィ級関数μl,kを用いて平滑化移
動ベクトルVlを次の数6を用いて計算する。
【0029】
【数6】
【0030】ここで、Nk αは移動ベクトルVkの信頼度
を表し、定数αを持たせた移動ベクトルへの重みとして
いる。ここで、k=lのときファジィ級関数μl,k=1
とする。 (SS3)平滑化された移動ベクトルVlを用いて、写
像コードブックメモリ12内の写像コードブックのすべ
てのベクトルCl sを次の数7に示すごとくベクトルCl t
に更新する。この写像コードブックは、声質変化音声合
成装置200におけるスペクトル写像処理部22で用い
られる。
【0031】
【数7】Cl t=Cl s+V
【0032】次いで、図1の声質変換音声合成装置20
0の構成と動作について説明する。図1に示すように、
目標話者の音声で音声合成したい文字列をキーボード2
1を用いて入力すると、スペクトル写像処理部22は、
文字列に対応する選択話者の音声スペクトルのデータを
音声データベース10から読み出し、その音声スペクト
ルのベクトル列X を、生成された写像コードブック
12を用いてベクトル量子化することにより、以下のご
とくスペクトル写像を行って復号化処理を実行する。
【0033】スペクトル写像処理部22では、選択話者
の音声スペクトルのベクトル列Xp sと、その近傍にある
所定数k個のベクトルCq s(ここで、q=1,2,…,
k)との間の重み付け関数であるファジィ級関数μp,q
を計算した後、ベクトルCq sに対応付けられた目標話者
のベクトルCq tとファジィ級関数μp,qとに基づいて、
変換後の目標話者のベクトル列Xp tを計算する。そし
て、当該ベクトル列Xp tから、選択話者から目標話者に
写像された音声スペクトル時系列を計算してパラメータ
系列生成部23に出力する。
【0034】以上の処理での説明では、写像コードブッ
ク生成装置100及び声質変換音声合成装置200にお
いて、スペクトルに関する処理のみについて説明してい
るが、ピッチ周波数について、同様に処理して、写像コ
ードブックを作成して、作成した写像コードブックを用
いて目標話者のピッチ周波数の時系列を計算してパラメ
ータ系列生成部23に出力する。これにとって代わっ
て、ピッチ周波数の処理については、これに限らず、目
標話者と選択話者の間のピッチ周波数の対数値の平均の
差を予め計算しておき、選択話者のピッチ周波数の対数
値にその差を加算することにより、目標話者のピッチ周
波数の時系列を計算してもよい。
【0035】最後に、パラメータ系列生成部23は、入
力されるスペクトル時系列とピッチ周波数の時系列を取
りまとめて内蔵のバッファメモリに一時的に格納した
後、入力された文字列に対応する音声合成のための時系
列データに変換して音声合成部24に出力する。ここ
で、時系列データは、音声合成のためのピッチ、有声/
無声切り換え、振幅及びフィルタ係数のデータを含む。
さらに、音声合成部24は、パルス発生器と雑音発生器
とスイッチと振幅変更型増幅器とフィルタとから構成さ
れ、入力される時系列データに基づいて、発声音声信号
を合成してスピーカ25に出力することにより、上記入
力された文字列に対応する目標話者の合成音声がスピー
カ25から出力される。
【0036】さらに、本発明者は、以上のように構成さ
れたシステムについてシミュレーションを以下のごとく
行った。このシミュレーションでは、音声試料として音
素バランス216単語のうち、学習用に1語「うちあわ
せ」を使用し、評価用に50語を使用した。アナウンサ
ー又はナレーターである男女各4名を登録話者とし、別
の男女各4名を目標話者として評価のためのシミュレー
ションを行なった。予め作成しておく各登録話者のコー
ドブックは、音素バランスされた503文を用いて作成
した。コードブックサイズは512であり、平滑化時の
ファジネスの値は1.1乃至5.0で変化させ、補間時
のファジネスもこれと同じ値に設定した。復号化時のフ
ァジネスは1.5、平滑化時の重み係数αは0.05に
設定し、その処理の近傍数はすべて4とした。また、ス
ペクトルパラメータは30次FFTケプストラムとし、
距離Dの計算には次の数8を用いた。
【0037】
【数8】
【0038】ここで、CEPij sはDTW法による時間
整合処理後の選択話者の第iフレームのj次ケプストラ
ム係数であり、CEPij tは目標話者の第iフレームの
j次ケプストラム係数である。また、frはフレーム数
である。本実施例の方法の基本性能を調べるため、変換
音声と目標話者の音声及び選択話者の音声と目標話者の
音声のケプストラム距離を計算した。ケプストラム距離
の50単語の平均値の結果より、男性と女性の目標話者
ともに、変換音声と目標話者の音声との距離は選択話者
の音声と目標話者の音声との距離よりも小さくなり、本
実施例の方法の有効性が示された。
【0039】次に、聴覚的に本実施例の方法の効果があ
るかどうかを調べるため、目標話者男女各1名に対し
て、公知のABX法による聴取シミュレーションを行な
った。A、Bは、それぞれ目標話者の分析合成音、選択
話者の分析合成音、Xはファジネス5の変換音声又は選
択話者の分析合成音である。変換音声は、50単語のう
ちケプストラム距離の減少比が50単語平均よりも小さ
い音声、大きい音声、同程度の音声を、1サンプルずつ
抽出したものとした。スペクトル写像精度のみを評価す
るために、基本周波数、音韻継続時間、パワーは目標話
者に合わせた。被験者には、Xの音声話者がA,Bどち
らの話者に近いかを強制判定させた。被験者は6名、呈
示回数は1サンプル当たり4回である。評価は、次の数
9に従って判定率CRを求め、この値で比較した。
【0040】
【数9】CR=(Pj/Pall)×100[%]
【0041】ここで、Pjは「Xが目標話者に近いと判
定された回数」であり、Pallは「呈示回数」である。
【0042】この評価結果より、変換音声が目標話者に
近いと判定された割合は、男性の目標話者の場合約67
%であって、女性の目標話者の場合65%である。ま
た、選択話者が目標話者に近いと判定された割合は、男
性の目標話者の場合約18%であって、女性の目標話者
の場合25%であり、両者とも高い割合で変換音声が目
標話者に近いと判定されており、聴覚的にも効果のある
ことが示された。選択話者が目標話者に近いと判定され
た割合が、目標話者が男性の場合より女性の場合の方が
高いのは、選択話者と目標話者との距離が男性の目標話
者の場合より近かったためと考えられる。このことは、
登録話者の中に存在する目標話者に近い話者が話者選択
によって適切に選ばれたことを示している。また、変換
音声が目標話者に近いと判定された割合が男性の目標話
者の方が高いのは、VFS法の平滑化処理の効果が女性
の目標話者よりも大きいためと考えられる。以上から、
選択話者と目標話者の距離が大きいほどVFS法の平滑
化処理の効果が増し、距離が小さいほど話者選択の効果
が増すという相乗効果があるといえる。
【0043】以上説明したように、少ない学習データで
声質変換を実現するため、話者選択と移動ベクトル場平
滑化法によって選択話者から目標話者へのスペクトル写
像を行なうことによる声質変換法を開示している。スペ
クトル距離および聴取シミュレーションによる評価にお
いて、1単語のみで学習させ、50単語で評価を行なっ
た結果、変換音声と目標話者音声とのスペクトル距離
は、選択話者音声と目標話者音声との距離より小さくな
り、また、聴取シミュレーションでも良好な結果が得ら
れ、本実施例の方法の有効性が示された。
【0044】第2の従来例では、音声データの登録話者
から目標話者への写像を行う場合、異なる話者間のコー
ドブックの対応関係を学習によって求めるために、大量
の学習データが必要であったり、合成音声の精度を改善
するために複雑な処理を必要としていた。これに対し
て、本発明に係る本実施例によれば、1単語程度の非常
に少ない学習データで登録話者から目標話者への写像関
数を求めることができ、例えばデイジタル計算機を用い
て実用化することができる。また、音声データベースだ
けを予め格納することにより、発話内容に関係なく従来
例に比較してより高い精度で声質を変換することができ
る。すなわち、音声データベースに格納される単語と、
声質変換しようとする単語は異なってもよく、本実施例
を、例えば、日本語の単語から英語の単語への声質変
換、もしくは、英語の単語から日本語の単語への声質に
適用することができる。
【0045】なお、以上の実施例において、A/D変換
器2と、特徴抽出部3と、話者選択部5と、写像コード
ブック生成部6と、スペクトル写像処理部22と、パラ
メータ系列生成部23は、例えばディジタル計算機で構
成される。
【0046】以上の実施例においては、スペクトルデー
タとピッチ周波数について、話者選択、写像コードブッ
ク生成、及びスペクトル写像処理を行っているが、同様
に、他の音響特徴パラメータについて処理を行ってもよ
い。以上の実施例において、マイクロホン1に入力する
単語は少なくとも1つの単語でよい。また、音声データ
ベースメモリ10に予め記憶する音声データベースは、
複数の登録話者の音声データベースのデータでよい。
【0047】
【発明の効果】以上詳述したように本発明に係る声質変
換音声合成装置によれば、第1の記憶手段(10,1
1)、特徴抽出手段(3)、話者選択手段(5)、写像
コードブック生成手段(6)、第2の記憶手段(1
2)、スペクトル写像処理手段(22)、パラメータ系
列生成手段(23)、音声合成手段(24)からなる声
質変換音声合成装置であって、第1の記憶手段(10,
11)は、登録話者毎の音声データベース、登録話者毎
のスペクトルコードブックを記憶し、音声データベース
は、各音素毎の登録スペクトルパラメータからなり、特
徴抽出手段(3)は、入力される目標話者の音声信号か
ら話者スペクトルパラメータを抽出し、話者選択手段
(5)は、話者スペクトルパラメータと、音声データベ
ースのうちの予め定められた登録スペクトルパラメータ
である学習音声スペクトルパラメータを比較することに
より、最も近い登録話者を選択登録話者として選択し、
写像コードブック生成手段(6)は、第1から第4の処
理を行い、第1の処理は、選択登録話者のスペクトルコ
ードブックを初期写像コードブックとし、第2の処理
は、選択登録話者の学習音声スペクトルパラメータを初
期写像コードブックを用いてベクトル量子化することに
よりベクトルを求め、第3の処理は、話者スペクトルパ
ラメータと第2の処理で求めたベクトルとの間で時間的
な対応付けの処理を行った後、それらの差分ベクトルを
計算し、差分ベクトルに基づいて移動ベクトルを決定
し、第4の処理は、初期写像コードブックを移動ベクト
ルを用いて移動させ、目標写像コードブックとして第2
の記憶手段(12)に記憶させ、スペクトル写像処理手
段(22)は、第5から第6の処理を行い、第5の処理
は、入力される文字を音素に変換し、音素に対応する登
録スペクトルパラメータを選択登録話者の音声データベ
ースから読み出し、第6の処理は、第5の処理で読み出
した登録スペクトルパラメータに距離の近いベクトルを
初期写像コードブックから求め、そのベクトルに対応す
る目標写像コードブック内のベクトルを生成し、パラメ
ータ系列生成手段(24)は、第6の処理で生成したベ
クトルに基づいて音響特徴パラメータとピッチ周波数を
含む時系列データを生成し、音声合成手段(24)は、
パラメータ生成手段(24)の生成する時系列データに
基づいて、音声信号を発生する。第2の従来例では、音
声データの登録話者から目標話者への写像を行う場合、
異なる話者間のコードブックの対応関係を学習によって
求めるために、大量の学習データが必要であったり、合
成音声の精度を改善するために複雑な処理を必要として
いた。これに対して、本発明によれば、1単語程度の非
常に少ない学習データで登録話者から目標話者への写像
関数を求めることができ、例えばデイジタル計算機を用
いて実用化することができる。また、上記音声データベ
ースだけを予め格納することにより、発話内容に関係な
く従来例に比較してより高い精度で声質を変換すること
ができる。すなわち、上記音声データベースに格納され
る単語と、声質変換しようとする単語は異なってもよ
く、本発明を、例えば、日本語の単語から英語の単語へ
の声質変換、もしくは、英語の単語から日本語の単語へ
の声質に適用することができる。
【0048】
【図面の簡単な説明】
【図1】 本発明に係る一実施例である写像コードブッ
ク生成装置100と声質変換音声合成装置200のブロ
ック図である。
【図2】 図1の写像コードブック生成部6によって実
行される写像コードブック生成処理を示すフローチャー
トである。
【図3】 ピッチ周波数の変換コードブックを生成する
方法を示す第2の従来例のブロック図である。
【図4】 図3の方法で生成されたピッチ周波数の変換
コードブックと同様の方法で生成されたスペクトルパラ
メータの変換コードブックとを用いてベクトル量子化に
よる声質変換法を示すブロック図である。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…話者選択部、 6…写像コードブック生成部、 10…音声データベース、 11…スペクトルコードブック、 21…キーボード、 22…スペクトル写像処理部、 23…パラメータ系列生成部、 24…音声合成部、 25…スピーカ、 100…写像コードブック生成装置、 200…声質変換音声合成装置。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 9/18 G10L 9/18 E (56)参考文献 特開 平9−258779(JP,A) 特開 平6−167990(JP,A) 特開 平4−121791(JP,A) 特開 平1−97997(JP,A) 特開 昭63−125998(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 5/02 G10L 3/00 531 G10L 9/14 G10L 9/18

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1の記憶手段(10,11)、特徴抽
    出手段(3)、話者選択手段(5)、写像コードブック
    生成手段(6)、第2の記憶手段(12)、スペクトル
    写像処理手段(22)、パラメータ系列生成手段(2
    3)、音声合成手段(24)からなる声質変換音声合成
    装置であって、 第1の記憶手段(10,11)は、登録話者毎の音声デ
    ータベース、登録話者毎のスペクトルコードブックを記
    憶し、 音声データベースは、各音素毎の登録スペクトルパラメ
    ータからなり、 特徴抽出手段(3)は、入力される目標話者の音声信号
    から話者スペクトルパラメータを抽出し、 話者選択手段(5)は、話者スペクトルパラメータと、
    音声データベースのうちの予め定められた登録スペクト
    ルパラメータである学習音声スペクトルパラメータを比
    較することにより、最も近い登録話者を選択登録話者と
    して選択し、 写像コードブック生成手段(6)は、第1から第4の処
    理を行い、 第1の処理は、選択登録話者のスペクトルコードブック
    を初期写像コードブックとし、 第2の処理は、選択登録話者の学習音声スペクトルパラ
    メータを初期写像コードブックを用いてベクトル量子化
    することによりベクトルを求め、 第3の処理は、話者スペクトルパラメータと第2の処理
    で求めたベクトルとの間で時間的な対応付けの処理を行
    った後、それらの差分ベクトルを計算し、差分ベクトル
    に基づいて移動ベクトルを決定し、 第4の処理は、初期写像コードブックを移動ベクトルを
    用いて移動させ、目標写像コードブックとして第2の記
    憶手段(12)に記憶させ、 スペクトル写像処理手段(22)は、第5から第6の処
    理を行い、 第5の処理は、入力される文字を音素に変換し、音素に
    対応する登録スペクトルパラメータを選択登録話者の音
    声データベースから読み出し、 第6の処理は、第5の処理で読み出した登録スペクトル
    パラメータに距離の近いベクトルを初期写像コードブッ
    クから求め、そのベクトルに対応する目標写像コードブ
    ック内のベクトルを生成し、 パラメータ系列生成手段(24)は、第6の処理で生成
    したベクトルに基づいて音響特徴パラメータとピッチ周
    波数を含む時系列データを生成し、 音声合成手段(24)は、パラメータ生成手段(24)
    の生成する時系列データに基づいて、音声信号を発生す
    る声質変換音声合成装置。
JP7051039A 1995-03-10 1995-03-10 声質変換音声合成装置 Expired - Fee Related JP2898568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Publications (2)

Publication Number Publication Date
JPH08248994A JPH08248994A (ja) 1996-09-27
JP2898568B2 true JP2898568B2 (ja) 1999-06-02

Family

ID=12875668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7051039A Expired - Fee Related JP2898568B2 (ja) 1995-03-10 1995-03-10 声質変換音声合成装置

Country Status (1)

Country Link
JP (1) JP2898568B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209400A (ja) * 2000-01-24 2001-08-03 Denso Corp 音声合成装置及び音声案内システム
JP3631657B2 (ja) * 2000-04-03 2005-03-23 シャープ株式会社 声質変換装置および声質変換方法、並びに、プログラム記録媒体
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP4025355B2 (ja) 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
WO2010137385A1 (ja) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
JP6392012B2 (ja) 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
CN105741832B (zh) * 2016-01-27 2020-01-07 广东外语外贸大学 一种基于深度学习的口语评测方法和***
JP6639285B2 (ja) 2016-03-15 2020-02-05 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM

Also Published As

Publication number Publication date
JPH08248994A (ja) 1996-09-27

Similar Documents

Publication Publication Date Title
CN111754976B (zh) 一种韵律控制语音合成方法、***及电子装置
US7035791B2 (en) Feature-domain concatenative speech synthesis
JP2733955B2 (ja) 適応型音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US5865626A (en) Multi-dialect speech recognition method and apparatus
KR100391243B1 (ko) 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법
US5327521A (en) Speech transformation system
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
JP2691109B2 (ja) 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
JPH0612089A (ja) 音声認識方法
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP2898568B2 (ja) 声質変換音声合成装置
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
Shariah et al. Human computer interaction using isolated-words speech recognition technology
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
US20040006469A1 (en) Apparatus and method for updating lexicon
Dupont et al. Using the multi-stream approach for continuous audio-visual speech recognition: Experiments on the M2VTS database
JP2912579B2 (ja) 声質変換音声合成装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
Fontaine et al. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
EP1369847B1 (en) Speech recognition method and system
JP3008520B2 (ja) 標準パタン作成装置
JP3036706B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees