JP3536996B2 - パラメータ変換方法及び音声合成方法 - Google Patents

パラメータ変換方法及び音声合成方法

Info

Publication number
JP3536996B2
JP3536996B2 JP24686794A JP24686794A JP3536996B2 JP 3536996 B2 JP3536996 B2 JP 3536996B2 JP 24686794 A JP24686794 A JP 24686794A JP 24686794 A JP24686794 A JP 24686794A JP 3536996 B2 JP3536996 B2 JP 3536996B2
Authority
JP
Japan
Prior art keywords
function
parameter
conversion
sub
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24686794A
Other languages
English (en)
Other versions
JPH0883098A (ja
Inventor
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP24686794A priority Critical patent/JP3536996B2/ja
Priority to US08/527,142 priority patent/US5704006A/en
Publication of JPH0883098A publication Critical patent/JPH0883098A/ja
Application granted granted Critical
Publication of JP3536996B2 publication Critical patent/JP3536996B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】
【0001】
【目次】以下の順序で本発明を説明する。 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段 作用 実施例 (1)本発明の原理 (2)実施例による声質変換機能付き規則音声合成装置
(図1〜図5) (3)他の実施例 発明の効果
【0002】
【産業上の利用分野】本発明はパラメータ変換方法及び
音声合成方法に関し、例えば所望の任意の話者の声質に
似た声質を有する合成音声を出力する際に適用し得る。
【0003】
【従来の技術】従来、音声合成装置において、一旦生成
し又は予め蓄積しておいた1人又は複数の話者の音声ス
ペクトルのパラメータを変換することによつて、目的の
話者の声質に似た声質の音声を合成する方法、いわゆる
声質変換についての研究がなされている。すなわちこの
声質変換では、まず目的の話者が発声した有限の音声を
声質変換装置に入力し、これを学習データの一部として
いる。さらにこの目的話者の発声内容と同じ内容(同じ
音韻系列)の一旦生成し又は予め蓄積しておいた音声ス
ペクトルも学習データとして用意し、これらのパラメー
タを目的話者の音声スペクトルパラメータに近づけるよ
うなパラメータ変換関数を求めている。
【0004】このようにしてパラメータ変換関数が求ま
ると、音声合成装置で一旦生成し又は予め蓄積したおい
た1人又は複数の話者の音声スペクトルパラメータをこ
のパラメータ変換関数に基づいて変換し、このスペクト
ルパラメータを音声合成に用いることにより、入力され
た目的話者の発声内容以外の音声を目的話者の声質で合
成することができる。
【0005】この声質変換方法では、学習データ量に応
じて適切に声質変換関数が求められることが望ましい。
すなわち大量の学習データが与えられたときには、精細
なスペクトル変換関数が求められ、少量の学習データし
か与えられない場合でもある程度良好なスペクトル変換
関数が求められることが望ましい。また目的話者の発声
データは必ずしも十分に得られるわけではないので、
2、3の単語を発声するだけで適切な声質変換を実現し
得ることが望ましい。
【0006】
【発明が解決しようとする課題】ところで声質適応方法
として幾つかの方法が提案されている。例えばベクトル
量子化コードブツクマツピングに基づく方法(阿部他、
「ベクトル量子化による声質変換」日本音響学会秋季研
究発表会、1987年10月)では、話者Aのスペクトルから
話者Bのスペクトルに変換する際、話者Aのスペクトル
データより生成したベクトルコードブツク(話者Aのス
ペクトルの特徴を表している)中の各ベクトルから、話
者Bのスペクトルデータより生成したベクトルコードブ
ツク(話者Bのスペクトルの特徴を表している)中のベ
クトルへの対応(コードブツクマツピング)により変換
を実現するものである。
【0007】また話者内挿処理に基づく方法(岩橋他、
「話者内挿処理による声質制御」日本音響学会秋季研究
発表会、1993年10月)では、複数話者の発声データを先
験的な拘束条件として用い、変換関数として線形変換を
用いることにより声質を制御している。すなわちこの方
法では、複数話者の重み付けだけの適応という強い拘束
を与えているため、少量の学習データ(1単語発生デー
タ)でも比較的良好なスペクトル変換関数を求めること
ができる。
【0008】ところがベクトル量子化コードブツクマツ
ピングに基づく方法では、コードベクトル間の対応に適
切な拘束が与えられていないため、適切なスペクトル変
換、すなわちコードベクトル間の対応を求めるために大
量の発生データが必要となるという問題があつた。従つ
てこの方法では、変換関数の滑らかさや局所的な一貫性
が全くない変換関数さえも、得られる可能性のある変換
関数として許容している。すなわち変換関数に関する適
応の自由度が必要以上に高いという問題があつた。
【0009】また話者内挿処理に基づく方法では、大量
のデータが与えられた場合でもスペクトル変換の精度
は、少量の学習データしか与えられない場合とほとんど
変わらないものしか得られないという問題があつた。さ
らに一段と精度の高いスペクトル変換関数を得るために
は、変換関数に関する適応の自由度を適切に高めなけれ
ばならないという問題があつた。
【0010】本発明は以上の点を考慮してなされたもの
で、入力されるデータ量に応じたパラメータ変換関数を
得ることができるパラメータ変換方法及び入力された音
声の声質に似た音声を合成し得る音声合成方法を提案し
ようとするものである。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、入力されたM個のパラメータを所
定のパラメータ変換関数を用いてN個の出力パラメータ
に変換するパラメータ変換方法において、パラメータ変
換関数は、入力パラメータ空間上に重み係数を設定する
重み付け関数及び複数のサブ変換関数によつて構成さ
れ、各サブ変換関数の変換出力に対して重み係数を与え
て当該重み付けられた各変換出力の和で表現されるよう
にした。
【0012】また本発明においては、入力されたM個の
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて1つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、パラメータ変換関
数は複数のサブ変換関数で構成され、当該複数のサブ変
換関数を選択的に用いてM個の音声スペクトルパラメー
タを1つの音声スペクトルパラメータに変換するように
した。
【0013】また本発明においては、入力されたM個の
音声スペクトルパラメータを所定のパラメータ変換関数
を用いて1つの音声スペクトルパラメータに変換して音
声を合成する音声合成方法において、スペクトルパラメ
ータ変換関数は、入力された音声スペクトルパラメータ
空間上に重み係数を設定する重み付け関数及び複数のサ
ブ変換関数によつて構成され、各サブ変換関数による変
換出力に対して重み係数を与えて当該重み付けられた各
変換出力の和をパラメータ変換関数として用いて、M個
の音声スペクトルパラメータを1つの音声スペクトルパ
ラメータに変換するようにした。
【0014】
【作用】パラメータ変換関数を、入力パラメータ空間上
に重み係数を設定する重み付け関数及び複数のサブ変換
関数で構成し、各サブ変換関数の変換出力に対して重み
係数を与えて当該重み付けられた各変換出力の和で表現
するようにしたことにより、パラメータ変換関数に関す
る適応の自由度を適正に設定し得るので、入力されるデ
ータ量に応じた精度のパラメータ変換関数を得ることが
できる。
【0015】また本発明においては、パラメータ変換関
数を、複数のサブ変換関数で構成し、当該複数のサブ変
換関数を選択的に用いてM個の音声スペクトルパラメー
タを1つの音声スペクトルパラメータに変換するように
したことにより、パラメータ変換関数に関する適応の自
由度を適正に設定し得るので、学習用に入力した音声デ
ータ量に応じた精度のパラメータ変換関数を得ることが
でき、かくして、入力された音声の声質に似た音声スペ
クトルパラメータを得ることができる。
【0016】また本発明においては、パラメータ変換関
数を、入力された音声スペクトルパラメータ空間上に重
み係数を設定する重み付け関数及び複数のサブ変換関数
によつて構成し、当該各サブ変換関数による変換出力に
対して重み係数を与えて当該重み付けられた各変換出力
の和をパラメータ変換関数として用いて、M個の音声ス
ペクトルパラメータを1つの音声スペクトルパラメータ
に変換するようにしたことにより、パラメータ変換関数
に関する適応の自由度を一段と適正に設定し得るので、
学習用に入力した音声データ量に応じた精度のパラメー
タ変換関数を得ることができ、かくして入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。
【0017】
【実施例】以下図面について、本発明の一実施例を詳述
する。
【0018】(1)本発明の原理 本発明による音声合成方法においては、スペクトルパラ
メータ変換関数として、複数の比較的シンプルな変換か
らなるサブ変換関数を用い、この複数のサブ変換関数を
予め蓄積されている音声スペクトルのパラメータ空間の
排他的な部分空間に適用することにより、変換関数に関
する適応の自由度を高めて一段と精度の良いパラメータ
変換関数を実現すると共に変換の局所性を適切に表現す
る。複数のサブ変換関数のそれぞれには、線形関数、2
次以上の項を含んで多項式関数やシンプルな構造のニユ
ーラルネツトによつて表現される関数等を用いる。
【0019】またパラメータ関数として、複数の比較的
シンプルなサブ変換関数による変換出力の重み付け和を
用いることにより、変換関数に関する適応の自由度を一
段と高めている。この重み係数は、音声合成装置に予め
蓄積しておいた音声スペクトルパラメータ空間上に定義
した関数(以下重み付け関数と呼ぶ)によつて決定す
る。
【0020】重み付け関数は、それぞれの変換に与えら
れる重み係数ベクトルをスペクトルパラメータ空間上に
決定する関数であり、実施例においては、この重み付け
関数をラジアルベーシスフアンクシヨン(Radial Basis
Fanction 、円形基底関数)を用いて構成する。これに
より、少ないパラメータすなわち少ない自由度で効率的
にパラメータ空間上のフアジー区分化を実現することが
できる。ここでラジアルベーシスフアンクシヨンとは、
1次元以上のベクトルを入力としてスカラー値を出力す
るもので、中心ベクトルを定め、入力ベクトルと中心ベ
クトルとの距離の増加に対して出力値が非増加である関
数である。
【0021】重み付け関数に用いるラジアルベーシスフ
アンクシヨンとしては、例えば次式
【数1】 に示すようなガウスカーネル関数(Gaussian Kernal Fu
nction) G1(Z)を用いる。(1)式において、Zはガウ
スカーネル関数へのM次元入力ベクトルを表し、Cはガ
ウスカーネル関数のM次元中心ベクトルを表す。またσ
は正規化フアクタを表す。
【0022】これらの複数のサブ変換関数のパラメータ
と重み付け関数のパラメータの決定は、複数のサブ変換
関数のパラメータと重み付け関数のパラメータとを交互
に更新することにより行われ、これにより複数のサブ変
換関数のパラメータと重み付け関数のパラメータとを同
時に最適化することができる。
【0023】また、使用するサブ変換関数の数を変える
ことにより変換関数に関する適応の自由度を任意に変え
ることができるので、サブ変換関数の数を適切な数に設
定することにより学習データ量に応じた適切なパラメー
タ変換関数を得ることができる。すなわち学習データ量
が少ないときはサブ変換関数の数を少なくし、学習デー
タが増えるに従つてサブ変換関数の数を増やしていくこ
とにより、常に与えられた学習データ量に応じた適切な
パラメータ変換関数を得ることができる。かくして本発
明による音声合成方法では、学習データ量に応じて適切
に声質を変換することができる。
【0024】(2)実施例による声質変換機能付き規則
音声合成装置 まず規則音声合成装置における全体の処理の流れについ
て説明し、その後規則音声合成装置及びスペクトルパラ
メータ変換関数の学習処理について詳述する。
【0025】図1において、1は全体として本発明の実
施例による規則音声合成装置を示している。規則音声合
成装置1では、任意の発声内容を表すことができる規則
音声合成入力情報(音韻系列情報、アクセント情報等を
含む)が入力部2より複数話者スペクトル系列生成部3
に入力される。複数話者スペクトル系列生成部3では、
複数話者音声データ蓄積部4に蓄積されている話者(こ
の場合K人)のスペクトルデータを用いて、入力部2よ
り入力された規則音声入力情報に記述されている内容の
音声に対応したK個のスペクトル系列を生成する。
【0026】スペクトルパラメータ変換部5では、複数
話者スペクトル系列生成部3で生成された複数話者スペ
クトルパラメータを、学習により予め決定されているパ
ラメータ変換関数を用いて変換し、1つのスペクトルパ
ラメータ系列を生成する。また韻律情報生成部6では、
入力部2より入力された音声合成入力情報に基づき、音
声合成に必要な韻律情報(基本周波数、音韻パワー、音
韻継続時間)を生成して、音声波形合成部8に出力す
る。
【0027】ここでスペクトルパラメータ変換部5で用
いられるパラメータ変換関数の学習処理装置10を図2
に示す。図2において、目的話者音声データ入力部11
より音声スペクトルパラメータ分析部12に、目的とす
る話者の音声が学習用として入力される。音声スペクト
ルパラメータ分析部12では、入力された目的話者音声
データを分析して目的話者音声スペクトルパラメータを
計算する。また入力部2より複数話者スペクトル系列生
成部3にも、目的話者音声の音韻系列と同じ音韻系列で
なる規則音声合成入力情報が入力される。
【0028】複数話者スペクトル系列生成部3では、目
的話者音声データ入力部11より入力された音声の音韻
系列と同じ音韻系列の複数の話者データによる複数の音
声スペクトルパラメータ時系列が生成される。スペクト
ルパラメータ変換関数適応部13では、複数話者スペク
トル系列生成部3で生成された複数の音声スペクトルパ
ラメータから、音声スペクトルパラメータ分析部12で
計算された音声スペクトルパラメータへの変換をできる
だけ精度良く行えるパラメータ変換関数を求め、このパ
ラメータ変換関数を表すパラメータ(スペクトルパラメ
ータ変換関数パラメータ)をスペクトルパラメータ変換
部5に出力する。このパラメータ変換関数は、変換され
たスペクトルパラメータと、学習用音声スペクトルパラ
メータの誤差が小さくなるように求められる。
【0029】音声波形合成部7では、スペクトルパラメ
ータ変換関数適応部13で得られたパラメータ変換関数
を用いてスペクトルパラメータ変換部5で生成されたス
ペクトルパラメータ系列と、韻律情報生成部11で生成
された韻律情報とを用いて、音声波形を合成して出力す
る。
【0030】このように、上述の学習処理によつて求め
たパラメータ変換関数を表すパラメータで、規則音声合
成装置1のスペクトルパラメータ変換部5で用いるパラ
メータ変換関数を構成することにより、目的話者音声に
近い声質で任意の内容の音声を出力することができる。
【0031】以下に、与えられたパラメータ変換関数を
用いて任意の内容の音声を所望の声質で合成する処理に
ついて説明する。例えば「きようは、雨が降つていま
す。」という内容の音声を合成しようとする場合、入力
部2から複数話者スペクトル系列生成部3に「 kyo′w
a,a′ mega fu′ tteimasu 」でなる音韻系列の音声合
成入力情報が入力される。ここで「′」は、アクセント
の位置を表している。複数話者スペクトル系列生成部3
では、この音韻系列の通りの内容の音声を、複数話者音
声データ蓄積部4に予め蓄積されている音声データを用
いて合成する。
【0032】複数話者音声データ蓄積部4に蓄積されて
いる音声データの話者の数をK人とすると、複数話者ス
ペクトル系列生成部3では、複数話者音声データ蓄積部
4より1人ずつの音声データを順番に用い、音声合成入
力情報の音韻系列の通りの内容の音声スペクトル系列を
K個生成する。音声スペクトル系列生成部3で各話者デ
ータを用いてスペクトル系列を生成する方法としては、
例えば「音響的尺度に基づく複号音声単位選択法」岩橋
他、電子情報通信学会技術研究報告SP91-5 1991年5月
に示されている規則音声合成方式を用いることができ
る。
【0033】ここで複数話者スペクトル系列生成部3よ
り出力される各スペクトルパラメータ系列は、時間フレ
ームごとのスペクトルパラメータ時系列で表され、各時
間フレームに対するスペクトルは、J個のスペクトルパ
ラメータで表されるものとする。スペクトルパラメータ
としては、例えばLPC(linear predictive coding、
線形予測係数)パラメータやケプストラムパラメータ等
を用いることができる。また1フレームの時間幅を例え
ば5〔msec〕、複数話者音声データベースのうちk番目
の話者のデータによつて合成されたiフレームのj番目
のスペクトルパラメータをxijk とすると、iフレーム
目のK人分の合成音声のスペクトルパラメータ情報ベク
トルXi は次式
【数2】 のように表される。
【0034】(2)式において、Jは1フレームのスペ
クトルパラメータの数であり、Kは複数話者スペクトル
系列生成部3が1つの音声合成入力情報に対して生成す
るスペクトル系列の数である。スペクトルパラメータ変
換部5で用いるスペクトルパラメータ変換関数として
は、次式
【数3】
【数4】 に示すようにL個の変換関数の重み付き和で表される変
換関数F(.) を用いる。ここで(4)式においては次式
【数5】 である。またFai(.) はL個ある変換関数のうちのi番
目の変換関数を表し、ベクトルgi はiフレーム目のデ
ータにおいて、L個の変換関数に対して与える重み係数
を表す重み係数ベクトルである。重み係数ベクトルは、
関数gl(.),l =1、2、…、Lの出力を要素とするベク
トルである。ベクトルYi は、iフレーム目の変換され
たスペクトルパラメータベクトルを表す。
【0035】この場合L個の変換関数のそれぞれに線形
変換を用いると、F(.) は次式
【数6】 のように表される。ここでA、Bはそれぞれ次式
【数7】
【数8】 である。(7)式及び(8)式において、Lは線形関数
の数を表し、Fal(.) はl番目の線形変換を表す。akl
はl番目の線形変換の1次項のk番目の係数を表し、b
jlはl番目の線形変換の定数ベクトルのj番目の要素の
値である。gl(.)は重み付け関数で、複数話者のスペク
トルパラメータXを入力とし、l番目の線形変換に与え
る重み係数を出力する。
【0036】ここで上述のように定式化した重み付け関
数と複数の線形関数とを用いたスペクトルパラメータ変
換の構造を図3に示す。重み付け関数は、ラジアルベー
シスフアンクシヨンを用いて構成される。また図4にラ
ジアルベーシスフアンクシヨンを2つもつ重み付け関数
の構造を示す。図4において、重み付け関数の第2層に
は、ラジアルベーシスフアンクシヨンであるガウスカー
ネル関数(gaussian kernel function)を用いている。こ
のガウスカーネル関数は次式
【数9】 によつて定式化される。
【0037】(9)式において、Zm は重み付け関数へ
の入力であるM次元ベクトルのm番目の要素、Cq はq
番目のガウスカーネル関数の中心ベクトルを表す。また
σqはq番目のガウスカーネル関数の正規化フアクタ、
q はq番目のガウスカーネル関数の出力を表す。各ガ
ウスカーネル関数の出力には、係数wq が乗じられた
後、次式
【数10】 に示す正規化処理が行われ、重み付け関数の出力ベクト
ルが得られる。ここでgp は重み付け関数の出力である
重みベクトルのp番目の要素を表す。また(10)式に
おいて、次式
【数11】 である。
【0038】上述のパラメータ変換関数は、上述したよ
うに学習用入力音声スペクトルパラメータ系列と、これ
と同じ音韻系列を表す規則音声合成により生成された複
数話者の音声スペクトルパラメータ系列とを学習サンプ
ル集合とした学習によつて求めることができる。以下に
スペクトルパラメータ変換関数の学習処理について説明
する。
【0039】上述のように、パラメータ変換関数は複数
話者の音声スペクトルパラメータを入力として新たなス
ペクトルパラメータを出力するものである。パラメータ
変換関数は、複数の線形変換と重み付け関数とによつて
構成され、上述のように線形変換としてベクトルA、ベ
クトルB、重み付け関数として、Cq 、σq 、wq (q
=1、……、L)のパラメータで表現され、次式
【数12】 に示す評価関数Qをできるだけ小さくするように、これ
らのパラメータを学習によつて求める。Qは、目的話者
音声スペクトルパラメータと、複数話者音声スペクトル
系列生成部3で生成されたスペクトルパラメータをスペ
クトルパラメータ変換関数で変換して得られたスペクト
ルパラメータとの誤差の2乗を、学習サンプル集合T=
((yi 、Yi ) 、( y2 、Y2)、……、( yN 、YN ))
全てについて加算したものである。ここでgilはi番目
の学習サンプルに対する、重み付け関数が出力するl番
目の変換関数に対する重み値である。Nは学習用サンプ
ルの数である。
【0040】実際スペクトルパラメータ変換関数の学習
は、2つの処理に分解して行われる。すなわち複数の線
形関数の最適化処理と重み付け関数のパラメータの漸近
的更新処理の2つである。これらの2つの処理は、パラ
メータの繰り返し最適化処理の中で交互に実行される。
【0041】まず複数の線形関数の最適化処理について
説明する。この処理では、線形関数への重み値gil(i
=1、……、N、l=1、……、L)を固定しておく。
このとき線形変換を表すパラメータakl、bjlはそれぞ
れ次式
【数13】
【数14】 の連立方程式の解として求められる。この連立方程式
は、評価関数Qを線形変換の各パラメータで偏微分する
ことにより得られる。
【0042】次に重み付け関数のパラメータの漸近的更
新処理について説明する。更新は、例えばグラジエント
デイセント法(gradient decent) により行う。すなわ
ち、例えばr番目のガウスカーネル関数の中心ベクトル
Cのs番目の要素Crsを更新する場合は、次式
【数15】 のように表される。ここでμは正の定数で学習速度係数
を表し、例えば 0.001とする。Φ(t) は、t回目の繰り
返し処理におけるスペクトルパラメータ変換関数を表す
全てのパラメータを表す。QのCrsに関する偏微分はチ
エインルール(Chain Rule)に従つて次式
【数16】 のように表すことかできる。(16)式において∂di
/∂gip、∂gip/∂oir、∂oir/∂crsはそれぞれ
次式
【数17】
【数18】
【数19】 である。ここでzimはi番目の学習サンプルの重み付け
関数へのm番目の入力値であり、oirはi番目の学習サ
ンプルに対するr番目のガウスカーネル関数の出力を表
す。σl やwl 等の他のパラメータに関しても、同様の
処理で更新する。
【0043】重み付け関数と複数の線形変換よりなるス
ペクトルパラメータ変換関数の漸近的最適化処理を図5
のフローチヤートに示す。まずステツプSP1より開始
して、ステツプSP2において、重み付け関数のパラメ
ータの初期値を任意に決定する。例えば、σq (q=
1、……、L)は0.0 、wq (q=1、……、L)は1
/L、Crs(r=1、……、L、s=1、……、M)は
0.0+ε(εは分散が 0.1程度のランダムな数)とす
る。収束条件のパラメータとしてMinを例えば 0.1と
する。
【0044】次にステツプSP3において、重み付け関
数のパラメータを固定して、複数の線形関数のパラメー
タの最適値を求める。次にステツプSP4において、複
数の線形関数のパラメータを固定して、重み付け関数の
パラメータを更新する。次にステツプSP5において、
評価関数Qの値を求め、ステツプSP6において、評価
関数Qの値がMin以上のときはステツプSP3に戻
り、それ以外のときは現時点のパラメータ値をスペクト
ルパラメータ変換関数のパラメータとしてセーブし、ス
テツプSP7で処理を終了する。
【0045】スペクトルパラメータ変換部5では、以上
のようにして求められたパラメータ関数を用いて、スペ
クトルパラメータ系列生成部3で生成されたK個のスペ
クトルパラメータ系列を1つのスペクトルパラメータ系
列に変換し、音声波形合成部7でこのスペクトルパラメ
ータ系列と韻律情報生成部11で生成して韻律情報とを
用いて音声波形を合成する。
【0046】以上の構成によれば、スペクトルパラメー
タ変換関数を2つの線形関数と2つの重み付け関数とで
構成して2つの線形関数による変換出力の重み付け和で
表現し、生成したスペクトルをこのスペクトルパラメー
タ変換関数を用いて変換したことにより、学習用に入力
した音声の声質に似た音声のスペクトルパラメータを得
ることができるので、学習話者の声質に似た音声を合成
することができる。
【0047】(3)他の実施例 なお上述の実施例においては、パラメータ変換関数を、
サブ変換関数としての2つの線形関数と2つの重み付け
関数とで構成した場合について述べたが、本発明はこれ
に限らず、パラメータ変換関数を3つ以上の線形関数と
重み付け関数とで構成してもよい。
【0048】この場合、サブ変換関数としての線形変換
の数と、重み付け関数の数とを変えることによりパラメ
ータ変換関数全体の自由度を変化させることができるの
で、学習サンプルの量に応じてパラメータ変換関数の適
応の自由度を変えることができ、従つて常に学習サンプ
ルを有効に利用した良好な学習を実現することができ
る。すなわち学習データ量が少ないときでも比較的良好
なスペクトルパラメータ変換関数を求めることができる
のでそれなりに学習話者に似た声質を得ることができ、
また学習データ量が増えるに従つて一段と精度の高いス
ペクトルパラメータ変換関数を求めることができるので
一段と学習話者に似た声質を得ることができる。
【0049】例えば学習サンプルとして使用する目的話
者の音声が1〜5単語程度のときには、線形関数の数は
1とする。この場合重み付け関数は必要ない。また6〜
10単語程度のときは、線形変換の数と重み付け関数内の
ラジアルベーシス・フアンアクシヨンの数とを、それぞ
れ2とする。11〜20単語程度のときはそれぞれ3とす
る。
【0050】また上述の実施例においては、サブ変換関
数として線形関数を用いた場合について述べたが、本発
明はこれに限らず、サブ変換関数として2次以上の項を
含む多項式関数やニユーラルネツトによつて表現される
関数等を用いてもよい。また上述の実施例においては、
ラジアルベーシスフアンクシヨンとしてガウスカーネル
関数を用いた場合について述べたが、本発明はこれに限
らず、次式
【数20】 に示すような距離関数G2(z) を用いてもよい。この場
合、zは距離関数へのM次元入力ベクトル、cは距離関
数のM次元中心ベクトルを表す。pは定数である。
【0051】また上述の実施例においては、スペクトル
パラメータ変換関数をサブ変換関数及び重み付け変換関
数で構成した場合について述べたが、本発明はこれに限
らず、スペクトルパラメータ変換関数を複数のサブ変換
関数だけで構成し、当該サブ変換関数を選択的に用いる
ようにしてもよい。
【0052】また上述の実施例においては、スペクトル
変換を音声合成に適用した場合について述べたが、本発
明はこれに限らず、株価等の経済指標予測、コンピユー
タグラフイツクのパターン生成、産業用ロボツトの制
御、音声認識や画像認識のパターン認識等、与えられた
入力パラメータと出力パラメータの学習点の集合より入
出力写像を学習する問題一般の解法として適用し得る。
【0053】
【発明の効果】上述のように本発明によれば、パラメー
タ変換関数を、入力パラメータ空間上に重み係数を設定
する重み付け関数及び複数のサブ変換関数で構成し、各
サブ変換関数の変換出力に対して重み係数を与えて当該
重み付けられた各変換出力の和で表現するようにしたこ
とにより、パラメータ変換関数に関する適応の自由度を
適正に設定し得るので、入力されるデータ量に応じた精
度の高いパラメータ変換関数を得ることができる。
【0054】また本発明によれば、パラメータ変換関数
を、複数のサブ変換関数で構成し、当該当該複数のサブ
変換関数を選択的に用いてM個の音声スペクトルパラメ
ータを1つの音声スペクトルパラメータに変換するよう
にしたことにより、パラメータ変換関数に関する適応の
自由度を適正に設定し得るので、学習用に入力した音声
データ量に応じた精度のパラメータ変換関数を得ること
ができる。かくして、入力された音声の声質に似た音声
スペクトルパラメータを得ることができる。
【0055】また本発明によれば、パラメータ変換関数
を、入力された音声スペクトルパラメータ空間上に重み
係数を設定する重み付け関数及び複数のサブ変換関数に
よつて構成し、当該各サブ変換関数による変換関数に対
して重み係数を与えて当該重み付けられた各変換出力の
和をパラメータ変換関数として用いてM個の音声スペク
トルパラメータを1つの音声スペクトルパラメータに変
換するようにしたことにより、パラメータ変換関数に関
する適応の自由度を一段と適正に設定し得るので、学習
用に入力した音声データ量に応じた精度のパラメータ変
換関数を得ることができる。かくして、入力された音声
の声質に一段と似た音声スペクトルパラメータを得るこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施例による声質変換機能付き規則音
声合成装置を示すブロツク図である。
【図2】本発明の実施例によるスペクトルパラメータ変
換関数の学習処理装置を示すブロツク図である。
【図3】実施例におけるスペクトルパラメータ変換関数
の構造を示すブロツク図である。
【図4】実施例における重み付け関数の構造を示す略線
図である。
【図5】スペクトルパラメータ変換関数の学習処理手順
を示すフローチヤートである。
【符号の説明】
1……声質変換機能付き規則音声合成装置、2……入力
部、3……複数尻スペクトル系列生成部、4……複数話
者音声データ蓄積部、5……スペクトルパラメータ変換
部、6……韻律情報生成部、7……音声波形合成部、1
0……学習処理装置、11……目的話者音声データ入力
部、12……音声スペクトルパラメータ分析部、13…
…スペクトルパラメータ変換関数適応部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−120251(JP,A) 特開 平3−175500(JP,A) 特開 平1−211799(JP,A) 特開 平1−237600(JP,A) 特開 平3−273280(JP,A) 特開 平4−147300(JP,A) 特開 平4−158397(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/08

Claims (25)

    (57)【特許請求の範囲】
  1. 【請求項1】入力されたM個のパラメータを所定のパラ
    メータ変換関数を用いてN個の出力パラメータに変換す
    るパラメータ変換方法において、 上記パラメータ変換関数は、入力パラメータ空間上に重
    み係数を設定する重み付け関数及び複数のサブ変換関数
    によつて構成され、上記各サブ変換関数の変換出力に対
    して上記重み係数を与えて当該重み付けられた各変換出
    力の和で表現されることを特徴とするパラメータ変換方
    法。
  2. 【請求項2】上記重み付け関数は、中心ベクトルが定め
    られ、1次元以上の入力ベクトルと上記中心ベクトルと
    の距離の増加に対して出力値が非増加であるラジアルベ
    ーシスフアンクシヨン(Radial Basis Function)である
    ことを特徴とする請求項1に記載のパラメータ変換方
    法。
  3. 【請求項3】上記ラジアルベーシスフアンクシヨンとし
    て、ガウスカーネル関数(GaussianKernel Function)
    又は距離関数を用いるようにしたことを特徴とする請求
    項2に記載のパラメータ変換方法。
  4. 【請求項4】上記サブ変換関数として、線形関数、2次
    以上の項を含む多項式関数又はニユーラルネツトワーク
    によつて表現された関数を用いるようにしたことを特徴
    とする請求項1に記載のパラメータ変換方法。
  5. 【請求項5】M次元ベクトルとN次元ベクトルの対でな
    る学習サンプルを所定数含む学習サンプル集合を与える
    ことにより、上記複数のサブ変換関数と上記重み付け関
    数でなる上記パラメータ変換関数を表す全てのパラメー
    タを、所定の評価関数に従つて決定するようにしたこと
    を特徴とする請求項2に記載のパラメータ変換方法。
  6. 【請求項6】上記重み付け関数のパラメータと上記複数
    のサブ変換関数のパラメータとを、徐々に変化させて決
    定するようにしたことを特徴とする請求項5に記載のパ
    ラメータ変換方法。
  7. 【請求項7】上記重み付け関数のパラメータ及び上記複
    数のサブ変換関数のパラメータは、当該重み付け関数の
    パラメータと複数のサブ変換関数のパラメータとを交互
    に変化させることにより決定されることを特徴とする請
    求項5に記載のパラメータ変換方法。
  8. 【請求項8】上記重み付け関数のパラメータを、最急降
    下(gradient decent)法を用いて更新するようにしたこ
    とを特徴とする請求項5に記載のパラメータ変換方法。
  9. 【請求項9】上記サブ変換関数の数を、上記学習サンプ
    ル集合に含まれる上記学習サンプルの数に応じて設定す
    るようにしたことを特徴とする請求項5に記載のパラメ
    ータ変換方法。
  10. 【請求項10】上記複数のサブ変換関数が線形関数又は
    2次以上の項を含む多項式関数で与えられた場合におい
    て、上記複数のサブ変換関数のパラメータに変化を与え
    る際には、線形連立方程式の解を上記複数のサブ変換関
    数のパラメータとするよにうしたことを特徴とする請求
    項5に記載のパラメータ変換方法。
  11. 【請求項11】入力されたM個の音声スペクトルパラメ
    ータを所定のパラメータ変換関数を用いて1つの音声ス
    ペクトルパラメータに変換して音声を合成する音声合成
    方法において、 上記パラメータ変換関数は複数のサブ変換関数で構成さ
    れ、当該複数のサブ変換関数を選択的に用いて上記M個
    の音声スペクトルパラメータを上記1つの音声スペクト
    ルパラメータに変換するようにしたことを特徴とする音
    声合成方法。
  12. 【請求項12】音声スペクトルのパラメータ空間を分割
    して得た上記サブ変換関数と同じ数の各部分空間に対し
    て、上記複数のサブ変換関数のうち1つのサブ変換関数
    を対応させ、変換する音声スペクトルパラメータが属す
    るパラメータ部分空間に応じて、上記サブ変換関数を選
    択的に用いるようにしたことを特徴とする請求項11に
    記載の音声合成方法。
  13. 【請求項13】上記サブ変換関数として、線形関数、2
    次以上の項を含む多項式関数又はニユーラルネツトワー
    クによつて表現された関数を用いるようにしたことを特
    徴とする請求項11に記載の音声合成方法。
  14. 【請求項14】入力されたM個の音声スペクトルパラメ
    ータを所定のパラメータ変換関数を用いて1つの音声ス
    ペクトルパラメータに変換して音声を合成する音声合成
    方法において、 上記パラメータ変換関数は、入力された音声スペクトル
    パラメータ空間上に重み係数を設定する重み付け関数及
    び複数のサブ変換関数によつて構成され、上記各サブ変
    換関数による変換出力に対して上記重み係数を与えて当
    該重み付けられた各変換出力の和を上記パラメータ変換
    関数として用いて、上記M個の音声スペクトルパラメー
    タを上記1つの音声スペクトルパラメータに変換するよ
    うにしたことを特徴とする音声合成方法。
  15. 【請求項15】上記重み付け関数は、中心ベクトルが定
    められ、1次元以上の入力ベクトルと上記中心ベクトル
    との距離の増加に対して出力値が非増加であるラジアル
    ベーシスフアンクシヨンであることを特徴とする請求項
    14に記載の音声合成方法。
  16. 【請求項16】上記ラジアルベーシスフアンクシヨンと
    して、ガウスカーネル関数又は距離関数を用いるように
    したことを特徴とする請求項15に記載の音声合成方
    法。
  17. 【請求項17】上記サブ変換関数として、線形関数、2
    次以上の項を含む多項式関数又はニユーラルネツトワー
    クによつて表現された関数を用いるようにしたことを特
    徴とする請求項14に記載の音声合成方法。
  18. 【請求項18】M次元ベクトルと1次元ベクトルの対で
    なる学習サンプルを所定数含む学習サンプル集合を与え
    ることにより、上記複数のサブ変換関数と上記重み付け
    関数でなる上記パラメータ変換関数を表す全てのパラメ
    ータを、所定の評価関数に従つて決定するようにしたこ
    とを特徴とする請求項14に記載の音声合成方法。
  19. 【請求項19】上記重み付け関数のパラメータと上記複
    数のサブ変換関数のパラメータとを、徐々に変化させて
    決定するようにしたことを特徴とする請求項14に記載
    の音声合成方法。
  20. 【請求項20】上記重み付け関数のパラメータ及び上記
    複数のサブ変換関数のパラメータは、当該重み付け関数
    のパラメータと複数のサブ変換関数のパラメータとを交
    互に変化させることにより決定されることを特徴とする
    請求項14に記載の音声合成方法。
  21. 【請求項21】上記重み付け関数のパラメータを、最急
    降下法を用いて更新するようにしたことを特徴とする請
    求項14に記載の音声合成方法。
  22. 【請求項22】上記複数のサブ変換関数が線形関数又は
    2次以上の項を含む多項式関数で与えられた場合におい
    て、上記複数のサブ変換関数のパラメータに変化を与え
    る際には、線形連立方程式の解を上記複数のサブ変換関
    数のパラメータとするよにうしたことを特徴とする請求
    項14に記載の音声合成方法。
  23. 【請求項23】上記重み付け関数の重み係数を、予め蓄
    積しておいた音声スペクトルのパラメータ空間上に設定
    するようにしたことを特徴とする請求項14に記載の音
    声合成方法。
  24. 【請求項24】上記重み付け関数のパラメータと上記各
    サブ変換関数のパラメータとを、新たに入力された音声
    データを用いて決定するようにしたことを特徴とする請
    求項14に記載の音声合成方法。
  25. 【請求項25】上記サブ変換関数の数を、上記学習サン
    プル集合に含まれる上記学習サンプルの数に応じて設定
    するようにしたことを特徴とする請求項18に記載の音
    声合成方法。
JP24686794A 1994-09-13 1994-09-13 パラメータ変換方法及び音声合成方法 Expired - Fee Related JP3536996B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP24686794A JP3536996B2 (ja) 1994-09-13 1994-09-13 パラメータ変換方法及び音声合成方法
US08/527,142 US5704006A (en) 1994-09-13 1995-09-12 Method for processing speech signal using sub-converting functions and a weighting function to produce synthesized speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24686794A JP3536996B2 (ja) 1994-09-13 1994-09-13 パラメータ変換方法及び音声合成方法

Publications (2)

Publication Number Publication Date
JPH0883098A JPH0883098A (ja) 1996-03-26
JP3536996B2 true JP3536996B2 (ja) 2004-06-14

Family

ID=17154914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24686794A Expired - Fee Related JP3536996B2 (ja) 1994-09-13 1994-09-13 パラメータ変換方法及び音声合成方法

Country Status (2)

Country Link
US (1) US5704006A (ja)
JP (1) JP3536996B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
DE19927317A1 (de) * 1999-06-15 2000-12-21 Christoph Bueltemann Verfahren und Vorrichtung zur automatischen Spracherkennung, Sprecheridentifizierung und Spracherzeugung
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
WO2006040908A1 (ja) 2004-10-13 2006-04-20 Matsushita Electric Industrial Co., Ltd. 音声合成装置及び音声合成方法
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US10614826B2 (en) * 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
JP7056739B2 (ja) * 2018-06-25 2022-04-19 日本電気株式会社 波源方向推定装置、波源方向推定方法、およびプログラム
US11410667B2 (en) 2019-06-28 2022-08-09 Ford Global Technologies, Llc Hierarchical encoder for speech conversion system
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
JP2023546989A (ja) 2020-10-08 2023-11-08 モジュレイト インク. コンテンツモデレーションのためのマルチステージ適応型システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0331405B1 (en) * 1988-02-29 1996-11-27 Sony Corporation Method and apparatus for processing a digital signal
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置

Also Published As

Publication number Publication date
US5704006A (en) 1997-12-30
JPH0883098A (ja) 1996-03-26

Similar Documents

Publication Publication Date Title
JP3536996B2 (ja) パラメータ変換方法及び音声合成方法
JP2733955B2 (ja) 適応型音声認識装置
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JPH08248996A (ja) ディジタルフィルタのフィルタ係数決定方法
JPH11242494A (ja) 話者適応化装置と音声認識装置
Ming et al. Fundamental frequency modeling using wavelets for emotional voice conversion
JP3014177B2 (ja) 話者適応音声認識装置
JPH0772900A (ja) 音声合成の感情付与方法
JP2898568B2 (ja) 声質変換音声合成装置
Aihara et al. Multiple non-negative matrix factorization for many-to-many voice conversion
JPH1185194A (ja) 声質変換音声合成装置
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
US6813604B1 (en) Methods and apparatus for speaker specific durational adaptation
En-Najjary et al. A new method for pitch prediction from spectral envelope and its application in voice conversion.
JP4922225B2 (ja) 音声認識装置及び音声認識プログラム
CN115810341A (zh) 音频合成方法、装置、设备以及介质
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
WO2021033629A1 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
JP2912579B2 (ja) 声質変換音声合成装置
JPH09319391A (ja) 音声合成方法
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
Wu et al. Statistical voice conversion with quasi-periodic wavenet vocoder

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040311

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees