JP4966048B2 - 声質変換装置及び音声合成装置 - Google Patents

声質変換装置及び音声合成装置 Download PDF

Info

Publication number
JP4966048B2
JP4966048B2 JP2007039673A JP2007039673A JP4966048B2 JP 4966048 B2 JP4966048 B2 JP 4966048B2 JP 2007039673 A JP2007039673 A JP 2007039673A JP 2007039673 A JP2007039673 A JP 2007039673A JP 4966048 B2 JP4966048 B2 JP 4966048B2
Authority
JP
Japan
Prior art keywords
unit
speech
conversion
speaker
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007039673A
Other languages
English (en)
Other versions
JP2008203543A (ja
Inventor
正統 田村
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007039673A priority Critical patent/JP4966048B2/ja
Priority to US12/017,740 priority patent/US8010362B2/en
Publication of JP2008203543A publication Critical patent/JP2008203543A/ja
Application granted granted Critical
Publication of JP4966048B2 publication Critical patent/JP4966048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、変換元話者の音声を変換先話者の音声に変換する声質変換装置及び、任意の入力文から音声を合成する音声合成装置に関する。
変換元話者の音声を入力し、その声質を変換先話者に変換する技術を「声質変換技術」という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元話者の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先のスペクトルパラメータに変換し、得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先話者の声質に変換する。
声質変換の一つの方法として、混合ガウス分布(GMM)に基づいて声質変換を行う声質変換方法(例えば、非特許文献1参照)が開示されている。非特許文献1では、変換元話者の音声のスペクトルパラメータからGMMを求め、GMMの各混合における回帰行列を、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力した変換元話者の音声のスペクトルパラメータがGMMの各混合において出力される確率により重み付けして回帰行列を適用し、変換先のスペクトルパラメータを得る。GMMの出力確率により重み付け和する処理は、GMMの尤度に基づいて回帰分析を補間する処理であると見なせる。しかし、この場合に音声の時間方向に補間されるとは限らず、滑らかに隣り合うスペクトルパラメータが変換後に滑らかになるとは限らないという問題点がある。
また、わたり区間のスペクトル包絡変換規則を補間することにより声質変換を行う声質変換装置が開示されている(例えば、特許文献1参照)。音素間のわたり区間においては、わたり区間前の音素に対応するスペクトル包絡変換規則が、わたり区間の後の音素に対応するスペクトル包絡変換規則へとわたり区間において滑らかに変化するように、スペクトル包絡変換規則を補間する。特許文献1においてはその補間方法としては、スペクトル包絡変換規則の直線補間が挙げられている。特許文献1では、変換規則の学習時には時間方向に補間するという仮定に基づいておらず、変換規則学習時と変換処理時の不一致があり、また音声の時間的な変化は直線的であるとは限らないため、変換後の音質が低下する可能性がある。また、時間方向に補間するという仮定をもとに変換規則を学習した場合、変換規則のパラメータに対する学習時の制約が増加するために変換規則の推定精度が下がり、非特許文献1の方法と比較して声質変換後の音声の変換先話者への類似度が下がるという問題点がある。
任意の文章を入力し、音声波形を生成することを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長など)が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。
上述した複数素片選択型音声合成など、テキスト音声合成の音声素片データベースを、目標とする変換先話者の少量の音声データを用いて声質変換する方法が開示されている(例えば、非特許文献2参照)。非特許文献2では、大量の変換元話者の音声データと、少量の変換先話者の音声データとを用いて声質変換規則を学習し、得られた声質変換規則を音声合成のための変換元話者の音声素片データベースに適用することにより、変換先話者の声質で任意文の音声合成を可能にする。非特許文献2においては、声質変換規則としては、非特許文献1の方法などに基づいており、非特許文献1と同様変換後のスペクトルパラメータが時間方向に滑らかになるとは限らないという問題点がある。
特許第3703394号公報 Y. Stylianou, at el., 「Continuous Probabilistic Transform for Voice Conversion, 」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.2, MARCH 1998 田村 正統他,「複数素片選択・融合型音声合成のための声質変換,」日本音響学会春季研究発表会講演論文集,2006年3月.
上述したように、従来技術である非特許文献1及び非特許文献2においては、声質変換規則の学習時にはモデルを考慮した変換規則が作成されるものの、変換規則が時間方向に補間されるとは限らず時間的に滑らかになるとは限らないという問題点があった。
また、特許文献1においては、わたり区間において時間的に滑らかになるような声質変換が行われるものの、変換規則の学習時には時間方向に補間するという仮定を考慮していないため、変換規則学習時と変換処理時に不一致が生じる可能性があり、また音声の時間的な変化は直線的であるとは限らないため、変換後の音質が低下する場合があった。さらに、時間方向に補間するという仮定をもとに変換規則を作成した場合、変換規則のパラメータに対する変換規則作成時の制限が増加するために変換規則の推定精度が下がり、変換後の音声の変換先話者への類似度が下がるという問題点があった。
そこで本発明は、上記従来技術の問題点を解決するためになされたものであって、音声の時間方向の変化を考慮した時間方向に滑らかな声質変換を可能にし、かつ、その制約のもとで声質変換規則を学習するために生じる変換先話者への類似度の低下を低減することを可能にする声質変換装置を提供することを目的とする。
本発明は、元話者の音声を先話者の音声に変換する声質変換装置において、前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成部と、前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出部と、前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶部と、(1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択する変換関数選択部と、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定部と、前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成部と、前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換部と、前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成部と、を有する声質変換装置である。
本発明によれば、時間方向に滑らかであり、かつ変換先話者への類似度の低下を低減する声質変換が可能になり、また変換先話者の声質による任意文の音声合成が可能となる。
以下、本発明の実施形態について説明する。
(第1の実施形態)
以下、本発明の第1の実施形態の声質変換装置について図1から図22に基づいて説明する。
(1)声質変換装置の構成
図1は、本実施形態に係わる声質変換装置を示すブロック図である。
本実施形態に係わる声質変換装置は、音声素片変換部1において変換元話者音声素片の声質を、変換先話者の声質に変換し、変換先音声素片を得る。
音声素片変換部1は、声質変換規則記憶部11と、スペクトル補正規則記憶部12と、声質変換部14と、スペクトル補正部15と、音声波形生成部16とを備える。
音声素片抽出部13において、変換元話者音声データから変換元話者音声素片を抽出する。
声質変換規則記憶部11は、変換元話者音声パラメータ(すなわち、変換元話者スペクトルパラメータ)を変換先話者音声パラメータ(すなわち、変換先話者スペクトルパラメータ)に変換する規則を保持する。この声質変換規則は、声質変換規則学習部17において作成したものである。
スペクトル補正規則記憶部12は、変換された音声パラメータのスペクトルを補正する規則を保持する。このスペクトル補正規則は、スペクトル補正規則学習部18において作成したものである。
声質変換部14において、入力された変換元話者音声素片の各音声パラメータに声質変換規則を適用することにより変換先話者の声質に変換する。
スペクトル補正部15において、変換した音声パラメータは、スペクトル補正規則記憶部12に保持されているスペクトル補正規則を用いてスペクトルを補正する。
音声波形生成部16において、得られたスペクトルから音声波形を生成し、変換先の音声素片を得る。
(2)声質変換部14
(2−1)声質変換部14の構成
声質変換部14は、図2に示すように、音声パラメータ抽出部21と、変換規則選択部22と、補間係数決定部23と、変換規則生成部24と、音声パラメータ変換部25とを備える。
音声パラメータ抽出部21では、変換元話者音声素片からスペクトルパラメータを抽出する。
変換規則選択部22では、入力された変換元話者音声素片の開始点におけるスペクトルパラメータ、及び、終了点におけるスペクトルパラメータに対する声質変換規則を声質変換記憶部11から選択し、始点変換規則及び終点変換規則とする。
補間係数決定部23では、変換元話者音声素片内の各音声パラメータに対する補間係数を決定する。
変換規則生成部24では、始点変換規則、及び、終点変換規則を、前記補間係数を用いて補間し、各音声パラメータに対する声質変換規則を生成する。
音声パラメータ変換部25では、生成された声質変換規則を適用し、変換先話者音声パラメータを得る。
(2−2)声質変換部14の処理
以下、声質変換部14の処理の詳細を述べる。
声質変換部14の入力となる変換元話者音声素片は、音声素片抽出部13において変換元話者の音声データを音声単位に区切ることにより作成する。音声単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
(2−2−1)変換元話者音声素片抽出部13
変換元話者音声素片抽出部13の処理のフローチャートを図3に示す。
ステップ31において、音声素片抽出部13は、入力された変換元話者音声データに対して音素単位等のラベル付けを行う。
ステップ32において、ピッチマークを付与する。
ステップ33において、所定の音声単位に対応する音声素片に分割する。
図4に「そう話す」という文に対してラベリング、及び、ピッチマーキングを行った例を示す。
図4(a)は、音声データの音素境界にラベルを付与した例、(b)は「a」の部分に対してピッチマーキングを行った例を示している。
「ラベリング」は音声単位の境界と各音声単位の音韻種別を表すラベルを付与することであり、隠れマルコフモデルを用いる方法などにより行われる。自動ラベリングに限らず、人手で付与してもよい。
また、「ピッチマーキング」は音声の基本周期に同期したマークを付与することであり、波形のピークを抽出する方法などにより行われる。
このように、ラベリング、ピッチマーキングを行い、音声素片に分割する。音声単位を半音素とした場合、図4(b)に示すように音素境界及び音素中心で波形を分割し、「aの左素片(a−left)」、「aの右素片(a−right)」のように求められる。
(2−2−2)音声パラメータ抽出部21
音声パラメータ抽出部21では、変換元話者音声素片から、スペクトルパラメータを抽出する。
図5は音声素片の一つとそのスペクトルパラメータを示している。ここでは、スペクトルパラメータはピッチ同期分析により求めており、音声素片の各ピッチマークに対してスペクトルパラメータを抽出している。
まず、変換元話者音声素片からピッチ波形を抽出する。ピッチ波形は、ピッチマークを中心として、ピッチ周期の2倍の長さのハニング窓を掛けることによって抽出する。
得られたピッチ波形に対してスペクトル分析を行い、スペクトルパラメータを抽出する。スペクトルパラメータは、音声素片のスペクトル包絡の情報を表すパラメータであり、LPC係数、LSFパラメータ、メルケプストラム等を用いることができる。
スペクトルパラメータの一つであるメルケプストラムは、正則化離散ケプストラムによる方法(O. Capp・ at el., "Regularization Techniques for Discrete Cepstrum Estimation," IEEE SIGNAL PROCESSING LETTERS, VOL. 3, NO. 4, APRIL 1996)、不偏推定による方法(小林隆夫, ``音声のケプストラム分析,メルケプストラム分析,'' 電子情報通信学会技術研究報告,DSP98-77/SP98-56, pp.33-40 ,1998.9)等により求めることができる。
(2−2−3)変換規則選択部22
次に、変換規則選択部22において、声質変換規則記憶部11から変換元話者音声素片の始点及び終点における声質変換規則を選択する。
声質変換規則記憶部11には、スペクトルパラメータ変換規則と、変換規則選択のための情報等が蓄積されている。ここでは、スペクトルパラメータ変換規則として回帰行列を用い、さらに各回帰行列に対応する変換元話者スペクトルパラメータの確率分布を保持するものとする。この確率分布は、回帰行列の選択及び補間のために用いるものである。
この場合、声質変換規則記憶部11には、k個の回帰行列W(1=<k=<K)とそれぞれの回帰行列に対応する確率分布p(x)(1=<k=<K)とを保持する。回帰行列は、変換元話者のスペクトルパラメータから、変換先話者のスペクトルパラメータへの変換を行列の形で表したものであり、回帰行列Wを用いて、スペクトルパラメータの変換は次式で表される。
Figure 0004966048
但し、xは変換元のピッチ波形のスペクトルパラメータを表し、ξはxにオフセット項1を加えたもの、yは得られた変換後のスペクトルパラメータを表す。スペクトルパラメータの次元数がpの場合、Wはp×(p+1)の行列になる。
また、各回帰行列に対応する確率分布として、平均ベクトルをμ、共分散行列をΣとするガウス分布、
Figure 0004966048
を用いる。但し、N(|)は正規分布である。
声質変換規則記憶部11は図6に示すように、K個の回帰行列Wと、確率分布p(x)とを保持している。
変換規則選択部22では、音声素片の開始点に対応する回帰行列及び終了点に対応する回帰行列を選択する。
回帰行列の選択は前記確率分布の尤度に基づいて行う。音声素片は図5の上段に示すようにT個のスペクトルパラメータx(1=<t=<T)を持つ。
この時、開始点における回帰行列はp(x)を最大にするkに対応する回帰行列Wを選択する。具体的には、Nにxを代入して、p(x)〜p(x)の中で最も尤度が高いp(x)を求め、それに対応する回帰行列を選択する。終了点における回帰行列はp(x)も同様にして、尤度を最大にするkに対応する回帰行列Wを選択することにより決定する。これらをそれぞれW、Wとする
(2−2−4)補間係数決定部23
次に、補間係数決定部23において、音声素片内のスペクトルパラメータに対する変換規則の補間係数を求める。
ここでは、補間係数は、隠れマルコフモデル(HMM)に基づいて決定する。HMMを用いた補間係数決定を、図7を参照して説明する。
変換規則選択部11で、選択された開始点に対する確率分布を第1の状態の出力分布とし、終了点に対する確率分布を第2の状態の出力分布とし、さらに状態遷移確率を与えて、音声素片に対応する状態2のHMMを決定する。
このように構築されたHMMに対して、音声素片の時刻tのスペクトルパラメータが状態1において出力される確率を第1の状態に対応する回帰行列の補間係数、状態2において出力される確率を第2の状態に対応する回帰行列の補間係数として、回帰行列を確率的に補間する。この様子を格子点に表したものが、図7の中央の図である。上段の格子点は、それぞれ、時刻tの観測ベクトルが状態1において観測される確率
Figure 0004966048
下段の格子点は状態2において観測される確率
Figure 0004966048
を示しており、矢印は取り得る状態遷移を表している。但し、qは時刻tの状態、λはモデル、Xは音声素片から抽出したスペクトルパラメータ列X=(x、x、・・・、x)を表す。このγ(i)はHMMのForward-Backwardアルゴリズムにより求めることができる。実際、観測系列xからxを出力し、時刻tに状態iに存在する前向き確率をα(i)、時刻tに状態iに存在し、時刻xt+1からxまで出力する後ろ向き確率β(i)を用いて、
Figure 0004966048
として求めることができる。
このように、補間係数決定部23では、γ(1)を求め、これを開始点の回帰行列に対する補間係数ω(t)として決定する。同様に、γ(2)を終了点の回帰行列に対する補間係数ω(t)として決定する。
図7の下段は、得られた補間比率ω(t)を示す。このように補間係数を決めた場合、ω(t)は図のように開始点において、1.0になり、音声スペクトルの変化と共に徐々に減少して、終了点において0.0になる。
(2−2−5)変換規則生成部24
変換規則生成部24では、音声素片の開始点の回帰行列Wと、終了点の回帰行列Wを、補間係数決定部23で得られた補間係数ω(t)、ω(t)に従って補間し、各スペクトルパラメータの回帰行列を求める。時刻tの回帰行列W(t)は、
Figure 0004966048
として求める。
(2−2−6)音声パラメータ変換部25
音声パラメータ変換部25では、このようにして定めた回帰行列による変換規則を用いて、実際に音声パラメータを変換する。
音声パラメータの変換は式(1)で表されるように、回帰行列を変換元話者のスペクトルパラメータに適用することにより行う。
図8はこの処理を表している。時刻tの変換元話者のスペクトルパラメータxに対し、式(6)により求めた回帰行列W(t)を適用し、変換先話者のスペクトルパラメータyを求める。
(2−3)効果
以上の処理により、声質変換部14では時間方向において確率的に補間された音声素片の声質変換を行うことができる。
(3)スペクトル補正部15
次に、スペクトル補正部15の処理について述べる。スペクトル補正部15の処理を、図9に示す。
まず、ステップ91において、声質変換部14において得られた変換先スペクトルパラメータから、変換先スペクトルを求める。
ステップ92において、この変換先スペクトルに対してさらに、スペクトル補正規則記憶部12に保持されているスペクトル補正規則を用いて補正し、補正スペクトルを得る。スペクトルの補正は、変換されたスペクトルに対して、補正フィルタを適用することにより行う。補正フィルタH(ejΩ)は、予めスペクトル補正規則学習部18において作成しておく。図10にスペクトル補正の例を示す。
ここで用いている補正フィルタは、変換先話者の平均スペクトルと、変換元話者のスペクトルパラメータを声質変換部14によって変換した補正元のスペクトルパラメータから得られる平均スペクトルとの比を求めたものであり、低周波成分を低減し高周波成分を増幅する特性をもつ。
変換元のスペクトルパラメータxが声質変換部14によって変換され、得られたスペクトルパラメータyから求めたスペクトルY(ejΩ)に補正フィルタH(ejΩ)を適用することにより、補正スペクトルYtc(ejΩ)を得る。
このフィルタにより、声質変換により得られたスペクトルパラメータのスペクトル特性をさらに変換先話者に近づけることができる。声質変換部14に示す補間モデルによる声質変換は、時間方向にはスムーズになるものの、変換先話者スペクトルへの変換性能は低下する場合がある。声質変換後にスペクトル補正フィルタを適用することにより、この変換性能の低下を補償することができる。
さらに、ステップ93において、変換先スペクトルのパワーを補正する。変換先スペクトルのパワーを変換元スペクトルのパワーにするためのパワーの比を求め、変換スペクトルにかけることにより、変換スペクトルのパワーを補正する。変換元スペクトルX(ejΩ)、補正後の変換先スペクトルYtc(ejΩ)からパワー比を求める場合、
Figure 0004966048
として求められる。
このパワー比Rを適用することにより、変換スペクトルのパワーは、変換元スペクトルのパワーになり、声質変換によってパワーが不安定になることを避けることができる。
変換元スペクトルのパワーに対し、変換元の平均パワーと変換先の平均パワーとの比をさらにかけ、変換先話者のパワーに近づけたパワーをパワーの補正値としてもよい。
図11にパワー補正の効果を示す。図は「いぬ(i−n−u)」という発声の音声波形を示している。変換元音声波形に対し、声質変換部14による変換と前述したスペクトル補正とを適用した波形が変換音声波形として示されている。
これに対して、変換元音声波形のパワーとなるように各ピッチ波形のスペクトルを補正したものが補正音声波形である。変換音声波形では「n−R」の部分などにおいて不自然なパワーが見られるのに対し、前述した処理により補正されることがわかる。
(4)音声波形生成部16
次に、音声波形生成部16では、得られた変換先スペクトルから音声波形を生成する。
得られた変換先スペクトルに適当な位相を与え、逆フーリエ変換することによりピッチ波形を生成し、得られたピッチ波形をピッチマークに重畳合成することにより波形が合成される。図12にこの処理を示す。
声質変換部14で得られた変換先スペクトルパラメータ(y、・・・、y)は、スペクトル補正部15でスペクトルを補正し、スペクトル包絡が得られる。
このスペクトル包絡からピッチ波形を生成し、さらにピッチマークに従って重畳することで、変換先音声素片が得られる。
ここでは、逆フーリエ変換によりピッチ波形を合成したが、適当な音源情報を与え、フィルタリングすることによりピッチ波形を再合成してもよい。LPC係数の場合は全極フィルタ、メルケプストラムの場合はMLSAフィルタにより、音源情報とスペクトル包絡パラメータからピッチ波形を合成することができる。
また、上述したスペクトル補正では周波数領域でフィルタリング等を行っているが、波形生成した後、時間領域でフィルタリング等を行ってもよい。この場合、声質変換部において変換されたピッチ波形を生成し、ピッチ波形に対してスペクトル補正を適用することになる。
以上の声質変換部14、スペクトル補正部15、音声波形生成部16の処理により変換元話者の音声素片に声質変換及びスペクトル補正を適用することで変換先音声素片が得られる。さらに変換先音声素片を接続することで、変換元話者の音声データに対応する変換先音声データを作成することができる。
(5)声質変換規則学習部17
次に、声質変換規則学習部17の処理について述べる。
声質変換規則学習部17では、変換先話者の少量の音声データと、変換元話者の音声素片データベースから声質変換規則を学習する。声質変換規則の学習時も声質変換部14で用いられている補間に基づく声質変換を仮定し、声質変換した際に誤差最小になるように回帰行列を求める。
(5−1)声質変換規則学習部17の構成
声質変換規則学習部17の構成を図13に示す。
声質変換規則学習部17は、変換元話者音声素片データベース131を持ち、声質変換規則学習データ作成部132と、音響モデル学習部133と、回帰行列学習部134から構成され、変換先話者の少量の音声データを用いて声質変換規則を学習する。
(5−2)声質変換規則学習データ作成部132
声質変換規則学習データ作成部132の処理を、図14に示す。
(5−2−1)変換先話者音声素片抽出部141
変換先話者音声素片抽出部141において、学習データとして与えられた変換先話者音声データは、音声素片抽出部13と同様の処理により音声素片に分割され、学習用の変換先話者音声素片となる。
(5−2−2)変換元話者音声素片選択部142
次に、変換元話者音声素片選択部142において、変換先話者の音声素片に対応する変換元話者の音声素片を変換元話者音声素片データベース131から選択する。
変換元話者音声素片データベース131は、図15に示すように、音声波形情報と属性情報とを保持している。
「音声波形情報」は、音声素片の番号と共に音声単位の音声波形を保持している。
「属性情報」は、音声波形の素片番号に対応する音韻、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境の情報を持つ。
音声素片の選択は、非特許文献2と同様に、コスト関数に基づいて行うことができる。コスト関数は、変換先話者音声素片と変換元話者音声素片との間の歪みを、属性の歪みによって推定する関数であり、各属性の歪みを表すサブコスト関数の線形結合として表される。属性としては、対数基本周波数、継続長、音韻環境、端点のスペクトルパラメータである接続境界ケプストラム等を用い、これらの歪みの重み付け和として音声素片間のコスト関数を定義する。
Figure 0004966048
ここで、C(u,u)は、属性情報毎のサブコスト関数(n:1,・・・,N、Nはサブコスト関数の数)であり、変換先話者の音声素片と変換元話者との音声素片の基本周波数の違い(差)を表す基本周波数コストC(u,u)、音韻継続時間長の違い(差)を表す音韻継続時間長コストC(u,u)、素片境界におけるスペクトルの違い(差)を表すスペクトルコストC(u,u)、C(u,u音韻環境の違い(差)を表す音韻環境コストC(u,u)、C(u,u)を用いる。wは各サブコストの重み、uは変換先話者の音声素片、uは変換元話者音声素片データベース131に含まれる変換元話者の音声素片のうち、uと同じ音韻の音声素片を表す。
変換元話者音声素片選択部142では、変換先話者音声データそれぞれに対して、変換元話者音声素片データベース131内の同じ音韻の音声素片の中からコスト最小となる音声素片を選択する。
(5−2−3)ペクトルパラメータマッピング部143
選択された変換元話者の音声素片が変換先話者の音声素片はピッチ波形数が異なるため、ペクトルパラメータマッピング部143において、ピッチ波形数を揃える処理を行う。
これは、DTW(動的時間伸縮)による方法、線形にマッピングする方法、区分線形関数でマッピングする方法などにより、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータを時間方向に対応付けることにより行う。
この結果、変換先話者の各スペクトルパラメータに対して、変換元話者のスペクトルパラメータが対応づけられる。これらの処理により、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを1対1対応させて、スペクトルパラメータの対を求め、これらを声質変換規則の学習データとする。
(5−3)音響モデル学習部133
次に、音響モデル学習部133において、声質変換規則記憶部11に保持する確率分布p(x)を作成する。p(x)は変換元話者の音声素片を学習データとして、最尤推定によって求める。
音響モデル学習部133のフローチャートを図17に示す。音響モデル学習部133は、端点VQによる初期値生成ステップ171と、出力分布選択ステップ172と、最尤推定ステップ173と、収束判定ステップ174の処理により行われ、収束判定ステップにおいては最尤推定による尤度の増分が予め与えた閾値以下となる場合に終了する。以下、順番に詳しく説明する。
まず、変換元話者の音声素片データベースに含まれる音声素片の両端の音声スペクトルを抽出し、ベクトル量子化によりクラスタリングする。LBGアルゴリズムによりクラスタリングを行うことができる。その後各クラスタの平均ベクトル及び共分散行列を計算する。これら、クラスタリングした結果作成される分布を、確率分布p(x)の初期値とする(図16)。
次にHMMによる補間モデルを仮定して、確率分布の最尤推定を行う。変換元話者音声素片データベースに含まれる音声素片それぞれについて、開始点及び終了点の音声パラメータに対して尤度最大となる確率分布を選択する。
このように選択された確率分布を、補間係数決定部23と同様にHMMの第1の状態の出力分布及び、第2の状態の出力分布として決定する。このように出力分布を決定し、EMアルゴリズムによるHMMの最尤推定により分布の平均ベクトル及び共分散行列、状態遷移確率の更新を行う。状態遷移確率は簡単のため固定値を用いてもよい。
尤度値が収束するまで更新を繰り返すことにより、HMMによる補間モデルを考慮した尤度最大となる確率分布p(x)が得られる。
更新のステップにおいて、出力分布の再選択をしてもよい。その場合、更新の各ステップにおいて、HMMの尤度が増加するように各状態の分布を再選択し、更新していく。尤度最大となる分布を選択する場合、HMMの尤度計算がK回(Kは分布数)必要となるため現実的ではない。端点のスペクトルパラメータに対して尤度最大となる出力分布を選択し、それによって音声素片に対するHMMの尤度が増加する場合のみ前の繰り返しに用いた分布から置き換えてもよい。
(5−4)回帰行列学習部134
回帰行列学習部134では、音響モデル学習部133において得られた確率分布に基づいて、回帰行列を学習する。回帰行列の計算は重回帰分析により行う。補間モデルを考えた場合、ある変換元スペクトルパラメータxから変換先スペクトルパラメータyを求める回帰行列による推定式は式(1)、式(6)より、
Figure 0004966048
となる。但し、W、Wはそれぞれ開始点、終了点における回帰行列であり、ω、ωはそれぞれの補間係数を表す。補間係数は、補間係数決定部23と同じ処理により求めることができる。この時、p次のパラメータy(p)に対する回帰行列の推定式は、
Figure 0004966048
として表される自乗誤差を最小とするWを求めることにより求められる。但し、式中Y(p)は、変換先スペクトルパラメータのp次のパラメータを並べたベクトルであり、
Figure 0004966048
但し、Mは学習データのスペクトルパラメータ数を表す。Xは、変換元スペクトルパラメータに重みを掛けたものを並べたベクトルであり、m番目の学習データに対して、kを開始点における回帰行列番号、kを終了点における回帰行列番号としたとき、Xは、k×P、k×P番目(但し、Pはベクトルの次数)のみ値をもつベクトル
Figure 0004966048
とし、これを並べた行列を
Figure 0004966048
としたとき、p次の係数に対する回帰係数W(p)は、
Figure 0004966048
として表される方程式を解くことにより求められる。ここで、W(p)は、
Figure 0004966048
但し、wk(p)は、図6に示す声質変換規則記憶部11に含まれるk番目の回帰行列のp行目の値を表す。式(12)を全ての次元について時、k番目の回帰行列に対する成分を並べることにより、
Figure 0004966048
として求めることができる。
以上の処理により回帰行列学習部134において、声質変換規則記憶部11に保持する確率分布及び、回帰行列を作成することができる。
(6)スペクトル補正規則学習部18
次に、スペクトル補正規則学習部18の処理を述べる。
スペクトル補正部15では、声質変換部14において変換し得られたスペクトルに対し補正を行う。補正としては上述したようにスペクトル補正及びパワーの補正を行う。
(6−1)スペクトル補正
スペクトル補正は、声質変換部14で得られた変換スペクトルパラメータをさらに変換先話者に近づけるように補正を行い、声質変換部14において補間モデルを仮定したことに起因する変換精度の低下を補償する。
スペクトル補正規則学習のフローチャートを図18に示す。スペクトル補正規則の学習も声質変換規則学習データ作成部132において得られた学習データ対を用いて行う。
まず、補正元平均スペクトル算出ステップ181において、補正元の平均スペクトルを算出する。変換元スペクトルパラメータを声質変換部14により変換して変換先スペクトルパラメータを得る。この得られた変換先スペクトルパラメータから求めるスペクトルが、補正元スペクトルである。声質変換規則学習データ作成部132において得られた学習データ対の変換元のスペクトルパラメータを変換して補正元スペクトルを求め、全学習データの平均値を求めることにより補正元平均スペクトルを得る。
次に、変換先平均スペクトル算出ステップ182において、変換先の平均スペクトルを求める。これは、補正元と同様に、声質変換規則学習データ作成部132において得られた学習データ対の変換先のスペクトルパラメータから変換先スペクトルを求め、全学習データの平均値を求めることにより得られる。
次に、スペクトル比算出ステップ183において、補正元平均スペクトルと、変換先平均スペクトルの比を求め、これをスペクトル補正規則とする。ここではスペクトルとしては振幅スペクトルを用いている。
変換先話者の平均音声スペクトルを、Yave(ejΩ)、補正元の平均音声スペクトルを、Y'ave(ejΩ)としたとき、平均スペクトル比H(ejΩ)は、振幅スペクトルの比として、式(17)により求める。
Figure 0004966048
(6−2)スペクトル補正規則
図19及び図20にスペクトル補正規則の例を示す。図19の太線は、変換先平均スペクトル、細線は補正元平均スペクトル、点線は変換元平均スペクトルを示している。
声質変換部14によって平均スペクトルは、変換元平均スペクトルから補正元平均スペクトルへと変換され、変換先話者平均スペクトルに近づくものの、一致せずに近似誤差が生じていることがわかる。
このずれを比率として表したものが図20に示した振幅スペクトル比である。この振幅スペクトル比を声質変換部14によって変換されたそれぞれのスペクトルに対して適用ことによりスペクトル形状を補正する。
スペクトル補正規則記憶部12は、このように作成した平均スペクトル比による補正フィルタを保持しており、図10に示したように、スペクトル補正部15においてこの補正フィルタを適用する。
また、スペクトル補正規則記憶部12には平均パワー比も保持してよい。この場合、変換先話者平均パワー及び、補正元平均パワーを求め、その比を保持する。パワー比Raveは、変換先平均スペクトルYave(ejΩ)及び、変換元平均スペクトルXave(ejΩ)から、
Figure 0004966048
として求められる。スペクトル補正部15においては、声質変換部14で得られたスペクトルパラメータから求めたスペクトルに対し、変換元スペクトルへのパワー補正を行い、さらに平均パワー比Raveをかけることにより、平均パワーを変換先話者に近づけることができる。
(7)効果
上述したように、本実施形態によれば回帰行列を確率的に補間することにより、時間方向に滑らかな声質変換が可能になり、かつ、変換した音声パラメータのスペクトルもしくはパワーを補正することにより、補間モデルを仮定することに起因する変換先話者への類似度の低下を低減する声質変換が可能になる。
(8)変更例
本実施形態においては、確率的な補間モデルを仮定したが、処理を簡略にするために線形補間を用いてもよい。
その場合、声質変換規則記憶部11は、図21に示すようにK個の回帰行列及び各回帰行列に対応した代表スペクトルパラメータを保持する。変換規則選択部11における回帰行列の選択は前記代表スペクトルパラメータを用いて行う。
図7と同様に、図22に示すようにT個のスペクトルパラメータx(1=<t=<T)に、開始点xにおける回帰行列はxと代表スペクトルパラメータとの距離最小のkに対応する回帰行列WをWとし、終了点における回帰行列はxと代表スペクトルパラメータとの距離最小のkに対応する回帰行列WをWとして選択することにより決定する。
次に、補間係数決定部23においては線形補間に基づいて補間係数を決定する。この場合、開始点の回帰行列に対する補間係数ω(t)は、
Figure 0004966048
として求められ、また終了点の回帰行列に対する補間係数ω(t)は、1−ω(t)として求めることができる。これらの補間係数を用いて、式(6)により時刻tの回帰行列W(t)を求めることができる。
線形補間を用いた場合の声質変換規則学習部17における、音響モデル学習部133においては、声質変換規則記憶部11に保持する代表スペクトルパラメータcを作成する。cは図17のステップ171において作成された端点VQによる初期値の平均ベクトルを用いることができる。
すなわち、変換元話者の音声素片データベースに含まれる音声素片の両端の音声スペクトルを抽出し、ベクトル量子化によりクラスタリングする。LBGアルゴリズムによりクラスタリングを行うことができる。その後、各クラスタのセントロイドをcとして保持することができる。
また、声質変換規則学習部17の回帰行列学習部134では、音響モデル学習部133において得られた代表スペクトルパラメータを用いて、回帰行列を学習する。回帰行列の計算は、上述した式(9)から式(16)と同様に行うことができる。式(9)から式(16)中のω及びωとして、式(3)、(4)の変わりに式(19)を用いることにより学習される。この場合、補間重み決定の際に変換元音声素片の各ピッチ波形の変化の度合いを考慮しないものの、声質変換時及び声質変換規則学習時の処理量を減少させることができる。
(第2の実施形態)
本発明の第2の実施形態に係わるテキスト音声合成装置について図23〜図28に基づいて説明する。このテキスト音声合成装置は、第1の実施形態に係わる声質変換装置を音声合成装置に適用したもので、任意文の入力に対して、変換先話者の声質をもつ合成音声を生成する。
(1)テキスト音声合成装置の構成
図23は、本実施形態に係わるテキスト音声合成装置を示すブロック図である。
テキスト音声合成装置は、テキスト入力部231、言語処理部232、韻律処理部233、音声合成部234、音声波形出力部235から構成される。
言語処理部232は、テキスト入力部231から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部233へ送る。
韻律処理部233は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部234へ送る。
音声合成部234は、音韻系列及び韻律情報から音声波形を生成する。
音声波形出力部235は、こうして生成された音声波形を出力する。
(2)音声合成部234
図24は、音声合成部234の構成例を示したものである。音声合成部234は、音韻系列・韻律情報入力部241、音声素片選択部242、音声素片編集・接続部243、音声波形出力部245と、変換先の音声素片及び属性情報を保持する変換先音声素片データベース244より構成される。
本実施形態においては、変換先音声素片データベース244は、変換元話者音声素片データベース131に含まれる各音声素片に対して、第1の実施形態に係わる声質変換装置の音声素片変換部1を用いて変換することによって得られる変換先の音声素片データベースであることを特徴としている。
(2−1)変換元話者音声素片データベース131
変換元話者音声素片データベース131は、第1の実施形態と同様に、変換元話者の音声データから作成した所定の音声単位に分割された音声素片及び属性情報が記憶されている。
音声素片は、図15に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されており、属性情報は、音韻(半音素名など)、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片選択242において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片及び属性情報は、変換先話者の素片抽出部、属性作成部の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。
(2−2)音声素片変換部1
音声素片変換部1では、変換元話者音声素片データベースに含まれる各音声素片に対して第1の実施形態に示した声質変換装置を用いて変換先話者の声質に変換した変換先音声素片データベース244を作成する。
音声素片変換部1では、変換元話者の各音声素片に対して、図1に示す声質変換処理を行う。すなわち、声質変換部14において音声素片の声質を変換し、スペクトル補正部15において、変換音声素片のスペクトルを補正し、音声波形生成部16においてピッチ波形を生成して重畳することにより変換先音声素片を得る。声質変換部14においては、音声パラメータ抽出部21、変換規則選択部22、補間係数決定部23、変換規則生成部24、音声パラメータ変換部25の処理により声質を変換し、さらにスペクトル補正部15においては、図9に示すスペクトル補正の処理によりスペクトルを補正し、音声波形生成部16においては、図12に示すの音声波形生成部の処理により変換音声素片を得る。このように得られた変換先音声素片とその属性情報を変換先音声素片データベース244に蓄積する。
(2−3)音声合成部234の詳細
音声合成部234では、音声素片データベース244から音声素片を選択し、音声合成を行う。
(2−3−1)音韻系列・韻律情報入力部241
音韻系列・韻律情報入力部241には、韻律処理部233から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部241に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
(2−3−2)音声素片選択部242
音声素片選択部242は、入力音韻系列の各音声単位に対し、入力韻律情報と、音声素片データベース244に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片データベース244に記憶されている音声素片の中から、音声素片を選択する。
ここで、合成音声の歪みの度合いは、音声素片データベース244に保持されている属性情報と音韻系列・韻律情報入力部241から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。
音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数C(u,ui−1,t)(n:1,・・・,N,Nはサブコスト関数の数)を定める。第1の実施例に記述されている式(8)のコスト関数は、2つの音声素片の間の歪みを測るためのコスト関数であり、ここで定義するコスト関数は入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。tは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t,・・・,t)としたときのi番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、uは変換先話者音声素片データベース244に記憶されている音声素片のうち、tと同じ音韻の音声素片を表す。
サブコスト関数は、変換先話者音声素片データベース244に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換先話者音声素片データベース244に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コストC(u,ui−1,t)、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストC(u,ui−1,t)、音声素片の音韻環境と、目標の音韻環境との違い(差)を表す音韻環境コストC(u,ui−1,t)を用いる。接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストC(u,ui−1,t)を用いる。
これらのサブコスト関数の重み付き和を音声単位コスト関数と定義する。
Figure 0004966048
ここで、wはサブコスト関数の重みを表す。本実施例では、簡単のため、wは全て「1」とする。上記式(20)は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。
入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(20)から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(21)に示すように定義する。
Figure 0004966048
音声素片選択部242では、上記式(21)に示したコスト関数を用いて、音声素片を選択する。ここでは、変換先話者音声素片データベース244に記憶されている音声素片のなかから、上記式(21)で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記音声単位コストと式(21)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
(2−3−3)音声素片編集・接続部243
音声素片編集・接続部243では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図25は、音声素片編集・接続部243の処理を説明するための図である。図25では、「あいさつ」という合成音声の音素「a」の音声波形を生成する例を示している。上から選択された音声素片、ピッチ波形抽出のためのハニング窓、ピッチ波形及び合成音声を示している。合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。
このピッチマークにしたがって所定の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数及び音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。
(3)効果
上述したように、本実施形態では、第1の実施例に示す声質変換装置における音声素片変換部1により変換した変換先話者音声素片データベースを用いて、素片選択型の音声合成を行うことが可能になり、任意の入力文章に対応する合成音声を生成することができる。
すなわち、変換先話者の少量のデータを用いて作成した声質変換規則を、変換元話者の音声素片データベース中の各音声素片に適用して変換先話者の音声素片データベースを作成し、該変換先話者音声素片データベースから音声を合成することにより変化先話者の声質を持つ任意文の合成音を得ることができる。
また、本実施形態によれば、変換規則の補間に基づく時間方向に滑らかな声質変換を適用することができ、さらにスペクトル補正を行うことにより自然な声質変換を、変換元話者の音声素片データベースに適用することにより得られる変換先音声素片データベースから音声を合成することができ、自然な変換先話者の合成音声が得られる。
(4)変更例1
本実施形態では、声質変換規則を事前に変換元話者音声素片データベースの各音声素片に適用したが、合成時に声質変換規則を適用してもよい。
(4−1)構成
この場合、音声合成部234は図26に示すように、変換元話者音声素片データベース131を保持する。
音声合成時には、音韻系列・韻律情報入力部261において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、音声素片選択部262において、変換元話者音声素片データベースから式(21)より算出されたコストの値を最小化するように音声素片を選択し、音声素片変換部263において、選択された音声素片の声質を変換する。
音声素片変換部263における声質変換は、図1に示す音声素片変換部1に示す処理により行うことができる。
その後、変換された音声素片を音声素片編集・接続部264において、韻律の変更及び接続を行い合成音声が得られる。
(4−2)効果
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、音声素片変換部1によって合成に用いる音声素片の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先音声素片データベースを保持する必要がなくなる。
このため、さまざまな話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者へ変換する声質変換規則及びスペクトル補正規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。
また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、あらたな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。
(5)変更例2
本実施形態では、素片選択型の音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。複数素片選択・融合型の音声合成に声質変換を適用してもよい。
この場合の音声合成装置を図27に示す。
音声素片変換部1において変換元話者音声素片データベース131を変換し、変換先話者音声素片データベース244を作成する。
音声合成部234では、音韻系列・韻律情報入力部271において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部272において音声素片データベースから式(21)より算出されたコストの値に基づいて音声単位毎に複数の音声素片を選択する。
そして、複数音声素片融合部273において、選択された複数の音声素片を融合して融合音声素片を作成し、作成された融合音声素片を、融合音声素片編集・接続部274において韻律の変更及び接続を行い合成音声の音声波形を生成する。
複数素片選択部272の処理及び、複数音声素片融合部273の処理は(特開2005‐164749公報参照)に示されている方法により行うことができる。
複数素片選択部272では、まず式(21)のコスト関数の値を最小化するようにDPアルゴリズムを用いて最適音声素片系列を選択する。
その後、各音声単位に対応する区間において、前後の隣の音声単位区間の最適音声素片との接続コスト及び該当する区間の入力された属性との目標コストとの和をコスト関数として、変換先話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト関数の値の小さい順に、複数の音声素片を選択する。
このように、選択した複数の音声素片は、複数音声素片融合部において融合され、選択された複数の音声素片を代表する音声素片を得る。音声素片融合は、選択された各音声素片からピッチ波形を抽出し、抽出したピッチ波形の波形数をピッチ波形の複製や削除を行うことにより目標とする韻律から生成したピッチマークに揃え、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより行うことができる。この融合音声素片を融合音声素片編集・接続部274において、韻律の変更及び接続を行い合成音声の音声波形が生成される。複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。
(6)変更例3
また、本実施形態では、予め声質変換規則を適用することにより作成した音声素片データベースを保持する複数素片選択・融合型の音声合成について述べたが、変換元話者音声素片データベースから複数の音声素片を選択し、選択された複数の音声素片を声質変換し、変換した複数の音声素片を融合することにより融合音声素片を作成し、編集・接続することにより音声を合成してもよい。
(6−1)構成
この場合、音声合成部234は図28に示すように、変換元話者音声素片データベース131と共に、第1の実施形態に係わる声質変換装置における声質変換規則及びスペクトル補正規則を保持する。
音声合成時には、音韻系列・韻律情報入力部281において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部282において、図27の複数音声素片選択部272と同様に、変換元話者音声素片データベース131から音声単位毎に複数の音声素片を選択する。
選択された複数の音声素片は、音声素片変換部283において、変換先話者の声質を持つ音声素片に変換される。音声素片変換部283の処理は図1の音声素片変換部1と同様の処理により行う。
その後、変換された音声素片を複数音声素片融合部284において融合し、音声素片編集・接続部285において、韻律の変更及び接続を行い合成音声の音声波形が生成される。
(6−2)効果
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者の声質の音声素片データベースを保持する必要がなくなる。
このため、さまざまな話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者の声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。
また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、あらたな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。
また、複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。
(7)変更例4
また、本実施形態では素片選択型音声合成及び複数素片選択・融合型の音声合成に対して第1の実施形態に係わる声質変換装置を適用したが、これに限定するものではない。
例えば、素片学習型音声合成の一つである閉ル―プ学習に基づく音声合成装置(特許第3281281号公報参照)に適用することもできる。
素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。
この場合、学習データとなる音声素片を声質変換し変換音声素片から代表音声素片を学習することにより声質変換を適用することができる。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。
また、第1及び第2の実施形態においては、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。但し、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。
(8)変更例5
なお、本発明は上記第1及び第2の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係わる声質変換装置の構成を示すブロック図である。 声質変換部13の構成を示すブロック図である。 音声素片抽出部12の動作を示すフローチャートである。 音声素片抽出部12におけるラベリング及びピッチマーキングの例を示す図である。 音声素片及び音声素片からのスペクトルパラメータ抽出の例を示す図である。 声質変換規則記憶部11の例を示す図である。 声質変換部14の処理を示す図である。 音声パラメータ変換部25の処理の例を示す図である。 スペクトル補正部15の動作を示すフローチャートである。 スペクトル補正部15の処理の例を示す図である。 スペクトル補正部15の処理の例を示す図である。 音声波形生成部15の処理の例を示す図である。 声質変換規則学習部17の構成を示すブロック図である。 声質変換規則学習データ作成部132の構成を示すブロック図である。 変換元話者音声素片データベースの波形情報及び属性情報の例を示す図である。 音響モデル学習部の処理の例を示す図である。 音響モデル学習部の動作を示すフローチャートである。 スペクトル補正規則学習部18の動作を示すフローチャートである。 スペクトル補正規則学習部18の処理の例を示す図である。 スペクトル補正規則学習部18の処理の例を示す図である。 声質変換規則記憶部11の例を示す図である。 声質変換部14の処理を示す図である。 本発明の第2の実施形態に係わる音声合成装置の構成を示すブロック図である。 音声合成部234の構成を示すブロック図である。 音声素片編集・接続部283の動作の例を示す図である。 音声合成部234の構成を示すブロック図である。 音声合成部234の構成を示すブロック図である。 音声合成部234の構成を示すブロック図である。
符号の説明
1・・・音声素片変換部
11・・・声質変換規則記憶部
12・・・スペクトル補正規則記憶部
13・・・音声素片抽出部
14・・・声質変換部
15・・・スペクトル補正部
16・・・音声波形生成部
17・・・声質変換規則学習部
18・・・スペクトル補正規則学習部
21・・・音声パラメータ抽出部
22・・・変換規則選択部
23・・・補間係数決定部
24・・・変換規則性西部
25・・・音声パラメータ変換部

Claims (14)

  1. 元話者の音声を先話者の音声に変換する声質変換装置において、
    前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成部と、
    前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出部と、
    前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶部と、
    (1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択する変換関数選択部と、
    前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定部と、
    前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成部と、
    前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換部と、
    前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成部と、
    を有する声質変換装置。
  2. 前記変関数選択部は、前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の確率分布を選択して第1の状態の確率分布とし、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の確率分布を選択して第2の状態の確率分布とし、left−right型の隠れマルコフモデルを構築し、
    前記補間係数決定部は、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を、前記隠れマルコフモデルに基づいて決定する
    請求項1記載の声質変換装置。
  3. 前記補間係数決定部は、前記始点の時刻から前記終点の時刻の間の各時刻に応じて、線形に変化する重みによって補間係数を決定する
    請求項1記載の声質変換装置。
  4. 前記先話者の各時刻のスペクトルと前記元話者の各時刻のスペクトルとから求めるスペクトル補正量、または、予め格納されているスペクトル補正量の少なくとも一方を用いて、前記先話者の各時刻のスペクトルを補正するためのスペクトル補正量を求めるスペクトル補正量算出部と、
    前記先話者の各時刻のスペクトルパラメータから得られるそれぞれのスペクトルを、前記スペクトル補正量に基づいて補正するスペクトル補正部と、
    をさらに有し、
    前記音声波形生成部は、前記補正した前記先話者の各時刻のスペクトルから前記先話者の音声波形を生成する
    請求項1記載の声質変換装置。
  5. 前記変換関数記憶部に記憶されている前記変換関数を学習する変換関数学習部を有し、
    前記変換関数学習部は、
    前記元話者の学習用元話者音声素片を格納する元話者音声素片記憶部と、
    前記先話者の音声を音声単位に区切って前記先話者音声素片を得る先話者音声素片生成部と、
    前記学習用元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルを用いて変換関数選択パラメータを作成する変換関数選択パラメータ作成部と、
    前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
    前記元話者音声素片の開始時刻におけるスペクトルパラメータに対する変換規則である始点変換関数、及び、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対する変換規則である終点変換関数を選択する変換規則選択部と、
    前記先話者音声素片内の各スペクトルパラメータに対応する前記始点の変換関数、及び、前記終点の変換関数の補間係数を決める補間係数決定部と、
    前記先話者音声素片内の各スペクトルパラメータと、前記選択された前記元話者音声素片の各スペクトルパラメータとをそれぞれ対応づけるスペクトルパラメータ対応付け部と、
    前記対応づけられたスペクトルパラメータ及び前記補間係数を用いて前記変換関数を作成する変換規則作成部と、
    を有する請求項1記載の声質変換装置。
  6. 前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応するスペクトルパラメータの確率分布を記憶し、
    前記変換関数選択部は、
    前記隠れマルコフモデルを構築する構築部と、
    前記始点の確率分布に対応する変換関数を前記始点の変換関数として前記変換関数記憶部から選択する始点変換関数選択部と、
    前記終点の確率分布に対応する変換関数を前記終点の変換関数として前記変換関数記憶部から選択する点変換関数選択部と、
    を有し、
    前記補間係数決定部は、
    前記元話者音声素片内の各時刻のスペクトルパラメータに対応した前記隠れマルコフモデルの第1の状態において出力される確率を求めて始点類似度とし、前記隠れマルコフモデルの第2の状態において出力される確率を求めて終点類似度とする類似度算出部と、
    前記始点類似度及び終点類似度を補間係数とする類似度決定部と、
    を有する請求項2記載の声質変換装置。
  7. 前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応する代表スペクトルパラメータを記憶し、
    前記変換関数選択部は、前記元話者音声素片の開始時刻及び終了時刻におけるスペクトルパラメータから代表スペクトルパラメータをそれぞれ選択し、前記代表スペクトルパラメータに対応する変換関数を始点の変換関数及び前記終点の変換関数として選択し、
    前記補間係数決定部は、前記始点の変換関数及び前記終点の変換関数の線形補間により補間係数を決定する、
    請求項1記載の声質変換装置。
  8. 前記スペクトル補正部は、
    前記元話者の学習用元話者音声素片を格納する元話者記憶部と、
    前記先話者の音声を音声単位に区切って前記先話者の音声素片を得る先話者音声素片生成部と、
    前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
    前記スペクトルパラメータ変換部により前記元話者音声素片の各時刻のスペクトルパラメータを前記先話者のスペクトルパラメータにそれぞれ変換し、これら変換した各時刻におけるスペクトルパラメータに対応する各スペクトルを平均して第1平均スペクトルを求める第1平均スペクトル抽出部と、
    前記先話者音声素片の各時刻のスペクトルを求め、前記各時刻のスペクトルを平均して第2平均スペクトルを求める第2平均スペクトル抽出部と、
    前記第1平均スペクトルを前記第2平均スペクトルに補正する平均スペクトル補正量を、前記スペクトル補正量として格納する補正量作成部と、
    を有する請求項記載の声質変換装置。
  9. 前記スペクトル補正部は、
    前記スペクトルパラメータ変換部において変換したスペクトルパラメータから得られる変換先スペクトルの変換先パワー情報、または、前記平均スペクトル補正量を用いて補正した変換先スペクトルの変換先パワー情報を求める変換先パワー情報抽出部と、
    前記元話者音声素片の各時刻のスペクトルのパワー情報を求める変換元パワー情報抽出部と、
    前記変換先パワー情報を前記変換元パワー情報に基づいて補正するパワー情報補正量を求めるパワー情報補正量作成部と、
    前記パワー情報補正量を用いて前記変換先スペクトルを補正するパワー補正部と、
    を有する請求項記載の声質変換装置。
  10. 前記変換関数は、前記先話者スペクトルパラメータを、前記元話者スペクトルパラメータから予測する回帰行列である、
    請求項1記載の声質変換装置。
  11. 入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成単位作成部と、
    元話者音声素片を記憶する元話者音声素片記憶部と、
    前記元話者音声素片記憶部から前記テキスト素片に対応する1つ、または、複数の元話者音声素片を選択する音声素片選択部と、
    前記1つの元話者音声素片、または、前記複数の元話者音声素片を融合して得られる融合音声素片を元話者代表音声素片とする代表音声素片作成部と、
    前記元話者代表音声素片を請求項1記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
    前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
    を有する音声合成装置。
  12. 元話者音声素片を記憶する元話者音声素片記憶部と、
    前記元話者代表音声素片を請求項1記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
    前記変換した先話者代表音声素片を記憶する先話者音声素片記憶部と、
    入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成素片作成部と、
    前記先話者音声素片記憶部から前記テキスト素片に対応する1つ、または、複数の先話者代表音声素片を選択する音声素片選択部と、
    前記1つの先話者代表音声素片、または、前記複数の先話者代表音声素片を融合して得られる融合音声素片を先話者代表音声素片とする代表音声素片作成部と、
    前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
    を有する音声合成装置。
  13. 元話者の音声を先話者の音声に変換する声質変換方法において、
    前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成ステップと、
    前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出ステップと、
    前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶ステップと、
    (1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択する変換関数選択ステップと、
    前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定ステップと、
    前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成ステップと、
    前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換ステップと、
    前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成ステップと、
    を有する声質変換方法。
  14. 元話者の音声を先話者の音声に変換する声質変換プログラムにおいて、
    前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成機能と、
    前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出機能と、
    前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶機能と、
    (1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択する変換関数選択機能と、
    前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定機能と、
    前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成機能と、
    前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換機能と、
    前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成機能と、
    をコンピュータに実現させるための声質変換プログラム。
JP2007039673A 2007-02-20 2007-02-20 声質変換装置及び音声合成装置 Active JP4966048B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007039673A JP4966048B2 (ja) 2007-02-20 2007-02-20 声質変換装置及び音声合成装置
US12/017,740 US8010362B2 (en) 2007-02-20 2008-01-22 Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007039673A JP4966048B2 (ja) 2007-02-20 2007-02-20 声質変換装置及び音声合成装置

Publications (2)

Publication Number Publication Date
JP2008203543A JP2008203543A (ja) 2008-09-04
JP4966048B2 true JP4966048B2 (ja) 2012-07-04

Family

ID=39707418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007039673A Active JP4966048B2 (ja) 2007-02-20 2007-02-20 声質変換装置及び音声合成装置

Country Status (2)

Country Link
US (1) US8010362B2 (ja)
JP (1) JP4966048B2 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US7847341B2 (en) * 2006-12-20 2010-12-07 Nanosys, Inc. Electron blocking layers for electronic devices
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
ES2898865T3 (es) * 2008-03-20 2022-03-09 Fraunhofer Ges Forschung Aparato y método para sintetizar una representación parametrizada de una señal de audio
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
CN102227770A (zh) * 2009-07-06 2011-10-26 松下电器产业株式会社 音质变换装置、音高变换装置及音质变换方法
JP5535241B2 (ja) * 2009-12-28 2014-07-02 三菱電機株式会社 音声信号復元装置および音声信号復元方法
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
JP6048726B2 (ja) * 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
JP2015040903A (ja) * 2013-08-20 2015-03-02 ソニー株式会社 音声処理装置、音声処理方法、及び、プログラム
US9613620B2 (en) 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
JP6499305B2 (ja) 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN105390141B (zh) * 2015-10-14 2019-10-18 科大讯飞股份有限公司 声音转换方法和装置
JP6821970B2 (ja) 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
KR20180050947A (ko) 2016-11-07 2018-05-16 삼성전자주식회사 대표 파형 제공 장치 및 방법
US10163451B2 (en) * 2016-12-21 2018-12-25 Amazon Technologies, Inc. Accent translation
KR20230018538A (ko) * 2017-05-24 2023-02-07 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
JP7082357B2 (ja) * 2018-01-11 2022-06-08 ネオサピエンス株式会社 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
CN108108357B (zh) * 2018-01-12 2022-08-09 京东方科技集团股份有限公司 口音转换方法及装置、电子设备
JP6876641B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP7147211B2 (ja) * 2018-03-22 2022-10-05 ヤマハ株式会社 情報処理方法および情報処理装置
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
US11605371B2 (en) * 2018-06-19 2023-03-14 Georgetown University Method and system for parametric speech synthesis
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
US11410684B1 (en) * 2019-06-04 2022-08-09 Amazon Technologies, Inc. Text-to-speech (TTS) processing with transfer of vocal characteristics
CN110223705B (zh) * 2019-06-12 2023-09-15 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
WO2021127985A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音转换方法、***、装置及存储介质
CN111613224A (zh) * 2020-04-10 2020-09-01 云知声智能科技股份有限公司 一种个性化语音合成方法及装置
WO2022076923A1 (en) 2020-10-08 2022-04-14 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112397047A (zh) * 2020-12-11 2021-02-23 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及可读存储介质
CN112786018B (zh) * 2020-12-31 2024-04-30 中国科学技术大学 语音转换及相关模型的训练方法、电子设备和存储装置
JP7069386B1 (ja) * 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP2898568B2 (ja) * 1995-03-10 1999-06-02 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
JP3240908B2 (ja) * 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
JPH10254473A (ja) * 1997-03-14 1998-09-25 Matsushita Electric Ind Co Ltd 音声変換方法及び音声変換装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP3703394B2 (ja) 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
US6915261B2 (en) * 2001-03-16 2005-07-05 Intel Corporation Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
FR2853125A1 (fr) * 2003-03-27 2004-10-01 France Telecom Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.
JP2005121869A (ja) * 2003-10-16 2005-05-12 Matsushita Electric Ind Co Ltd 音声変換関数抽出装置およびそれを用いた声質変換装置
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
JP4241736B2 (ja) 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法

Also Published As

Publication number Publication date
US8010362B2 (en) 2011-08-30
US20080201150A1 (en) 2008-08-21
JP2008203543A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4966048B2 (ja) 声質変換装置及び音声合成装置
JP4241736B2 (ja) 音声処理装置及びその方法
CN107924678B (zh) 语音合成装置、语音合成方法及存储介质
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US9009052B2 (en) System and method for singing synthesis capable of reflecting voice timbre changes
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP3913770B2 (ja) 音声合成装置および方法
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
Nose et al. Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency
CN112216293A (zh) 一种音色转换方法和装置
JP4476855B2 (ja) 音声合成装置及びその方法
JP5198200B2 (ja) 音声合成装置及び方法
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120330

R151 Written notification of patent or utility model registration

Ref document number: 4966048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350