JP4246792B2

JP4246792B2 - 声質変換装置および声質変換方法

Info

Publication number: JP4246792B2
Application number: JP2008542127A
Authority: JP
Inventors: 良文廣瀬; 孝浩釜井; 弓子加藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-05-14
Filing date: 2008-05-08
Publication date: 2009-04-02
Anticipated expiration: 2028-05-08
Also published as: JPWO2008142836A1; CN101578659B; WO2008142836A1; US20090281807A1; CN101578659A; US8898055B2

Description

本発明は音声の声質を変換する声質変換装置および声質変換方法に関し、特に、入力音声の声質を目標とする話者の音声の声質に変換する声質変換装置および声質変換方法に関する。

近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。

しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の用途が中心であった。

一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声（個人再現性の高い合成音、および女子高生風または関西弁風などの特徴的な韻律・声質をもつ合成音）が一つのコンテンツとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が今後高まることが考えられる。

ところで、音声を合成する方式としては、大別して次の２つの方式がある。つまり、予め用意した音声素片ＤＢ（データベース）から適切な音声素片を選択して接続することにより音声を合成する波形接続型音声合成方法と、音声を分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法とである。

前述した合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片ＤＢを必要な声質の種類だけ用意し、音声素片ＤＢを切り替えながら素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。

一方、分析合成型音声合成方法では、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。パラメータの変形の方法としては、同一の発話内容である異なる２発話を用いて変換する方法がある。

特許文献１は、ニューラルネットなどの学習モデルを用いる分析合成型音声合成方法の一例を示す。

図１は、特許文献１の感情付与方法を用いた音声処理システムの構成を示す図である。

この図に示す音声処理システムは、音響的分析部２と、スペクトルのＤＰ（Dynamic Programming）マッチング部４と、各音素の時間長伸縮部６と、ニューラルネットワーク部８と、規則による合成パラメータ生成部と、時間長伸縮部と、音声合成システム部とを備えている。音声処理システムは、ニューラルネットワーク部８により無感情な音声の音響的特徴パラメータを、感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、学習済みの当該ニューラルネットワーク部８を用いて無感情な音声に感情を付与する。

スペクトルのＤＰマッチング部４は、音響的分析部２で抽出された特徴パラメータのうち、スペクトルの特徴パラメータについて無感情な音声と感情を伴った音声との間の類似度を時々刻々調べ、同一の音素毎の時間的な対応をとることによって無感情音声に対する感情音声の音素毎の時間的な伸縮率を求める。

各音素の時間長伸縮部６は、スペクトルのＤＰマッチング部４で得られた音素毎の時間的な伸縮率に応じて、感情音声の特徴パラメータの時系列を時間的に正規化して無感情音声に合うようにする。

ニューラルネットワーク部８は、学習時においては、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータと出力層に与えられる感情音声の音響的特徴パラメータとの違いを学習する。

また、ニューラルネットワーク部８は、感情の付与時においては、学習時に決定されたネットワーク内部の重み係数を用いて、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータから感情音声の音響的特徴パラメータを推定する計算を行なう。以上により、学習モデルに基づいて無感情音声から感情音声への変換を行うものである。

しかしながら、特許文献１の技術では、予め決められた学習用文章と同一の内容を目標とする感情を伴った発声で収録する必要がある。したがって、特許文献１の技術を話者変換に用いる場合には、目標とする話者に予め決められた学習用文章を全て発話してもらう必要がある。したがって、目標話者に対する負担が大きくなるという課題がある。

予め決められた学習用文章を発話しなくても良い方法として、特許文献２に記載の方法がある。特許文献２に記載の方法は、同一の発話内容をテキスト合成装置により合成し、合成された音声と目標音声との差分により、音声スペクトル形状の変換関数を作成するものである。

図２は、特許文献２の声質変換装置の構成図である。

目標話者の音声信号が目標話者音声入力部１１ａに入力され、音声認識部１９は、目標話者音声入力部１１ａに入力された目標話者音声を音声認識し、目標話者音声の発声内容を発音記号とともに発声記号列入力部１２ａへ出力する。音声合成部１４は、入力された発音記号列に従って、音声合成用データ記憶部１３内の音声合成用データベースを用いて合成音を作成する。目標話者音声特徴パラメータ抽出部１５は、目標話者音声を分析して特徴パラメータを抽出し、合成音特徴パラメータ抽出部１６は、作成された合成音を分析して特徴パラメータを抽出する。変換関数生成部１７は、抽出された双方の特徴パラメータを用い、合成音のスペクトル形状を目標話者音声のスペクトル形状に変換する関数を生成する。声質変換部１８は、生成された変換関数により、入力信号の声質変換を行う。

以上により、目標話者音声の音声認識結果を合成音生成のための発音記号列として音声合成部１４に入力するため、ユーザがテキスト等で発音記号列を入力する必要が無く、処理の自動化を図ることが可能となる。

また、少ないメモリ容量で複数の声質を生成することができる音声合成装置として、特許文献３の音声合成装置がある。特許文献３に係る音声合成装置は、素片記憶部と、複数の母音素片記憶部と、複数のピッチ記憶部とを含む。素片記憶部は、母音の渡り部分を含む子音素片を保持している。各母音素片記憶部は、一人の発話者の母音素片を記憶している。複数のピッチ記憶部は、母音素片のもととなった発話者の基本ピッチをそれぞれ記憶している。

音声合成装置は、指定された話者の母音素片を複数の母音素片記憶部の中から読出し、素片記憶部に記憶されている予め決定されてた子音素片と接続することにより、音声を合成する。これにより、入力音声の声質を指定された話者の声質に変換することができる。
特開平７−７２９００号公報（第３−８頁、図１）特開２００５−２６６３４９号公報（第９−１０頁、図２）特開平５−２５７４９４号公報

特許文献２の技術では、目標話者の発話した内容を音声認識部１９により認識することにより発音記号列を生成し、標準の音声合成用データ記憶部１３に保持されたデータを用いて音声合成部１４が合成音を合成することになる。しかしながら、音声認識部１９は一般に認識誤りを生じることは避けられないという問題があり、変換関数生成部１７で作成される変換関数の性能に大きな影響を与えることは避けられない。また、変換関数生成部１７により作成された変換関数は、音声合成用データ記憶部１３に保持された音声の声質から目標話者の声質への変換関数である。このため、声質変換部１８により変換される被変換入力信号は、音声合成用データ記憶部１３の声質と同一か、あるいは非常に類似した声質の音声信号でない場合、変換後出力信号が目標話者の声質に必ずしも一致しないという課題がある。

また、特許文献３に係る音声合成装置は、目標母音の１フレーム分の声質特徴を切り替えることにより、入力音声の声質変換を行っている。このため、予め登録された話者の声質にしか入力音声の声質を変換することができず、複数の話者の中間的な声質の音声を生成することができない。また、１フレーム分の声質特徴のみを使用して声質の変換を行うため、連続発声における自然性の劣化が大きいという課題がある。

さらに、特許文献３に係る音声合成装置では、母音素片の置き換えにより母音特徴が大きく変換された場合、予め一意に決定されている子音特徴と変換後の母音特徴との差が大きくなる場合が存在する。このような場合、両者の差を小さくするために、たとえ母音特徴および子音特徴の間を補間したとしても、合成音の自然性が大きく劣化するという課題がある。

本発明は、前記従来の課題を解決するもので、被変換入力信号に対する制約のない声質変換が可能な声質変換方法および声質変換方法を提供することを目的とする。

また、本発明は、目標話者の発話の認識誤りによる影響を受けることなく、被変換入力信号に対する声質変換が可能な声質変換方法および声質変換装置を提供することを目的とする。

本発明のある局面に係る声質変換装置は、入力音声に対応する情報を用いて入力音声の声質を変換する声質変換装置であって、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部とを備える。

この構成によると、目標母音声道情報保持部に保持されている目標母音声道情報を用いて声道情報の変換を行なっている。このように、目標母音声道情報を絶対的な目標として利用することができるため、変換元の音声の声質にまったく制限がなく、どのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して声質を変換することが可能となる。

好ましくは、上述の声質変換装置は、さらに、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、前記目標となる声質以外の声質を含む子音の声道情報の中から、前記音素境界情報付声道情報に含まれる子音と同じ音素の子音の声道情報を導出する子音声道情報導出部を備え、前記合成部は、前記母音変換部による変換後の母音の声道情報と、前記子音声道情報導出部において導出された子音の声道情報とを用いて、音声を合成する。

さらに好ましくは、前記子音声道情報導出部は、子音毎に、複数の話者の音声から抽出された声道情報を保持する子音声道情報保持部と、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報に適合する当該子音と同じ音素の子音を有する声道情報を、前記子音声道情報保持部に保持されている子音の声道情報から選択する子音選択部とを有する。

さらに好ましくは、前記子音選択部は、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性に基づいて、当該子音と同じ音素の子音を有する声道情報を前記子音声道情報保持部に保持されている子音の声道情報から選択する。

これにより、変換後の母音の声道情報に適合した最適な子音声道情報を使用することが可能となる。

さらに好ましくは、上述の声質変換装置は、さらに、目標となる声質への変換の度合いを示す変換比率を入力する変換比率入力部を備え、前記母音変換部は、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報と、前記変換比率入力部で入力された前記変換比率とを受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数とを前記変換比率で結合することにより前記第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する。

これにより、目標となる声質の強調度合いを制御することができる。

さらに好ましくは、前記目標母音声道情報保持部は、目標となる声質の音声から安定した母音区間を検出する安定母音区間抽出部と、安定した母音区間から目標となる声道情報を抽出する目標声道情報作成部とにより作成された目標母音声道情報を保持する。

また、目標となる声質の声道情報としては、安定した母音区間の声道情報のみを保持すればよい。また、目標話者の発話の認識時には母音安定区間においてのみ音素認識を行えばよい。このため、目標話者の発話の認識誤りが起こらない。よって、目標話者の認識誤りによる影響を受けることなく、被変換入力信号に対する声質変換が可能となる。

本発明の他の局面に係る声質変換システムは、被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、サーバと、前記サーバとネットワークを介して接続される端末とを備える。前記サーバは、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、前記目標母音声道情報保持部に保持された目標母音声道情報を、ネットワークを介して前記端末に送信する目標母音声道情報送信部と、被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、前記被変換音声保持部に保持された被変換音声情報をネットワークを介して前記端末に送信する被変換音声情報送信部とを備える。前記端末は、前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、前記被変換音声情報送信部より送信された前記被変換音声情報を受信する被変換音声情報受信部と、前記被変換音声情報受信部により受信された被変換音声情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部とを備える。

端末を利用するユーザは、被変換音声情報と母音目標声道情報とをダウンロードして、端末で被変換音声情報の声質変換を行うことができる。例えば、被変換音声情報が音声コンテンツの場合には、ユーザは、自分の好みにあった声質で音声コンテンツを再生することができるようになる。

本発明のさらに他の局面に係る声質変換システムは、被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、端末と、前記端末とネットワークを介して接続されるサーバとを備える。前記端末は、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報を作成する目標母音声道情報作成部と、前記目標母音声道情報作成部で作成された前記目標母音声道情報をネットワークを介して前記端末に送信する目標母音声道情報送信部と、前記サーバから、声質変換後の音声を受信する声質変換音声受信部と、前記声質変換音声受信部が受信した前記声質変換後の音声を再生する再生部とを備える。前記サーバは、被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、前記被変換音声情報保持部に保持されている被変換音声情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と、合成部において合成された後の音声を、声質変換後の音声として、ネットワークを介して前記声質変換音声受信部に送信する合成音声送信部とを備える。

端末が目標母音声道情報を作成および送信し、サーバにより声質変換された音声を受信および再生する。このため、端末では目標となる母音の声道情報を作成するだけでよく、処理負荷が非常に小さくできる。また、端末のユーザは自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。

なお、本発明は、このような特徴的な手段を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な手段をステップとする声質変換方法として実現したり、声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明によると、目標話者の情報として、母音安定区間の情報のみを用意すればよく、目標話者に対する負担を非常に小さくできる。例えば、日本語の場合、５つの母音を用意するだけで良い。よって、声質変換を容易に行なうことができる。

また、目標話者の情報として、母音安定区間のみの声道情報を識別すればよいので、特許文献２の従来技術のように目標話者の発声全体を認識する必要がなく、音声認識誤りによる影響が少ない。

また、特許文献２の従来技術では、音声合成部の素片と目標話者の発声との差分により変換関数を作成したため、被変換音声の声質は、音声合成部が保持している素片の声質に同一か類似している必要があるが、本発明の声質変換装置は、目標話者の母音声道情報を絶対値としての目標としている。このため、変換元の音声の声質は、制限がなくどのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して声質を変換することが可能となる。

また、目標話者に関する情報は母音安定区間の情報のみを保持しておけばよいので、非常に小さなメモリ容量でよいことから、携帯端末やネットワークを介したサービスなどに利用することが可能である。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図３は、本発明の実施の形態１に係る声質変換装置の構成図である。

実施の形態１に係る声質変換装置は、入力音声の母音の声道情報を入力された変換比率で目標話者の母音の声道情報に変換することにより、入力音声の声質を変換する装置であり、目標母音声道情報保持部１０１と、変換比率入力部１０２と、母音変換部１０３と、子音声道情報保持部１０４と、子音選択部１０５と、子音変形部１０６と、合成部１０７とを含む。

目標母音声道情報保持部１０１は、目標話者が発声した母音から抽出した声道情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等より構成される。

変換比率入力部１０２は、声質変換を行う際の目標話者への変換比率を入力する処理部である。

母音変換部１０３は、入力された音素境界情報付声道情報に含まれる各母音区間に対して、音素境界情報付声道情報の、目標母音声道情報保持部１０１に保持されている当該母音区間に対応する母音の声道情報への変換を、変換比率入力部１０２により入力された変換比率に基づいて行なう処理部である。なお、音素境界情報付声道情報とは、入力音声の声道情報に音素ラベルが付された情報である。音素ラベルとは、入力音声に対応する音素情報と各音素の時間長の情報とを含む情報である。音素境界情報付声道情報の生成方法については後述する。

子音声道情報保持部１０４は、複数の話者の音声データから抽出した話者不特定の子音に対する声道情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等より構成される。

子音選択部１０５は、母音変換部１０３により母音の声道情報が変形された音素境界情報付声道情報に含まれる子音の声道情報に対応する子音の声道情報を、音素境界情報付声道情報に含まれる子音の声道情報の前後の母音の声道情報を元に、子音声道情報保持部１０４から選択する処理部である。

子音変形部１０６は、子音選択部１０５により選択された子音の声道情報を、当該子音の前後の母音の声道情報に合わせて変形する処理部である。

合成部１０７は、入力音声の音源情報と、母音変換部１０３、子音選択部１０５および子音変形部１０６により変形された音素境界情報付声道情報とに基づき、音声を合成する処理部である。すなわち、合成部１０７は、入力音声の音源情報をもとに励振音源を生成し、音素境界情報付声道情報に基づき構成した声道フィルタを駆動して音声を合成する。音源情報の生成方法については後述する。

声質変換装置は、例えば、コンピュータ等より構成され、上述した各処理部は、プログラムをコンピュータ上で実行することにより実現される。

次にそれぞれの構成要素について詳しく説明する。

＜目標母音声道情報保持部１０１＞
目標母音声道情報保持部１０１は、日本語の場合、目標話者の少なくとも５母音（／ａｉｕｅｏ／）における、目標話者の声道形状に由来する声道情報を保持する。英語等の他言語の場合には、日本語の場合と同様に各母音について声道情報を保持すればよい。声道情報の表現方法としては、例えば声道断面積関数がある。声道断面積関数は、図４（ａ）に示すような可変円形断面積の音響管で声道を模擬した音響管モデルにおける各音響管の断面積を表すものである。この断面積は、ＬＰＣ（Linear Predictive Coding）分析に基づくＰＡＲＣＯＲ（Partial Auto Correlation）係数と一意に対応することが知られており、式１により変換可能である。本実施の形態では、ＰＡＲＣＯＲ係数ｋ_iにより声道情報を表現するものとする。以降、声道情報はＰＡＲＣＯＲ係数を用いて説明するが、声道情報はＰＡＲＣＯＲ係数に限定されるものではなく、ＰＡＲＣＯＲ係数に等価なＬＳＰ（Line Spectrum Pairs）やＬＰＣなどを用いてもよい。また、前記音響管モデルにおける音響管の間の反射係数とＰＡＲＣＯＲ係数との関係は、符号が反転していることのみである。このため、反射係数そのものを用いてももちろん構わない。

ここで、Ａ_nは図４（ｂ）に示すように第ｉ区間の音響管の断面積を現し、ｋ_iは第ｉ番目と第ｉ＋１番目の境界のＰＡＲＣＯＲ係数（反射係数）をあらわす。

ＰＡＲＣＯＲ係数は、ＬＰＣ分析により分析された線形予測係数α_iを用いて算出することができる。具体的には、ＰＡＲＣＯＲ係数は、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ−Ｉｔａｋｕｒａアルゴリズムを用いることにより算出可能である。なお、ＰＡＲＣＯＲ係数は、次の特徴を有する。
・線形予測係数は分析次数ｐに依存するが、ＰＡＲＣＯＲ係数は分析の次数に依存しない。
・低次の係数ほど変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
・高次の係数の変動の影響は平坦に全周波数帯域にわたる。

次に、目標話者の母音の声道情報（以下、「目標母音声道情報」という。）の作成法について、例を挙げながら説明する。目標母音声道情報は、例えば、目標話者によって発声された孤立母音音声から構築することができる。

図５は、目標話者により発声された孤立母音音声より目標母音声道情報保持部１０１に記憶されている目標母音声道情報を生成する処理部の構成を示す図である。

母音安定区間抽出部２０３は、入力された孤立母音音声から孤立母音の区間を抽出する。抽出方法は特に限定されるものではない。例えば、パワーが一定以上の区間を安定区間とし、当該安定区間を母音の区間として抽出するようにしてもよい。

目標声道情報作成部２０４は、母音安定区間抽出部２０３により抽出された母音の区間に対して上述のＰＡＲＣＯＲ係数を算出する。

母音安定区間抽出部２０３および母音安定区間抽出部２０３の処理を、入力された孤立母音を発声した音声に対して行うことにより、目標母音声道情報保持部１０１を構築する。

この他にも図６に示すような処理部により目標母音声道情報保持部１０１を構築してもよい。目標話者による発声は、少なくとも５母音を含むものであれば、孤立母音音声に限定されるものではない。例えば、目標話者がその場で自由に発話した音声でもよいし、予め収録された音声でもよい。また歌唱データなどの音声を利用してもよい。

このような目標話者音声２０１に対して、音素認識部２０２が音素認識を行う。次に、母音安定区間抽出部２０３が、音素認識部２０２での認識結果に基づいて、安定した母音区間を抽出する。抽出の方法としては、例えば、音素認識部２０２での認識結果の信頼度が高い区間（尤度の高い区間）を安定した母音区間として使用することができる。

このように安定した母音区間を抽出することにより、音素認識部２０２の認識誤りによる影響を排除することが可能である。例えば、図７に示すような音声（／ｋ／／ａ／／ｉ／）が入力され、母音区間／ｉ／の安定区間を抽出する場合について説明する。例えば、母音区間／ｉ／内のパワーの大きい区間を安定区間５０とすることができる。あるいは、音素認識部２０２の内部情報である尤度を用いて、尤度が閾値以上ある区間を安定区間として利用することができる。

目標声道情報作成部２０４は、抽出された母音の安定区間において、目標母音声道情報を作成し、目標母音声道情報保持部１０１に記憶する。この処理により、目標母音声道情報保持部１０１を構築することができる。目標声道情報作成部２０４による目標母音声道情報の作成は、例えば、前述のＰＡＲＣＯＲ係数を算出することにより行なわれる。

なお、目標母音声道情報保持部１０１に保持される目標母音声道情報の作成方法は、これらに限定されるものではなく、安定した母音区間に対して声道情報を抽出するようにすれば、その他の方法であってもよい。

＜変換比率入力部１０２＞
変換比率入力部１０２は、目標とする話者の音声にどの程度近づけるかを指定する変換比率の入力を受け付ける。変換比率は通常０以上１以下の数値で指定される。変換比率が１に近いほど、変換後の音声の声質が目標話者に近く、変換比率が０に近いほど変換元音声の声質に近い。

なお、１以上の変換比率を入力することにより、変換元音声の声質と目標話者の声質との違いをより強調して表現するようにすることもできる。また、０以下の変換比率（負の変換比率）を入力することにより、変換元音声の声質と目標話者の声質との違いを逆の方向に強調して表現することもできる。なお、変換比率の入力を省略し、予め定められている比率を変換比率として設定するようにしてもよい。

＜母音変換部１０３＞
母音変換部１０３は、入力された音素境界情報付声道情報に含まれる母音区間の声道情報を、目標母音声道情報保持部１０１に保持されている目標母音声道情報へ、変換比率入力部１０２で指定された変換比率で変換する。詳細な変換方法を以下に説明する。

音素境界情報付声道情報は、変換元の音声から前述のＰＡＲＣＯＲ係数による声道情報を取得すると共に、当該声道情報に音素ラベルを付与することにより生成される。

具体的には図８Ａに示すように、ＬＰＣ分析部３０１は、入力音声に対して線形予測分析を行い、ＰＡＲＣＯＲ算出部３０２は、分析された線形予測係数を元に、ＰＡＲＣＯＲ係数を算出する。なお、音素ラベルは別途付与される。

また、合成部１０７に入力される音源情報は、以下のようにして求められる。つまり、逆フィルタ部３０４が、ＬＰＣ分析部３０１により分析されたフィルタ係数（線形予測係数）からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形（音源情報）を生成する。

上述のＬＰＣ分析の代わりにＡＲＸ（ａｕｔｏｒｅｇｒｅｓｓｉｖｅｗｉｔｈｅｘｏｇｅｎｏｕｓｉｎｐｕｔ）分析を用いることもできる。ＡＲＸ分析は、声道および音源パラメータを精度よく推定することを目的としたＡＲＸモデルと数式音源モデルとによって表される音声生成過程に基づいた音声分析法であり、ＬＰＣ分析と比較して高精度に声道情報と音源情報とを分離することを可能とした音声分析法である（非特許文献：大塚他「音源パルス列を考慮した頑健なＡＲＸ音声分析法」、日本音響学会誌５８巻７号（２００２年）、ｐｐ．３８６−３９７）。

図８Ｂは、音素境界情報付声道情報の他の作成方法を示す図である。

同図に示すように、ＡＲＸ分析部３０３は、入力音声に対してＡＲＸ分析を行い、ＰＡＲＣＯＲ算出部３０２は、分析された全極モデルの多項式を元にＰＡＲＣＯＲ係数を算出する。なお、音素ラベルは別途付与される。

また、合成部１０７に入力される音源情報は、図８Ａに示した逆フィルタ部３０４での処理と同様の処理により生成される。つまり、逆フィルタ部３０４は、ＡＲＸ分析部３０３により分析されたフィルタ係数からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形（音源情報）を生成する。

図９は、音素境界情報付声道情報のさらに他の作成方法を示す図である。

図９に示すように、テキスト合成装置４０１が入力されたテキストから音声を合成し、合成音声を出力する。合成音声は、ＬＰＣ分析部３０１および逆フィルタ部３０４に入力される。このように、入力音声がテキスト合成装置４０１により合成された合成音声の場合、音素ラベルはテキスト合成装置４０１により取得することが可能である。また、ＬＰＣ分析部３０１およびＰＡＲＣＯＲ算出部３０２は、合成された音声を用いることにより、容易にＰＡＲＣＯＲ係数を算出することができる。

また、合成部１０７に入力される音源情報は、図８Ａに示した逆フィルタ部３０４と同様の処理により生成される。つまり、逆フィルタ部３０４は、ＡＲＸ分析部３０３により分析されたフィルタ係数からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形（音源情報）を生成する。

また、声質変換装置とオフラインで音素境界情報付声道情報を生成する場合には、予め人手により音素境界を付与するようにしてもよい。

図１０Ａ〜図１０Ｊは、１０次のＰＡＲＣＯＲ係数で表現された母音／ａ／の声道情報の一例を示す図である。

同図において、縦軸は反射係数を表し、横軸は時間を表す。これらの図からＰＡＲＣＯＲ係数は時間変化に対し比較的滑らかな動きをすることがわかる。

母音変換部１０３は、以上のようにして入力された音素境界情報付声道情報に含まれる母音の声道情報を変換する。

まず、母音変換部１０３は、変換対象の母音の声道情報に対応する目標母音声道情報を目標母音声道情報保持部１０１より取得する。対象となる目標母音声道情報が複数ある場合には、母音変換部１０３は、変換対象となる母音の音韻環境（例えば前後の音素種類など）の状況に合わせて最適な目標母音声道情報を取得する。

母音変換部１０３は、変換比率入力部１０２により入力された変換比率に基づいて、変換対象の母音の声道情報を目標母音声道情報へ変換する。

入力された音素境界情報付声道情報において、変換対象となる母音区間のＰＡＲＣＯＲ係数で表現された声道情報の各次元の時系列を、式２に示す多項式（第１の関数）により近似する。例えば１０次のＰＡＲＣＯＲ係数の場合は、それぞれの次数のＰＡＲＣＯＲ係数が式２に示す多項式により近似される。これにより、１０種類の多項式を得ることができる。多項式の次数は特に限定されるものではなく、適切な次数を設定することができる。

ただし、

は、入力された被変換音声のＰＡＲＣＯＲ係数の近似多項式であり、

は、多項式の係数であり、

は、時刻を表す。

このとき多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までの時間幅を単位とするようにしても良い。なお、以下の説明では、音素区間を単位として説明を行う。

図１１Ａ〜図１１Ｄは、ＰＡＲＣＯＲ係数を５次の多項式により近似し、音素区間単位で時間方向に平滑化した際の１次から４次のＰＡＲＣＯＲ係数を示す図である。グラフの縦軸と横軸とは図１０Ａ〜図１０Ｊと同じである。

本実施の形態では、多項式の次数として５次を例に説明するが、多項式の次数は５次でなくとも良い。なお、多項式による近似以外にも音素区間ごとに回帰直線によりＰＡＲＣＯＲ係数を近似するようにしても良い。

変換対象となる母音区間のＰＡＲＣＯＲ係数と同様に、目標母音声道情報保持部１０１に保持されたＰＡＲＣＯＲ係数で表現された目標母音声道情報を、式３に示す多項式（第２の関数）により近似し、多項式の係数ｂ_iを取得する。

次に、被変換パラメータ（ａ_i）と、目標母音声道情報（ｂ_i）と、変換比率（ｒ）とを用いて、変換後の声道情報（ＰＡＲＣＯＲ係数）の多項式の係数

を式４により求める。

通常、変換比率ｒは、０≦ｒ≦１の範囲で指定される。しかし、変換比率ｒがその範囲を超える場合においても、式４により変換することは可能である。変換比率ｒが１を超える場合には、被変換パラメータ（ａ_i）と目標母音声道情報（ｂ_i）との差分をさらに強調するような変換になる。一方、ｒが負の値の場合は、被変換パラメータ（ａ_i）と目標母音声道情報（ｂ_i）との差分を逆方向に、さらに強調するような変換になる。

算出した変換後の多項式の係数

を用いて、変換後の声道情報を式５（第３の関数）で求める。

以上の変換処理をＰＡＲＣＯＲ係数の各次元において行なうことにより、指定された変換比率でのターゲットのＰＡＲＣＯＲ係数への変換が可能になる。

実際に、母音／ａ／に対して、上記の変換を行った例を図１２に示す。同図において、横軸は、正規化された時間を表し、縦軸は、１次元目のＰＡＲＣＯＲ係数を表す。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、０から１までの時刻をとる時間のことである。これは、被変換音声の母音継続時間と、目標母音声道情報の継続時間が異なる場合において、時間軸をそろえるための処理である。図中の（ａ）は被変換音声を示す男性話者の／ａ／の発声の係数の推移を示している。同様に（ｂ）は目標母音を示す女性話者の／ａ／の発声の係数の推移を示している。（ｃ）は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率０．５で変換した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のＰＡＲＣＯＲ係数を補間できていることがわかる。

音素境界では、ＰＡＲＣＯＲ係数の値が不連続になるのを防止するために、適切な過渡区間を設けて補間処理を行う。補間の方法は特に限定されるものではないが、例えば線形補間を行なうことによりＰＡＲＣＯＲ係数の不連続を解消することが可能となる。

図１３は、過渡区間を設けてＰＡＲＣＯＲ係数の値を補間する例について説明する図である。同図には、母音／ａ／と母音／ｅ／との接続境界の反射係数が示されている。同図では、境界時刻（ｔ）において、反射係数が不連続になっている。そこで境界時刻から適当な渡り時間（Δｔ）を設け、時刻ｔ−Δｔから時刻ｔ＋Δｔまでの間の反射係数を線形に補間し、補間後の反射係数５１を求めることにより音素境界における反射係数の不連続を防止している。渡り時間としては、例えば２０ｍｓｅｃ程度とすればよい。あるいは、渡り時間を前後の母音継続時間長に応じて変更するようにしても良い。例えば、母音区間が短いほど渡り区間も短くし、母音区間が長いほど渡り区間も長くするようにすれば良い。

図１４Ａは、母音／ａ／と母音／ｉ／の境界のＰＡＲＣＯＲ係数を補間した場合のスペクトルを示す図である。図１４Ｂは、母音／ａ／と母音／ｉ／の境界の音声をクロスフェードにより接続した場合のスペクトルを示す図である。図１４Ａおよび図１４Ｂにおいて縦軸は周波数を表し、横軸は時間を表す。図１４Ａにおいて、母音境界２１での境界時刻をｔとした場合に、時刻ｔ−Δｔ（２２）から時刻ｔ＋Δｔ（２３）までの範囲で、スペクトル上の強度のピークが連続的に変化していることがわかる。一方、図１４Ｂでは、スペクトルのピークは、母音境界２４を境界として不連続に変化している。このようにＰＡＲＣＯＲ係数の値を補間することにより、スペクトルピーク（フォルマントに対応）を連続的に変化させることが可能となる。結果として、フォルマントが連続的に変化するため、得られる合成音も連続的に／ａ／から／ｉ／へ変化させることが可能となる。

また、図１５は、合成後のＰＡＲＣＯＲ係数を補間したＰＡＲＣＯＲ係数から、再度フォルマントを抽出し、プロットしたものである。同図において、縦軸は周波数（Ｈｚ）を表し、横軸は時間（ｓｅｃ）を表す。図上の点は、合成音のフレームごとのフォルマント周波数を示す。点に付属している縦棒は、フォルマントの強度を表している。縦棒が短ければフォルマント強度は強く、長ければ、フォルマント強度は弱い。フォルマントで見た場合においても、母音境界２７を中心に渡り区間（時刻２８から時刻２９までの区間）において、各フォルマントが（フォルマント強度においても）連続的に変化していることがわかる。

以上のように、母音境界においては、適当な過渡区間を設けてＰＡＲＣＯＲ係数を補間することにより、連続的にフォルマント、およびスペクトルを変換することが可能となり、自然な音韻遷移を実現することが可能である。

このようなスペクトルおよびフォルマントの連続的な遷移は、図１４Ｂに示すような音声のクロスフェードによる接続では実現できない。

同様に図１６（ａ）に／ａ／と／ｕ／の接続、図１６（ｂ）に／ａ／と／ｅ／の接続、図１６（ｃ）に／ａ／と／ｏ／の接続をした際の、クロスフェード接続によるスペクトル、ＰＡＲＣＯＲ係数を補間した際のスペクトルおよびＰＡＲＣＯＲ係数補間によるフォルマントの動きを示す。このように全ての母音接続において、スペクトル強度のピークを連続的に変化させることができることがわかる。

つまり、声道形状（ＰＡＲＣＯＲ係数）での補間を行なうことにより、フォルマントの補間もできることが示された。これにより、合成音においても自然に母音の音韻遷移を表現できることになる。

図１７Ａ〜図１７Ｃは、変換した母音区間の時間的な中心における声道断面積を示す図である。この図は、図１２に示したＰＡＲＣＯＲ係数の時間的な中心点におけるＰＡＲＣＯＲ係数を式１により声道断面積に変換したものである。図１７Ａ〜図１７Ｃの各グラフにおいて、横軸は音響管における位置を表しており、縦軸は声道断面積を表している。図１７Ａは変換元の男性話者の声道断面積を示し、図１７Ｂは目標話者の女性の声道断面積を示し、図１７Ｃは、変換比率５０％で変換元のＰＡＲＣＯＲ係数を変換した後のＰＡＲＣＯＲ係数に対応する声道断面積を示している。これらの図からも、図１７Ｃに示す声道断面積は、変換元と変換先の間の中間の声道断面積であることがわかる。

＜子音声道情報保持部１０４＞
声質を目標話者に変換するために、母音変換部１０３で入力された音素境界情報付声道情報に含まれる母音を目標話者の母音声道情報に変換したが、母音を変換することにより、子音と母音の接続境界において、声道情報の不連続が生じる。

図１８は、ＶＣＶ（Ｖは母音、Ｃは子音を表す）音素列において、母音変換部１０３が母音の変換を行った後のあるＰＡＲＣＯＲ係数を模式的に示した図である。

同図において横軸は時間軸を表し、縦軸はＰＡＲＣＯＲ係数を表す。図１８（ａ）は、入力された音声の声道情報である。このうち母音部分のＰＡＲＣＯＲ係数は、図１８（ｂ）に示すような目標話者の声道情報を用いて母音変換部１０３により変形される。その結果、図１８（ｃ）に示されるような母音部分の声道情報１０ａおよび１０ｂが得られる。しかし、子音部分の声道情報１０ｃは、変換されておらず入力音声の声道形状を示している。このため、母音部分の声道情報と子音部分の声道情報との境界で不連続が生じる。したがって子音部分の声道情報についても変換が必要となる。子音部分の声道情報の変換方法について以下に説明する。

音声の個人性は、母音と子音の継続時間や安定性などを考えた場合、主に母音により表現されていると考えることができる。

そこで、子音に関しては目標話者の声道情報を使用せずに、予め用意された複数の子音の声道情報の中から、母音変換部１０３により変換された後の母音声道情報に適合する子音の声道情報を選択することにより変換後の母音との接続境界における不連続を緩和することができる。図１８（ｃ）では、子音声道情報保持部１０４に記憶されている子音の声道情報の中から、前後の母音の声道情報１０ａおよび１０ｂとの接続性が良い子音の声道情報１０ｄを選択することにより、音素境界における不連続を緩和することができている。

以上の処理を実現するために、予め複数の話者の複数の発声から子音区間を切り出し、目標母音声道情報保持部１０１に記憶されている目標母音声道情報を作成したときと同じように、各子音区間についてＰＡＲＣＯＲ係数を算出することにより、子音声道情報保持部１０４に記憶される子音声道情報が作成される。

＜子音選択部１０５＞
子音選択部１０５は、母音変換部１０３により変換された母音声道情報に適合する子音声道情報を子音声道情報保持部１０４から選択する。どの子音声道情報を選択するかは、子音の種類（音素）と、子音の始端および終端の接続点における声道情報の連続性とにより判断できる。つまり、ＰＡＲＣＯＲ係数の接続点における連続性に基づいて、選択するか否かを判断することができる。具体的には、子音選択部１０５は、式６を満たす子音声道情報Ｃ_iを探索する。

ここで、Ｕ_i-1は、前方の音素の声道情報を表し、Ｕ_i+1は後続の音素の声道情報を表す。

また、ｗは、前方の音素と選択対象の子音との連続性と、選択対象の子音と後続の音素との連続性との重みである。重みｗは、後続音素との接続を重視するように適宜設定される。後続音素との接続を重視するのは、子音は、前方の音素よりも後続する母音との結びつきが強いためである。

また、関数Ｃｃは、２つの音素の声道情報の連続性を示す関数であり、例えば、当該連続性を２つの音素の境界におけるＰＡＲＣＯＲ係数の差の絶対値により表現することができる。また、ＰＡＲＣＯＲ係数は低次の係数ほど重みを大きくするように設計してもよい。

このようにして、目標声質への変換後の母音の声道情報に適合する子音の声道情報を選択することにより、滑らかな接続が可能となり、合成音声の自然性を向上させることができる。

なお、子音選択部１０５において選択する子音の声道情報を有声子音の声道情報だけとし、無声子音については入力された声道情報を使用するように設計してもよい。なぜならば、無声子音は声帯の振動を伴わない発声であり、音声の生成過程が母音や有声子音のときと異なるためである。

＜子音変形部１０６＞
子音選択部１０５により、母音変換部１０３により変換された後の母音声道情報に適合する子音声道情報を取得することが可能であるが、必ずしも接続点の連続性が十分でない場合がある。そこで、子音変形部１０６は、子音選択部１０５により選択した子音の声道情報を後続母音の接続点と連続的に接続できるように変形を行う。

具体的には、子音変形部１０６は、後続母音との接続点において、ＰＡＲＣＯＲ係数が後続母音のＰＡＲＣＯＲ係数と一致するように、子音のＰＡＲＣＯＲ係数をシフトさせる。ただし、ＰＡＲＣＯＲ係数は安定性の保証のためには、［−１，１］の範囲である必要がある。このため、ＰＡＲＣＯＲ係数を一旦ｔａｎｈ^-1関数などにより［−∞，∞］の空間に写像し、写像された空間上で線形にシフトした後、再びｔａｎｈにより［−１，１］の範囲に戻すことにより、安定性を保証したまま、子音区間と後続母音区間の声道形状の連続性を改善することが可能となる。

＜合成部１０７＞
合成部１０７は、声質変換後の声道情報と別途入力される音源情報とを用いて音声を合成する。合成の方法は特に限定されるものではないが、声道情報としてＰＡＲＣＯＲ係数を用いている場合には、ＰＡＲＣＯＲ合成を用いればよい。あるいは、ＰＡＲＣＯＲ係数からＬＰＣ係数に変換した後に音声を合成してもよいし、ＰＡＲＣＯＲ係数からフォルマントを抽出し、フォルマント合成により音声を合成してもよい。さらにはＰＡＲＣＯＲ係数からＬＳＰ係数を算出し、ＬＳＰ合成により音声を合成するようにしてもよい。

次に、本実施の形態において実行される処理について、図１９Ａおよび図１９Ｂに示すフローチャートを用いて説明する。

本発明の実施の形態において実行される処理は、大別して２つの処理からなる。１つは、目標母音声道情報保持部１０１の構築処理であり、もう１つは声質の変換処理である。

まず、図１９Ａを参照しながら、目標母音声道情報保持部１０１の構築処理について説明する。

目標話者が発声した音声から母音の安定区間が抽出される（ステップＳ００１）。安定区間の抽出方法としては、前述したように音素認識部２０２が音素を認識し、母音安定区間抽出部２０３が、認識結果に含まれる母音区間のうち尤度が閾値以上の母音区間を母音安定区間として抽出する。

目標声道情報作成部２０４が、抽出された母音区間における声道情報を作成する（ステップＳ００２）。上述したように声道情報は、ＰＡＲＣＯＲ係数により表すことができる。ＰＡＲＣＯＲ係数は全極モデルの多項式から算出することができる。そのため、分析方法としてはＬＰＣ分析またはＡＲＸ分析を用いることができる。

目標声道情報作成部２０４は、ステップＳ００２において分析された母音安定区間のＰＡＲＣＯＲ係数を、声道情報として目標母音声道情報保持部１０１に登録する（ステップＳ００３）。

以上により、目標話者に対する声質を特徴付ける目標母音声道情報保持部１０１を構築することが可能となる。

次に、図１９Ｂを参照しながら、図３に示した声質変換装置により、入力された音素境界情報付音声を目標話者の音声に変換する処理について説明する。

変換比率入力部１０２は、目標話者への変換の度合いを示す変換比率の入力を受け付ける（ステップＳ００４）。

母音変換部１０３は、入力された音声の母音区間に対して、対応する母音に対する目標声道情報を目標母音声道情報保持部１０１から取得し、ステップＳ００４において入力された変換比率に基づいて入力された音声の母音区間の声道情報を変換する（ステップＳ００５）。

子音選択部１０５は、変換された母音区間の声道情報に適合する子音声道情報を選択する（ステップＳ００６）。このとき、子音選択部１０５は、子音の種類（音素）、および子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。

子音変形部１０６は、選択された子音の声道情報と前後の音素区間での声道情報との連続性を高めるために、子音の声道情報を変形する（ステップＳ００７）。変形は、選択された子音の声道情報と前後の音素区間のそれぞれとの接続点における声道情報（ＰＡＲＣＯＲ係数）の差分値を元に、子音のＰＡＲＣＯＲ係数をシフトさせることにより実現する。なお、シフトさせる際には、ＰＡＲＣＯＲ係数の安定性を保証するために、ｔａｎｈ^-1関数などにより、ＰＡＲＣＯＲ係数を一旦［−∞，∞］の空間に写像し、写像した空間においてＰＡＲＣＯＲ係数を線形にシフトし、シフト後に再びｔａｎｈ関数などにより［−１，１］の空間に戻す。これにより安定した子音声道情報の変形を行うことができる。なお、［−１，１］から［−∞，∞］への写像は、ｔａｎｈ^-1関数に限らず、ｆ（ｘ）＝ｓｇｎ（ｘ）×１／（１−｜ｘ｜）などの関数を用いてもよい。ここでｓｇｎ（ｘ）はｘが正のときに＋１を負のときに−１となる関数である。

このようにして子音区間の声道情報を変形することにより、変換後の母音区間に適合し、かつ連続性の高い子音区間の声道情報を作成することが可能となる。よって、安定で連続的であり、かつ高音質な声質変換を実現することが可能となる。

合成部１０７は、母音変換部１０３、子音選択部１０５および子音変形部１０６により変換された声道情報を元に合成音を生成する（ステップＳ００８）。このとき、音源情報としては、変換元音声の音源情報を用いることができる。通常、ＬＰＣ系の分析合成においては、励振音源としてインパルス列を用いることが多いので、予め設定された基本周波数などの情報に基づいて音源情報（Ｆ０（基本周波数）、パワーなど）を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。

また、例えば合成部１０７においてはＲｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルなどの声門音源モデルを用いることもでき、このような構成を用いた場合、Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルのパラメータ（ＯＱ、ＴＬ、ＡＶ、Ｆ０等）を被変換音声のものから目標音声に向けてシフトした値を用いるなどの方法を用いることも可能である。

かかる構成によれば、音素境界情報付の音声情報を入力とし、母音変換部１０３は、入力された音素境界情報付声道情報に含まれる各母音区間の声道情報から、目標母音声道情報保持部１０１に保持されている当該母音区間に対応する母音の声道情報への変換を、変換比率入力部１０２により入力された変換比率に基づいて行なう。子音選択部１０５は、母音変換部１０３により変換された母音声道情報に適合する子音の声道情報を、子音の前後の母音の声道情報を元に子音声道情報保持部１０４から選択する。子音変形部１０６は、子音選択部１０５により選択された子音の声道情報を前後の母音の声道情報に合わせて変形する。合成部１０７は、母音変換部１０３、子音選択部１０５および子音変形部１０６により変形された音素境界情報付声道情報を元に音声を合成する。このため、目標話者の声道情報としては、母音安定区間の声道情報のみを用意すればよい。また、目標話者の声道情報の作成時には、母音安定区間のみを識別すればよいので、特許文献２の技術のように音声認識誤りによる影響を受けない。

つまり、目標話者に対する負担を非常に小さくできることから、声質変換を容易に行うことができる。また、特許文献２の技術では、音声合成部１４での音声合成に用いられる音声素片と目標話者の発声との差分により変換関数を作成している。このため、被変換音声の声質は、音声合成用データ記憶部１３が保持している音声素片の声質と同一または類似している必要がある。これに対し、本発明の声質変換装置は、目標話者の母音声道情報を、絶対的な目標としている。このため、変換元の音声の声質は、まったく制限がなくどのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して、当該音声の声質を変換することが可能となる。

また、子音選択部１０５が、子音声道情報保持部１０４から、予め保持された子音の声道情報を選択することにより、変換後の母音の声道情報に適合した最適な子音声道情報を使用することが可能となる。

なお、本実施の形態では、子音選択部１０５および子音変形部１０６により、母音区間だけでなく子音区間においても音源情報を変換する処理を行ったが、これらの処理を省略してもよい。この場合、子音の声道情報として、声質変換装置に入力される音素境界情報付声道情報に含まれるものをそのまま用いる。これにより、処理端末の処理性能が低い場合や、記憶容量が少ない場合においても目標話者への声質変換を実現することが可能となる。

なお、子音変形部１０６のみを省略するように声質変換装置を構成してもよい。この場合、子音選択部１０５で選択された子音の声道情報をそのまま用いることになる。

または、子音選択部１０５のみを省略するように声質変換装置を構成してもよい。この場合には、子音変形部１０６が、声質変換装置に入力される音素境界情報付声道情報に含まれる子音の声道情報を変形する。

（実施の形態２）
以下、本発明の実施の形態２について説明する。

実施の形態２では、実施の形態１の声質変換装置と異なり、被変換音声と目標声質情報とが、個別に管理されている場合を考える。被変換音声は音声コンテンツであると考える。例えば、歌唱音声などがある。目標声質情報として、さまざまな声質を保持しているものとする。例えば、さまざまな歌手の声質情報を保持しているものとする。このような場合に音声コンテンツと、目標声質情報とを別々にダウンロードして、端末で声質変換を行うという使用方法が考えられる。

図２０は、本発明の実施の形態２に係る声質変換システムの構成を示す図である。図２０において、図３と同じ構成要素については同じ符号を用い、説明を省略する。

声質変換システムは、被変換音声サーバ１２１と、目標音声サーバ１２２と、端末１２３とを含む。

被変換音声サーバ１２１は、被変換音声情報を管理し、提供するサーバであり、被変換音声保持部１１１と、被変換音声情報送信部１１２とを含む。

被変換音声保持部１１１は、変換される音声の情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等から構成される。

被変換音声情報送信部１１２は、被変換音声保持部１１１に保持された被変換音声情報をネットワークを介して端末１２３に送信する処理部である。

目標音声サーバ１２２は、目標となる声質情報を管理し、提供するサーバであり、目標母音声道情報保持部１０１と、目標母音声道情報送信部１１３とを含む。

目標母音声道情報送信部１１３は、目標母音声道情報保持部１０１に保持されている目標話者の母音声道情報をネットワークを介して端末１２３に送信する処理部である。

端末１２３は、被変換音声サーバ１２１から送信される被変換音声情報の声質を、目標音声サーバ１２２から送信される目標母音声道情報に基づいて変換する端末装置であり、被変換音声情報受信部１１４と、目標母音声道情報受信部１１５と、変換比率入力部１０２と、母音変換部１０３と、子音声道情報保持部１０４と、子音選択部１０５と、子音変形部１０６と、合成部１０７とを含む。

被変換音声情報受信部１１４は、被変換音声情報送信部１１２より送信された被変換音声情報をネットワークを介して受信する処理部である。

目標母音声道情報受信部１１５は、目標母音声道情報送信部１１３より送信された目標母音声道情報をネットワークを介して受信する処理部である。

被変換音声サーバ１２１、目標音声サーバ１２２および端末１２３は、例えば、ＣＰＵ、メモリ、通信インタフェース等を備えるコンピュータ等により構成され、上述した各処理部は、プログラムをコンピュータのＣＰＵ上で実行することにより実現される。

本実施の形態と実施の形態１との違いは、目標話者の母音の声道情報である目標母音声道情報と、被変換音声に対応した情報である被変換音声情報とをネットワークを介して送受信することである。

次に、実施の形態２に係る声質変換システムの動作について説明する。図２１は、本発明の実施の形態２に係る声質変換システムの処理の流れを示すフローチャートである。

端末１２３は、目標音声サーバ１２２に対して目標話者の母音声道情報をネットワークを介して要求する。目標音声サーバ１２２の目標母音声道情報送信部１１３は、目標母音声道情報保持部１０１から要求された目標話者の母音声道情報を取得し、端末１２３に送信する。端末１２３の目標母音声道情報受信部１１５は、目標話者の母音声道情報を受信する（ステップＳ１０１）。

目標話者の指定方法は特に限定されるものではなく、例えば話者識別子を用いて指定するようにしてもよい。

端末１２３は、ネットワークを介して被変換音声サーバ１２１に対して、被変換音声情報を要求する。被変換音声サーバ１２１の被変換音声情報送信部１１２は、要求された被変換音声情報を被変換音声保持部１１１から取得し、端末１２３に送信する。端末１２３の被変換音声情報受信部１１４は、被変換音声情報を受信する（ステップＳ１０２）。

被変換音声情報の指定方法は特に限定されるものではなく、例えば音声コンテンツを識別子により管理し、その識別子を用いて指定するようにしてもよい。

変換比率入力部１０２は、目標話者への変換の度合いを示す変換比率の入力を受け付ける（ステップＳ００４）。なお、変換比率の入力を省略し、予め定められた変換比率を設定するようにしてもよい。

母音変換部１０３は、入力された音声の母音区間に対して、対応する母音の目標母音声道情報を目標母音声道情報受信部１１５から取得し、ステップＳ００４において入力された変換比率に基づいて入力された音声の母音区間の声道情報を変換する（ステップＳ００５）。

子音選択部１０５は、変換された母音区間の声道情報に適合する子音声道情報を選択する（ステップＳ００６）。このとき、子音選択部１０５は、子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。

合成部１０７は、母音変換部１０３、子音選択部１０５および子音変形部１０６により変換された声道情報を元に合成音を生成する（ステップＳ００８）。このとき、音源情報としては、変換元音声の音源情報を用いることができる。なお、予め設定された基本周波数などの情報に基づいて音源情報を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。

なお、ステップＳ１０１、ステップＳ１０２、ステップＳ００４は、この順番でなくともよく、任意の順番で実行されてもよい。

かかる構成によれば、目標音声サーバ１２２が目標音声情報を管理し、送信する。このため、端末１２３で目標音声情報を作成する必要がなく、かつ、目標音声サーバ１２２に登録されているさまざまな声質への声質変換を行うことが可能となる。

また、被変換音声サーバ１２１により、変換される音声を管理し、送信することにより、端末１２３で変換される音声情報を作成する必要がなく、被変換音声サーバ１２１に登録されているさまざまな被変換音声情報を利用することができる。

被変換音声サーバ１２１は、音声コンテンツを管理し、目標音声サーバ１２２は、目標話者の声質情報を管理することにより、音声情報と話者の声質情報とを別々に管理することが可能となる。これにより、端末１２３の利用者は自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。

例えば、被変換音声サーバ１２１で、歌唱音を管理し、目標音声サーバ１２２で、さまざまな歌手の目標音声情報を管理することにより、端末１２３においてさまざまな音楽を、さまざまな歌手の声質に変換して聞くことが可能となり、利用者の好みに合わせた音楽を提供することが可能となる。

なお、被変換音声サーバ１２１と目標音声サーバ１２２とは、同一のサーバにより実現するようにしてもよい。

（実施の形態３）
実施の形態２では、被変換音声と目標母音声道情報とをサーバで管理し、端末がそれぞれをダウンロードして声質が変換された音声を生成する利用方法について示した。これに対し、本実施の形態では、ユーザが自分の声の声質を端末を用いて登録し、例えば、着呼をユーザに知らせるための着信歌声などを自分の声質に変換して楽しむサービスに本発明を適用した場合について説明する。

図２２は、本発明の実施の形態３に係る声質変換システムの構成を示す図である。図２２において、図３と同じ構成要素については同じ符号を用い、説明を省略する。

声質変換システムは、被変換音声サーバ１２１と、声質変換サーバ２２２と、端末２２３とを含む。

被変換音声サーバ１２１は、実施の形態２に示した被変換音声サーバ１２１と同様の構成を有し、被変換音声保持部１１１と、被変換音声情報送信部１１２とを含む。ただし、被変換音声情報送信部１１２による被変換音声情報の送信先が異なり、本実施の形態に係る被変換音声情報送信部１１２は、被変換音声情報をネットワークを介して声質変換サーバ２２２に送信する。

端末２２３は、ユーザが歌声変換サービスを享受するための端末装置である。つまり、端末２２３は、目標となる声質情報を作成し、声質変換サーバ２２２に提供すると共に、声質変換サーバ２２２により変換された歌声音声を受信し再生する装置であり、音声入力部１０９と、目標母音声道情報作成部２２４と、目標母音声道情報送信部１１３と、被変換音声指定部１３０１と、変換比率入力部１０２と、声質変換音声受信部１３０４と、再生部３０５とを含む。

音声入力部１０９は、ユーザの音声を取得するための装置であり、例えば、マイクロフォンなどを含む。

目標母音声道情報作成部２２４は、目標話者、すなわち音声入力部１０９から音声を入力したユーザの母音の声道情報である目標母音声道情報を作成する処理部である。目標母音声道情報の作成方法は限定されるものではないが、例えば、目標母音声道情報作成部２２４は、図５に示した方法により目標母音声道情報を作成し、母音安定区間抽出部２０３と、目標声道情報作成部２０４とを含む。

目標母音声道情報送信部１１３は、目標母音声道情報作成部２２４により作成された目標母音声道情報を、ネットワークを介して声質変換サーバ２２２に送信する処理部である。

被変換音声指定部１３０１は、被変換音声サーバ１２１に保持されている被変換音声情報の中から、変換対象とする被変換音声情報を指定し、指定された結果をネットワークを介して声質変換サーバ２２２に送信する処理部である。

変換比率入力部１０２は、実施の形態１および２に示した変換比率入力部１０２と同様の構成を有するが、本実施の形態に係る変換比率入力部１０２は、さらに、入力された変換比率をネットワークを介して声質変換サーバ２２２に送信する。なお、変換比率の入力を省略し、予め定められた変換比率を用いるようにしてもよい。

声質変換音声受信部１３０４は、声質変換サーバ２２２により声質変換された被変換音声である合成音を受信する処理部である。

再生部３０６は、声質変換音声受信部１３０４が受信した合成音を再生する装置であり、例えば、スピーカなどを含む。

声質変換サーバ２２２は、被変換音声サーバ１２１から送信される被変換音声情報の声質を、端末２２３の目標母音声道情報送信部１１３から送信される目標母音声道情報に基づいて変換する装置であり、被変換音声情報受信部１１４と、目標母音声道情報受信部１１５と、変換比率受信部１３０２と、母音変換部１０３と、子音声道情報保持部１０４と、子音選択部１０５と、子音変形部１０６と、合成部１０７と、合成音声送信部１３０３とを含む。

変換比率受信部１３０２は、変換比率入力部１０２から送信された変換比率を受信する処理部である。

合成音声送信部１３０３は、合成部１０７より出力される合成音を、ネットワークを介して端末２２３の声質変換音声受信部１３０４に送信する処理部である。

被変換音声サーバ１２１、声質変換サーバ２２２および端末２２３は、例えば、ＣＰＵ、メモリ、通信インタフェース等を備えるコンピュータ等により構成され、上述した各処理部は、プログラムをコンピュータのＣＰＵ上で実行することにより実現される。

本実施の形態と実施の形態２との異なる点は、端末２２３は、目標となる声質特徴を抽出した後に、声質変換サーバ２２２に送信し、声質変換サーバ２２２が、声質変換した後の合成音を端末２２３に送り返すことにより、端末２２３上で抽出した声質特徴を有する合成音を得ることができることである。

次に、実施の形態３に係る声質変換システムの動作について説明する。図２３は、本発明の実施の形態３に係る声質変換システムの処理の流れを示すフローチャートである。

端末２２３は、音声入力部１０９を用いて、ユーザの母音音声を取得する。例えば、ユーザはマイクロフォンに向かって「あ、い、う、え、お」と発声することにより母音音声を取得することができる。母音音声の取得の方法はこれに限られず、図６に示したように発声された文章から母音音声を抽出するようにしても良い（ステップＳ３０１）。

端末２２３は、目標母音声道情報作成部２２４を用いて取得した母音音声から、声道情報を作成する。声道情報の作成の方法は実施の形態１と同じでよい（ステップＳ３０２）。

端末２２３は、被変換音声指定部１３０１を用いて、被変換音声情報を指定する。指定の方法は特に限定されるものではない。被変換音声サーバ１２１の被変換音声情報送信部１１２は、被変換音声指定部１３０１により指定された被変換音声情報を、被変換音声保持部１１１に保持された被変換音声情報の中から選択し、選択した被変換音声情報を声質変換サーバ２２２に送信する（ステップＳ３０３）。

端末２２３は、変換比率入力部１０２を用いて、変換する比率を取得する（ステップＳ３０４）。

声質変換サーバ２２２の変換比率受信部１３０２は、端末２２３より送信された変換比率を受信し、目標母音声道情報受信部１１５は、端末２２３より送信された目標母音声道情報を受信する。また、被変換音声情報受信部１１４は、被変換音声サーバ１２１より送信された被変換音声情報を受信する。そして、母音変換部１０３は、受信した被変換音声情報の母音区間の声道情報に対して、対応する母音の目標母音声道情報を目標母音声道情報受信部１１５から取得し、変換比率受信部１３０２により受信した変換比率に基づいて母音区間の声道情報を変換する（ステップＳ３０５）。

声質変換サーバ２２２の子音選択部１０５は、変換された母音区間の声道情報に適合する子音声道情報を選択する（ステップＳ３０６）。このとき、子音選択部１０５は、子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。

声質変換サーバ２２２の子音変形部１０６は、選択された子音の声道情報と前後の音素区間との連続性を高めるために、子音の声道情報を変形する（ステップＳ３０７）。

変形の方法としては、実施の形態２の変形方法と同じでよい。このようにして子音区間の声道情報を変形することにより、変換後の母音区間に適合し、かつ連続性の高い子音区間の声道情報を作成することが可能となる。よって、安定で連続的であり、かつ高音質な声質変換を実現することが可能となる。

声質変換サーバ２２２の合成部１０７は、母音変換部１０３、子音選択部１０５および子音変形部１０６により変換された声道情報を元に合成音を生成し、合成音声送信部１３０３が、生成された合成音を端末２２３へ送信する（ステップＳ３０８）。このとき、合成音声生成時の音源情報としては、変換元音声の音源情報を用いることができる。なお、予め設定された基本周波数などの情報に基づいて音源情報を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。

端末２２３の声質変換音声受信部１３０４は、合成音声送信部１３０３より送信された合成音を受信し、再生部３０５が、受信した合成音を再生する（Ｓ３０９）。

かかる構成によれば、端末２２３が目標音声情報を作成および送信し、声質変換サーバ２２２により声質変換された音声を受信および再生する。このため、端末２２３では目標となる音声を入力し、目標となる母音の声道情報を作成するだけでよく、端末２２３の処理負荷を非常に小さくすることができる。

また、被変換音声サーバ１２１を用いて、被変換音声情報を管理し、被変換音声情報を被変換音声サーバ１２１から声質変換サーバ２２２へ送信することにより、端末２２３で被変換音声情報を作成する必要がない。

被変換音声サーバ１２１は、音声コンテンツを管理し、端末２２３では、目標となる声質のみを作成するので、端末２２３の利用者は自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。

例えば、被変換音声サーバ１２１で、歌唱音を管理し、端末２２３により取得された目標声質に、声質変換サーバ２２２を用いて歌唱音を変換することにより、利用者の好みに合わせた音楽を提供することが可能となる。

なお、被変換音声サーバ１２１と声質変換サーバ２２２とは、同一のサーバにより実現するようにしてもよい。

本実施の形態の応用例として、たとえば端末２２３が携帯電話機の場合は、取得した合成音を例えば着信音として登録することにより、ユーザは自分だけの着信音を作成することが可能である。

また、本実施の形態の構成では、声質変換は声質変換サーバ２２２で行なうため、声質変換の管理をサーバで行なうことが可能である。これにより、ユーザの声質変換の履歴を管理することも可能となり、著作権および肖像権の侵害の問題が起こりにくくなるという効果がある。

なお、本実施の形態では、目標母音声道情報作成部２２４は、端末２２３に設けられているが、声質変換サーバ２２２に設けられていてもよい。その場合は、音声入力部１０９により入力された目標母音音声を、ネットワークを通じて、声質変換サーバ２２２に送信する。また、声質変換サーバ２２２では、受信した音声から目標母音声道情報作成部２２４を用いて目標母音声道情報を作成し、母音変換部１０３による声質変換時に使用するようにしても良い。この構成によれば、端末２２３は、目標となる声質の母音を入力するだけでよいので、処理負荷が非常に小さくて済むという効果がある。

なお、本実施の形態は、携帯電話機の着信歌声の声質変換だけに適用できるものではなく、例えば、歌手の歌った歌をユーザの声質で再生させることにより、プロの歌唱力を持ち、かつユーザの声質で歌った歌を聞くことができる。その歌を真似て歌うことによりプロの歌唱力を習得することができるため、カラオケの練習用途などに適用することもできる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明にかかる声質変換装置は、目標話者の母音区間の声道情報から、高品質に声質を変換する機能を有し、種々の声質を必要とするユーザインタフェースや、エンターテイメント等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。

図１は、従来の音声処理システムの構成を示す図である。図２は、従来の声質変換装置の構成を示す図である。図３は、本発明の実施の形態１に係る声質変換装置の構成を示す図である。図４は、声道断面積関数とＰＡＲＣＯＲ係数との関係を示す図である。図５は、目標母音声道情報保持部に保持されている目標母音声道情報を生成する処理部の構成を示す図である。図６は、目標母音声道情報保持部に保持されている目標母音声道情報を生成する処理部の構成を示す図である。図７は、母音の安定区間の一例を示す図である。図８Ａは、入力される音素境界情報付声道情報の作成方法の一例を示す図である。図８Ｂは、入力される音素境界情報付声道情報の作成方法の一例を示す図である。図９は、テキスト音声合成装置を用いた、入力される音素境界情報付声道情報の作成方法の一例を示す図である。図１０Ａは、母音／ａ／の１次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｂは、母音／ａ／の２次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｃは、母音／ａ／の３次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｄは、母音／ａ／の４次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｅは、母音／ａ／の５次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｆは、母音／ａ／の６次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｇは、母音／ａ／の７次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｈは、母音／ａ／の８次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｉは、母音／ａ／の９次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１０Ｊは、母音／ａ／の１０次のＰＡＲＣＯＲ係数による声道情報の一例を示す図である。図１１Ａは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。図１１Ｂは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。図１１Ｃは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。図１１Ｄは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。図１２は、母音変換部により母音区間のＰＡＲＣＯＲ係数が変換される様子を示す図である。図１３は、過渡区間を設けてＰＡＲＣＯＲ係数の値を補間する例について説明する図である。図１４Ａは、母音／ａ／と母音／ｉ／の境界のＰＡＲＣＯＲ係数を補間した場合のスペクトルを示す図である。図１４Ｂは、母音／ａ／と母音／ｉ／の境界の音声をクロスフェードにより接続した場合のスペクトルを示す図である。図１５は、合成後のＰＡＲＣＯＲ係数を補間したＰＡＲＣＯＲ係数から、再度フォルマントを抽出し、プロットしたグラフである。図１６（ａ）は／ａ／と／ｕ／の接続、図１６（ｂ）は／ａ／と／ｅ／の接続、図１６（ｃ）は／ａ／と／ｏ／の接続をした際の、クロスフェード接続によるスペクトル、ＰＡＲＣＯＲ係数を補間した際のスペクトルおよびＰＡＲＣＯＲ係数補間によるフォルマントの動きを示す図である。図１７Ａは、変換元の男性話者の声道断面積の様子を示す図である。図１７Ｂは、目標話者の女性の声道断面積の様子を示す図である。図１７Ｃは、変換比率５０％で変換元のＰＡＲＣＯＲ係数を変換した後のＰＡＲＣＯＲ係数に対応する声道断面積の様子を示す図である。図１８は、子音選択部により子音声道情報を選択する処理を説明するための模式図である。図１９Ａは、目標母音声道情報保持部の構築処理のフローチャートである。図１９Ｂは、入力された音素境界情報付音声を目標話者の音声に変換する処理のフローチャートである。図２０は、本発明の実施の形態２に係る声質変換システムの構成を示す図である。図２１は、本発明の実施の形態２に係る声質変換システムの動作を示すフローチャートである。図２２は、本発明の実施の形態３に係る声質変換システムの構成を示す図である。図２３は、本発明の実施の形態３に係る声質変換システムの処理の流れを示すフローチャートである。

符号の説明

１０１目標母音声道情報保持部
１０２変換比率入力部
１０３母音変換部
１０４子音声道情報保持部
１０５子音選択部
１０６子音変形部
１０７合成部
１１１被変換音声保持部
１１２被変換音声情報送信部
１１３目標母音声道情報送信部
１１４被変換音声情報受信部
１１５目標母音声道情報受信部
１２１被変換音声サーバ
１２２目標音声サーバ
２０１目標話者音声
２０２音素認識部
２０３母音安定区間抽出部
２０４目標声道情報作成部
３０１ＬＰＣ分析部
３０２ＰＡＲＣＯＲ算出部
３０３ＡＲＸ分析部
４０１テキスト合成装置

Claims

入力音声に対応する情報を用いて入力音声の声質を変換する声質変換装置であって、
目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、
入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、
前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と
を備える声質変換装置。
さらに、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、前記目標となる声質以外の声質を含む子音の声道情報の中から、前記音素境界情報付声道情報に含まれる子音と同じ音素の子音の声道情報を導出する子音声道情報導出部を備え、
前記合成部は、前記母音変換部による変換後の母音の声道情報と、前記子音声道情報導出部において導出された子音の声道情報とを用いて、音声を合成する
請求項１に記載の声質変換装置。
前記子音声道情報導出部は、
子音毎に、複数の話者の音声から抽出された声道情報を保持する子音声道情報保持部と、
前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報に適合する当該子音と同じ音素の子音を有する声道情報を、前記子音声道情報保持部に保持されている子音の声道情報から選択する子音選択部とを有する
請求項２に記載の声質変換装置。
前記子音選択部は、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性に基づいて、当該子音と同じ音素の子音を有する声道情報を前記子音声道情報保持部に保持されている子音の声道情報から選択する
請求項３に記載の声質変換装置。
さらに、前記子音選択部において選択された子音の声道情報を、当該子音の後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性が良くなるように変形する子音変形部を備える
請求項３に記載の声質変換装置。
さらに、目標となる声質への変換の度合いを示す変換比率を入力する変換比率入力部を備え、
前記母音変換部は、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報と、前記変換比率入力部で入力された前記変換比率とを受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数とを前記変換比率で結合することにより前記第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する
請求項１に記載の声質変換装置。
前記母音変換部は、前記音素境界情報付声道情報に含まれる母音の声道情報を次数毎に第１の多項式で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている前記目標母音声道情報を次数毎に第２の多項式で近似し、次数毎に、前記第１の多項式の係数と前記第２多項式の係数とを前記変換比率で混合することにより第３の多項式の各次数の係数を求め、変換後の母音の声道情報を前記第３の多項式で近似する
請求項６に記載の声質変換装置。
前記母音変換部は、さらに、第１の母音の声道情報と第２の母音の声道情報との時間的な境界である母音境界を含む所定の時間を渡り区間とし、前記母音境界において前記第１の母音の声道情報と前記第２の母音の声道情報とが連続に接続されるように、当該渡り区間に含まれる前記第１の母音の声道情報と前記第２の母音の声道情報とを補間する
請求項１に記載の声質変換装置。
前記所定の時間は、前記母音境界の前後に位置する前記第１の母音と前記第２の母音との継続時間長が長いほど、長く設定される
請求項８に記載の声質変換装置。
前記声道情報は、ＰＡＲＣＯＲ（Partial Auto Correlation）係数または声道音響管モデルの反射係数である
請求項１に記載の声質変換装置。
前記ＰＡＲＣＯＲ係数または声道音響管モデルの反射係数は、入力音声をＬＰＣ（Linear Predictive Coding）分析し、分析された全極モデルの多項式に基づいて算出される
請求項１０に記載の声質変換装置。
前記ＰＡＲＣＯＲ係数または声道音響管モデルの反射係数は、入力音声をＡＲＸ（Autoregressive Exogenous）分析し、分析された全極モデルの多項式に基づいて算出される
請求項１０に記載の声質変換装置。
前記音素境界情報付声道情報は、テキストから生成された合成音声に基づいて定められる
請求項１に記載の声質変換装置。
前記目標母音声道情報保持部は、
目標となる声質の音声から安定した母音区間を検出する安定母音区間抽出部と、
安定した母音区間から目標となる声道情報を抽出する目標声道情報作成部と、
により作成された目標母音声道情報を保持する
請求項１に記載の声質変換装置。
前記安定母音区間抽出部は、
前記目標となる声質の音声に含まれる音素を認識する音素認識部と、
前記音素認識部が認識した母音区間において、前記音素認識部における認識結果の尤度が所定の閾値より高い区間を安定母音区間として抽出する安定区間抽出部とを有する
請求項１４に記載の声質変換装置。
入力音声に対応する情報を用いて入力音声の声質を変換する声質変換方法であって、
入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換ステップと、
前記母音変換ステップによる変換後の母音の声道情報を用いて、音声を合成する合成ステップと
を含む声質変換方法。
入力音声に対応する情報を用いて入力音声の声質を変換するプログラムであって、
入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換ステップと、
前記母音変換ステップによる変換後の母音の声道情報を用いて、音声を合成する合成ステップと
をコンピュータに実行させるためのプログラム。
被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、
サーバと、
前記サーバとネットワークを介して接続される端末とを備え、
前記サーバは、
目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、
前記目標母音声道情報保持部に保持された目標母音声道情報を、ネットワークを介して前記端末に送信する目標母音声道情報送信部と、
被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、
前記被変換音声保持部に保持された被変換音声情報をネットワークを介して前記端末に送信する被変換音声情報送信部とを備え、
前記端末は、
前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、
前記被変換音声情報送信部より送信された前記被変換音声情報を受信する被変換音声情報受信部と、
前記被変換音声情報受信部により受信された被変換音声情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、
前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と
を備える声質変換システム。
被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、
端末と、
前記端末とネットワークを介して接続されるサーバとを備え、
前記端末は、
目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報を作成する目標母音声道情報作成部と、
前記目標母音声道情報作成部で作成された前記目標母音声道情報をネットワークを介して前記端末に送信する目標母音声道情報送信部と、
前記サーバから、声質変換後の音声を受信する声質変換音声受信部と、
前記声質変換音声受信部が受信した前記声質変換後の音声を再生する再生部とを備え、
前記サーバは、
被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、
前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、
前記被変換音声情報保持部に保持されている被変換音声情報に含まれる母音の声道情報の時間変化を第１の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第２の関数で近似し、前記第１の関数と前記第２の関数を結合することにより第３の関数を求め、前記第３の関数により変換後の母音の声道情報を生成する母音変換部と、
前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と、
合成部において合成された後の音声を、声質変換後の音声として、ネットワークを介して前記声質変換音声受信部に送信する合成音声送信部と
を備える声質変換システム。