JP4246792B2 - 声質変換装置および声質変換方法 - Google Patents

声質変換装置および声質変換方法 Download PDF

Info

Publication number
JP4246792B2
JP4246792B2 JP2008542127A JP2008542127A JP4246792B2 JP 4246792 B2 JP4246792 B2 JP 4246792B2 JP 2008542127 A JP2008542127 A JP 2008542127A JP 2008542127 A JP2008542127 A JP 2008542127A JP 4246792 B2 JP4246792 B2 JP 4246792B2
Authority
JP
Japan
Prior art keywords
vowel
vocal tract
information
tract information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008542127A
Other languages
English (en)
Other versions
JPWO2008142836A1 (ja
Inventor
良文 廣瀬
孝浩 釜井
弓子 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4246792B2 publication Critical patent/JP4246792B2/ja
Publication of JPWO2008142836A1 publication Critical patent/JPWO2008142836A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は音声の声質を変換する声質変換装置および声質変換方法に関し、特に、入力音声の声質を目標とする話者の音声の声質に変換する声質変換装置および声質変換方法に関する。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音、および女子高生風または関西弁風などの特徴的な韻律・声質をもつ合成音)が一つのコンテンツとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が今後高まることが考えられる。
ところで、音声を合成する方式としては、大別して次の2つの方式がある。つまり、予め用意した音声素片DB(データベース)から適切な音声素片を選択して接続することにより音声を合成する波形接続型音声合成方法と、音声を分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法とである。
前述した合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片DBを必要な声質の種類だけ用意し、音声素片DBを切り替えながら素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。
一方、分析合成型音声合成方法では、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。パラメータの変形の方法としては、同一の発話内容である異なる2発話を用いて変換する方法がある。
特許文献1は、ニューラルネットなどの学習モデルを用いる分析合成型音声合成方法の一例を示す。
図1は、特許文献1の感情付与方法を用いた音声処理システムの構成を示す図である。
この図に示す音声処理システムは、音響的分析部2と、スペクトルのDP(Dynamic Programming)マッチング部4と、各音素の時間長伸縮部6と、ニューラルネットワーク部8と、規則による合成パラメータ生成部と、時間長伸縮部と、音声合成システム部とを備えている。音声処理システムは、ニューラルネットワーク部8により無感情な音声の音響的特徴パラメータを、感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、学習済みの当該ニューラルネットワーク部8を用いて無感情な音声に感情を付与する。
スペクトルのDPマッチング部4は、音響的分析部2で抽出された特徴パラメータのうち、スペクトルの特徴パラメータについて無感情な音声と感情を伴った音声との間の類似度を時々刻々調べ、同一の音素毎の時間的な対応をとることによって無感情音声に対する感情音声の音素毎の時間的な伸縮率を求める。
各音素の時間長伸縮部6は、スペクトルのDPマッチング部4で得られた音素毎の時間的な伸縮率に応じて、感情音声の特徴パラメータの時系列を時間的に正規化して無感情音声に合うようにする。
ニューラルネットワーク部8は、学習時においては、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータと出力層に与えられる感情音声の音響的特徴パラメータとの違いを学習する。
また、ニューラルネットワーク部8は、感情の付与時においては、学習時に決定されたネットワーク内部の重み係数を用いて、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータから感情音声の音響的特徴パラメータを推定する計算を行なう。以上により、学習モデルに基づいて無感情音声から感情音声への変換を行うものである。
しかしながら、特許文献1の技術では、予め決められた学習用文章と同一の内容を目標とする感情を伴った発声で収録する必要がある。したがって、特許文献1の技術を話者変換に用いる場合には、目標とする話者に予め決められた学習用文章を全て発話してもらう必要がある。したがって、目標話者に対する負担が大きくなるという課題がある。
予め決められた学習用文章を発話しなくても良い方法として、特許文献2に記載の方法がある。特許文献2に記載の方法は、同一の発話内容をテキスト合成装置により合成し、合成された音声と目標音声との差分により、音声スペクトル形状の変換関数を作成するものである。
図2は、特許文献2の声質変換装置の構成図である。
目標話者の音声信号が目標話者音声入力部11aに入力され、音声認識部19は、目標話者音声入力部11aに入力された目標話者音声を音声認識し、目標話者音声の発声内容を発音記号とともに発声記号列入力部12aへ出力する。音声合成部14は、入力された発音記号列に従って、音声合成用データ記憶部13内の音声合成用データベースを用いて合成音を作成する。目標話者音声特徴パラメータ抽出部15は、目標話者音声を分析して特徴パラメータを抽出し、合成音特徴パラメータ抽出部16は、作成された合成音を分析して特徴パラメータを抽出する。変換関数生成部17は、抽出された双方の特徴パラメータを用い、合成音のスペクトル形状を目標話者音声のスペクトル形状に変換する関数を生成する。声質変換部18は、生成された変換関数により、入力信号の声質変換を行う。
以上により、目標話者音声の音声認識結果を合成音生成のための発音記号列として音声合成部14に入力するため、ユーザがテキスト等で発音記号列を入力する必要が無く、処理の自動化を図ることが可能となる。
また、少ないメモリ容量で複数の声質を生成することができる音声合成装置として、特許文献3の音声合成装置がある。特許文献3に係る音声合成装置は、素片記憶部と、複数の母音素片記憶部と、複数のピッチ記憶部とを含む。素片記憶部は、母音の渡り部分を含む子音素片を保持している。各母音素片記憶部は、一人の発話者の母音素片を記憶している。複数のピッチ記憶部は、母音素片のもととなった発話者の基本ピッチをそれぞれ記憶している。
音声合成装置は、指定された話者の母音素片を複数の母音素片記憶部の中から読出し、素片記憶部に記憶されている予め決定されてた子音素片と接続することにより、音声を合成する。これにより、入力音声の声質を指定された話者の声質に変換することができる。
特開平7−72900号公報(第3−8頁、図1) 特開2005−266349号公報(第9−10頁、図2) 特開平5−257494号公報
特許文献2の技術では、目標話者の発話した内容を音声認識部19により認識することにより発音記号列を生成し、標準の音声合成用データ記憶部13に保持されたデータを用いて音声合成部14が合成音を合成することになる。しかしながら、音声認識部19は一般に認識誤りを生じることは避けられないという問題があり、変換関数生成部17で作成される変換関数の性能に大きな影響を与えることは避けられない。また、変換関数生成部17により作成された変換関数は、音声合成用データ記憶部13に保持された音声の声質から目標話者の声質への変換関数である。このため、声質変換部18により変換される被変換入力信号は、音声合成用データ記憶部13の声質と同一か、あるいは非常に類似した声質の音声信号でない場合、変換後出力信号が目標話者の声質に必ずしも一致しないという課題がある。
また、特許文献3に係る音声合成装置は、目標母音の1フレーム分の声質特徴を切り替えることにより、入力音声の声質変換を行っている。このため、予め登録された話者の声質にしか入力音声の声質を変換することができず、複数の話者の中間的な声質の音声を生成することができない。また、1フレーム分の声質特徴のみを使用して声質の変換を行うため、連続発声における自然性の劣化が大きいという課題がある。
さらに、特許文献3に係る音声合成装置では、母音素片の置き換えにより母音特徴が大きく変換された場合、予め一意に決定されている子音特徴と変換後の母音特徴との差が大きくなる場合が存在する。このような場合、両者の差を小さくするために、たとえ母音特徴および子音特徴の間を補間したとしても、合成音の自然性が大きく劣化するという課題がある。
本発明は、前記従来の課題を解決するもので、被変換入力信号に対する制約のない声質変換が可能な声質変換方法および声質変換方法を提供することを目的とする。
また、本発明は、目標話者の発話の認識誤りによる影響を受けることなく、被変換入力信号に対する声質変換が可能な声質変換方法および声質変換装置を提供することを目的とする。
本発明のある局面に係る声質変換装置は、入力音声に対応する情報を用いて入力音声の声質を変換する声質変換装置であって、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部とを備える。
この構成によると、目標母音声道情報保持部に保持されている目標母音声道情報を用いて声道情報の変換を行なっている。このように、目標母音声道情報を絶対的な目標として利用することができるため、変換元の音声の声質にまったく制限がなく、どのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して声質を変換することが可能となる。
好ましくは、上述の声質変換装置は、さらに、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、前記目標となる声質以外の声質を含む子音の声道情報の中から、前記音素境界情報付声道情報に含まれる子音と同じ音素の子音の声道情報を導出する子音声道情報導出部を備え、前記合成部は、前記母音変換部による変換後の母音の声道情報と、前記子音声道情報導出部において導出された子音の声道情報とを用いて、音声を合成する。
さらに好ましくは、前記子音声道情報導出部は、子音毎に、複数の話者の音声から抽出された声道情報を保持する子音声道情報保持部と、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報に適合する当該子音と同じ音素の子音を有する声道情報を、前記子音声道情報保持部に保持されている子音の声道情報から選択する子音選択部とを有する。
さらに好ましくは、前記子音選択部は、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性に基づいて、当該子音と同じ音素の子音を有する声道情報を前記子音声道情報保持部に保持されている子音の声道情報から選択する。
これにより、変換後の母音の声道情報に適合した最適な子音声道情報を使用することが可能となる。
さらに好ましくは、上述の声質変換装置は、さらに、目標となる声質への変換の度合いを示す変換比率を入力する変換比率入力部を備え、前記母音変換部は、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報と、前記変換比率入力部で入力された前記変換比率とを受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数とを前記変換比率で結合することにより前記第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する。
これにより、目標となる声質の強調度合いを制御することができる。
さらに好ましくは、前記目標母音声道情報保持部は、目標となる声質の音声から安定した母音区間を検出する安定母音区間抽出部と、安定した母音区間から目標となる声道情報を抽出する目標声道情報作成部とにより作成された目標母音声道情報を保持する。
また、目標となる声質の声道情報としては、安定した母音区間の声道情報のみを保持すればよい。また、目標話者の発話の認識時には母音安定区間においてのみ音素認識を行えばよい。このため、目標話者の発話の認識誤りが起こらない。よって、目標話者の認識誤りによる影響を受けることなく、被変換入力信号に対する声質変換が可能となる。
本発明の他の局面に係る声質変換システムは、被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、サーバと、前記サーバとネットワークを介して接続される端末とを備える。前記サーバは、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、前記目標母音声道情報保持部に保持された目標母音声道情報を、ネットワークを介して前記端末に送信する目標母音声道情報送信部と、被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、前記被変換音声保持部に保持された被変換音声情報をネットワークを介して前記端末に送信する被変換音声情報送信部とを備える。前記端末は、前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、前記被変換音声情報送信部より送信された前記被変換音声情報を受信する被変換音声情報受信部と、前記被変換音声情報受信部により受信された被変換音声情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部とを備える。
端末を利用するユーザは、被変換音声情報と母音目標声道情報とをダウンロードして、端末で被変換音声情報の声質変換を行うことができる。例えば、被変換音声情報が音声コンテンツの場合には、ユーザは、自分の好みにあった声質で音声コンテンツを再生することができるようになる。
本発明のさらに他の局面に係る声質変換システムは、被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、端末と、前記端末とネットワークを介して接続されるサーバとを備える。前記端末は、目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報を作成する目標母音声道情報作成部と、前記目標母音声道情報作成部で作成された前記目標母音声道情報をネットワークを介して前記端末に送信する目標母音声道情報送信部と、前記サーバから、声質変換後の音声を受信する声質変換音声受信部と、前記声質変換音声受信部が受信した前記声質変換後の音声を再生する再生部とを備える。前記サーバは、被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、前記被変換音声情報保持部に保持されている被変換音声情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と、合成部において合成された後の音声を、声質変換後の音声として、ネットワークを介して前記声質変換音声受信部に送信する合成音声送信部とを備える。
端末が目標母音声道情報を作成および送信し、サーバにより声質変換された音声を受信および再生する。このため、端末では目標となる母音の声道情報を作成するだけでよく、処理負荷が非常に小さくできる。また、端末のユーザは自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。
なお、本発明は、このような特徴的な手段を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な手段をステップとする声質変換方法として実現したり、声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明によると、目標話者の情報として、母音安定区間の情報のみを用意すればよく、目標話者に対する負担を非常に小さくできる。例えば、日本語の場合、5つの母音を用意するだけで良い。よって、声質変換を容易に行なうことができる。
また、目標話者の情報として、母音安定区間のみの声道情報を識別すればよいので、特許文献2の従来技術のように目標話者の発声全体を認識する必要がなく、音声認識誤りによる影響が少ない。
また、特許文献2の従来技術では、音声合成部の素片と目標話者の発声との差分により変換関数を作成したため、被変換音声の声質は、音声合成部が保持している素片の声質に同一か類似している必要があるが、本発明の声質変換装置は、目標話者の母音声道情報を絶対値としての目標としている。このため、変換元の音声の声質は、制限がなくどのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して声質を変換することが可能となる。
また、目標話者に関する情報は母音安定区間の情報のみを保持しておけばよいので、非常に小さなメモリ容量でよいことから、携帯端末やネットワークを介したサービスなどに利用することが可能である。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る声質変換装置の構成図である。
実施の形態1に係る声質変換装置は、入力音声の母音の声道情報を入力された変換比率で目標話者の母音の声道情報に変換することにより、入力音声の声質を変換する装置であり、目標母音声道情報保持部101と、変換比率入力部102と、母音変換部103と、子音声道情報保持部104と、子音選択部105と、子音変形部106と、合成部107とを含む。
目標母音声道情報保持部101は、目標話者が発声した母音から抽出した声道情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等より構成される。
変換比率入力部102は、声質変換を行う際の目標話者への変換比率を入力する処理部である。
母音変換部103は、入力された音素境界情報付声道情報に含まれる各母音区間に対して、音素境界情報付声道情報の、目標母音声道情報保持部101に保持されている当該母音区間に対応する母音の声道情報への変換を、変換比率入力部102により入力された変換比率に基づいて行なう処理部である。なお、音素境界情報付声道情報とは、入力音声の声道情報に音素ラベルが付された情報である。音素ラベルとは、入力音声に対応する音素情報と各音素の時間長の情報とを含む情報である。音素境界情報付声道情報の生成方法については後述する。
子音声道情報保持部104は、複数の話者の音声データから抽出した話者不特定の子音に対する声道情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等より構成される。
子音選択部105は、母音変換部103により母音の声道情報が変形された音素境界情報付声道情報に含まれる子音の声道情報に対応する子音の声道情報を、音素境界情報付声道情報に含まれる子音の声道情報の前後の母音の声道情報を元に、子音声道情報保持部104から選択する処理部である。
子音変形部106は、子音選択部105により選択された子音の声道情報を、当該子音の前後の母音の声道情報に合わせて変形する処理部である。
合成部107は、入力音声の音源情報と、母音変換部103、子音選択部105および子音変形部106により変形された音素境界情報付声道情報とに基づき、音声を合成する処理部である。すなわち、合成部107は、入力音声の音源情報をもとに励振音源を生成し、音素境界情報付声道情報に基づき構成した声道フィルタを駆動して音声を合成する。音源情報の生成方法については後述する。
声質変換装置は、例えば、コンピュータ等より構成され、上述した各処理部は、プログラムをコンピュータ上で実行することにより実現される。
次にそれぞれの構成要素について詳しく説明する。
<目標母音声道情報保持部101>
目標母音声道情報保持部101は、日本語の場合、目標話者の少なくとも5母音(/aiueo/)における、目標話者の声道形状に由来する声道情報を保持する。英語等の他言語の場合には、日本語の場合と同様に各母音について声道情報を保持すればよい。声道情報の表現方法としては、例えば声道断面積関数がある。声道断面積関数は、図4(a)に示すような可変円形断面積の音響管で声道を模擬した音響管モデルにおける各音響管の断面積を表すものである。この断面積は、LPC(Linear Predictive Coding)分析に基づくPARCOR(Partial Auto Correlation)係数と一意に対応することが知られており、式1により変換可能である。本実施の形態では、PARCOR係数kiにより声道情報を表現するものとする。以降、声道情報はPARCOR係数を用いて説明するが、声道情報はPARCOR係数に限定されるものではなく、PARCOR係数に等価なLSP(Line Spectrum Pairs)やLPCなどを用いてもよい。また、前記音響管モデルにおける音響管の間の反射係数とPARCOR係数との関係は、符号が反転していることのみである。このため、反射係数そのものを用いてももちろん構わない。
Figure 0004246792
ここで、Anは図4(b)に示すように第i区間の音響管の断面積を現し、kiは第i番目と第i+1番目の境界のPARCOR係数(反射係数)をあらわす。
PARCOR係数は、LPC分析により分析された線形予測係数αiを用いて算出することができる。具体的には、PARCOR係数は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出可能である。なお、PARCOR係数は、次の特徴を有する。
・線形予測係数は分析次数pに依存するが、PARCOR係数は分析の次数に依存しない。
・低次の係数ほど変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
・高次の係数の変動の影響は平坦に全周波数帯域にわたる。
次に、目標話者の母音の声道情報(以下、「目標母音声道情報」という。)の作成法について、例を挙げながら説明する。目標母音声道情報は、例えば、目標話者によって発声された孤立母音音声から構築することができる。
図5は、目標話者により発声された孤立母音音声より目標母音声道情報保持部101に記憶されている目標母音声道情報を生成する処理部の構成を示す図である。
母音安定区間抽出部203は、入力された孤立母音音声から孤立母音の区間を抽出する。抽出方法は特に限定されるものではない。例えば、パワーが一定以上の区間を安定区間とし、当該安定区間を母音の区間として抽出するようにしてもよい。
目標声道情報作成部204は、母音安定区間抽出部203により抽出された母音の区間に対して上述のPARCOR係数を算出する。
母音安定区間抽出部203および母音安定区間抽出部203の処理を、入力された孤立母音を発声した音声に対して行うことにより、目標母音声道情報保持部101を構築する。
この他にも図6に示すような処理部により目標母音声道情報保持部101を構築してもよい。目標話者による発声は、少なくとも5母音を含むものであれば、孤立母音音声に限定されるものではない。例えば、目標話者がその場で自由に発話した音声でもよいし、予め収録された音声でもよい。また歌唱データなどの音声を利用してもよい。
このような目標話者音声201に対して、音素認識部202が音素認識を行う。次に、母音安定区間抽出部203が、音素認識部202での認識結果に基づいて、安定した母音区間を抽出する。抽出の方法としては、例えば、音素認識部202での認識結果の信頼度が高い区間(尤度の高い区間)を安定した母音区間として使用することができる。
このように安定した母音区間を抽出することにより、音素認識部202の認識誤りによる影響を排除することが可能である。例えば、図7に示すような音声(/k//a//i/)が入力され、母音区間/i/の安定区間を抽出する場合について説明する。例えば、母音区間/i/内のパワーの大きい区間を安定区間50とすることができる。あるいは、音素認識部202の内部情報である尤度を用いて、尤度が閾値以上ある区間を安定区間として利用することができる。
目標声道情報作成部204は、抽出された母音の安定区間において、目標母音声道情報を作成し、目標母音声道情報保持部101に記憶する。この処理により、目標母音声道情報保持部101を構築することができる。目標声道情報作成部204による目標母音声道情報の作成は、例えば、前述のPARCOR係数を算出することにより行なわれる。
なお、目標母音声道情報保持部101に保持される目標母音声道情報の作成方法は、これらに限定されるものではなく、安定した母音区間に対して声道情報を抽出するようにすれば、その他の方法であってもよい。
<変換比率入力部102>
変換比率入力部102は、目標とする話者の音声にどの程度近づけるかを指定する変換比率の入力を受け付ける。変換比率は通常0以上1以下の数値で指定される。変換比率が1に近いほど、変換後の音声の声質が目標話者に近く、変換比率が0に近いほど変換元音声の声質に近い。
なお、1以上の変換比率を入力することにより、変換元音声の声質と目標話者の声質との違いをより強調して表現するようにすることもできる。また、0以下の変換比率(負の変換比率)を入力することにより、変換元音声の声質と目標話者の声質との違いを逆の方向に強調して表現することもできる。なお、変換比率の入力を省略し、予め定められている比率を変換比率として設定するようにしてもよい。
<母音変換部103>
母音変換部103は、入力された音素境界情報付声道情報に含まれる母音区間の声道情報を、目標母音声道情報保持部101に保持されている目標母音声道情報へ、変換比率入力部102で指定された変換比率で変換する。詳細な変換方法を以下に説明する。
音素境界情報付声道情報は、変換元の音声から前述のPARCOR係数による声道情報を取得すると共に、当該声道情報に音素ラベルを付与することにより生成される。
具体的には図8Aに示すように、LPC分析部301は、入力音声に対して線形予測分析を行い、PARCOR算出部302は、分析された線形予測係数を元に、PARCOR係数を算出する。なお、音素ラベルは別途付与される。
また、合成部107に入力される音源情報は、以下のようにして求められる。つまり、逆フィルタ部304が、LPC分析部301により分析されたフィルタ係数(線形予測係数)からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形(音源情報)を生成する。
上述のLPC分析の代わりにARX(autoregressive with exogenous input)分析を用いることもできる。ARX分析は、声道および音源パラメータを精度よく推定することを目的としたARXモデルと数式音源モデルとによって表される音声生成過程に基づいた音声分析法であり、LPC分析と比較して高精度に声道情報と音源情報とを分離することを可能とした音声分析法である(非特許文献:大塚他「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号(2002年)、pp.386−397)。
図8Bは、音素境界情報付声道情報の他の作成方法を示す図である。
同図に示すように、ARX分析部303は、入力音声に対してARX分析を行い、PARCOR算出部302は、分析された全極モデルの多項式を元にPARCOR係数を算出する。なお、音素ラベルは別途付与される。
また、合成部107に入力される音源情報は、図8Aに示した逆フィルタ部304での処理と同様の処理により生成される。つまり、逆フィルタ部304は、ARX分析部303により分析されたフィルタ係数からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形(音源情報)を生成する。
図9は、音素境界情報付声道情報のさらに他の作成方法を示す図である。
図9に示すように、テキスト合成装置401が入力されたテキストから音声を合成し、合成音声を出力する。合成音声は、LPC分析部301および逆フィルタ部304に入力される。このように、入力音声がテキスト合成装置401により合成された合成音声の場合、音素ラベルはテキスト合成装置401により取得することが可能である。また、LPC分析部301およびPARCOR算出部302は、合成された音声を用いることにより、容易にPARCOR係数を算出することができる。
また、合成部107に入力される音源情報は、図8Aに示した逆フィルタ部304と同様の処理により生成される。つまり、逆フィルタ部304は、ARX分析部303により分析されたフィルタ係数からその周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形(音源情報)を生成する。
また、声質変換装置とオフラインで音素境界情報付声道情報を生成する場合には、予め人手により音素境界を付与するようにしてもよい。
図10A〜図10Jは、10次のPARCOR係数で表現された母音/a/の声道情報の一例を示す図である。
同図において、縦軸は反射係数を表し、横軸は時間を表す。これらの図からPARCOR係数は時間変化に対し比較的滑らかな動きをすることがわかる。
母音変換部103は、以上のようにして入力された音素境界情報付声道情報に含まれる母音の声道情報を変換する。
まず、母音変換部103は、変換対象の母音の声道情報に対応する目標母音声道情報を目標母音声道情報保持部101より取得する。対象となる目標母音声道情報が複数ある場合には、母音変換部103は、変換対象となる母音の音韻環境(例えば前後の音素種類など)の状況に合わせて最適な目標母音声道情報を取得する。
母音変換部103は、変換比率入力部102により入力された変換比率に基づいて、変換対象の母音の声道情報を目標母音声道情報へ変換する。
入力された音素境界情報付声道情報において、変換対象となる母音区間のPARCOR係数で表現された声道情報の各次元の時系列を、式2に示す多項式(第1の関数)により近似する。例えば10次のPARCOR係数の場合は、それぞれの次数のPARCOR係数が式2に示す多項式により近似される。これにより、10種類の多項式を得ることができる。多項式の次数は特に限定されるものではなく、適切な次数を設定することができる。
Figure 0004246792
ただし、
Figure 0004246792
は、入力された被変換音声のPARCOR係数の近似多項式であり、
Figure 0004246792
は、多項式の係数であり、
Figure 0004246792
は、時刻を表す。
このとき多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までの時間幅を単位とするようにしても良い。なお、以下の説明では、音素区間を単位として説明を行う。
図11A〜図11Dは、PARCOR係数を5次の多項式により近似し、音素区間単位で時間方向に平滑化した際の1次から4次のPARCOR係数を示す図である。グラフの縦軸と横軸とは図10A〜図10Jと同じである。
本実施の形態では、多項式の次数として5次を例に説明するが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素区間ごとに回帰直線によりPARCOR係数を近似するようにしても良い。
変換対象となる母音区間のPARCOR係数と同様に、目標母音声道情報保持部101に保持されたPARCOR係数で表現された目標母音声道情報を、式3に示す多項式(第2の関数)により近似し、多項式の係数biを取得する。
Figure 0004246792
次に、被変換パラメータ(ai)と、目標母音声道情報(bi)と、変換比率(r)とを用いて、変換後の声道情報(PARCOR係数)の多項式の係数
Figure 0004246792
を式4により求める。
Figure 0004246792
通常、変換比率rは、0≦r≦1の範囲で指定される。しかし、変換比率rがその範囲を超える場合においても、式4により変換することは可能である。変換比率rが1を超える場合には、被変換パラメータ(ai)と目標母音声道情報(bi)との差分をさらに強調するような変換になる。一方、rが負の値の場合は、被変換パラメータ(ai)と目標母音声道情報(bi)との差分を逆方向に、さらに強調するような変換になる。
算出した変換後の多項式の係数
Figure 0004246792
を用いて、変換後の声道情報を式5(第3の関数)で求める。
Figure 0004246792
以上の変換処理をPARCOR係数の各次元において行なうことにより、指定された変換比率でのターゲットのPARCOR係数への変換が可能になる。
実際に、母音/a/に対して、上記の変換を行った例を図12に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、0から1までの時刻をとる時間のことである。これは、被変換音声の母音継続時間と、目標母音声道情報の継続時間が異なる場合において、時間軸をそろえるための処理である。図中の(a)は被変換音声を示す男性話者の/a/の発声の係数の推移を示している。同様に(b)は目標母音を示す女性話者の/a/の発声の係数の推移を示している。(c)は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率0.5で変換した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
音素境界では、PARCOR係数の値が不連続になるのを防止するために、適切な過渡区間を設けて補間処理を行う。補間の方法は特に限定されるものではないが、例えば線形補間を行なうことによりPARCOR係数の不連続を解消することが可能となる。
図13は、過渡区間を設けてPARCOR係数の値を補間する例について説明する図である。同図には、母音/a/と母音/e/との接続境界の反射係数が示されている。同図では、境界時刻(t)において、反射係数が不連続になっている。そこで境界時刻から適当な渡り時間(Δt)を設け、時刻t−Δtから時刻t+Δtまでの間の反射係数を線形に補間し、補間後の反射係数51を求めることにより音素境界における反射係数の不連続を防止している。渡り時間としては、例えば20msec程度とすればよい。あるいは、渡り時間を前後の母音継続時間長に応じて変更するようにしても良い。例えば、母音区間が短いほど渡り区間も短くし、母音区間が長いほど渡り区間も長くするようにすれば良い。
図14Aは、母音/a/と母音/i/の境界のPARCOR係数を補間した場合のスペクトルを示す図である。図14Bは、母音/a/と母音/i/の境界の音声をクロスフェードにより接続した場合のスペクトルを示す図である。図14Aおよび図14Bにおいて縦軸は周波数を表し、横軸は時間を表す。図14Aにおいて、母音境界21での境界時刻をtとした場合に、時刻t−Δt(22)から時刻t+Δt(23)までの範囲で、スペクトル上の強度のピークが連続的に変化していることがわかる。一方、図14Bでは、スペクトルのピークは、母音境界24を境界として不連続に変化している。このようにPARCOR係数の値を補間することにより、スペクトルピーク(フォルマントに対応)を連続的に変化させることが可能となる。結果として、フォルマントが連続的に変化するため、得られる合成音も連続的に/a/から/i/へ変化させることが可能となる。
また、図15は、合成後のPARCOR係数を補間したPARCOR係数から、再度フォルマントを抽出し、プロットしたものである。同図において、縦軸は周波数(Hz)を表し、横軸は時間(sec)を表す。図上の点は、合成音のフレームごとのフォルマント周波数を示す。点に付属している縦棒は、フォルマントの強度を表している。縦棒が短ければフォルマント強度は強く、長ければ、フォルマント強度は弱い。フォルマントで見た場合においても、母音境界27を中心に渡り区間(時刻28から時刻29までの区間)において、各フォルマントが(フォルマント強度においても)連続的に変化していることがわかる。
以上のように、母音境界においては、適当な過渡区間を設けてPARCOR係数を補間することにより、連続的にフォルマント、およびスペクトルを変換することが可能となり、自然な音韻遷移を実現することが可能である。
このようなスペクトルおよびフォルマントの連続的な遷移は、図14Bに示すような音声のクロスフェードによる接続では実現できない。
同様に図16(a)に/a/と/u/の接続、図16(b)に/a/と/e/の接続、図16(c)に/a/と/o/の接続をした際の、クロスフェード接続によるスペクトル、PARCOR係数を補間した際のスペクトルおよびPARCOR係数補間によるフォルマントの動きを示す。このように全ての母音接続において、スペクトル強度のピークを連続的に変化させることができることがわかる。
つまり、声道形状(PARCOR係数)での補間を行なうことにより、フォルマントの補間もできることが示された。これにより、合成音においても自然に母音の音韻遷移を表現できることになる。
図17A〜図17Cは、変換した母音区間の時間的な中心における声道断面積を示す図である。この図は、図12に示したPARCOR係数の時間的な中心点におけるPARCOR係数を式1により声道断面積に変換したものである。図17A〜図17Cの各グラフにおいて、横軸は音響管における位置を表しており、縦軸は声道断面積を表している。図17Aは変換元の男性話者の声道断面積を示し、図17Bは目標話者の女性の声道断面積を示し、図17Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積を示している。これらの図からも、図17Cに示す声道断面積は、変換元と変換先の間の中間の声道断面積であることがわかる。
<子音声道情報保持部104>
声質を目標話者に変換するために、母音変換部103で入力された音素境界情報付声道情報に含まれる母音を目標話者の母音声道情報に変換したが、母音を変換することにより、子音と母音の接続境界において、声道情報の不連続が生じる。
図18は、VCV(Vは母音、Cは子音を表す)音素列において、母音変換部103が母音の変換を行った後のあるPARCOR係数を模式的に示した図である。
同図において横軸は時間軸を表し、縦軸はPARCOR係数を表す。図18(a)は、入力された音声の声道情報である。このうち母音部分のPARCOR係数は、図18(b)に示すような目標話者の声道情報を用いて母音変換部103により変形される。その結果、図18(c)に示されるような母音部分の声道情報10aおよび10bが得られる。しかし、子音部分の声道情報10cは、変換されておらず入力音声の声道形状を示している。このため、母音部分の声道情報と子音部分の声道情報との境界で不連続が生じる。したがって子音部分の声道情報についても変換が必要となる。子音部分の声道情報の変換方法について以下に説明する。
音声の個人性は、母音と子音の継続時間や安定性などを考えた場合、主に母音により表現されていると考えることができる。
そこで、子音に関しては目標話者の声道情報を使用せずに、予め用意された複数の子音の声道情報の中から、母音変換部103により変換された後の母音声道情報に適合する子音の声道情報を選択することにより変換後の母音との接続境界における不連続を緩和することができる。図18(c)では、子音声道情報保持部104に記憶されている子音の声道情報の中から、前後の母音の声道情報10aおよび10bとの接続性が良い子音の声道情報10dを選択することにより、音素境界における不連続を緩和することができている。
以上の処理を実現するために、予め複数の話者の複数の発声から子音区間を切り出し、目標母音声道情報保持部101に記憶されている目標母音声道情報を作成したときと同じように、各子音区間についてPARCOR係数を算出することにより、子音声道情報保持部104に記憶される子音声道情報が作成される。
<子音選択部105>
子音選択部105は、母音変換部103により変換された母音声道情報に適合する子音声道情報を子音声道情報保持部104から選択する。どの子音声道情報を選択するかは、子音の種類(音素)と、子音の始端および終端の接続点における声道情報の連続性とにより判断できる。つまり、PARCOR係数の接続点における連続性に基づいて、選択するか否かを判断することができる。具体的には、子音選択部105は、式6を満たす子音声道情報Ciを探索する。
Figure 0004246792
ここで、Ui-1は、前方の音素の声道情報を表し、Ui+1は後続の音素の声道情報を表す。
また、wは、前方の音素と選択対象の子音との連続性と、選択対象の子音と後続の音素との連続性との重みである。重みwは、後続音素との接続を重視するように適宜設定される。後続音素との接続を重視するのは、子音は、前方の音素よりも後続する母音との結びつきが強いためである。
また、関数Ccは、2つの音素の声道情報の連続性を示す関数であり、例えば、当該連続性を2つの音素の境界におけるPARCOR係数の差の絶対値により表現することができる。また、PARCOR係数は低次の係数ほど重みを大きくするように設計してもよい。
このようにして、目標声質への変換後の母音の声道情報に適合する子音の声道情報を選択することにより、滑らかな接続が可能となり、合成音声の自然性を向上させることができる。
なお、子音選択部105において選択する子音の声道情報を有声子音の声道情報だけとし、無声子音については入力された声道情報を使用するように設計してもよい。なぜならば、無声子音は声帯の振動を伴わない発声であり、音声の生成過程が母音や有声子音のときと異なるためである。
<子音変形部106>
子音選択部105により、母音変換部103により変換された後の母音声道情報に適合する子音声道情報を取得することが可能であるが、必ずしも接続点の連続性が十分でない場合がある。そこで、子音変形部106は、子音選択部105により選択した子音の声道情報を後続母音の接続点と連続的に接続できるように変形を行う。
具体的には、子音変形部106は、後続母音との接続点において、PARCOR係数が後続母音のPARCOR係数と一致するように、子音のPARCOR係数をシフトさせる。ただし、PARCOR係数は安定性の保証のためには、[−1,1]の範囲である必要がある。このため、PARCOR係数を一旦tanh-1関数などにより[−∞,∞]の空間に写像し、写像された空間上で線形にシフトした後、再びtanhにより[−1,1]の範囲に戻すことにより、安定性を保証したまま、子音区間と後続母音区間の声道形状の連続性を改善することが可能となる。
<合成部107>
合成部107は、声質変換後の声道情報と別途入力される音源情報とを用いて音声を合成する。合成の方法は特に限定されるものではないが、声道情報としてPARCOR係数を用いている場合には、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に音声を合成してもよいし、PARCOR係数からフォルマントを抽出し、フォルマント合成により音声を合成してもよい。さらにはPARCOR係数からLSP係数を算出し、LSP合成により音声を合成するようにしてもよい。
次に、本実施の形態において実行される処理について、図19Aおよび図19Bに示すフローチャートを用いて説明する。
本発明の実施の形態において実行される処理は、大別して2つの処理からなる。1つは、目標母音声道情報保持部101の構築処理であり、もう1つは声質の変換処理である。
まず、図19Aを参照しながら、目標母音声道情報保持部101の構築処理について説明する。
目標話者が発声した音声から母音の安定区間が抽出される(ステップS001)。安定区間の抽出方法としては、前述したように音素認識部202が音素を認識し、母音安定区間抽出部203が、認識結果に含まれる母音区間のうち尤度が閾値以上の母音区間を母音安定区間として抽出する。
目標声道情報作成部204が、抽出された母音区間における声道情報を作成する(ステップS002)。上述したように声道情報は、PARCOR係数により表すことができる。PARCOR係数は全極モデルの多項式から算出することができる。そのため、分析方法としてはLPC分析またはARX分析を用いることができる。
目標声道情報作成部204は、ステップS002において分析された母音安定区間のPARCOR係数を、声道情報として目標母音声道情報保持部101に登録する(ステップS003)。
以上により、目標話者に対する声質を特徴付ける目標母音声道情報保持部101を構築することが可能となる。
次に、図19Bを参照しながら、図3に示した声質変換装置により、入力された音素境界情報付音声を目標話者の音声に変換する処理について説明する。
変換比率入力部102は、目標話者への変換の度合いを示す変換比率の入力を受け付ける(ステップS004)。
母音変換部103は、入力された音声の母音区間に対して、対応する母音に対する目標声道情報を目標母音声道情報保持部101から取得し、ステップS004において入力された変換比率に基づいて入力された音声の母音区間の声道情報を変換する(ステップS005)。
子音選択部105は、変換された母音区間の声道情報に適合する子音声道情報を選択する(ステップS006)。このとき、子音選択部105は、子音の種類(音素)、および子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。
子音変形部106は、選択された子音の声道情報と前後の音素区間での声道情報との連続性を高めるために、子音の声道情報を変形する(ステップS007)。変形は、選択された子音の声道情報と前後の音素区間のそれぞれとの接続点における声道情報(PARCOR係数)の差分値を元に、子音のPARCOR係数をシフトさせることにより実現する。なお、シフトさせる際には、PARCOR係数の安定性を保証するために、tanh-1関数などにより、PARCOR係数を一旦[−∞,∞]の空間に写像し、写像した空間においてPARCOR係数を線形にシフトし、シフト後に再びtanh関数などにより[−1,1]の空間に戻す。これにより安定した子音声道情報の変形を行うことができる。なお、[−1,1]から[−∞,∞]への写像は、tanh-1関数に限らず、f(x)=sgn(x)×1/(1−|x|)などの関数を用いてもよい。ここでsgn(x)はxが正のときに+1を負のときに−1となる関数である。
このようにして子音区間の声道情報を変形することにより、変換後の母音区間に適合し、かつ連続性の高い子音区間の声道情報を作成することが可能となる。よって、安定で連続的であり、かつ高音質な声質変換を実現することが可能となる。
合成部107は、母音変換部103、子音選択部105および子音変形部106により変換された声道情報を元に合成音を生成する(ステップS008)。このとき、音源情報としては、変換元音声の音源情報を用いることができる。通常、LPC系の分析合成においては、励振音源としてインパルス列を用いることが多いので、予め設定された基本周波数などの情報に基づいて音源情報(F0(基本周波数)、パワーなど)を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。
また、例えば合成部107においてはRosenberg−Klattモデルなどの声門音源モデルを用いることもでき、このような構成を用いた場合、Rosenberg−Klattモデルのパラメータ(OQ、TL、AV、F0等)を被変換音声のものから目標音声に向けてシフトした値を用いるなどの方法を用いることも可能である。
かかる構成によれば、音素境界情報付の音声情報を入力とし、母音変換部103は、入力された音素境界情報付声道情報に含まれる各母音区間の声道情報から、目標母音声道情報保持部101に保持されている当該母音区間に対応する母音の声道情報への変換を、変換比率入力部102により入力された変換比率に基づいて行なう。子音選択部105は、母音変換部103により変換された母音声道情報に適合する子音の声道情報を、子音の前後の母音の声道情報を元に子音声道情報保持部104から選択する。子音変形部106は、子音選択部105により選択された子音の声道情報を前後の母音の声道情報に合わせて変形する。合成部107は、母音変換部103、子音選択部105および子音変形部106により変形された音素境界情報付声道情報を元に音声を合成する。このため、目標話者の声道情報としては、母音安定区間の声道情報のみを用意すればよい。また、目標話者の声道情報の作成時には、母音安定区間のみを識別すればよいので、特許文献2の技術のように音声認識誤りによる影響を受けない。
つまり、目標話者に対する負担を非常に小さくできることから、声質変換を容易に行うことができる。また、特許文献2の技術では、音声合成部14での音声合成に用いられる音声素片と目標話者の発声との差分により変換関数を作成している。このため、被変換音声の声質は、音声合成用データ記憶部13が保持している音声素片の声質と同一または類似している必要がある。これに対し、本発明の声質変換装置は、目標話者の母音声道情報を、絶対的な目標としている。このため、変換元の音声の声質は、まったく制限がなくどのような声質の音声が入力されてもよい。つまり、入力される被変換音声に対する制約が非常に少ないため、幅広い音声に対して、当該音声の声質を変換することが可能となる。
また、子音選択部105が、子音声道情報保持部104から、予め保持された子音の声道情報を選択することにより、変換後の母音の声道情報に適合した最適な子音声道情報を使用することが可能となる。
なお、本実施の形態では、子音選択部105および子音変形部106により、母音区間だけでなく子音区間においても音源情報を変換する処理を行ったが、これらの処理を省略してもよい。この場合、子音の声道情報として、声質変換装置に入力される音素境界情報付声道情報に含まれるものをそのまま用いる。これにより、処理端末の処理性能が低い場合や、記憶容量が少ない場合においても目標話者への声質変換を実現することが可能となる。
なお、子音変形部106のみを省略するように声質変換装置を構成してもよい。この場合、子音選択部105で選択された子音の声道情報をそのまま用いることになる。
または、子音選択部105のみを省略するように声質変換装置を構成してもよい。この場合には、子音変形部106が、声質変換装置に入力される音素境界情報付声道情報に含まれる子音の声道情報を変形する。
(実施の形態2)
以下、本発明の実施の形態2について説明する。
実施の形態2では、実施の形態1の声質変換装置と異なり、被変換音声と目標声質情報とが、個別に管理されている場合を考える。被変換音声は音声コンテンツであると考える。例えば、歌唱音声などがある。目標声質情報として、さまざまな声質を保持しているものとする。例えば、さまざまな歌手の声質情報を保持しているものとする。このような場合に音声コンテンツと、目標声質情報とを別々にダウンロードして、端末で声質変換を行うという使用方法が考えられる。
図20は、本発明の実施の形態2に係る声質変換システムの構成を示す図である。図20において、図3と同じ構成要素については同じ符号を用い、説明を省略する。
声質変換システムは、被変換音声サーバ121と、目標音声サーバ122と、端末123とを含む。
被変換音声サーバ121は、被変換音声情報を管理し、提供するサーバであり、被変換音声保持部111と、被変換音声情報送信部112とを含む。
被変換音声保持部111は、変換される音声の情報を保持する記憶装置であり、例えば、ハードディスクやメモリ等から構成される。
被変換音声情報送信部112は、被変換音声保持部111に保持された被変換音声情報をネットワークを介して端末123に送信する処理部である。
目標音声サーバ122は、目標となる声質情報を管理し、提供するサーバであり、目標母音声道情報保持部101と、目標母音声道情報送信部113とを含む。
目標母音声道情報送信部113は、目標母音声道情報保持部101に保持されている目標話者の母音声道情報をネットワークを介して端末123に送信する処理部である。
端末123は、被変換音声サーバ121から送信される被変換音声情報の声質を、目標音声サーバ122から送信される目標母音声道情報に基づいて変換する端末装置であり、被変換音声情報受信部114と、目標母音声道情報受信部115と、変換比率入力部102と、母音変換部103と、子音声道情報保持部104と、子音選択部105と、子音変形部106と、合成部107とを含む。
被変換音声情報受信部114は、被変換音声情報送信部112より送信された被変換音声情報をネットワークを介して受信する処理部である。
目標母音声道情報受信部115は、目標母音声道情報送信部113より送信された目標母音声道情報をネットワークを介して受信する処理部である。
被変換音声サーバ121、目標音声サーバ122および端末123は、例えば、CPU、メモリ、通信インタフェース等を備えるコンピュータ等により構成され、上述した各処理部は、プログラムをコンピュータのCPU上で実行することにより実現される。
本実施の形態と実施の形態1との違いは、目標話者の母音の声道情報である目標母音声道情報と、被変換音声に対応した情報である被変換音声情報とをネットワークを介して送受信することである。
次に、実施の形態2に係る声質変換システムの動作について説明する。図21は、本発明の実施の形態2に係る声質変換システムの処理の流れを示すフローチャートである。
端末123は、目標音声サーバ122に対して目標話者の母音声道情報をネットワークを介して要求する。目標音声サーバ122の目標母音声道情報送信部113は、目標母音声道情報保持部101から要求された目標話者の母音声道情報を取得し、端末123に送信する。端末123の目標母音声道情報受信部115は、目標話者の母音声道情報を受信する(ステップS101)。
目標話者の指定方法は特に限定されるものではなく、例えば話者識別子を用いて指定するようにしてもよい。
端末123は、ネットワークを介して被変換音声サーバ121に対して、被変換音声情報を要求する。被変換音声サーバ121の被変換音声情報送信部112は、要求された被変換音声情報を被変換音声保持部111から取得し、端末123に送信する。端末123の被変換音声情報受信部114は、被変換音声情報を受信する(ステップS102)。
被変換音声情報の指定方法は特に限定されるものではなく、例えば音声コンテンツを識別子により管理し、その識別子を用いて指定するようにしてもよい。
変換比率入力部102は、目標話者への変換の度合いを示す変換比率の入力を受け付ける(ステップS004)。なお、変換比率の入力を省略し、予め定められた変換比率を設定するようにしてもよい。
母音変換部103は、入力された音声の母音区間に対して、対応する母音の目標母音声道情報を目標母音声道情報受信部115から取得し、ステップS004において入力された変換比率に基づいて入力された音声の母音区間の声道情報を変換する(ステップS005)。
子音選択部105は、変換された母音区間の声道情報に適合する子音声道情報を選択する(ステップS006)。このとき、子音選択部105は、子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。
子音変形部106は、選択された子音の声道情報と前後の音素区間での声道情報との連続性を高めるために、子音の声道情報を変形する(ステップS007)。変形は、選択された子音の声道情報と前後の音素区間のそれぞれとの接続点における声道情報(PARCOR係数)の差分値を元に、子音のPARCOR係数をシフトさせることにより実現する。なお、シフトさせる際には、PARCOR係数の安定性を保証するために、tanh-1関数などにより、PARCOR係数を一旦[−∞,∞]の空間に写像し、写像した空間においてPARCOR係数を線形にシフトし、シフト後に再びtanh関数などにより[−1,1]の空間に戻す。これにより安定した子音声道情報の変形を行うことができる。なお、[−1,1]から[−∞,∞]への写像は、tanh-1関数に限らず、f(x)=sgn(x)×1/(1−|x|)などの関数を用いてもよい。ここでsgn(x)はxが正のときに+1を負のときに−1となる関数である。
このようにして子音区間の声道情報を変形することにより、変換後の母音区間に適合し、かつ連続性の高い子音区間の声道情報を作成することが可能となる。よって、安定で連続的であり、かつ高音質な声質変換を実現することが可能となる。
合成部107は、母音変換部103、子音選択部105および子音変形部106により変換された声道情報を元に合成音を生成する(ステップS008)。このとき、音源情報としては、変換元音声の音源情報を用いることができる。なお、予め設定された基本周波数などの情報に基づいて音源情報を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。
なお、ステップS101、ステップS102、ステップS004は、この順番でなくともよく、任意の順番で実行されてもよい。
かかる構成によれば、目標音声サーバ122が目標音声情報を管理し、送信する。このため、端末123で目標音声情報を作成する必要がなく、かつ、目標音声サーバ122に登録されているさまざまな声質への声質変換を行うことが可能となる。
また、被変換音声サーバ121により、変換される音声を管理し、送信することにより、端末123で変換される音声情報を作成する必要がなく、被変換音声サーバ121に登録されているさまざまな被変換音声情報を利用することができる。
被変換音声サーバ121は、音声コンテンツを管理し、目標音声サーバ122は、目標話者の声質情報を管理することにより、音声情報と話者の声質情報とを別々に管理することが可能となる。これにより、端末123の利用者は自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。
例えば、被変換音声サーバ121で、歌唱音を管理し、目標音声サーバ122で、さまざまな歌手の目標音声情報を管理することにより、端末123においてさまざまな音楽を、さまざまな歌手の声質に変換して聞くことが可能となり、利用者の好みに合わせた音楽を提供することが可能となる。
なお、被変換音声サーバ121と目標音声サーバ122とは、同一のサーバにより実現するようにしてもよい。
(実施の形態3)
実施の形態2では、被変換音声と目標母音声道情報とをサーバで管理し、端末がそれぞれをダウンロードして声質が変換された音声を生成する利用方法について示した。これに対し、本実施の形態では、ユーザが自分の声の声質を端末を用いて登録し、例えば、着呼をユーザに知らせるための着信歌声などを自分の声質に変換して楽しむサービスに本発明を適用した場合について説明する。
図22は、本発明の実施の形態3に係る声質変換システムの構成を示す図である。図22において、図3と同じ構成要素については同じ符号を用い、説明を省略する。
声質変換システムは、被変換音声サーバ121と、声質変換サーバ222と、端末223とを含む。
被変換音声サーバ121は、実施の形態2に示した被変換音声サーバ121と同様の構成を有し、被変換音声保持部111と、被変換音声情報送信部112とを含む。ただし、被変換音声情報送信部112による被変換音声情報の送信先が異なり、本実施の形態に係る被変換音声情報送信部112は、被変換音声情報をネットワークを介して声質変換サーバ222に送信する。
端末223は、ユーザが歌声変換サービスを享受するための端末装置である。つまり、端末223は、目標となる声質情報を作成し、声質変換サーバ222に提供すると共に、声質変換サーバ222により変換された歌声音声を受信し再生する装置であり、音声入力部109と、目標母音声道情報作成部224と、目標母音声道情報送信部113と、被変換音声指定部1301と、変換比率入力部102と、声質変換音声受信部1304と、再生部305とを含む。
音声入力部109は、ユーザの音声を取得するための装置であり、例えば、マイクロフォンなどを含む。
目標母音声道情報作成部224は、目標話者、すなわち音声入力部109から音声を入力したユーザの母音の声道情報である目標母音声道情報を作成する処理部である。目標母音声道情報の作成方法は限定されるものではないが、例えば、目標母音声道情報作成部224は、図5に示した方法により目標母音声道情報を作成し、母音安定区間抽出部203と、目標声道情報作成部204とを含む。
目標母音声道情報送信部113は、目標母音声道情報作成部224により作成された目標母音声道情報を、ネットワークを介して声質変換サーバ222に送信する処理部である。
被変換音声指定部1301は、被変換音声サーバ121に保持されている被変換音声情報の中から、変換対象とする被変換音声情報を指定し、指定された結果をネットワークを介して声質変換サーバ222に送信する処理部である。
変換比率入力部102は、実施の形態1および2に示した変換比率入力部102と同様の構成を有するが、本実施の形態に係る変換比率入力部102は、さらに、入力された変換比率をネットワークを介して声質変換サーバ222に送信する。なお、変換比率の入力を省略し、予め定められた変換比率を用いるようにしてもよい。
声質変換音声受信部1304は、声質変換サーバ222により声質変換された被変換音声である合成音を受信する処理部である。
再生部306は、声質変換音声受信部1304が受信した合成音を再生する装置であり、例えば、スピーカなどを含む。
声質変換サーバ222は、被変換音声サーバ121から送信される被変換音声情報の声質を、端末223の目標母音声道情報送信部113から送信される目標母音声道情報に基づいて変換する装置であり、被変換音声情報受信部114と、目標母音声道情報受信部115と、変換比率受信部1302と、母音変換部103と、子音声道情報保持部104と、子音選択部105と、子音変形部106と、合成部107と、合成音声送信部1303とを含む。
変換比率受信部1302は、変換比率入力部102から送信された変換比率を受信する処理部である。
合成音声送信部1303は、合成部107より出力される合成音を、ネットワークを介して端末223の声質変換音声受信部1304に送信する処理部である。
被変換音声サーバ121、声質変換サーバ222および端末223は、例えば、CPU、メモリ、通信インタフェース等を備えるコンピュータ等により構成され、上述した各処理部は、プログラムをコンピュータのCPU上で実行することにより実現される。
本実施の形態と実施の形態2との異なる点は、端末223は、目標となる声質特徴を抽出した後に、声質変換サーバ222に送信し、声質変換サーバ222が、声質変換した後の合成音を端末223に送り返すことにより、端末223上で抽出した声質特徴を有する合成音を得ることができることである。
次に、実施の形態3に係る声質変換システムの動作について説明する。図23は、本発明の実施の形態3に係る声質変換システムの処理の流れを示すフローチャートである。
端末223は、音声入力部109を用いて、ユーザの母音音声を取得する。例えば、ユーザはマイクロフォンに向かって「あ、い、う、え、お」と発声することにより母音音声を取得することができる。母音音声の取得の方法はこれに限られず、図6に示したように発声された文章から母音音声を抽出するようにしても良い(ステップS301)。
端末223は、目標母音声道情報作成部224を用いて取得した母音音声から、声道情報を作成する。声道情報の作成の方法は実施の形態1と同じでよい(ステップS302)。
端末223は、被変換音声指定部1301を用いて、被変換音声情報を指定する。指定の方法は特に限定されるものではない。被変換音声サーバ121の被変換音声情報送信部112は、被変換音声指定部1301により指定された被変換音声情報を、被変換音声保持部111に保持された被変換音声情報の中から選択し、選択した被変換音声情報を声質変換サーバ222に送信する(ステップS303)。
端末223は、変換比率入力部102を用いて、変換する比率を取得する(ステップS304)。
声質変換サーバ222の変換比率受信部1302は、端末223より送信された変換比率を受信し、目標母音声道情報受信部115は、端末223より送信された目標母音声道情報を受信する。また、被変換音声情報受信部114は、被変換音声サーバ121より送信された被変換音声情報を受信する。そして、母音変換部103は、受信した被変換音声情報の母音区間の声道情報に対して、対応する母音の目標母音声道情報を目標母音声道情報受信部115から取得し、変換比率受信部1302により受信した変換比率に基づいて母音区間の声道情報を変換する(ステップS305)。
声質変換サーバ222の子音選択部105は、変換された母音区間の声道情報に適合する子音声道情報を選択する(ステップS306)。このとき、子音選択部105は、子音とその前後の音素との接続点における声道情報の連続性を評価基準として、連続性が最も高い子音の声道情報を選択するものとする。
声質変換サーバ222の子音変形部106は、選択された子音の声道情報と前後の音素区間との連続性を高めるために、子音の声道情報を変形する(ステップS307)。
変形の方法としては、実施の形態2の変形方法と同じでよい。このようにして子音区間の声道情報を変形することにより、変換後の母音区間に適合し、かつ連続性の高い子音区間の声道情報を作成することが可能となる。よって、安定で連続的であり、かつ高音質な声質変換を実現することが可能となる。
声質変換サーバ222の合成部107は、母音変換部103、子音選択部105および子音変形部106により変換された声道情報を元に合成音を生成し、合成音声送信部1303が、生成された合成音を端末223へ送信する(ステップS308)。このとき、合成音声生成時の音源情報としては、変換元音声の音源情報を用いることができる。なお、予め設定された基本周波数などの情報に基づいて音源情報を変形した後に、合成音を生成するようにしてもよい。これにより、声道情報による声色の変換だけでなく、基本周波数などにより示される韻律、または音源情報の変換を行うことが可能となる。
端末223の声質変換音声受信部1304は、合成音声送信部1303より送信された合成音を受信し、再生部305が、受信した合成音を再生する(S309)。
かかる構成によれば、端末223が目標音声情報を作成および送信し、声質変換サーバ222により声質変換された音声を受信および再生する。このため、端末223では目標となる音声を入力し、目標となる母音の声道情報を作成するだけでよく、端末223の処理負荷を非常に小さくすることができる。
また、被変換音声サーバ121を用いて、被変換音声情報を管理し、被変換音声情報を被変換音声サーバ121から声質変換サーバ222へ送信することにより、端末223で被変換音声情報を作成する必要がない。
被変換音声サーバ121は、音声コンテンツを管理し、端末223では、目標となる声質のみを作成するので、端末223の利用者は自分の好みに合った音声コンテンツを、自分の好みに合った声質で聞くことが可能となる。
例えば、被変換音声サーバ121で、歌唱音を管理し、端末223により取得された目標声質に、声質変換サーバ222を用いて歌唱音を変換することにより、利用者の好みに合わせた音楽を提供することが可能となる。
なお、被変換音声サーバ121と声質変換サーバ222とは、同一のサーバにより実現するようにしてもよい。
本実施の形態の応用例として、たとえば端末223が携帯電話機の場合は、取得した合成音を例えば着信音として登録することにより、ユーザは自分だけの着信音を作成することが可能である。
また、本実施の形態の構成では、声質変換は声質変換サーバ222で行なうため、声質変換の管理をサーバで行なうことが可能である。これにより、ユーザの声質変換の履歴を管理することも可能となり、著作権および肖像権の侵害の問題が起こりにくくなるという効果がある。
なお、本実施の形態では、目標母音声道情報作成部224は、端末223に設けられているが、声質変換サーバ222に設けられていてもよい。その場合は、音声入力部109により入力された目標母音音声を、ネットワークを通じて、声質変換サーバ222に送信する。また、声質変換サーバ222では、受信した音声から目標母音声道情報作成部224を用いて目標母音声道情報を作成し、母音変換部103による声質変換時に使用するようにしても良い。この構成によれば、端末223は、目標となる声質の母音を入力するだけでよいので、処理負荷が非常に小さくて済むという効果がある。
なお、本実施の形態は、携帯電話機の着信歌声の声質変換だけに適用できるものではなく、例えば、歌手の歌った歌をユーザの声質で再生させることにより、プロの歌唱力を持ち、かつユーザの声質で歌った歌を聞くことができる。その歌を真似て歌うことによりプロの歌唱力を習得することができるため、カラオケの練習用途などに適用することもできる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかる声質変換装置は、目標話者の母音区間の声道情報から、高品質に声質を変換する機能を有し、種々の声質を必要とするユーザインタフェースや、エンターテイメント等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。
図1は、従来の音声処理システムの構成を示す図である。 図2は、従来の声質変換装置の構成を示す図である。 図3は、本発明の実施の形態1に係る声質変換装置の構成を示す図である。 図4は、声道断面積関数とPARCOR係数との関係を示す図である。 図5は、目標母音声道情報保持部に保持されている目標母音声道情報を生成する処理部の構成を示す図である。 図6は、目標母音声道情報保持部に保持されている目標母音声道情報を生成する処理部の構成を示す図である。 図7は、母音の安定区間の一例を示す図である。 図8Aは、入力される音素境界情報付声道情報の作成方法の一例を示す図である。 図8Bは、入力される音素境界情報付声道情報の作成方法の一例を示す図である。 図9は、テキスト音声合成装置を用いた、入力される音素境界情報付声道情報の作成方法の一例を示す図である。 図10Aは、母音/a/の1次のPARCOR係数による声道情報の一例を示す図である。 図10Bは、母音/a/の2次のPARCOR係数による声道情報の一例を示す図である。 図10Cは、母音/a/の3次のPARCOR係数による声道情報の一例を示す図である。 図10Dは、母音/a/の4次のPARCOR係数による声道情報の一例を示す図である。 図10Eは、母音/a/の5次のPARCOR係数による声道情報の一例を示す図である。 図10Fは、母音/a/の6次のPARCOR係数による声道情報の一例を示す図である。 図10Gは、母音/a/の7次のPARCOR係数による声道情報の一例を示す図である。 図10Hは、母音/a/の8次のPARCOR係数による声道情報の一例を示す図である。 図10Iは、母音/a/の9次のPARCOR係数による声道情報の一例を示す図である。 図10Jは、母音/a/の10次のPARCOR係数による声道情報の一例を示す図である。 図11Aは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。 図11Bは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。 図11Cは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。 図11Dは、母音変換部による母音の声道形の多項式近似の具体例を示す図である。 図12は、母音変換部により母音区間のPARCOR係数が変換される様子を示す図である。 図13は、過渡区間を設けてPARCOR係数の値を補間する例について説明する図である。 図14Aは、母音/a/と母音/i/の境界のPARCOR係数を補間した場合のスペクトルを示す図である。 図14Bは、母音/a/と母音/i/の境界の音声をクロスフェードにより接続した場合のスペクトルを示す図である。 図15は、合成後のPARCOR係数を補間したPARCOR係数から、再度フォルマントを抽出し、プロットしたグラフである。 図16(a)は/a/と/u/の接続、図16(b)は/a/と/e/の接続、図16(c)は/a/と/o/の接続をした際の、クロスフェード接続によるスペクトル、PARCOR係数を補間した際のスペクトルおよびPARCOR係数補間によるフォルマントの動きを示す図である。 図17Aは、変換元の男性話者の声道断面積の様子を示す図である。 図17Bは、目標話者の女性の声道断面積の様子を示す図である。 図17Cは、変換比率50%で変換元のPARCOR係数を変換した後のPARCOR係数に対応する声道断面積の様子を示す図である。 図18は、子音選択部により子音声道情報を選択する処理を説明するための模式図である。 図19Aは、目標母音声道情報保持部の構築処理のフローチャートである。 図19Bは、入力された音素境界情報付音声を目標話者の音声に変換する処理のフローチャートである。 図20は、本発明の実施の形態2に係る声質変換システムの構成を示す図である。 図21は、本発明の実施の形態2に係る声質変換システムの動作を示すフローチャートである。 図22は、本発明の実施の形態3に係る声質変換システムの構成を示す図である。 図23は、本発明の実施の形態3に係る声質変換システムの処理の流れを示すフローチャートである。
符号の説明
101 目標母音声道情報保持部
102 変換比率入力部
103 母音変換部
104 子音声道情報保持部
105 子音選択部
106 子音変形部
107 合成部
111 被変換音声保持部
112 被変換音声情報送信部
113 目標母音声道情報送信部
114 被変換音声情報受信部
115 目標母音声道情報受信部
121 被変換音声サーバ
122 目標音声サーバ
201 目標話者音声
202 音素認識部
203 母音安定区間抽出部
204 目標声道情報作成部
301 LPC分析部
302 PARCOR算出部
303 ARX分析部
401 テキスト合成装置

Claims (19)

  1. 入力音声に対応する情報を用いて入力音声の声質を変換する声質変換装置であって、
    目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、
    入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、
    前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と
    を備える声質変換装置。
  2. さらに、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、前記目標となる声質以外の声質を含む子音の声道情報の中から、前記音素境界情報付声道情報に含まれる子音と同じ音素の子音の声道情報を導出する子音声道情報導出部を備え、
    前記合成部は、前記母音変換部による変換後の母音の声道情報と、前記子音声道情報導出部において導出された子音の声道情報とを用いて、音声を合成する
    請求項1に記載の声質変換装置。
  3. 前記子音声道情報導出部は、
    子音毎に、複数の話者の音声から抽出された声道情報を保持する子音声道情報保持部と、
    前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報に適合する当該子音と同じ音素の子音を有する声道情報を、前記子音声道情報保持部に保持されている子音の声道情報から選択する子音選択部とを有する
    請求項2に記載の声質変換装置。
  4. 前記子音選択部は、前記音素境界情報付声道情報を受け、当該音素境界情報付声道情報に含まれる子音の声道情報毎に、当該子音の前または後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性に基づいて、当該子音と同じ音素の子音を有する声道情報を前記子音声道情報保持部に保持されている子音の声道情報から選択する
    請求項3に記載の声質変換装置。
  5. さらに、前記子音選択部において選択された子音の声道情報を、当該子音の後の母音区間に位置する前記母音変換部による変換後の母音の声道情報との値の連続性が良くなるように変形する子音変形部を備える
    請求項3に記載の声質変換装置。
  6. さらに、目標となる声質への変換の度合いを示す変換比率を入力する変換比率入力部を備え、
    前記母音変換部は、入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報と、前記変換比率入力部で入力された前記変換比率とを受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数とを前記変換比率で結合することにより前記第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する
    請求項1に記載の声質変換装置。
  7. 前記母音変換部は、前記音素境界情報付声道情報に含まれる母音の声道情報を次数毎に第1の多項式で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている前記目標母音声道情報を次数毎に第2の多項式で近似し、次数毎に、前記第1の多項式の係数と前記第2多項式の係数とを前記変換比率で混合することにより第3の多項式の各次数の係数を求め、変換後の母音の声道情報を前記第3の多項式で近似する
    請求項6に記載の声質変換装置。
  8. 前記母音変換部は、さらに、第1の母音の声道情報と第2の母音の声道情報との時間的な境界である母音境界を含む所定の時間を渡り区間とし、前記母音境界において前記第1の母音の声道情報と前記第2の母音の声道情報とが連続に接続されるように、当該渡り区間に含まれる前記第1の母音の声道情報と前記第2の母音の声道情報とを補間する
    請求項1に記載の声質変換装置。
  9. 前記所定の時間は、前記母音境界の前後に位置する前記第1の母音と前記第2の母音との継続時間長が長いほど、長く設定される
    請求項8に記載の声質変換装置。
  10. 前記声道情報は、PARCOR(Partial Auto Correlation)係数または声道音響管モデルの反射係数である
    請求項1に記載の声質変換装置。
  11. 前記PARCOR係数または声道音響管モデルの反射係数は、入力音声をLPC(Linear Predictive Coding)分析し、分析された全極モデルの多項式に基づいて算出される
    請求項10に記載の声質変換装置。
  12. 前記PARCOR係数または声道音響管モデルの反射係数は、入力音声をARX(Autoregressive Exogenous)分析し、分析された全極モデルの多項式に基づいて算出される
    請求項10に記載の声質変換装置。
  13. 前記音素境界情報付声道情報は、テキストから生成された合成音声に基づいて定められる
    請求項1に記載の声質変換装置。
  14. 前記目標母音声道情報保持部は、
    目標となる声質の音声から安定した母音区間を検出する安定母音区間抽出部と、
    安定した母音区間から目標となる声道情報を抽出する目標声道情報作成部と、
    により作成された目標母音声道情報を保持する
    請求項1に記載の声質変換装置。
  15. 前記安定母音区間抽出部は、
    前記目標となる声質の音声に含まれる音素を認識する音素認識部と、
    前記音素認識部が認識した母音区間において、前記音素認識部における認識結果の尤度が所定の閾値より高い区間を安定母音区間として抽出する安定区間抽出部とを有する
    請求項14に記載の声質変換装置。
  16. 入力音声に対応する情報を用いて入力音声の声質を変換する声質変換方法であって、
    入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換ステップと、
    前記母音変換ステップによる変換後の母音の声道情報を用いて、音声を合成する合成ステップと
    を含む声質変換方法。
  17. 入力音声に対応する情報を用いて入力音声の声質を変換するプログラムであって、
    入力音声に対応する音素および音素の時間長情報が付与された声道情報である音素境界情報付声道情報を受け、前記音素境界情報付声道情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報保持部に保持されている声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換ステップと、
    前記母音変換ステップによる変換後の母音の声道情報を用いて、音声を合成する合成ステップと
    をコンピュータに実行させるためのプログラム。
  18. 被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、
    サーバと、
    前記サーバとネットワークを介して接続される端末とを備え、
    前記サーバは、
    目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報保持部と、
    前記目標母音声道情報保持部に保持された目標母音声道情報を、ネットワークを介して前記端末に送信する目標母音声道情報送信部と、
    被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、
    前記被変換音声保持部に保持された被変換音声情報をネットワークを介して前記端末に送信する被変換音声情報送信部とを備え、
    前記端末は、
    前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、
    前記被変換音声情報送信部より送信された前記被変換音声情報を受信する被変換音声情報受信部と、
    前記被変換音声情報受信部により受信された被変換音声情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、
    前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と
    を備える声質変換システム。
  19. 被変換音声に対応する情報を用いて被変換音声の声質を変換する声質変換システムであって、
    端末と、
    前記端末とネットワークを介して接続されるサーバとを備え、
    前記端末は、
    目標となる声質を表す母音の声道情報である目標母音声道情報を母音毎に保持する目標母音声道情報を作成する目標母音声道情報作成部と、
    前記目標母音声道情報作成部で作成された前記目標母音声道情報をネットワークを介して前記端末に送信する目標母音声道情報送信部と、
    前記サーバから、声質変換後の音声を受信する声質変換音声受信部と、
    前記声質変換音声受信部が受信した前記声質変換後の音声を再生する再生部とを備え、
    前記サーバは、
    被変換音声に対応する情報である被変換音声情報を保持する被変換音声保持部と、
    前記目標母音声道情報送信部より送信された前記目標母音声道情報を受信する目標母音声道情報受信部と、
    前記被変換音声情報保持部に保持されている被変換音声情報に含まれる母音の声道情報の時間変化を第1の関数で近似し、当該母音と同じ母音の前記目標母音声道情報受信部により受信された前記目標母音声道情報の時間変化を第2の関数で近似し、前記第1の関数と前記第2の関数を結合することにより第3の関数を求め、前記第3の関数により変換後の母音の声道情報を生成する母音変換部と、
    前記母音変換部による変換後の母音の声道情報を用いて、音声を合成する合成部と、
    合成部において合成された後の音声を、声質変換後の音声として、ネットワークを介して前記声質変換音声受信部に送信する合成音声送信部と
    を備える声質変換システム。
JP2008542127A 2007-05-14 2008-05-08 声質変換装置および声質変換方法 Expired - Fee Related JP4246792B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007128555 2007-05-14
JP2007128555 2007-05-14
PCT/JP2008/001160 WO2008142836A1 (ja) 2007-05-14 2008-05-08 声質変換装置および声質変換方法

Publications (2)

Publication Number Publication Date
JP4246792B2 true JP4246792B2 (ja) 2009-04-02
JPWO2008142836A1 JPWO2008142836A1 (ja) 2010-08-05

Family

ID=40031555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008542127A Expired - Fee Related JP4246792B2 (ja) 2007-05-14 2008-05-08 声質変換装置および声質変換方法

Country Status (4)

Country Link
US (1) US8898055B2 (ja)
JP (1) JP4246792B2 (ja)
CN (1) CN101578659B (ja)
WO (1) WO2008142836A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280738B2 (en) 2009-07-06 2012-10-02 Panasonic Corporation Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
KR101665882B1 (ko) 2015-08-20 2016-10-13 한국과학기술원 음색변환과 음성dna를 이용한 음성합성 기술 및 장치

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
JP4490507B2 (ja) * 2008-09-26 2010-06-30 パナソニック株式会社 音声分析装置および音声分析方法
JP5253518B2 (ja) * 2008-12-22 2013-07-31 日本電信電話株式会社 符号化方法、復号方法、それらの装置、プログラム及び記録媒体
US8626508B2 (en) * 2009-02-26 2014-01-07 National University Corporation Toyohashi University Of Technology Speech search device and speech search method
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
JP5194197B2 (ja) 2011-07-14 2013-05-08 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
CN102592590B (zh) * 2012-02-21 2014-07-02 华南理工大学 一种可任意调节的语音自然变声方法及装置
CN102682766A (zh) * 2012-05-12 2012-09-19 黄莹 可自学习的情侣声音对换机
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
CN105654941A (zh) * 2016-01-20 2016-06-08 华南理工大学 一种基于指向目标人变声比例参数的语音变声方法及装置
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN108133713B (zh) * 2017-11-27 2020-10-02 苏州大学 一种在声门闭相下估计声道面积的方法
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム
JP7106897B2 (ja) * 2018-03-09 2022-07-27 ヤマハ株式会社 音声処理方法、音声処理装置およびプログラム
JP7200483B2 (ja) * 2018-03-09 2023-01-10 ヤマハ株式会社 音声処理方法、音声処理装置およびプログラム
US11605371B2 (en) * 2018-06-19 2023-03-14 Georgetown University Method and system for parametric speech synthesis
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
US11341986B2 (en) * 2019-12-20 2022-05-24 Genesys Telecommunications Laboratories, Inc. Emotion detection in audio interactions
US11600284B2 (en) * 2020-01-11 2023-03-07 Soundhound, Inc. Voice morphing apparatus having adjustable parameters
CN111260761B (zh) * 2020-01-15 2023-05-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置
US11430431B2 (en) * 2020-02-06 2022-08-30 Tencent America LLC Learning singing from speech
US11183168B2 (en) 2020-02-13 2021-11-23 Tencent America LLC Singing voice conversion
US11783804B2 (en) 2020-10-26 2023-10-10 T-Mobile Usa, Inc. Voice communicator with voice changer
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
WO2023114064A1 (en) * 2021-12-13 2023-06-22 Cerence Operating Company Adaptation and training of neural speech synthesis

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3786188A (en) * 1972-12-07 1974-01-15 Bell Telephone Labor Inc Synthesis of pure speech from a reverberant signal
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4264783A (en) * 1978-10-19 1981-04-28 Federal Screw Works Digital speech synthesizer having an analog delay line vocal tract
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4707858A (en) * 1983-05-02 1987-11-17 Motorola, Inc. Utilizing word-to-digital conversion
US4703505A (en) * 1983-08-24 1987-10-27 Harris Corporation Speech data encoding scheme
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
JPS6363100A (ja) 1986-09-04 1988-03-19 日本放送協会 声質変換方法
JP2595235B2 (ja) * 1987-03-18 1997-04-02 富士通株式会社 音声合成装置
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
US5522013A (en) * 1991-04-30 1996-05-28 Nokia Telecommunications Oy Method for speaker recognition using a lossless tube model of the speaker's
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
JP3396480B2 (ja) * 1991-09-05 2003-04-14 モトローラ・インコーポレイテッド 多重モード音声コーダのためのエラー保護
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP3083624B2 (ja) 1992-03-13 2000-09-04 株式会社東芝 音声規則合成装置
US5463715A (en) * 1992-12-30 1995-10-31 Innovation Technologies Method and apparatus for speech generation from phonetic codes
AU682380B2 (en) * 1993-07-13 1997-10-02 Theodore Austin Bordeaux Multi-language speech recognition system
JPH0772900A (ja) 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
US5633983A (en) * 1994-09-13 1997-05-27 Lucent Technologies Inc. Systems and methods for performing phonemic synthesis
US5717819A (en) * 1995-04-28 1998-02-10 Motorola, Inc. Methods and apparatus for encoding/decoding speech signals at low bit rates
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JPH1097267A (ja) 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2001100776A (ja) * 1999-09-30 2001-04-13 Arcadia:Kk 音声合成装置
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
JP3631657B2 (ja) 2000-04-03 2005-03-23 シャープ株式会社 声質変換装置および声質変換方法、並びに、プログラム記録媒体
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP3711880B2 (ja) * 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
US20030088417A1 (en) * 2001-09-19 2003-05-08 Takahiro Kamai Speech analysis method and speech synthesis system
US20040199383A1 (en) * 2001-11-16 2004-10-07 Yumiko Kato Speech encoder, speech decoder, speech endoding method, and speech decoding method
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7275030B2 (en) * 2003-06-23 2007-09-25 International Business Machines Corporation Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
JP2005134685A (ja) 2003-10-31 2005-05-26 Advanced Telecommunication Research Institute International 声道形状パラメータの推定装置、音声合成装置、及びコンピュータプログラム
US20050119890A1 (en) * 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
JP4177751B2 (ja) 2003-12-25 2008-11-05 株式会社国際電気通信基礎技術研究所 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
JP2005242231A (ja) * 2004-02-27 2005-09-08 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4829477B2 (ja) 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
JP4586675B2 (ja) 2005-08-19 2010-11-24 株式会社国際電気通信基礎技術研究所 声道断面積関数の推定装置及びコンピュータプログラム
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
US8595007B2 (en) * 2006-06-15 2013-11-26 NITV Federal Services, LLC Voice print recognition software system for voice identification and matching
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP4490507B2 (ja) * 2008-09-26 2010-06-30 パナソニック株式会社 音声分析装置および音声分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280738B2 (en) 2009-07-06 2012-10-02 Panasonic Corporation Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
KR101665882B1 (ko) 2015-08-20 2016-10-13 한국과학기술원 음색변환과 음성dna를 이용한 음성합성 기술 및 장치

Also Published As

Publication number Publication date
JPWO2008142836A1 (ja) 2010-08-05
CN101578659B (zh) 2012-01-18
WO2008142836A1 (ja) 2008-11-27
US20090281807A1 (en) 2009-11-12
CN101578659A (zh) 2009-11-11
US8898055B2 (en) 2014-11-25

Similar Documents

Publication Publication Date Title
JP4246792B2 (ja) 声質変換装置および声質変換方法
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
JP4294724B2 (ja) 音声分離装置、音声合成装置および声質変換装置
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US20200410981A1 (en) Text-to-speech (tts) processing
US8447592B2 (en) Methods and apparatus for formant-based voice systems
US20070213987A1 (en) Codebook-less speech conversion method and system
JP5039865B2 (ja) 声質変換装置及びその方法
JP6561499B2 (ja) 音声合成装置および音声合成方法
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的***和方法
JPWO2008102594A1 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
JPWO2005109399A1 (ja) 音声合成装置および方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JPH031200A (ja) 規則型音声合成装置
Aryal et al. Foreign accent conversion through voice morphing.
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2013033103A (ja) 声質変換装置および声質変換方法
JP2018004997A (ja) 音声合成装置及びプログラム
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
JP2001312300A (ja) 音声合成装置
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JPH03189697A (ja) 規則音声合成装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090108

R150 Certificate of patent or registration of utility model

Ref document number: 4246792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees