JP4966048B2 - 声質変換装置及び音声合成装置 - Google Patents
声質変換装置及び音声合成装置 Download PDFInfo
- Publication number
- JP4966048B2 JP4966048B2 JP2007039673A JP2007039673A JP4966048B2 JP 4966048 B2 JP4966048 B2 JP 4966048B2 JP 2007039673 A JP2007039673 A JP 2007039673A JP 2007039673 A JP2007039673 A JP 2007039673A JP 4966048 B2 JP4966048 B2 JP 4966048B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- conversion
- speaker
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 535
- 230000015572 biosynthetic process Effects 0.000 title claims description 51
- 238000003786 synthesis reaction Methods 0.000 title claims description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 241
- 230000003595 spectral effect Effects 0.000 claims abstract description 99
- 230000006870 function Effects 0.000 claims description 138
- 238000012937 correction Methods 0.000 claims description 90
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 42
- 238000009826 distribution Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001831 conversion spectrum Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
以下、本発明の第1の実施形態の声質変換装置について図1から図22に基づいて説明する。
図1は、本実施形態に係わる声質変換装置を示すブロック図である。
(2−1)声質変換部14の構成
声質変換部14は、図2に示すように、音声パラメータ抽出部21と、変換規則選択部22と、補間係数決定部23と、変換規則生成部24と、音声パラメータ変換部25とを備える。
以下、声質変換部14の処理の詳細を述べる。
変換元話者音声素片抽出部13の処理のフローチャートを図3に示す。
音声パラメータ抽出部21では、変換元話者音声素片から、スペクトルパラメータを抽出する。
次に、変換規則選択部22において、声質変換規則記憶部11から変換元話者音声素片の始点及び終点における声質変換規則を選択する。
(2−2−4)補間係数決定部23
次に、補間係数決定部23において、音声素片内のスペクトルパラメータに対する変換規則の補間係数を求める。
変換規則生成部24では、音声素片の開始点の回帰行列Wsと、終了点の回帰行列Weを、補間係数決定部23で得られた補間係数ωs(t)、ωe(t)に従って補間し、各スペクトルパラメータの回帰行列を求める。時刻tの回帰行列W(t)は、
音声パラメータ変換部25では、このようにして定めた回帰行列による変換規則を用いて、実際に音声パラメータを変換する。
以上の処理により、声質変換部14では時間方向において確率的に補間された音声素片の声質変換を行うことができる。
次に、スペクトル補正部15の処理について述べる。スペクトル補正部15の処理を、図9に示す。
次に、音声波形生成部16では、得られた変換先スペクトルから音声波形を生成する。
次に、声質変換規則学習部17の処理について述べる。
声質変換規則学習部17の構成を図13に示す。
声質変換規則学習データ作成部132の処理を、図14に示す。
変換先話者音声素片抽出部141において、学習データとして与えられた変換先話者音声データは、音声素片抽出部13と同様の処理により音声素片に分割され、学習用の変換先話者音声素片となる。
次に、変換元話者音声素片選択部142において、変換先話者の音声素片に対応する変換元話者の音声素片を変換元話者音声素片データベース131から選択する。
選択された変換元話者の音声素片が変換先話者の音声素片はピッチ波形数が異なるため、ペクトルパラメータマッピング部143において、ピッチ波形数を揃える処理を行う。
次に、音響モデル学習部133において、声質変換規則記憶部11に保持する確率分布pk(x)を作成する。pk(x)は変換元話者の音声素片を学習データとして、最尤推定によって求める。
回帰行列学習部134では、音響モデル学習部133において得られた確率分布に基づいて、回帰行列を学習する。回帰行列の計算は重回帰分析により行う。補間モデルを考えた場合、ある変換元スペクトルパラメータxから変換先スペクトルパラメータyを求める回帰行列による推定式は式(1)、式(6)より、
次に、スペクトル補正規則学習部18の処理を述べる。
スペクトル補正は、声質変換部14で得られた変換スペクトルパラメータをさらに変換先話者に近づけるように補正を行い、声質変換部14において補間モデルを仮定したことに起因する変換精度の低下を補償する。
図19及び図20にスペクトル補正規則の例を示す。図19の太線は、変換先平均スペクトル、細線は補正元平均スペクトル、点線は変換元平均スペクトルを示している。
上述したように、本実施形態によれば回帰行列を確率的に補間することにより、時間方向に滑らかな声質変換が可能になり、かつ、変換した音声パラメータのスペクトルもしくはパワーを補正することにより、補間モデルを仮定することに起因する変換先話者への類似度の低下を低減する声質変換が可能になる。
本実施形態においては、確率的な補間モデルを仮定したが、処理を簡略にするために線形補間を用いてもよい。
本発明の第2の実施形態に係わるテキスト音声合成装置について図23〜図28に基づいて説明する。このテキスト音声合成装置は、第1の実施形態に係わる声質変換装置を音声合成装置に適用したもので、任意文の入力に対して、変換先話者の声質をもつ合成音声を生成する。
図23は、本実施形態に係わるテキスト音声合成装置を示すブロック図である。
図24は、音声合成部234の構成例を示したものである。音声合成部234は、音韻系列・韻律情報入力部241、音声素片選択部242、音声素片編集・接続部243、音声波形出力部245と、変換先の音声素片及び属性情報を保持する変換先音声素片データベース244より構成される。
変換元話者音声素片データベース131は、第1の実施形態と同様に、変換元話者の音声データから作成した所定の音声単位に分割された音声素片及び属性情報が記憶されている。
音声素片変換部1では、変換元話者音声素片データベースに含まれる各音声素片に対して第1の実施形態に示した声質変換装置を用いて変換先話者の声質に変換した変換先音声素片データベース244を作成する。
音声合成部234では、音声素片データベース244から音声素片を選択し、音声合成を行う。
音韻系列・韻律情報入力部241には、韻律処理部233から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部241に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
音声素片選択部242は、入力音韻系列の各音声単位に対し、入力韻律情報と、音声素片データベース244に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片データベース244に記憶されている音声素片の中から、音声素片を選択する。
音声素片編集・接続部243では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
上述したように、本実施形態では、第1の実施例に示す声質変換装置における音声素片変換部1により変換した変換先話者音声素片データベースを用いて、素片選択型の音声合成を行うことが可能になり、任意の入力文章に対応する合成音声を生成することができる。
本実施形態では、声質変換規則を事前に変換元話者音声素片データベースの各音声素片に適用したが、合成時に声質変換規則を適用してもよい。
この場合、音声合成部234は図26に示すように、変換元話者音声素片データベース131を保持する。
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、音声素片変換部1によって合成に用いる音声素片の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先音声素片データベースを保持する必要がなくなる。
本実施形態では、素片選択型の音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。複数素片選択・融合型の音声合成に声質変換を適用してもよい。
また、本実施形態では、予め声質変換規則を適用することにより作成した音声素片データベースを保持する複数素片選択・融合型の音声合成について述べたが、変換元話者音声素片データベースから複数の音声素片を選択し、選択された複数の音声素片を声質変換し、変換した複数の音声素片を融合することにより融合音声素片を作成し、編集・接続することにより音声を合成してもよい。
この場合、音声合成部234は図28に示すように、変換元話者音声素片データベース131と共に、第1の実施形態に係わる声質変換装置における声質変換規則及びスペクトル補正規則を保持する。
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者の声質の音声素片データベースを保持する必要がなくなる。
また、本実施形態では素片選択型音声合成及び複数素片選択・融合型の音声合成に対して第1の実施形態に係わる声質変換装置を適用したが、これに限定するものではない。
なお、本発明は上記第1及び第2の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
11・・・声質変換規則記憶部
12・・・スペクトル補正規則記憶部
13・・・音声素片抽出部
14・・・声質変換部
15・・・スペクトル補正部
16・・・音声波形生成部
17・・・声質変換規則学習部
18・・・スペクトル補正規則学習部
21・・・音声パラメータ抽出部
22・・・変換規則選択部
23・・・補間係数決定部
24・・・変換規則性西部
25・・・音声パラメータ変換部
Claims (14)
- 元話者の音声を先話者の音声に変換する声質変換装置において、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成部と、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出部と、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶部と、
(1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択する変換関数選択部と、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定部と、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成部と、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換部と、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成部と、
を有する声質変換装置。 - 前記変換関数選択部は、前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の確率分布を選択して第1の状態の確率分布とし、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の確率分布を選択して第2の状態の確率分布とし、left−right型の隠れマルコフモデルを構築し、
前記補間係数決定部は、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を、前記隠れマルコフモデルに基づいて決定する
請求項1記載の声質変換装置。 - 前記補間係数決定部は、前記始点の時刻から前記終点の時刻の間の各時刻に応じて、線形に変化する重みによって補間係数を決定する
請求項1記載の声質変換装置。 - 前記先話者の各時刻のスペクトルと前記元話者の各時刻のスペクトルとから求めるスペクトル補正量、または、予め格納されているスペクトル補正量の少なくとも一方を用いて、前記先話者の各時刻のスペクトルを補正するためのスペクトル補正量を求めるスペクトル補正量算出部と、
前記先話者の各時刻のスペクトルパラメータから得られるそれぞれのスペクトルを、前記スペクトル補正量に基づいて補正するスペクトル補正部と、
をさらに有し、
前記音声波形生成部は、前記補正した前記先話者の各時刻のスペクトルから前記先話者の音声波形を生成する
請求項1記載の声質変換装置。 - 前記変換関数記憶部に記憶されている前記変換関数を学習する変換関数学習部を有し、
前記変換関数学習部は、
前記元話者の学習用元話者音声素片を格納する元話者音声素片記憶部と、
前記先話者の音声を音声単位に区切って前記先話者音声素片を得る先話者音声素片生成部と、
前記学習用元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルを用いて変換関数選択パラメータを作成する変換関数選択パラメータ作成部と、
前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
前記元話者音声素片の開始時刻におけるスペクトルパラメータに対する変換規則である始点変換関数、及び、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対する変換規則である終点変換関数を選択する変換規則選択部と、
前記先話者音声素片内の各スペクトルパラメータに対応する前記始点の変換関数、及び、前記終点の変換関数の補間係数を決める補間係数決定部と、
前記先話者音声素片内の各スペクトルパラメータと、前記選択された前記元話者音声素片の各スペクトルパラメータとをそれぞれ対応づけるスペクトルパラメータ対応付け部と、
前記対応づけられたスペクトルパラメータ及び前記補間係数を用いて前記変換関数を作成する変換規則作成部と、
を有する請求項1記載の声質変換装置。 - 前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応するスペクトルパラメータの確率分布を記憶し、
前記変換関数選択部は、
前記隠れマルコフモデルを構築する構築部と、
前記始点の確率分布に対応する変換関数を前記始点の変換関数として前記変換関数記憶部から選択する始点変換関数選択部と、
前記終点の確率分布に対応する変換関数を前記終点の変換関数として前記変換関数記憶部から選択する終点変換関数選択部と、
を有し、
前記補間係数決定部は、
前記元話者音声素片内の各時刻のスペクトルパラメータに対応した前記隠れマルコフモデルの第1の状態において出力される確率を求めて始点類似度とし、前記隠れマルコフモデルの第2の状態において出力される確率を求めて終点類似度とする類似度算出部と、
前記始点類似度及び終点類似度を補間係数とする類似度決定部と、
を有する請求項2記載の声質変換装置。 - 前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応する代表スペクトルパラメータを記憶し、
前記変換関数選択部は、前記元話者音声素片の開始時刻及び終了時刻におけるスペクトルパラメータから代表スペクトルパラメータをそれぞれ選択し、前記代表スペクトルパラメータに対応する変換関数を始点の変換関数及び前記終点の変換関数として選択し、
前記補間係数決定部は、前記始点の変換関数及び前記終点の変換関数の線形補間により補間係数を決定する、
請求項1記載の声質変換装置。 - 前記スペクトル補正部は、
前記元話者の学習用元話者音声素片を格納する元話者記憶部と、
前記先話者の音声を音声単位に区切って前記先話者の音声素片を得る先話者音声素片生成部と、
前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
前記スペクトルパラメータ変換部により前記元話者音声素片の各時刻のスペクトルパラメータを前記先話者のスペクトルパラメータにそれぞれ変換し、これら変換した各時刻におけるスペクトルパラメータに対応する各スペクトルを平均して第1平均スペクトルを求める第1平均スペクトル抽出部と、
前記先話者音声素片の各時刻のスペクトルを求め、前記各時刻のスペクトルを平均して第2平均スペクトルを求める第2平均スペクトル抽出部と、
前記第1平均スペクトルを前記第2平均スペクトルに補正する平均スペクトル補正量を、前記スペクトル補正量として格納する補正量作成部と、
を有する請求項4記載の声質変換装置。 - 前記スペクトル補正部は、
前記スペクトルパラメータ変換部において変換したスペクトルパラメータから得られる変換先スペクトルの変換先パワー情報、または、前記平均スペクトル補正量を用いて補正した変換先スペクトルの変換先パワー情報を求める変換先パワー情報抽出部と、
前記元話者音声素片の各時刻のスペクトルのパワー情報を求める変換元パワー情報抽出部と、
前記変換先パワー情報を前記変換元パワー情報に基づいて補正するパワー情報補正量を求めるパワー情報補正量作成部と、
前記パワー情報補正量を用いて前記変換先スペクトルを補正するパワー補正部と、
を有する請求項4記載の声質変換装置。 - 前記変換関数は、前記先話者スペクトルパラメータを、前記元話者スペクトルパラメータから予測する回帰行列である、
請求項1記載の声質変換装置。 - 入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成単位作成部と、
元話者音声素片を記憶する元話者音声素片記憶部と、
前記元話者音声素片記憶部から前記テキスト素片に対応する1つ、または、複数の元話者音声素片を選択する音声素片選択部と、
前記1つの元話者音声素片、または、前記複数の元話者音声素片を融合して得られる融合音声素片を元話者代表音声素片とする代表音声素片作成部と、
前記元話者代表音声素片を請求項1記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有する音声合成装置。 - 元話者音声素片を記憶する元話者音声素片記憶部と、
前記元話者代表音声素片を請求項1記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
前記変換した先話者代表音声素片を記憶する先話者音声素片記憶部と、
入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成素片作成部と、
前記先話者音声素片記憶部から前記テキスト素片に対応する1つ、または、複数の先話者代表音声素片を選択する音声素片選択部と、
前記1つの先話者代表音声素片、または、前記複数の先話者代表音声素片を融合して得られる融合音声素片を先話者代表音声素片とする代表音声素片作成部と、
前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有する音声合成装置。 - 元話者の音声を先話者の音声に変換する声質変換方法において、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成ステップと、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出ステップと、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶ステップと、
(1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択する変換関数選択ステップと、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定ステップと、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成ステップと、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換ステップと、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成ステップと、
を有する声質変換方法。 - 元話者の音声を先話者の音声に変換する声質変換プログラムにおいて、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成機能と、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出機能と、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶機能と、
(1)前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択すると共に、(2)前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択する変換関数選択機能と、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定機能と、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成機能と、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換機能と、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成機能と、
をコンピュータに実現させるための声質変換プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007039673A JP4966048B2 (ja) | 2007-02-20 | 2007-02-20 | 声質変換装置及び音声合成装置 |
US12/017,740 US8010362B2 (en) | 2007-02-20 | 2008-01-22 | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007039673A JP4966048B2 (ja) | 2007-02-20 | 2007-02-20 | 声質変換装置及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008203543A JP2008203543A (ja) | 2008-09-04 |
JP4966048B2 true JP4966048B2 (ja) | 2012-07-04 |
Family
ID=39707418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007039673A Active JP4966048B2 (ja) | 2007-02-20 | 2007-02-20 | 声質変換装置及び音声合成装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8010362B2 (ja) |
JP (1) | JP4966048B2 (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
CA2612903C (en) * | 2005-06-20 | 2015-04-21 | Telecom Italia S.P.A. | Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system |
US7847341B2 (en) * | 2006-12-20 | 2010-12-07 | Nanosys, Inc. | Electron blocking layers for electronic devices |
JP5159279B2 (ja) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
ES2898865T3 (es) * | 2008-03-20 | 2022-03-09 | Fraunhofer Ges Forschung | Aparato y método para sintetizar una representación parametrizada de una señal de audio |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
US8315871B2 (en) * | 2009-06-04 | 2012-11-20 | Microsoft Corporation | Hidden Markov model based text to speech systems employing rope-jumping algorithm |
CN102227770A (zh) * | 2009-07-06 | 2011-10-26 | 松下电器产业株式会社 | 音质变换装置、音高变换装置及音质变换方法 |
JP5535241B2 (ja) * | 2009-12-28 | 2014-07-02 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
JP5846043B2 (ja) * | 2012-05-18 | 2016-01-20 | ヤマハ株式会社 | 音声処理装置 |
JP6048726B2 (ja) * | 2012-08-16 | 2016-12-21 | トヨタ自動車株式会社 | リチウム二次電池およびその製造方法 |
US20140236602A1 (en) * | 2013-02-21 | 2014-08-21 | Utah State University | Synthesizing Vowels and Consonants of Speech |
JP2015040903A (ja) * | 2013-08-20 | 2015-03-02 | ソニー株式会社 | 音声処理装置、音声処理方法、及び、プログラム |
US9613620B2 (en) | 2014-07-03 | 2017-04-04 | Google Inc. | Methods and systems for voice conversion |
JP6499305B2 (ja) | 2015-09-16 | 2019-04-10 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
CN105390141B (zh) * | 2015-10-14 | 2019-10-18 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
JP6821970B2 (ja) | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
KR20180050947A (ko) | 2016-11-07 | 2018-05-16 | 삼성전자주식회사 | 대표 파형 제공 장치 및 방법 |
US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
KR20230018538A (ko) * | 2017-05-24 | 2023-02-07 | 모듈레이트, 인크 | 음성 대 음성 변환을 위한 시스템 및 방법 |
US20190019500A1 (en) * | 2017-07-13 | 2019-01-17 | Electronics And Telecommunications Research Institute | Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same |
JP7082357B2 (ja) * | 2018-01-11 | 2022-06-08 | ネオサピエンス株式会社 | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 |
CN108108357B (zh) * | 2018-01-12 | 2022-08-09 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
JP6876641B2 (ja) * | 2018-02-20 | 2021-05-26 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
JP7147211B2 (ja) * | 2018-03-22 | 2022-10-05 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
US20190362737A1 (en) * | 2018-05-25 | 2019-11-28 | i2x GmbH | Modifying voice data of a conversation to achieve a desired outcome |
US11605371B2 (en) * | 2018-06-19 | 2023-03-14 | Georgetown University | Method and system for parametric speech synthesis |
CN110070884B (zh) * | 2019-02-28 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
US11410684B1 (en) * | 2019-06-04 | 2022-08-09 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing with transfer of vocal characteristics |
CN110223705B (zh) * | 2019-06-12 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
WO2021127985A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音转换方法、***、装置及存储介质 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
WO2022076923A1 (en) | 2020-10-08 | 2022-04-14 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
CN112397047A (zh) * | 2020-12-11 | 2021-02-23 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及可读存储介质 |
CN112786018B (zh) * | 2020-12-31 | 2024-04-30 | 中国科学技术大学 | 语音转换及相关模型的训练方法、电子设备和存储装置 |
JP7069386B1 (ja) * | 2021-06-30 | 2022-05-17 | 株式会社ドワンゴ | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP2898568B2 (ja) * | 1995-03-10 | 1999-06-02 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 声質変換音声合成装置 |
JP3240908B2 (ja) * | 1996-03-05 | 2001-12-25 | 日本電信電話株式会社 | 声質変換方法 |
ATE277405T1 (de) * | 1997-01-27 | 2004-10-15 | Microsoft Corp | Stimmumwandlung |
JPH10254473A (ja) * | 1997-03-14 | 1998-09-25 | Matsushita Electric Ind Co Ltd | 音声変換方法及び音声変換装置 |
US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
JP2986792B2 (ja) * | 1998-03-16 | 1999-12-06 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者正規化処理装置及び音声認識装置 |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP3703394B2 (ja) | 2001-01-16 | 2005-10-05 | シャープ株式会社 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
FR2853125A1 (fr) * | 2003-03-27 | 2004-10-01 | France Telecom | Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse. |
JP2005121869A (ja) * | 2003-10-16 | 2005-05-12 | Matsushita Electric Ind Co Ltd | 音声変換関数抽出装置およびそれを用いた声質変換装置 |
JP4080989B2 (ja) | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
FR2868587A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme de conversion rapides d'un signal vocal |
JP4241736B2 (ja) | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
-
2007
- 2007-02-20 JP JP2007039673A patent/JP4966048B2/ja active Active
-
2008
- 2008-01-22 US US12/017,740 patent/US8010362B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8010362B2 (en) | 2011-08-30 |
US20080201150A1 (en) | 2008-08-21 |
JP2008203543A (ja) | 2008-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4966048B2 (ja) | 声質変換装置及び音声合成装置 | |
JP4241736B2 (ja) | 音声処理装置及びその方法 | |
CN107924678B (zh) | 语音合成装置、语音合成方法及存储介质 | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
CN106971709B (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
US9009052B2 (en) | System and method for singing synthesis capable of reflecting voice timbre changes | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP2002244689A (ja) | 平均声の合成方法及び平均声からの任意話者音声の合成方法 | |
Nose et al. | Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency | |
CN112216293A (zh) | 一种音色转换方法和装置 | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP5198200B2 (ja) | 音声合成装置及び方法 | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120330 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4966048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |