JP7395792B2

JP7395792B2 - ２レベル音声韻律転写

Info

Publication number: JP7395792B2
Application number: JP2023509803A
Authority: JP
Inventors: レヴ・フィンケルシュタイン; チュン－アン・チャン; ビュンハ・チュン; イェ・ジア; ユ・ジャン; ロバート・アンドリュー・ジェームズ・クラーク; ヴィンセント・ワン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-08-13
Filing date: 2021-07-27
Publication date: 2023-12-11
Anticipated expiration: 2041-07-27
Also published as: KR20230034423A; KR102677459B1; US20220051654A1; JP2024023421A; WO2022035586A1; EP4172984A1; US11514888B2; KR20240096867A; JP2023535230A; CN116034424A; US20230064749A1

Description

本開示は、２レベル音声韻律転写に関する。

音声合成システムは、テキスト入力から音声を生成するためにテキスト音声(TTS:text-to-speech)モデルを使用する。生成された/合成された音声は、意図される韻律(表現力)を備えた人間音声のように聞こえる(自然らしさ)と同時に、メッセージを正確に伝える(了解度)べきである。旧来の連結およびパラメータ合成モデルは理解できる音声を提供することが可能であり、音声のニューラルモデリングにおける最近の進歩は、合成音声の自然さをかなり改善したが、大部分の既存のTTSモデルは、多様性が十分な韻律スタイルのモデル化の点で効果的ではなく、それにより、重要なアプリケーションが使用する合成音声は表現力に欠く。たとえば、会話アシスタントおよび長形式のリーダーなどのアプリケーションが、イントネーション、強勢、ならびにリズムおよびスタイルなど、テキスト入力において伝えられない韻律特徴を代入する(imputing)ことによって、現実的な音声を作成することが望ましい。たとえば、単純な文は、その記述が質問であるか、質問に対する回答であるか、その記述に不確実性が存在するかどうか、またはその記述がその入力テキストによって指定されない環境または内容について何らかの他の意味を伝えるかどうかに応じて、多くの異なる方法で話されることがある。

いくつかのシナリオでは、ニュース読み上げ、スポーツコメンテータ、教育講師など、特定の韻律領域/バーティカル(vertical)において様々な異なる発話者からモデル化された韻律を既存のターゲット音声に転写することが有用であり得る。新しい領域/バーティカルにおいてターゲット音声に関連するトレーニングデータ量は不十分であるため、このようにしてターゲット音声を新しい韻律領域/バーティカルに適用することは特に困難なことがある。

米国特許出願第16/867,427号

https://arxiv.org/pdf/1711.10433.pdf、van den Oord、Parallel WaveNet: Fast High-Fidelity Speech Synthesis https://arxiv.org/abs/1712.05884、J. Shenら、「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」

本開示の一態様は、入力テキスト発話を意図される韻律およびターゲット音声を有する表現的な音声に合成するための方法を提供する。この方法は、データ処理ハードウェアにおいて、意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信するステップを含む。この方法はまた、データ処理ハードウェアによって、第1のテキスト音声(TTS)モデルを使用して、入力テキスト発話に対する中間合成音声表現を生成するステップを含む。中間合成音声表現は意図される韻律を有する。この方法はまた、データ処理ハードウェアによって、中間合成音声表現をエンコーダ部分とデコーダ部分とを含む第2のTTSモデルに提供するステップを含む。エンコーダ部分は、中間合成音声表現を意図される韻律を指定する発話埋め込みに符号化するように構成される。デコーダ部分は、入力テキスト発話および発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成するように構成される。出力オーディオ信号は、発話埋め込みによって指定された意図される韻律およびターゲット音声の話者特性を有する。

本開示の実装形態は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、この方法はまた、データ処理ハードウェアによって、中間合成音声表現が有する意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを中間合成音声表現からサンプリングするステップを含む。ここで、中間合成音声表現を第2のTTSモデルに提供するステップは、中間合成音声表現からサンプリングされた固定長の基準フレームのシーケンスをエンコーダ部分に提供するステップであって、それにより、エンコーダ部分が、固定長の基準フレームのシーケンスを発話埋め込みに符号化するように構成される、提供するステップを含む。中間合成音声表現が有する意図される韻律を表す韻律特徴は、持続時間、ピッチ輪郭(contour)、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含んでよい。これらの実装形態では、エンコーダ部分は、中間合成音声表現内の各音節に対して、音節内の各音素に関連する音素(phone)レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、音節に関連する固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、フレームベースの音節埋め込みが、対応する音節に関連する持続時間、ピッチ、および/またはエネルギーを示す、符号化することと、音節に関連する音節レベルの言語特徴、中間合成音声表現に関連する文レベルの言語特徴、および対応する音節を含む語に関連する語レベルの言語特徴を備えた音素特徴ベースおよびフレームベースの音節埋め込みを音節に対する対応する韻律音節埋め込みに符号化することとによって、固定長の基準フレームのシーケンスを発話埋め込みに符号化するように構成され得る。

語レベルの言語特徴は、入力テキスト発話からトランスフォーマーからの双方向エンコーダ表現(BERT:Bidirectional Encoder Representations from Transformers)モデルによって生成されたワードピース(wordpiece)埋め込みのシーケンスから取得されたワードピース埋め込みを含んでよい。いくつかの例では、デコーダ部分は、入力テキスト発話を使用して、対応する発話埋め込みを入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、入力テキスト発話および発話埋め込みを処理して、出力オーディオ信号を生成するように構成される。ここで、韻律表現は、発話埋め込みによって指定された意図される韻律を表す。第2のTTSモデルは、デコーダ部分によって復号される固定長の予測フレームの数が中間合成音声表現からサンプリングされる固定長の基準フレームの数と等しくなるようにトレーニングされ得る。

いくつかの例では、発話埋め込みは固定長の数値ベクトルを含む。中間合成音声表現は、中間合成音声表現を第2のTTSモデルに提供することがオーディオ波形またはメル周波数スペクトログラムのシーケンスをエンコーダ部分に提供することを含み得るように、意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み得る。ここで、エンコーダ部分は、オーディオ波形またはメル周波数スペクトログラムのシーケンスを発話埋め込みに符号化するように構成される。

いくつかの実装形態では、この方法はまた、データ処理ハードウェアによって、ターゲット音声の話者特性を表す話者埋め込みを取得するステップと、データ処理ハードウェアによって、入力テキスト発話、発話埋め込み、および話者埋め込みを処理して、表現的音声の出力オーディオ信号を生成するために、話者埋め込みを第2のTTSモデルのデコーダ部分に提供するステップとを含む。第1のTTSモデルを使用して生成された中間合成音声表現は、ターゲット音声の話者特性に欠け、望ましくない音響アーティファクトを含む中間音声を含むことがある。

この方法はまた、データ処理ハードウェアにおいて、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信するステップであって、各トレーニングオーディオ信号が、意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した意図される韻律を有する人間音声の発話を含む、受信するステップを含み得る。各トランスクリプトは、対応するトレーニングオーディオ信号のテキスト表現を含む。トレーニングデータの各対応するトランスクリプトに対して、この方法はまた、データ処理ハードウェアによって、人間音声の対応する発話の意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように第1のTTSモデルをトレーニングするステップと、データ処理ハードウェアによって、対応するトレーニング合成音声表現をトレーニング合成音声表現によってキャプチャされた意図される韻律を表す、対応する発話埋め込みに符号化することによって、第2のTTSモデルのエンコーダ部分をトレーニングするステップと、データ処理ハードウェアによって、トレーニングデータの対応するトランスクリプトを使用して、エンコーダ部分によって符号化された対応する発話埋め込みを意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、第2のTTSモデルのデコーダ部分をトレーニングするステップと、予測出力オーディオ信号と対応する基準オーディオ信号との間の勾配/損失を生成するステップと、第2のTTSモデルを通して勾配/損失を逆伝搬するステップとを含む。

第1のTTSモデルおよび第2のTTSモデルは、別個にまたは一緒にトレーニングされてよい。いくつかの例では、第1のTTSモデルは、第1のニューラルネットワークアーキテクチャを含み、第2のTTSモデルは、第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む。他の例では、第1のTTSモデルおよび第2のTTSモデルは、同じニューラルネットワークアーキテクチャを含む。

本開示の別の態様は、入力テキスト発話を意図される韻律およびターゲット音声を有する表現的音声に合成するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含み、メモリハードウェアは、データ処理ハードウェアによって実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。これらの動作は、意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信することを含む。これらの動作はまた、第1のテキスト音声(TTS)モデルを使用して、入力テキスト発話に対する中間合成音声表現を生成することを含む。中間合成音声表現は意図される韻律を有する。これらの動作はまた、中間合成音声表現をエンコーダ部分とデコーダ部分とを含む第2のTTSモデルに提供することを含む。エンコーダ部分は、中間合成音声表現を意図される韻律を指定する発話埋め込みに符号化するように構成される。デコーダ部分は、入力テキスト発話および発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成するように構成される。出力オーディオ信号は、発話埋め込みによって指定された意図される韻律およびターゲット音声の話者特性を有する。

本態様は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、これらの動作はまた、中間合成音声表現が有する意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを中間合成音声表現からサンプリングすることを含む。ここで、中間合成音声表現を第2のTTSモデルに提供することは、中間合成音声表現からサンプリングされた固定長の基準フレームのシーケンスをエンコーダ部分に提供することであって、それにより、エンコーダ部分が、固定長の基準フレームのシーケンスを発話埋め込みに符号化するように構成される、提供することを含む。中間合成音声表現が有する意図される韻律を表す韻律特徴は、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含んでよい。これらの実装形態では、エンコーダ部分は、中間合成音声表現内の各音節に対して、音節内の各音素に関連する音素レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、音節に関連する固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、フレームベースの音節埋め込みが、対応する音節に関連する持続時間、ピッチ、および/またはエネルギーを示す、符号化することと、音節に関連する音節レベルの言語特徴、中間合成音声表現に関連する文レベルの言語特徴、および対応する音節を含む語に関連する語レベルの言語特徴を備えた音素特徴ベースおよびフレームベースの音節埋め込みを音節に対する対応する韻律音節埋め込みに符号化することとによって、固定長の基準フレームのシーケンスを発話埋め込みに符号化するように構成され得る。

語レベルの言語特徴は、入力テキスト発話からトランスフォーマーからの双方向エンコーダ表現(BERT)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含んでよい。いくつかの例では、デコーダ部分は、入力テキスト発話を使用して、対応する発話埋め込みを入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、入力テキスト発話および発話埋め込みを処理して、出力オーディオ信号を生成するように構成される。ここで、韻律表現は、発話埋め込みによって指定された意図される韻律を表す。第2のTTSモデルは、デコーダ部分によって復号される固定長の予測フレームの数が中間合成音声表現からサンプリングされる固定長の基準フレームの数と等しくなるようにトレーニングされ得る。

いくつかの実装形態では、これらの動作はまた、ターゲット音声の話者特性を表す話者埋め込みを取得することと、入力テキスト発話、発話埋め込み、および話者埋め込みを処理して、表現的音声の出力オーディオ信号を生成するために、話者埋め込みを第2のTTSモデルのデコーダ部分に提供することとを含む。第1のTTSモデルを使用して生成された中間合成音声表現は、ターゲット音声の話者特性に欠け、望ましくない音響アーティファクトを含む中間音声を含むことがある。

これらの動作はまた、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信することであって、各トレーニングオーディオ信号が、意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した意図される韻律を有する人間音声の発話を含む、受信することを含む。各トランスクリプトは、対応するトレーニングオーディオ信号のテキスト表現を含む。トレーニングデータの各対応するトランスクリプトに対して、これらの動作はまた、人間音声の対応する発話の意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように第1のTTSモデルをトレーニングすることと、対応するトレーニング合成音声表現をトレーニング合成音声表現によってキャプチャされた意図される韻律を表す、対応する発話埋め込みに符号化することによって、第2のTTSモデルのエンコーダ部分をトレーニングすることと、トレーニングデータの対応するトランスクリプトを使用して、エンコーダ部分によって符号化された対応する発話埋め込みを意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、第2のTTSモデルのデコーダ部分をトレーニングすることと、予測出力オーディオ信号と対応する基準オーディオ信号との間の勾配/損失を生成することと、第2のTTSモデルを通して勾配/損失を逆伝搬することとを含む。

本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

意図される韻律を有する表現的音声をターゲット音声で作成するように2段階韻律転写システムをトレーニングするための例示的なシステムの概略図である。変分オートエンコーダベースのテキスト音声モデルを組み込んだ、図1の韻律転写システムの概略図である。シーケンス間予測ネットワークベースのテキスト音声モデルを組み込んだ、図1の韻律転写システムの概略図である。図2Aの変分オートエンコーダベースのテキスト音声モデルのエンコーダ部分の概略図である。図2Aの変分オートエンコーダベースのテキスト音声モデルのデコーダ部分の概略図である。図２Bのシーケンス間予測ネットワークベースのテキスト音声モデルのデコーダ部分の概略図である。意図される韻律を有するテキスト発話に対する表現的音声の出力オーディオ信号を生成する方法のための動作の例示的な配列の流れ図である。本明細書で説明するシステムおよび方法を実装するのに使用され得る例示的コンピューティングデバイスの概略図である。

様々な図面における同様の参照符号は、同様の要素を示す。

音声合成システムによってしばしば使用されるテキスト音声(TTS)モデルは、概して、ランタイムにおいて何の基準オーディオ表現ももたない所与のテキスト入力に過ぎず、現実的に聞こえる合成音声を作成するために、テキスト入力によって提供されない多くの言語要因を代入しなければならない。これらの言語要因のサブセットは、まとめて韻律と呼ばれ、イントネーション(ピッチ変化)、強勢(強勢音節に対して非強勢音節)、音の持続時間、音声の大きさ、トーン、リズム、およびスタイルを含み得る。韻律は、音声の感情状態、音声の形態(たとえば、記述、質問、コメントなど)、音声の皮肉または嫌味の存在、音声の知識の不確実性、または入力テキストの文法または語彙選択肢によって符号化されることが不可能な他の言語要素を示し得る。したがって、高度の韻律変化に関連する所与のテキスト入力は、異なる意味論的な意味を伝えるためにピッチおよび発話持続時間の局所的変化を伴うかまた異なるムードおよび感情を伝えるためにピッチ追跡全体の包括的変化を伴う合成音声を作成し得る。

限定はしないが、ニュース読み上げ(たとえば、ニュースキャスター)、スポーツコメンテータ、教育講師など特定の領域/バーティカルは各々、異なる音声特性(たとえば、男性/女性、言語、アクセントなど)を有するが、特定の領域/バーティカルに関連する同じ韻律スタイルを有する様々な異なる話者/音声によって話される発話を含む。たとえば、スポーツコメンテータが話す発話の韻律表現は、多くの感情を伝えることがあるが、ニュースキャスターが話す発話の韻律表現は、より遅い発話速度および語のより明瞭な発声を伝えることがある。音声のニューラルモデリングにおける最近の進歩は、合成音声の自然さを著しく改善し、テキスト入力により提供されない韻律に対応する言語要因を予測することによって音声をロバストに合成する可能性を提供するが、アクセントなどの話者特性から韻律を解くことは単純なプロセスではないため、韻律のみをモデル化するタスクは非常に困難である。さらに、特定の韻律に関連する特定の領域/バーティカルに属する様々な音声の大きな集成からのトレーニング発話を使用して特定の韻律をモデル化する任務を負ったニューラルネットワークベースの韻律モデルは、同じ話者が話すトレーニング発話の十分な数に欠ける大きな集成により、望ましくない/不要な音響アーティファクトを含む不完全な音声を有する合成音声を本質的に生成する。

音声合成システムは、合成音声を特定のターゲット音声で作成することが可能なTTSモデルを採用し得る。たとえば、電子リーダーアプリケーションがBob Dylanの音声で入力テキストから合成音声を作成することが望ましいことがあり、または別の例として、テキストメッセージアプリケーションは、受信されたテキストメッセージの合成音声表現をそのテキストメッセージを送った人物の音声の合成音声表現で作成することができる。しかしながら、特に、ターゲット音声の話者が話す、意図される韻律を有する十分なトレーニング発話が利用可能でないとき、意図される韻律をやはり有する合成音声を特定のターゲット音声で作成するようにTTSモデルをトレーニングすることは、単純なタスクではない。たとえば、San Francisco 49ersとKansas City Chiefsとの間のSuper Bowl LIVの実況トランスクリプトから亡くなったニュースキャスターのPeter Jenningsの音声で合成音声を生成するシナリオでは、Peter Jenningsの音声で生じる合成音声がスポーツコメンテータバーティカルにおける韻律もやはり有することが望ましいことになる。Peter Jenningsが話した多数の発話は、Peter Jenningsが1983年から2005年までアンカーを務めたABC World News Tonightの記録からサンプリングされ得るが、これらの発話はまったく異なるバーティカル、たとえば、ニュースキャスターバーティカルからサンプリングされるため、スポーツコメンテータバーティカルにおいて韻律をモデル化するためのトレーニング例として、これらのサンプリングされた発話の価値は極めて低い。さらに問題なのは、Peter Jenningsは2005年8月7日に亡くなっているため、スポーツコメンテータバーティカルの韻律スタイルで同氏が話すことを含めて、Peter Jenningsは、価値のある何らかのトレーニング発話を提供することに応じることができない。

本明細書の実装形態は、異なる話者による様々な音声で話されたトレーニング発話の集成が有する特定の韻律を学習すること、および合成の表現的音声が学習された特定の韻律をターゲット音声で再生するように、入力テキストから合成の表現的音声を生成することに関する。ここで、特定の韻律をターゲット音声で有する発話はトレーニングのために必要とされない。より具体的には、実装形態は、第1のテキスト音声(TTS)モデルが、トレーニング発話の集成が有する意図される韻律を学習する任務のみを負い、第2のTTSモデルが、第1のTTSモデルが学習した意図される韻律をターゲット音声の合成音声表現に転写する任務を負う、2レベル音声韻律転写システムに関する。

以下でより詳細に説明する、第1のTTSモデルは、意図される韻律および話者特性を解くことを試みずに、意図される韻律をキャプチャする中間音声表現を作成するようにトレーニングされる。したがって、第1のTTSモデルによって作成される結果として得られる中間合成音声表現は、トレーニング発話において伝えられた意図される韻律(表現力)をキャプチャするが、品質が低下した(たとえば、ノイズアーティファクト)、話者特性(たとえば、アクセント)に欠ける不完全な音声を含むことがある。したがって、中間合成音声表現はメッセージを正確に伝えること(了解度)を意図せず、または中間合成音声表現は人間の話者のように聞こえること(自然さ)も意図していないため、中間合成音声表現は、人間の視聴者に適していない。中間合成音声表現は不完全な音声を有し、したがって、ターゲット音声を表す話者特性を伝えないにもかかわらず、第2のTTSモデルは、中間音声表現によってキャプチャされた意図される韻律を再生し、意図される韻律をターゲット音声で作成させた表現的音声を生成するようにトレーニングされる。すなわち、第2のTTSモデルは、意図される韻律を備え、ターゲット音声に関連する話者特性を有する表現的音声を生成する。ここで、ターゲット音声は、意図される韻律を有するトレーニング発話のうちのいずれも話したことがないアクターに関連付けられ得る。

第2のTTSモデルは、エンコーダ部分とデコーダ部分とを含む韻律転写モデルに対応し得る。ここで、韻律転写モデルは、変分オートエンコーダ(VAE)アーキテクチャまたはシーケンス間特徴予測ネットワークアーキテクチャに対応し得る。エンコーダ部分は、第1のTTSモデルによって作成された中間合成音声表現を中間合成音声表現によってキャプチャされた意図される韻律を指定する発話埋め込みに符号化するように構成され、デコーダ部分は、各音節に対する、音素の持続時間、ならびにピッチ輪郭およびエネルギー輪郭など、韻律特徴を予測するために発話埋め込みを復号するように構成される。いくつかの例では、デコーダ部分は、韻律特性に加えて、またはその代わりに、メル周波数スペクトログラムを予測するために、発話埋め込みを復号するように構成される。メル周波数スペクトログラムは、意図される韻律を本質的に伝えることができる。

第1のTTSシステムは、人間の発話の対応するトレーニング発話の韻律をキャプチャするトランスクリプトからトレーニング合成音声表現を作成するために人間音声のトレーニング発話および対応するトランスクリプトに対してトレーニングし得る。トレーニング発話はすべて、各トレーニング発話が特定の韻律バーティカルに関連する意図される韻律を有するように、特定の韻律バーティカルからサンプリングされ得る。第2のTTSモデルのエンコーダ部分は、韻律特徴およびトレーニング合成音声表現を表す言語特徴埋め込みに対して調整された第1のTTSモデルによって作成された多数のトレーニング合成音声表現を符号化することによって、キャプチャされた韻律を表す発話埋め込みに対してトレーニングし得る。韻律特徴は、ピッチ(F0)、音素持続時間、およびエネルギー(C0)の点で基準オーディオ信号に関する音響情報を表し得る。たとえば、韻律特徴は、音素持続時間、ならびに基準オーディオ信号からサンプリングされたピッチおよびエネルギーの固定長フレームを含み得る。言語特徴は、限定はしないが、音節内の音素の位置に関する情報、音素識別子、および音節内の音素の数を含む音素レベルの言語特徴と、音節が識別するかどうか、および音節が強勢であるかまたは非強勢であるかなどの情報を含む音節レベルの言語特徴と、各語に関する構文情報を符号化する語レベルの言語特徴と、話者に関する情報、話者の性別、および/または発話が質問であるかまたは句であるかを含む文レベルの言語特徴とを含んでよい。言語特徴は、各トレーニング発話に対する対応するトランスクリプトから抽出され得る。いくつかの例では、第2のTTSモデルは、ワードピース埋め込みを出力するように構成された、トランスフォーマーからの双方向エンコーダ表現(BERT)モデルを組み込む。これらの例では、ワードピース埋め込みは、場合によっては、各語に関する構文情報を明示的に符号化することになる語レベルの言語特徴と置き換わってよい。

エンコーダ部分によって符号化された各発話埋め込みは、固定長数値ベクトルによって表され得る。いくつかの実装形態では、固定長数値ベクトルは、256に等しい値を含む。しかしながら、他の実装形態は、256よりも大きいまたは小さい値を有する固定長数値ベクトルを使用し得る。所与の入力テキスト発話に対して、デコーダ部分は、入力テキスト発話および固定長発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成し得る。ここで、出力オーディオ信号は、発話埋め込みによって指定される意図される韻律を有する。出力オーディオ信号は、ピッチ、エネルギー、および/または音素持続時間の予測固定長フレーム(たとえば、5ミリ秒)のシーケンスを含んでよく、または出力オーディオ信号は、意図される韻律を伝えるメル周波数スペクトログラムフレームを含んでよい。加えて、デコーダ部分は、ターゲット音声の話者特性を提供する話者埋め込みを受信し得る。したがって、意図される韻律を有する出力オーディオ信号は、ターゲット音声の話者特性を含んでもよい。合成器は、第2のTTSモデルによって作成された出力オーディオ信号を入力として受信し、意図される韻律を有し、ターゲット音声で話される入力テキスト発話の合成音声表現を出力として生成し得る。

図1は、テキスト発話320を特定の韻律バーティカル20に関連する意図される韻律を表す韻律表現302を有する表現的音声152にターゲット音声で合成するように2段階韻律転写システム200をトレーニングするための例示的なシステム100を示す。システム100は、データ処理ハードウェア122およびデータ処理ハードウェア122と通信しているメモリハードウェア124を有し、データ処理ハードウェア122に動作を実行させるためにデータ処理ハードウェア122によって実行可能な命令を記憶する、コンピューティングシステム(互換的に「コンピューティングデバイス」と呼ばれる)120を含む。いくつかの実装形態では、コンピューティングシステム120(たとえば、データ処理ハードウェア122)は、出力オーディオ信号280が特定の韻律バーティカル20からの意図される韻律およびターゲット音声の話者特性を有するように、入力テキスト発話320から表現的音声の出力オーディオ信号280を生成するようにトレーニングされた2レベル韻律転写システム200を提供する。出力オーディオ信号280は、音声合成器150が意図される韻律を有する合成音声152のオーディオ波形をターゲット音声で生成することを可能にするために、意図される韻律を表す韻律表現302を伝える。

韻律転写システム200は、第1のテキスト音声(TTS)モデル212を有する第1のTTSシステム210と、第2のTTSモデル222を有する第2のTTSシステム220とを含む。第1および第2のTTSシステム210、220は各々、音声合成器150を含み得る。第1および第2のTTSモデル212、222は、同じであっても異なってもよいそれぞれのニューラルネットワークアーキテクチャを含み得る。第1のTTSシステム210は、入力テキスト発話320の中間合成音声表現202を生成するために第1のTTSモデル212を使用するように構成される。たとえば、第1のTTSモデル212は、特定の韻律バーティカル20から意図される韻律をキャプチャする/有する、メル周波数スペクトログラムのシーケンスなどの中間出力信号201を生成し得る。音声合成器150は、次いで、中間出力信号201から中間合成音声表現202を生成し、中間合成音声表現202を第2のTTSモデル222に提供し得る。第2のTTSシステム220は、意図される韻律を有する発話表現として入力テキスト発話320をターゲット音声で伝えるために、中間合成音声表現202によってキャプチャされた意図される韻律を表現的音声の出力オーディオ信号280に転写または再生するために第2のTTSモデル222を使用するように構成される。第2のTTSモデル222は、ターゲット音声の話者特性を含む話者埋め込みZを受信し得る。いくつかの例では、第2のTTSモデル222は、意図される韻律を表現的音声の出力オーディオ信号280に転写するための中間合成音声表現202に加えて、またはその代わりに、第1のTTSモデル222によって作成された中間出力信号201(たとえば、メル周波数スペクトログラム)を受信する。入力テキスト発話320は、合成音声152の意図される韻律を導くためのコンテキスト、セマンティックス、およびプラグマティックスを伝える手段を有さないため、韻律転写システム200は、テキスト発話320から抽出された言語特徴に対して第2のTTSモデル222を調整し、テキスト発話320に対して意図される韻律を表す潜在変数として固定長の発話埋め込み204を使用することによって、入力テキスト発話320に対する韻律表現302を予測し得る。以下でより詳細に説明する、第1のTTSシステム210によって作成される中間合成音声表現202は、第2のTTSモデル222が、中間合成音声表現202を発話埋め込み204に符号化することによって、テキスト発話320に対する意図される韻律を再生することができるように、特定の韻律バーティカル20からの意図される韻律をキャプチャ/処理する任務のみを負う。コンピューティングシステム120は、分散型システム(たとえば、クラウドコンピューティング環境)を含み得る。合成器150は、ボコーダ155を含み得る。

いくつかの実装形態では、システム100は、各々が、対応する韻律バーティカル20、20A-Nから異なるそれぞれの意図される韻律をターゲット音声の表現的音声152に転写するように構成される複数の韻律転写システム200、200A～Nをトレーニングする。たとえば、異なる韻律バーティカル20は各々、対応する韻律バーティカル20に関連する同じ韻律スタイルを有する異なる音声特性(たとえば、男性/女性、言語、アクセントなど)を有する様々な異なる人間が話した発話を含み得る。たとえば、韻律バーティカル20Aは、ニュース読み上げ(たとえば、ニュースキャスター)に関連する人間音声の発話に対応し得、韻律バーティカル20Bは、スポーツコメンテータに関連する人間音声の発話に対応し得、韻律バーティカル20Nは、教育講師に関連する人間音声の発話に対応し得る。スポーツコメンテータバーティカル20Bは多数の異なるスポーツに関してコメントする話者からサンプリングされた発話を広く含み得るが、各特定の韻律バーティカル20は、発話のより狭いセットからサンプリングされた意図される韻律を伝えることができる。たとえば、多数の異なるスポーツコメンテータ韻律バーティカル20は、各々が特定のスポーツに関連する人間音声の発話に対応する場合に存在し得る。韻律スタイルはカーリングスポーツに関するスポーツコメンテータが話す発話とラグビースポーツに関するスポーツコメンテータが話す発話との間で異なり得るため、これは有利であり得る。

図1を続けて参照すると、各韻律バーティカル20、20A～Nに対して、コンピューティングデバイス120(たとえば、データ処理ハードウェア122)は、複数のトレーニングオーディオ信号104および対応するトランスクリプト106を含む、対応するトレーニングデータ10を受信する。各トレーニングオーディオ信号104は、意図される韻律に関連する韻律バーティカル(互換的に「韻律領域」と呼ばれる)において対応する話者が話した意図される韻律を有する人間音声の発話を含む。各トランスクリプト106は、対応するトレーニングオーディオ信号104のテキスト表現を含む。トレーニングデータ10の各対応するトランスクリプト106に対して、コンピューティングデバイス120は、人間音声の対応する発話104の意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号202Tを生成するように第1のTTSモデル212をトレーニングする。その後、コンピューティングデバイス120は、第2のTTSシステム220の第2のTTSモデル222をトレーニングする。より具体的には、第2のTTSモデル222をトレーニングすることは、トレーニングデータ10の各対応するトランスクリプト106に対して、第2のTTSモデル222のエンコーダ部分300とデコーダ部分400の両方をトレーニングすることを含み得る。エンコーダ部分300をトレーニングすることは、対応するトレーニング合成音声表現202T(たとえば、オーディオ波形またはメル周波数スペクトログラムのいずれか)をトレーニング合成音声表現202Tによってキャプチャされた意図される韻律を表す、対応する発話埋め込み204に符号化することを含む。特に、第1のTTSシステム220、より具体的には、第1のTTSモデル222のパラメータは、人間音声のグラウンドトゥルース発話104の韻律を正確にキャプチャする合成音声表現202Tのみを作成するように最適化され、したがって、十分な音声特性に欠け、低減されたオーディオ品質を有する(たとえば、音響アーティファクトを含む)中間音声を含むことが可能にされる。

デコーダ部分400をトレーニングすることは、トレーニングデータ10の対応するトランスクリプト106を使用して、エンコーダ部分300によって符号化された発話埋め込み204を意図される韻律を有する表現的音声の予測出力オーディオ信号280に復号することを含む。すなわち、予測出力オーディオ信号280は、人間音声の対応するグラウンドトゥルース発話104からトレーニング中間合成音声表現202Tによってキャプチャされた意図される韻律を再生する韻律表現302に関連付けられる。デコーダ部分400は、表現的音声のオーディオ信号280が意図される韻律およびターゲット音声の話者特性を有するように、特定のターゲット音声の話者特性を学習するようにさらにトレーニングされ得る。いくつかの例では、第1のTTSモデル212および第2のTTSモデル222は一緒にトレーニングされる。他の例では、第1のTTSモデル212および第2のTTSモデル222は別個にトレーニングされる。

最後に、対応する韻律バーティカル20に関するトレーニングデータ10内の各トレーニングオーディオ信号104および対応するトランスクリプト106に対して、コンピューティングデバイス120(たとえば、データ処理ハードウェア122)は、予測出力オーディオ信号280と対応する基準オーディオ信号202Tとの間に勾配/損失を生成し、第2のTTSモデル222を通して勾配/損失を逆伝搬する。したがって、コンピューティングデバイス120は、各韻律転写システム200が、テキスト発話320を対応する特定の韻律バーティカル20に関連する意図される韻律を表す韻律表現302を有する表現的音声152にターゲット音声で合成するように構成されるように、多数の異なる韻律バーティカル20、20A～Nの各々に対して対応する韻律転写システム200、200A～Nをトレーニングし得る。たとえば、上記の例を適用すると、トレーニングされた韻律転写システム200Aは、ニュース読み上げ韻律バーティカル20Aに関連する意図される韻律を備えたターゲット音声の表現的音声152を合成することができ、トレーニングされた韻律転写システム200Bは、スポーツコメンテータ韻律バーティカル20Bに関連する意図される韻律を備えたターゲット音声の表現的音声を合成することができ、トレーニングされた韻律転写システム200Nは、教育講師韻律バーティカル20Nに関連する意図される韻律を備えたターゲット音声の表現的音声を合成することができる。コンピューティングデバイス120は、推論中に後で使用するために、各トレーニングされた韻律転写システム200をデータ記憶装置180(たとえば、メモリハードウェア124)上に記憶し得る。

推論中、コンピューティングデバイス120は、トレーニングされた韻律転写システム200を使用して、テキスト発話320を特定の韻律バーティカル20に関連する意図される韻律を表す韻律表現302を有する表現的音声152にターゲット音声で合成し得る。韻律表現302は、各音素のピッチ、エネルギー、および持続時間の予測韻律特徴に対応し得る。すなわち、第1のレベル/段階中、トレーニングされた韻律転写システム200は、第1のTTSモデル212を使用して、入力テキスト発話320に対する中間合成音声表現202を生成し、それにより、中間合成音声表現202は、意図される韻律を有し、低減されたオーディオ品質を有し、話者特徴に欠けることが可能にされる。第2のレベル/段階中、トレーニングされた韻律転写システム200は、中間合成音声表現202を第2のTTSモデル222に提供する。ここで、第2のTTSモデル222のエンコーダ部分300は、中間合成音声表現202を意図される韻律を指定する発話埋め込み204に符号化するように構成され、第2のTTSモデル222のデコーダ部分400は、入力テキスト発話320および発話埋め込み204を処理して、表現的音声の出力オーディオ信号280を生成するように構成される。出力オーディオ信号280は、発話埋め込み204によって指定される意図される韻律およびターゲット音声の話者特性を有する。デコーダ部分400は、話者特性(たとえば、アクセント、男性/女性、およびアクセント)を伝えるターゲット音声に関連する話者埋め込みZを受信し得る。示す例では、音声合成器150は、出力オーディオ信号280を使用して、テキスト発話320から、意図される韻律を有する合成音声152をターゲット音声で作成する。

図2Aは、第2のTTSシステム220における第2のTTSモデル222aが変分オートエンコーダ(VAE)ベースの第2のTTSモデル222aに対応する、韻律転写システム200、200aの概略図を提供する。より具体的には、第2のTTSモデル222aは、クロックワーク階層変分オートエンコーダ(CHiVE:clockwork hierarchical variational autoencoder)に階層言語構造を提供し得る。しかしながら、第2のTTSモデル222aは、他のタイプのVAEを含んでよい。示す例では、第1のTTSシステム210は、テキスト発話320、およびターゲット音声の話者特性(たとえば、話者埋め込みZ)を含み得る随意の他の入力325を入力として受信する。他の入力325は、追加または代替として、言語識別子、テキスト正規化、または対応する韻律領域の韻律バーティカル識別子のうちの1つまたは複数を含み得る。入力テキスト発話および随意の他の入力325を使用して、第1のTTSモデル212は、入力テキスト発話320に対する意図される韻律を本質的に有するメル周波数スペクトログラムのシーケンスを含み得る中間出力オーディオ信号201を生成する。第1のTTSシステム210は、中間出力オーディオ信号201を中間合成音声表現202に(たとえば、音声合成器150を使用して)合成し得る。上記に記載したように、中間合成音声表現202は、意図される韻律を正確にキャプチャするように構成され、低減されたオーディオ品質を含み、ターゲット音声を認識するための話者特性に欠くことが可能にされる。言い方を変えれば、中間合成音声表現202は、人間の聴取に必ずしも適するとは限らないことがあり、むしろ、ターゲット音声の表現的音声を再生し、その中に組み込むために第2のTTSモデル222によって使用するために意図される韻律を伝える韻律情報のキャリアとして働く。

抽出器214は、次いで、中間合成音声表現202によって処理される意図される韻律を表す韻律特徴を提供する固定長の基準フレーム211のシーケンスを中間合成音声表現202からサンプリングし得る。VAEベースの第2のTTSモデル222aのエンコーダ部分300、300aは、固定長の基準フレーム211のシーケンスを意図される韻律を指定する発話埋め込み204に符号化するように構成される。中間合成音声表現202が有する意図される韻律を表す韻律特徴は、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含んでよい。

続けて図2Aを参照すると、CHiVEベースの第2のTTSモデル222aのデコーダ部分400、400aは、入力テキスト発話320を使用して、対応する発話埋め込み204を入力テキスト発話320の韻律表現302を提供する固定長の予測フレーム280のシーケンスに復号することによって、入力テキスト発話320および発話埋め込み204を処理して、出力オーディオ信号280を生成するように構成される。

図3および図4Aは、韻律転写の制御可能モデルを提供するための、図2AのCHiVEベースの第2のTTSモデル222aに対する階層言語構造を示す。モデル222aは、所与の入力テキスト320の各音節に対して、意図される韻律を有する合成音声152をターゲット音声で作成するために、所与の入力テキストまたは他の言語仕様からのいかなる一意のマッピングにも依存せずに、音節の持続時間ならびに音節に対するピッチ(F0)輪郭およびエネルギー(C0)輪郭を一緒に予測し得る。第2のTTSモデル222aは、中間合成音声表現202から(または中間出力から)サンプリングされた複数の固定長の基準フレーム211を固定長の発話埋め込み204に符号化するエンコーダ部分300a(図2Aおよび図3)と、固定長の発話埋め込み204をどのように復号するかを学習するデコーダ部分400a(図2Aおよび図4A)とを含む。デコーダ部分400aは、固定長の発話埋め込み204を(たとえば、発話埋め込み204に対するピッチ(F0)、エネルギー(C0)、またはスペクトル特性(M0)を予測するための)複数の固定長の予測フレーム280を含み得る表現的音声の出力オーディオ信号280に復号し得る。明らかになるように、第2のTTSモデル222aは、デコーダ部分400aから出力される予測フレーム280の数がエンコーダ部分300aに入力される基準フレーム211の数に等しくなるようにトレーニングされる。さらに、第2のTTSモデル222aは、基準フレームおよび予測フレーム211、280に関連する韻律情報が互いに実質的に一致するようにトレーニングされる。

図2Aおよび図3を参照すると、エンコーダ部分300aは、第1のTTSシステム210から出力された中間合成音声表現202からサンプリングされた固定長の基準フレーム211のシーケンスを受信する。中間合成音声表現202は、入力テキスト発話320に対する意図される韻律をキャプチャする。基準フレーム211は、各々が5ミリ秒(ms)の持続時間を含んでよく、中間合成音声表現202に対するピッチの輪郭(F0)もしくはエネルギーの輪郭(C0)(および/またはスペクトル特性の輪郭(M0))のうちの1つを表す。並行して、エンコーダ部分300aはまた、各々が5msの持続時間を含み、中間合成音声表現202に対するピッチの輪郭(F0)もしくはエネルギーの輪郭(C0)(および/またはスペクトル特性の輪郭(M0))のうちの他の1つを表す、基準フレーム211の第2のシーケンスを受信し得る。したがって、中間合成音声表現202からサンプリングされた基準フレーム211のシーケンスは、中間合成音声表現202によってキャプチャされる意図される韻律を表すために、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはスペクトル特性輪郭を提供する。中間合成音声表現202の長さまたは持続時間は、基準フレーム211の総数の和と相関する。

エンコーダ部分300aは、互いに対してクロック制御する、中間合成音声表現202に対する基準フレーム211、音素321、321a、音節330、330a、語340、340a、および文350、350aの階層レベルを含む。たとえば、基準フレーム211のシーケンスに関連するレベルは、音素321のシーケンスに関連する次のレベルよりも早くクロック制御する。同様に、音節330のシーケンスに関連するレベルは、音素321のシーケンスに関連するレベルよりも遅く、また語340のシーケンスに関連するレベルよりも早くクロック制御する。したがって、より遅いクロック制御層は、シーケンス間エンコーダを本質的に提供するために、より早い層の最終的なクロック(すなわち、状態)後の出力が対応するより遅い層に対する入力と受け止められるように、より速いクロック制御層からの出力を入力として受信する。示す例では、階層レベルは、長短期メモリ(LSTM:Long Short-Term Memory)レベルを含む。

示す例では、中間合成音声表現202は、3つの語340、340A～Cを備えた1つの文350、350Aを含む。第1の語340、340Aは、2つの音節330、330Aa～Abを含む。第2の語340、340Bは、1つの音節330、330Baを含む。第3の語340、340Cは、2つの音節330、330Ca～Cbを含む。第1の語340、340Aの第1の音節330、330Aaは、2つの音素321、321Aa1～Aa2を含む。第1の語340、340Aの第2の音節330、330Abは、1つの音素321、321Ab1を含む。第2の語340、340Bの第1の音節330、330Baは、3つの音素321、321Ba1～Ba3を含む。第3の語340、340Cの第1の音節330、330Caは、1つの音素321、321Ca1を含む。第3の語340、340Cの第2の音節330、330Cbは、2つの音素321、321Cb1～Cb2を含む。

いくつかの実装形態では、エンコーダ部分300aは、最初に、基準フレーム211のシーケンスをフレームベースの音節埋め込み332、332Aa～Cbに符号化する。各フレームベースの音節埋め込み332は、対応する音節330に関連する持続時間、ピッチ(F0)、および/またはエネルギー(C0)を示す数値ベクトルとして表された基準韻律特徴を示し得る。いくつかの実装形態では、基準フレーム211は、音素321Aa1～321Cb2のシーケンスを定義する。ここで、基準フレーム211のサブセットを1つまたは複数の音素321に符号化する代わりに、エンコーダ部分300aは、代わりに、音素レベルの言語特徴322、322Aa1～Cb2を音素特徴ベースの音節埋め込み334、334Aa～Cbに符号化することによって、音素321を明らかにする。各音素レベルの言語特徴322は、音素の位置を示してよく、各音素特徴ベースの音節埋め込み334は、対応する音節330内の各音素の位置、ならびに対応する音節330の音素321の数を示すベクトルを含む。各音節330に対して、それぞれの音節埋め込み332、334は、対応する音節330に対するそれぞれの音節レベルの言語特徴336、336Aa～Cbと連結され符号化され得る。さらに、各音節埋め込み332、334は、音節330のレベルに対する対応する状態を示す。

図3を引き続き参照すると、対角ハッチングパターンを含む階層層内のブロックは、(語レベル340に対する者を除いて)階層の特定のレベルに対する言語特徴に対応する。語レベル340のハッチングパターンは、入力テキスト発話320から言語特徴として抽出された語埋め込み342またはトランスクリプト206から取得された語単位272に基づいてBERTモデル270から出力されたWP埋め込み342を含む。エンコーダ300aのリカレントニューラルネットワーク(RNN)部分はワードピースの概念をまったく有さないため、各語の第1のワードピースに対応するWP埋め込み342が1つまたは複数の音節330を含み得る語を表すために選択され得る。フレームベースの音節埋め込み332および音素特徴ベースの音節埋め込み334を用いて、エンコーダ部分300aは、これらの音節埋め込み332、334を他の言語特徴336、352、342(またはWP埋め込み342)と連結し、符号化する。たとえば、エンコーダ部分300aは、音節レベルの言語特徴336、336Aa～Cb、語レベルの言語特徴(またはBERTモデル270から出力されたWP埋め込み342、342A～C)、および/または文レベルの言語特徴352、352Aと連結された音節埋め込み332、334を符号化する。言語特徴336、352、342(またはWP埋め込み342)を備えた音節埋め込み332、334を符号化することによって、エンコーダ部分300aは、中間合成音声表現202に対する発話埋め込み204を生成する。発話埋め込み204は、中間合成音声表現202の入力テキスト発話320(たとえば、テキスト表現)とともに、データ記憶装置180(図1)内に記憶され得る。入力テキスト発話320から、言語特徴322、336、342、352は、階層言語構造のトレーニングを調整する際に使用するために抽出され記憶され得る。言語特徴(たとえば、言語特徴322、336、342、352)は、限定はしないが、個々の音素に対する個々の音および/または音節内の各音素の位置、各音節が強勢されるかまたは強勢されないか、各語に対する構文情報、発話が質問であるかまたは句であるか、および/または発話の話者の性別を含んでよい。本明細書で使用する、VAEベースの第2のTTSモデル222aのエンコーダおよびデコーダ部分300a、400aに関する語レベルの言語特徴342のいずれの言及もBERTモデル270からのWP埋め込みと置き換わってよい。

図3の例では、言語特徴336、342、352と音節埋め込み332、334との間の符号化を示すために符号化ブロック322、322Aa～Cbが示されている。ここで、ブロック322は、発話埋め込み204を生成するために音節レートで符号化されたシーケンスである。示すように、第1のブロック322Aaは、入力として第2のブロック322Abに供給される。第2のブロック322Abは、入力として第3のブロック322Baに供給される。第3のブロック322Baは、入力として第4のブロック322Caに供給される。第4のブロック322Caは、第5のブロック322Cbに供給される。いくつかの構成では、発話埋め込み204は、中間合成音声表現202に対する平均値μおよび標準偏差σを含み、ここで、平均値μおよび標準偏差σは、複数の中間合成音声表現202のトレーニングデータに関する。

いくつかの実装形態では、各音節330は、基準フレーム211のサブセットの対応する符号化を入力として受信し、符号化されたサブセット内の基準フレーム211の数に等しい持続時間を含む。示す例では、第1の7個の固定長の基準フレーム211は音節330Aaに符号化され、次の4個の固定長の基準フレーム211は音節330Abに符号化され、次の11個の固定長の基準フレーム211は音節330Baに符号化され、次の3個の固定長の基準フレーム211は音節330Caに符号化され、最後の6個の固定長の基準フレーム211は音節330Cbに符号化される。したがって、音節330のシーケンス内の各音節330は、音節330に符号化された基準フレーム211の数に基づく対応する持続時間、ならびに対応するピッチおよび/またはエネルギー輪郭を含み得る。たとえば、音節330Aaは、35msに等しい持続時間(すなわち、各々が5ミリ秒の固定長を有する7個の基準フレーム211)を含み、音節330Abは、20msに等しい持続時間(すなわち、各々が5ミリ秒の固定長を有する4個の基準フレーム211)を含む。したがって、基準フレーム211のレベルは、音節330のレベルにおいて音節330Aaと次の音節330Abとの間の単一のクロック制御のために合計で10回クロック制御する。音節330の持続時間は、音節330のタイミングを示すことができ、隣接する音節330間で休止する。

いくつかの例では、エンコーダ部分300aによって生成された発話埋め込み204は、中間合成音声表現202の韻律を表す数値ベクトルを含む固定長の発話埋め込み204である。いくつかの例では、固定長の発話埋め込み204は、「128」または「256」に等しい値を有する数値ベクトルを含む。

次に図2Aおよび図4Aを参照すると、VAEベースの第2のTTSモデル222aのデコーダ部分400aは、入力テキスト発話320に対する意図される韻律を指定する固定長の発話埋め込み204を最初に復号することによって、複数の固定長の音節埋め込み335を作成するように構成される。より具体的には、発話埋め込み204は、入力テキスト発話320に対して第1のTTSシステム210から出力された中間合成音声表現202が有する意図される韻律を表す。したがって、デコーダ部分400aは、複数の固定長の基準フレーム211に密に一致する複数の固定長の予測フレーム280を生成するために、発話埋め込み204を逆伝搬するように構成される。たとえば、ピッチ(F0)とエネルギー(C0)の両方に対する固定長の予測フレーム280は、トレーニングデータが有する意図される韻律に実質的に一致する意図される韻律(たとえば、予測韻律)を表すために並行して生成され得る。いくつかの例では、音声合成器150は、固定長の予測フレーム280を使用して、固定長の発話埋め込み204に基づいて、意図される韻律を備えた、ターゲット音声の合成音声152を作成する。たとえば、音声合成器150のユニット選択モジュールまたはWaveNetモジュールは、フレーム280を使用して、意図される韻律を有する合成音声152を作成し得る。

示す例では、デコーダ部分400aは、エンコーダ部分300a(図2Aおよび図3)から受信した発話埋め込み204(たとえば、「256」の数値)を語340、340b、音節330、330b、音素321、321b、および固定長の予測フレーム280の階層レベルに復号する。具体的には、固定長の発話埋め込み204は、デコーダ部分400aに対する階層入力データの変分層に対応し、積層階層レベルの各々は、階層入力データの長さに可変にクロック制御された長短期間メモリ(LSTM)処理セルを含む。たとえば、音節レベル330は、語レベル340よりも早く、音素レベル321よりも遅くクロック制御する。各レベル内の矩形ブロックは、それぞれの語、音節、音素、またはフレームに対するLSTM処理セルに対応する。有利には、VAEベースの第2のTTSモデル222aは、最後の100個の語にわたって語レベル340メモリのLSTM処理セルを与え、最後の100個の音節にわたって音節レベル330メモリのLSTMセルを与え、最後の100個の音素にわたって音素レベル321メモリのLSTMセルを与え、最後の100個の固定長フレーム280にわたって固定長のピッチおよび/またはエネルギーフレーム280メモリのLSTMセルを与える。固定長フレーム280が各々5ミリ秒の持続時間(たとえば、フレームレート)を含むとき、対応するLSTM処理セルは、最後の500ミリ秒(たとえば、0.5秒)にわたってメモリを提供する。

示す例では、階層言語構造のデコーダ部分400aは、エンコーダ部分300aによって符号化された固定長の発話埋め込み204を3個の語340A～340Cのシーケンス、5個の音節330Aa～330Cbのシーケンス、および9個の音素321Aa1～321Cb2のシーケンスに単に逆伝搬して、予測固定長フレーム280のシーケンスを生成する。デコーダ部分400aは、入力テキスト発話320の言語特徴に基づいて調整される。より早いクロック制御層からの出力がより遅いクロック制御層によって入力として受信される、図3のエンコーダ部分300aと対照的に、デコーダ部分400aは、より遅いクロック制御層の出力が付加されたタイミング信号を用いて各クロックサイクルにおいてより早いクロック制御層の入力に分配されるように、より早いクロック制御層を供給するより遅いクロック制御層からの出力を含む。

図2A、図3、および図4Aを参照すると、いくつかの実装形態では、クロックワーク階層変分オートエンコーダ222aに対する階層言語構造は、入力テキスト発話320に関するメルスペクトル情報を予測するための制御可能モデルを提供し、同時に、メルスペクトル情報内に暗示的に表された韻律を効果的に制御するように適応される。具体的には、第2のTTSモデル222aは、入力テキスト発話(単に「入力テキスト」320と呼ばれる)に対するメル周波数スペクトログラム502を予測し、メル周波数スペクトログラム502を時間領域オーディオ波形に変換するために音声合成器のボコーダネットワーク155に入力として提供し得る。時間領域オーディオ波形は、経時的なオーディオ信号の増幅を定義するオーディオ波形を含む。明らかになるように、音声合成器150は、サンプル入力テキストに対してトレーニングされたオートエンコーダ222aおよび第1のTTSモデル212から出力された対応するメル周波数スペクトログラム201のみを使用して、入力テキスト320から合成音声152を生成し得る。すなわち、VAEベースの第2のTTSモデル222aは、作成するためにかなりの領域専門知識を必要とする複雑な言語および音響特徴を受信せず、むしろエンドツーエンドディープニューラルネットワークを使用して、入力テキスト320をメル周波数スペクトログラム502に変換することが可能である。ボコーダネットワーク155、すなわち、ニューラルボコーダは、時間領域オーディオ波形に変換するためにメル周波数スペクトログラムに対して別個にトレーニングおよび調整される。

メル周波数スペクトログラムは、音の周波数領域表現を含む。メル周波数スペクトログラムは、音声了解度にとって重要である、より低い周波数を重視する一方、摩擦音および他のノイズバーストによって支配され、概して高忠実度でモデル化される必要がない高周波数を重視しない。ボコーダネットワーク155は、メル周波数スペクトログラムを受信し、メル周波数スペクトログラムに基づいてオーディオ出力サンプルを生成するように構成された任意のネットワークであってよい。たとえば、ボコーダネットワーク155は、https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能であり、参照により本明細書に組み込まれる、van den Oord、Parallel WaveNet:Fast High-Fidelity Speech Synthesisにおいて記述される並列フィードフォワードニューラルネットワークであってよいか、またはそれに基づいてよい。あるいは、ボコーダネットワーク155は、自己回帰ニューラルネットワークであってよい。

図2A、図3、および図4Aを参照しながら上記で説明したように、VAEベースの第2のTTSモデル222aは、エンコーダ部分300aとデコーダ部分400aとを含む。エンコーダ部分300aは、中間合成音声表現202からサンプリング/抽出された複数の固定長の基準メル周波数スペクトログラムフレーム211を発話埋め込み204に符号化するように構成される。デコーダ部分400aは、発話埋め込みを複数の固定長の予測メル周波数スペクトログラムフレーム280M0にどのように復号するかを学習するように構成される。VAEベースのTTSモデル222aは、デコーダ部分400aから出力される予測メル周波数スペクトログラムフレーム280の数がエンコーダ部分300aに入力される基準メル周波数スペクトログラムフレーム211の数に等しくなるようにトレーニングされ得る。さらに、VAEベースのTTSモデル222aは、基準フレームおよび予測メル周波数スペクトログラムフレーム211、280に関連する韻律情報が互いに実質的に一致するようにトレーニングされる。予測メル周波数スペクトログラムフレーム280は、中間合成音声表現202の韻律表現を暗示的に提供し得る。基準メル周波数スペクトログラムフレーム211は、中間合成音声表現202に加えて、またはその代わりに、第1のTTSシステム210から出力された中間出力オーディオ信号201からサンプリングされ得る。VAEベースの第2のTTSモデル222aのさらなる詳細は、参照によりその内容全体が組み込まれている、2020年5月5日に出願された米国特許出願第16/867,427号を参照しながら説明される。

図2Bは、第2のTTSシステム220における第2のTTSモデル222がシーケンス間特徴予測ネットワークベースの第2のTTSモデル222b(以下でS2Sベースの第2のTTSモデル222b)に対応する、韻律転写システム200、200bの概略図を提供する。示す例では、第1のTTSシステム210は、テキスト発話320、およびターゲット音声の話者特性(たとえば、話者埋め込みZ)を含み得る随意の他の入力325を入力として受信する。他の入力325は、追加または代替として、言語識別子、テキスト正規化、または対応する韻律領域の韻律バーティカル識別子のうちの1つまたは複数を含み得る。入力テキスト発話および随意の他の入力325を使用して、第1のTTSモデル212は、入力テキスト発話320に対する意図される韻律を有するメル周波数スペクトログラムのシーケンスを含み得る中間出力オーディオ信号201を生成する。第1のTTSシステム210は、中間出力オーディオ信号201を中間合成音声表現202に(たとえば、音声合成器150を使用して)合成し得る。上記に記載したように、中間合成音声表現202は、意図される韻律を正確にキャプチャするように構成され、低減されたオーディオ品質を含み、ターゲット音声を認識するための話者特性に欠くことが可能にされる。言い方を変えれば、中間合成音声表現202は、人間の視聴に適さず、むしろ、ターゲット音声の表現的音声を再生し、その中に組み込むために第2のTTSモデル222によって使用するために意図される韻律を伝える韻律情報のキャリアとして働く。

S2Sベースの第2のTTSモデル222bのエンコーダ部分300、300bは、中間合成音声表現202(または、中間出力オーディオ信号201)を意図される韻律を指定する発話埋め込み204に符号化するように構成される。エンコーダ部分300bに供給される中間合成音声表現202(または、中間出力オーディオ信号201)は、入力テキスト発話320に対する意図される韻律を暗示的に表し得る。いくつかの実装形態では、エンコーダ部分300bは、意図される韻律を潜在要因として発話埋め込み204に符号化する変分オートエンコーダに対応する。これらの実装形態では、発話埋め込み204は潜在埋め込みに対応し得る。これらの潜在要因は、概して、デコーダ部分400bに対する調整入力において表されず、それにより、調整入力は、入力テキスト発話320、およびターゲット音声の話者特性に関連する話者埋め込み116、入力テキスト発話320のネイティブ言語に関連する言語埋め込み、および意図される韻律を伝える特定の韻律バーティカル20(図1)を識別する韻律バーティカル識別子など、他の入力325を含んでよい。それに応じて、エンコーダ部分300bは、発話埋め込み204をデコーダ400bに手渡す。

次に図2Bおよび図4Bを参照すると、S2Sベースの第2のTTSモデル222bのデコーダ部分400aは、プレネット(pre-net)410と、長短期間メモリ(LSTM)サブネットワーク420と、線形投影430と、畳み込みポストネット(post-net)440とを有するアーキテクチャを含み得る。前の時間ステップに対するメル周波数スペクトログラム予測が通過するプレネット410は、隠れReLUの2つの完全結合層を含み得る。プレネット410は、トレーニング中に、収束測度を高め、音声合成システムの汎化能力を改善することに対するアテンション(attention)を学習するための情報ボトルネックとして働く。推論時に出力変動を導入するために、0.5の確率を備えたドロップアウトがプレネット内の層に適用され得る。

LSTMサブネットワーク420は、2つ以上のLSTM層を含み得る。各時間ステップにおいて、LSTMサブネットワーク420は、プレネット410の出力、発話埋め込み204、および時間ステップに対するテキスト発話320の部分の連結を受信する。LSTM層は、たとえば、0.1の確率でゾーンアウト(zoneout)を使用して正規化され得る。線形投影430は、LSTMサブネットワーク420の出力を入力として受信し、メル周波数スペクトログラム118Pの予測を作成する。

1つまたは複数の畳み込み層を備えた畳み込みポストネット440は、加算器244において予測メル周波数スペクトログラム118Pに加算するための残差242を予測するために時間ステップに対して予測メル周波数スペクトログラム118Pを処理する。これは、再構成全体を改善する。最終的な畳み込み層以外の各畳み込み層の後に、バッチ正規化および双曲正接(TanH)活性化が続いてよい。畳み込み層は、たとえば、0.5の確率を備えたドロップアウトを使用して正規化される。残差242は、線形投影430によって生成される予測メル周波数スペクトログラム118Pに加算され、和(すなわち、メル周波数スペクトログラム118)が音声合成器150に提供され得る。いくつかの実装形態では、デコーダ部分400bが各時間ステップに対するメル周波数スペクトログラム118を予測するのと並行して、LSTMサブネットワーク420の出力、発話埋め込み204、およびテキスト発話320の部分(たとえば、テキストエンコーダ(図示せず)によって生成される特性埋め込み)の連結がスカラーに投影され、シグモイド活性化を通過して、メル周波数スペクトログラム118の出力シーケンスが完了した確率を予測する。出力シーケンスメル周波数スペクトログラム118は、入力テキスト発話320に対する表現的音声の出力オーディオ信号280に対応し、意図される韻律およびターゲット音声に関連する話者特性を含む。

この「停止トークン」予測は、モデル222bが、常に固定持続時間にわたって生成する代わりに、生成をいつ終了するかを動的に決定することを可能にするために推論中に使用される。停止トークンが、生成が終了されたことを示すとき、すなわち、停止トークン確率がしきい値を超えたとき、デコーダ部分400bは、メル周波数スペクトログラム118Pの予測を停止し、表現的音声の出力オーディオ信号280として、その時点までに予測されたメル周波数スペクトログラムを戻す。あるいは、デコーダ部分400bは、同じ長さ(たとえば、10秒)のメル周波数スペクトログラム118を常に生成してもよい。いくつかの実装形態では、音声合成器は、Griffin-Lim合成器である。いくつかの他の実装形態では、音声合成器はボコーダ155を含む。たとえば、音声合成器150は、WaveRNNボコーダ155を含み得る。ここで、WaveRNNボコーダ155は、TTSモデル222bによって予測されるスペクトログラム118に対して調整された、24kHzにおいてサンプリングされた16ビットの信号を生成し得る。いくつかの他の実装形態では、波形合成器は、トレーニング可能スペクトログラム-波形インバータである。波形合成器150が波形を生成した後、オーディオ出力システムは、波形を使用して音声152を生成し、生成された音声152を、たとえば、ユーザデバイス上での再生用に与えるか、または生成された波形を、別のシステムが音声152を生成し、再生することができるようにするために、別のシステムに与えればよい。いくつかの例では、WaveNetニューラルボコーダ155が波形合成器150と置き換わる。WaveNetニューラルボコーダは、波形合成器150によって作成された合成音声と比較して、合成音声の異なるオーディオ忠実度を与え得る。したがって、いくつかの例では、第1のTTSシステム210は、畳み込み波形合成器150を採用して、低減された品質の中間音声ではあるが、意図される韻律を正確に有する、中間合成音声表現202を生成し得る一方、第2のTTSシステム220は、意図される韻律を中間合成音声表現202からWaveNetニューラルボコーダ155によって作成されたターゲット音声の合成音声に転写し得る。

いくつかの実装形態では、デコーダ部分400bは、入力テキスト発話320と、ターゲット音声に関連する話者特性を提供する話者埋め込みZなどの追加の入力とに基づいて、出力ログメルスペクトログラムフレーム、たとえば、出力メルスペクトログラム118のシーケンスを生成するように構成されたアテンションベースのシーケンス間モデルを含む。たとえば、デコーダ部分400bは、Tacotron2モデル(たとえば、参照により本明細書に組み込まれる、https://arxiv.org/abs/1712.05884における、J. Shenらによる、「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」参照)に基づいてよい。したがって、S2Sベースの第2のTTSモデル222bは、中間合成音声表現202内に有される意図される韻律を発話埋め込み204に転写し、意図される韻律を有する表現的音声の出力オーディオ信号280をターゲット音声で作成するために、発話埋め込み204および入力テキスト発話320を追加の入力325(たとえば、話者埋め込みZ)で処理するための、拡張されたTTSモデルを提供する。話者埋め込みZ、言語識別子、韻律バーティカル識別子などの追加の入力325は、システム200がトレーニングされる任意の意図される韻律に対する異なる言語にわたって異なる音声の転写を許可するのに役立つ。

図5は、入力テキスト発話を意図される韻律を有する表現的音声にターゲット音声で合成する方法500のための動作の例示的な配列のフローチャートである。データ処理ハードウェア122(図1)は、メモリハードウェア124上に記憶された命令を実行することによって方法500のための動作を実行し得る。動作502において、方法500は、意図される韻律およびターゲット音声を有する表現的音声152に合成されることになる入力テキスト発話320を受信するステップを含む。動作504において、方法500は、第1のテキスト音声(TTS)モデル212を使用して、入力テキスト発話320に対する中間合成音声表現202を生成するステップを含む。ここで、中間合成音声表現202は意図される韻律を有する。中間合成音声表現202は、意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み得る。さらに、中間合成音声表現202は、ターゲット音声の話者特性に欠け、望ましくない音響アーティファクトを含む中間音声を含むことがある。したがって、中間合成音声表現202は、表現力を提供するが、了解度および自然さに欠けることがある。

動作506において、方法500は、エンコーダ部分300とデコーダ部分400とを含む第2のTTSモデル222に中間合成音声表現を提供するステップを含む。エンコーダ部分300は、中間合成音声表現202を意図される韻律を指定する発話埋め込み204に符号化するように構成される。デコーダ部分400は、入力テキスト発話320および発話埋め込み204を処理して、表現的音声152の出力オーディオ信号280を生成するように構成される。ここで、出力オーディオ信号は、発話埋め込み204によって指定された意図される韻律およびターゲット音声の話者特性を有する。

いくつかの例では、方法500はまた、ターゲット音声の話者特性を表す、話者埋め込みZの追加の入力325を取得するステップを含む。これらの例では、デコーダ部分400は、入力テキスト発話320、発話埋め込み204、および話者埋め込みZを処理して、表現的音声の出力オーディオ信号を生成するように構成される。第1のTTSモデル212および第2のTTSモデル222は各々、同じまたは異なるタイプのニューラルネットワークアーキテクチャを含んでよい。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含むが、それに限定されない。

非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するのに使用される物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

図6は、本文書に記載するシステムおよび方法を実装するのに使用され得る例示的コンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを目的としており、本文書で説明および/または請求する本発明の実装形態を限定することは目的としていない。

コンピューティングデバイス600は、プロセッサ610と、メモリ620と、記憶デバイス630と、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640と、低速バス670および記憶デバイス630に接続する低速インターフェース/コントローラ660とを含む。構成要素610、620、630、640、650、および660の各々は、様々なバスを使って相互接続され、共通マザーボード上に、または必要に応じて他の方式で搭載されてよい。プロセッサ610は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上に表示するための、メモリ620中または記憶デバイス630上に記憶された命令を含む、コンピューティングデバイス600内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使用されてよい。また、複数のコンピューティングデバイス600が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ620は、コンピューティングデバイス600内に情報を非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ620は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス600による使用のために、一時的または永続的に記憶するのに使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

記憶デバイス630は、コンピューティングデバイス600に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス630は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上述したような1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ640は、コンピューティングデバイス600向けの帯域消費型動作を管理し、低速コントローラ660は、より帯域低消費型の動作を管理する。役割のそのような割振りは、例示にすぎない。いくつかの実装形態において、高速コントローラ640は、メモリ620、ディスプレイ680に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート650に結合される。いくつかの実装形態において、低速コントローラ660は、記憶デバイス630および低速拡張ポート690に結合される。低速拡張ポート690は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。

コンピューティングデバイス600は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、標準サーバ600aとして、またはラップトップコンピュータ600bなどのサーバ600aのグループで、またはラックサーバシステム600cの一部として何度も実装されてよい。

本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含むことができ、プログラム可能プロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、ならびにそれらにデータおよび命令を送信するように結合された、特殊または一般的目的であってもよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラム可能プロセッサに、機械命令および/またはデータを提供するのに使われる、どのコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))も指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。

本明細書で説明するプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実行することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)やASIC(特定用途向け集積回路)によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および特殊目的マイクロプロセッサの両方、ならびにどの種類のデジタルコンピュータのどの1つまたは複数のプロセッサも含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転写し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路要素によって補完することも、その中に組み込むこともできる。

ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、随意には、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するのに使用されることが可能であり、たとえば、ユーザに与えられるフィードバックは、どの形の感覚フィードバックでも、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、どの形でも受信されることが可能である。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態が説明されてきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行うことができることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。

10 トレーニングデータ
20 韻律バーティカル
20A～N 韻律バーティカル
20A 韻律バーティカル、ニュース読み上げ韻律バーティカル
20B 韻律バーティカル、スポーツコメンテータ、スポーツコメンテータ韻律バーティカル
20N 韻律バーティカル、教育講師韻律バーティカル
100 システム
104 トレーニングオーディオ信号、発話、グラウンドトゥルース発話
106 トランスクリプト
116 話者埋め込み
118 メル周波数スペクトログラム
118P メル周波数スペクトログラム
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
150 音声合成器、合成器、波形合成器、畳み込み波形合成器
152 表現的音声、合成音声、音声
155 ボコーダ、ボコーダネットワーク、WaveRNNボコーダ、WaveNetニューラルボコーダ
180 データ記憶装置
200 2段階韻律転写システム、2レベル韻律転写システム、韻律転写システム、システム
200A～N 韻律転写システム
200a 韻律転写システム
200b 韻律転写システム
201 中間出力信号、中間出力オーディオ信号、メル周波数スペクトログラム
202 中間合成音声表現
202T 基準オーディオ信号、トレーニング合成音声表現、合成音声表現、トレーニング中間合成音声表現、基準オーディオ信号
204 固定長発話埋め込み、発話埋め込み
206 トランスクリプト
210 第1のTTSシステム
211 固定長の基準フレーム、基準フレーム、固定長の基準メル周波数スペクトログラムフレーム、基準メル周波数スペクトログラムフレーム、
212 第1のテキスト音声(TTS)モデル
214 抽出器
220 第2のTTSシステム
222 第2のTTSモデル
222a 第2のTTSモデル、VAEベースの第2のTTSモデル、CHiVEベースの第2のTTSモデル、モデル、クロックワーク階層変分オートエンコーダ、オートエンコーダ、VAEベースのTTSモデル
222b シーケンス間特徴予測ネットワークベースの第2のTTSモデル、S2Sベースの第2のTTSモデル、モデル、TTSモデル
242 残差
244 加算器
270 BERTモデル
272 語単位
280 出力オーディオ信号、予測出力オーディオ信号、オーディオ信号、予測出力フレーム、固定長の予測フレーム、フレーム、固定長フレーム、予測固定長フレーム、予測フレーム、予測メル周波数スペクトログラムフレーム
280M0 固定長の予測メル周波数スペクトログラムフレーム
300 エンコーダ部分
300a エンコーダ部分、エンコーダ
302 韻律表現
320 テキスト発話、入力テキスト発話、入力テキスト
321 音素
321Aa1～Aa2 音素
321Aa1～321Cb2 音素
321Ba1～Ba3 音素
321a 音素
321b 音素
322 音素レベルの言語特徴、言語特徴、符号化ブロック、ブロック
322Aa1～Cb2 音素レベルの言語特徴、符号化ブロック
322Aa 符号化ブロック、第1のブロック
322Ab 符号化ブロック、第2のブロック
322Ba 符号化ブロック、第3のブロック
322Ca 符号化ブロック、第4のブロック
322Cb 符号化ブロック、第5のブロック
324 語埋め込み
325 入力
330 音節、音節レベル、第1の音節、第2の音節
330A 音節
330Aa 音節、第1の音節
330Ab 音節、第2の音節
330a 音節
330B 音節
330Ba 音節、第1の音節
330b 音節
330Ca 音節、第1の音節
330Cb 音節、第2の音節
332 フレームベースの音節埋め込み、音節埋め込み
332Aa～Cb フレームベースの音節埋め込み
334 音素特徴ベースの音節埋め込み、音節埋め込み
334Aa～Cb 音素特徴ベースの音節埋め込み
335 固定長の音節埋め込み
336 音節レベルの言語特徴、言語特徴
336Ac～Cb 音節レベルの言語特徴
340 語、第1の語、第2の語、第3の語、語レベル
340A 語
340a 語、第1の語、
340B 第2の語、語
340b 語
340C 第3の語、語
342 語埋め込み、WP埋め込み、言語特徴、語レベルの言語特徴
342A～C WP埋め込み
350 文
350a 文
350A 文
352 言語特徴、文レベルの言語特徴
352A 文レベルの言語特徴
400 デコーダ部分
400a デコーダ部分
400b デコーダ、デコーダ部分
410 プレネット
420 超短期間メモリ(LSTM)サブネットワーク
430 線形投影
440 畳み込みポストネット
500 方法
502 メル周波数スペクトログラム
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ、構成要素
620 メモリ、構成要素、非一時的メモリ
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート

Claims

コンピュータによって実行される方法であって、
データ処理ハードウェアにおいて、意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信するステップと、
前記データ処理ハードウェアによって、第1のテキスト音声(TTS)モデルを使用して、前記入力テキスト発話に対する中間合成音声表現を生成するステップであって、前記中間合成音声表現が前記意図される韻律を有する、生成するステップと、
前記データ処理ハードウェアによって、前記中間合成音声表現を第2のTTSモデルに提供するステップであって、前記第2のTTSモデルが、
前記中間合成音声表現を前記意図される韻律を指定する発話埋め込みに符号化するように構成されたエンコーダ部分と、
前記入力テキスト発話および前記発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成するように構成されたデコーダ部分と
を含み、前記出力オーディオ信号が、前記発話埋め込みによって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、提供するステップと
を含む、方法。
前記データ処理ハードウェアによって、前記中間合成音声表現が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを前記中間合成音声表現からサンプリングするステップ
をさらに含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供するステップが、前記中間合成音声表現からサンプリングされた固定長の基準フレームの前記シーケンスを前記エンコーダ部分に提供するステップであって、前記エンコーダ部分が、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、提供するステップを含む、
請求項1に記載の方法。
前記中間合成音声表現が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、メル周波数スペクトログラム輪郭のうちの1つまたは複数を含む、請求項2に記載の方法。
前記エンコーダ部分が、前記中間合成音声表現内の各音節に対して、
前記音節内の各音素に関連する音素レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、
前記音節に関連する前記固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、前記フレームベースの音節埋め込みが、対応する前記音節に関連する持続時間、ピッチ、エネルギーのうちの1つまたは複数を示す、符号化することと、
前記音節に関連する音節レベルの言語特徴と、前記中間合成音声表現に関連する文レベルの言語特徴と、前記対応する前記音節を含む語に関連する語レベルの言語特徴とを備えた前記音素特徴ベースおよび前記フレームベースの音節埋め込みを前記音節に対する対応する韻律音節埋め込みに符号化することと
によって、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項2に記載の方法。
前記語レベルの言語特徴が、前記入力テキスト発話から、BERT(Bidirectional Encoder Representations from Transformers: トランスフォーマーによる双方向エンコーダ表現)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項4に記載の方法。
前記デコーダ部分が、前記入力テキスト発話を使用して、前記対応する発話埋め込みを前記入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、前記入力テキスト発話および前記発話埋め込みを処理して、前記出力オーディオ信号を生成するように構成され、前記韻律表現が、前記発話埋め込みによって指定された前記意図される韻律を表す、請求項2に記載の方法。
前記第2のTTSモデルが、前記デコーダ部分によって復号される前記固定長の予測フレームの数が前記中間合成音声表現からサンプリングされる前記固定長の基準フレームの数と等しくなるようにトレーニングされる、請求項6に記載の方法。
前記発話埋め込みが固定長の数値ベクトルを含む、請求項1に記載の方法。
前記中間合成音声表現が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供するステップが、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記エンコーダ部分に提供するステップを含み、前記エンコーダ部分が、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項1に記載の方法。
前記データ処理ハードウェアによって、前記ターゲット音声の前記話者特性を表す話者埋め込みを取得するステップと、
前記データ処理ハードウェアによって、前記話者埋め込みを前記第2のTTSモデルの前記デコーダ部分に提供するステップであって、前記デコーダ部分が、前記入力テキスト発話、前記発話埋め込み、および前記話者埋め込みを処理して、表現的音声の前記出力オーディオ信号を生成するように構成される、提供するステップと
をさらに含む、請求項1に記載の方法。
前記第1のTTSモデルを使用して生成された前記中間合成音声表現が、前記ターゲット音声の前記話者特性に欠け、1つまたは複数の望ましくない音響アーティファクトを含む中間音声を含む、請求項1に記載の方法。
前記データ処理ハードウェアにおいて、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信するステップであって、各トレーニングオーディオ信号が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプトが、前記対応するトレーニングオーディオ信号のテキスト表現を含む、受信するステップと、
前記トレーニングデータの各対応するトランスクリプトに対して、
前記データ処理ハードウェアによって、人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデルをトレーニングするステップと、
前記データ処理ハードウェアによって、前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされた前記意図される韻律を表す、対応する発話埋め込みに符号化することによって、前記第2のTTSモデルの前記エンコーダ部分をトレーニングするステップと、
前記データ処理ハードウェアによって、前記トレーニングデータの前記対応するトランスクリプトを使用して、前記エンコーダ部分によって符号化された前記対応する発話埋め込みを前記意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、前記第2のTTSモデルの前記デコーダ部分をトレーニングするステップと、
前記予測出力オーディオ信号と前記対応する基準オーディオ信号との間の勾配/損失を生成するステップと、
前記第2のTTSモデルを通して前記勾配/損失を逆伝搬するステップと
をさらに含む、請求項1に記載の方法。
前記第1のTTSモデルおよび前記第2のTTSモデルが別個にトレーニングされる、請求項1に記載の方法。
前記第1のTTSモデルが、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデルが、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項1に記載の方法。
前記第1のTTSモデルおよび前記第2のTTSモデルが同じニューラルネットワークアーキテクチャを含む、請求項1に記載の方法。
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと
を含み、前記メモリハードウェアが、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実行させる命令を記憶し、前記動作が、
意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信することと、
第1のテキスト音声(TTS)モデルを使用して、前記入力テキスト発話に対する中間合成音声表現を生成することであって、前記中間合成音声表現が前記意図される韻律を有する、生成することと、
前記中間合成音声表現を第2のTTSモデルに提供することと
を含み、前記第2のTTSモデルが、
前記中間合成音声表現を前記意図される韻律を指定する発話埋め込みに符号化するように構成されたエンコーダ部分と、
前記入力テキスト発話および前記発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成することであって、前記出力オーディオ信号が、前記発話埋め込みによって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、生成することを行うように構成されたデコーダ部分と
を含む、システム。
前記動作が、
前記中間合成音声表現が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを前記中間合成音声表現からサンプリングすること
をさらに含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供することが、前記中間合成音声表現からサンプリングされた固定長の基準フレームの前記シーケンスを前記エンコーダ部分に提供することであって、前記エンコーダ部分が、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、提供することを含む、
請求項16に記載のシステム。
前記中間合成音声表現が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、メル周波数スペクトログラム輪郭のうちの1つまたは複数を含む、請求項17に記載のシステム。
前記エンコーダ部分が、前記中間合成音声表現内の各音節に対して、
前記音節内の各音素に関連する音素レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、
前記音節に関連する前記固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、前記フレームベースの音節埋め込みが、対応する前記音節に関連する持続時間、ピッチ、エネルギーのうちの1つまたは複数を示す、符号化することと、
前記音節に関連する音節レベルの言語特徴、前記中間合成音声表現に関連する文レベルの言語特徴、および前記対応する前記音節を含む語に関連する語レベルの言語特徴を備えた前記音素特徴ベースおよび前記フレームベースの音節埋め込みを前記音節に対する対応する韻律音節埋め込みに符号化することと
によって、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項17に記載のシステム。
前記語レベルの言語特徴が、前記入力テキスト発話から、BERT(Bidirectional Encoder Representations from Transformers: トランスフォーマーによる双方向エンコーダ表現)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項19に記載のシステム。
前記デコーダ部分が、前記入力テキスト発話を使用して、前記対応する発話埋め込みを前記入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、前記入力テキスト発話および前記発話埋め込みを処理して、前記出力オーディオ信号を生成するように構成され、前記韻律表現が、前記発話埋め込みによって指定された前記意図される韻律を表す、請求項19に記載のシステム。
前記第2のTTSモデルが、前記デコーダ部分によって復号される前記固定長の予測フレームの数が前記中間合成音声表現からサンプリングされる前記固定長の基準フレームの数と等しくなるようにトレーニングされる、請求項21に記載のシステム。
前記発話埋め込みが固定長の数値ベクトルを含む、請求項16に記載のシステム。
前記中間合成音声表現が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供することが、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記エンコーダ部分に提供することを含み、前記エンコーダ部分が、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記発話埋め込みに符号化するように構成される
請求項16に記載のシステム。
前記動作が、
前記ターゲット音声の前記話者特性を表す話者埋め込みを取得することと、
前記話者埋め込みを前記第2のTTSモデルの前記デコーダ部分に提供することであって、前記デコーダ部分が、前記入力テキスト発話、前記発話埋め込み、および前記話者埋め込みを処理して、表現的音声の前記出力オーディオ信号を生成するように構成される、提供することと
をさらに含む、請求項16に記載のシステム。
前記第1のTTSモデルを使用して生成された前記中間合成音声表現が、前記ターゲット音声の前記話者特性に欠け、1つまたは複数の望ましくない音響アーティファクトを含む中間音声を含む、請求項16に記載のシステム。
前記動作が、
複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信することであって、各トレーニングオーディオ信号が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプトが、前記対応するトレーニングオーディオ信号のテキスト表現を含む、受信することと、
前記トレーニングデータの各対応するトランスクリプトに対して、
人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデルをトレーニングすることと、
前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされる前記意図される韻律を表す、対応する発話埋め込みに符号化することによって、前記第2のTTSモデルの前記エンコーダ部分をトレーニングすることと、
前記トレーニングデータの前記対応するトランスクリプトを使用して、前記エンコーダ部分によって符号化された前記対応する発話埋め込みを前記意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、前記第2のTTSモデルの前記デコーダ部分をトレーニングすることと、
前記予測出力オーディオ信号と前記対応する基準オーディオ信号との間の勾配/損失を生成することと、
前記第2のTTSモデルを通して前記勾配/損失を逆伝搬することと
をさらに含む、請求項16に記載のシステム。
前記第1のTTSモデルおよび前記第2のTTSモデルが別個にトレーニングされる、請求項16に記載のシステム。
前記第1のTTSモデルが、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデルが、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項16に記載のシステム。
前記第1のTTSモデルおよび前記第2のTTSモデルが同じニューラルネットワークアーキテクチャを含む、請求項16に記載のシステム。