JP7395792B2 - 2レベル音声韻律転写 - Google Patents
2レベル音声韻律転写 Download PDFInfo
- Publication number
- JP7395792B2 JP7395792B2 JP2023509803A JP2023509803A JP7395792B2 JP 7395792 B2 JP7395792 B2 JP 7395792B2 JP 2023509803 A JP2023509803 A JP 2023509803A JP 2023509803 A JP2023509803 A JP 2023509803A JP 7395792 B2 JP7395792 B2 JP 7395792B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- representation
- embedding
- syllable
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title description 33
- 230000035897 transcription Effects 0.000 title description 33
- 238000012549 training Methods 0.000 claims description 98
- 230000005236 sound signal Effects 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 68
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 230000001537 neural effect Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
20 韻律バーティカル
20A~N 韻律バーティカル
20A 韻律バーティカル、ニュース読み上げ韻律バーティカル
20B 韻律バーティカル、スポーツコメンテータ、スポーツコメンテータ韻律バーティカル
20N 韻律バーティカル、教育講師韻律バーティカル
100 システム
104 トレーニングオーディオ信号、発話、グラウンドトゥルース発話
106 トランスクリプト
116 話者埋め込み
118 メル周波数スペクトログラム
118P メル周波数スペクトログラム
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
150 音声合成器、合成器、波形合成器、畳み込み波形合成器
152 表現的音声、合成音声、音声
155 ボコーダ、ボコーダネットワーク、WaveRNNボコーダ、WaveNetニューラルボコーダ
180 データ記憶装置
200 2段階韻律転写システム、2レベル韻律転写システム、韻律転写システム、システム
200A~N 韻律転写システム
200a 韻律転写システム
200b 韻律転写システム
201 中間出力信号、中間出力オーディオ信号、メル周波数スペクトログラム
202 中間合成音声表現
202T 基準オーディオ信号、トレーニング合成音声表現、合成音声表現、トレーニング中間合成音声表現、基準オーディオ信号
204 固定長発話埋め込み、発話埋め込み
206 トランスクリプト
210 第1のTTSシステム
211 固定長の基準フレーム、基準フレーム、固定長の基準メル周波数スペクトログラムフレーム、基準メル周波数スペクトログラムフレーム、
212 第1のテキスト音声(TTS)モデル
214 抽出器
220 第2のTTSシステム
222 第2のTTSモデル
222a 第2のTTSモデル、VAEベースの第2のTTSモデル、CHiVEベースの第2のTTSモデル、モデル、クロックワーク階層変分オートエンコーダ、オートエンコーダ、VAEベースのTTSモデル
222b シーケンス間特徴予測ネットワークベースの第2のTTSモデル、S2Sベースの第2のTTSモデル、モデル、TTSモデル
242 残差
244 加算器
270 BERTモデル
272 語単位
280 出力オーディオ信号、予測出力オーディオ信号、オーディオ信号、予測出力フレーム、固定長の予測フレーム、フレーム、固定長フレーム、予測固定長フレーム、予測フレーム、予測メル周波数スペクトログラムフレーム
280M0 固定長の予測メル周波数スペクトログラムフレーム
300 エンコーダ部分
300a エンコーダ部分、エンコーダ
302 韻律表現
320 テキスト発話、入力テキスト発話、入力テキスト
321 音素
321Aa1~Aa2 音素
321Aa1~321Cb2 音素
321Ba1~Ba3 音素
321a 音素
321b 音素
322 音素レベルの言語特徴、言語特徴、符号化ブロック、ブロック
322Aa1~Cb2 音素レベルの言語特徴、符号化ブロック
322Aa 符号化ブロック、第1のブロック
322Ab 符号化ブロック、第2のブロック
322Ba 符号化ブロック、第3のブロック
322Ca 符号化ブロック、第4のブロック
322Cb 符号化ブロック、第5のブロック
324 語埋め込み
325 入力
330 音節、音節レベル、第1の音節、第2の音節
330A 音節
330Aa 音節、第1の音節
330Ab 音節、第2の音節
330a 音節
330B 音節
330Ba 音節、第1の音節
330b 音節
330Ca 音節、第1の音節
330Cb 音節、第2の音節
332 フレームベースの音節埋め込み、音節埋め込み
332Aa~Cb フレームベースの音節埋め込み
334 音素特徴ベースの音節埋め込み、音節埋め込み
334Aa~Cb 音素特徴ベースの音節埋め込み
335 固定長の音節埋め込み
336 音節レベルの言語特徴、言語特徴
336Ac~Cb 音節レベルの言語特徴
340 語、第1の語、第2の語、第3の語、語レベル
340A 語
340a 語、第1の語、
340B 第2の語、語
340b 語
340C 第3の語、語
342 語埋め込み、WP埋め込み、言語特徴、語レベルの言語特徴
342A~C WP埋め込み
350 文
350a 文
350A 文
352 言語特徴、文レベルの言語特徴
352A 文レベルの言語特徴
400 デコーダ部分
400a デコーダ部分
400b デコーダ、デコーダ部分
410 プレネット
420 超短期間メモリ(LSTM)サブネットワーク
430 線形投影
440 畳み込みポストネット
500 方法
502 メル周波数スペクトログラム
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ、構成要素
620 メモリ、構成要素、非一時的メモリ
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (30)
- コンピュータによって実行される方法であって、
データ処理ハードウェアにおいて、意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信するステップと、
前記データ処理ハードウェアによって、第1のテキスト音声(TTS)モデルを使用して、前記入力テキスト発話に対する中間合成音声表現を生成するステップであって、前記中間合成音声表現が前記意図される韻律を有する、生成するステップと、
前記データ処理ハードウェアによって、前記中間合成音声表現を第2のTTSモデルに提供するステップであって、前記第2のTTSモデルが、
前記中間合成音声表現を前記意図される韻律を指定する発話埋め込みに符号化するように構成されたエンコーダ部分と、
前記入力テキスト発話および前記発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成するように構成されたデコーダ部分と
を含み、前記出力オーディオ信号が、前記発話埋め込みによって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、提供するステップと
を含む、方法。 - 前記データ処理ハードウェアによって、前記中間合成音声表現が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを前記中間合成音声表現からサンプリングするステップ
をさらに含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供するステップが、前記中間合成音声表現からサンプリングされた固定長の基準フレームの前記シーケンスを前記エンコーダ部分に提供するステップであって、前記エンコーダ部分が、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、提供するステップを含む、
請求項1に記載の方法。 - 前記中間合成音声表現が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、メル周波数スペクトログラム輪郭のうちの1つまたは複数を含む、請求項2に記載の方法。
- 前記エンコーダ部分が、前記中間合成音声表現内の各音節に対して、
前記音節内の各音素に関連する音素レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、
前記音節に関連する前記固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、前記フレームベースの音節埋め込みが、対応する前記音節に関連する持続時間、ピッチ、エネルギーのうちの1つまたは複数を示す、符号化することと、
前記音節に関連する音節レベルの言語特徴と、前記中間合成音声表現に関連する文レベルの言語特徴と、前記対応する前記音節を含む語に関連する語レベルの言語特徴とを備えた前記音素特徴ベースおよび前記フレームベースの音節埋め込みを前記音節に対する対応する韻律音節埋め込みに符号化することと
によって、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項2に記載の方法。 - 前記語レベルの言語特徴が、前記入力テキスト発話から、BERT(Bidirectional Encoder Representations from Transformers: トランスフォーマーによる双方向エンコーダ表現)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項4に記載の方法。
- 前記デコーダ部分が、前記入力テキスト発話を使用して、前記対応する発話埋め込みを前記入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、前記入力テキスト発話および前記発話埋め込みを処理して、前記出力オーディオ信号を生成するように構成され、前記韻律表現が、前記発話埋め込みによって指定された前記意図される韻律を表す、請求項2に記載の方法。
- 前記第2のTTSモデルが、前記デコーダ部分によって復号される前記固定長の予測フレームの数が前記中間合成音声表現からサンプリングされる前記固定長の基準フレームの数と等しくなるようにトレーニングされる、請求項6に記載の方法。
- 前記発話埋め込みが固定長の数値ベクトルを含む、請求項1に記載の方法。
- 前記中間合成音声表現が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供するステップが、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記エンコーダ部分に提供するステップを含み、前記エンコーダ部分が、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項1に記載の方法。 - 前記データ処理ハードウェアによって、前記ターゲット音声の前記話者特性を表す話者埋め込みを取得するステップと、
前記データ処理ハードウェアによって、前記話者埋め込みを前記第2のTTSモデルの前記デコーダ部分に提供するステップであって、前記デコーダ部分が、前記入力テキスト発話、前記発話埋め込み、および前記話者埋め込みを処理して、表現的音声の前記出力オーディオ信号を生成するように構成される、提供するステップと
をさらに含む、請求項1に記載の方法。 - 前記第1のTTSモデルを使用して生成された前記中間合成音声表現が、前記ターゲット音声の前記話者特性に欠け、1つまたは複数の望ましくない音響アーティファクトを含む中間音声を含む、請求項1に記載の方法。
- 前記データ処理ハードウェアにおいて、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信するステップであって、各トレーニングオーディオ信号が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプトが、前記対応するトレーニングオーディオ信号のテキスト表現を含む、受信するステップと、
前記トレーニングデータの各対応するトランスクリプトに対して、
前記データ処理ハードウェアによって、人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデルをトレーニングするステップと、
前記データ処理ハードウェアによって、前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされた前記意図される韻律を表す、対応する発話埋め込みに符号化することによって、前記第2のTTSモデルの前記エンコーダ部分をトレーニングするステップと、
前記データ処理ハードウェアによって、前記トレーニングデータの前記対応するトランスクリプトを使用して、前記エンコーダ部分によって符号化された前記対応する発話埋め込みを前記意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、前記第2のTTSモデルの前記デコーダ部分をトレーニングするステップと、
前記予測出力オーディオ信号と前記対応する基準オーディオ信号との間の勾配/損失を生成するステップと、
前記第2のTTSモデルを通して前記勾配/損失を逆伝搬するステップと
をさらに含む、請求項1に記載の方法。 - 前記第1のTTSモデルおよび前記第2のTTSモデルが別個にトレーニングされる、請求項1に記載の方法。
- 前記第1のTTSモデルが、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデルが、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項1に記載の方法。
- 前記第1のTTSモデルおよび前記第2のTTSモデルが同じニューラルネットワークアーキテクチャを含む、請求項1に記載の方法。
- システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと
を含み、前記メモリハードウェアが、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実行させる命令を記憶し、前記動作が、
意図される韻律およびターゲット音声を有する表現的音声に合成されることになる入力テキスト発話を受信することと、
第1のテキスト音声(TTS)モデルを使用して、前記入力テキスト発話に対する中間合成音声表現を生成することであって、前記中間合成音声表現が前記意図される韻律を有する、生成することと、
前記中間合成音声表現を第2のTTSモデルに提供することと
を含み、前記第2のTTSモデルが、
前記中間合成音声表現を前記意図される韻律を指定する発話埋め込みに符号化するように構成されたエンコーダ部分と、
前記入力テキスト発話および前記発話埋め込みを処理して、表現的音声の出力オーディオ信号を生成することであって、前記出力オーディオ信号が、前記発話埋め込みによって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、生成することを行うように構成されたデコーダ部分と
を含む、システム。 - 前記動作が、
前記中間合成音声表現が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレームのシーケンスを前記中間合成音声表現からサンプリングすること
をさらに含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供することが、前記中間合成音声表現からサンプリングされた固定長の基準フレームの前記シーケンスを前記エンコーダ部分に提供することであって、前記エンコーダ部分が、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、提供することを含む、
請求項16に記載のシステム。 - 前記中間合成音声表現が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、メル周波数スペクトログラム輪郭のうちの1つまたは複数を含む、請求項17に記載のシステム。
- 前記エンコーダ部分が、前記中間合成音声表現内の各音節に対して、
前記音節内の各音素に関連する音素レベルの言語特徴を音素特徴ベースの音節埋め込みに符号化することと、
前記音節に関連する前記固定長の基準フレームをフレームベースの音節埋め込みに符号化することであって、前記フレームベースの音節埋め込みが、対応する前記音節に関連する持続時間、ピッチ、エネルギーのうちの1つまたは複数を示す、符号化することと、
前記音節に関連する音節レベルの言語特徴、前記中間合成音声表現に関連する文レベルの言語特徴、および前記対応する前記音節を含む語に関連する語レベルの言語特徴を備えた前記音素特徴ベースおよび前記フレームベースの音節埋め込みを前記音節に対する対応する韻律音節埋め込みに符号化することと
によって、固定長の基準フレームの前記シーケンスを前記発話埋め込みに符号化するように構成される、
請求項17に記載のシステム。 - 前記語レベルの言語特徴が、前記入力テキスト発話から、BERT(Bidirectional Encoder Representations from Transformers: トランスフォーマーによる双方向エンコーダ表現)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項19に記載のシステム。
- 前記デコーダ部分が、前記入力テキスト発話を使用して、前記対応する発話埋め込みを前記入力テキスト発話の韻律表現を提供する固定長の予測フレームのシーケンスに復号することによって、前記入力テキスト発話および前記発話埋め込みを処理して、前記出力オーディオ信号を生成するように構成され、前記韻律表現が、前記発話埋め込みによって指定された前記意図される韻律を表す、請求項19に記載のシステム。
- 前記第2のTTSモデルが、前記デコーダ部分によって復号される前記固定長の予測フレームの数が前記中間合成音声表現からサンプリングされる前記固定長の基準フレームの数と等しくなるようにトレーニングされる、請求項21に記載のシステム。
- 前記発話埋め込みが固定長の数値ベクトルを含む、請求項16に記載のシステム。
- 前記中間合成音声表現が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラムのシーケンスを含み、
前記中間合成音声表現を前記第2のTTSモデルに前記提供することが、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記エンコーダ部分に提供することを含み、前記エンコーダ部分が、前記オーディオ波形またはメル周波数スペクトログラムの前記シーケンスを前記発話埋め込みに符号化するように構成される
請求項16に記載のシステム。 - 前記動作が、
前記ターゲット音声の前記話者特性を表す話者埋め込みを取得することと、
前記話者埋め込みを前記第2のTTSモデルの前記デコーダ部分に提供することであって、前記デコーダ部分が、前記入力テキスト発話、前記発話埋め込み、および前記話者埋め込みを処理して、表現的音声の前記出力オーディオ信号を生成するように構成される、提供することと
をさらに含む、請求項16に記載のシステム。 - 前記第1のTTSモデルを使用して生成された前記中間合成音声表現が、前記ターゲット音声の前記話者特性に欠け、1つまたは複数の望ましくない音響アーティファクトを含む中間音声を含む、請求項16に記載のシステム。
- 前記動作が、
複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを受信することであって、各トレーニングオーディオ信号が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプトが、前記対応するトレーニングオーディオ信号のテキスト表現を含む、受信することと、
前記トレーニングデータの各対応するトランスクリプトに対して、
人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデルをトレーニングすることと、
前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされる前記意図される韻律を表す、対応する発話埋め込みに符号化することによって、前記第2のTTSモデルの前記エンコーダ部分をトレーニングすることと、
前記トレーニングデータの前記対応するトランスクリプトを使用して、前記エンコーダ部分によって符号化された前記対応する発話埋め込みを前記意図される韻律を有する表現的音声の予測出力オーディオ信号に復号することによって、前記第2のTTSモデルの前記デコーダ部分をトレーニングすることと、
前記予測出力オーディオ信号と前記対応する基準オーディオ信号との間の勾配/損失を生成することと、
前記第2のTTSモデルを通して前記勾配/損失を逆伝搬することと
をさらに含む、請求項16に記載のシステム。 - 前記第1のTTSモデルおよび前記第2のTTSモデルが別個にトレーニングされる、請求項16に記載のシステム。
- 前記第1のTTSモデルが、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデルが、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項16に記載のシステム。
- 前記第1のTTSモデルおよび前記第2のTTSモデルが同じニューラルネットワークアーキテクチャを含む、請求項16に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023200955A JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/992,410 | 2020-08-13 | ||
US16/992,410 US11514888B2 (en) | 2020-08-13 | 2020-08-13 | Two-level speech prosody transfer |
PCT/US2021/043334 WO2022035586A1 (en) | 2020-08-13 | 2021-07-27 | Two-level speech prosody transfer |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023200955A Division JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023535230A JP2023535230A (ja) | 2023-08-16 |
JP7395792B2 true JP7395792B2 (ja) | 2023-12-11 |
Family
ID=77398670
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023509803A Active JP7395792B2 (ja) | 2020-08-13 | 2021-07-27 | 2レベル音声韻律転写 |
JP2023200955A Pending JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023200955A Pending JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11514888B2 (ja) |
EP (1) | EP4172984A1 (ja) |
JP (2) | JP7395792B2 (ja) |
KR (2) | KR102677459B1 (ja) |
CN (1) | CN116034424A (ja) |
WO (1) | WO2022035586A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7181332B2 (ja) * | 2020-09-25 | 2022-11-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声変換方法、装置及び電子機器 |
US11790884B1 (en) * | 2020-10-28 | 2023-10-17 | Electronic Arts Inc. | Generating speech in the voice of a player of a video game |
EP4310835A1 (en) * | 2021-03-16 | 2024-01-24 | Samsung Electronics Co., Ltd. | Electronic device and personalized text-to-speech model generation method by electronic device |
KR20240053010A (ko) * | 2021-05-21 | 2024-04-23 | 구글 엘엘씨 | 상황별 텍스트 생성을 위해 중간 텍스트 분석을 생성하는 기계 학습 언어 모델 |
US11694674B1 (en) * | 2021-05-26 | 2023-07-04 | Amazon Technologies, Inc. | Multi-scale spectrogram text-to-speech |
US11996083B2 (en) * | 2021-06-03 | 2024-05-28 | International Business Machines Corporation | Global prosody style transfer without text transcriptions |
US11830476B1 (en) * | 2021-06-08 | 2023-11-28 | Amazon Technologies, Inc. | Learned condition text-to-speech synthesis |
EP4293660A4 (en) * | 2021-06-22 | 2024-07-17 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
US20230099732A1 (en) * | 2021-09-30 | 2023-03-30 | Microsoft Technology Licensing, Llc | Computing system for domain expressive text to speech |
CN114333762B (zh) * | 2022-03-08 | 2022-11-18 | 天津大学 | 基于表现力的语音合成方法、***、电子设备及存储介质 |
CN114708849A (zh) * | 2022-04-27 | 2022-07-05 | 网易(杭州)网络有限公司 | 语音处理方法、装置、计算机设备及计算机可读存储介质 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
CN114781377B (zh) * | 2022-06-20 | 2022-09-09 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN116092479B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于对比文本-音频对的文本韵律生成方法和*** |
CN117636842B (zh) * | 2024-01-23 | 2024-04-02 | 北京天翔睿翼科技有限公司 | 基于韵律情感迁移的语音合成***及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539257A (ja) | 2002-09-13 | 2005-12-22 | 松下電器産業株式会社 | 音声カスタマイズ方法 |
US20190348020A1 (en) | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork Hierarchical Variational Encoder |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
KR102199067B1 (ko) * | 2018-01-11 | 2021-01-06 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
US10699695B1 (en) | 2018-06-29 | 2020-06-30 | Amazon Washington, Inc. | Text-to-speech (TTS) processing |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
KR20200015418A (ko) * | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
KR20200080681A (ko) * | 2018-12-27 | 2020-07-07 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
US11380300B2 (en) * | 2019-10-11 | 2022-07-05 | Samsung Electronics Company, Ltd. | Automatically generating speech markup language tags for text |
KR20210089347A (ko) * | 2020-01-08 | 2021-07-16 | 엘지전자 주식회사 | 음성 인식 장치 및 음성데이터를 학습하는 방법 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
-
2020
- 2020-08-13 US US16/992,410 patent/US11514888B2/en active Active
-
2021
- 2021-07-27 KR KR1020237006493A patent/KR102677459B1/ko active IP Right Grant
- 2021-07-27 KR KR1020247019410A patent/KR20240096867A/ko unknown
- 2021-07-27 EP EP21756135.6A patent/EP4172984A1/en active Pending
- 2021-07-27 WO PCT/US2021/043334 patent/WO2022035586A1/en active Application Filing
- 2021-07-27 CN CN202180056199.8A patent/CN116034424A/zh active Pending
- 2021-07-27 JP JP2023509803A patent/JP7395792B2/ja active Active
-
2022
- 2022-11-11 US US18/054,604 patent/US20230064749A1/en active Pending
-
2023
- 2023-11-28 JP JP2023200955A patent/JP2024023421A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539257A (ja) | 2002-09-13 | 2005-12-22 | 松下電器産業株式会社 | 音声カスタマイズ方法 |
US20190348020A1 (en) | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork Hierarchical Variational Encoder |
Also Published As
Publication number | Publication date |
---|---|
KR20230034423A (ko) | 2023-03-09 |
KR102677459B1 (ko) | 2024-06-24 |
US20220051654A1 (en) | 2022-02-17 |
JP2024023421A (ja) | 2024-02-21 |
WO2022035586A1 (en) | 2022-02-17 |
EP4172984A1 (en) | 2023-05-03 |
US11514888B2 (en) | 2022-11-29 |
KR20240096867A (ko) | 2024-06-26 |
JP2023535230A (ja) | 2023-08-16 |
CN116034424A (zh) | 2023-04-28 |
US20230064749A1 (en) | 2023-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
US11664011B2 (en) | Clockwork hierarchal variational encoder | |
JP7376629B2 (ja) | クロックワーク階層化変分エンコーダ | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
KR20220004737A (ko) | 다국어 음성 합성 및 언어간 음성 복제 | |
WO2021225829A1 (en) | Speech recognition using unspoken text and speech synthesis | |
KR102646229B1 (ko) | 주의 기반 클록워크 계층적 변이형 인코더 | |
KR102594081B1 (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
Kim et al. | SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer | |
Sommavilla et al. | ASR and TTS for Voice Controlled Child-Robot Interactions for Treating Children with Metabolic Disorders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230410 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7395792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |