JP2021006897A - 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents

音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021006897A
JP2021006897A JP2020068909A JP2020068909A JP2021006897A JP 2021006897 A JP2021006897 A JP 2021006897A JP 2020068909 A JP2020068909 A JP 2020068909A JP 2020068909 A JP2020068909 A JP 2020068909A JP 2021006897 A JP2021006897 A JP 2021006897A
Authority
JP
Japan
Prior art keywords
phoneme
hidden state
level
training
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020068909A
Other languages
English (en)
Other versions
JP6983271B2 (ja
Inventor
ウェンフー ワン,
Wenfu Wang
ウェンフー ワン,
チェンシー スン,
Chenxi Sun
チェンシー スン,
タオ スン,
Tao Sun
タオ スン,
シー チェン,
Xi Chen
シー チェン,
グイビン ワン,
Guibin Wang
グイビン ワン,
ハイタオ シン,
Haitao Shin
ハイタオ シン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021006897A publication Critical patent/JP2021006897A/ja
Application granted granted Critical
Publication of JP6983271B2 publication Critical patent/JP6983271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声合成速度を向上させ、リアルタイムでの音声合成を実現することができるだけでなく、合成された音声の品質を確保できる音声合成方法を提供する。【解決手段】方法は、一つのテキストを複数のセグメントに分割するステップと、このテキストに基づいて複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップと、複数の初期隠れ状態及び複数のセグメントの入力特徴に基づいて、複数のセグメントを並行して合成するステップとを含む。リカレントニューラルネットワークを用いて複数のセグメントを並行して合成するプロセスにおいて、隠れ状態予測モデルによって各セグメントに初期隠れ状態を提供することにより、音声合成速度を向上させ、リアルタイムでの音声合成を実現し、セグメント間の隠れ状態の中断を緩和し、合成された音声の品質を確保する。【選択図】図2

Description

本開示の実施例は、全体的に、音声合成の技術分野に関し、より詳細には、リカレントニューラルネットワーク(RNN)を用いて音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体に関する。
音声合成とは、テキストを音声に変換する技術であり、テキスト・トゥ・スピーチ(Text−to−Speech、TTS)とも呼ばれる。通常、音声合成技術では、コンピュータによってテキスト情報を、音質が良く、自然で流暢な音声情報に変換する。音声合成は、インテリジェントな音声対話技術のコア技術の一つであり、音声認識技術とともにインテリジェントな音声対話の不可欠な部分を構成する。
従来の音声合成は、主に、ボコーダパラメータに基づく音声合成方法とユニット選択スプライシングに基づく音声合成方法とを含んでいる。一般的には、音声合成の品質(音質と自然な流暢さ)は、ユーザのリスニングエクスペリエンス及び関連製品のユーザエクスペリエンスに直接影響する。近年、ディープラーニング技術の発展及び音声合成分野での広範な応用に伴い、音声合成の音質及び自然な流暢さが大幅に向上した。また、インテリジェントハードウェアの急速な普及に伴い、音声合成を使用して情報を取得するシーンもますます豊富になってきている。現在、音声合成は、音声放送、地図ナビゲーション、スマートカスタマーサービス、スマートスピーカーなどの分野及び製品に広く応用されている。
本開示の例示的な実施例によれば、音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第1の態様では、一つのテキストを複数のセグメントに分割するステップと、一つのテキストに基づいて、複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップと、複数の初期隠れ状態及び複数のセグメントの入力特徴に基づいて、複数のセグメントを並行して合成するステップと、を含む、音声を並行して合成する方法が提供される。
本開示の第2の態様では、一つのテキストを複数のセグメントに分割するように構成されるセグメント分割モジュールと、一つのテキストに基づいて、複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するように構成される隠れ状態取得モジュールと、複数の初期隠れ状態及び複数のセグメントの入力特徴に基づき、複数のセグメントを並行して合成するように構成される音声並行合成モジュールと、を含む、音声を並行して合成する装置が提供される。
本開示の第3の態様では、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するためのメモリと、を含む電子機器であって、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、前記電子機器が本開示の実施例に係る方法又はプロセスを実現する電子機器が提供される。
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本発明の実施例に係る方法又はプロセスが実現されるコンピュータ読み取り可能な記憶媒体が提供さるれ。
なお、発明の概要に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図せず、本開示の範囲を限定することも意図しない。本開示の他の特徴は、以下の説明により容易に理解される。
図面により、また以下の詳細な説明を参照することにより、本発明の上記の及び他の特徴、利点および態様は、より明確になる。図面では、同一又は類似の符号は、同一又は類似の要素を示す。
本開示の実施例に係る音声を並行して合成するシーンの一例の概略図を示す。 本開示の実施例に係る音声を並行して合成する方法のフローチャートを示す。 本開示の実施例に係るセグメントの隠れ状態の連続性に基づいてリアルタイムで複数のセグメントの音声を並行して合成するプロセスの概略図を示す。 本開示の実施例に係る各セグメントを自己回帰的にシリアルに合成するプロセスの概略図を示す。 本開示の実施例に係るRNNに基づく音声合成システムの例示的なアーキテクチャの概略図を示す。 本開示の実施例に係るRNNに基づく音声合成システムのトレーニングプロセスの概略図を示す。 本開示の実施例に係る音声を並行して合成する装置のブロック図を示す。 本開示の複数の実施例を実施可能な電子機器のブロック図を示す。
以下、図面を参照して本開示の実施例を詳細に説明する。図面には、本開示のいくつかの実施例が示されるが、本開示が様々な形態で実現されてもよく、ここで説明される実施例に限定されると解釈すべきではないと理解されたい。逆に、これらの実施例を提供する意図は、本開示が徹底的かつ完全に理解されることである。なお、本開示の図面及び実施例は、単なる例示に過ぎず、本開示の保護範囲を限定するものではないと理解されたい。
本開示の実施例の説明において、「含む」という用語及びその類似の用語とは、開放的に含まれることを意味し、即ち、「含むがこれらに限定されない」と理解されるべきである。「基づく」は、「少なくとも部分に基づく」と理解されるべきである。「一実施例」又は「当当該実施例」は、「少なくとも一つの実施例」と理解されるべきである。「第1」、「第2」などは、異なる又は同一の対象を指してもよい。以下の記載は、他の明確的及び暗黙的な定義を含むこともある。
従来の音声合成システムは、主に、ボコーダに基づくパラメータシステムと、ユニット選択に基づく波形スプライシングシステムとの2種類に分けられる。ボコーダに基づくパラメータシステムは、まず、テキスト入力表現をスペクトルや基本周波数などの音響パラメータにマッピングし、次にボコーダを用いてこれらの特徴を音声に変換する。ユニット選択に基づく波形スプライシングシステムは、同様に、まず、テキスト入力表現をスペクトルや基本周波数などの音響パラメータにマッピングし、テキストルールを利用するとともに、音響ターゲットコスト及び接続コストなどのユニット選択戦略を組み合わせて、音声ライブラリーから最適な波形セグメントシーケンスを選出し、最後に、選出されたセグメントをターゲット音声にスプライシングして合成する。ボコーダに基づくパラメータシステムは、音響モデルを用いて音響パラメータを予測するため、流暢であるが、ボコーダは人間の発音メカニズムに従って、音源−チャンネルモデルに基づいた単純化されたアルゴリズムであるため、パラメータシステムの合成音質が高くない。一方、ユニット選択に基づく波形スプライシングシステムは、音声ライブラリーから元の音声セグメントを直接選択するため、高音質を保証することができる。しかしながら、音声セグメントが適切に選択されないと、スプライシングが不連続になる問題が発生し、自然な流暢さない場合が多い。これにより分かるように、従来の音声合成システムでは、音質と自然な流暢さを両立させることが難しく、合成音声の品質と自然音声の品質との差が大きく、その品質が一般的に低い。
近年、従来の音声合成システムに対する改良により、ディープラーニングテクノロジーを使用したニューラル音声合成(Neural TTS)システムが学習可能なディープモデルを用いて音声サンプリングポイントを直接モデル化し、従来の合成システムの複雑な設計を回避することができ、合成された音質および自然な流暢さが大幅に向上した。ニューラル音声合成技術によって合成された音声は、音質が良いだけでなく、流暢である。しかしながら、ニューラル音声合成では、一般的に積み重ねられた多層ネットワーク構造又は複雑な構造を使用して音声サンプリングポイントをモデル化するので、各音声サンプリングポイントの生成には大量の計算を行う必要があり、したがって、ニューラル音声合成には計算コストが嵩む。RNNに基づく音声合成システムを例とすると、RNNは、シリアルに、1ポイントずつ音声を生成する。例えば、サンプリング周波数が16000の音声を1秒生成するたびに、16000回の順方向計算を順次、実行する必要があり、通常、必要な計算時間が1秒を大幅に超える。このような高遅延によってリアルタイムレートが非常に低くなる。したがって、RNNに基づく音声合成システムは、音声合成品質が高いが、その計算量が大きいため、1ポイントずつ逐次的に音声を生成していくという特性により、リアルタイムでの音声合成の要件を満たすことが困難である。
RNNに基づくリアルタイムでの音声合成を達成するための主な改良方式は、以下の3つを含む。1つ目は、シングルステップ演算の計算量を減らすことである。最も直接的な方式は、隠れ層の次元を減らすことである。しかしこれはパフォーマンスの損失および合成音質の大幅な低下を直接引き起こしてしまう。別の方式は、重みマトリックスをスパースすることで非ゼロの重みの数を減らすことであり、このようにすることで、隠れ層の次元を不変とし、隠れ層の表示能力を維持することができる。また、元のゲーテッドリカレントユニット(GRU)のsigmoid又はtanh非線形関数の代わりに、計算がそれほど複雑でない非線形関数(例えば、softsign関数)を用いることができる。しかしながら、単一のステップの計算量を減らす上記のこれらの単純化された処理により、全てパフォーマンス損失をもたらす。2つ目は、グラフィックス処理ユニット(GPU)カーネルを最適化することである。一般的なGPUでは、高速なリアルタイム合成を直接実現することができない。その主なボトルネックは、ビデオメモリとレジスタとの通信帯域幅の制限、及び毎回のカーネル演算の起動によるオーバーヘッドである。GPUの計算効率を向上させるために、レジスタがビデオメモリからデータをコピーする回数を減らし、モデルパラメータを一度にレジスタに読み込み、その中の一つの制限が、レジスタの数をモデルのパラメータの数と一致させる必要がある。また、カーネルの起動回数を少なくし、モデルパラメータを全てレジスタに読み込むことができると、文全体のサンプリングポイントの生成を最適化して一回のカーネル演算にマージし、これにより、多くのカーネル起動によるオーバーヘッドを回避することができる。しかし、リアルタイムでのコンピューティングをサポートするために、高パフォーマンスのコンピューティングアーキテクチャGPUが必要であるため、ハードウェアコストが高くなる。3つ目は、サブスケール(subscale)バッチサンプリングポイントを生成することである。サブスケール戦略は、サンプリングポイントシーケンス確率の分解及び単純化処理を行うことにより、複数のサンプリングポイントを並行して生成することをサポートするが、これにより、サンプリングポイントのタイミング依存性が破壊され、RNNの隠れ状態の中断が発生し、パフォーマンスが低下する。また、サブスケールには最初のパケットのハード遅延という欠点があるので、最初のパケットのリアルタイム性が高いシーンでは、サブスケールによって大きな遅延が発生する。これから分かるように、上記の3つの改良方式は、モデルの単一のステップの計算量の単純化、高パフォーマンスハードウェア最適化の加速、及びサブスケールバッチサンプリングポイントの生成などの戦略により音声合成を加速することができるが、いずれも音質を犠牲にしているため、合成された音声の品質が悪い。
本開示の発明者は、RNNが自然なタイミング依存性(例えば、隠れ状態が連続的である)を有するので、RNNが理論的に並行して実行することが難しく、1ポイントずつ逐次的に音声を生成していくことしかできないことに気付いた。RNNに基づくリアルタイムでの音声合成を実現するために、本開示の実施例では、セグメントの隠れ状態の連続性に基づく音声を並行して合成する技術案が提案される。本開示の実施例では、RNNを用いて複数のセグメントを並行して合成するプロセスにおいて、隠れ状態予測モデルによってセグメントに初期隠れ状態を提供することにより、音声合成速度を向上させ、リアルタイムでの音声合成を実現することができるだけでなく、セグメント間の隠れ状態の中断を緩和することもできる。これにより、RNN内部の隠れ状態の連続性を確保し、合成された音声の品質を確保することができる。
本開示で提案されたセグメントの隠れ状態の連続性に基づくRNNを用いてリアルタイムで音声を並行して合成する技術により、RNNを用いてオンラインでリアルタイムに合成するという難題が創作的に解決され、RNN合成の速度が大幅に向上する。本開示の技術案により、音声合成品質が高いことを確保することができるだけでなく、大規模なオンライン配置をサポートすることもできる。いくつかの実施例において、本開示で提案された、RNNに基づいて並行して合成する技術では、セグメント(例えば音素、音節、単語など)を基本的な合成ユニットとし、複数のセグメントを並行して合成し、各セグメントの内部を自己回帰的にシリアルに合成すると同時に、セグメント間のRNN隠れ状態の連続性を確保するために、本開示では、隠れ状態予測ネットワークを用いて各セグメントに初期隠れ状態を提供する。これにより、並行して合成することによるRNN隠れ状態の中断の問題が効果的に解決され、並行して合成する品質を高くすることができる。このようなセグメントの隠れ状態の連続性に基づくRNNを用いてリアルタイムで音声を並行して合成する技術は、RNNを用いてリアルタイムで合成する場合の最大の障害を取り除き、従来のパラメータシステム及びスプライシングシステムからニューラル音声合成システムへの音声合成技術の変革を大幅に促進することができる。
図1は、本開示の実施例に係る音声を並行して合成するシーン100の一例の概略図を示す。シーン100は、単に本開示の実施例で実現可能なシーンの一例であり、本開示の保護範囲を限定するものではないと理解されたい。図1に示すように、合成対象音声の入力テキスト110(例えば、「明日の天気は晴れ、3−4級の北風である」というテキスト115)について、まず、ブロック120でテキストに対してテキスト分析を行う。例えば、テキストを文字−音声変換し、各文字の発音を決定する。多音字の場合には、多音字の発音を予測することができる。また、アクセント、ポーズなどの韻律情報をラベル付けするように、テキストの韻律分析を行うことができる。
次に、ブロック130で音声を合成する。本開示の実施例では、RNNに基づく音声合成モデル、例えば、WaveRNNモデルを用いて音声合成プロセスを実行する。なお、どのような既知の又は将来開発されるRNNに基づく音声合成モデルでも、本開示の実施例と組み合わせて使用することができることを理解されたい。本開示の実施例では、各セグメントのRNN初期隠れ状態を予測して取得することができるため、音声品質にほとんど影響することなく複数のセグメントを並行して合成することができる。本開示のコンテキストでは、「初期隠れ状態」という用語とは、RNNにおける、各セグメントを合成する時の最初の隠れ状態を指す。図1に示すように、本開示の実施例は、セグメント1とセグメント2となどを同時に音声合成して、出力音声140、例えば音声145を取得することができる。以下に、図2−8を参照して、音声を並行して合成する例示的な実現を説明する。
本開示の実施例に係る音声を並行して合成する方法は、様々な電子機器に配置されてもよい。例えば、クライアント−サーバーアーキテクチャのシーンでは、本開示の実施例に係る音声を並行して合成する方法は、クライアント側で実現されてもよいし、サーバ側で実現されてもよい。又は、本開示の実施例に係る音声を並行して合成する方法は、一部がクライアント側で実現され、他の一部がサーバ側で実現されてもよい。
図2は、本開示の実施例に係る音声を並行して合成する方法200を示すフローチャートである。方法200を明確に説明するため、ここでは図3の音声を並行して合成するプロセス300を参照しながら方法200を説明する。
ブロック202で、一つのテキストを複数のセグメントに分割する。例えば、図3を参照すると、合成対象音声のテキスト305を複数のセグメント、例えば、セグメント311、312、313に分割する。いくつかの実施例では、各セグメントは、音素、音節及び韻律語のいずれか一つ、又はさらにより大きな発音単位であってもよい。音素は、音節を構成する最小の単位で最小の音声セグメントであり、音素は、母音と子音との2種類を含む。音節は、発音の基本単位であり、一つ又は複数の音素を含むことができる。例えば、中国語では、一つの漢字が一つの音節であってもよい。韻律語とは、韻律学の観点から規定された単語であり、複数の音節を含むことができる。なお、本開示の実施例におけるセグメントは、より大きな発音ユニットであってもよいことを理解されたい。例えば、各セグメントが音節である場合、テキスト(例えば中国語テキスト)を各漢字に応じて分割し、一つの音節(一つの漢字に対応する)が一つのセグメントである。
ブロック204で、一つのテキストに基づいて、複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得する。例えば、図3を参照すると、本開示の実施例に係る隠れ状態予測モデル320は、各セグメントのRNN初期隠れ状態を予測して、後続の音声を並行して合成することに用いることができる。RNNが自然なタイミング依存性を有し、次の時刻の計算は、一般的に、1つ前の時刻で生成された隠れ状態を必要とするが、音声を並行して合成すると、従来の方法は、隠れ状態の中断を引き起こす。逆に、本開示の実施例では、予めトレーニングされた隠れ状態予測モデル320を用いて、各セグメントの初期隠れ状態を予め予測することができ、1つ前の時刻の音声合成が完了するまで待ってから音声合成を実行する必要がない。このようにすることで、隠れ状態の連続性を確保することができる。
ブロック206で、複数の初期隠れ状態及び複数のセグメントの入力特徴に基づいて、複数のセグメントを並行して合成する。図3に示すように、RNNに基づく音声合成モデル330は、各セグメントの初期隠れ状態に基づいて、複数のセグメントを同時に合成することができ、1つ前のセグメントの合成が完了するまで待ってからセグメントを合成する必要がない。したがって、本開示の実施例では、隠れ状態予測モデルによって各セグメントに初期隠れ状態を提供することにより、音声合成速度を向上させ、リアルタイムでの音声合成を実現することができるだけでなく、セグメント間の隠れ状態の中断を緩和し、合成された音声の品質を確保することもできる。
したがって、本開示の実施例では、セグメントの隠れ状態の連続性に基づくRNNを用いてリアルタイムで音声を並行して合成する技術が提案される。当該技術は、音声のセグメントをRNNの基本的合成ユニットとし、セグメントは、音声学の観点から、音素、音節、韻律語、さらにより大きな発音ユニットなどを含むことができる。与えられた合成対象テキストを複数のセグメントに分割した後、複数のセグメントを並行して合成することができ、各セグメントの内部を自己回帰的にシリアルに合成することができる。このセグメントを並行して合成する方式により、RNN合成速度を向上させ、リアルタイムでの合成の要件を満たすことができる。RNNは、内部のタイミング依存性があるため、理論的にシリアルに合成するしかなく、セグメントを並行して合成する方式により、セグメント間のRNN隠れ状態の連続性を破壊することになる。しかしながら、本開示の実施例では、隠れ状態予測モデルによって各セグメントに初期隠れ状態を提供することにより、セグメント間の状態の近似的な連続性を確保し、このようにリアルタイムで並行して合成することを実現するとともに、合成音質がほとんど低下しないことを確保するRNN隠れ状態予測方法が創作的に提案される。また、このようなセグメントの隠れ状態の連続性に基づくRNNを用いてリアルタイムで音声を並行して合成する技術は、RNNのシリアルな合成に起因するエラーの累積効果をある程度緩和することができ、合成音声のホイッスル現象を効果的に低減することができる。
図3には、本開示の実施例に係るセグメントの隠れ状態の連続性に基づいてリアルタイムで複数のセグメントを並行して合成するプロセス300の概略図を示す。合成対象テキスト305を複数のセグメント311、312、313に分割した後、隠れ状態予測モデル320は、各セグメント311、312、313の初期隠れ状態がそれぞれh (1)、h (2)、h (3)であることを予測することができる。なお、図3に3つのセグメントだけが示されているが、テキスト305はより多くのセグメントに分割されてもよいことを理解されたい。
引き続き図3を参照すると、さらに、テキスト305から各セグメントのフレームレベルの入力特徴341が抽出される。例えば、各フレームが5ミリ秒であり、その後、音響条件モデル340によって処理されて、サンプリングポイントレベルの特徴345を生成することができる。ここで、音響条件モデル340は音響条件をモデル化することができ、その入力がテキストの言語的特徴であってもよい。以下に図5を参照して音響条件モデル340の例示的な構造を説明する。
RNNに基づく音声合成モデル330は、各セグメントの初期隠れ状態及びサンプリングポイントレベルの特徴に基づいて、音声を並行して合成する。図3に示すように、ブロック331で、セグメント311の初期隠れ状態及びそのサンプリングポイントレベルの特徴に基づいて、セグメント311を合成する。ブロック332では、セグメント312の初期隠れ状態及びそのサンプリングポイントレベルの特徴に基づいて、セグメント312を合成する。ブロック333で、セグメント313の初期隠れ状態及びそのサンプリングポイントレベルの特徴に基づいて、セグメント313を合成する。このようにすることで、複数のセグメント311、312、及び313を並行して合成することができ、合成音声の品質を犠牲にすることなく音声合成速度を向上させることができる。各セグメントの合成が完了した後、各セグメントの音声をスムーズに接続して最終的な完全な音声を得ることができる。
なお、本開示の実施例における隠れ状態予測モデル320によって導入される計算量は、RNNの計算量と比較して非常に小さく、ほとんど無視できる。本開示の実施例におけるセグメントの隠れ状態の連続性に基づくRNNを用いて音声を並行して合成する方法により、RNNが並行して推論することが困難であるという問題を創作的に解決し、合成効率を大幅に向上させ、リアルタイム合成の要件を満たすとともに、合成品質がほぼ低下させずに済む。また、従来のパラメータシステム及びスプライシングシステムと比較して、本開示の実施例の音声合成システムは高品質であり、ニューラル音声合成システムの産業界での広範な応用に適している。
いくつかの実施例では、単一のセグメント内部の合成について、自己回帰的にシリアルに合成することができる。例えば、ブロック331における音声合成プロセスに対して、図4は、本開示の実施例に係るセグメントを自己回帰的にシリアルに合成するプロセス400の概略図を示す。
図4にはセグメント311におけるサンプリング410、420、430などの出力を生成する例示的なプロセスが示されている。hは、セグメント311の初期隠れ状態であり、本開示の実施例に係る隠れ状態予測モデル320から取得される。各セグメントにおけるサンプリングポイントの生成プロセスにおいて、各サンプリングポイントの出力を生成するには、当該サンプリングポイントの入力する特徴、1つ前のサンプリングポイントの出力、及び1つ前のサンプリングポイントによって送信された隠れ状態に基づく必要がある。セグメント311のうちの1番目のサンプリングポイント410については、当該サンプリングポイントの特徴iのほかに、入力された隠れ状態hがセグメント311の初期隠れ状態であってもよく、入力された、1つ前のサンプリングポイントの出力sが0であってもよく、生成された出力がsであってもよい。次に、2番目のサンプリングポイント420について、その入力が前のサンプリングポイント410によって生成された隠れ状態h、当該サンプリングポイントの特徴i、及び前のサンプリングポイント410の出力sを含む。単一のセグメント内で自己回帰的にシリアルに合成することにより、各セグメントの音声合成の品質を確保することができる。
図5は、本開示の実施例に係るRNNに基づく音声合成システムの例示的なアーキテクチャ500の概略図を示す。図5に示すように、隠れ状態予測モデル320は、1つの完全な接続(fully−connected、FC)層及びN個の双方向準リカレントニューラルネットワーク(QRNN)層を含むことができる。音響条件モデル340は、2つの双方向QRNN層と1つのアップサンプリング繰り返し層を含み、RNNに基づく音声合成モデル330は、1層のゲーテッドリカレントユニット(GRU)によって実現されてもよい。なお、図5に示されるアーキテクチャは、単なる例示であり、他の適切なアーキテクチャは本開示の実施形態と組み合わせて使用されてもよい。
図5を参照すると、隠れ状態予測モデル320は、各セグメントの音素レベルの入力特徴511及びフレームレベルの入力特徴341を取得した後、音素レベルの入力特徴511に基づいて各音素の初期隠れ状態521を予測し、その後、セグメントのうちの1番目の音素の初期隠れ状態を当該セグメントの初期隠れ状態として決定することができる。言語内の音素の数が音節の数よりも少ないため、音素レベルの入力特徴を使用することにより、隠れ状態予測モデル320をさらに容易にトレーニングすることができる。これにより、より正確な初期隠れ状態を予測するすることができる。
音響条件モデル340は、フレームレベルの入力特徴341に基づいて、アップサンプリングを繰り返す方法により、サンプリングポイントレベルの特徴345を取得する。例えば、各フレーム特徴が80個の音声サンプリングポイントに対応すると仮定する場合、アップサンプリングを繰り返すことによりフレームレベルの特徴を80部コピーして、RNNに基づく音声合成モデル330の条件入力とする。RNNに基づく音声合成モデル330は、初期隠れ状態521及びサンプリングポイントレベルの特徴345に基づいて各セグメントの音声を合成し、出力された合成音声531を取得する。
本開示の実施例は、従来のRNNに基づく音声合成モデルに加えて、隠れ状態予測モデルを追加している。この2つのモデルを一緒にトレーニングしてもよいし、別々にトレーニングしてもよい。図6は、本開示の実施例に係るRNNに基づく音声合成システムの個別のトレーニングプロセス600の概略図を示す。例えば、まず、トレーニングデータを用いてRNNに基づく音声合成モデルをトレーニングし、RNNに基づく音声合成モデルのトレーニングが完了した後、トレーニングデータ及びトレーニングされたRNNを用いて隠れ状態予測モデルをトレーニングすることができる。
図6を参照すると、トレーニングデータ610にはトレーニングテキスト及び対応するトレーニング音声が含まれてもよい。トレーニングデータ610が与えられると、その中から、フレームレベルの入力特徴611、音声サンプリングポイント612、及び音素レベルの入力特徴613を抽出する。フレームレベルの入力特徴611及び音素レベルの入力特徴613は、トレーニングテキストから取得することができ、音声サンプリングポイント612は、トレーニング音声からサンプリングして取得することができる。いくつかの実施例において、フレームレベルの入力特徴611は、音素コンテキスト、韻律コンテキスト、フレーム位置及び基本周波数などを含むことができ、音素レベルの入力特徴613は、音素コンテキスト及び韻律コンテキストなどのテキストレベルの情報を含むことができる。
図6に示される個別のトレーニングプロセスでは、まず、ブロック620でフレームレベルの入力特徴611及び音声サンプリングポイント612を用いてRNNに基づく音声合成モデル330をトレーニングする。その後、トレーニングされたRNNに基づく音声合成モデルから音素レベルの隠れ状態625を取得する。例えば、各音素に対応する複数のサンプリングポイントのうちの1番目のサンプリングポイントの初期隠れ状態を当該音素の音素レベルの隠れ状態として決定することができる。
いくつかの実施例では、音素レベルの隠れ状態625及び音素レベルの入力特徴613を用いて隠れ状態予測モデルをトレーニングすることができる。トレーニングセットにおける全ての音素サンプルの数が少ない可能性があり、また、隠れ状態の次元(例えば896次元)が高い場合には、これらの高次元の隠れ状態をそのままターゲットとして隠れ状態予測モデルをトレーニングすると、モデルがオーバーフィッティングされやすくなる。したがって、トレーニング効率及びモデルの一般化能力を向上させるために、ブロック630で決定ツリーを用いて高次元の音素レベルの隠れ状態625をクラスター化し、音素レベルでクラスター化された隠れ状態635を取得し、これにより、隠れ状態の数を減らすことができる。クラスター化された隠れ状態は、クラス内の全ての元の隠れ状態の平均値を計算することで取得することができる。次に、ブロック640で、音素レベルの入力特徴613及び対応する音素レベルのクラスター化隠れ状態635を用いて隠れ状態予測モデルをトレーニングする。
いくつかの実施例では、隠れ状態予測モデルは、各音素の予測初期隠れ状態を予測し、その後、選択されたセグメントに応じた音素の境界を見出すことにより、各セグメントの初期隠れ状態を取得することができる。また、RNNに基づく音声合成モデルは、クロスエントロピー損失関数を用いてトレーニングすることができ、隠れ状態予測モデルは、L1損失関数を用いてトレーニングすることができる。
図7は、本開示の実施例に係る音声を並行して合成する装置700のブロック図を示す。図7に示すように、装置700は、セグメント分割モジュール710、隠れ状態取得モジュール720、及び音声並行合成モジュール730を含む。セグメント分割モジュール710は、一つのテキストを複数のセグメントに分割するように構成される。隠れ状態取得モジュール720は、一つのテキストに基づいて、複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するように構成される。音声並行合成モジュール730は、複数の初期隠れ状態及び複数のセグメントの入力特徴に基づいて、複数のセグメントを並行して合成するように構成される。
いくつかの実施例では、複数のセグメントの各セグメントは、音素、音節及び韻律語のいずれか一つであり、音声並行合成モジュール730は、各セグメントの初期隠れ状態及び入力特徴に基づいて、各セグメントを自己回帰的にシリアルに合成するように構成される音声シリアル合成モジュールを含む。
いくつかの実施例では、隠れ状態取得モジュール720は、複数のセグメントの各セグメントの音素レベルの入力特徴を決定するように構成される音素レベル入力特徴決定モジュールと、各セグメントの音素レベルの入力特徴に基づいて、トレーニングされた隠れ状態予測モデルを用いて各セグメントの初期隠れ状態を予測するように構成される隠れ状態予測モデルと、を含む。
いくつかの実施例では、音声並行合成モジュール730は、複数のセグメントの各セグメントのフレームレベルの入力特徴を決定するように構成されるフレームレベル入力特徴決定モジュールと、フレームレベルの入力特徴に基づいて、音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するように構成されるサンプリングポイントレベル特徴取得モジュールと、各セグメントの初期隠れ状態及びサンプリングポイントレベルの特徴に基づいて、リカレントニューラルネットワークに基づく音声合成モデルを用いて各セグメントを合成するように構成されるセグメント合成モジュールと、を含む。
いくつかの実施例では、サンプリングポイントレベル特徴取得モジュールは、アップサンプリングを繰り返すことにより、サンプリングポイントレベルの特徴を取得して音声合成モデルの条件入力とするように構成されるアップサンプリング繰り返しモジュールを含む。
いくつかの実施例では、装置700は、トレーニングデータを用いてリカレントニューラルネットワークに基づく音声合成モデルをトレーニングするように構成される音声合成モデルトレーニングモジュールと、トレーニングデータとトレーニングされた音声合成モデルを用いて隠れ状態予測モデルをトレーニングするように構成される隠れ状態予測モデルトレーニングモジュールとをさらに含む。
いくつかの実施例では、音声合成モデルトレーニングモジュールは、トレーニングデータにおけるトレーニングテキストのフレームレベルの入力特徴及び対応するトレーニング音声の音声サンプリングポイントを取得するように構成される第1の取得モジュールであって、フレームレベルの入力特徴は、音素コンテキスト、韻律コンテキスト、フレーム位置及び基本周波数の少なくとも1つを含む第1の取得モジュールと、トレーニングテキストのフレームレベルの入力特徴及びトレーニング音声の音声サンプリングポイントを用いて音声合成モデルをトレーニングするように構成される第1のトレーニングモジュールと、を含む。
いくつかの実施例では、隠れ状態予測モデルトレーニングモジュールは、トレーニングテキストの音素レベルの入力特徴を取得するように構成される第2の取得モジュールであって、音素レベルの入力特徴は、音素コンテキスト及び韻律コンテキストの少なくとも一つを含む第2の取得モジュールと、トレーニングされた音声合成モデルから各音素の音素レベルの隠れ状態を取得するように構成される第3の取得モジュールと、音素レベルの入力特徴及び音素レベルの隠れ状態を用いて隠れ状態予測モデルをトレーニングするように構成される第2のトレーニングモジュールと、を含む。
いくつかの実施例では、第2のトレーニングモジュールは、音素レベルの隠れ状態をクラスター化して音素レベルのクラスター化隠れ状態を生成するように構成される隠れ状態クラスター化モジュールと、音素レベルの入力特徴及び音素レベルのクラスター化隠れ状態を用いて隠れ状態予測モデルをトレーニングするように構成される第3のトレーニングモジュールと、を含む。
いくつかの実施例では、第3の取得モジュールは、各音素に対応する複数のサンプリングポイントのうちの1番目のサンプリングポイントの初期隠れ状態を各音素の音素レベルの隠れ状態として決定するように構成される音素レベル隠れ状態決定モジュールを含む。
なお、図7に示されるセグメント分割モジュール710、隠れ状態取得モジュール720、及び音声並行合成モジュール730は、一つ又は複数の電子機器に含まれてもよいことを理解されたい。しかも、図7に示されるモジュールは、本開示の実施例の方法又はプロセスにおけるステップ又は動作を実行することができることを理解されたい。
本開示の実施例に係るセグメントに基づいてRNNを用いて並行して合成する技術案は、RNNを用いてシリアルに合成する効率が低いという問題を解決し、音声合成のリアルタイムレートを大幅に向上させ、リアルタイムでの音声合成をサポートすることができる。また、1ポイントずつ逐次的に音声を生成していく計算では、モデルアルゴリズムを特化する必要がないため、加速コストが低い。従来のサブスケールバッチサンプリングポイントを生成する戦略と比べ、本開示の実施例に係るセグメントに基づいてRNNを用いて並行して合成する技術は、遅延が少ないという利点を有し、合成応答速度に対するユーザの要求が高いシーンでは、本開示の実施例は著しい利点を有する。
また、本開示の実施例では、隠れ状態予測モデルを用いて各セグメントに初期隠れ状態を提供することにより、並行して合成する際のセグメント間の隠れ状態が中断されるという問題を緩和し、並行して合成された音声の品質がシリアル合成とほぼ同等にし、合成パフォーマンスを犠牲にすることなく、RNNによって高速に合成することができる。隠れ状態予測モデルをトレーニングする際に、本開示のいくつかの実施例では、決定ツリーを用いて各音素の隠れ状態をクラスター化し、クラスター化された隠れ状態をトレーニングターゲットとする。このようにすることで、隠れ状態予測モデルの一般化能力を向上させることができる。
また、従来のパラメータシステム及びスプライシングシステムに対し、セグメントのRNNに基づく並行合成システムは、高品質のニューラルリアルタイム音声合成システムであり、合成品質の面では従来のパラメータシステム及びスプライシングシステムを大幅に超え、ニューラル音声合成システムの産業界での広範な応用を促進する。
図8は、本開示の実施例を実施可能な機器800の概略ブロック図を示す。機器800は、本開示で説明されるものを実現するための音声を並行して合成する装置700であってもよい。図示するように、装置800は、読み出し専用メモリ(ROM)802に記憶されたコンピュータプログラム命令、又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラム命令に従って、様々な適切な動作及び処理を実行することができる中央処理装置(CPU)801を備える。RAM803には、機器800の動作に必要な各種のプログラム及びデータも記憶されてもよい。CPU801、ROM802及びRAM803は、バス804を介して互いに接続される。入力/出力(I/O)インターフェース805もバス804に接続される。
キーボード、マウスなどの入力ユニット806と、各種のディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット809とを含む、機器800内の複数の構成要素は、I/Oインターフェース805に接続されている。通信ユニット809は、機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを許可する。
処理ユニット801は、上記で説明された各方法及びプロセス、例えば方法200を実行する。例えば、いくつかの実施例では、方法は、記憶ユニット808などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信ユニット809を介して機器800にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM803にロードされ、CPU801によって実行される場合、上述した方法の一つ又は複数の動作又はステップを実行することができる。又は、他の実施例では、CPU801は、他の任意の適切な方式(例えば、ファームウェアにより)で方法を実行するように構成されてもよい。
本明細書で上述した機能は、少なくとも部分的に一つ又は複数のハードウェア論理コンポーネントによって実行されてもよい。例えば、利用できる典型的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブルロジックデバイス(CPLD)などを含むが、これらに限定されない。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで作成することができる。プログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、その結果、プログラムコードがプロセッサまたはコントローラによって実行されるとき、フローチャートおよび/またはブロック図において特定される機能および/または操作が実施される。プログラムコードは、全てマシン上で、部分的にマシン上で、スタンドアロンソフトウェアパッケージの一部として、そして部分的にリモートマシン上、または全部でリモートマシンまたはサーバ上で実行することができる。
本開示のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、またはデバイスと合わせて使用されるプログラムを含むまたは格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器、あまたはこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つまたは複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含んでもよい。
また、動作を特定の順序で説明したが、これは、そのような動作が示された特定の順序または順番で実行されること、または所望の結果を達成するために示されたすべての動作が実行されることを要求することを理解されたい。一定の環境においてマルチタスキングおよび並列処理は有利な場合がある。同様に、いくつかの具体的な実装の詳細が上記の説明に含まれているが、これらは本開示の範囲を限定するものとして解釈されるべきではない。別々の実施例で説明されているいくつかの特徴は、単一の実施例において組み合わせて実現することもできる。逆に、単一の実施例で説明されている様々な特徴は、個別にまたは任意の適切なサブ組み合わせで複数の実施例で実現することができる。
構造的特徴及び/又は方法論的動作に特有の言語で本開示の実施例を説明したが、添付の特許請求の範囲で限定される主題が必ずしも上記の特定の特徴又は動作に限定されないことを理解されたい。むしろ、上述した特定の特徴及び動作は、単に特許請求の範囲を実現する例示的な形態である。

Claims (22)

  1. 音声を並行して合成する方法であって、
    一つのテキストを複数のセグメントに分割するステップと、
    前記一つのテキストに基づいて、前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップと、
    前記複数の初期隠れ状態及び前記複数のセグメントの入力特徴に基づいて、前記複数のセグメントを並行して合成するステップと、を含むことを特徴とする、音声を並行して合成する方法。
  2. 前記複数のセグメントの各セグメントは、音素、音節、及び韻律語のいずれか一つであり、
    前記複数のセグメントを並行して合成するステップは、
    各セグメントの初期隠れ状態及び入力特徴に基づいて、各セグメントを自己回帰的にシリアルに合成するステップを含むことを特徴とする、請求項1に記載の方法。
  3. 前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップは、
    前記複数のセグメントにおける各セグメントの音素レベルの入力特徴を決定するステップと、
    各セグメントの音素レベルの入力特徴に基づいて、トレーニングされた隠れ状態予測モデルを用いて各セグメントの初期隠れ状態を予測するステップと、を含むことを特徴とする、請求項1に記載の方法。
  4. 前記複数のセグメントを並行して合成するステップは、
    前記複数のセグメントの各セグメントのフレームレベルの入力特徴を決定するステップと、
    前記フレームレベルの入力特徴に基づいて、音響条件モデルを用いてサンプリングポイントレベル特徴を取得するステップと、
    各セグメントの初期隠れ状態及び前記サンプリングポイントレベルの特徴に基づいて、リカレントニューラルネットワークに基づく音声合成モデルを用いて各セグメントを合成するステップと、を含むことを特徴とする、請求項3に記載の方法。
  5. 音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するステップは、
    アップサンプリングを繰り返すことにより、前記サンプリングポイントレベルの特徴を取得するステップを含むことを特徴とする、請求項4に記載の方法。
  6. 前記方法は、
    トレーニングデータを用いて、リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするステップと、
    前記トレーニングデータ及びトレーニングされた前記音声合成モデルを用いて隠れ状態予測モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の方法。
  7. 前記リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするステップは、
    前記トレーニングデータにおけるトレーニングテキストのフレームレベルの入力特徴及び対応するトレーニング音声の音声サンプリングポイントを取得するステップであって、前記フレームレベルの入力特徴は、音素コンテキスト、韻律コンテキスト、フレーム位置、及び基本周波数の少なくとも1つを含むステップと、
    前記トレーニングテキストの前記フレームレベルの入力特徴及び前記トレーニング音声の前記音声サンプリングポイントを用いて、前記音声合成モデルをトレーニングするステップと、を含むことを特徴とする、請求項6に記載の方法。
  8. 前記隠れ状態予測モデルをトレーニングするステップは、
    前記トレーニングテキストの音素レベルの入力特徴を取得するステップであって、前記音素レベルの入力特徴は、音素コンテキスト及び韻律コンテキストの少なくとも1つを含むステップと、
    トレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するステップと、
    前記音素レベルの入力特徴及び前記音素レベルの隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするステップと、を含むことを特徴とする、請求項7に記載の方法。
  9. 前記隠れ状態予測モデルをトレーニングするステップは、
    前記音素レベルの隠れ状態をクラスター化して音素レベルのクラスター化隠れ状態を生成するステップと、
    前記音素レベルの入力特徴及び前記音素レベルのクラスター化隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項8に記載の方法。
  10. トレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するステップは、
    各音素に対応する複数のサンプリングポイントのうちののうちの1番目のサンプリングポイントの初期隠れ状態を各音素の音素レベルの隠れ状態として決定するステップを含むことを特徴とする、請求項8に記載の方法。
  11. 音声を並行して合成する装置であって、
    一つのテキストを複数のセグメントに分割するように構成されるセグメント分割モジュールと、
    前記一つのテキストに基づいて、前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するように構成される隠れ状態取得モジュールと、
    前記複数の初期隠れ状態及び前記複数のセグメントの入力特徴に基づいて、前記複数のセグメントを並行して合成するように構成される音声並行合成モジュールと、を含むことを特徴とする、音声を並行して合成する装置。
  12. 前記複数のセグメントの各セグメントは、音素、音節、及び韻律語のいずれか一つであり、
    前記音声並行合成モジュールは、
    各セグメントの初期隠れ状態及び入力特徴に基づいて、各セグメントを自己回帰的にシリアルに合成するように構成される音声シリアル合成モジュールを含むことを特徴とする、請求項11に記載の装置。
  13. 前記隠れ状態取得モジュールは、
    前記複数のセグメントの各セグメントの音素レベルの入力特徴を決定するように構成される音素レベル入力特徴決定モジュールと、
    各セグメントの音素レベルの入力特徴に基づいて、トレーニングされた隠れ状態予測モデルを用いて各セグメントの初期隠れ状態を予測するように構成される隠れ状態予測モデルと、を含むことを特徴とする、請求項11に記載の装置。
  14. 前記音声並行合成モジュールは、
    前記複数のセグメントの各セグメントのフレームレベルの入力特徴を決定するように構成されるフレームレベル入力特徴決定モジュールと、
    前記フレームレベルの入力特徴に基づいて、音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するように構成されるサンプリングポイントレベル特徴取得モジュールと、
    各セグメントの初期隠れ状態及び前記サンプリングポイントレベルの特徴に基づいて、リカレントニューラルネットワークに基づく音声合成モデルを用いて各セグメントを合成するように構成されるセグメント合成モジュールと、を含むことを特徴とする、請求項13に記載の装置。
  15. 前記サンプリングポイントレベル特徴取得モジュールは、
    アップサンプリングを繰り返すことにより、前記サンプリングポイントレベルの特徴を取得するように構成されるアップサンプリング繰り返しモジュールを含むことを特徴とする、請求項14に記載の装置。
  16. 前記装置は、
    トレーニングデータを用いて、リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするように構成される音声合成モデルトレーニングモジュールと、
    前記トレーニングデータ及びトレーニングされた前記音声合成モデルを用いて隠れ状態予測モデルをトレーニングするように構成される隠れ状態予測モデルトレーニングモジュールと、をさらに含むことを特徴とする、請求項11に記載の装置。
  17. 前記音声合成モデルトレーニングモジュールは、
    前記トレーニングデータにおけるトレーニングテキストのフレームレベルの入力特徴及び対応するトレーニング音声の音声サンプリングポイントを取得するように構成される第1の取得モジュールであって、前記フレームレベルの入力特徴は、音素コンテキスト、韻律コンテキスト、フレーム位置、及び基本周波数の少なくとも1つを含む第1の取得モジュールと、
    前記トレーニングテキストの前記フレームレベルの入力特徴及び前記トレーニング音声の前記音声サンプリングポイントを用いて、前記音声合成モデルをトレーニングするように構成される第1のトレーニングモジュールと、を含むことを特徴とする、請求項16に記載の装置。
  18. 前記隠れ状態予測モデルトレーニングモジュールは、
    前記トレーニングテキストの音素レベルの入力特徴を取得するように構成される第2の取得モジュールであって、前記音素レベルの入力特徴は、音素コンテキスト及び韻律コンテキストの少なくとも1つを含む第2の取得モジュールと、
    トレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するように構成される第3の取得モジュールと、
    前記音素レベルの入力特徴及び前記音素レベルの隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするように構成される第2のトレーニングモジュールと、を含むことを特徴とする、請求項17に記載の装置。
  19. 前記第2のトレーニングモジュールは、
    前記音素レベルの隠れ状態をクラスター化して音素レベルのクラスター化隠れ状態を生成するように構成される隠れ状態クラスター化モジュールと、
    前記音素レベルの入力特徴及び前記音素レベルのクラスター化隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするように構成される第3のトレーニングモジュールと、を含むことを特徴とする、請求項18に記載の装置。
  20. 前記第3の取得モジュールは、
    各音素に対応する複数のサンプリングポイントのうちの1番目のサンプリングポイントの初期隠れ状態を各音素の音素レベルの隠れ状態として決定するように構成される音素レベル隠れ状態決定モジュールを含むことを特徴とする、請求項18に記載の装置。
  21. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムを記憶するためのメモリと、を含む電子機器であって、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記電子機器が請求項1から10のいずれかに記載の方法を実現することを特徴とする、電子機器。
  22. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行される場合、請求項1から10のいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
JP2020068909A 2019-06-27 2020-04-07 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Active JP6983271B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910569448.8A CN112151003A (zh) 2019-06-27 2019-06-27 并行语音合成方法、装置、设备以及计算机可读存储介质
CN201910569448.8 2019-06-27

Publications (2)

Publication Number Publication Date
JP2021006897A true JP2021006897A (ja) 2021-01-21
JP6983271B2 JP6983271B2 (ja) 2021-12-17

Family

ID=73868783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020068909A Active JP6983271B2 (ja) 2019-06-27 2020-04-07 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US11289068B2 (ja)
JP (1) JP6983271B2 (ja)
CN (1) CN112151003A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885327B (zh) * 2021-01-21 2024-07-09 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112951202B (zh) * 2021-03-11 2022-11-08 北京嘀嘀无限科技发展有限公司 语音合成方法、装置、电子设备以及程序产品
CN112951203B (zh) * 2021-04-25 2023-12-29 平安创科科技(北京)有限公司 语音合成方法、装置、电子设备及存储介质
CN113361712B (zh) * 2021-06-30 2023-07-21 北京百度网讯科技有限公司 特征确定模型的训练方法、语义分析方法、装置及电子设备
CN113838452B (zh) * 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113903358B (zh) * 2021-10-15 2022-11-04 贝壳找房(北京)科技有限公司 语音质检方法、可读存储介质及计算机程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6704699B2 (en) * 2000-09-05 2004-03-09 Einat H. Nir Language acquisition aide
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
ES2738319T3 (es) * 2014-09-12 2020-01-21 Microsoft Technology Licensing Llc Sistema informático para entrenar redes neuronales
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Also Published As

Publication number Publication date
US20200410979A1 (en) 2020-12-31
JP6983271B2 (ja) 2021-12-17
US11289068B2 (en) 2022-03-29
CN112151003A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
JP6983271B2 (ja) 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
EP4007997B1 (en) Controlling expressivity in end-to-end speech synthesis systems
KR102057927B1 (ko) 음성 합성 장치 및 그 방법
Blaauw et al. A neural parametric singing synthesizer
CN109036371B (zh) 用于语音合成的音频数据生成方法及***
WO2020118521A1 (en) Multi-speaker neural text-to-speech synthesis
EP4118641A1 (en) Speech recognition using unspoken text and speech synthesis
KR20240096867A (ko) 2-레벨 스피치 운율 전송
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
US20220392430A1 (en) System Providing Expressive and Emotive Text-to-Speech
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Li et al. Phoneme Embedding and its Application to Speech Driven Talking Avatar Synthesis.
KR102624194B1 (ko) 음성 구성요소 분리를 이용한 비자동회귀 방식의 음성합성 시스템 및 방법
US20230018384A1 (en) Two-Level Text-To-Speech Systems Using Synthetic Training Data
CN117133270B (zh) 语音合成方法、装置、电子设备及存储介质
KR20240014252A (ko) 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템
KR20240014251A (ko) 음성의 속도 및 피치를 변경하는 방법 및 음성 합성 시스템
Zhu et al. Control Emotion Intensity for LSTM-Based Expressive Speech Synthesis
KR20240014257A (ko) 합성 음성을 생성하는 방법 및 음성 합성 시스템
CN118366430A (zh) 一种拟人化的语音合成方法、装置及可读存储介质
CN115346510A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN117133270A (zh) 语音合成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R150 Certificate of patent or registration of utility model

Ref document number: 6983271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150