JP2022153600A - 音声合成方法、装置、電子機器及び記憶媒体 - Google Patents

音声合成方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022153600A
JP2022153600A JP2022123043A JP2022123043A JP2022153600A JP 2022153600 A JP2022153600 A JP 2022153600A JP 2022123043 A JP2022123043 A JP 2022123043A JP 2022123043 A JP2022123043 A JP 2022123043A JP 2022153600 A JP2022153600 A JP 2022153600A
Authority
JP
Japan
Prior art keywords
text
feature
target
features
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022123043A
Other languages
English (en)
Other versions
JP7372402B2 (ja
Inventor
ガオ,ヂェンクン
Zhengkun Gao
ヂャン,ジュントン
Junteng Zhang
スン,タオ
Tao Sun
ジャ,レイ
Lei Jia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022153600A publication Critical patent/JP2022153600A/ja
Application granted granted Critical
Publication of JP7372402B2 publication Critical patent/JP7372402B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Document Processing Apparatus (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

【課題】ターゲット音声のリアルさと自然さを高める音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合して、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、ターゲット音声を生成する。【選択図】図1

Description

本開示はコンピュータ技術の分野に関し、特に、音声合成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムに関する。
現在、音声合成方法は、テキストをターゲットユーザの音声特徴を有すオーディオに変換することができ、音声チャット、スマートホームなどの分野で広く応用されている。例えば、音声チャットシーンでは、ユーザのチャット音声を受信した後、それにマッチングするチャットテキストを取得し、チャットテキストをリアルタイムでターゲットユーザの音声特徴を有するオーディオに変換し、オーディオを再生したり、ユーザ端末にフィードバックしたりすることができる。しかしながら、従来技術の音声合成方法では、合成された音声のリアルさと自然さが劣っている。
本開示は、音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の一態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップと、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む音声合成方法を提供する。
本開示の別の態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する予測モジュールと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する抽出モジュールと、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む音声合成装置を提供する。
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが音声合成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに音声合成方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、音声合成方法のステップを実現する。
なお、この部分に記載された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る音声合成方法の概略フローチャートである。 本開示の第2の実施例に係る音声合成方法の概略フローチャートである。 本開示の第3の実施例に係る音声合成方法の概略フローチャートである。 本開示の第1の実施例に係るターゲット音声合成モデルの概略図である。 本開示の第1の実施例に係る音声合成装置のブロック図である。 本開示の実施例に係る音声合成方法を実現するための電子機器のブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明するが、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書において説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
音声は、音声認識、音声分離、音声インタラクション、音声合成などの技術分野を含むことができ、人工知能の分野における重要な方向である。
音声合成(Voice Synthesis)は、機械が文字情報を出力可能な音声に変換する技術であり、音響学、言語学、デジタル信号処理、コンピュータ科学などの分野に関連する。
AI(Artificial Intelligence、人工知能)は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術及び応用システムを研究、開発する技術科学である。現在、AI技術は自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。
NLU(Natural Language Processing、自然言語処理)は、自然言語通信を効率的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野における重要な方向である。
深層学習(Deep Learning)は機械学習(Machine Learning)分野における新しい研究方向であり、サンプルデータの内的な法則と表現レベルを学習し、機械が人間のように分析学習能力を持ち、文字、画像、音などのデータを認識できるようにする科学であり、音声と画像認識に広く応用されている。
図1は、本開示の第1の実施例に係る音声合成方法の概略フローチャートである。
図1に示すように、本開示の第1の実施例の音声合成方法は以下のステップS101~S104を含む。
S101:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
なお、本開示の実施例に係る音声合成方法の実行主体は、データ情報処理能力を有するハードウェア装置及び/又は当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、及び他のスマート機器を含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
本開示の実施例では、合成対象のテキストを取得することができる。なお、合成対象のテキストの言語、タイプなどを過度に限定せず、例えば、合成対象のテキストの言語は、中国語、英語などを含むが、これらに限定されず、合成対象のテキストは、チャットテキスト、スピーチテキストなどを含むが、これらに限定されない。
本開示の実施例では、ターゲットユーザの音声特徴を取得することができる。なお、異なるターゲットユーザは異なる音声特徴に対応することができる。なお、音声特徴のタイプを過度に限定しない。
1つの実施形態では、ターゲットユーザの音声特徴を予めローカルに記憶することができ、これによって音声合成時にローカルの記憶空間からターゲットユーザの音声特徴を取得することができ、ターゲットユーザの音声特徴をオフラインで取得することができ、音声合成の演算量を効果的に減少させる。
本開示の実施例では、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得することができ、これによって合成対象のテキストとターゲットユーザの音声特徴が予測された第1の音響的特徴に及ぼす影響を総合的に考慮することができ、予測された第1の音響的特徴は合成対象のテキストの特徴と音声特徴を有し、個人化音声合成を実現することができる。
1つの実施形態では、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得するステップは、合成対象のテキストと音声特徴を特徴予測アルゴリズムに入力し、特徴予測アルゴリズムが、予測された第1の音響的特徴を出力するステップを含むことができる。特徴予測アルゴリズムは、実際の状況に応じて設定することができ、ここでは限定されない。
S102:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
本開示の実施例では、テンプレートオーディオライブラリを取得することができ、テンプレートオーディオライブラリが複数のテンプレートオーディオを含む。なお、テンプレートオーディオライブラリは、実際の状況に応じて設定することができるが、ここでは限定されない。
本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得することができる。さらに、ターゲットテンプレートオーディオの第2の音響的特徴を抽出することができる。
1つの実施形態では、ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップは、ターゲットテンプレートオーディオを特徴抽出アルゴリズムに入力し、特徴抽出アルゴリズムが第2の音響的特徴を出力するステップを含むことができる。特徴抽出アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
S103:第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
本開示の実施例では、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成することができ、これにより、生成されたターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴とを同時に有することができ、特徴表現効果がより良い。
1つの実施形態では、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得し、ターゲットテンプレートテキストと合成対象のテキストに基づいて、第1の音響的特徴と第2の音響的特徴との結合位置を決定し、結合位置に従って第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップを含むことができる。
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストが「お客様の今月の通話料は100元」である場合、第1の音響的特徴における「16」に対応する特徴2の結合位置を、第2の音響的特徴における「100」に対応する特徴位置として決定することができ、第2の音響的特徴における「お客様の今月の通話料は」に対応する特徴1を、第1の音響的特徴における「16」に対応する特徴2及び第2の音響的特徴における「元」に対応する特徴3に結合することができ、特徴1は、特徴2の時系列の上位にあり、特徴2は特徴3の時系列の上位にある。
S104:ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。
本開示の実施例では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。
1つの実施形態では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成するステップは、ターゲット音響的特徴、音声特徴、合成対象のテキストを音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができる。音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。
図2は、本開示の第2の実施例に係る音声合成方法の概略フローチャートである。
図2に示すように、本開示の第2の実施例の音声合成方法は、以下のステップS201~S204を含む。
S201:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得する。
本開示の実施例では、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間に対応関係がある。識別情報は実際の状況に応じて設定することができ、ここでは限定されない、例えば、ターゲットユーザの識別情報は「張三」、「李四」に設定することができる。
1つの実施形態では、ターゲットユーザの音声特徴を取得するステップは、ターゲットユーザの識別情報を取得し、識別情報に基づいて、ターゲットユーザの音声特徴を取得するステップを含むことができる。これにより、当該方法は、ターゲットユーザの識別情報に基づいて、ターゲットユーザの音声特徴を取得することができる。
例えば、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットユーザの識別情報を取得した後、識別情報に基づいて、上記マッピング関係又はマッピングテーブルにおいて、当該識別情報によってマッピングされた音声特徴を検索して、ターゲットユーザの音声特徴とすることができる。
本開示の実施例では、音声特徴はスタイル特徴と音色特徴を含むことができ、スタイル特徴はユーザの異なるスタイルを区別でき、音色特徴は異なるユーザを区別することができる。
本開示の実施例では、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得することができる。
1つの実施形態では、合成対象のテキストとスタイル特徴に基づいて、第1の音響的特徴を取得するステップは、合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、合成対象のテキストのテキスト特徴を取得し、テキスト特徴とスタイル特徴を結合し、第1の結合特徴を取得し、第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、第1の音響的特徴を取得するステップを含むことができる。
選択的に、テキスト特徴とスタイル特徴を結合し、第1の結合特徴を取得するステップは、テキスト特徴とスタイル特徴との和を第1の結合特徴とするステップを含むことができる。
本開示の実施例では、音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む。なお、音響的特徴の粒度を限定せず、例えば、音響的特徴は、音素粒度の音響的特徴であってもよい。
S202:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、合成対象のテキストとテンプレートテキストとの間の類似度を取得し、類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとするステップを含むことができる。これにより、当該方法は、合成対象のテキストとテンプレートテキストとの間の類似度に基づいて、テンプレートオーディオライブラリから類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとして選択し、選択されたターゲットテンプレートオーディオが合成対象のテキストとのマッチング度合いは最も高く、したがって、音声合成の効果がより良い。
例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオA、B、C、Dを含むことができ、テンプレートオーディオA、B、C、Dは、それぞれテンプレートテキストa、b、c、dに対応し、テンプレートテキストa、b、c、dは、それぞれ「お客様の今月の通話料は100元」、「100元のチャージに成功した」、「アカウント残高は100元」、「お客様の今月の残りの汎用データ通信量は5GB」である。合成対象のテキストが「お客様の今月の通話料は16元」であり、当該合成対象のテキストがテンプレートテキストaとの類似度が最も高いと分かっているため、テンプレートオーディオライブラリから取得できるターゲットテンプレートオーディオはテンプレートオーディオAである。
S203:第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
S204:ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。
ステップS203~S204に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
以上のようにして、本開示の実施例の音声合成方法によれば、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得することができ、これにより、合成対象のテキスト及びターゲットユーザのスタイル特徴が予測された第1の音響的特徴に及ぼす影響を総合的に考慮して、予測された第1の音響的特徴がターゲットユーザのスタイル特徴を有するようにすることができ、音声合成の個性化の向上に役立つ。
図3は、本開示の第3の実施例に係る音声合成方法の概略フローチャートである。
図3に示すように、本開示の第3の実施例の音声合成方法は、以下のステップS301~S307を含む。
S301:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
S302:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
ステップS301~S302に関連する内容は、上記の実施例を参照することができ、ここでは説明を省略する。
S303:ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する。
本開示の実施例では、テンプレートオーディオはテンプレートテキストと対応関係を有し、異なるテンプレートオーディオは、異なるテンプレートテキストに対応し、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得することができる。
1つの実施形態では、テンプレートオーディオとテンプレートテキストとの間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットテンプレートオーディオを取得した後、上記マッピング関係又はマッピングテーブルにおいて、当該ターゲットテンプレートオーディオによってマッピングされたテンプレートテキストを検索して、ターゲットテンプレートテキストとすることができる。なお、上記マッピング関係又はマッピングテーブルはいずれも実際の状況に応じて設定することができ、ここでは限定されない。
例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオA、B、C、Dを含むことができ、テンプレートオーディオA、B、C、Dは、それぞれテンプレートテキストa、b、c、dに対応し、テンプレートテキストa、b、c、dは、それぞれ「お客様の今月の通話料は100元」、「100元のチャージに成功した」、「アカウント残高は100元」、「お客様の今月の残りの汎用データ通信量は5GB」である。ターゲットテンプレートオーディオがテンプレートオーディオAである場合、テンプレートテキストa「お客様の今月の通話料は100元」をターゲットテンプレートテキストとすることができる。
S304:合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する。
本開示の実施例では、合成対象のテキストとターゲットテンプレートテキストには同じ部分と異なる部分が存在する可能性があり、合成対象のテキストとターゲットテンプレートテキストを比較して、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得することができる。
なお、合成対象のテキストとターゲットテンプレートテキストは、いずれも重複テキストを含む。
1つの実施形態では、差分テキストとは、合成対象のテキストに存在するターゲットテンプレートテキストとの差分テキストを指すものである。
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」であり、重複テキストは「お客様の今月の通話料は」、「元」を含み、差分テキストは「16」であってもよい。
S305:第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出し、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出する。
本開示の実施例では、合成対象のテキストは差分テキストを含むことができ、合成対象のテキストに対応する第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出することができる。ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストは重複テキストを含み、ターゲットテンプレートオーディオに対応する第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出することができる。
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」である場合、重複テキストは「お客様の今月の通話料は」、「元」を含むことができ、差分テキストは「16」であってもよい。これにより、第1の音響的特徴から「16」に対応するターゲット第1の音響的特徴を抽出し、且つ第2の音響的特徴から「お客様の今月の通話料は」、「元」に対応するターゲット第2の音響的特徴を抽出することができる。
1つの実施形態では、第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出するステップは、合成対象のテキストにおける差分テキストの第1の開始位置と第1の終了位置を取得し、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出し、抽出された音響的特徴をターゲット第1の音響的特徴とするステップを含むことができる。これにより、当該方法は、第1の開始位置と第1の終了位置に基づいて、第1の音響的特徴からターゲット第1の音響的特徴を正確に抽出することができる。
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、差分テキストが「16」である場合、合成対象のテキストにおける差分テキスト「16」の第1の開始位置は「1」に対応するテキスト位置であり、第1の終了位置は「6」に対応するテキスト位置であり、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出し、抽出された音響的特徴をターゲット第1の音響的特徴とすることができる。
1つの実施形態では、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出するステップは、ターゲットテンプレートテキストにおける重複テキストの第2の開始位置と第2の終了位置を取得し、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出し、抽出された音響的特徴をターゲット第2の音響的特徴とするステップを含むことができる。これにより、当該方法は、第2の開始位置と第2の終了位置に基づいて、第2の音響的特徴からターゲット第2の音響的特徴を正確に抽出することができる。
例えば、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」であり、重複テキストが「お客様の今月の通話料は」、「元」を含む場合、ターゲットテンプレートテキストにおける重複テキストである「お客様の今月の通話料は」の第2の開始位置は「お客様」に対応するテキスト位置であり、第2の終了位置は「は」に対応するテキスト位置であり、ターゲットテンプレートテキストにおける重複テキスト「元」の第2の開始位置と第2の終了位置は、いずれも「元」に対応するテキスト位置であり、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出し、抽出された音響的特徴をターゲット第2の音響的特徴とすることができる。
1つの実施形態では、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出するステップは、合成対象のテキストのテキスト位置と第1の音響的特徴の特徴位置との間の対応関係を取得し、対応関係に基づいて、第1の開始位置から第1の終了位置までの間に対応する第1の音響的特徴における第3の開始位置と第3の終了位置を取得し、第3の開始位置及び第3の終了位置に対応する音響的特徴を第1の音響的特徴から抽出するステップを含むことができる。
なお、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出するステップに関連する内容は、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出するステップに関連する内容を参照することができ、ここでは説明を省略する。
S306:ターゲット第1の音響的特徴とターゲット第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
ステップS306に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
S307:合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成する。
なお、合成対象のテキストのテキスト特徴に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
本開示の実施例では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成することができ、これによって生成された第2の結合特徴は、合成対象のテキストのテキスト特徴、音色特徴、及びターゲット音響的特徴を同時に有することができ、特徴表現効果がより良い。
1つの実施形態では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成するステップは、テキスト特徴、音色特徴及びターゲット音響的特徴との和を第2の結合特徴とするステップを含むことができる。
S308:第2の結合特徴に基づいてターゲット音声を合成する。
1つの実施形態では、第2の結合特徴に基づいてターゲット音声を合成するステップは、第2の結合特徴を音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができ、音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストに基づいて、第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出し、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出し、ターゲット第1の音響的特徴とターゲット第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成し、第2の結合特徴に基づいてターゲット音声を合成することができ、ターゲット音声がターゲットユーザの音色特徴を持ち、音声合成の個性化の向上に役立つ。
本開示の実施例では、予めトレーニングされたターゲット音声合成モデルをさらに取得することができ、合成対象のテキスト、ターゲットテンプレートオーディオ及び音声特徴をターゲット音声合成モデルに入力することができ、ターゲット音声合成モデルが合成対象のテキストのターゲット音声を出力する。これにより、当該方法は、ターゲット音声合成モデルによって自動的に音声合成を実現することができ、音声合成効率の向上に役立つ。
なお、ターゲット音声合成モデルは実際の状況に応じて設定することができ、ここでは限定されない。例えば、ターゲット音声合成モデルは、NNS(Neural Networks、ニューラルネットワーク)モデルであってもよい。
図4に示すように、ターゲット音声合成モデル400は、特徴予測層401、第1の特徴抽出層402、第2の特徴抽出層403、特徴結合層404及び音声合成層405を含む。
特徴予測層401が、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
第1の特徴抽出層402がターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
第2の特徴抽出層403が合成対象のテキストのテキスト特徴を抽出する。
特徴結合層404が、第1の音響的特徴、第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、テキスト特徴、音声特徴における音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成する。
音声合成層405が、第2の結合特徴に基づいてターゲット音声を合成する。
1つの実施形態では、トレーニングサンプルを取得することができ、トレーニングサンプルは、サンプル合成対象テキスト、サンプルターゲットテンプレートオーディオ、サンプルターゲットユーザの音声特徴、及びサンプルターゲット音声を含む。なお、トレーニングサンプルは実際の状況に応じて設定することができ、ここでは限定されない。
トレーニングサンプルに基づいて音声合成モデルをトレーニングし、モデルトレーニング終了条件を満たさないことに応答して戻り、次のトレーニングサンプルを用いて、モデルパラメータを調整する音声合成モデルを引き続きトレーニングし、モデルトレーニング終了条件が満たされると、ターゲット音声合成モデルを生成する。モデルトレーニング終了条件は実際の状況に応じて設定することができ、ここでは限定されない、例えばモデルトレーニング回数が予め設定された回数閾値に達し、モデル精度が予め設定された精度閾値に達するなどに設定することができる。
図5は、本開示の第1の実施例に係る音声合成装置のブロック図である。
図5に示すように、本開示の実施例の音声合成装置500は、予測モジュール501、抽出モジュール502、結合モジュール503、及び合成モジュール504を含む。
予測モジュール501は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する。
抽出モジュール502は、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
結合モジュール503は、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
合成モジュール504は、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する。
本開示の一実施例では、結合モジュール503は、前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第1の取得ユニットと、前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第2の取得ユニットと、前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出する抽出ユニットと、前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む。
本開示の一実施例では、前記抽出ユニットは、さらに、前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得し、前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とする。
前記抽出ユニットは、さらに、前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得し、前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とする。
本開示の一実施例では、予測モジュール501は、さらに、前記ターゲットユーザの識別情報を取得し、前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する。
本開示の一実施例では、前記音声特徴はスタイル特徴と音色特徴を含み、予測モジュール501は、さらに、前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得する。
本開示の一実施例では、予測モジュール501は、さらに、前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得し、前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得する。
本開示の一実施例では、合成モジュール504は、さらに、前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成し、前記第2の結合特徴に基づいて前記ターゲット音声を合成する。
本開示の一実施例では、前記装置は、入力モジュールをさらに含み、前記入力モジュールは、前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含み、
前記特徴予測層が、前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得し、
前記第1の特徴抽出層が、前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出し、
前記第2の特徴抽出層が、前記合成対象のテキストの前記テキスト特徴を抽出し、
前記特徴結合層が、前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成し、
前記音声合成層が、前記第2の結合特徴に基づいて、前記ターゲット音声を合成する。
本開示の一実施例では、前記抽出モジュールは、さらに、前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする。
本開示の一実施例では、前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む。
以上のようにして、本開示の実施例の音声合成装置は、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図6は、本開示の実施例を実行するための例示的な電子機器600の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限することを意図したものではない。
図6に示すように、電子機器600は、読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行できる計算ユニット601を含む。RAM 603には、電子機器600の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット601、ROM 602、及びRAM 603は、バス604を介して互いに接続されている。バス604には、入力/出力(I/O)インターフェース605も接続されている。
電子機器600の複数のコンポーネントはI/Oインターフェース605に接続され、キーボード、マウスなどの入力ユニット606、各タイプのディスプレイ、スピーカなどの出力ユニット607、磁気ディスク、光ディスクなどの記憶ユニット608、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609を含む。通信ユニット609は、電子機器600が、インターネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上記に記載の各方法及び処理、例えば、音声合成方法を実行する。例えば、いくつかの実施例では、音声合成方法を、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部はROM 602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行される場合、上記に記載の音声合成方法の1つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット601は音声合成方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書の上記に記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又は上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容のいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、又は、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示される音声合成方法のステップを実現する。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原理内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (23)

  1. 音声合成方法であって、
    合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップと、
    前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップと、
    前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、
    前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む、
    ことを特徴とする音声合成方法。
  2. 前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、
    前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得するステップと、
    前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得するステップと、
    前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出するステップと、
    前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出するステップは、
    前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得するステップと、
    前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とするステップと、を含み、
    前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出するステップは、
    前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得するステップと、
    前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とするステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記ターゲットユーザの音声特徴を取得するステップは、
    前記ターゲットユーザの識別情報を取得するステップと、
    前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記音声特徴はスタイル特徴と音色特徴を含み、
    前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップは、
    前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得するステップを含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得するステップは、
    前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得するステップと、
    前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得するステップと、
    前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得するステップと、
    前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得するステップと、を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップは、
    前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成するステップと、
    前記第2の結合特徴に基づいて前記ターゲット音声を合成するステップと、を含む、
    ことを特徴とする請求項5に記載の方法。
  8. 前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力するステップであって、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含むステップと、
    前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得するステップと、
    前記第1の特徴抽出層が前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出するステップと、
    前記第2の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出するステップと、
    前記特徴結合層が前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成するステップと、
    前記音声合成層が前記第2の結合特徴に基づいて前記ターゲット音声を合成するステップと、をさらに含む、
    ことを特徴とする請求項7に記載の方法。
  9. 前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、
    前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得するステップと、
    前記合成対象のテキストと前記テンプレートテキストとの類似度を取得するステップと、
    類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとするステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  10. 前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む、
    ことを特徴とする請求項1に記載の方法。
  11. 音声合成装置であって、
    合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する予測モジュールと、
    前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する抽出モジュールと、
    前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、
    前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む、
    ことを特徴とする音声合成装置。
  12. 前記結合モジュールは、
    前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第1の取得ユニットと、
    前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第2の取得ユニットと、
    前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出する抽出ユニットと、
    前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記抽出ユニットは、さらに、
    前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得し、
    前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とし、
    前記抽出ユニットは、さらに、
    前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得し、
    前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とする、
    ことを特徴とする請求項12に記載の装置。
  14. 前記予測モジュールは、さらに、
    前記ターゲットユーザの識別情報を取得し、
    前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する、
    ことを特徴とする請求項11~13のいずれか一項に記載の装置。
  15. 前記音声特徴はスタイル特徴と音色特徴を含み、
    前記予測モジュールは、さらに
    前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得する、
    ことを特徴とする請求項14に記載の装置。
  16. 前記予測モジュールは、さらに、
    前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、
    前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、
    前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得し、
    前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得する、
    ことを特徴とする請求項15に記載の装置。
  17. 前記合成モジュールは、さらに、
    前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成し、
    前記第2の結合特徴に基づいて前記ターゲット音声を合成する、
    ことを特徴とする請求項15に記載の装置。
  18. 前記装置は、入力モジュールをさらに含み、前記入力モジュールは、
    前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含み、
    前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得し、
    前記第1の特徴抽出層が前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出し、
    前記第2の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出し、
    前記特徴結合層が前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成し、
    前記音声合成層が前記第2の結合特徴に基づいて前記ターゲット音声を合成する、
    ことを特徴とする請求項17に記載の装置。
  19. 前記抽出モジュールは、さらに、
    前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、
    前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、
    類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする、
    ことを特徴とする請求項11~13のいずれか一項に記載の装置。
  20. 前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む、
    ことを特徴とする請求項11~13のいずれか一項に記載の装置。
  21. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~10のいずれか一項に記載の音声合成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~10のいずれか一項に記載の音声合成方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  23. コンピュータプログラムであって、
    前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~10のいずれか一項に記載の音声合成方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2022123043A 2021-08-18 2022-08-02 音声合成方法、装置、電子機器及び記憶媒体 Active JP7372402B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110949472.1A CN113808572B (zh) 2021-08-18 2021-08-18 语音合成方法、装置、电子设备和存储介质
CN202110949472.1 2021-08-18

Publications (2)

Publication Number Publication Date
JP2022153600A true JP2022153600A (ja) 2022-10-12
JP7372402B2 JP7372402B2 (ja) 2023-10-31

Family

ID=78893765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022123043A Active JP7372402B2 (ja) 2021-08-18 2022-08-02 音声合成方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
US (1) US20230005466A1 (ja)
JP (1) JP7372402B2 (ja)
KR (1) KR102621436B1 (ja)
CN (1) CN113808572B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4345143A1 (en) 2022-09-27 2024-04-03 Nitto Denko Corporation Pressure-sensitive adhesive sheet

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258885A (ja) 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP2003295880A (ja) 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
CN1889170B (zh) * 2005-06-28 2010-06-09 纽昂斯通讯公司 基于录制的语音模板生成合成语音的方法和***
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成***
US9934775B2 (en) * 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
JP6846237B2 (ja) 2017-03-06 2021-03-24 日本放送協会 音声合成装置及びプログラム
KR102199050B1 (ko) 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP7106680B2 (ja) * 2018-05-17 2022-07-26 グーグル エルエルシー ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
CN111710326B (zh) * 2020-06-12 2024-01-23 携程计算机技术(上海)有限公司 英文语音的合成方法及***、电子设备及存储介质
CN112349273B (zh) * 2020-11-05 2024-05-31 携程计算机技术(上海)有限公司 基于说话人的语音合成方法、模型训练方法及相关设备
CN112382267A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于转换口音的方法、装置、设备以及存储介质
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4345143A1 (en) 2022-09-27 2024-04-03 Nitto Denko Corporation Pressure-sensitive adhesive sheet

Also Published As

Publication number Publication date
KR20220104106A (ko) 2022-07-26
CN113808572B (zh) 2022-06-17
JP7372402B2 (ja) 2023-10-31
CN113808572A (zh) 2021-12-17
KR102621436B1 (ko) 2024-01-05
US20230005466A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
CN107945786B (zh) 语音合成方法和装置
CN105976812B (zh) 一种语音识别方法及其设备
CN107481717B (zh) 一种声学模型训练方法及***
WO2022188734A1 (zh) 一种语音合成方法、装置以及可读存储介质
CN107707745A (zh) 用于提取信息的方法和装置
US10810993B2 (en) Sample-efficient adaptive text-to-speech
WO2022105553A1 (zh) 语音合成方法、装置、可读介质及电子设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
KR20220064940A (ko) 음성 생성 방법, 장치, 전자기기 및 저장매체
CN108877782A (zh) 语音识别方法和装置
CN110309275A (zh) 一种对话生成的方法和装置
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN110136715A (zh) 语音识别方法和装置
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
JP2023059937A (ja) データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム
TW201225064A (en) Method and system for text to speech conversion
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN113744713A (zh) 一种语音合成方法及语音合成模型的训练方法
JP7412483B2 (ja) 音声処理方法、装置、電子機器及び記憶媒体
CN114121010A (zh) 模型训练、语音生成、语音交互方法、设备以及存储介质
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231019

R150 Certificate of patent or registration of utility model

Ref document number: 7372402

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150