JP2022153600A

JP2022153600A - 音声合成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022153600A
Application number: JP2022123043A
Authority: JP
Inventors: ガオ，ヂェンクン; Zhengkun Gao; ヂャン，ジュントン; Junteng Zhang; スン，タオ; Tao Sun; ジャ，レイ; Lei Jia
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2022-08-02
Publication date: 2022-10-12
Anticipated expiration: 2042-08-02
Also published as: KR20220104106A; CN113808572B; JP7372402B2; CN113808572A; KR102621436B1; US20230005466A1

Abstract

【課題】ターゲット音声のリアルさと自然さを高める音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得し、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出し、第１の音響的特徴と第２の音響的特徴を結合して、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、ターゲット音声を生成する。【選択図】図１

Description

本開示はコンピュータ技術の分野に関し、特に、音声合成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムに関する。

現在、音声合成方法は、テキストをターゲットユーザの音声特徴を有すオーディオに変換することができ、音声チャット、スマートホームなどの分野で広く応用されている。例えば、音声チャットシーンでは、ユーザのチャット音声を受信した後、それにマッチングするチャットテキストを取得し、チャットテキストをリアルタイムでターゲットユーザの音声特徴を有するオーディオに変換し、オーディオを再生したり、ユーザ端末にフィードバックしたりすることができる。しかしながら、従来技術の音声合成方法では、合成された音声のリアルさと自然さが劣っている。

本開示は、音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の一態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得するステップと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第２の音響的特徴を抽出するステップと、前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む音声合成方法を提供する。

本開示の別の態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得する予測モジュールと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第２の音響的特徴を抽出する抽出モジュールと、前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む音声合成装置を提供する。

本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが音声合成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに音声合成方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、音声合成方法のステップを実現する。

なお、この部分に記載された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係る音声合成方法の概略フローチャートである。本開示の第２の実施例に係る音声合成方法の概略フローチャートである。本開示の第３の実施例に係る音声合成方法の概略フローチャートである。本開示の第１の実施例に係るターゲット音声合成モデルの概略図である。本開示の第１の実施例に係る音声合成装置のブロック図である。本開示の実施例に係る音声合成方法を実現するための電子機器のブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明するが、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書において説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

音声は、音声認識、音声分離、音声インタラクション、音声合成などの技術分野を含むことができ、人工知能の分野における重要な方向である。

音声合成（ＶｏｉｃｅＳｙｎｔｈｅｓｉｓ）は、機械が文字情報を出力可能な音声に変換する技術であり、音響学、言語学、デジタル信号処理、コンピュータ科学などの分野に関連する。

ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術及び応用システムを研究、開発する技術科学である。現在、ＡＩ技術は自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。

ＮＬＵ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、自然言語処理）は、自然言語通信を効率的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野における重要な方向である。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）は機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野における新しい研究方向であり、サンプルデータの内的な法則と表現レベルを学習し、機械が人間のように分析学習能力を持ち、文字、画像、音などのデータを認識できるようにする科学であり、音声と画像認識に広く応用されている。

図１は、本開示の第１の実施例に係る音声合成方法の概略フローチャートである。

図１に示すように、本開示の第１の実施例の音声合成方法は以下のステップＳ１０１～Ｓ１０４を含む。

Ｓ１０１：合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得する。

なお、本開示の実施例に係る音声合成方法の実行主体は、データ情報処理能力を有するハードウェア装置及び／又は当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、及び他のスマート機器を含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。

本開示の実施例では、合成対象のテキストを取得することができる。なお、合成対象のテキストの言語、タイプなどを過度に限定せず、例えば、合成対象のテキストの言語は、中国語、英語などを含むが、これらに限定されず、合成対象のテキストは、チャットテキスト、スピーチテキストなどを含むが、これらに限定されない。

本開示の実施例では、ターゲットユーザの音声特徴を取得することができる。なお、異なるターゲットユーザは異なる音声特徴に対応することができる。なお、音声特徴のタイプを過度に限定しない。

１つの実施形態では、ターゲットユーザの音声特徴を予めローカルに記憶することができ、これによって音声合成時にローカルの記憶空間からターゲットユーザの音声特徴を取得することができ、ターゲットユーザの音声特徴をオフラインで取得することができ、音声合成の演算量を効果的に減少させる。

本開示の実施例では、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得することができ、これによって合成対象のテキストとターゲットユーザの音声特徴が予測された第１の音響的特徴に及ぼす影響を総合的に考慮することができ、予測された第１の音響的特徴は合成対象のテキストの特徴と音声特徴を有し、個人化音声合成を実現することができる。

１つの実施形態では、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得するステップは、合成対象のテキストと音声特徴を特徴予測アルゴリズムに入力し、特徴予測アルゴリズムが、予測された第１の音響的特徴を出力するステップを含むことができる。特徴予測アルゴリズムは、実際の状況に応じて設定することができ、ここでは限定されない。

Ｓ１０２：合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出する。

本開示の実施例では、テンプレートオーディオライブラリを取得することができ、テンプレートオーディオライブラリが複数のテンプレートオーディオを含む。なお、テンプレートオーディオライブラリは、実際の状況に応じて設定することができるが、ここでは限定されない。

本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得することができる。さらに、ターゲットテンプレートオーディオの第２の音響的特徴を抽出することができる。

１つの実施形態では、ターゲットテンプレートオーディオの第２の音響的特徴を抽出するステップは、ターゲットテンプレートオーディオを特徴抽出アルゴリズムに入力し、特徴抽出アルゴリズムが第２の音響的特徴を出力するステップを含むことができる。特徴抽出アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。

Ｓ１０３：第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成する。

本開示の実施例では、第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成することができ、これにより、生成されたターゲット音響的特徴は、合成対象のテキストの第１の音響的特徴とターゲットテンプレートオーディオの第２の音響的特徴とを同時に有することができ、特徴表現効果がより良い。

１つの実施形態では、第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得し、ターゲットテンプレートテキストと合成対象のテキストに基づいて、第１の音響的特徴と第２の音響的特徴との結合位置を決定し、結合位置に従って第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成するステップを含むことができる。

例えば、合成対象のテキストが「お客様の今月の通話料は１６元」であり、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストが「お客様の今月の通話料は１００元」である場合、第１の音響的特徴における「１６」に対応する特徴２の結合位置を、第２の音響的特徴における「１００」に対応する特徴位置として決定することができ、第２の音響的特徴における「お客様の今月の通話料は」に対応する特徴１を、第１の音響的特徴における「１６」に対応する特徴２及び第２の音響的特徴における「元」に対応する特徴３に結合することができ、特徴１は、特徴２の時系列の上位にあり、特徴２は特徴３の時系列の上位にある。

Ｓ１０４：ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。

本開示の実施例では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。

１つの実施形態では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成するステップは、ターゲット音響的特徴、音声特徴、合成対象のテキストを音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができる。音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。

以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出し、第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第１の音響的特徴とターゲットテンプレートオーディオの第２の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。

図２は、本開示の第２の実施例に係る音声合成方法の概略フローチャートである。

図２に示すように、本開示の第２の実施例の音声合成方法は、以下のステップＳ２０１～Ｓ２０４を含む。

Ｓ２０１：合成対象のテキスト及びターゲットユーザの音声特徴を取得し、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第１の音響的特徴を取得する。

本開示の実施例では、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間に対応関係がある。識別情報は実際の状況に応じて設定することができ、ここでは限定されない、例えば、ターゲットユーザの識別情報は「張三」、「李四」に設定することができる。

１つの実施形態では、ターゲットユーザの音声特徴を取得するステップは、ターゲットユーザの識別情報を取得し、識別情報に基づいて、ターゲットユーザの音声特徴を取得するステップを含むことができる。これにより、当該方法は、ターゲットユーザの識別情報に基づいて、ターゲットユーザの音声特徴を取得することができる。

例えば、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットユーザの識別情報を取得した後、識別情報に基づいて、上記マッピング関係又はマッピングテーブルにおいて、当該識別情報によってマッピングされた音声特徴を検索して、ターゲットユーザの音声特徴とすることができる。

本開示の実施例では、音声特徴はスタイル特徴と音色特徴を含むことができ、スタイル特徴はユーザの異なるスタイルを区別でき、音色特徴は異なるユーザを区別することができる。

本開示の実施例では、合成対象のテキストとスタイル特徴に基づいて、予測された第１の音響的特徴を取得することができる。

１つの実施形態では、合成対象のテキストとスタイル特徴に基づいて、第１の音響的特徴を取得するステップは、合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、合成対象のテキストのテキスト特徴を取得し、テキスト特徴とスタイル特徴を結合し、第１の結合特徴を取得し、第１の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、第１の音響的特徴を取得するステップを含むことができる。

選択的に、テキスト特徴とスタイル特徴を結合し、第１の結合特徴を取得するステップは、テキスト特徴とスタイル特徴との和を第１の結合特徴とするステップを含むことができる。

本開示の実施例では、音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも１つを含む。なお、音響的特徴の粒度を限定せず、例えば、音響的特徴は、音素粒度の音響的特徴であってもよい。

Ｓ２０２：合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出する。

本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、合成対象のテキストとテンプレートテキストとの間の類似度を取得し、類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとするステップを含むことができる。これにより、当該方法は、合成対象のテキストとテンプレートテキストとの間の類似度に基づいて、テンプレートオーディオライブラリから類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとして選択し、選択されたターゲットテンプレートオーディオが合成対象のテキストとのマッチング度合いは最も高く、したがって、音声合成の効果がより良い。

例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオＡ、Ｂ、Ｃ、Ｄを含むことができ、テンプレートオーディオＡ、Ｂ、Ｃ、Ｄは、それぞれテンプレートテキストａ、ｂ、ｃ、ｄに対応し、テンプレートテキストａ、ｂ、ｃ、ｄは、それぞれ「お客様の今月の通話料は１００元」、「１００元のチャージに成功した」、「アカウント残高は１００元」、「お客様の今月の残りの汎用データ通信量は５ＧＢ」である。合成対象のテキストが「お客様の今月の通話料は１６元」であり、当該合成対象のテキストがテンプレートテキストａとの類似度が最も高いと分かっているため、テンプレートオーディオライブラリから取得できるターゲットテンプレートオーディオはテンプレートオーディオＡである。

Ｓ２０３：第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成する。

Ｓ２０４：ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。

ステップＳ２０３～Ｓ２０４に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。

以上のようにして、本開示の実施例の音声合成方法によれば、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第１の音響的特徴を取得することができ、これにより、合成対象のテキスト及びターゲットユーザのスタイル特徴が予測された第１の音響的特徴に及ぼす影響を総合的に考慮して、予測された第１の音響的特徴がターゲットユーザのスタイル特徴を有するようにすることができ、音声合成の個性化の向上に役立つ。

図３は、本開示の第３の実施例に係る音声合成方法の概略フローチャートである。

図３に示すように、本開示の第３の実施例の音声合成方法は、以下のステップＳ３０１～Ｓ３０７を含む。

Ｓ３０１：合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得する。

Ｓ３０２：合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出する。

ステップＳ３０１～Ｓ３０２に関連する内容は、上記の実施例を参照することができ、ここでは説明を省略する。

Ｓ３０３：ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する。

本開示の実施例では、テンプレートオーディオはテンプレートテキストと対応関係を有し、異なるテンプレートオーディオは、異なるテンプレートテキストに対応し、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得することができる。

１つの実施形態では、テンプレートオーディオとテンプレートテキストとの間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットテンプレートオーディオを取得した後、上記マッピング関係又はマッピングテーブルにおいて、当該ターゲットテンプレートオーディオによってマッピングされたテンプレートテキストを検索して、ターゲットテンプレートテキストとすることができる。なお、上記マッピング関係又はマッピングテーブルはいずれも実際の状況に応じて設定することができ、ここでは限定されない。

例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオＡ、Ｂ、Ｃ、Ｄを含むことができ、テンプレートオーディオＡ、Ｂ、Ｃ、Ｄは、それぞれテンプレートテキストａ、ｂ、ｃ、ｄに対応し、テンプレートテキストａ、ｂ、ｃ、ｄは、それぞれ「お客様の今月の通話料は１００元」、「１００元のチャージに成功した」、「アカウント残高は１００元」、「お客様の今月の残りの汎用データ通信量は５ＧＢ」である。ターゲットテンプレートオーディオがテンプレートオーディオＡである場合、テンプレートテキストａ「お客様の今月の通話料は１００元」をターゲットテンプレートテキストとすることができる。

Ｓ３０４：合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する。

本開示の実施例では、合成対象のテキストとターゲットテンプレートテキストには同じ部分と異なる部分が存在する可能性があり、合成対象のテキストとターゲットテンプレートテキストを比較して、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得することができる。

なお、合成対象のテキストとターゲットテンプレートテキストは、いずれも重複テキストを含む。

１つの実施形態では、差分テキストとは、合成対象のテキストに存在するターゲットテンプレートテキストとの差分テキストを指すものである。

例えば、合成対象のテキストが「お客様の今月の通話料は１６元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は１００元」であり、重複テキストは「お客様の今月の通話料は」、「元」を含み、差分テキストは「１６」であってもよい。

Ｓ３０５：第１の音響的特徴から差分テキストに対応するターゲット第１の音響的特徴を抽出し、第２の音響的特徴から重複テキストに対応するターゲット第２の音響的特徴を抽出する。

本開示の実施例では、合成対象のテキストは差分テキストを含むことができ、合成対象のテキストに対応する第１の音響的特徴から差分テキストに対応するターゲット第１の音響的特徴を抽出することができる。ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストは重複テキストを含み、ターゲットテンプレートオーディオに対応する第２の音響的特徴から重複テキストに対応するターゲット第２の音響的特徴を抽出することができる。

例えば、合成対象のテキストが「お客様の今月の通話料は１６元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は１００元」である場合、重複テキストは「お客様の今月の通話料は」、「元」を含むことができ、差分テキストは「１６」であってもよい。これにより、第１の音響的特徴から「１６」に対応するターゲット第１の音響的特徴を抽出し、且つ第２の音響的特徴から「お客様の今月の通話料は」、「元」に対応するターゲット第２の音響的特徴を抽出することができる。

１つの実施形態では、第１の音響的特徴から差分テキストに対応するターゲット第１の音響的特徴を抽出するステップは、合成対象のテキストにおける差分テキストの第１の開始位置と第１の終了位置を取得し、第１の開始位置から第１の終了位置までの間に対応する音響的特徴を第１の音響的特徴から抽出し、抽出された音響的特徴をターゲット第１の音響的特徴とするステップを含むことができる。これにより、当該方法は、第１の開始位置と第１の終了位置に基づいて、第１の音響的特徴からターゲット第１の音響的特徴を正確に抽出することができる。

例えば、合成対象のテキストが「お客様の今月の通話料は１６元」であり、差分テキストが「１６」である場合、合成対象のテキストにおける差分テキスト「１６」の第１の開始位置は「１」に対応するテキスト位置であり、第１の終了位置は「６」に対応するテキスト位置であり、第１の開始位置から第１の終了位置までの間に対応する音響的特徴を第１の音響的特徴から抽出し、抽出された音響的特徴をターゲット第１の音響的特徴とすることができる。

１つの実施形態では、第２の音響的特徴から重複テキストに対応するターゲット第２の音響的特徴を抽出するステップは、ターゲットテンプレートテキストにおける重複テキストの第２の開始位置と第２の終了位置を取得し、第２の開始位置から第２の終了位置までの間に対応する音響的特徴を第２の音響的特徴から抽出し、抽出された音響的特徴をターゲット第２の音響的特徴とするステップを含むことができる。これにより、当該方法は、第２の開始位置と第２の終了位置に基づいて、第２の音響的特徴からターゲット第２の音響的特徴を正確に抽出することができる。

例えば、ターゲットテンプレートテキストが「お客様の今月の通話料は１００元」であり、重複テキストが「お客様の今月の通話料は」、「元」を含む場合、ターゲットテンプレートテキストにおける重複テキストである「お客様の今月の通話料は」の第２の開始位置は「お客様」に対応するテキスト位置であり、第２の終了位置は「は」に対応するテキスト位置であり、ターゲットテンプレートテキストにおける重複テキスト「元」の第２の開始位置と第２の終了位置は、いずれも「元」に対応するテキスト位置であり、第２の開始位置から第２の終了位置までの間に対応する音響的特徴を第２の音響的特徴から抽出し、抽出された音響的特徴をターゲット第２の音響的特徴とすることができる。

１つの実施形態では、第１の開始位置から第１の終了位置までの間に対応する音響的特徴を第１の音響的特徴から抽出するステップは、合成対象のテキストのテキスト位置と第１の音響的特徴の特徴位置との間の対応関係を取得し、対応関係に基づいて、第１の開始位置から第１の終了位置までの間に対応する第１の音響的特徴における第３の開始位置と第３の終了位置を取得し、第３の開始位置及び第３の終了位置に対応する音響的特徴を第１の音響的特徴から抽出するステップを含むことができる。

なお、第２の開始位置から第２の終了位置までの間に対応する音響的特徴を第２の音響的特徴から抽出するステップに関連する内容は、第１の開始位置から第１の終了位置までの間に対応する音響的特徴を第１の音響的特徴から抽出するステップに関連する内容を参照することができ、ここでは説明を省略する。

Ｓ３０６：ターゲット第１の音響的特徴とターゲット第２の音響的特徴を結合し、ターゲット音響的特徴を生成する。

ステップＳ３０６に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。

Ｓ３０７：合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第２の結合特徴を生成する。

なお、合成対象のテキストのテキスト特徴に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。

本開示の実施例では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第２の結合特徴を生成することができ、これによって生成された第２の結合特徴は、合成対象のテキストのテキスト特徴、音色特徴、及びターゲット音響的特徴を同時に有することができ、特徴表現効果がより良い。

１つの実施形態では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第２の結合特徴を生成するステップは、テキスト特徴、音色特徴及びターゲット音響的特徴との和を第２の結合特徴とするステップを含むことができる。

Ｓ３０８：第２の結合特徴に基づいてターゲット音声を合成する。

１つの実施形態では、第２の結合特徴に基づいてターゲット音声を合成するステップは、第２の結合特徴を音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができ、音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。

以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストに基づいて、第１の音響的特徴から差分テキストに対応するターゲット第１の音響的特徴を抽出し、第２の音響的特徴から重複テキストに対応するターゲット第２の音響的特徴を抽出し、ターゲット第１の音響的特徴とターゲット第２の音響的特徴を結合し、ターゲット音響的特徴を生成し、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第２の結合特徴を生成し、第２の結合特徴に基づいてターゲット音声を合成することができ、ターゲット音声がターゲットユーザの音色特徴を持ち、音声合成の個性化の向上に役立つ。

本開示の実施例では、予めトレーニングされたターゲット音声合成モデルをさらに取得することができ、合成対象のテキスト、ターゲットテンプレートオーディオ及び音声特徴をターゲット音声合成モデルに入力することができ、ターゲット音声合成モデルが合成対象のテキストのターゲット音声を出力する。これにより、当該方法は、ターゲット音声合成モデルによって自動的に音声合成を実現することができ、音声合成効率の向上に役立つ。

なお、ターゲット音声合成モデルは実際の状況に応じて設定することができ、ここでは限定されない。例えば、ターゲット音声合成モデルは、ＮＮＳ（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ニューラルネットワーク）モデルであってもよい。

図４に示すように、ターゲット音声合成モデル４００は、特徴予測層４０１、第１の特徴抽出層４０２、第２の特徴抽出層４０３、特徴結合層４０４及び音声合成層４０５を含む。

特徴予測層４０１が、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得する。

第１の特徴抽出層４０２がターゲットテンプレートオーディオの第２の音響的特徴を抽出する。

第２の特徴抽出層４０３が合成対象のテキストのテキスト特徴を抽出する。

特徴結合層４０４が、第１の音響的特徴、第２の音響的特徴を結合し、ターゲット音響的特徴を生成し、テキスト特徴、音声特徴における音色特徴及びターゲット音響的特徴を結合し、第２の結合特徴を生成する。

音声合成層４０５が、第２の結合特徴に基づいてターゲット音声を合成する。

１つの実施形態では、トレーニングサンプルを取得することができ、トレーニングサンプルは、サンプル合成対象テキスト、サンプルターゲットテンプレートオーディオ、サンプルターゲットユーザの音声特徴、及びサンプルターゲット音声を含む。なお、トレーニングサンプルは実際の状況に応じて設定することができ、ここでは限定されない。

トレーニングサンプルに基づいて音声合成モデルをトレーニングし、モデルトレーニング終了条件を満たさないことに応答して戻り、次のトレーニングサンプルを用いて、モデルパラメータを調整する音声合成モデルを引き続きトレーニングし、モデルトレーニング終了条件が満たされると、ターゲット音声合成モデルを生成する。モデルトレーニング終了条件は実際の状況に応じて設定することができ、ここでは限定されない、例えばモデルトレーニング回数が予め設定された回数閾値に達し、モデル精度が予め設定された精度閾値に達するなどに設定することができる。

図５は、本開示の第１の実施例に係る音声合成装置のブロック図である。

図５に示すように、本開示の実施例の音声合成装置５００は、予測モジュール５０１、抽出モジュール５０２、結合モジュール５０３、及び合成モジュール５０４を含む。

予測モジュール５０１は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得する。

抽出モジュール５０２は、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第２の音響的特徴を抽出する。

結合モジュール５０３は、前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成する。

合成モジュール５０４は、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する。

本開示の一実施例では、結合モジュール５０３は、前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第１の取得ユニットと、前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第２の取得ユニットと、前記第１の音響的特徴から前記差分テキストに対応するターゲット第１の音響的特徴を抽出し、前記第２の音響的特徴から前記重複テキストに対応するターゲット第２の音響的特徴を抽出する抽出ユニットと、前記ターゲット第１の音響的特徴と前記ターゲット第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む。

本開示の一実施例では、前記抽出ユニットは、さらに、前記合成対象のテキストにおける前記差分テキストの第１の開始位置と第１の終了位置を取得し、前記第１の開始位置から前記第１の終了位置までの間に対応する音響的特徴を前記第１の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第１の音響的特徴とする。

前記抽出ユニットは、さらに、前記ターゲットテンプレートテキストにおける前記重複テキストの第２の開始位置及び第２の終了位置を取得し、前記第２の開始位置から前記第２の終了位置までの間に対応する音響的特徴を前記第２の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第２の音響的特徴とする。

本開示の一実施例では、予測モジュール５０１は、さらに、前記ターゲットユーザの識別情報を取得し、前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する。

本開示の一実施例では、前記音声特徴はスタイル特徴と音色特徴を含み、予測モジュール５０１は、さらに、前記合成対象のテキストと前記スタイル特徴に基づいて、前記第１の音響的特徴を取得する。

本開示の一実施例では、予測モジュール５０１は、さらに、前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、前記テキスト特徴と前記スタイル特徴を結合し、第１の結合特徴を取得し、前記第１の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第１の音響的特徴を取得する。

本開示の一実施例では、合成モジュール５０４は、さらに、前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第２の結合特徴を生成し、前記第２の結合特徴に基づいて前記ターゲット音声を合成する。

本開示の一実施例では、前記装置は、入力モジュールをさらに含み、前記入力モジュールは、前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第１の特徴抽出層、第２の特徴抽出層、特徴結合層及び音声合成層を含み、
前記特徴予測層が、前記合成対象のテキストと前記音声特徴に基づいて、前記第１の音響的特徴を取得し、
前記第１の特徴抽出層が、前記ターゲットテンプレートオーディオの前記第２の音響的特徴を抽出し、
前記第２の特徴抽出層が、前記合成対象のテキストの前記テキスト特徴を抽出し、
前記特徴結合層が、前記第１の音響的特徴、前記第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第２の結合特徴を生成し、
前記音声合成層が、前記第２の結合特徴に基づいて、前記ターゲット音声を合成する。

本開示の一実施例では、前記抽出モジュールは、さらに、前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする。

本開示の一実施例では、前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも１つを含む。

以上のようにして、本開示の実施例の音声合成装置は、合成対象のテキストと音声特徴に基づいて、予測された第１の音響的特徴を取得し、ターゲットテンプレートオーディオの第２の音響的特徴を抽出し、第１の音響的特徴と第２の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第１の音響的特徴とターゲットテンプレートオーディオの第２の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。

なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

図６は、本開示の実施例を実行するための例示的な電子機器６００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は求められる本開示の実現を制限することを意図したものではない。

図６に示すように、電子機器６００は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラム又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行できる計算ユニット６０１を含む。ＲＡＭ６０３には、電子機器６００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。バス６０４には、入力／出力（Ｉ／Ｏ）インターフェース６０５も接続されている。

電子機器６００の複数のコンポーネントはＩ／Ｏインターフェース６０５に接続され、キーボード、マウスなどの入力ユニット６０６、各タイプのディスプレイ、スピーカなどの出力ユニット６０７、磁気ディスク、光ディスクなどの記憶ユニット６０８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット６０９を含む。通信ユニット６０９は、電子機器６００が、インターネットなどのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット６０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上記に記載の各方法及び処理、例えば、音声合成方法を実行する。例えば、いくつかの実施例では、音声合成方法を、記憶ユニット６０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部はＲＯＭ６０２及び／又は通信ユニット６０９を介して電子機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行される場合、上記に記載の音声合成方法の１つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット６０１は音声合成方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書の上記に記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び／又はブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又は上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容のいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、又は、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示される音声合成方法のステップを実現する。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原理内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

音声合成方法であって、
合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得するステップと、
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第２の音響的特徴を抽出するステップと、
前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む、
ことを特徴とする音声合成方法。
前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、
前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得するステップと、
前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得するステップと、
前記第１の音響的特徴から前記差分テキストに対応するターゲット第１の音響的特徴を抽出し、前記第２の音響的特徴から前記重複テキストに対応するターゲット第２の音響的特徴を抽出するステップと、
前記ターゲット第１の音響的特徴と前記ターゲット第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記第１の音響的特徴から前記差分テキストに対応するターゲット第１の音響的特徴を抽出するステップは、
前記合成対象のテキストにおける前記差分テキストの第１の開始位置と第１の終了位置を取得するステップと、
前記第１の開始位置から前記第１の終了位置までの間に対応する音響的特徴を前記第１の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第１の音響的特徴とするステップと、を含み、
前記第２の音響的特徴から前記重複テキストに対応するターゲット第２の音響的特徴を抽出するステップは、
前記ターゲットテンプレートテキストにおける前記重複テキストの第２の開始位置及び第２の終了位置を取得するステップと、
前記第２の開始位置から前記第２の終了位置までの間に対応する音響的特徴を前記第２の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第２の音響的特徴とするステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記ターゲットユーザの音声特徴を取得するステップは、
前記ターゲットユーザの識別情報を取得するステップと、
前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記音声特徴はスタイル特徴と音色特徴を含み、
前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得するステップは、
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第１の音響的特徴を取得するステップを含む、
ことを特徴とする請求項４に記載の方法。
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第１の音響的特徴を取得するステップは、
前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得するステップと、
前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得するステップと、
前記テキスト特徴と前記スタイル特徴を結合し、第１の結合特徴を取得するステップと、
前記第１の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第１の音響的特徴を取得するステップと、を含む、
ことを特徴とする請求項５に記載の方法。
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップは、
前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第２の結合特徴を生成するステップと、
前記第２の結合特徴に基づいて前記ターゲット音声を合成するステップと、を含む、
ことを特徴とする請求項５に記載の方法。
前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力するステップであって、前記ターゲット音声合成モデルが、特徴予測層、第１の特徴抽出層、第２の特徴抽出層、特徴結合層及び音声合成層を含むステップと、
前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第１の音響的特徴を取得するステップと、
前記第１の特徴抽出層が前記ターゲットテンプレートオーディオの前記第２の音響的特徴を抽出するステップと、
前記第２の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出するステップと、
前記特徴結合層が前記第１の音響的特徴、前記第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第２の結合特徴を生成するステップと、
前記音声合成層が前記第２の結合特徴に基づいて前記ターゲット音声を合成するステップと、をさらに含む、
ことを特徴とする請求項７に記載の方法。
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、
前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得するステップと、
前記合成対象のテキストと前記テンプレートテキストとの類似度を取得するステップと、
類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとするステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも１つを含む、
ことを特徴とする請求項１に記載の方法。
音声合成装置であって、
合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第１の音響的特徴を取得する予測モジュールと、
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第２の音響的特徴を抽出する抽出モジュールと、
前記第１の音響的特徴と前記第２の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む、
ことを特徴とする音声合成装置。
前記結合モジュールは、
前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第１の取得ユニットと、
前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第２の取得ユニットと、
前記第１の音響的特徴から前記差分テキストに対応するターゲット第１の音響的特徴を抽出し、前記第２の音響的特徴から前記重複テキストに対応するターゲット第２の音響的特徴を抽出する抽出ユニットと、
前記ターゲット第１の音響的特徴と前記ターゲット第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記抽出ユニットは、さらに、
前記合成対象のテキストにおける前記差分テキストの第１の開始位置と第１の終了位置を取得し、
前記第１の開始位置から前記第１の終了位置までの間に対応する音響的特徴を前記第１の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第１の音響的特徴とし、
前記抽出ユニットは、さらに、
前記ターゲットテンプレートテキストにおける前記重複テキストの第２の開始位置及び第２の終了位置を取得し、
前記第２の開始位置から前記第２の終了位置までの間に対応する音響的特徴を前記第２の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第２の音響的特徴とする、
ことを特徴とする請求項１２に記載の装置。
前記予測モジュールは、さらに、
前記ターゲットユーザの識別情報を取得し、
前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する、
ことを特徴とする請求項１１～１３のいずれか一項に記載の装置。
前記音声特徴はスタイル特徴と音色特徴を含み、
前記予測モジュールは、さらに
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第１の音響的特徴を取得する、
ことを特徴とする請求項１４に記載の装置。
前記予測モジュールは、さらに、
前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、
前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、
前記テキスト特徴と前記スタイル特徴を結合し、第１の結合特徴を取得し、
前記第１の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第１の音響的特徴を取得する、
ことを特徴とする請求項１５に記載の装置。
前記合成モジュールは、さらに、
前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第２の結合特徴を生成し、
前記第２の結合特徴に基づいて前記ターゲット音声を合成する、
ことを特徴とする請求項１５に記載の装置。
前記装置は、入力モジュールをさらに含み、前記入力モジュールは、
前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第１の特徴抽出層、第２の特徴抽出層、特徴結合層及び音声合成層を含み、
前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第１の音響的特徴を取得し、
前記第１の特徴抽出層が前記ターゲットテンプレートオーディオの前記第２の音響的特徴を抽出し、
前記第２の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出し、
前記特徴結合層が前記第１の音響的特徴、前記第２の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第２の結合特徴を生成し、
前記音声合成層が前記第２の結合特徴に基づいて前記ターゲット音声を合成する、
ことを特徴とする請求項１７に記載の装置。
前記抽出モジュールは、さらに、
前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、
前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、
類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする、
ことを特徴とする請求項１１～１３のいずれか一項に記載の装置。
前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも１つを含む、
ことを特徴とする請求項１１～１３のいずれか一項に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～１０のいずれか一項に記載の音声合成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～１０のいずれか一項に記載の音声合成方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムはプロセッサによって実行される場合、請求項１～１０のいずれか一項に記載の音声合成方法を実現する、
ことを特徴とするコンピュータプログラム。