JP7412483B2

JP7412483B2 - 音声処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7412483B2
Application number: JP2022110128A
Authority: JP
Inventors: ジャンカンホウ，; タオサン，; ツィペンニエ，; リキャンチャン，; レイジア，; ハイフェンワン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2022-07-08
Publication date: 2024-01-12
Anticipated expiration: 2042-07-08
Also published as: KR20220127190A; JP2022133447A; US20230015112A1; CN113889073A; CN113889073B

Description

本開示は、コンピュータ技術の分野に関し、具体的には、音声技術及び深層学習などの人工知能技術の分野に関し、特に、音声処理方法、装置、電子機器及び記憶媒体に関する。

ボコーダ技術とは、音響的特徴を音声信号に変換する技術である。ボコーダは、音声合成リンク内の重要な構成部分であり、合成オーディオの安定性、音質及び表現力を直接決定する。

音声合成技術は、今まで発展してきて多種多様なボコーダ技術が形成されており、特に、近年、深層学習技術の成熟につれて、合成品質の良いニューラルボコーダが多く登場している。これらのボコーダは、深層学習技術を採用しているか否かによって、従来のボコーダとニューラルネットワークボコーダに分けられるが、ここで、深層学習技術が適用されていないボコーダを従来のボコーダと総称し、深層学習技術が採用されている別の種類のボコーダをニューラルネットワークボコーダと呼ぶ。

本開示は、音声処理方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、音声処理方法を提供し、音声処理方法は、オリジナル音声を取得するステップと、前記オリジナル音声からスペクトルマップを抽出するステップと、第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得するステップと、前記第１の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するステップと、前記第２の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するステップと、を含む。

本開示の他の態様によれば、音声処理装置を提供し、音声処理装置は、オリジナル音声を取得するように構成される第１の取得モジュールと、前記オリジナル音声からスペクトルマップを抽出するように構成される抽出モジュールと、第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得するように構成される第２の取得モジュールと、前記第１の生成サブモデルを呼び出して前記スペクトルマップを処理して、前記スペクトルマップの高調波構造を生成するように構成される第１の生成モジュールと、前記第２の生成サブモデルを呼び出して前記高調波構造及び前記スペクトルマップを処理して、ターゲット音声を生成するように構成される第２の生成モジュールと、を備える。

本開示の他の態様によれば、電子機器を提供し、電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが上記の一態様の実施例に記載の音声処理方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の他の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の一態様の実施例に記載の音声処理方法を実行させる。

本開示の他の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の一態様の実施例に記載の音声処理方法のステップが実現される。

なお、本部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提供される音声処理方法の概略フローチャートである。本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。本開示の実施例によって提供される他の音声処理方法の概略フローチャートである。本開示の実施例によって提供される音声処理装置の概略構成図である。本開示の実施例の音声処理方法の電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下に、図面を参照して本開示の実施例の音声処理方法、装置、電子機器及び記憶媒体を説明する。

人工知能は、コンピュータを利用して人間のある思考過程と知能行為（例えば、学習、推理、思考、計画など）をシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

音声技術とは、コンピュータ技術分野における重要な技術として、自動音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、「ＡＳＲ」と略す）及び音声合成技術（ＴｅｘｔｔｏＳｐｅｅｃｈ、「ＴＴＳ」と略す）がある。ここで、コンピュータが聞くこと、見ること、話すこと、感じることができるようにすることは、将来のヒューマンコンピュータインタラクションの発展方向であり、ここで、音声は、将来の最も有望なヒューマンコンピュータインタラクション方式となっており、音声は、他のインタラクション方式よりも多くの利点があり、最初の音声技術は、「自動翻訳電話」という計画に由来し、音声認識、自然言語理解及び音声合成の３つの非常に主要な技術を含む。音声認識の研究活動は、２０世紀５０年代のＡＴ＆Ｔベル実験室のＡｕｄｒｙシステムに遡ることができ、その後研究者たちは、大きな語彙量、連続した音声及び不特定の人間という３つの障害を徐々に突破し、コンピュータに発話させるには音声合成技術が必要であるが、そのコアは、テキスト変換技術（ＴｅｘｔｔｏＳｐｅｅｃｈ）であり、音声合成は、自動車の情報システムにまで適用され、車の所有者は、システムのコンピュータにダウンロードされたテキストファイル、電子メール、ネットワークニュース又は小説を音声に変換して車内で聞くことができる。

深層学習は、機械学習分野における新たな研究方向である。深層学習は、サンプルデータの内在法則や表現階層を学習することであり、これらの学習過程において得られた情報は、文字、画像及び音響などのデータの解釈に大きく役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像及び音響などのデータを認識できるようにすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声及び画像認識面で得られた効果は、従来の関連技術をはるかに上回る。

本開示の実施例に係る音声処理方法は、電子機器によって実行されてもよく、当該電子機器は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）パソコン、タブレット、ハンドヘルド、携帯電話又はサーバなどであってもよく、ここでは限定されない。

本開示の実施例において、電子機器には、処理コンポーネント、記憶コンポーネント及び駆動コンポーネントが設けられてもよい。選択的に、当該駆動コンポーネント及び処理コンポーネントは、統合して設けることができ、当該記憶コンポーネントは、オペレーティングシステム、アプリケーションプログラム又は他のプログラムモジュールを記憶することができ、当該処理コンポーネントは、記憶コンポーネントに記憶されているアプリケーションプログラムを実行することにより、本開示の実施例に係る音声処理方法を実現する。

図１は、本開示の実施例によって提供される音声処理方法の概略フローチャートである。

本開示の実施例の音声処理方法は、本開示の実施例によって提供される音声処理装置によって実行されてもよく、当該装置は、電子機器に配置されてもよく、取得されたオリジナル音声からスペクトルマップを抽出し、音声合成モデル内の第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、音声合成モデル内の第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成することにより、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。

可能な場合として、本開示の実施例の音声処理方法は、サーバで実行されてもよく、サーバは、クラウドサーバであってもよく、クラウドで当該音声処理方法を実行してもよい。

本開示の実施例において、本開示の当該実施例の音声処理方法は、音声アナウンス（例えば、地図ナビゲーション音声、コネクテッドカー音声インタラクション、辞書ペンアナウンスなど）を必要とするいくつかのＡＰＰ（Ａｐｐｌｉｃａｔｉｏｎ、アプリケーション）に適用することができ、当該ＡＰＰは、ＰＣコンピュータ、タブレット、ハンドヘルド、携帯電話などの電子機器にインストールすることができる。

図１に示すように、当該音声処理方法は、以下のステップを含むことができる。

ステップ１０１において、オリジナル音声を取得する。ここで、オリジナル音声は複数であってもよく、当該オリジナル音声は、さまざまな言語で表現された音声であってもよく、例えば、中国語音声、英語音声、ロシア語音声、マレー語音声、中国語と英語の混用音声などであってもよく、ここでは限定されない。オリジナル音声は、文、段落又は章、例えば、ニュース原稿などを含むことができる。

本開示の実施例において、上記のオリジナル音声は、ユーザが音声認識によって入力した音声情報、ユーザがネットワークからダウンロードしたいくつかの映画、音楽、ドラマなどのオーディオ情報（音声情報）、及びユーザが音声提供装置から取得した音声情報を含むことができる。ここで、音声提供装置は、ＭＰ３（音楽ファイルを再生できるプレーヤー）、ビデオシーディープレーヤー、サーバ、モバイル端末及びスマートハードディスクなどを備えることができる。ここでは限定されない。

なお、ユーザは、収集（取得）された音声情報を電子機器の記憶空間に入力することにより、後続の使用のために保存することができる。ここで、当該記憶空間は、エンティティに基づく記憶空間、例えば、ハードディスクに限定されず、当該記憶空間は、電子機器に接続されているネットワークハードディスクの記憶空間（クラウド記憶空間）であってもよい。

具体的には、電子機器（例えば、携帯電話）は、自身の記憶空間からオリジナル音声を取得するか、又は自身の音声機能で録音してオリジナル音声を取得するか、又は音声提供装置からオリジナル音声を取得することができる。

ステップ１０２において、オリジナル音声からスペクトルマップを抽出する。ここで、当該スペクトルマップは、Ｍｅｌ（メル）スペクトルマップであってもよい。

本開示の実施例において、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。ここで、予め設定された抽出アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。

具体的には、電子機器は、オリジナル音声を取得した後、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。

可能な場合として、オリジナル音声からスペクトルマップを抽出するように、抽出モデルに基づいてオリジナル音声を処理することもできる。なお、当該実施例において説明される抽出モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に予め記憶されていてもよい。

ここで、当該抽出モデルのトレーニング及び生成は、いずれも関連のトレーニングサーバによって実行されてもよく、当該トレーニングサーバは、クラウドサーバであってもよく、パソコンのホストであってもよく、当該トレーニングサーバと本開示の実施例に係る音声処理方法を実行可能な電子機器との間に、通信接続が確立されており、当該通信接続は、無線ネットワーク接続と有線ネットワーク接続との少なくとも１つであってもよい。当該トレーニングサーバは、当該電子機器が必要な時に呼び出すように、トレーニングされた抽出モデルを当該電子機器に送信することができ、これにより当該電子機器の計算ストレスを大幅に低減することができる。

具体的には、電子機器は、オリジナル音声を取得した後、自体の記憶空間から抽出モデルを呼び出し、当該オリジナル音声を当該抽出モデルに入力することにより、当該抽出モデルによって当該オリジナル音声からスペクトルマップを抽出し、当該抽出モデルによって出力されたスペクトルマップを取得することができる。

他の可能な場合として、電子機器は、抽出ツール（例えば、プラグイン）を利用してオリジナル音声からスペクトルマップを抽出することもできる。

ステップ１０３において、第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得する。

本開示の実施例において、上記の音声合成モデルは、ボコーダであってもよい。

なお、当該実施例において説明される音声合成モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に記憶されていてもよい。ここで、当該音声合成モデルは、純粋な畳み込み構造であってもよく、これによってネットワークのトレーニング及び予測速度をある程度高速化することができる。

ステップ１０４において、第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成する。

なお、当該実施例において説明される高調波構造は周期信号を含むことができる。

ステップ１０５において、第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。

具体的には、電子機器は、オリジナル音声から抽出されたスペクトルマップを取得した後、先ず自体の記憶空間から音声合成モデルを呼び出し（取得し）、当該スペクトルマップを当該音声合成モデルに入力することにより、当該音声合成モデルによって当該スペクトルマップを処理して、ターゲット音声を生成することができる。ここで、当該音声合成モデルは、当該スペクトルマップを取得した後、先ず内蔵された第１の生成サブモデルによってスペクトルマップを処理して、当該第１の生成サブモデルによって出力された当該スペクトルマップの高調波構造を取得し、そして内蔵された第２の生成サブモデルによって当該高調波構造及び当該スペクトルマップを処理して、当該第２の生成サブモデルによって出力されたターゲット音声、すなわち、当該音声合成モデルによって出力されたターゲット音声を取得することができる。これにより、ジッタや無音が発生することなく、音質及び音色がオリジナル音声により近いターゲット音声を生成することができる。

本開示の実施例において、先ずオリジナル音声を取得し、オリジナル音声からスペクトルマップを抽出し、第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得し、その後、第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該方法は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。

前の実施例を明確に説明するために、本開示の一実施例において、図２に示すように、第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成するステップは、以下のステップを含むことができる。

ステップ２０１において、スペクトルマップを処理して、複数組の正弦波パラメータを生成し、ここで、各組の正弦波パラメータが振幅及び周波数を含む。なお、当該実施例における複数組の正弦波パラメータのうちの各組の正弦波パラメータはいずれも高調波関係にあり得る。

本開示の実施例において、上記の第１の生成サブモデルには、アップサンプリング畳み込みと残差ネットワークから構成され得る第１の純粋な畳み込みネットワークが含まれていてもよい。

ステップ２０２において、複数組の正弦波パラメータの正弦波をそれぞれ生成する。

本開示の実施例において、正弦波生成ポリシーに基づいて、複数組の正弦波パラメータの正弦波をそれぞれ生成することができ、ここで、正弦波生成ポリシーは、実際の状況に応じてキャリブレーションすることができる。

可能な場合として、正弦波生成モデルに基づいて、複数組の正弦波パラメータの正弦波をそれぞれ生成することもできる。ここで、複数組の正弦波パラメータ中の各組の正弦波パラメータを順に正弦波生成モデルに入力することにより、当該正弦波生成モデルによって各組の正弦波パラメータ中の振幅及び周波数を処理して、複数組の正弦波パラメータの正弦波をそれぞれ生成することができる。

ステップ２０３において、複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成する。

具体的には、第１の生成サブモデルは、上記のスペクトルマップを受信した後、内蔵された第１の純粋な畳み込みネットワークによって当該スペクトルマップを処理して、複数組の正弦波パラメータを生成（予測）することができ、その後、各組の正弦波パラメータ中の振幅及び周波数に基づいて、複数組の正弦波パラメータの正弦波を生成してから、当該複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成することができる。

さらに、第１の生成サブモデルは、内蔵された第１の純粋な畳み込みネットワークによって当該高調波構造を条件情報として上記の第２の生成サブモデルに入力して、第２の生成サブモデルの生成過程を指導する。

これにより、第１の純粋な畳み込みネットワークによって極小な計算量で比較的明確でオリジナルオーディオに近い高調波構造を得ることができ、この高調波構造は、１つの強い条件情報として第２の生成サブモデルの学習を指導することもでき、第２の生成サブモデルのモデリングの難しさを大幅に低減させ、また、当該高調波構造によって第２の生成サブモデルの生成過程を指導することにより、生成されたターゲット音声に音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないという優れた特徴を持たせることができる。

さらに、本開示の一実施例において、図３に示すように、第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成するステップは、以下のステップを含むことができる。

ステップ３０１において、高調波構造及びスペクトルマップに基づいて、複数のサブバンド音声を生成する。

本開示の実施例において、上記の第２の生成サブモデルには、第２の純粋な畳み込みネットワーク及びマルチサブバンド合成器が含まれてもよく、ここで、当該第２の純粋な畳み込みネットワークは、アップサンプリング畳み込み及び残差ネットワークから構成され得る。

ステップ３０２において、複数のサブバンド音声を合成して、ターゲット音声を生成する。

具体的には、第２の生成サブモデルは、上記のスペクトルマップ及び高調波構造を受信した後、先ず内蔵された第２の純粋な畳み込みネットワークによって当該高調波構造に基づいて当該スペクトルマップに対してサブバンド音声長のアップサンプリングを行い、当該高調波構造に基づいて当該アップサンプリングの結果に対して残差処理を行って、複数のサブバンド音声を取得することができる。ここで、当該第２の純粋な畳み込みネットワークは、転置畳み込みアルゴリズムを利用して当該スペクトルマップに対してサブバンド音声長のアップサンプリングを行い、深さ分離可能な畳み込みアルゴリズム及び一次元畳み込みアルゴリズムを利用して当該アップサンプリングの結果に対して複数回の残差処理を行うことができる。そして、当該第２の生成サブモデルは、内蔵されたマルチサブバンド合成器によって複数のサブバンド音声を合成して、ターゲット音声を生成することができる。ここで、転置畳み込みアルゴリズム、深さ分離可能な畳み込みアルゴリズム及び一次元畳み込みアルゴリズムは、実際の状況に応じてキャリブレーションすることができる。

これにより、ターゲット音声を生成する時に高調波構造の条件情報を加え、第２の生成サブモデルの計算量を大幅に低減させるとともに、生成されたオーディオの発音の安定性を確保し、これによって音声合成モデルに合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少なく、全ての端側シナリオに応用できるなどの優れた特徴を持たせることができる。

本開示の一実施例において、図４に示すように、上記の第１の生成サブモデルは、以下の方式によって生成することができる。

ステップ４０１において、サンプル音声を取得し、サンプル音声からサンプルスペクトルマップを抽出する。ここで、サンプル音声は、複数であってもよく、当該サンプル音声は、中国語音声、英語音声又はドイツ語音声などであってもよく、ここでは限定されない。

本開示の実施例において、サンプル音声を取得する方法は複数あり得て、ここで、同時通訳装置が同時通訳する時の音声を収集することにより、サンプル音声を取得することができ、サンプル音声を人為的に能動的に作成し、例えば、関係者のニーズに応じて、関連する録音装置によってサンプル音声を録音することもでき、いくつかの通行人の発話を能動的に収集することにより、サンプル音声を取得することもでき、音声提供装置からサンプル音声を取得することもでき、ここでは限定されない。

具体的には、サンプル音声が取得された後、上記の予め設定された抽出アルゴリズムに基づいて当該サンプル音声からサンプルスペクトルマップを抽出することができる。

ステップ４０２において、サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成する。

なお、当該実施例において説明されるフィルタバンクは、一組の非周期信号のフィルタバンクであってもよい。

ステップ４０３において、フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を生成する。なお、当該実施例において説明されるホワイトノイズは、呼び出し及び応用を容易にするために、電子機器の記憶空間に予め記憶されてもよいし、ホワイトノイズ生成器によって直接生成されてもよい。

本開示の実施例において、上記の非周期信号は、ホワイトノイズのセグメントによって取得されてもよく、周期信号は、一連の正弦波を重ね合わせることによって取得されてもよい。周期信号のセグメントにおいて、基本波信号と高調波信号を含み、当該周期信号の周期と等しい正弦波成分を基本波成分と呼び、この基本波成分の周波数を基本周波数と呼び、周波数が基本周波数の整数倍と等しい正弦波成分を高調波と呼び、基本周波数と高調波とを加算して１つの周期信号を得ることができ、この周期信号は、上記の実施例における高調波構造である。

ステップ４０４において、複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成する。

ステップ４０５において、複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、サンプルスペクトルマップのサンプル高調波構造を生成する。

具体的には、トレーニング時に第１の生成サブモデル中の第１の純粋な畳み込みネットワークは、当該サンプルスペクトルマップの入力に基づいて、先ず一組の非周期信号のフィルタバンクを予測し、当該フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を得ることができ、同時に当該第１の純粋な畳み込みネットワークは、高調波関係にある多組の正弦波パラメータを予測し、高調波関係にある複数組の正弦波パラメータの正弦波を生成することもできる。そして、これらの高調波関係にある正弦波を重ねあわせることにより、サンプル音声のサンプル高調波構造を得ることができる。

ステップ４０６において、サンプル高調波構造と非周期信号を重ね合わせて、予測された第１の合成音声を取得する。

ステップ４０７において、第１の合成音声及びサンプル音声に基づいて、第１の損失値を生成し、第１の損失値に基づいて、第１の生成サブモデルをトレーニングする。

本開示の実施例において、第１の合成音声とサンプル音声とを比較（判別）して、当該第１の合成音声と当該サンプル音声との間の違いを取得することができ、当該違いを第１の損失値とすることができる。ここで、判別器によって第１の合成音声とサンプル音声を判別して第１の損失値を生成したり、予め設定された判別アルゴリズムによって第１の合成音声とサンプル音声を判別して第１の損失値を生成したりすることができ、ここでは限定されない。ここで、当該判別器は、純粋な畳み込み構造であってもよく、当該判別器は、呼び出し及び応用を容易にするために、電子機器の記憶空間に予め記憶されてもよい。なお、当該実施例において説明される予め設定された判別アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。

具体的には、トレーニング時に第１の生成サブモデル中の第１の純粋な畳み込みネットワークは、サンプル音声のサンプル高調波構造を取得した後、サンプル高調波構造（すなわち、周期信号）と非周期信号を重ね合わせて予測された第１の合成音声を取得し、そして当該第１の合成音声と当該サンプル音声とを比較（判別）して、当該第１の合成音声と当該サンプル音声との間の違いを取得し、当該違いを第１の損失値とすることができる。最後に当該第１の損失値に基づいて、第１の生成サブモデルをトレーニングすることにより、第１の生成サブモデルを最適化させ、生成の精度を向上させる。

本開示の一実施例において、図５に示すように、上記の第２の生成サブモデルは、以下の方式によって生成することができる。

ステップ５０１において、サンプルスペクトルマップとサンプル高調波構造とを第２の生成サブモデルに入力して、予測された第２の合成音声を生成する。

具体的には、トレーニング時に第２の生成サブモデル中の第２の純粋な畳み込みネットワークは、上記のサンプル高調波構造を受信した後、当該サンプル高調波構造に基づいて当該サンプルスペクトルマップに対してサブバンド音声長のアップサンプリングを行い、当該サンプル高調波構造に基づいてアップリングの結果に対して残差処理を行って、複数のサンプルサブバンド音声を取得することができる。そして、当該第２の生成サブモデル中のマルチサブバンド合成器は、複数のサブバンド音声を合成して予測された第２の合成音声を取得することができる。

ステップ５０２において、判別器によってサンプル音声と第２の合成音声とを判別して、第２の損失値を生成する。

ステップ５０３において、第２の損失値に基づいて、第２の生成サブモデルをトレーニングする。

具体的には、トレーニング時に上記のマルチサブバンド合成器によって予測された第２の合成音声及び上記のサンプル音声を判別器に入力することにより、当該判別器によって当該サンプル音声と当該第２の合成音声を判別し、当該判別器によって出力された第２の損失値を取得することができる。そして、当該第２の損失値に基づいて、第２の生成サブモデルをトレーニングすることにより、第２の生成サブモデルを最適化させ、生成の精度をさらに向上させる。

可能な場合として、上記予め設定された判別アルゴリズムによってサンプル音声と第２の合成音声を判別して、第２の損失値を生成することもできる。

本開示の実施例において、上記の音声合成モデルの合成音声の音質及び音色はいずれもオリジナルオーディオに非常に近く、ジッタや無音の問題がなく、さらに重要なことは、当該音声合成モデルの合成リアルタイム率は、従来のボコーダに匹敵し、その合成音声の品質は、一般的なニューラルボコーダに匹敵することができる。

図６は、本開示の実施例に係る音声処理装置の概略構成図である。

本開示の実施例の音声処理装置は、電子機器に配置されてもよく、取得されたオリジナル音声からスペクトルマップを抽出し、音声合成モデル内の第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、音声合成モデル内の第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成することにより、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。

本開示の実施例において、本開示の当該実施例の音声処理装置は、音声アナウンス（例えば、地図ナビゲーション音声、コネクテッドカー音声インタラクション、辞書ペンアナウンスなど）を必要とするいくつかのＡＰＰ（Ａｐｐｌｉｃａｔｉｏｎ、アプリケーション）に設ける（インストールする）ことができ、当該ＡＰＰは、ＰＣコンピュータ、タブレット、ハンドヘルド、携帯電話などの電子機器にインストールすることができる。

図６に示すように、当該音声処理装置６００は、第１の取得モジュール６１０、抽出モジュール６２０、第２の取得モジュール６３０、第１の生成モジュール６４０及び第２の生成モジュール６５０を備えることができる。

ここで、第１の取得モジュール６１０は、オリジナル音声を取得するように構成される。ここで、オリジナル音声は複数であってもよく、当該オリジナル音声は、さまざまな言語で表現された音声であってもよく、例えば、中国語音声、英語音声、ロシア語音声、マレー語音声、中国語と英語の混用音声などであってもよく、ここでは限定されない。オリジナル音声は、文、段落又は章、例えば、ニュース原稿を含むことができる。

本開示の実施例において、上記のオリジナル音声は、ユーザが音声認識によって入力した音声情報、ユーザがネットワークからダウンロードしたいくつかの映画、音楽、ドラマなどのオーディオ情報（音声情報）、及びユーザが音声提供装置から取得した音声情報を含むことができる。ここで、音声提供装置は、ＭＰ３、ビデオシーディープレーヤー、サーバ、モバイル端末及びスマートハードディスクなどを備えることができる。ここでは限定されない。

具体的には、第１の取得モジュール６１０は、電子機器の記憶空間からオリジナル音声を取得するか、又は自体の音声機能で録音してオリジナル音声を取得するか、又は音声提供装置からオリジナル音声を取得することができる。

抽出モジュール６２０は、オリジナル音声からスペクトルマップを抽出するように構成される。ここで、当該スペクトルマップは、Ｍｅｌ（メル）スペクトルマップであってもよい。

本開示の実施例において、抽出モジュール６２０は、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。ここで、予め設定された抽出アルゴリズムは、実際の状況に応じてキャリブレーションすることができる。

具体的には、抽出モジュール６２０は、第１の取得モジュール６１０がオリジナル音声を取得した後、予め設定された抽出アルゴリズムに基づいてオリジナル音声からスペクトルマップを抽出することができる。

可能な場合として、抽出モジュール６２０は、オリジナル音声からスペクトルマップを抽出するように、抽出モデルによってオリジナル音声を処理することもできる。なお、当該実施例において説明される抽出モデルは、呼び出し及び応用を容易にするために、事前にトレーニングされ、電子機器の記憶空間に記憶されていてもよい。

ここで、当該抽出モデルのトレーニング及び生成は、いずれも関連のトレーニングサーバによって実行されてもよく、当該トレーニングサーバは、クラウドサーバであってもよく、パソコンのホストであってもよく、当該トレーニングサーバと本開示の実施例に係る音声処理装置を配置できる電子機器との間に、通信接続が確立されており、当該通信接続は、無線ネットワーク接続と有線ネットワーク接続との少なくとも１つであってもよい。当該トレーニングサーバは、当該電子機器が必要な時に呼び出すように、トレーニングされた抽出モデルを当該電子機器に送信することができ、これにより当該電子機器の計算ストレスを大幅に低減することができる。

具体的には、抽出モジュール６２０は、第１の取得モジュール６１０がオリジナル音声を取得した後、電子機器の記憶空間から抽出モデルを呼び出し、当該オリジナル音声を当該抽出モデルに入力することにより、当該抽出モデルによって当該オリジナル音声からスペクトルマップを抽出し、当該抽出モデルによって出力されたスペクトルマップを取得することができる。

他の可能な場合として、抽出モジュール６２０は、抽出ツール（例えば、プラグイン）を利用してオリジナル音声からスペクトルマップを抽出することもできる。

第２の取得モジュール６３０は、第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得するように構成される。

第１の生成モジュール６４０は、第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成するように構成される。

なお、当該実施例において説明される高調波構造は、周期信号を含むことができる。

第２の生成モジュール６５０は、第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成するように構成される。

本開示の実施例において、先ず第１の取得モジュールによってオリジナル音声を取得し、抽出モジュールによってオリジナル音声からスペクトルマップを抽出し、第２の取得モジュールによって第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得し、そして、第１の生成サブモジュールによって第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第２の生成モジュールによって第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該装置は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。

本開示の一実施例において、第１の生成モジュール６４０は、具体的には、スペクトルマップを処理して、複数組の正弦波パラメータを生成し、ここで、各組の正弦波パラメータが振幅及び周波数を含み、複数組の正弦波パラメータの正弦波をそれぞれ生成し、複数組の正弦波パラメータの正弦波を重ね合わせて、高調波構造を生成するように構成される。

本開示の一実施例において、第２の生成モジュール６５０は、具体的には、高調波構造及びスペクトルマップに基づいて、複数のサブバンド音声を生成し、複数のサブバンド音声を合成して、ターゲット音声を生成するように構成される。

本開示の一実施例において、図６に示すように、当該音声処理装置６００は、第１のトレーニングモジュール６６０をさらに備えることができ、第１のトレーニングモジュール６６０は、サンプル音声を取得し、サンプル音声からサンプルスペクトルマップを抽出することと、サンプルスペクトルマップを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、フィルタバンクによってホワイトノイズをフィルタリングして、サンプルスペクトルマップの非周期信号を生成することと、複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、サンプルスペクトルマップのサンプル高調波構造を生成することと、サンプル高調波構造と非周期信号を重ね合わせて、予測された第１の合成音声を取得することと、第１の合成音声及びサンプル音声に基づいて、第１の損失値を生成し、第１の損失値に基づいて、第１の生成サブモデルをトレーニングすることとによって、第１の生成サブモデルを生成するように構成される。

本開示の一実施例において、図６に示すように、当該音声処理装置６００は、第２のトレーニングモジュール６７０をさらに備えることができ、第２のトレーニングモジュール６７０は、サンプルスペクトルマップとサンプル高調波構造とを第２の生成サブモデルに入力して、予測された第２の合成音声を生成することと、判別器によってサンプル音声と第２の合成音声とを判別して、第２の損失値を生成することと、第２の損失値に基づいて、第２の生成サブモデルをトレーニングすることとによってする方式によって、第２の生成サブモデルを生成するように構成される。

なお、前述した音声処理方法の実施例に対する解釈説明も当該実施例の音声処理装置に適用され、ここでは詳しく説明しない。

本開示の実施例の音声処理装置は、先ず第１の取得モジュールによってオリジナル音声を取得し、抽出モジュールによってオリジナル音声からスペクトルマップを抽出し、第２の取得モジュールによって第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得し、そして、第１の生成サブモジュールによって第１の生成サブモデルを呼び出してスペクトルマップを処理して、スペクトルマップの高調波構造を生成し、第２の生成モジュールによって第２の生成サブモデルを呼び出して高調波構造及びスペクトルマップを処理して、ターゲット音声を生成する。これにより、当該装置は、合成音質がよく、音色の再現度が高く、発音が安定し、計算量が少ないなどの特徴がある。

本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び公開などの処理は、いずれも関連法律・法規の規定に合致し、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供される音声処理方法が実現される。

図７は、本開示の実施例を実施するために使用され得る例示的な電子機器７００の例示的な概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限するものではない。

図７に示すように、デバイス７００は、リードオンリーメモリ（ＲＯＭ）７０２に記憶されているコンピュータプログラム、又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット７０１を備える。ＲＡＭ７０３には、デバイス７００の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

デバイス７００における複数のコンポーネントは、入出力（Ｉ／Ｏ）インターフェース７０５に接続され、キーボード、マウスなどの入力ユニット７０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９と、を備える。通信ユニット７０９は、デバイス７００がインタネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット７０１は、処理及び計算能力を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例は、セントラルプロセッシングユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、上述したそれぞれの方法及び処理、例えば、音声処理方法を実行する。例えば、いくつかの実施例で、音声処理方法は、記憶ユニット７０８のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ７０２及び／又は通信ユニット７０９を介してデバイス７００にロッド及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロッドされて計算ユニット７０１によって実行される場合、上述した音声処理方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット７０１は、音声処理方法を実行するように他の任意の適切な形態で（例えば、ファーとウェアにより）構成されてもよい。

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び／又は解釈することができる１つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び／又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つである。サーバも分散式システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

オリジナル音声を取得するステップと、
前記オリジナル音声からスペクトログラムを抽出するステップと、
第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得するステップと、
前記第１の生成サブモデルを呼び出して前記スペクトログラムを処理して、前記スペクトログラムの高調波構造を生成するステップと、
前記第２の生成サブモデルを呼び出して前記高調波構造及び前記スペクトログラムを処理して、ターゲット音声を生成するステップと、
を含み、
サンプル音声を取得し、前記サンプル音声からサンプルスペクトログラムを抽出することと、
トレーニング対象の第１の生成サブモデルによって前記サンプルスペクトログラムを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記フィルタバンクによってホワイトノイズをフィルタリングして、前記サンプルスペクトログラムの非周期信号を生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、前記サンプルスペクトログラムのサンプル高調波構造を生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記サンプル高調波構造と前記非周期信号を重ね合わせて、予測された第１の合成音声を取得することと、
前記トレーニング対象の第１の生成サブモデルによって前記第１の合成音声及び前記サンプル音声に基づいて、第１の損失値を生成し、前記第１の損失値に基づいて、前記トレーニング対象の第１の生成サブモデルをトレーニングすることと、
によって、前記第１の生成サブモデルが生成され、
前記サンプルスペクトログラムと前記サンプル高調波構造とを前記第２の生成サブモデルに入力して、予測された第２の合成音声を生成することと、
判別器によって前記サンプル音声と前記第２の合成音声とを判別して、第２の損失値を生成することと、
前記第２の損失値に基づいて、前記第２の生成サブモデルをトレーニングすることと、
によって、前記第２の生成サブモデルが生成される音声処理方法。
前記第１の生成サブモデルを呼び出して前記スペクトログラムを処理して、前記スペクトログラムの高調波構造を生成するステップが、
前記スペクトログラムを処理して、複数組の正弦波パラメータを生成するステップであって、前記各組の正弦波が振幅及び周波数を含むステップと、
前記複数組の正弦波パラメータの正弦波をそれぞれ生成するステップと、
前記複数組の正弦波パラメータの正弦波を重ね合わせて、前記高調波構造を生成するステップと、
を含む請求項１に記載の方法。
前記第２の生成サブモデルを呼び出して前記高調波構造及び前記スペクトログラムを処理して、ターゲット音声を生成するステップが、
前記高調波構造及び前記スペクトログラムに基づいて、複数のサブバンド音声を生成するステップと、
前記複数のサブバンド音声を合成して、ターゲット音声を生成するステップと、
を含む請求項１に記載の方法。
オリジナル音声を取得するように構成される第１の取得モジュールと、
前記オリジナル音声からスペクトログラムを抽出するように構成される抽出モジュールと、
第１の生成サブモデル及び第２の生成サブモデルを含む音声合成モデルを取得するように構成される第２の取得モジュールと、
前記第１の生成サブモデルを呼び出して前記スペクトログラムを処理して、前記スペクトログラムの高調波構造を生成するように構成される第１の生成モジュールと、
前記第２の生成サブモデルを呼び出して前記高調波構造及び前記スペクトログラムを処理して、ターゲット音声を生成するように構成される第２の生成モジュールと、
第１のトレーニングモジュールと、
第２のトレーニングモジュールと、
を備え、
前記第１のトレーニングモジュールが、
サンプル音声を取得し、前記サンプル音声からサンプルスペクトログラムを抽出することと、
トレーニング対象の第１の生成サブモデルによって前記サンプルスペクトログラムを処理して、フィルタバンク及び複数組のサンプル正弦波パラメータを生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記フィルタバンクによってホワイトノイズをフィルタリングして、前記サンプルスペクトログラムの非周期信号を生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記複数組のサンプル正弦波パラメータの正弦波をそれぞれ生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記複数組のサンプル正弦波パラメータの正弦波を重ね合わせて、前記サンプルスペクトログラムのサンプル高調波構造を生成することと、
前記トレーニング対象の第１の生成サブモデルによって前記サンプル高調波構造と前記非周期信号を重ね合わせて、予測された第１の合成音声を取得することと、
前記トレーニング対象の第１の生成サブモデルによって前記第１の合成音声及び前記サンプル音声に基づいて、第１の損失値を生成し、前記第１の損失値に基づいて、前記トレーニング対象の第１の生成サブモデルをトレーニングすることと、
によって、前記第１の生成サブモデルを生成するように構成され、
前記第２のトレーニングモジュールが、
前記サンプルスペクトログラムと前記サンプル高調波構造とを前記第２の生成サブモデルに入力して、予測された第２の合成音声を生成することと、
判別器によって前記サンプル音声と前記第２の合成音声とを判別して、第２の損失値を生成することと、
前記第２の損失値に基づいて、前記第２の生成サブモデルをトレーニングすることと、
によって、前記第２の生成サブモデルを生成するように構成される音声処理装置。
前記第１の生成モジュールが、
前記スペクトログラムを処理して、複数組の正弦波パラメータを生成し、前記各組の正弦波パラメータが振幅及び周波数を含み、
前記複数組の正弦波パラメータの正弦波をそれぞれ生成し、
前記複数組の正弦波パラメータの正弦波を重ね合わせて、前記高調波構造を生成するように構成される請求項４に記載の装置。
前記第２の生成モジュールが、
前記高調波構造及び前記スペクトログラムに基づいて、複数のサブバンド音声を生成し、
前記複数のサブバンド音声を合成して、ターゲット音声を生成するように構成される請求項４に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１から３のいずれか一項に記載の音声処理方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から３のいずれか一項に記載の音声処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から３のいずれか一項に記載の音声処理方法の各ステップが実現されるコンピュータプログラム。