JP7124373B2 - 学習装置、音響生成装置、方法及びプログラム - Google Patents

学習装置、音響生成装置、方法及びプログラム Download PDF

Info

Publication number
JP7124373B2
JP7124373B2 JP2018056905A JP2018056905A JP7124373B2 JP 7124373 B2 JP7124373 B2 JP 7124373B2 JP 2018056905 A JP2018056905 A JP 2018056905A JP 2018056905 A JP2018056905 A JP 2018056905A JP 7124373 B2 JP7124373 B2 JP 7124373B2
Authority
JP
Japan
Prior art keywords
waveform data
group
neural network
generator
frequency information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018056905A
Other languages
English (en)
Other versions
JP2019168608A (ja
Inventor
大輝 日暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2018056905A priority Critical patent/JP7124373B2/ja
Publication of JP2019168608A publication Critical patent/JP2019168608A/ja
Application granted granted Critical
Publication of JP7124373B2 publication Critical patent/JP7124373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本開示は、音響処理技術に関する。
従来の音声合成では、波形接続型と隠れマルコフモデル型が主流であった。さらに、深層学習の発展によりニューラルネットワーク型の音声合成手法が提案されるようになった。ニューラルネットワーク型の代表例であるWaveNetは、Text-To-Speechに利用され、波形接続型や隠れマルコフ型と比較して、自然で高品質な音声合成を実現できる。
"WAVENET: A GENERATIVE MODEL FOR RAW AUDIO" (https://arxiv.org/pdf/1609.03499.pdf)
一方、WaveNetは損失関数を用いた効率的な学習が困難であるなどの問題がある。
テキストから人の音声の波形データを合成する場合に限らず、様々なソース情報から特定のグループに属する音の波形データ(音響データ)を生成する場合にも同様の問題がある。
本開示の課題は、特定のグループに属する音の波形データ(音響データ)を効果的に生成するための音響処理技術を提供することである。
上記課題を解決するため、本開示の一態様は、ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成器と、前記生成器の前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出部と、前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別器と、前記判別器が出力する前記第1の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御部と、を有する音響生成装置に関する。
本開示によると、特定のグループに属する音の波形データ(音響データ)を効果的に生成するための音響処理技術を提供することができる。
本開示の一実施例による学習済み音響分離モデルを有する音響生成装置を示す概略図である。 本開示の一実施例による学習装置の機能構成を示すブロック図である。 本開示の一実施例による生成器及び判別器による学習処理を示す概略図である。 本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響生成モデルの学習処理を示すフローチャートである。 本開示の一実施例による音響生成モデルの学習処理の詳細を示すフローチャートである。 本開示の一実施例による生成器及び判別器による学習処理を示す概略図である。 本開示の一実施例による生成器及び判別器による学習処理を示す概略図である。 本開示の一実施例による音響生成装置の機能構成を示すブロック図である。 本開示の一実施例による音響生成装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響生成処理を示すフローチャートである。
以下の実施例では、ソース情報から所与のデータセットの波形に尤もらしい波形を生成するための音響生成モデルを学習し、当該学習済み音響生成モデルを用いて波形データを生成する音響処理技術が開示される。
本開示による学習装置は、ソース情報から波形データを生成する生成器とスペクトログラムから出力値を生成する判別器とを含む学習対象のモデルを有し、ソース情報を生成器に入力し、生成器から波形データを取得し、取得した波形データと学習用の波形データとから音響画像変換方式(定Q変換、フーリエ変換など)に従って変換された各スペクトログラムを判別器に入力し、判別器の出力値を入力とする損失関数に基づき生成器及び判別器を学習する。また、本開示による波形生成装置及び音響生成装置は、学習済み生成器を利用してデータセットの波形データのスペクトログラムに尤もらしい波形データを生成する。
まず、図1を参照して、本開示の一実施例による学習済み生成器を有する音響生成装置を説明する。図1は、本開示の一実施例による学習済み生成器を有する音響生成装置を示す概略図である。
図1に示されるように、本開示の一実施例による音響生成装置200は、ニューラルネットワークとして実現される生成器を有し、学習装置100によって学習された生成器を利用して、ソース情報からデータセットの波形データと同じグループに属することが尤もらしい波形データを生成する。具体的には、例えば、人の音声の波形データを生成させるように生成器を学習させる場合には、学習用のデータセットとして人の音声の波形データが用いられる。人の音声以外にも、楽器の音や動物の声など、ある特定のグループに属する波形データを生成させる場合には、その特定のグループに属する波形データを学習用のデータセットとすればよい。本開示の一実施例による学習装置100は、データベース50に格納されている所望のオーディオデータ(音の波形データ)を示すデータセットによって生成器及び判別器を学習し、学習された生成器を音響生成装置200に提供する。
次に、図2~4を参照して、本開示の一実施例による学習装置を説明する。図2は、本開示の一実施例による学習装置の機能構成を示すブロック図である。
図2に示されるように、学習装置100は、生成器110、変換部120、判別器130及び学習部140を有する。学習装置100は、生成器110及び判別器130の2つのタイプのニューラルネットワークを有し、GAN(Generative Adversarial Networks)方式に従って、判別器130からのフィードバック情報に基づき所与のデータセットの波形データに尤もらしい波形データを生成するよう生成器110と判別器130とを学習する。
なお、生成器(生成部)および判別器(判別部)は、制御部(CPU、GPU)がニューラルネットワークをシミュレートすることによって実現され、メモリ内の所定の記憶情報に従って生成処理や判別処理を実行するモデルとして実現される。これらのモデルで用いられる記憶情報は、ニューラルネットワークにおけるパラメータ(重み値)であり、学習によって変化する情報である。
生成器110は、入力されたソース情報から波形データを生成する。当該ソース情報は、乱数、オーディオ、テキスト、発話など生成対象の波形データと異なるタイプのデータであってもよい。例えば、生成器110は、図3に示されるように、乱数を生成器のニューラルネットワークに入力し、当該ニューラルネットワークから波形データを取得する。ここで、当該乱数は、正規分布に従う乱数であってもよい。
変換部120は、音響画像変換方式に従って取得した波形データと学習用の波形データとをそれぞれスペクトログラムに変換する。具体的には、変換部120は、入力について微分可能な所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データを時間、周波数及びオーディオ成分の強度を表すスペクトログラムに変換し、変換されたスペクトログラムを判別器130に提供する。ここで、本開示の一実施例によるスペクトログラムは、複数次元においてデータ成分を含むデータ配列として実現されうる。
判別器130は、生成器110によって生成された波形データを示すスペクトログラムと、データベース50における学習用スペクトログラムとからそれぞれの出力値を計算する。具体的には、判別器130は、図3に示されるように、生成器110によって生成された波形データを示すスペクトログラムを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから実数値を取得する一方、学習用の波形データを示すスペクトログラムを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから実数値を取得する。ここで、判別器130の出力値は、学習用のデータセット(第1のグループに属する波形データ)からサンプリングした波形のスペクトログラムの尤もらしさを表す。
学習部140は、出力値の誤差に基づき生成器110と判別器130とを学習する。
つまり、学習部140は、生成器110が、学習用のデータセットが属するグループと同じグループである第1のグループに属する波形データを生成するように(第1のグループに属さない波形データを生成しないように)ニューラルネットワークのパラメータ(第1の記憶情報)を変化させる。
また、学習部140は、判別器130が、前記第1のグループに属する波形データと前記第1のグループに属さない波形データとを正しく判別できるようにニューラルネットワークのパラメータ(第2の記憶情報)を変化させる。
具体的には、学習部140は、後述される学習処理を制御する。また、学習用の波形データを示すスペクトログラムをxrealとし、生成器110によって生成された波形データを示すスペクトログラムをxfakeとし、Dを判別器130の出力値とした場合、学習部140は、
logD(xreal)+log(1-D(xfake))
を最大化するよう判別器130のニューラルネットワークのパラメータを更新すると共に、
log(1-D(xfake))
を最小化するよう生成器110のニューラルネットワークのパラメータを更新してもよい。
ここで、学習装置100は、例えば、図4に示されるように、CPU(Central Processing Unit)101、GPU(Graphics Processing Unit)102、RAM(Random Access Memory)103、通信インタフェース(IF)104、ハードディスク105、表示装置106及び入力装置107によるハードウェア構成を有してもよい。CPU101及びGPU102は、後述される学習装置100の各種処理を実行し、上述した生成器110、変換部120、判別器130及び学習部140を実現するプロセッサとして機能し、特に、CPU101は学習装置100における学習処理の実行を制御し、GPU102は機械学習における行列演算等の学習処理を実行する。RAM103及びハードディスク105は、学習装置100における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM103は、CPU101及びGPU102における作業データを格納するワーキングメモリとして機能し、ハードディスク105は、CPU101及びGPU102の制御プログラム及び/又は学習用データを格納する。通信IF104は、データベース50から学習用データを取得するための通信インタフェースである。表示装置106は、処理の内容、経過、結果等の各種情報を表示し、入力装置107は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
次に、図5~6を参照して、本開示の一実施例による学習装置100における学習処理を説明する。図5は、本開示の一実施例による音響生成モデルの学習処理を示すフローチャートである。図示された実施例では、限定されることなく、ソース情報として乱数が用いられる。
図5に示されるように、ステップS101において、生成器110は、乱数から波形データを取得する。具体的には、生成器110は、乱数を生成器110のニューラルネットワークに入力し、当該ニューラルネットワークから波形データを取得する。また、生成器110は、入力されるソース情報から第1の記憶情報に従って波形データを生成する。このとき、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを第2の記憶情報に従って判別する。ここで、第1の記憶情報は、生成された波形データから抽出される周波数情報を判別した判別結果に基づいて第1のグループに属する波形データが生成するように変更させる。また、第2の記憶情報は、第1のグループに属する波形データから抽出される周波数情報を判別した判別結果と、生成された波形データから抽出される周波数情報を判別した判別結果とに基づいて第1のグループに属する波形データと第1のグループに属さない波形データとを正しく判別できるように、変更される。
ステップS102において、変換部120は、生成器110によって生成された波形データと学習用の波形データとをそれぞれスペクトログラムに変換する。具体的には、変換部120は、入力について微分可能な所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データを時間、周波数及びオーディオ成分の強度を表すスペクトログラムに変換する。また、変換部120は、波形データを、複数の軸のうちの1つの軸を対数の周波数軸とした画像データに変換する。このとき、波形データを変換部120で変換して得られた画像データを周波数情報として判別部130に判別させてもよい。
ステップS103において、判別器130は、変換された各スペクトログラムからそれぞれの出力値を計算する。具体的には、判別器130は、生成器110によって生成された波形データを示すスペクトログラムと学習用の波形データを示すスペクトログラムとを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから各実数値を取得する。
ステップS104において、学習部140は、出力値の誤差に基づき生成器110と判別器130とを学習する。具体的には、学習部140は、出力値の誤差に基づき生成器110のニューラルネットワークのパラメータと、判別器130のニューラルネットワークとのパラメータとを更新する。すなわち、学習部140は、複数のソース情報のそれぞれを生成器110に入力して複数の波形データを生成するとともに、生成された複数の波形データのそれぞれを変換部120により変換して得られる複数の画像データと、第1のグループに属する複数の波形データのそれぞれを変換部120により変換して得られる複数の画像データとを、判別器130により判別させ、判別による複数の判別結果に基づいて、第1の記憶情報及び第2の記憶情報を変化させていくことで学習対象のモデルを学習させてもよい。
上述したステップS101~S104は、所定の回数実行され、最終的に取得した生成器110のニューラルネットワークが、音響生成装置200に提供される学習済みの音響生成モデルとして決定されてもよい。
上述した学習処理は、例えば、図6に示される手順に従って実現されてもよい。
図6に示されるように、ステップS201において、学習部140は、繰り返しカウンタ(iteration)を0に初期化する。
ステップS202において、学習部140は、繰り返しカウンタが指定回数未満であるか判定する。繰り返しカウンタが指定回数未満である場合(ステップS202:YES)、学習部140は、ステップS203において、ステップカウンタ(step)を0に初期化する。他方、繰り返しカウンタが指定回数に達している場合(ステップS202:NO)、学習部140は、当該学習処理を終了する。
ステップS204において、学習部140は、ステップカウンタが指定回数未満であるか判定する。ステップカウンタが指定回数未満である場合(ステップS204:YES)、ステップS205において、生成器110は、乱数から波形データを生成する。
ステップS206において、学習部140は、データベース50から学習用の波形をサンプリングし、学習用の波形データを生成する。
ステップS207において、変換部120は、ステップS205において生成された波形データと、ステップS205において生成された学習用の波形データとをそれぞれ所定の音響画像変換方式に従ってスペクトログラムに変換する。例えば、本実施例では、変換部120は、フーリエ変換によって波形データをスペクトログラムに変換するが、本開示の音響画像変換方式はこれに限定されず、例えば、定Q変換などの他の入力について微分可能な音響画像変換方式が適用されてもよい。
ステップS208において、判別器130は、ニューラルネットワークを利用して、変換された各スペクトログラムから実数値を計算し、学習部140は、計算された各実数値の誤差を計算する。例えば、学習部140は、
logD(xreal)+log(1-D(xfake))
を誤差として算出してもよい。
ステップS209において、学習部140は、算出した誤差を最大化するよう判別器130のニューラルネットワークのパラメータを更新する。
ステップS210において、学習部140は、ステップカウンタをインクリメントし、ステップS204に戻る。
他方、ステップカウンタが指定回数に達している場合(ステップS204:NO)、ステップS211において、生成器110は、乱数から波形データを生成する。
ステップS212において、変換部120は、ステップS211において生成された波形データを所定の音響画像変換方式に従ってスペクトログラムに変換する。例えば、本実施例では、変換部120は、フーリエ変換によって波形データをスペクトログラムに変換するが、本開示の音響画像変換方式はこれに限定されず、例えば、定Q変換などの他の入力について微分可能な音響画像変換方式が適用されてもよい。
ステップS213において、判別器130は、ニューラルネットワークを利用して、変換されたスペクトログラムから実数値を計算し、学習部140は、計算された実数値の誤差log(1-D(xfake))を算出する。
ステップS214において、学習部140は、算出した誤差を最小化するよう生成器110のニューラルネットワークのパラメータを更新する。
ステップS215において、学習部140は、繰り返しカウンタをインクリメントし、ステップS202に戻る。
次に、図7~8を参照して、本開示の他の実施例による生成器及び判別器による学習処理を説明する。図7及び8は、本開示の一実施例による生成器及び判別器による学習処理を示す概略図である。図示される実施例では、学習装置100は、サイクルGAN方式に従って生成器110及び判別器130を学習する。
図7に示されるように、生成器110は、2つのニューラルネットワークGAtoB及びGBtoAを有し、GAtoBはドメインAからドメインBへの変換を実行し、GBtoAはドメインBからドメインAへの変換を実行する。例えば、ドメインAは男声のデータセットであり、ドメインBは女声のデータセットであってもよい。この場合、GAtoBは男声の波形データを女声の波形データに変換し、GBtoAは女声の波形データを男声の波形データに変換する。
他方、判別器130もまた、2つのニューラルネットワークD及びDを有し、図8に示されるように、Dは入力されたスペクトログラムがドメインAのデータセットの波形データのスペクトログラムに尤もらしいかを判別し、Dは入力されたスペクトログラムがドメインBのデータセットの波形データのスペクトログラムに尤もらしいかを判別する。例えば、ドメインAが男声のデータセットであり、ドメインBが女声のデータセットである場合、Dは入力されたスペクトログラムが男声のスペクトログラムに尤もらしいかを判別し、Dは入力されたスペクトログラムが男声のスペクトログラムに尤もらしいかを判別する。すなわち、第1のグループに属する波形データは、言葉を発声した音声データに対応する波形データであってもよい。また、第1のグループに属する波形データは、特定の人の声に対応する波形データであり、第2のグループに属する波形データは、特定の人とは異なる人の声に対応する波形データであってもよい。
本実施例では、図示されるように、GAtoB及びGBtoAはそれぞれ変換された波形データを出力し、変換部120は、所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データをスペクトログラムに変換し、それぞれD及びDに入力する。D及びDは、上述した実施例と同様に、各自のドメインのデータセットの学習用の波形データを示すスペクトログラムと、GBtoA及びGAtoBによりそれぞれ変換された波形データを示すスペクトログラムとをそれぞれ入力した際の出力値を計算する。学習部140は、これらの出力値の誤差に基づき、上述したようにGAtoB及びGBtoAとD及びDとのパラメータを更新する。
さらに本実施例では、図示されるように、GAtoB及びGBtoAは、それぞれ変換された波形データを他方のGBtoA及びGAtoBに入力し、GBtoA及びGAtoBは、それぞれ入力された波形データを変換し、変換された波形データをそれぞれD及びDと変換部120に入力する。変換部120は、上記と同様に、所定の音響画像変換方式に従って各波形データをスペクトログラムに変換し、それぞれD及びDに入力する。D及びDは、上述した実施例と同様に、各自のドメインのデータセットの学習用の波形データを示すスペクトログラムと、GBtoA及びGAtoBによりそれぞれ変換された波形データを示すスペクトログラムとの出力値を計算する。学習部140は、これらの出力値の誤差に基づき、上述したようにGAtoB及びGBtoAとD及びDとのパラメータを更新する。
このように、生成器110において波形データを変換及び逆変換することによって、例えば、発話内容は同じであって、声質のみ変わっている波形データを取得することが可能になる。
また、一実施例では、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさに応じた出力値を判別結果として出力し、学習部140は、第1のグループに属する波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示し、生成器110で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより低い確からしさを示すように、第2の記憶情報を変化させるとともに、生成器110で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示すように、第1の記憶情報を変化させてもよい。
また、一実施例では、生成器110は、第2のグループに属する波形データから第1のグループに属する波形データを生成し、波形データから第2のグループに属する波形データを生成し、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを判別してもよい。このとき、学習部140は、第2のグループに属する第1の元波形データから第1のグループに属する第1の変換波形データを生成器110に生成させた後、第1の変換波形データから第2のグループに属する第1の再構成波形データを生成器110に生成させるとともに、第1の元波形データから抽出される周波数情報を判別した判別結果と、第1の再構成波形データから抽出される周波数情報を判別した判別結果との誤差を少なくするように生成器110を学習させてもよい。
また、一実施例では、判別器130は、入力される周波数情報が第2のグループに属する波形データから抽出される周波数情報であるか否かを判別してもよい。このとき、学習部140は、第1のグループに属する第2の元波形データから第2のグループに属する第2の変換波形データを生成器110に生成させた後、第2の変換波形データから第1のグループに属する第2の再構成波形データを生成器110に生成させるとともに、第2の元波形データから抽出される周波数情報を判別した判別結果と、第2の再構成波形データから抽出される周波数情報を判別した判別結果との誤差を少なくするように生成器110を学習させてもよい。
次に、図9~10を参照して、本開示の一実施例による音響生成装置を説明する。図9は、本開示の一実施例による音響生成装置の機能構成を示すブロック図である。
図9に示されるように、音響生成装置200は、取得部210及び生成器220を有する。音響生成装置200は、学習装置100から生成器110の音響生成モデルを取得し、当該音響生成モデルを生成器220として用いてソース情報から波形データを生成する。
取得部210は、ソース情報を取得する。当該ソース情報は、乱数、オーディオ、テキスト、発話など生成対象の波形データを示すオーディオデータと異なるタイプの波形データであってもよく、学習装置100において学習された生成器110に入力される情報に対応するタイプの情報である。すなわち、ソース情報は、言葉に対応するラベル情報または前記言葉を表すテキスト情報であってもよいし、言葉を発声した音声データに対応する波形データであってもよいし、後述される第1のグループとは異なる第2のグループに属する波形データであってもよいし、あるいは、乱数であってもよい。
生成器220は、ソース情報を学習済み音響生成モデルに入力し、当該音響生成モデルから波形データを取得する。当該音響生成モデルは、上述したような手順に従って学習装置100において学習される。すなわち、学習装置100は、ソース情報を生成器110に入力し、生成器110から対応する波形データを取得する。そして、学習装置100は、音響画像変換方式に従って当該波形データと学習用の波形データとをそれぞれスペクトログラムに変換して判別器130に入力し、これらのスペクトログラムの出力値の誤差に基づき生成器110と判別器130とを学習する。また、生成器220は、取得した波形データをオーディオデータに変換するなど、波形データに対して所定の出力処理を実行する。
ここで、音響生成装置200は、例えば、図10に示されるように、CPU201、ROM(Read-Only Memory)202、RAM203、USB(Universal Serial Bus)メモリポート204及び再生装置205によるハードウェア構成を有してもよい。CPU201は、後述される音響生成装置200の各種処理を実行し、上述した取得部210及び生成器220を実現するプロセッサとして機能する。ROM202及びRAM203は、音響生成装置200における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM203は、CPU201における作業データを格納するワーキングメモリとして機能し、ROM203は、CPU201の制御プログラム及び/又はデータを格納する。USBメモリポート204は、ユーザによりセットされたUSBメモリに格納されているソース情報を取得する。再生装置205は、CPU201の指示によってソース情報から生成されたオーディオデータを再生する。しかしながら、本開示による音響生成装置200は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部210及び生成器220の1つ以上は、フィルタ回路などの電子回路により実現されてもよい。
次に、図11を参照して、本開示の一実施例による音響生成装置200における音響生成処理を説明する。図11は、本開示の一実施例による音響生成処理を示すフローチャートである。
図11に示されるように、ステップS301において、取得部210は、ソース情報を取得する。具体的には、取得部210は、学習装置100において学習用に生成器110に入力された情報に対応するソース情報を取得する。
ステップS302において、生成器220は、学習済み音響生成モデルにソース情報を入力し、当該音響生成モデルから波形データを取得する。
ステップS303において、生成器220は、取得した波形データをオーディオデータに変換するなど、波形データに対して所定の出力処理を実行する。
本開示の一態様では、
入力されるソース情報から第1の記憶情報に従って波形データを生成する生成部と、
入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを第2の記憶情報に従って判別する判別部と、
前記生成部で生成された波形データから抽出される周波数情報を前記判別部で判別した判別結果に基づいて、前記生成部が前記第1のグループに属する波形データを生成するように前記第1の記憶情報を変化させる制御部と、
を有する波形生成装置が提供される。
一実施例では、前記制御部は、前記第1のグループに属する波形データから抽出される周波数情報を前記判別部で判別した判別結果と、前記生成部で生成された波形データから抽出される周波数情報を前記判別部で判別した判別結果とに基づいて、前記判別部が前記第1のグループに属する波形データと前記第1のグループに属さない波形データとを正しく判別できるように前記第2の記憶情報を変化させてもよい。
一実施例では、波形データを、複数の軸のうちの1つの軸を対数の周波数軸とした画像データに変換する変換部を有し、前記制御部は、波形データを前記変換部で変換して得られた画像データを前記周波数情報として前記判別部に判別させるように制御してもよい。
一実施例では、前記生成部と前記判別部とを含む学習対象のモデルとして、前記第1の記憶情報と前記第2の記憶情報とを格納する記憶部を有し、前記制御部は、複数のソース情報のそれぞれを前記生成部に入力して複数の波形データを生成するとともに、生成された複数の波形データのそれぞれを前記変換部により変換して得られる複数の画像データと、前記第1のグループに属する複数の波形データのそれぞれを前記変換部により変換して得られる複数の画像データとを、前記判別部により判別させ、前記判別による複数の判別結果に基づいて、前記第1の記憶情報及び前記第2の記憶情報を変化させていくことで前記学習対象のモデルを学習させてもよい。
一実施例では、前記判別部は、入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報である確からしさに応じた出力値を前記判別結果として出力し、前記制御部は、前記第1のグループに属する波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示し、前記生成部で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより低い確からしさを示すように、前記第2の記憶情報を変化させるとともに、前記生成部で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示すように、前記第1の記憶情報を変化させてもよい。
一実施例では、前記第1のグループに属する波形データは、言葉を発声した音声データに対応する波形データであってもよい。
一実施例では、前記ソース情報は、前記言葉に対応するラベル情報または前記言葉を表すテキスト情報であってもよい。
一実施例では、前記ソース情報は、言葉を発声した音声データに対応する波形データであってもよい。
一実施例では、前記ソース情報は、前記第1のグループとは異なる第2のグループに属する波形データであってもよい。
一実施例では、前記第1のグループに属する波形データは、特定の人の声に対応する波形データであり、前記第2のグループに属する波形データは、前記特定の人とは異なる人の声に対応する波形データであってもよい。
一実施例では、前記生成部は、前記第2のグループに属する波形データから前記第1のグループに属する波形データを生成する第1生成部と、前記波形データから前記第2のグループに属する波形データを生成する第2生成部とを有し、前記判別部は、入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別部を有し、前記制御部は、前記第1生成部に前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成部に前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別部で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別部で判別した判別結果との誤差を少なくするように前記生成部を学習させてもよい。
一実施例では、前記判別部は、入力される周波数情報が前記第2のグループに属する波形データから抽出される周波数情報であるか否かを判別する第2判別部を更に有し、前記制御部は、前記第2生成部に前記第1のグループに属する第2の元波形データから前記第2のグループに属する第2の変換波形データを生成させた後、前記第1生成部に前記第2の変換波形データから前記第1のグループに属する第2の再構成波形データを生成させるとともに、前記第2の元波形データから抽出される周波数情報を前記第2判別部で判別した判別結果と、前記第2の再構成波形データから抽出される周波数情報を前記第2判別部で判別した判別結果との誤差を少なくするように前記生成部を学習させてもよい。
一実施例では、前記ソース情報は、乱数であってもよい。
本開示の一態様では、
学習対象のモデルを格納するメモリと、
前記メモリに接続されるプロセッサと、
を有する学習装置であって、
前記学習対象のモデルは、ソース情報から波形データを生成する生成器と、スペクトログラムから出力値を生成する判別器とを含み、
前記プロセッサは、
前記ソース情報を前記生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを前記判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習する学習装置が提供される。
一実施例では、前記音響画像変換方式は、入力について微分可能な音響画像変換方式であってもよい。
一実施例では、前記プロセッサは、GAN(Generative Adversarial Network)方式に従って前記生成器と前記判別器とを学習してもよい。
一実施例では、前記学習対象のモデルは、複数の生成器と複数の判別器とを含み、前記プロセッサは、サイクルGAN方式に従って前記複数の生成器と前記複数の判別器とを学習してもよい。
本開示の一態様では、
学習済みモデルを格納するメモリと、
前記メモリに接続されるプロセッサと、
を有する音響生成装置であって、
前記プロセッサは、
ソース情報を取得し、
前記ソース情報を前記学習済みモデルに入力し、前記学習済みモデルから波形データを取得し、
前記学習済みモデルは、
前記ソース情報を生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習することによって取得される生成器である音響生成装置が提供される。
一実施例では、前記音響画像変換方式は、入力について微分可能な音響画像変換方式であってもよい。
一実施例では、前記生成器と前記判別器とは、GAN方式に従って学習されてもよい。
一実施例では、前記学習済みモデルは、サイクルGAN方式に従って複数の生成器と複数の判別器とを学習することによって取得されてもよい。
本開示の一態様では、
ソース情報から波形データを生成する生成器と、スペクトログラムから出力値を生成する判別器とを含む学習対象のモデルを学習する方法であって、
プロセッサが、前記ソース情報を前記生成器に入力し、前記生成器から第1の波形データを取得し、
前記プロセッサが、音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記プロセッサが、前記第1のスペクトログラムと前記第2のスペクトログラムとを前記判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記プロセッサが、前記出力値の誤差に基づき前記生成器と前記判別器とを学習する方法が提供される。
本開示の一態様では、
プロセッサが、ソース情報を取得し、
前記プロセッサが、前記ソース情報を学習済みモデルに入力し、前記学習済みモデルから波形データを取得する方法であって、
前記学習済みモデルは、
前記ソース情報を生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習することによって取得される生成器である方法が提供される。
本開示の一態様では、
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
50 データベース
100 学習装置
110,220 生成器
120 変換部
130 判別器
140 学習部
200 音響生成装置
210 取得部

Claims (15)

  1. ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する 波形データを生成する生成器と、
    前記生成器の前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出部と、
    前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報 が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別器と、
    前記判別器が出力する前記第1の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習 させる制御部と、
    を有する音響生成装置。
  2. 前記第1のグループに属する波形データを取得する取得部を更に有し、
    前記抽出部は、前記取得部で取得した波形データから、微分可能な数値情報としての第2の周波数情報を抽出し、
    前記判別器は、前記第2の周波数情報を前記第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第2の周波数情報が前記第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第2の判別値を出力し、
    前記制御部は、前記判別器が出力する前記第1の判別値および前記第2の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させるとともに、前記判別器が出力する前記第1の判別値がより低い確からしさを示し、かつ、前記判別器が出力する前記第2の判別値がより高い確からしさを示すように前記第2のニューラルネットワークを学習させる、
    請求項1記載の音響生成装置。
  3. 波形データを、複数の軸のうちの1つの軸を対数の周波数軸とした画像データに変換する変換部を有し、
    前記抽出部は、 波形データを前記変換部で変換して得られた画像データを、微分可能な数値情報である前記周波数情報として抽出する、
    請求項1または2に記載の音響生成装置。
  4. 前記ソース情報は、言葉を表すテキスト情報であ り、
    前記第1のグループに属する波形データは、前記言葉を発声した音声データに対応する波形データである、
    請求項1から3のいずれか一項 に記載の音響生成装置。
  5. 前記第1のグループに属する波形データは、特定の人の声に対応する波形データであり、
    前記ソース情報は、 前記特定の人とは異なる人の声に対応する波形データである、請求項1から4のいずれか一項に記載の音響生成装置。
  6. 第2 のグループに属する波形データから第1のグループに属する波形データを生成する第1生成器と、
    前記第1のグループに属する 波形データから前記第2のグループに属する波形データを生成する第2生成器 と、
    入力 される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別器 と、
    前記 第1生成器に前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成器に前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別器で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別器で判別した判別結果との誤差を少なくするように前記第1生成器および前記第2生成器を学習させる 制御部と、
    を有する 音響生成装置。
  7. 入力 される周波数情報が前記第2のグループに属する波形データから抽出される周波数情報であるか否かを判別する第2判別器を更に有し、
    前記制御部は、前記第2生成器に前記第1のグループに属する第2の元波形データから前記第2のグループに属する第2の変換波形データを生成させた後、前記第1生成器に前記第2の変換波形データから前記第1のグループに属する第2の再構成波形データを生成させるとともに、前記第2の元波形データから抽出される周波数情報を前記第2判別器で判別した判別結果と、前記第2の再構成波形データから抽出される周波数情報を前記第2判別器で判別した判別結果との誤差を少なくするように前記第1生成器および前記第2生成器を学習させる、請求項6に記載の音響生成装置。
  8. 前記第1のグループに属する波形データは、特定の人の声に対応する波形データであり、
    前記第2のグループに属する波形データは、前記特定の人とは異なる人の声に対応する波形データである、請求項6または7に記載の音響生成装置。
  9. 前記第1のグループに属する波形データは、男性の声に対応する波形データであり、
    前記第2のグループに属する波形データは、女性の声に対応する波形データである、請求項6または8に記載の音響生成装置。
  10. プロセッサが、
    ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成処理と、
    前記生成処理により前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出処理と、
    前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別処理と、
    前記判別処理により出力された前記第1の判別値を入力とする損失関数に基づいて、前記判別処理により出力される前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御処理と、
    を実行する方法。
  11. プロセッサが、ソース情報を取得し、
    前記プロセッサが、前記ソース情報を学習済みモデルに入力し、前記学習済みモデルから波形データを取得する方法であって、
    前記学習済みモデルは、
    ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成処理と、
    前記生成処理により前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出処理と、
    前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別処理と、
    前記判別処理により出力された前記第1の判別値を入力とする損失関数に基づいて、前記判別処理により出力される前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御処理と、
    を実行することによって取得される前記第1のニューラルネットワークを含む、 方法。
  12. プロセッサが、
    第2のグループに属する波形データから、第1の記憶情報に従って、第1のグループに属する波形データを生成する第1生成処理と、
    前記第1のグループに属する波形データから、第2の記憶情報に従って、前記第2のグループに属する波形データを生成する第2生成処理と、
    入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別処理と、
    前記第1生成処理により前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成処理により前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別処理で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別処理で判別した判別結果との誤差を少なくするように前記第1の記憶情報および前記第2の記憶情報を変化させる制御処理と、
    を実行する方法。
  13. 請求項10から12のいずれか一項に記載の方法をプロセッサに実現させるプログラム。
  14. 請求項10または12記載の方法を実行する学習装置。
  15. 請求項11記載の方法を実行する音響生成装置。
JP2018056905A 2018-03-23 2018-03-23 学習装置、音響生成装置、方法及びプログラム Active JP7124373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018056905A JP7124373B2 (ja) 2018-03-23 2018-03-23 学習装置、音響生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018056905A JP7124373B2 (ja) 2018-03-23 2018-03-23 学習装置、音響生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019168608A JP2019168608A (ja) 2019-10-03
JP7124373B2 true JP7124373B2 (ja) 2022-08-24

Family

ID=68107350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018056905A Active JP7124373B2 (ja) 2018-03-23 2018-03-23 学習装置、音響生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7124373B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261177A (zh) * 2020-01-19 2020-06-09 平安科技(深圳)有限公司 语音转换方法、电子装置及计算机可读存储介质
JP7277668B2 (ja) * 2020-03-19 2023-05-19 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法およびプログラム
CN111986648A (zh) * 2020-06-29 2020-11-24 联想(北京)有限公司 一种信息处理方法、装置及设备
WO2023209762A1 (ja) * 2022-04-25 2023-11-02 日本電信電話株式会社 学習装置、変換装置、方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036413A (ja) 2016-08-30 2018-03-08 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036413A (ja) 2016-08-30 2018-03-08 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Generative Adversarial Network-based Postfilter for STFT Spectrograms",Proceedings of INTERSPEECH 2017,2017年08月24日,p.3389-3393
"PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS",[online],2017年12月20日,p.1-5,[令和3年12月15日検索],インターネット<URL:https://arxiv.org/pdf/1711.11293.pdf>
房 福明、山岸 順一、越前 功,CycleGANを用いた高品質なノンパラレル声質変換,電子情報通信学会技術研究報告 Vol.117 No.368,一般社団法人電子情報通信学会,2017年12月14日,pp.37-42

Also Published As

Publication number Publication date
JP2019168608A (ja) 2019-10-03

Similar Documents

Publication Publication Date Title
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN108231062B (zh) 一种语音翻译方法及装置
WO2020248393A1 (zh) 语音合成方法、***、终端设备和可读存储介质
Ai et al. A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP2019139102A (ja) 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN116229932A (zh) 一种基于跨域一致性损失的语音克隆方法及***
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
CN112837670A (zh) 语音合成方法、装置及电子设备
Deng et al. One-shot voice conversion algorithm based on representations separation
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
Ai et al. Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis
CN113066472B (zh) 合成语音处理方法及相关装置
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
JP2022133447A (ja) 音声処理方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7124373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150