JP2020194098A

JP2020194098A - 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法

Info

Publication number: JP2020194098A
Application number: JP2019099913A
Authority: JP
Inventors: 竜之介大道; Ryunosuke Daido
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03
Also published as: WO2020241641A1; US20220084492A1

Abstract

【課題】音響信号を推定するための推定モデルの機械学習を効率化する。【解決手段】推定モデル確立装置は、準備処理部３１と訓練処理部３２とを具備する。準備処理部３１は、複数の参照信号Ｒの各々について、当該参照信号Ｒの各ピッチマークにおいて当該参照信号Ｒの位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号Ｒを区分した各解析区間の位相スペクトルを調整する調整処理と、調整処理後の位相スペクトルと当該参照信号Ｒの振幅スペクトルとから音響信号Ｖを合成する合成処理と、を実行することで、訓練データＤを参照信号Ｒ毎に生成する。訓練処理部３２は、複数の参照信号Ｒについてそれぞれ生成された複数の訓練データＤを利用した機械学習により、制御データＣに応じた音響信号Ｖを推定するための推定モデルＭを確立する。【選択図】図２

Description

本開示は、音声または楽音等の音の合成に利用される推定モデルの確立に関する。

音声または楽音等の各種の音を合成する音合成技術が従来から提案されている。例えば特許文献１には、深層ニューラルネットワーク等の推定モデルを利用して音声を合成する技術が開示されている。非特許文献１には、特許文献１と同様の推定モデルを利用して歌唱音声を合成する技術が開示されている。推定モデルは、多数の音響信号を訓練データとして利用した機械学習により確立される。

国際公開第２０１８／０４８９３４号

Merlijn Blaauw, Jordi Bonada, "A NEWRAL PARATETRIC SINGING SYNTHESIZER," arXiv, 2017.4.12

推定モデルの機械学習には、非常に多数の音響信号と非常に長時間にわたる訓練が必要であり、機械学習の効率化という観点から改善の余地がある。以上の事情を考慮して、本開示は、音響信号を推定するための推定モデルの機械学習を効率化することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る推定モデル確立方法は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する。

本開示の他の態様に係る推定モデル確立装置は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部と、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部とを具備する。

本開示の他の態様に係るプログラムは、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部、および、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部、としてコンピュータを機能させる。

本開示のひとつの態様に係る訓練データ準備方法は、制御データに応じた音響信号を推定する推定モデルを確立するための機械学習に利用される複数の訓練データを準備する方法であって、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する。

第１実施形態に係る音合成装置の構成を例示するブロック図である。音合成装置の機能的な構成を例示するブロック図である。準備処理の具体的な手順を例示するフローチャートである。調整処理の説明図である。推定モデル確立処理の具体的な手順を例示するフローチャートである。第２実施形態における調整処理の一部を例示するフローチャートである。

＜第１実施形態＞
図１は、ひとつの形態に係る音合成装置１００の構成を例示するブロック図である。音合成装置１００は、任意の合成音を生成する信号処理装置である。合成音は、例えば、歌唱者が仮想的に歌唱した歌唱音声、または、演奏者による仮想的な楽器の演奏で発音される楽器音である。音合成装置１００は、制御装置１１と記憶装置１２と放音装置１３とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音合成装置１００として利用される。

制御装置１１は、音合成装置１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。制御装置１１は、合成音の波形を表す時間領域の音響信号Ｖを生成する。

放音装置１３は、制御装置１１が生成した音響信号Ｖが表す合成音を放音する。放音装置１３は、例えばスピーカまたはヘッドホンである。なお、音響信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と、音響信号Ｖを増幅する増幅器とについては、図示を便宜的に省略した。また、図１では、放音装置１３を音合成装置１００に搭載した構成を例示したが、音合成装置１００とは別体の放音装置１３を音合成装置１００に有線または無線で接続してもよい。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音合成装置１００に着脱可能な可搬型の記録媒体、または、音合成装置１００が通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

図２は、音合成装置１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶された音合成プログラムを実行することで合成処理部２０として機能する。合成処理部２０は、推定モデルＭを利用して音響信号Ｖを生成する。また、制御装置１１は、記憶装置１２に記憶された機械学習プログラムを実行することで機械学習部３０として機能する。機械学習部３０は、合成処理部２０が利用する推定モデルＭを機械学習により確立する。

推定モデルＭは、制御データＣに応じた音響信号Ｖを生成するための統計的モデルである。すなわち、推定モデルＭは、制御データＣと音響信号Ｖとの関係を学習した学習済モデルである。制御データＣは、合成音（音響信号Ｖ）に関する条件を指定するデータである。推定モデルＭは、制御データＣの時系列に対して、音響信号Ｖを構成するサンプルの時系列を出力する。

推定モデルＭは、例えば深層ニューラルネットワークで構成される。具体的には、畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）または再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）等の各種のニューラルネットワークが推定モデルＭとして利用される。また、推定モデルＭは、長短期記憶（ＬＳＴＭ：Long Short-Term Memory）またはＡＴＴＥＮＴＩＯＮ等の付加的な要素を具備してもよい。

推定モデルＭは、制御データＣから音響信号Ｖを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の係数（具体的には加重値およびバイアス）との組合せで実現される。推定モデルＭを規定する複数の係数が、前述の学習機能による機械学習（深層学習）で設定される。

合成処理部２０は、条件処理部２１と信号推定部２２とを具備する。条件処理部２１は、記憶装置１２に記憶された楽曲データＳから制御データＣを生成する。楽曲データＳは、楽曲を構成する音符の時系列（すなわち楽譜）を指定する。例えば、音高と発音期間とを発音単位毎に指定する時系列データが楽曲データＳとして利用される。発音単位は、例えば１個の音符である。ただし、楽曲内の１個の音符を複数の発音単位に区分してもよい。なお、歌唱音声を合成に利用される楽曲データＳにおいては、発音単位毎に音韻（例えば発音文字）が指定される。

条件処理部２１は、発音単位毎に制御データＣを生成する。各発音単位の制御データＣは、例えば、当該発音単位の発音期間と、他の発音単位に対する関係（例えば前後に位置する１以上の発音単位との音高差等のコンテキスト）とを指定する。発音期間は、例えば発音の開始点（アタック）と減衰の開始点（リリース）とにより規定される。なお、歌唱音声を合成する場合には、発音単位の音韻を指定する制御データＣが生成される。

信号推定部２２は、推定モデルＭを利用して制御データＣに応じた音響信号Ｖを生成する。具体的には、信号推定部２２は、複数の制御データＣを推定モデルＭに順次に入力することで、音響信号Ｖを構成するサンプルの時系列を生成する。

機械学習部３０は、準備処理部３１と訓練処理部３２とを具備する。準備処理部３１は、複数の訓練データＤを準備する。訓練処理部３２は、準備処理部３１により準備された複数の訓練データＤを利用した機械学習により推定モデルＭを訓練する機能である。

複数の訓練データＤの各々は、制御データＣと音響信号Ｗとを相互に対応させたデータである。各訓練データＤの制御データＣは、当該訓練データＤに含まれる音響信号Ｖに関する条件を指定する。

訓練処理部３２は、複数の訓練データＤを利用した機械学習により推定モデルＭを確立する。具体的には、訓練処理部３２は、各訓練データＤの制御データＣから暫定的な推定モデルＭが生成する音響信号Ｖと、当該訓練データＤの音響信号Ｖとの間の誤差（損失関数）が低減されるように、推定モデルＭの複数の係数を反復的に更新する。したがって、推定モデルＭは、複数の訓練データＤにおける制御データＣと音響信号Ｖとの間に潜在する関係を学習する。すなわち、訓練後の推定モデルＭは、未知の制御データＣに対して当該関係のもとで統計的に妥当な音響信号Ｖを出力する。

準備処理部３１は、記憶装置１２に記憶された複数の単位データＵから複数の訓練データＤを生成する。複数の単位データＵの各々は、楽曲データＳと参照信号Ｒとを相互に対応させたデータである。楽曲データＳは、楽曲を構成する音符の時系列を指定する。各単位データＵの参照信号Ｒは、当該単位データＵの楽曲データＳが表す楽曲の歌唱または演奏により発音される音の波形を表す。多数の歌唱者による歌唱音声または多数の演奏者による楽器音が事前に収録され、歌唱音声または楽器音を表す参照信号Ｒが楽曲データＳとともに記憶装置１２に記憶される。

準備処理部３１は、条件処理部４１と調整処理部４２とを具備する。条件処理部４１は、前述の条件処理部２１と同様に、各単位データＵの楽曲データＳから制御データＣを生成する。

調整処理部４２は、複数の参照信号Ｒの各々から音響信号Ｖを生成する。具体的には、調整処理部４２は、参照信号Ｒの位相スペクトルを調整することで音響信号Ｖを生成する。各単位データＵの楽曲データＳから条件処理部４１が生成した制御データＣと、当該単位データＵの参照信号Ｒから調整処理部４２が生成した音響信号Ｖとを含む訓練データＤが、記憶装置１２に記憶される。

図３は、調整処理部４２が参照信号Ｒから音響信号Ｖを生成する処理（以下「準備処理」という）Ｓaの具体的な手順を例示するフローチャートである。複数の参照信号Ｒの各々について準備処理Ｓaが実行される。

調整処理部４２は、参照信号Ｒについて複数のピッチマークを設定する（Ｓa1）。各ピッチマークは、参照信号Ｒの基本周波数に対応する間隔で時間軸上に設定された基準点である。概略的には、参照信号Ｒの基本周波数の逆数である基本周期に相当する間隔でピッチマークが設定される。なお、参照信号Ｒの基本周波数の算定およびピッチマークの設定には公知の技術が任意に採用される。

調整処理部４２は、参照信号Ｒを時間軸上で区分した複数の解析区間（フレーム）の何れかを選択する（Ｓa2）。具体的には、複数の解析区間の各々が時系列の順番で順次に選択される。調整処理部４２が選択した１個の解析区間について以下の処理（Ｓa3−Ｓa8）が実行される。

調整処理部４２は、参照信号Ｒの解析区間について振幅スペクトルＸと位相スペクトルＹとを算定する（Ｓa3）。振幅スペクトルＸおよび位相スペクトルＹの算定には、例えば短時間フーリエ変換等の公知の周波数解析が利用される。

図４には、振幅スペクトルＸと位相スペクトルＹとが図示されている。参照信号Ｒは、相異なる調波周波数Ｆnに対応する複数の調波成分を含む（ｎは自然数）。調波周波数Ｆnは、第ｎ番目の調波成分のピークに対応する周波数である。すなわち、調波周波数Ｆ1は参照信号Ｒの基本周波数に相当し、以降の各調波周波数Ｆn（Ｆ2，Ｆ3，…）は、参照信号Ｒの第ｎ倍音の周波数に相当する。

調整処理部４２は、相異なる調波成分に対応する複数の調波帯域Ｈnを周波数軸上に画定する（Ｓa4）。例えば、各調波周波数Ｆnと当該調波周波数Ｆnの高域側の調波周波数Ｆn+1との中点を境界として各調波帯域Ｈnが周波数軸上に画定される。なお、調波帯域Ｈnを画定する方法は以上の例示に限定されない。例えば、調波周波数Ｆnと調波周波数Ｆn+1との間における中点の近傍で振幅値が最小となる地点を境界として各調波帯域Ｈnを画定してもよい。

調整処理部４２は、調波帯域Ｈn毎に目標位相Ｑnを設定する（Ｓa5）。例えば、調整処理部４２は、参照信号Ｒの解析区間における最小位相Ｅbに応じて目標位相Ｑnを設定する。具体的には、各調波帯域Ｈnの目標位相Ｑnは、当該調波帯域Ｈnの調波周波数Ｆnについて振幅スペクトルＸの包絡線（以下「振幅スペクトル包絡」という）Ｅaから算定される最小位相Ｅbである。

調整処理部４２は、例えば振幅スペクトル包絡Ｅaの対数値をヒルベルト変換することで最小位相Ｅbを算定する。例えば、調整処理部４２は、第１に、振幅スペクトル包絡Ｅaの対数値に対して離散逆フーリエ変換を実行することで時間領域のサンプル系列を算定する。第２に、調整処理部４２は、時間領域のサンプル系列のうち時間軸上で負数の時刻に相当する各サンプルをゼロに変更し、時間軸上の原点と時刻Ｆ/２（Ｆは離散フーリエ変換の点数）とを除外した各時刻に相当するサンプルを２倍したうえで離散フーリエ変換を実行する。第３に、調整処理部４２は、離散フーリエ変換の結果のうちの虚数部分を最小位相Ｅbとして抽出する。調整処理部４２は、以上の手順で算定した最小位相Ｅbのうち調波周波数Ｆnにおける数値を目標位相Ｑnとして選択する。

調整処理部４２は、解析区間の位相スペクトルＹを調整することで位相スペクトルＺを生成する処理（以下「調整処理」という）Ｓa6を実行する。調整処理Ｓa6の実行後の位相スペクトルＺのうち調波帯域Ｈn内の各周波数ｆにおける位相値ｚfは、以下の数式(1)で表現される。
ｚf＝ｙf−(ｙFn−Ｑn)−２πｆ(ｍ−ｔ) …(1)

数式(1)の記号ｙfは、調整前の位相スペクトルＹのうち周波数ｆにおける位相値である。したがって、位相値ｙFnは、位相スペクトルＹのうち調波周波数Ｆnにおける位相値を意味する。数式(1)の右辺における第２項（ｙFn−Ｑn）は、調波帯域Ｈn内の調波周波数Ｆnにおける位相値ｙFnと当該調波帯域Ｈnについて設定された目標位相Ｑnとの差分に応じた調整量である。調波帯域Ｈn内の調波周波数Ｆnにおける位相値ｙFnに応じた調整量(ｙFn−Ｑn)により、当該調波帯域Ｈn内の各周波数ｆにおける位相値ｙfが調整される。調波帯域Ｈn内には、調波成分だけでなく、各調波成分の間に存在する非調波成分も含まれる。調波帯域Ｈn内の各周波数ｆにおける位相値ｙfが調整量（ｙFn−Ｑn）により調整されるということは、当該調波帯域Ｈn内の調波成分と非調波成分との双方が共通の調整量（ｙFn−Ｑn）により調整されることを意味する。以上の説明から理解される通り、調波成分の位相値と非調波成分の位相値との相対的な関係を維持したまま位相スペクトルＹが調整されるから、高品質な音響信号Ｖを生成できるという利点がある。

数式(1)の記号ｔは、解析区間に対して時間軸上で所定の関係にある時点の時刻を意味する。例えば時刻ｔは、解析区間の中点の時刻である。数式(1)の記号ｍは、参照信号Ｒについて設定された複数のピッチマークのうち解析区間に対応する１個のピッチマークの時刻である。例えば、時刻ｍは、複数のピッチマークのうち時刻ｔに最も近いピッチマークの時刻である。数式(1)の右辺における第３項は、時刻ｔを基準とした時刻ｍの相対的な時間に対応する線形位相分を意味する。

数式(1)から理解される通り、時刻ｔがピッチマークの時刻ｍに一致する場合、数式(1)の右辺における第３項はゼロとなる。すなわち、調整後の位相値ｚfは、調整前の位相値ｙfから調整値(ｙFn−Ｑn)を減算した数値（ｚf＝ｙf−(ｙFn−Ｑn)）に設定される。したがって、調波周波数Ｆnにおける位相値ｙf（＝ｙFn）は目標位相Ｑnに調整される。以上の説明から理解される通り、調整処理Ｓa6は、解析区間の位相スペクトルＹにおける調波成分の位相値ｙFnが、ピッチマークにおいて目標位相Ｑnとなるように、当該解析区間の位相スペクトルＹを調整する処理である。

調整処理部４２は、調整処理Ｓa6で生成された位相スペクトルＺと参照信号Ｒの振幅スペクトルＸとから時間領域の信号を合成する処理（以下「合成処理」という）Ｓa7を実行する。具体的には、調整処理部４２は、振幅スペクトルＸと調整後の位相スペクトルＺとで規定される周波数スペクトルを例えば短時間逆フーリエ変換により時間領域の信号に変換し、変換後の信号を、直前の解析区間について生成された信号に部分的に重ねた状態で加算する。

調整処理部４２は、参照信号Ｒの全部の解析区間について以上の処理（調整処理Ｓa6および合成処理Ｓa7）を実行したか否かを判定する（Ｓa8）。未処理の解析区間がある場合（Ｓa8：NO）、調整処理部４２は、現在の解析区間の直後の解析区間を新たに選択したうえで（Ｓa2）、当該解析区間について前述の処理（Ｓa3−Ｓa8）を実行する。以上の説明から理解される通り、合成処理Ｓa7は、調整処理Ｓa6による調整後の位相スペクトルＺと参照信号Ｒの振幅スペクトルＸとから複数の解析区間にわたる音響信号Ｖを合成する処理である。参照信号Ｒの全部の解析区間について処理が完了した場合（Ｓa8：YES）、今回の参照信号Ｒに関する準備処理Ｓaが終了する。

図５は、機械学習部３０が推定モデルＭを確立するための処理（以下「推定モデル確立処理」という）の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として推定モデル確立処理が開始される。

準備処理部３１（調整処理部４２）は、調整処理Ｓa6および合成処理Ｓa7を含む準備処理Ｓaにより、各単位データＵの参照信号Ｒから音響信号Ｖを生成する（Ｓa）。準備処理部３１（条件処理部４１）は、記憶装置１２に記憶された各単位データＵの楽曲データＳから制御データＣを生成する（Ｓb）。なお、音響信号Ｖの生成（Ｓa）と制御データＣの生成（Ｓb）との順序を逆転してもよい。

準備処理部３１は、各単位データＵの参照信号Ｒから生成された音響信号Ｖと、当該単位データＵの楽曲データＳから生成された制御データＣとを相互に対応させた訓練データＤを生成する（Ｓc）。以上の処理（Ｓa−Ｓc）は、訓練データ準備方法の一例である。準備処理部３１が生成した複数の訓練データＤが記憶装置１２に記憶される。機械学習部３０は、準備処理部３１が生成した複数の訓練データＤを利用した機械学習により推定モデルＭを確立する（Ｓd）。

以上に例示した形態では、複数の参照信号Ｒの各々について、位相スペクトルＹにおける調波成分の位相値ｙFnがピッチマークにおいて目標位相Ｑnとなるように各解析区間の位相スペクトルＹが調整される。したがって、制御データＣにより指定される条件が近い複数の音響信号Ｖの間では、調整処理Ｓa6により時間波形が相互に近付く。以上の構成によれば、位相スペクトルＹが調整されていない複数の参照信号Ｒを利用する場合と比較して、推定モデルＭの機械学習が効率的に進行する。したがって、推定モデルＭの確立に必要な訓練データＤの個数（さらには機械学習に必要な時間）が削減され、推定モデルＭの規模も縮小されるという利点がある。

また、参照信号Ｒの振幅スペクトル包絡Ｅaから算定される最小位相Ｅbを目標位相Ｑnとして位相スペクトルＹが調整されるから、聴感的に自然な音響信号Ｖを準備処理Ｓaにより生成できる。したがって、聴感的に自然な音響信号Ｖを推定可能な推定モデルＭを確立できるという利点もある。

＜第２実施形態＞
第２実施形態を説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、周波数軸上に画定された全部の調波帯域Ｈnについて調整処理Ｓa6を実行した、第２実施形態および第３実施形態は、複数の調波帯域Ｈnのうち一部の調波帯域Ｈnに限定して調整処理Ｓa6を実行する。

図６は、第２実施形態における準備処理Ｓaの一部を例示するフローチャートである。周波数軸上に複数の調波帯域Ｈnを画定すると（Ｓa4）、調整処理部４２は、複数の調波帯域Ｈnのうち調整処理Ｓa6の対象となる２以上の調波帯域（以下「選択調波帯域」という）Ｈnを選択する（Ｓa10）。

具体的には、調整処理部４２は、複数の調波帯域Ｈnのうち調波成分の振幅値が所定の閾値を上回る調波帯域Ｈnを選択調波帯域Ｈnとして選択する。調波成分の振幅値は、例えば参照信号Ｒの振幅スペクトルＸにおける調波周波数Ｆnでの振幅値（すなわち絶対値）である。なお、所定の基準値に対する相対的な振幅値に応じて選択調波帯域Ｈnを選択してもよい。例えば、調整処理部４２は、振幅スペクトルＸを周波数軸上または時間軸上で平滑化した数値を基準値とする相対的な振幅値を算定し、複数の調波帯域Ｈnのうち当該振幅値が閾値を上回る調波帯域Ｈnを選択調波帯域Ｈnとして選択する。

調整処理部４２は、複数の選択調波帯域Ｈnの各々について目標位相Ｑnを設定する（Ｓa5）。非選択の調波帯域Ｈnについて目標位相Ｑnは設定されない。また、調整処理部４２は、複数の選択調波帯域Ｈnの各々について調整処理Ｓa6を実行する。調整処理Ｓa6の内容は第１実施形態と同様である。非選択の調波帯域Ｈnについて調整処理Ｓa6は実行されない。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、調波成分の振幅値が閾値を上回る調波帯域Ｈnについて調整処理Ｓa6が実行される。したがって、全部の調波帯域Ｈnについて一律に調整処理Ｓa6を実行する構成と比較して調整処理Ｓa6の処理負荷を低減できる。また、振幅値が閾値を上回る調波帯域Ｈnについて調整処理Ｓa6が実行されるから、振幅値が充分に小さい調波帯域Ｈnについて調整処理Ｓa6を実行する構成と比較して、推定モデルＭの機械学習が効率的に進行するという効果を維持しながら、調整処理Ｓa6の処理負荷を低減できる。

＜第３実施形態＞
第２実施形態では、調波成分の振幅値（絶対値または相対値）が閾値を上回る調波帯域Ｈnについて調整処理Ｓa6を実行した。第３実施形態の調整処理部４２は、複数の調波帯域Ｈnのうち所定の周波数帯域（以下「基準帯域」という）内の調波帯域Ｈnについて調整処理Ｓa6を実行する。基準帯域は、周波数軸上の一部の周波数帯域であり、参照信号Ｒが表す音の発音源の種類毎に設定される。具体的には、基準帯域は、調波成分（周期成分）が非調波成分（非周期成分）と比較して優勢に存在する周波数帯域である。例えば音声については約８ｋＨｚ未満の周波数帯域が基準帯域として設定される。

複数の調波帯域Ｈnを画定すると（Ｓa4）、調整処理部４２は、複数の調波帯域Ｈnのうち所定の周波数帯域内の調波帯域Ｈnを選択調波帯域Ｈnとして選択する。具体的には、調整処理部４２は、調波周波数Ｆnが基準帯域内の数値である複数の調波帯域Ｈnを選択調波帯域Ｈnとして選択する。第３実施形態においても第２実施形態と同様に、複数の選択調波帯域Ｈnの各々について目標位相Ｑnの設定（Ｓa5）と調整処理Ｓa6とが実行される。非選択の調波帯域Ｈnについて目標位相Ｑnの設定および調整処理Ｓa6は実行されない。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、基準帯域内の調波帯域Ｈnについて調整処理Ｓa6が実行されるから、第２実施形態と同様に、調整処理Ｓa6の処理負荷を低減できるという利点がある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、振幅スペクトル包絡Ｅaから算定される最小位相Ｅbを目標位相Ｑnとして設定したが、目標位相Ｑnの設定方法は以上の例示に限定されない。例えば、複数の調波帯域Ｈnにわたり共通する所定値を目標位相Ｑnとして設定してもよい。例えば、参照信号Ｒの音響特性とは無関係に設定された所定の数値（例えばゼロ）が目標位相Ｑnとして利用される。以上の構成によれば、目標位相Ｑnが所定値に設定されるから、調整処理の処理負荷を軽減することが可能である。なお、以上の例示では、複数の調波帯域Ｈnにわたり共通の目標位相Ｑnを設定したが、目標位相Ｑnを調波帯域Ｈn毎に相違させてもよい。

（２）前述の各形態では、制御データＣに応じた音響信号Ｖを推定する推定モデルＭを例示したが、音響信号Ｖの決定的成分と確率的成分とを別個の推定モデル（第１推定モデルおよび第２推定モデル）により推定してもよい。決定的成分は、音高または音韻等の発音条件が共通すれば音源による毎回の発音に同様に含まれる音響成分である。決定的成分は、調波成分を非調波成分と比較して優勢に含む音響成分とも換言される。例えば、発音者の声帯の規則的な振動に由来する周期的な成分が決定的成分である。他方、確率的成分は、発音過程における確率的な要因により発生する音響成分である。例えば、確率的成分は、発音過程における空気の乱流に由来する非周期的な音響成分である。確率的成分は、非調波成分を調波成分と比較して優勢に含む音響成分とも換言される。第１推定モデルは、決定的成分の条件を表す第１制御データに応じて決定的成分の時系列を生成する。他方、第２推定モデルは、確率的成分の条件を表す第２制御データに応じて確率的成分の時系列を生成する。

（３）前述の各形態では、合成処理部２０を含む音合成装置１００を例示したが、本開示のひとつの態様は、機械学習部３０を具備する推定モデル確立装置としても表現される。推定モデル確立装置における合成処理部２０の有無は不問である。端末装置と通信可能なサーバ装置を推定モデル確立装置として実現してもよい。推定モデル確立装置は、機械学習により確立した推定モデルＭを端末装置に配信する。端末装置は、推定モデル確立装置から配信された推定モデルＭを利用して音響信号Ｖを生成する合成処理部２０を具備する。

また、本開示の他の態様は、準備処理部３１を具備する訓練データ準備装置としても表現される。訓練データ準備装置における合成処理部２０または訓練処理部３２の有無は不問である。端末装置と通信可能なサーバ装置を訓練データ準備装置として実現してもよい。訓練データ準備装置は、準備処理Ｓaにより準備した複数の訓練データＤ（訓練データセット）を端末装置に配信する。端末装置は、訓練データ準備装置から配信された訓練データセットを利用した機械学習により推定モデルＭを確立する訓練処理部３２を具備する。

（４）前述の各形態において例示した通り、音合成装置１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（５）推定モデルＭを実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（第１態様）に係る推定モデル確立方法は、複数の参照信号の各々について、当該参照信号の基本周波数に対応する間隔で設定された各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する。以上の態様では、複数の参照信号の各々について、位相スペクトルにおける調波成分の位相値がピッチマークにおいて目標位相となるように各解析区間の位相スペクトルが調整されるから、条件が近い複数の音響信号の間では、調整処理により時間波形が相互に近付く。以上の態様によれば、位相スペクトルが調整されていない複数の参照信号を利用する場合と比較して、推定モデルに対する機械学習が効率的に進行する。したがって、推定モデルの確立に必要な訓練データの個数（さらには機械学習に必要な時間）が削減され、推定モデルの規模も縮小される。

第１態様の一例（第２態様）において、前記調整処理は、前記位相スペクトルを周波数軸上で調波成分毎に区分した複数の調波帯域の各々について、当該調波帯域内の調波周波数に対応する位相値と目標位相との差分に応じた調整量により、前記調波帯域内の各位相値を調整する処理である。以上の態様では、調波周波数の位相値と目標位相との差分に応じた調整量により調波帯域内の各位相値が調整される。したがって、調波周波数における位相値と他の周波数における位相値との相対的な関係を維持したまま位相スペクトルが調整され、結果的に高品質な音響信号を生成できる。

第２態様の一例（第３態様）において、前記複数の調波帯域の各々における前記目標位相は、当該調波帯域の前記調波周波数について前記振幅スペクトルの包絡線から算定される最小位相である。以上の態様では、振幅スペクトルの包絡線から算定される最小位相を目標位相として位相スペクトルが調整されるから、聴感的に自然な音響信号を生成できる。

第２態様の一例（第４態様）において、前記目標位相は、前記複数の調波帯域にわたり共通する所定値である。以上の態様では、目標位相が所定値（例えばゼロ）に設定されるから、調整処理の処理負荷を低減できる。

第２態様から第４態様の何れかの一例において、前記調整処理は、前記複数の調波帯域のうち調波成分の振幅値が閾値を上回る調波帯域について実行される。以上の態様では、調波成分の振幅値が閾値を上回る調波帯域について調整処理が実行されるから、全部の調波帯域について一律に調整処理を実行する構成と比較して調整処理の処理負荷が低減される。

第２態様から第４態様の何れかの一例において、前記調整処理は、前記複数の調波帯域のうち所定の周波数帯域内の調波帯域について実行される。以上の態様では、所定の周波数帯域内の調波帯域について調整処理が実行されるから、全部の調波帯域について一律に調整処理を実行する構成と比較して調整処理の処理負荷が低減される。

以上に例示した各態様の推定モデル確立方法を実行する推定モデル確立装置、または、以上に例示した各態様の推定モデル確立方法をコンピュータに実行させるプログラムとしても、本開示の態様は実現される。

１００…音合成装置、１１…制御装置、１２…記憶装置、１３…放音装置、２０…合成処理部、２１…条件処理部、２２…信号推定部、３０…機械学習部、３１…準備処理部、３２…訓練処理部、４１…条件処理部、４２…調整処理部。

Claims

複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成し、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する
コンピュータにより実現される推定モデル確立方法。
前記調整処理は、前記位相スペクトルを周波数軸上で調波成分毎に区分した複数の調波帯域の各々について、当該調波帯域内の調波周波数に対応する位相値と目標位相との差分に応じた調整量により、前記調波帯域内の各位相値を調整する処理である
請求項１の推定モデル確立方法。
前記複数の調波帯域の各々における前記目標位相は、当該調波帯域の前記調波周波数について前記振幅スペクトルの包絡線から算定される最小位相である
請求項２の推定モデル確立方法。
前記目標位相は、前記複数の調波帯域にわたり共通する所定値である
請求項２の推定モデル確立方法。
前記調整処理は、前記複数の調波帯域のうち調波成分の振幅値が閾値を上回る調波帯域について実行される
請求項２から請求項４の何れかの推定モデル確立方法。
前記調整処理は、前記複数の調波帯域のうち所定の周波数帯域内の調波帯域について実行される
請求項２から請求項４の何れかの推定モデル確立方法。
複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部と、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部と
を具備する推定モデル確立装置。
複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する準備処理部、および、
前記複数の参照信号についてそれぞれ生成された複数の訓練データを利用した機械学習により、制御データに応じた音響信号を推定するための推定モデルを確立する訓練処理部
としてコンピュータを機能させるプログラム。
制御データに応じた音響信号を推定する推定モデルを確立するための機械学習に利用される複数の訓練データを準備する方法であって、
複数の参照信号の各々について、
当該参照信号の各ピッチマークにおいて当該参照信号の位相スペクトルにおける調波成分の位相値が目標位相となるように、当該参照信号を区分した複数の解析区間の各々における位相スペクトルを調整する調整処理と、
前記調整処理後の位相スペクトルと当該参照信号の振幅スペクトルとから前記複数の解析区間にわたる音響信号を合成する合成処理と、
を実行することで、当該参照信号の条件を指定する制御データと当該参照信号から合成された前記音響信号とを含む訓練データを前記参照信号毎に生成する
コンピュータにより実現される訓練データ準備方法。