WO2020095950A1

WO2020095950A1 - 情報処理方法および情報処理システム

Info

Publication number: WO2020095950A1
Application number: PCT/JP2019/043510
Authority: WO
Inventors: 竜之介大道; メルレインブラアウ; ジョルディボナダ
Original assignee: ヤマハ株式会社
Priority date: 2018-11-06
Filing date: 2019-11-06
Publication date: 2020-05-14
Also published as: US20210256960A1; US11942071B2; JP2020076843A; EP3879524A4; CN112970058A; JP6747489B2; EP3879524A1

Abstract

情報処理システムは、歌唱者を表す歌唱者データと歌唱スタイルを表すスタイルデータと歌唱条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、当該発音スタイルおよび発音条件のもとで歌唱者が発音すべき目標音の音響的な特徴を表す特徴データを生成する合成処理部を具備する。

Description

情報処理方法および情報処理システム

　本開示は、音声等の音響を合成する技術に関する。

　任意の音韻の音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで音（以下「目標音」という）を生成する素片接続型の音声合成技術が開示されている。

特開２００７－２４０５６４号公報

　近年の音声合成技術には、多様な発声者が多様な発音スタイルで発音する目標音を合成することが要求される。しかし、素片接続型の音声合成技術で以上の要求に対応するには、発声者と発音スタイルとの組合せ毎に複数の音声素片の集合を個別に用意する必要がある。したがって、音声素片の用意に過大な労力が必要であるという問題がある。以上の事情を考慮して、本開示のひとつの態様は、音声素片を必要とすることなく発音源（例えば発声者）と発音スタイルとの組合せを相違させた多様な目標音を生成することを目的とする。

　以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき目標音の音響的な特徴を表す特徴データを生成する。

　本開示のひとつの態様に係る情報処理システムは、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき目標音の音響的な特徴を表す特徴データを生成する合成処理部を具備する。

　本開示のひとつの態様に係る情報処理システムは、１以上のプロセッサと１以上のメモリとを具備する情報処理システムであって、前記１以上のメモリに記憶されたプログラムを実行することにより、前記１以上のプロセッサが、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音する音響の音響的な特徴を表す特徴データを生成する。

実施形態に係る情報処理システムの構成を例示するブロック図である。情報処理システムの機能的な構成を例示するブロック図である。合成処理の具体的な手順を例示するフローチャートである。学習処理の説明図である。学習処理の具体的な手順を例示するフローチャートである。補充処理の説明図である。補充処理の具体的な手順を例示するフローチャートである。第２実施形態における合成モデルの構成を例示するブロック図である。第３実施形態における合成モデルの構成を例示するブロック図である。変形例における合成処理の説明図である。

＜第１実施形態＞
　図１は、第１実施形態に係る情報処理システム１００の構成を例示するブロック図である。情報処理システム１００は、特定の歌唱者が特定の歌唱スタイルで楽曲を仮想的に歌唱した音声（以下「目標音」という）を生成する音声合成装置である。歌唱スタイル（発音スタイルの例示）は、例えば歌唱の仕方に関する特徴を意味する。例えばラップ，Ｒ＆Ｂ（rhythm and blues）またはパンク等の各種の音楽ジャンルの楽曲に好適な歌い廻しが歌唱スタイルの具体例である。

　第１実施形態の情報処理システム１００は、制御装置１１と記憶装置１２と入力装置１３と放音装置１４とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理システム１００として利用される。なお、情報処理システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合でも実現される。

　制御装置１１は、情報処理システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサで構成される。

　入力装置１３は、利用者による操作を受付ける。例えば利用者が操作する操作子、または利用者による接触を検知するタッチパネルが、入力装置１３として利用される。また、音声入力が可能な収音装置を入力装置１３として利用してもよい。放音装置１４は、制御装置１１からの指示に応じた音響を再生する。例えばスピーカまたはヘッドホンが放音装置１４の典型例である。

　記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、情報処理システム１００に対して着脱可能な可搬型の記録媒体、または情報処理システム１００が通信網を介して通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。第１実施形態の記憶装置１２は、複数（Ｎa個）の歌唱者データＸaと複数（Ｎb個）のスタイルデータＸbと合成データＸcとを記憶する（ＮaおよびＮbの各々は２以上の自然数）。なお、歌唱者データＸaの個数ＮaとスタイルデータＸbの個数Ｎbとの異同は不問である。

　第１実施形態の記憶装置１２は、相異なる歌唱者に対応するＮa個の歌唱者データＸa（発音源データの例示）を記憶する。各歌唱者の歌唱者データＸaは、当該歌唱者が発音する歌唱音の音響的な特徴（例えば声質）を表すデータである。第１実施形態の歌唱者データＸaは、多次元の第１空間における埋込ベクトル（embedding vector）である。第１空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で歌唱音の音響的な特徴が類似するほど、第１空間内における当該歌唱者間のベクトルの距離は小さい数値となる。以上の説明から理解される通り、第１空間は、歌唱音の特徴に関する歌唱者間の関係を表す空間と表現される。利用者は、入力装置１３を適宜に操作することで、記憶装置１２に記憶されたＮa個の歌唱者データＸaの何れか（すなわち所望の歌唱者）を選択する。なお、歌唱者データＸaの生成については後述する。

　第１実施形態の記憶装置１２は、相異なる歌唱スタイルに対応するＮb個のスタイルデータＸbを記憶する。各歌唱スタイルのスタイルデータＸbは、当該歌唱スタイルで発音される歌唱音の音響的な特徴を表すデータである。第１実施形態のスタイルデータＸbは、多次元の第２空間における埋込ベクトルである。第２空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱スタイルの位置が決定される連続空間である。歌唱スタイル間で歌唱音の音響的な特徴が類似するほど、第２空間内における当該歌唱スタイル間のベクトルの距離は小さい数値となる。すなわち、以上の説明から理解される通り、第２空間は、歌唱音の特徴に関する歌唱スタイル間の関係を表す空間と表現される。利用者は、入力装置１３を適宜に操作することで、記憶装置１２に記憶されたＮb個のスタイルデータＸbの何れか（すなわち所望の歌唱スタイル）を選択する。スタイルデータＸbの生成については後述する。

　合成データＸcは、目標音の歌唱条件を指定する。第１実施形態の合成データＸcは、楽曲を構成する複数の音符の各々について音高と音韻（発音文字）と発音期間とを指定する時系列データである。音符毎の音量等の制御パラメータの数値を合成データＸcが指定してもよい。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が合成データＸcとして利用される。

　図２は、記憶装置１２に記憶されたプログラムを制御装置１１が実行することで実現される機能を例示するブロック図である。第１実施形態の制御装置１１は、合成処理部２１と信号生成部２２と学習処理部２３とを実現する。なお、相互に別体で構成された複数の装置により制御装置１１の機能を実現してもよい。制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

＜合成処理部２１および信号生成部２２＞
　合成処理部２１は、目標音の音響的な特徴を表す特徴データＱの時系列を生成する。第１実施形態の特徴データＱは、例えば目標音の基本周波数（ピッチ）Ｑaとスペクトル包絡Ｑbとを含む。スペクトル包絡Ｑbは、目標音の周波数スペクトルの概形である。特徴データＱは、所定長（例えば５ミリ秒）の単位期間毎に順次に生成される。すなわち、第１実施形態の合成処理部２１は、基本周波数Ｑaの時系列とスペクトル包絡Ｑbの時系列とを生成する。

　信号生成部２２は、特徴データＱの時系列から音響信号Ｖを生成する。特徴データＱの時系列を利用した音響信号Ｖの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部２２は、基本周波数Ｑaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Ｑbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号Ｖを生成する。信号生成部２２が生成した音響信号Ｖが放音装置１４に供給されることで、目標音が音波として放音装置１４から放射される。なお、音響信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

　第１実施形態では、合成処理部２１による特徴データＱの生成に合成モデルＭが利用される。合成処理部２１は、入力データＺを合成モデルＭに入力する。入力データＺは、Ｎa個の歌唱者データＸaのうち利用者が選択した歌唱者データＸaと、Ｎb個のスタイルデータＸbのうち利用者が選択したスタイルデータＸbと、記憶装置１２に記憶された合成データＸcとを含む。

　合成モデルＭは、入力データＺと特徴データＱとの関係を学習した統計的予測モデルである。第１実施形態の合成モデルＭは、深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）で構成される。具体的には、合成モデルＭは、入力データＺから特徴データＱを生成する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。合成モデルＭを規定する複数の係数は、複数の学習データを利用した機械学習（特に深層学習）により設定されて記憶装置１２に保持される。合成モデルＭの機械学習については後述する。

　図３は、第１実施形態の制御装置１１が音響信号Ｖを生成する処理（以下「合成処理」という）の具体的な手順を例示するフローチャートである。例えば入力装置１３に対する利用者からの指示を契機として合成処理が開始される。

　合成処理を開始すると、合成処理部２１は、歌唱者データＸaおよびスタイルデータＸbの選択を利用者から受付ける（Ｓa1）。相異なる楽曲に対応する複数の合成データＸcが記憶装置１２に記憶されている場合、合成処理部２１は、合成データＸcの選択を利用者から受付けてもよい。合成処理部２１は、利用者が選択した歌唱者データＸaおよびスタイルデータＸbと記憶装置１２に記憶された合成データＸcとを含む入力データＺを合成モデルＭに入力することで特徴データＱの時系列を生成する（Ｓa2）。信号生成部２２は、合成処理部２１が生成した特徴データＱの時系列から音響信号Ｖを生成する（Ｓa3）。

　以上に説明した通り、第１実施形態では、歌唱者データＸaとスタイルデータＸbと合成データＸcとを合成モデルＭに入力することで特徴データＱが生成される。したがって、音声素片を必要とせずに目標音を生成できる。また、歌唱者データＸaと合成データＸcとに加えてスタイルデータＸbが合成モデルＭに入力される。したがって、歌唱者データＸaと合成データＸcとに応じた特徴データＱを生成する構成と比較して、歌唱者データＸaを歌唱スタイル毎に用意することなく、歌唱者と歌唱スタイルとの組合せに対応した多様な音声の特徴データＱを生成できるという利点がある。例えば、歌唱者データＸaとともに選択するスタイルデータＸbを変更することで、特定の歌唱者が相異なる複数種の歌唱スタイルで発音した目標音の特徴データＱを生成できる。また、スタイルデータＸbとともに選択する歌唱者データＸaを変更することで、複数の歌唱者の各々が共通の歌唱スタイルで発音した目標音の特徴データＱを生成できる。

＜学習処理部２３＞
　図２の学習処理部２３は、機械学習により合成モデルＭを生成する。学習処理部２３による機械学習後の合成モデルＭが、図３における特徴データＱの生成（以下「推定処理」という）Ｓa2に利用される。図４は、学習処理部２３による機械学習を説明するためのブロック図である。合成モデルＭの機械学習には複数の学習データＬが利用される。複数の学習データＬは記憶装置１２に記憶される。また、機械学習の終了判定に利用される評価用の学習データ（以下「評価用データ」という）Ｌも記憶装置１２に記憶される。

　複数の学習データＬの各々は、識別情報Ｆaと識別情報Ｆbと合成データＸcと音響信号Ｖとを含む。識別情報Ｆaは、特定の歌唱者を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値１に設定され、残余の要素が数値０に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Ｆaとして利用される。また、識別情報Ｆbは、特定の歌唱スタイルを識別するための数値列である。例えば、相異なる歌唱スタイルに対応する複数の要素のうち特定の歌唱スタイルに対応する要素が数値１に設定され、残余の要素が数値０に設定されたone-hot表現の数値列が、当該特定の歌唱スタイルの識別情報Ｆbとして利用される。なお、識別情報Ｆaまたは識別情報Ｆbについては、one-hot表現における数値１と数値０とを置換したone-cold表現を採用してもよい。識別情報Ｆaと識別情報Ｆbと合成データＸcとの組合せは学習データＬ毎に相違する。ただし、識別情報Ｆaと識別情報Ｆbと合成データＸcとの一部は、２個以上の学習データＬについて共通してもよい。

　任意の１個の学習データＬに含まれる音響信号Ｖは、識別情報Ｆaが表す歌唱者が、識別情報ｆbが表す歌唱スタイルで、合成データＸcが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば歌唱者が実際に発音した歌唱音を収録することで音響信号Ｖが事前に用意される。

　第１実施形態の学習処理部２３は、機械学習の本来の目的である合成モデルＭとともに符号化モデルＥaおよび符号化モデルＥbを一括的に訓練する。符号化モデルＥaは、歌唱者の識別情報Ｆaを当該歌唱者の歌唱者データＸaに変換するエンコーダである。符号化モデルＥbは、歌唱スタイルの識別情報Ｆbを当該歌唱スタイルのスタイルデータＸbに変換するエンコーダである。符号化モデルＥaおよび符号化モデルＥbは、例えば深層ニューラルネットワークで構成される。符号化モデルＥaが生成する歌唱者データＸaと符号化モデルＥbが生成するスタイルデータＸbと学習データＬの合成データＸcとが合成モデルＭに供給される。前述の通り、合成モデルＭは、歌唱者データＸaとスタイルデータＸbと合成データＸcとに応じた特徴データＱの時系列を出力する。

　特徴解析部２４は、各学習データＬの音響信号Ｖから特徴データＱを生成する。特徴データＱは、例えば基本周波数Ｑaとスペクトル包絡Ｑbとを含む。特徴データＱの生成は、所定長（例えば５ミリ秒）の単位期間毎に反復される。すなわち、特徴解析部２４は、基本周波数Ｑaの時系列とスペクトル包絡Ｑbの時系列とを音響信号Ｖから生成する。特徴データＱは、合成モデルＭの出力に関する既知の正解値に相当する。

　学習処理部２３は、合成モデルＭと符号化モデルＥaと符号化モデルＥbとの各々について複数の係数を反復的に更新する。図５は、学習処理部２３が実行する処理（以下「学習処理」という）の具体的な手順を例示するフローチャートである。例えば入力装置１３に対する利用者からの指示を契機として学習処理が開始される。

　学習処理を開始すると、学習処理部２３は、記憶装置１２に記憶された複数の学習データＬの何れかを選択する（Ｓb1）。学習処理部２３は、記憶装置１２から選択した学習データＬの識別情報Ｆaを暫定的な符号化モデルＥaに入力するとともに当該学習データＬの識別情報Ｆbを暫定的な符号化モデルＥbに入力する（Ｓb2）。符号化モデルＥaは、識別情報Ｆaに対応する歌唱者データＸaを生成する。符号化モデルＥbは、識別情報Ｆbに対応するスタイルデータＸbを生成する。

　学習処理部２３は、符号化モデルＥaが生成した歌唱者データＸaおよび符号化モデルＥbが生成したスタイルデータＸbと、学習データＬの合成データＸcとを含む入力データＺを、暫定的な合成モデルＭに入力する（Ｓb3）。合成モデルＭは、入力データＺに応じた特徴データＱを生成する。

　学習処理部２３は、合成モデルＭが生成した特徴データＱと、学習データＬの音響信号Ｖから特徴解析部２４が生成した特徴データＱ（すなわち正解値）との誤差を表す評価関数を算定する（Ｓb4）。例えばベクトル間距離または交差エントロピー等の指標が評価関数として利用される。学習処理部２３は、評価関数が所定値（典型的にはゼロ）に近付くように、合成モデルＭと符号化モデルＥaと符号化モデルＥbとの各々の複数の係数を更新する（Ｓb5）。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が利用される。

　学習処理部２３は、以上に説明した更新処理（Ｓb2～Ｓb5）を所定の回数にわたり反復したか否かを判定する（Ｓb61）。更新処理の反復の回数が所定値を下回る場合（Ｓb61：NO）、学習処理部２３は、記憶装置１２から次の学習データＬを選択（Ｓb1）したうえで、当該学習データＬについて更新処理（Ｓb2～Ｓb5）を実行する。すなわち、複数の学習データＬの各々について更新処理が反復される。

　更新処理（Ｓb2～Ｓb5）の回数が所定値に到達した場合（Ｓb61：YES）、学習処理部２３は、更新処理後の合成モデルＭにより生成される特徴データＱが所定の品質に到達したか否かを判定する（Ｓb62）。特徴データＱの品質の評価には、記憶装置１２に記憶された前述の評価用データＬが利用される。具体的には、学習処理部２３は、合成モデルＭが評価用データＬから生成した特徴データＱと評価用データＬの音響信号Ｖから特徴解析部２４が生成した特徴データＱ（正解値）との誤差を算定する。学習処理部２３は、特徴データＱ間の誤差が所定の閾値を下回るか否かに応じて、特徴データＱが所定の品質に到達したか否かを判定する。

　特徴データＱが所定の品質に到達していない場合（Ｓb62：NO）、学習処理部２３は、所定の回数にわたる更新処理（Ｓb2～Ｓb5）の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データＱの品質が評価される。特徴データＱが所定の品質に到達した場合（Ｓb62：YES）、学習処理部２３は、当該時点における合成モデルＭを最終的な合成モデルＭとして確定する（Ｓb7）。すなわち、最新の更新後の複数の係数が記憶装置１２に記憶される。以上の手順で確定された学習済の合成モデルＭが、前述の推定処理Ｓa2に利用される。

　以上の説明から理解される通り、学習済の合成モデルＭは、各学習データＬに対応する入力データＺと当該学習データＬの音響信号Ｖに対応する特徴データＱとの間に潜在する傾向のもとで、未知の入力データＺに対して統計的に妥当な特徴データＱを生成することが可能である。すなわち、合成モデルＭは、入力データＺと特徴データＱとの関係を学習する。

　また、符号化モデルＥaは、合成モデルＭが統計的に妥当な特徴データＱを入力データＺから生成できるように識別情報Ｆaと歌唱者データＸaとの関係を学習する。学習処理部２３は、学習済の符号化モデルＥaにＮa個の識別情報Ｆaの各々を順次に入力することでＮa個の歌唱者データＸaを生成する（Ｓb8）。以上の手順で符号化モデルＥaが生成したＮa個の歌唱者データＸaが、推定処理Ｓa2のために記憶装置１２に記憶される。Ｎa個の歌唱者データＸaが記憶された段階では、学習済の符号化モデルＥaは不要である。

　同様に、符号化モデルＥbは、合成モデルＭが統計的に妥当な特徴データＱを入力データＺから生成できるように識別情報ＦbとスタイルデータＸbとの関係を学習する。学習処理部２３は、学習済の符号化モデルＥbにＮb個の識別情報Ｆbの各々を順次に入力することでＮb個のスタイルデータＸbを生成する（Ｓb9）。以上の手順で符号化モデルＥbが生成したＮb個のスタイルデータＸbが、推定処理Ｓa2のために記憶装置１２に記憶される。Ｎb個のスタイルデータＸbが記憶された段階では、学習済の符号化モデルＥbは不要である。

＜新規な歌唱者の歌唱者データＸaの生成＞
　学習済の符号化モデルＥaを利用してＮa個の歌唱者データＸaが生成されると、当該符号化モデルＥaは不要である。したがって、符号化モデルＥaはＮa個の歌唱者データＸaの生成後に破棄される。しかし、歌唱者データＸaが生成されていない新規な歌唱者（以下「新規歌唱者」という）について歌唱者データＸaを生成する必要が事後的に発生し得る。第１実施形態の学習処理部２３は、新規歌唱者に対応する複数の学習データＬnewと学習済の合成モデルＭとを利用して、新規歌唱者の歌唱者データＸaを生成する。

　図６は、学習処理部２３が新規歌唱者の歌唱者データＸaを生成する処理（以下「補充処理」という）の説明図である。複数の学習データＬnewの各々は、新規歌唱者が特定の歌唱スタイルで楽曲を歌唱したときの歌唱音を表す音響信号Ｖと、当該楽曲の合成データＸc（新規合成データの一例）とを含む。学習データＬnewの音響信号Ｖは、新規歌唱者が実際に発音した歌唱音を収録することで事前に用意される。特徴解析部２４は、各学習データＬnewの音響信号Ｖから特徴データＱの時系列を生成する。また、学習対象の変数として歌唱者データＸaが合成モデルＭに供給される。

　図７は、補充処理の具体的な手順を例示するフローチャートである。補充処理を開始すると、学習処理部２３は、記憶装置１２に記憶された複数の学習データＬnewの何れかを選択する（Ｓc1）。学習処理部２３は、初期値に設定された歌唱者データＸa（新規発音源データの一例）と、新規歌唱者の歌唱スタイルに対応する既存のスタイルデータＸbと、記憶装置１２から選択した学習データＬnewの合成データＸcとを学習済の合成モデルＭに入力する（Ｓc2）。歌唱者データＸaの初期値は、例えば乱数に設定される。合成モデルＭは、スタイルデータＸbと合成データＸcとに応じた特徴データＱ（新規特徴データの一例）を生成する。

　学習処理部２３は、合成モデルＭが生成した特徴データＱと、学習データＬnewの音響信号Ｖから特徴解析部２４が生成した特徴データＱ（すなわち正解値）との誤差を表す評価関数を算定する（Ｓc3）。特徴解析部２４が生成する特徴データＱは「既知特徴データ」の一例である。学習処理部２３は、評価関数が所定値（典型的にはゼロ）に近付くように、歌唱者データＸaと合成モデルＭの複数の係数とを更新する（Ｓc4）。なお、合成モデルＭの複数の係数を固定したまま、評価関数が所定値に近付くように歌唱者データＸaを更新してもよい。

　学習処理部２３は、以上に説明した追加更新（Ｓc2～Ｓc4）を所定の回数にわたり反復したか否かを判定する（Ｓc51）。追加更新の回数が所定値を下回る場合（Ｓc51：NO）、学習処理部２３は、記憶装置１２から次の学習データＬnewを選択したうえで（Ｓc1）、当該学習データＬnewについて追加更新（Ｓc2～Ｓc4）を実行する。すなわち、複数の学習データＬnewの各々について追加更新が反復される。

　追加更新（Ｓc2～Ｓc4）の回数が所定値に到達した場合（Ｓc51：YES）、学習処理部２３は、追加更新後の合成モデルＭにより生成される特徴データＱが所定の品質に到達したか否かを判定する（Ｓc52）。特徴データＱの品質の評価には、前述の例示と同様に評価用データＬが利用される。特徴データＱが所定の品質に到達していない場合（Ｓc52：NO）、学習処理部２３は、所定の回数にわたる追加更新（Ｓc2～Ｓc4）の反復を開始する。以上の説明から理解される通り、所定の回数にわたる追加更新の反復毎に特徴データＱの品質が評価される。特徴データＱが所定の品質に到達した場合（Ｓc52：YES）、学習処理部２３は、学習処理部２３は、最新の更新後の複数の係数と歌唱者データＸaとを確定値として記憶装置１２に格納する（Ｓc6）。新規歌唱者の歌唱者データＸaは、新規歌唱者が発生した歌唱音を合成するための合成処理に適用される。

　なお、補充処理前の合成モデルＭは、多様な歌唱者の学習データＬを利用して学習済であるから、新規歌唱者について充分な個数の学習データＬnewを用意できない場合でも、新規歌唱者の多様な目標音を生成することが可能である。例えば、新規歌唱者について学習データＬnewが存在しない音韻または音高についても、学習済の合成モデルＭを利用することで、高品質な目標音を頑健に生成することが可能である。すなわち、新規歌唱者について充分な学習データＬnew（例えば全種類の音素の発音を含む学習データ）を必要とせずに当該新規歌唱者の目標音を生成できるという利点がある。

　また、１人の歌唱者の学習データＬのみを利用して訓練された合成モデルＭについて、他の新規歌唱者の学習データＬnewを利用して再学習を実行すると、合成モデルＭの複数の係数が大幅に変化する場合がある。第１実施形態の合成モデルＭは、多数の歌唱者の学習データＬを利用して学習済である。したがって、新規歌唱者の学習データＬnewを利用した再学習を実行しても、合成モデルＭの複数の係数は大幅には変化しない。

＜第２実施形態＞
　第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図８は、第２実施形態における合成モデルＭの構成を例示するブロック図である。第２実施形態の合成モデルＭは、第１学習済モデルＭ1と第２学習済モデルＭ2とを含む。第１学習済モデルＭ1は、例えば長短期記憶（ＬＳＴＭ：Long Short Term Memory）等の再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）で構成される。第２学習済モデルＭ2は、例えば畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）で構成される。第１学習済モデルＭ1および第２学習済モデルＭ2は、複数の学習データＬを利用した機械学習により複数の係数が更新された学習済モデルである。

　第１学習済モデルＭ1は、歌唱者データＸaとスタイルデータＸbと合成データＸcとを含む入力データＺに応じて中間データＹを生成する。中間データＹは、楽曲の歌唱に関する複数の要素の各々の時系列を表すデータである。具体的には、中間データＹは、音高（例えば音名）の時系列と歌唱中の音量の時系列と音素の時系列とを表す。すなわち、歌唱者データＸaが表す歌唱者が、スタイルデータＸbが表す歌唱スタイルにより合成データＸcの楽曲を歌唱したときの、音高と音量と音素との時間的な変化が、中間データＹにより表現される。

　第２実施形態の第１学習済モデルＭ1は、第１生成モデルＧ1と第２生成モデルＧ2とを具備する。第１生成モデルＧ1は、歌唱者データＸaとスタイルデータＸbとから表情データＤ1を生成する。表情データＤ1は、歌唱音の音楽的な表情の特徴を表すデータである。以上の説明から理解される通り、表情データＤ1は、歌唱者データＸaとスタイルデータＸbとの組合せに応じて生成される。第２生成モデルＧ2は、記憶装置１２に記憶された合成データＸcと第１生成モデルＧ1が生成した表情データＤ1とに応じて中間データＹを生成する。

　第２学習済モデルＭ2は、記憶装置１２に記憶された歌唱者データＸaと第１学習済モデルＭ1が生成した中間データＹとに応じて特徴データＱ（基本周波数Ｑaおよびスペクトル包絡Ｑb）を生成する。図８に例示される通り、第２学習済モデルＭ2は、第３生成モデルＧ3と第４生成モデルＧ4と第５生成モデルＧ5とを具備する。

　第３生成モデルＧ3は、歌唱者データＸaに応じた発音データＤ2を生成する。発音データＤ2は、歌唱者の発音機構（例えば声帯）および調音機構（例えば声道）の特徴を表すデータである。例えば、歌唱者の発音機構および調音機構により歌唱音に付与される周波数特性が発音データＤ2により表現される。

　第４生成モデルＧ4（第１生成モデルの例示）は、第１学習済モデルＭ1が生成した中間データＹと第３生成モデルＧ3が生成した発音データＤ2とに応じて特徴データＱの基本周波数Ｑaの時系列を生成する。

　第５生成モデルＧ5（第２生成モデルの例示）は、第１学習済モデルＭ1が生成した中間データＹと第３生成モデルＧ3が生成した発音データＤ2と第４生成モデルＧ4が生成した基本周波数Ｑaの時系列とに応じて特徴データＱのスペクトル包絡Ｑbの時系列を生成する。すなわち、第５生成モデルＧ5は、第４生成モデルＧ4が生成した基本周波数Ｑaの時系列に応じて目標音のスペクトル包絡Ｑbの時系列を生成する。第４生成モデルＧ4が生成した基本周波数Ｑaと第５生成モデルＧ5が生成したスペクトル包絡Ｑbとを含む特徴データＱの時系列が信号生成部２２に供給される。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、基本周波数Ｑaの時系列を生成する第４生成モデルＧ4とスペクトル包絡Ｑbの時系列を生成する第５生成モデルＧ5とを合成モデルＭが含む。したがって、入力データＺと基本周波数Ｑaの時系列との関係を明示的に学習できるという利点がある。

＜第３実施形態＞
　図９は、第３実施形態における合成モデルＭの構成を例示するブロック図である。第３実施形態における合成モデルＭの構成は第２実施形態と同様である。すなわち、第３実施形態の合成モデルＭは、基本周波数Ｑaの時系列を生成する第４生成モデルＧ4と、スペクトル包絡Ｑbの時系列を生成する第５生成モデルＧ5とを含む。

　第３実施形態の制御装置１１は、第１実施形態と同様の要素（合成処理部２１，信号生成部２２および学習処理部２３）に加えて、図９の編集処理部２６としても機能する。編集処理部２６は、第４生成モデルＧ4が生成した基本周波数Ｑaの時系列を、入力装置１３に対する利用者からの指示に応じて編集する。

　第５生成モデルＧ5は、第１学習済モデルＭ1が生成した中間データＹと第３生成モデルＧ3が生成した発音データＤ2と編集処理部２６による編集後の基本周波数Ｑaの時系列とに応じて特徴データＱのスペクトル包絡Ｑbの時系列を生成する。編集処理部２６による編集後の基本周波数Ｑaと第５生成モデルＧ5が生成したスペクトル包絡Ｑbとを含む特徴データＱの時系列が信号生成部２２に供給される。

　第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、利用者からの指示に応じた編集後の基本周波数Ｑaの時系列に応じてスペクトル包絡Ｑbの時系列が生成されるから、基本周波数Ｑaの時間的な遷移に利用者の意図が反映された目標音を生成することが可能である。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、合成モデルＭの学習後に符号化モデルＥaおよび符号化モデルＥbを破棄したが、図１０に例示される通り、符号化モデルＥaおよび符号化モデルＥbを合成モデルＭとともに合成処理に利用してもよい。図１０の構成では、入力データＺが、歌唱者の識別情報Ｆaと歌唱スタイルの識別情報Ｆbと合成データＸcとを含む。符号化モデルＥaが識別情報Ｆaから生成した歌唱者データＸaと、符号化モデルＥbが識別情報Ｆbから生成したスタイルデータＸbと、入力データＺの合成データＸcとが、合成モデルＭに入力される。
（２）前述の各形態では、特徴データＱが基本周波数Ｑaとスペクトル包絡Ｑbとを含む構成を例示したが、特徴データＱの内容は以上の例示に限定されない。例えば、周波数スペクトルの特徴（以下「スペクトル特徴」という）を表す各種のデータが特徴データＱを利用してもよい。特徴データＱとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Ｑbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Ｑaを特定可能なスペクトル特徴を特徴データＱとして利用する構成では、特徴データＱから基本周波数Ｑaを省略してもよい。

（３）前述の各形態では、新規歌唱者について補充処理により歌唱者データＸaを生成したが、歌唱者データＸaを生成する方法は以上の例示に限定されない。例えば、複数の歌唱者データＸaを補間または補外することで、新規な歌唱者データＸaを生成してもよい。歌唱者Ａの歌唱者データＸaと歌唱者Ｂの歌唱者データＸaとを補間することで、歌唱者Ａと歌唱者Ｂとの中間の声質で発声する仮想的な歌唱者の歌唱者データＸaが生成される。

（４）前述の各形態では、合成処理部２１（および信号生成部２２）と学習処理部２３との双方を具備する情報処理システム１００を例示したが、合成処理部２１と学習処理部２３とを別個の情報処理システムに搭載してもよい。合成処理部２１および信号生成部２２を具備する情報処理システムは、入力データＺから音響信号Ｖを生成する音声合成装置として実現される。音声合成装置において学習処理部２３の有無は不問である。また、学習処理部２３を具備する情報処理システムは、複数の学習データＬを利用した機械学習で合成モデルＭを生成する機械学習装置として実現される。機械学習装置において合成処理部２１の有無は不問である。端末装置と通信可能なサーバ装置により機械学習装置を実現し、機械学習装置が生成した合成モデルＭを端末装置に配信してもよい。端末装置は、機械学習装置から配信された合成モデルＭを利用して合成処理を実行する合成処理部２１を具備する。

（５）前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本開示は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本開示は適用される。歌唱者データＸaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、スタイルデータＸbは、歌唱スタイルのほかに発話スタイルまたは楽器演奏のスタイル等を含む発音スタイル（performance style）を表すデータとして包括的に表現される。合成データＸcは、歌唱条件のほかに発話条件（例えば音韻）または演奏条件（例えば音高および音量）を含む発音条件を表すデータとして包括的に表現される。楽器の演奏に関する合成データＸcにおいては、音韻の指定が省略される。

　なお、スタイルデータＸbが表す発音スタイル（発音条件）は、発音環境および収録環境を含む。発音環境は、例えば、無響室、残響室、または屋外等の環境を意味し、収録環境は、例えばデジタル機材を利用した収録またはアナログテープ媒体を利用した収録等の環境を意味する。発音環境または収録環境が異なる音響信号Ｖを含む学習データＬを利用して、符号化モデルまたは合成モデルＭが訓練される。

　なお、時代時代の音楽ジャンルに応じた演奏場所や録音機材がある。その点を鑑みると、スタイルデータXbの示す発音スタイルは、発音環境や収録環境を示すものであってもよい。より具体的に、発音環境は、例えば「無響室内で演奏した音」，「残響室内で演奏した音」，「屋外で演奏した音」などであり、収録環境は、例えば「ディジタル機材に記録した音」，「アナログテープ媒体に記録した音」の別などである。

（６）前述の各形態に係る情報処理システム１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（７）合成モデルＭを実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示のひとつの態様（第１態様）に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき目標音の音響的な特徴を表す特徴データを生成する。以上の態様では、発音源データと合成データとスタイルデータとを機械学習済の合成モデルに入力することで目標音の音響的な特徴を表す特徴データが生成される。したがって、音声素片を必要とすることなく目標音を生成できる。また、発音源データと合成データとに加えてスタイルデータが合成モデルに入力される。したがって、発音源データと合成データとを学習済モデルに入力することで特徴データを生成する構成と比較して、発音源データを発音スタイル毎に用意することなく、発音源と発音スタイルとの組合せに対応した多様な音声の特徴データを生成できるという利点がある。

　第１態様の具体例（第２態様）において、前記発音条件は、音符毎の音高を含む。また、第１態様または第２態様の具体例（第３態様）において、前記発音条件は、音符毎の音韻を含む。第３態様における発音源は歌唱者である。

　第１態様から第３態様の何れかの具体例（第４態様）において、前記合成モデルに入力される発音源データは、相異なる発音源に対応する複数の発音源データのうち利用者が選択した発音源データである。以上の態様によれば、例えば利用者の意図または嗜好に合致した発音源について目標音の特徴データを生成できる。

　第１態様から第４態様の何れかの具体例（第５態様）において、前記合成モデルに入力されるスタイルデータは、相異なる発音スタイルに対応する複数のスタイルデータのうち利用者が選択したスタイルデータである。以上の態様によれば、例えば利用者の意図または嗜好に適合した発音スタイルについて目標音の特徴データを生成できる。

　第１態様から第５態様の何れかの具体例（第６態様）に係る情報処理方法は、さらに、新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する。以上の態様によれば、新規発音源について新規合成データと音響信号とが充分に用意できない場合でも、新規発音源に関する高品質な目標音を頑健に生成可能な合成モデルを生成できる。

　第１態様から第６態様の何れかの具体例（第７態様）において、前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第１空間におけるベクトルを表し、前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第２空間におけるベクトルを表す。以上の態様によれば、音響の特徴に関する発音源間の関係という観点で表現された発音源データと、音響の特徴に関する発音スタイル間の関係という観点で表現されたスタイルデータとを利用して、発音源と発音スタイルとの組合せに対応した適切な合成音の特徴データを生成できる。

　第１態様から第７態様の何れかの具体例（第８態様）において、前記合成モデルは、前記目標音の基本周波数の時系列を生成する第１生成モデルと、前記第１生成モデルが生成した基本周波数の時系列に応じて前記目標音のスペクトル包絡の時系列を生成する第２生成モデルとを含む。以上の態様によれば、目標音の基本周波数の時系列を生成する第１生成モデルと目標音のスペクトル包絡の時系列を生成する第２生成モデルとを合成モデルが含むから、発音源データとスタイルデータと合成データとを含む入力と、基本周波数の時系列との関係を明示的に学習できるという利点がある。

　第８態様の具体例（第９態様）において、前記第１生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、前記第２生成モデルは、前記編集後の基本周波数の時系列に応じて前記目標音のスペクトル包絡の時系列を生成する。以上の態様によれば、利用者からの指示に応じた編集後の基本周波数の時系列に応じてスペクトル包絡の時系列が生成されるから、基本周波数の時間的な遷移に利用者の意図が反映された目標音を生成することが可能である。

　以上に例示した各態様の情報処理方法を実行する情報処理システム、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本開示の各態様は実現される。

１００…情報処理システム、１１…制御装置、１２…記憶装置、１３…入力装置、１４…放音装置、２１…合成処理部、２２…信号生成部、２３…学習処理部、２４…特徴解析部、２６…編集処理部、Ｍ…合成モデル、Ｘa…歌唱者データ、Ｘb…スタイルデータ、Ｘc…合成データ、Ｚ…入力データ、Ｑ…特徴データ、Ｖ…音響信号、Ｆa，Ｆb…識別情報、Ｅa，Ｅb…符号化モデル、Ｌ，Ｌnew…学習データ。

Claims

　発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき目標音の音響的な特徴を表す特徴データを生成する、
　コンピュータにより実現される情報処理方法。
　前記発音条件は、音符毎の音高を含む
　請求項１の情報処理方法。
　前記発音条件は、前記目標音の音韻を含む
　請求項１または請求項２の情報処理方法。
　前記合成モデルに入力される前記発音源データは、相異なる発音源に対応する複数の発音源データのうち利用者が選択した発音源データである
　請求項１から請求項３の何れかの情報処理方法。
　前記合成モデルに入力されるスタイルデータは、相異なる発音スタイルに対応する複数のスタイルデータのうち利用者が選択したスタイルデータである
　請求項１から請求項４の何れかの情報処理方法。
　前記情報処理方法は、さらに、
　新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
　前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
　請求項１から請求項５の何れかの情報処理方法。
　前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第１空間におけるベクトルを表し、
　前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第２空間におけるベクトルを表す
　請求項１から請求項６の何れかの情報処理方法。
　前記合成モデルは、
　前記目標音の基本周波数の時系列を生成する第１生成モデルと、
　前記第１生成モデルが生成した基本周波数の時系列に応じて前記目標音のスペクトル包絡の時系列を生成する第２生成モデルとを含む
　請求項１から請求項７の何れかの情報処理方法。
　前記情報処理方法は、さらに、
　前記第１生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、前記第２生成モデルは、前記編集後の基本周波数の時系列に応じて前記目標音のスペクトル包絡の時系列を生成する
　請求項８の情報処理方法。
　発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき目標音の音響的な特徴を表す特徴データを生成する合成処理部
　を具備する情報処理システム。
　１以上のプロセッサと１以上のメモリとを具備する情報処理システムであって、
　前記１以上のメモリに記憶されたプログラムを実行することにより、
　前記１以上のプロセッサが、
　発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音する音響の音響的な特徴を表す特徴データを生成する
　情報処理システム。