JP2024057180A

JP2024057180A - プログラム、音響処理方法および音響処理システム

Info

Publication number: JP2024057180A
Application number: JP2022163721A
Authority: JP
Inventors: 誠橘; Makoto Tachibana
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2024-04-24
Also published as: US20240135916A1; CN117877459A

Abstract

【課題】利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成する。
【解決手段】音響処理システムは、合成されるべき目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データのうちの第１部分を、利用者からの指示に応じて変更する特性編集部３３と、目標音について第１発音スタイルとは異なる第２発音スタイルが指定された場合に、第１部分について利用者からの指示に応じた変更後の音響特性を表し、かつ、第１部分以外の第２部分について第２発音スタイルに対応する音響特性を表す第２時系列データを生成する音響処理部４０とを具備する。
【選択図】図２

Description

本開示は、音を合成する技術に関する。

例えば歌唱音等の所望の音（以下「目標音」という）を合成する音合成技術が従来から提案されている。例えば特許文献１には、相異なる複数の発音スタイルのうち利用者が選択した発音スタイルのもとで発音されるべき目標音を合成する技術が開示されている。

特許第６７４７４８９号公報

ところで、目標音の編集の場面においては、例えば発音スタイルまたは合成条件（例えば目標音の音高）等の各種の事項が、利用者からの指示に応じて随時に変更される。例えば、利用者が、発音スタイルを試行錯誤的に変更しながら、目標音の音響特性の変更を指示する状況が想定される。以上の状況において、発音スタイルの変更毎に、利用者が目標音の音響特性の変更を指示する必要がある形態では、利用者による指示の負荷が大きいという課題がある。以上の事情を考慮して、本開示のひとつの態様は、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係るプログラムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、前記時系列データを利用者からの指示に応じて変更する特性編集部、としてコンピュータシステムを機能させるプログラムであって、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

本開示のひとつの態様に係る音響処理方法は、合成されるべき目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データのうちの第１部分を、利用者からの指示に応じて変更し、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

本開示のひとつの態様に係る音響処理システムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

第１実施形態における音響処理システムの構成を例示するブロック図である。音響処理システムの機能的な構成を例示するブロック図である。編集画面の模式図である。編集画面のうち操作領域の模式図である。編集画面の模式図である。編集領域の部分的な模式図である。音声合成処理のフローチャートである。第１実施形態における音素列データの更新に関する説明図である。第２音素列データを生成する処理のフローチャートである。第１音素列データおよび第２音素列データの具体例である。第２実施形態における編集画面の模式図である。第３実施形態におけるピッチデータの更新に関する説明図である。第２ピッチデータを生成する処理のフローチャートである。第４実施形態における音響信号の更新に関する説明図である。第２音響信号を生成する処理のフローチャートである。変形例における編集画面の模式図である。変形例において第２音響信号を生成する処理のフローチャートである。変形例における編集データの模式図である。

Ａ：第１実施形態
図１は、第１実施形態に係る音響処理システム１００の構成を例示するブロック図である。音響処理システム１００は、利用者の所望の音（以下「目標音」という）を合成するためのコンピュータシステムである。目標音は、音響処理システム１００により合成されるべき音である。第１実施形態の目標音は、歌唱者が特定の楽曲（以下「目標楽曲」という）を特定の発音スタイルで仮想的に歌唱したときに発音されるべき歌唱音である。音響処理システム１００は、目標音の波形を表す音響信号Ｚを生成する。

発音スタイルは、目標音の音色または調子等、目標音の聴感的な印象に影響する性質である。例えば、歌唱時の癖または歌い回し等、発音の特徴的な傾向が発音スタイルとして例示される。歌唱時の癖は、例えば、歌詞を構成する各音素の始点が音符の始点に対して先行または遅延する傾向、または、各音素の終点が音符の終点に対して先行または遅延する傾向である。

音響処理システム１００は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と放音装置１５とを具備する。音響処理システム１００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。なお、音響処理システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、音響処理システム１００の各要素を制御する単数または複数のプロセッサである。具体的には、制御装置１１は、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として利用される。なお、例えば、音響処理システム１００に対して着脱される可搬型の記録媒体、または、制御装置１１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。

第１実施形態の記憶装置１２は、相異なる発音スタイルに対応する複数のスタイルデータＱを記憶する。各発音スタイルのスタイルデータＱは、当該発音スタイルで発音される歌唱音の音響的な特徴を表すデータである。第１実施形態のスタイルデータＱは、多次元の仮想空間における埋込ベクトル（embedding vector）である。仮想空間は、歌唱音の音響的な特徴に応じて空間内における各発音スタイルの位置が決定される連続空間である。発音スタイル間で歌唱音の音響的な特徴が類似するほど、仮想空間内において各発音スタイルを表すベクトルの距離は小さい数値になる。以上の説明から理解される通り、仮想空間は、歌唱音の特徴に関する発音スタイル間の関係を表す空間と表現される。スタイルデータＱは、発音スタイルを識別するための符号列とも表現される。

また、記憶装置１２は、目標楽曲の制御データＣを記憶する。制御データＣは、目標音の合成条件を指定する。より詳細には、制御データＣは、目標楽曲の複数の音符の各々について音高Ｃ1と発音期間Ｃ2と発音文字Ｃ3とを指定する楽曲データである。音高Ｃ1は、複数の音階音の何れかに割当てられた番号である。発音期間Ｃ2は、例えば音符の始点の時刻と継続長とにより指定される。なお、発音期間Ｃ2は、例えば音符の始点の時刻と終点の時刻とにより指定されてもよい。発音文字Ｃ3は、目標楽曲の歌詞を表す書記素である。目標楽曲の１個の音符には、１個の音節を構成する１個以上の発音文字Ｃ3が設定される。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した音楽ファイルが、制御データＣとして利用される。制御データＣは、例えば配信装置（図示略）から通信網を介して音響処理システム１００に提供される。

表示装置１３は、制御装置１１による制御のもとで画像を表示する。表示装置１３は、例えば、液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の表示パネルである。操作装置１４は、利用者からの指示を受付ける入力機器である。操作装置１４は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム１００とは別体の表示装置１３または操作装置１４が、音響処理システム１００に有線または無線により接続されてもよい。

放音装置１５は、制御装置１１による制御のもとで音響を再生する。具体的には、放音装置１５は、音響信号Ｚが表す目標音を再生する。例えばスピーカまたはヘッドホンが放音装置１５として利用される。なお、音響信号Ｚをデジタルからアナログに変換するＤ/Ａ変換器、および、音響信号Ｚを増幅する増幅器については、図示が便宜的に省略されている。音響処理システム１００とは別体の放音装置１５が、音響処理システム１００に有線または無線により接続されてもよい。

図２は、音響処理システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、目標音の音響信号Ｚを生成するための複数の機能（表示制御部２０，編集制御部３０、音響処理部４０）を実現する。制御装置１１が実行するプログラムは、音声合成用のソフトウェアであり、目標音を編集するためのエディタを含む。

表示制御部２０は、表示装置１３に画像を表示する。第１実施形態の表示制御部２０は、目標楽曲の編集のための画像（以下「編集画面」という）Ｅを表示装置１３に表示する。図３は、編集画面Ｅの模式図である。編集画面Ｅは、編集領域Ｅ1と操作領域Ｅ2とを含む。

編集領域Ｅ1は、目標楽曲が表示される領域である。編集領域Ｅ1には、時間軸（横軸）と音高軸（縦軸）とで規定される座標平面が設定される。編集領域Ｅ1には、音符画像Ｇaとピッチ遷移Ｇbとが表示される。ピッチ遷移Ｇbは、目標音におけるピッチの時系列である。

制御データＣが指定する音符毎に音符画像Ｇaが表示される。時間軸の方向における音符画像Ｇaの位置および表示長は音符の発音期間Ｃ2に応じて設定され、音高軸の方向における音符画像Ｇaの位置は音符の音高Ｃ1に応じて設定される。各音符の音符画像Ｇaには、当該音符の発音文字Ｃ3と音素記号Ｃ4とが付加される。発音文字Ｃ3は、制御データＣにより指定された文字である。音素記号Ｃ4は、発音文字Ｃ3に対応する１以上の音素の記号である。すなわち、第１実施形態の目標音は、時間軸上の複数の音素で構成される音声である。なお、音素は「音単位」の一例である。

利用者は、操作装置１４を操作することで目標楽曲の編集を指示できる。例えば、編集領域Ｅ1に対する操作により、音符に関する各種の変更が利用者から指示される。例えば、音符の追加または削除、時間軸または音高軸の方向における移動、発音期間Ｃ2の伸長または短縮、各音符の発音文字Ｃ3の指定または変更等の編集が、利用者により指示される。

操作領域Ｅ2は、利用者からの指示を受付ける領域である。操作領域Ｅ2には、操作画像Ｅ21と操作画像Ｅ22と操作画像Ｅ23とが表示される。

操作画像Ｅ21は、利用者が発音スタイルを選択するための画像である。操作画像Ｅ21が操作されると、表示制御部２０は、図４に例示される通り、複数の発音スタイル（Style #1，Style #2，…）のリストＥ24を表示装置１３に表示する。利用者は、操作装置１４を操作することで、複数の発音スタイルから所望の発音スタイル（以下「選択スタイル」という）を選択可能である。

図３の操作画像Ｅ23は、目標音の再生を指示するための画像である。操作画像Ｅ23が操作された場合、音響信号Ｚが放音装置１５に供給されることで目標音が再生される。利用者は、操作画像Ｅ23の操作により再生される目標音を試聴しながら、編集画面Ｅに対する操作で目標音を編集することが可能である。

操作画像Ｅ22は、目標音における各音素の端点（始点または終点）の位置を利用者が編集するための画像である。操作画像Ｅ22が操作された場合、表示制御部２０は、図５に例示される通り、端点画像Ｇcおよび信号波形Ｇdを、音符画像Ｇaおよびピッチ遷移Ｇbとともに表示装置１３に表示する。すなわち、端点画像Ｇcおよび信号波形Ｇdの表示／非表示が、操作画像Ｅ22の操作毎に切替わる。信号波形Ｇdは、目標音の音響信号Ｚの波形である。

図６は、操作画像Ｅ22が操作された状態における編集領域Ｅ1の部分的な模式図である。端点画像Ｇcは、目標音を構成する各音素の端点（始点および終点）を表す画像である。時間軸上における各音素の端点の位置に端点画像Ｇcが配置される。時間軸上で相互に隣合う２個の端点画像Ｇcの間隔は、１個の音素が継続する期間（以下「音素期間Ｃ5」という）を意味する。利用者は、操作装置１４を操作することで所望の端点画像Ｇcを時間軸の方向に移動可能である。すなわち、利用者は、各音素の端点（始点または終点）の移動を指示できる。各端点画像Ｇcの移動は、音素期間Ｃ5の時間長の変更を意味する。

操作画像Ｅ22が操作された状態では、音符画像Ｇaの下方に発音文字Ｃ3が表示され、音符画像Ｇaの上方に音素記号Ｃ4が表示される。また、利用者は、操作装置１４を適宜に操作することで１個の音素期間Ｃ5を選択できる。例えばマウスポインタが位置する音素期間Ｃ5が選択状態に設定される。表示制御部２０は、選択状態にある音素の音素記号Ｃ4と音素期間Ｃ5とを強調表示する。図６においては、音素記号/i/と当該音素記号Ｃ4に対応する音素期間Ｃ5とが強調表示されている。すなわち、選択状態にある音素の音素記号Ｃ4および音素期間Ｃ5と、非選択の状態にある音素の音素記号Ｃ4および音素期間Ｃ5とは、相異なる態様で表示される。例えば、選択状態の音素の音素記号Ｃ4は網掛で表示され、音素期間Ｃ5は表示色が変更される。したがって、利用者は、所望の音素について音素記号Ｃ4と音素期間Ｃ5との関係を視覚的および直観的に把握できる。

図２の編集制御部３０は、利用者からの指示に応じて目標音を編集する。第１実施形態の編集制御部３０は、発音スタイル選択部３１と楽譜編集部３２と特性編集部３３とを具備する。

発音スタイル選択部３１は、複数の発音スタイルの何れか（選択スタイル）を選択する指示を利用者から受付ける。発音スタイル選択部３１は、複数のスタイルデータＱのうち選択スタイルに対応するスタイルデータＱを記憶装置１２から取得する。

楽譜編集部３２は、編集領域Ｅ1に対する利用者からの指示に応じて制御データＣを更新する。すなわち、音符の変更（追加，削除，移動，伸縮等）の指示が、制御データＣに反映される。特性編集部３３は、端点画像Ｇcに対する利用者からの指示に応じて目標音の１以上の音素の端点（音素期間Ｃ5）を変更する。なお、特性編集部３３による具体的な処理については後述する。

音響処理部４０は、目標音の音響特性を時系列に指定する時系列データを生成する。具体的には、音響処理部４０は、音素列データＸとピッチデータＹと音響信号Ｚとを時系列データとして生成する。音素列データＸは、目標音を構成する各音素の端点（始点および終点）の位置を表す時系列データである。すなわち、音素列データＸは、時間軸上における各音素の端点の位置（例えば時刻）を目標音の音響特性として指定する。他方、ピッチデータＹは、目標音のピッチ遷移Ｇbを表す時系列データである。すなわち、ピッチデータＹは、目標音のピッチを音響特性として指定する。音響信号Ｚは、目標音の波形を表す時系列データである。すなわち、音響信号Ｚは、目標音の振幅および音色を音響特性として指定する。

表示制御部２０は、音響処理部４０が生成する時系列データを表示装置１３に表示する。例えば、表示制御部２０は、音素列データＸを利用して編集画面Ｅの各端点画像Ｇcを表示する。すなわち、表示制御部２０は、音素列データＸが音素毎に指定する各端点の位置に端点画像Ｇcを表示する。所望の音素の端点の位置を変更する指示が利用者から付与された場合、表示制御部２０は、当該音素に対応する端点画像Ｇcの位置を指示に応じて変更する。また、表示制御部２０は、ピッチデータＹが表すピッチ遷移Ｇbを編集領域Ｅ1に表示する。表示制御部２０は、音響信号Ｚが表す信号波形Ｇdを編集領域Ｅ1に表示する。

第１実施形態の音響処理部４０は、第１生成部４１と第２生成部４２と第３生成部４３とを含む。音響処理部４０の各要素について以下に詳述する。

［第１生成部４１］
第１生成部４１は、音素列データＸを生成する。具体的には、第１生成部４１は、第１入力データＤ1を処理することで音素列データＸを生成する。第１入力データＤ1は、目標楽曲の制御データＣと選択スタイルのスタイルデータＱとを含む。例えば、第１生成部４１は、時間軸上の単位期間毎に第１入力データＤ1を処理することで、音素列データＸのうち単位期間に対応する部分を生成する。第１入力データＤ1は、制御データＣのうち単位期間に対応する部分と選択スタイルのスタイルデータＱとを含む。第１生成部４１は、音素列データＸの各部分を複数の単位期間について連結することで音素列データＸを生成する。

第１生成部４１による音素列データＸの生成には第１推定モデルＭ1が利用される。第１推定モデルＭ1は、第１入力データＤ1と音素列データＸとの関係を機械学習により学習した統計モデルである。第１推定モデルＭ1は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第１推定モデルＭ1として利用される。複数種の深層ニューラルネットワークの組合せにより第１推定モデルＭ1が構成されてもよい。また、長短期記憶（LSTM）またはAttention等の付加的な要素が第１推定モデルＭ1に搭載されてもよい。

第１推定モデルＭ1は、第１入力データＤ1から音素列データＸを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。第１推定モデルＭ1を規定する複数の変数は、機械学習により事前に設定されて記憶装置１２に記憶される。

第１推定モデルＭ1の機械学習には複数の第１訓練データが使用される。各第１訓練データは、学習用の第１入力データＤ1と学習用の音素列データＸとを含む。各第１訓練データの音素列データＸは、第１入力データＤ1の制御データＣが指定する合成条件と、第１入力データＤ1のスタイルデータＱが指定する発音スタイルとのもとで歌唱されるべき、各音素の端点の位置を指定する正解データである。

第１推定モデルＭ1の機械学習においては、各第１訓練データの第１入力データＤ1に応じて暫定的な第１推定モデルＭ1が出力する音素列データＸと、当該第１訓練データの音素列データＸとの誤差が低減されるように、第１推定モデルＭ1の複数の変数が反復的に更新される。したがって、第１推定モデルＭ1は、複数の第１訓練データにおいて第１入力データＤ1と音素列データＸとの間に潜在する関係のもとで、未知の第１入力データＤ1に対して統計的に妥当な音素列データＸを出力する。具体的には、音素列データＸは、制御データＣが指定する目標楽曲を選択スタイルのもとで歌唱した場合における、各音素の端点の適切な位置を指定する。すなわち、音素列データＸは選択スタイルに依存する。したがって、選択スタイルが変更された場合には、音素列データＸが指定する各音素の端点の位置も変化する。

以上の通り、第１実施形態においては、目標音の合成条件を指定する制御データＣと、発音スタイルを示すスタイルデータＱとを含む第１入力データＤ1を第１推定モデルＭ1により処理することで音素列データＸが生成される。したがって、機械学習に利用された複数の第１訓練データにおける第１入力データＤ1と音素列データＸとの間に存在する関係のもとで、統計的に妥当な音素列データＸを生成できる。

編集画面Ｅにおける端点画像Ｇcは、第１生成部４１が生成した音素列データＸを利用して音素毎に表示装置１３に表示される。利用者は、操作装置１４を操作することで、複数の端点画像Ｇcのうち所望の音素に対応する端点画像Ｇcを選択し、選択状態の端点画像Ｇcを時間軸上で移動することが可能である。端点画像Ｇcの移動の指示は、音素の端点を時間軸上で移動させる指示に相当する。すなわち、利用者は、所望の音素について端点の移動を指示することが可能である。

特性編集部３３は、目標音の複数の音素のうち１以上の音素の端点を利用者からの指示に応じて変更する。すなわち、特性編集部３３は、音素列データＸのうちの利用者が選択した音素の端点の位置を、利用者からの指示に応じて変更する。具体的には、特性編集部３３は、利用者からの指示に応じた変更後の各音素の端点の位置を表すように音素列データＸを更新する。音素列データＸが指定する複数の音素の端点のうち利用者が位置を変更した端点は、「第１部分」の一例である。

［第２生成部４２］
第２生成部４２は、ピッチデータＹを生成する。具体的には、第２生成部４２は、第２入力データＤ2を処理することでピッチデータＹを生成する。第２入力データＤ2は、目標楽曲の制御データＣと第１生成部４１が生成した音素列データＸとを含む。特性編集部３３により音素列データＸが変更された場合には、変更後の音素列データＸが第２入力データＤ2に含まれる。したがって、各音素の端点の位置を変更する利用者からの指示が反映されたピッチデータＹが生成される。

例えば、第２生成部４２は、時間軸上の単位期間毎に第２入力データＤ2を処理することで、ピッチデータＹのうち単位期間に対応する部分を生成する。第２入力データＤ2は、制御データＣのうち単位期間に対応する部分と、音素列データＸのうち単位期間に対応する部分とを含む。第２生成部４２は、ピッチデータＹの各部分を複数の単位期間について連結することでピッチデータＹを生成する。

第２生成部４２によるピッチデータＹの生成には第２推定モデルＭ2が利用される。第２推定モデルＭ2は、第２入力データＤ2とピッチデータＹとの関係を機械学習により学習した統計モデルである。第２推定モデルＭ2は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第２推定モデルＭ2として利用される。複数種の深層ニューラルネットワークの組合せにより第２推定モデルＭ2が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が第２推定モデルＭ2に搭載されてもよい。

第２推定モデルＭ2は、第２入力データＤ2からピッチデータＹを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。第２推定モデルＭ2を規定する複数の変数は、機械学習により事前に設定されて記憶装置１２に記憶される。

第２推定モデルＭ2の機械学習には複数の第２訓練データが使用される。各第２訓練データは、学習用の第２入力データＤ2と学習用のピッチデータＹとを含む。各第２訓練データのピッチデータＹは、制御データＣが指定する楽曲を音素列データＸが指定する音素期間Ｃ5のもとで歌唱したときのピッチ遷移Ｇbを表す正解データである。

第２推定モデルＭ2の機械学習においては、各第２訓練データの第２入力データＤ2に応じて暫定的な第２推定モデルＭ2が出力するピッチデータＹと、当該第２訓練データのピッチデータＹとの誤差が低減されるように、第２推定モデルＭ2の複数の変数が反復的に更新される。したがって、第２推定モデルＭ2は、複数の第２訓練データにおいて第２入力データＤ2とピッチデータＹとの間に潜在する関係のもとで、未知の第２入力データＤ2に対して統計的に妥当なピッチデータＹを出力する。具体的には、ピッチデータＹは、制御データＣが指定する目標楽曲を音素列データＸが指定する音素期間Ｃ5のもとで歌唱した場合における、ピッチの適切な遷移を表す。前述の通り音素列データＸは選択スタイルに依存するから、ピッチデータＹは、音素列データＸを介して間接的に選択スタイルに依存する。したがって、選択スタイルが変更された場合には、ピッチデータＹが指定するピッチ遷移Ｇbも変化する。

以上の通り、第１実施形態においては、制御データＣと音素列データＸとを含む第２入力データＤ2を第２推定モデルＭ2により処理することでピッチデータＹが生成される。したがって、機械学習に利用された複数の第２訓練データにおける第２入力データＤ2とピッチデータＹとの間に存在する関係のもとで、統計的に妥当なピッチデータＹを生成できる。

［第３生成部４３］
第３生成部４３は、音響信号Ｚを生成する。具体的には、第３生成部４３は、第３入力データＤ3を処理することで音響信号Ｚを生成する。第３入力データＤ3は、第１生成部４１が生成した音素列データＸと第２生成部４２が生成したピッチデータＹとを含む。前述の通り、ピッチデータＹには、各音素の端点の位置を変更する利用者からの指示が反映される。したがって、音響信号Ｚにも、各音素の端点の位置を変更する利用者からの指示が反映される。

例えば、第３生成部４３は、時間軸上の単位期間毎に第３入力データＤ3を処理することで、音響信号Ｚのうち単位期間に対応する部分を生成する。第３入力データＤ3は、音素列データＸのうち単位期間に対応する部分と、ピッチデータＹのうち単位期間に対応する部分とを含む。第３生成部４３は、音響信号Ｚの各部分を複数の単位期間について連結することで音響信号Ｚを生成する。

第３生成部４３による音響信号Ｚの生成には第３推定モデルＭ3が利用される。第３推定モデルＭ3は、第３入力データＤ3と音響信号Ｚとの関係を機械学習により学習した統計モデルである。第３推定モデルＭ3は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが、第３推定モデルＭ3として利用される。複数種の深層ニューラルネットワークの組合せにより第３推定モデルＭ3が構成されてもよい。また、長短期記憶またはAttention等の付加的な要素が第３推定モデルＭ3に搭載されてもよい。

第３推定モデルＭ3は、第３入力データＤ3から音響信号Ｚを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。第３推定モデルＭ3を規定する複数の変数は、機械学習により事前に設定されて記憶装置１２に記憶される。

第３推定モデルＭ3の機械学習には複数の第３訓練データが使用される。各第３訓練データは、学習用の第３入力データＤ3と学習用の音響信号Ｚとを含む。各第３訓練データの音響信号Ｚは、制御データＣが指定する楽曲を音素列データＸが指定する音素期間Ｃ5のもとで歌唱したときの音声の波形を表す正解データである。

第３推定モデルＭ3の機械学習においては、各第３訓練データの第３入力データＤ3に応じて暫定的な第３推定モデルＭ3が出力する音響信号Ｚと、当該第３訓練データの音響信号Ｚとの誤差が低減されるように、第３推定モデルＭ3の複数の変数が反復的に更新される。したがって、第３推定モデルＭ3は、複数の第３訓練データにおいて第３入力データＤ3と音響信号Ｚとの間に潜在する関係のもとで、未知の第３入力データＤ3に対して統計的に妥当な音響信号Ｚを出力する。具体的には、音響信号Ｚは、制御データＣが指定する目標楽曲を音素列データＸが指定する音素期間Ｃ5のもとで歌唱した場合における音声の波形を表す。前述の通り音素列データＸは選択スタイルに依存するから、音響信号Ｚは、音素列データＸを介して間接的に選択スタイルに依存する。したがって、選択スタイルが変更された場合には、音響信号Ｚが指定する波形も変化する。

以上の通り、第１実施形態においては、音素列データＸとピッチデータＹとを含む第３入力データＤ3を第３推定モデルＭ3により処理することで音響信号Ｚが生成される。したがって、機械学習に利用された複数の第３訓練データにおける第３入力データＤ3と音響信号Ｚとの間に存在する関係のもとで、統計的に妥当な音響信号Ｚを生成できる。

図７は、音響処理システム１００の制御装置１１が実行する処理（以下「音声合成処理」という）のフローチャートである。操作装置１４に対する利用者からの指示を契機として音声合成処理が開始される。

音声合成処理が開始されると、制御装置１１（楽譜編集部３２）は、音符に関する編集の指示を利用者から受付けたか否かを判定する（Ｓ1）。例えば、音符の追加または削除、時間軸または音高軸の方向における移動、発音期間Ｃ2の伸長または短縮、各音符の発音文字Ｃ3の指定または変更等の各種の編集が指示される。音符の編集の指示を利用者から受付けた場合（Ｓ1：YES）、制御装置１１（楽譜編集部３２）は、利用者からの指示に応じて制御データＣを更新する（Ｓ2）。

制御装置１１（音響処理部４０）は、更新後の制御データＣを適用した合成処理により音響信号Ｚを生成する（Ｓ3）。合成処理は、第１生成部４１による音素列データＸの生成と、第２生成部４２によるピッチデータＹの生成と、第３生成部４３による音響信号Ｚの生成とを含む。制御装置１１（表示制御部２０）は、合成処理の結果を表示装置１３に表示する（Ｓ4）。具体的には、制御装置１１は、制御データＣに対応する複数の音符画像ＧaとピッチデータＹに対応するピッチ遷移Ｇbとを編集領域Ｅ1に表示する。また、操作画像Ｅ22が操作された場合、制御装置１１は、音素列データＸに対応する複数の端点画像Ｇcと音響信号Ｚに対応する信号波形Ｇdとを編集領域Ｅ1に表示する。以上の処理を実行すると、制御装置１１は処理をステップＳ11に移行する。

音符に関する編集の指示を受付けていない場合（Ｓ1：NO）、制御装置１１（特性編集部３３）は、音素の端点を変更する指示を利用者から受付けたか否かを判定する（Ｓ5）。具体的には、制御装置１１は、端点画像Ｇcを移動する指示を受付けたか否かを判定する。音素の端点を変更する指示を利用者から受付けた場合（Ｓ5：YES）、制御装置１１（特性編集部３３）は、利用者からの指示が適正であるか否かを判定する（Ｓ6）。例えば、制御装置１１は、利用者からの指示に応じた移動後の端点の位置が、移動前の端点を含む所定の範囲内にある場合には指示を適正と判定し、当該範囲外にある場合には指示を不適正と判定する。また、音素の端点を前方に移動する指示が、移動前の端点の直前の端点よりも前方に移動する指示である場合、制御装置１１は、利用者からの指示を不適正と判定する。同様に、端点を後方に移動する指示が、移動前の端点の直後の端点よりも後方に移動する指示である場合、制御装置１１は、利用者からの指示を不適正と判定する。すなわち、各音素の端点を過度に移動させる指示は不適正と判定される。

利用者からの指示が適正である場合（Ｓ6：YES）、制御装置１１（特性編集部３３）は、利用者からの指示に応じて音素列データＸを更新する（Ｓ7）。制御装置１１（音響処理部４０）は、更新後の音素列データＸを適用した合成処理により音響信号Ｚを生成し（Ｓ3）、合成処理の結果を表示装置１３に表示する（Ｓ4）。すなわち、音素の端点の変更が反映された目標音の音響信号Ｚが生成される。他方、利用者からの指示が適正でない場合（Ｓ6：NO）、制御装置１１（特性編集部３３）は、音素列データＸの編集部分Ｐ1を変更することなく処理をステップＳ8に移行する。すなわち、不適正な利用者からの指示は無効化され、音響信号Ｚの生成には反映されない。したがって、不適正な音素列データＸが生成される可能性を低減できる。なお、利用者からの指示が適正でない場合（Ｓ6：NO）、制御装置１１（表示制御部２０）は、利用者からの指示が不適正であり無効化される旨の警告を、表示装置１３に表示してもよい。

音素の端点を変更する指示を受付けていない場合（Ｓ5：NO）、または利用者からの指示が不適正である場合（Ｓ6：NO）、制御装置１１（発音スタイル選択部３１）は、発音スタイルを変更する指示を利用者から受付けたか否かを判定する（Ｓ8）。発音スタイルの変更の指示を受付けた場合（Ｓ8：YES）、制御装置１１（音響処理部４０）は、変更後の発音スタイルに対応するスタイルデータＱを適用した合成処理により音響信号Ｚを生成し（Ｓ3）、合成処理の結果を表示装置１３に表示する（Ｓ4）。したがって、変更後の発音スタイルに対応する目標音の音響信号Ｚが生成される。

発音スタイルの変更の指示を受付けていない場合（Ｓ8：NO）、制御装置１１は、目標音の再生指示を利用者から受付けたか否かを判定する（Ｓ9）。再生指示を受付けた場合（Ｓ9：YES）、現時点で最新の音響信号Ｚを放音装置１５に供給することで目標音を再生する（Ｓ10）。目標音の再生を実行した場合、または、利用者から再生指示を受付けていない場合（Ｓ9：NO）、制御装置１１は処理をステップＳ11に移行する。

ステップＳ11において、制御装置１１は、音声合成処理の終了の指示を利用者から受付けたか否かを判定する。終了指示を受付けていない場合（Ｓ11：NO）、制御装置１１は処理をステップＳ1に移行する。すなわち、利用者からの指示に応じた音響信号Ｚの生成および再生が反復される。他方、終了指示を受付けた場合（Ｓ11：YES）、制御装置１１は音声合成処理を終了する。

図８は、音素列データＸの更新に関する説明図である。図８には、特定の発音スタイル（以下「第１発音スタイル」という）に対応する音素列データＸ（以下「第１音素列データＸ1」という）が例示されている。すなわち、第１生成部４１は、制御データＣと第１発音スタイルを示すスタイルデータＱ1とを含む第１入力データＤ1を第１推定モデルＭ1により処理することで、第１音素列データＸ1を生成する。第１音素列データＸ1が表す１個以上の音素の端点（以下「編集部分」という）Ｐ1について利用者から移動が指示されると、制御装置１１（特性編集部３３）は、編集部分Ｐ1の位置が移動後の位置となるように第１音素列データＸ1を更新する（Ｓ7）。

以上の状態において、第１発音スタイルから第２発音スタイルへの変更が利用者から指示された場合を想定する（Ｓ8：YES）。第２発音スタイルは、第１発音スタイルとは異なる発音スタイルである。第１発音スタイルおよび第２発音スタイルの各々は、相異なる複数の発音スタイルのうち利用者からの指示に応じて選択された発音スタイルである。変更後の第２発音スタイルのスタイルデータＱ2を適用した合成処理（Ｓ3）により、第１生成部４１は、第２発音スタイルに対応する音素列データＸ（以下「第２音素列データＸ2」という）を生成する。

図８に例示される通り、第２発音スタイルが指定された場合、第１生成部４１は、目標音の複数の音素の各々について端点の位置を表す第２音素列データＸ2を生成する。第２音素列データＸ2が表す複数の端点は、編集部分Ｐ1と初期部分Ｐ2とに区分される。すなわち、第１生成部４１は、編集部分Ｐ1と初期部分Ｐ2とについて位置を指定する第２音素列データＸ2を生成する。初期部分Ｐ2は、複数の端点のうち編集部分Ｐ1以外の端点である。

第２音素列データＸ2は、各編集部分Ｐ1について、第１音素列データＸ1に対する利用者からの指示に応じた移動後の位置を指定する。すなわち、第１音素列データＸ1に対する編集（すなわち音素の端点の移動）が第２音素列データＸ2にも適用される。具体的には、第２音素列データＸ2の各編集部分Ｐ1については第１音素列データＸ1の編集部分Ｐ1が流用され、第２発音スタイルは反映されない。他方、第２音素列データＸ2は、各初期部分Ｐ2について、第２発音スタイルに対応する位置を指定する。なお、編集部分Ｐ1は「第１部分」の一例であり、初期部分Ｐ2は「第２部分」の一例である。

図９は、第１生成部４１が第２音素列データＸ2を生成する処理のフローチャートである。発音スタイルが変更された場合（Ｓ8：YES）の合成処理（Ｓ3）において図９の処理が実行される。

まず、制御装置１１（第１生成部４１）は、目標楽曲の制御データＣと第２発音スタイルのスタイルデータＱ2とを含む第１入力データＤ1を第１推定モデルＭ1により処理することで、目標楽曲の全体にわたる初期的な音素列データＸ0を生成する（Ｓa1）。すなわち、音素列データＸ0が指定する各音素の端点の位置には第２発音スタイルが反映される。他方、第１音素列データＸ1に対する利用者からの指示に応じた端点の移動は、音素列データＸ0には反映されていない。

制御装置１１（第１生成部４１）は、変更前の第１発音スタイルの第１音素列データＸ1が編集されているか否かを判定する（Ｓa2）。第１音素列データＸ1が編集されていない場合（Ｓa2：NO）、制御装置１１（第１生成部４１）は、音素列データＸ0を第２音素列データＸ2として記憶装置１２に記憶する（Ｓa3）。

他方、第１音素列データＸ1が編集されている場合（Ｓa2：YES）、制御装置１１（第１生成部４１）は、音素列データＸ0が表す複数の音素のうち各編集部分Ｐ1の位置を、第１音素列データＸ1の各編集部分Ｐ1の移動後の位置に変更することで、第２音素列データＸ2を生成する（Ｓa4）。他方、音素列データＸ0が表す複数の音素のうち各初期部分Ｐ2の位置は、第２音素列データＸ2においても維持される。すなわち、第１生成部４１は、第２発音スタイルを示すスタイルデータＱ2を含む第１入力データＤ1を第１推定モデルＭ1により処理することで、第２音素列データＸ2の初期部分Ｐ2を生成する。以上の説明から理解される通り、第１生成部４１は、第２発音スタイルが指定された場合に、各編集部分Ｐ1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応する位置を表す第２音素列データＸ2を生成する。

以上の通り、第１実施形態においては、第１推定モデルＭ1により生成された音素列データＸ0が表す複数の音素のうちの一部の位置を、編集部分Ｐ1の変更後の位置に変更することで、第２音素列データＸ2が生成される。すなわち、第１推定モデルＭ1により音素列データＸを生成する処理自体は、各音素の端点の移動の有無（すなわちステップＳa2の判定の結果）に関わらず共通する。したがって、音素列データＸの生成のための処理を簡素化できる。

図１０は、第１音素列データＸ1および第２音素列データＸ2の具体例である。第１音素列データＸ1および第２音素列データＸ2の各々に対応する編集領域Ｅ1が、図１０に併記されている。図１０における符号αは、第１音素列データＸ1に対する利用者からの指示に応じて移動された各音素の端点（端点画像Ｇc）である。

図１０から理解される通り、利用者からの指示に応じて移動された各音素の端点（編集部分Ｐ1）の位置は、第１音素列データＸ1と第２音素列データＸ2との間で共通する。すなわち、図１０において符号αが付加された端点が編集部分Ｐ1である。

他方、第１音素列データＸ1が表す複数の音素のうち編集部分Ｐ1以外の各音素の端点は第１発音スタイルに応じた位置にあり、第２音素列データＸ2が表す複数の音素のうちの各初期部分Ｐ2は、第２発音スタイルに応じた位置にある。すなわち、編集部分Ｐ1以外の各音素の端点（初期部分Ｐ2）は、第１音素列データＸ1と第２音素列データＸ2との間で相互に独立に設定される。具体的には、初期部分Ｐ2に相当する複数の音素のなかには、第１音素列データＸ1と第２音素列データＸ2との間で位置が相違する音素のほか、第１音素列データＸ1と第２音素列データＸ2との間で位置が共通する音素もある。

以上に説明した通り、第１実施形態においては、第１発音スタイルに対応する第１音素列データＸ1と、第２発音スタイルに対応する第２音素列データＸ2とが生成される。したがって、発音スタイルが相違する多様な目標音を合成できる。また、各編集部分Ｐ1については、第１音素列データＸ1に対する利用者からの指示に応じた変更後の位置が、第２音素列データＸ2においても維持される。したがって、第１発音スタイルから第２発音スタイルへの変更にあたり、利用者は、編集部分Ｐ1の位置の変更を改めて指示する必要がない。具体的には、利用者からの指示に応じて変更された端点の位置は、発音スタイルの変更の前後にわたり維持される。したがって、発音スタイルの変更毎に利用者が特定の音素の端点を同様に変更する必要はない。

以上の通り、第１実施形態によれば、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成できる。例えば、利用者からの指示による各音素の位置の変更を維持しながら、相異なる複数の発音スタイルに対応する目標音を再生できる。したがって、利用者は、各音素の位置を自身の意向に応じて調整した状態で、目標音を複数の発音スタイルの間で比較しながら聴取できる。すなわち、複数の発音スタイルの目標音を比較する場合の利用者の負荷を軽減できる。

第１実施形態においては特に、各音素の端点の位置が音響特性として音素列データＸにより表されるから、各音素の端点の位置が発音スタイルに応じて変化する多様な目標音を生成できる。例えば、各音素の始点または終点が早目および遅目の何れであるかが、発音スタイルに応じて多様に変化する。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用したのと同様の符号を流用して各々の詳細な説明を適宜に省略する。

図１１は、第２実施形態における編集画面Ｅの模式図である。第２実施形態においては、編集領域Ｅ1に表示される複数の端点画像Ｇcが、端点画像Ｇc1と端点画像Ｇc2とに区別される。端点画像Ｇc1は、複数の端点画像Ｇcのうち編集部分Ｐ1に対応する端点画像Ｇcである。すなわち、端点画像Ｇc1は、目標音を構成する複数の音素のうち、利用者からの指示に応じて移動された音素に対応する。他方、端点画像Ｇc2は、複数の端点画像Ｇcのうち初期部分Ｐ2に対応する端点画像Ｇcである。すなわち、端点画像Ｇc2は、目標音を構成する複数の音素のうち初期的な位置から移動していない音素に対応する。

第２実施形態の表示制御部２０は、端点画像Ｇc1と端点画像Ｇc2とを相異なる表示態様で表示する。具体的には、端点画像Ｇc1と端点画像Ｇc2とは、相異なる表示色で表示される。すなわち、表示制御部２０は、初期的な位置から移動していない状態の端点画像Ｇc（Ｇc2）を第１態様で表示し、端点画像Ｇcが移動された場合に、当該端点画像Ｇc（Ｇc1）の表示態様を第１態様から第２態様に変更する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、移動済の端点画像Ｇc1と未移動の端点画像Ｇc2とが相異なる表示態様で表示されるから、各音素の端点について移動済／未移動を利用者が視覚的および直観的に把握できるという利点がある。

なお、端点画像Ｇcの表示態様は、観察者が視覚的に弁別可能な画像の特性を意味する。例えば、画像の表示色、模様（図柄）、サイズまたは形状が、「表示態様」の概念には包含される。なお、「表示色」は、色相（色調），彩度または明度（階調）により規定される。

Ｃ：第３実施形態
第１実施形態においては、音素列データＸの編集に着目したが、編集部分Ｐ1を維持しながら発音スタイルを変更する処理は、音素列データＸ以外の時系列データにも同様に適用される。第３実施形態は、時系列データの一例であるピッチデータＹに、編集部分Ｐ1を維持しながら発音スタイルを変更する処理を適用した形態である。

図１２は、第３実施形態におけるピッチデータＹの更新に関する説明図である。図１２には、第１発音スタイルに対応する第１ピッチデータＹ1が例示されている。前述の通り、第２生成部４２は、制御データＣと音素列データＸとを含む第２入力データＤ2を第２推定モデルＭ2により処理することで、第１ピッチデータＹ1を生成する。音素列データＸは、第１発音スタイルのスタイルデータＱ1を含む第１入力データＤ1から生成される。したがって、音素列データＸには第１発音スタイルが反映され、結果的に第１ピッチデータＹ1にも第１発音スタイルが反映される。

利用者は、操作装置１４を操作することで、第１ピッチデータＹ1が表すピッチ遷移Ｇbの変更を指示できる。具体的には、利用者は、第１ピッチデータＹ1が表すピッチ遷移Ｇbのうち所望の部分を編集部分Ｐ1として選択し、編集部分Ｐ1におけるピッチの時系列の変更を指示する。特性編集部３３は、編集部分Ｐ1が利用者からの指示に応じた変更後のピッチ遷移Ｇbを表すように第１ピッチデータＹ1を更新する。１個以上の編集部分Ｐ1についてピッチ遷移Ｇbが変更される。以上の通り、第３実施形態の編集部分Ｐ1は、第１ピッチデータＹ1が表すピッチ遷移Ｇbのうち利用者が変更を指示した部分である。

図１２に例示される通り、第１発音スタイルから第２発音スタイルへの変更が指示された場合、第２生成部４２は、第２発音スタイルに対応する第２ピッチデータＹ2を生成する。第２ピッチデータＹ2が表すピッチ遷移Ｇbは、時間軸上において編集部分Ｐ1と初期部分Ｐ2とに区分される。

第２ピッチデータＹ2は、各編集部分Ｐ1について、第１ピッチデータＹ1に対する利用者からの指示に応じた変更後のピッチ遷移Ｇbを表す。すなわち、第１ピッチデータＹ1に対する編集（すなわちピッチ遷移Ｇbの変更）が第２ピッチデータＹ2にも適用される。具体的には、第２ピッチデータＹ2の各編集部分Ｐ1については第１ピッチデータＹ1の編集部分Ｐ1が流用され、第２発音スタイルは反映されない。他方、第２ピッチデータＹ2は、各初期部分Ｐ2について、第２発音スタイルに対応するピッチ遷移Ｇbを表す。

図１３は、第２生成部４２が第２ピッチデータＹ2を生成する処理のフローチャートである。発音スタイルが変更された場合（Ｓ8：YES）の合成処理（Ｓ3）において図１３の処理が実行される。

まず、制御装置１１（第２生成部４２）は、目標楽曲の制御データＣと第１生成部４１が生成した音素列データＸとを含む第２入力データＤ2を第２推定モデルＭ2により処理することで、目標楽曲の全体にわたる初期的なピッチデータＹ0を生成する（Ｓb1）。音素列データＸは、第２発音スタイルのスタイルデータＱ2を含む第１入力データＤ1から生成される。したがって、音素列データＸには第２発音スタイルが反映され、結果的にピッチデータＹ0にも第２発音スタイルが反映される。第１ピッチデータＹ1に対する利用者からの指示に応じたピッチ遷移Ｇbの変更は、ピッチデータＹ0には反映されていない。

制御装置１１（第２生成部４２）は、変更前の第１発音スタイルの第１ピッチデータＹ1が編集されているか否かを判定する（Ｓb2）。第１ピッチデータＹ1が編集されていない場合（Ｓb2：NO）、制御装置１１（第２生成部４２）は、ピッチデータＹ0を第２ピッチデータＹ2として記憶装置１２に記憶する（Ｓb3）。

他方、第１ピッチデータＹ1が編集されている場合（Ｓb2：YES）、制御装置１１（第２生成部４２）は、ピッチデータＹ0の編集部分Ｐ1におけるピッチ遷移Ｇbを、第１ピッチデータＹ1の編集部分Ｐ1におけるピッチ遷移Ｇbに変更することで、第２ピッチデータＹ2を生成する（Ｓb4）。他方、ピッチデータＹ0のうち各初期部分Ｐ2におけるピッチ遷移Ｇbは、第２ピッチデータＹ2においても維持される。以上の説明から理解される通り、第２生成部４２は、第２発音スタイルが指定された場合に、各編集部分Ｐ1について利用者からの指示に応じた変更後のピッチ遷移Ｇbを表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応するピッチ遷移Ｇbを表す第２ピッチデータＹ2を生成する。

以上の通り、第１実施形態においては、第２推定モデルＭ2により生成されたピッチデータＹ0の一部におけるピッチ遷移Ｇbを、編集部分Ｐ1の変更後のピッチ遷移Ｇbに変更することで、第２ピッチデータＹ2が生成される。すなわち、第２推定モデルＭ2によりピッチデータＹを生成する処理自体は、各ピッチ遷移Ｇbの変更の有無に関わらず共通する。したがって、ピッチデータＹの生成のための処理を簡素化できる。

第３実施形態においても第１実施形態と同様の効果が実現される。第３実施形態においては特に、ピッチ遷移Ｇbが音響特性としてピッチデータＹにより表されるから、ピッチ遷移Ｇbが発音スタイルに応じて変化する多様な目標音を生成できる。

なお、音素列データＸについて第１実施形態に例示した構成および動作は、第３実施形態のピッチデータＹにも同様に適用される。例えば、制御装置１１（第２生成部４２）は、第１ピッチデータＹ1に対する利用者からの指示が適正であるか否かを判定し（Ｓ6）、指示が不適正である場合には第１ピッチデータＹ1の編集部分Ｐ1を変更しない。

Ｄ：第４実施形態
第１実施形態においては、音素列データＸの編集に着目し、第３実施形態においてはピッチデータＹの編集に着目した。第４実施形態は、時系列データの一例である音響信号Ｚに、編集部分Ｐ1を維持しながら発音スタイルを変更する処理を適用した形態である。

図１４は、第４実施形態における音響信号Ｚの更新に関する説明図である。図１４には、第１発音スタイルに対応する第１音響信号Ｚ1が例示されている。前述の通り、第３生成部４３は、音素列データＸとピッチデータＹとを含む第３入力データＤ3を第３推定モデルＭ3により処理することで、第１音響信号Ｚ1を生成する。したがって、第１発音スタイルに対応する音素列データＸおよびピッチデータＹからは、第１発音スタイルが反映された第１音響信号Ｚ1が生成される。

利用者は、操作装置１４を操作することで、第１音響信号Ｚ1の変更を指示できる。具体的には、利用者は、第１音響信号Ｚ1が表す信号波形Ｇdのうち所望の部分を編集部分Ｐ1として選択し、編集部分Ｐ1における波形（振幅および音色）の変更を指示する。特性編集部３３は、編集部分Ｐ1が利用者からの指示に応じた変更後の信号波形Ｇdを表すように第１音響信号Ｚ1を更新する。１個以上の編集部分Ｐ1について信号波形Ｇdが変更される。以上の通り、第４実施形態の編集部分Ｐ1は、第１音響信号Ｚ1が表す信号波形Ｇdのうち利用者が変更を指示した部分である。

図１４に例示される通り、第１発音スタイルから第２発音スタイルへの変更が指示された場合、第３生成部４３は、第２発音スタイルに対応する第２音響信号Ｚ2を生成する。第２音響信号Ｚ2が表す信号波形Ｇdは、時間軸上において編集部分Ｐ1と初期部分Ｐ2とに区分される。

第２音響信号Ｚ2は、各編集部分Ｐ1について、第１音響信号Ｚ1に対する利用者からの指示に応じた変更後の信号波形Ｇdを表す。すなわち、第１音響信号Ｚ1に対する編集（すなわち信号波形Ｇdの変更）が第２音響信号Ｚ2にも適用される。具体的には、第２音響信号Ｚ2の各編集部分Ｐ1については第１音響信号Ｚ1の編集部分Ｐ1が流用され、第２発音スタイルは反映されない。他方、第２音響信号Ｚ2は、各初期部分Ｐ2について、第２発音スタイルに対応する信号波形Ｇdを表す。

図１５は、第３生成部４３が第２音響信号Ｚ2を生成する処理のフローチャートである。発音スタイルが変更された場合（Ｓ8：YES）の合成処理（Ｓ3）において図１５の処理が実行される。

まず、制御装置１１（第３生成部４３）は、第３入力データＤ3を第３推定モデルＭ3により処理することで、目標楽曲の全体にわたる初期的な音響信号Ｚ0を生成する（Ｓc1）。第３入力データＤ3には、第２発音スタイルの音素列データＸおよびピッチデータＹが含まれる。したがって、音響信号Ｚ0には第２発音スタイルが反映される。第１音響信号Ｚ1に対する利用者からの指示に応じた信号波形Ｇdの変更は、音響信号Ｚ0には反映されていない。

制御装置１１（第３生成部４３）は、変更前の第１発音スタイルの第１音響信号Ｚ1が編集されているか否かを判定する（Ｓc2）。第１音響信号Ｚ1が編集されていない場合（Ｓc2：NO）、制御装置１１（第３生成部４３）は、音響信号Ｚ0を第２音響信号Ｚ2として記憶装置１２に記憶する（Ｓc3）。

他方、第１音響信号Ｚ1が編集されている場合（Ｓc2：YES）、制御装置１１（第３生成部４３）は、音響信号Ｚ0の編集部分Ｐ1における信号波形Ｇdを、第１音響信号Ｚ1の編集部分Ｐ1における信号波形Ｇdに変更することで、第２音響信号Ｚ2を生成する（Ｓc4）。他方、音響信号Ｚ0のうち各初期部分Ｐ2における信号波形Ｇdは、第２音響信号Ｚ2においても維持される。以上の説明から理解される通り、第３生成部４３は、第２発音スタイルが指定された場合に、各編集部分Ｐ1について利用者からの指示に応じた変更後の信号波形Ｇdを表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応する信号波形Ｇdを表す第２音響信号Ｚ2を生成する。

以上の通り、第１実施形態においては、第３推定モデルＭ3により生成された音響信号Ｚ0の一部における信号波形Ｇdを、編集部分Ｐ1の変更後の信号波形Ｇdに変更することで、第２音響信号Ｚ2が生成される。すなわち、第３推定モデルＭ3により音響信号Ｚを生成する処理自体は、各信号波形Ｇdの変更の有無に関わらず共通する。したがって、音響信号Ｚの生成のための処理を簡素化できる。

第４実施形態においても第１実施形態と同様の効果が実現される。第４実施形態においては特に、信号波形Ｇdが音響特性として音響信号Ｚにより表されるから、信号波形Ｇdが発音スタイルに応じて変化する多様な目標音を生成できる。

なお、音素列データＸについて第１実施形態に例示した構成および動作は、第４実施形態の音響信号Ｚにも同様に適用される。例えば、制御装置１１（第３生成部４３）は、第１音響信号Ｚ1に対する利用者からの指示が適正であるか否かを判定し（Ｓ6）、指示が不適正である場合には第１音響信号Ｚ1の編集部分Ｐ1を変更しない。

第１実施形態から第４実施形態における例示から理解される通り、音響処理部４０（第１生成部４１，第２生成部４２，第３生成部４３）は、第２発音スタイルが指定された場合に、編集部分Ｐ1について利用者からの指示に応じた変更後の音響特性を表し、かつ、編集部分Ｐ1以外の初期部分Ｐ2について第２発音スタイルに対応する音響特性を表す第２時系列データ（第２音素列データＸ2，第２ピッチデータＹ2，第２音響信号Ｚ2）を生成する要素として包括的に表現される。音素列データＸが表す音響特性は各音素の端点の位置であり、ピッチデータＹが表す音響特性は目標音のピッチであり、音響信号Ｚが表す音響特性は目標音の振幅および音色である。

Ｅ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、時系列データの生成に推定モデル（第１推定モデルＭ1，第２推定モデルＭ2，第３推定モデルＭ3）を利用したが、制御データＣから音響信号Ｚを生成する方法は以上の例示に限定されない。例えば、複数の音声素片の接続により音響信号Ｚを生成する素片接続型の音声合成にも本開示は適用される。

例えば、相異なる発音スタイルに対応する複数の音声ライブラリが記憶装置１２に記憶される。各音声ライブラリは、音素単体および音素連鎖を含む複数の音声素片が登録されたデータベースである。複数の音声ライブラリのうち利用者が選択した発音スタイルに対応する音声ライブラリを利用して目標音の音響信号Ｚが生成される。

音響処理部４０（第１生成部４１）は、制御データＣが時系列に指定する発音文字Ｃ3に対応する音声素片を音声ライブラリから選択する。目標音を構成する各音素の端点の位置は、音声ライブラリに登録された音声素片の継続長等に応じて確定する。各音素の端点の位置を表す音素列データＸが生成される。また、音響処理部４０（第２生成部４２）は、公知の任意の方法により制御データＣに応じたピッチデータＹを生成する。音響処理部４０（第３生成部４３）は、各音声素片のピッチをピッチデータＹに応じて調整し、調整後の各音声素片を相互に連結することで音響信号Ｚを生成する。以上に説明した素片接続型の音声合成においても、各時系列データ（音素列データＸ，ピッチデータＹ，音響信号Ｚ）に対して前述の各形態と同様の処理が適用される。以上の通り、推定モデルの利用は省略されてよい。

（２）前述の各形態においては、利用者からの指示に応じて発音スタイル選択部３１が発音スタイルを選択する形態を例示したが、発音スタイルを選択する方法は、以上の例示に限定されない。例えば、発音スタイルの時間的な変化を指定するデータが記憶装置１２に記憶され、発音スタイル選択部３１は、発音スタイルを当該データに応じて順次に選択してもよい。なお、前述の各形態のように利用者からの指示に応じて発音スタイルが選択される形態によれば、利用者の意図に沿った発音スタイルの目標音を生成できる。

（３）前述の各形態においては、音素列データＸが各音素の端点の位置を表す形態を例示したが、音素列データＸにより端点が指定される音単位は、単体の音素に限定されない。例えば、複数の音素が相互に連結された音素連鎖、または１個以上の音素で構成される音節等が、音単位の他の例として想定される。

（４）前述の第１実施形態においては、第２音素列データＸ2の生成にあたり目標楽曲の全体にわたる音素列データＸ0を第１推定モデルＭ1により生成したが（Ｓa1）、音素列データＸ0の生成は省略されてもよい。例えば、第１生成部４１は、目標楽曲のうち編集部分Ｐ1以外の部分の制御データＣを利用して第２音素列データＸ2の初期部分Ｐ2を生成し、第１音素列データＸ1の編集部分Ｐ1を初期部分Ｐ2に付加することで第２音素列データＸ2を生成してもよい。

同様に、第２生成部４２は、目標楽曲のうち編集部分Ｐ1以外の部分の制御データＣを利用して第２ピッチデータＹ2の初期部分Ｐ2を生成し、第１ピッチデータＹ1の編集部分Ｐ1を初期部分Ｐ2に付加することで第２ピッチデータＹ2を生成してもよい。すなわち、目標楽曲の全体にわたるピッチデータＹ0の生成は省略されてよい。また、第３生成部４３は、目標楽曲のうち編集部分Ｐ1以外の部分の音素列データＸおよびピッチデータＹを利用して第２音響信号Ｚ2の初期部分Ｐ2を生成し、第１音響信号Ｚ1の編集部分Ｐ1を初期部分Ｐ2に付加することで第２音響信号Ｚ2を生成してもよい。すなわち、目標楽曲の全体にわたる音響信号Ｚ0の生成は省略されてよい。

（５）前述の各形態において、所定の範囲外に端点を移動する利用者からの指示は無効化される（Ｓ6：NO）。表示制御部２０は、無効化された利用者からの指示を表示装置１３に表示してもよい。例えば、表示制御部２０は、図１６に例示される通り、無効化された指示による移動先の位置に指示画像Ｇeを表示する。すなわち、指示画像Ｇeは、利用者が音素の端点の移動先として指示した時点を表す画像である。

表示制御部２０は、端点画像Ｇcと指示画像Ｇeとを相異なる表示態様で表示する。例えば、端点画像Ｇcは矩形状の画像であり、指示画像Ｇeは点線の画像である。以上の形態によれば、利用者は、端点を移動させる自身の指示が無効化されたことを視覚的および直観的に把握できる。

なお、指示画像Ｇeを表示する構成は、第１実施形態から第４実施形態の何れにも適用される。端点画像Ｇc1と端点画像Ｇc2とが相異なる表示態様で表示される第２実施形態に指示画像Ｇeの表示を追加した形態において、指示画像Ｇeは、端点画像Ｇc1および端点画像Ｇc2の何れとも相違する表示態様で表示される。

（６）第４実施形態においては、第３推定モデルＭ3により生成された音響信号Ｚ0を部分的に変更することで第２音響信号Ｚ2を生成したが、第２音響信号Ｚ2を生成する方法は以上の例示に限定されない。例えば、第３生成部４３は、図１５の処理の代わりに図１７の処理を実行してもよい。発音スタイルが変更された場合（Ｓ8：YES）の合成処理（Ｓ3）において図１７の処理が実行される。

制御装置１１（第３生成部４３）は、変更前の第１発音スタイルの第１音響信号Ｚ1が編集されているか否かを判定する（Ｓd1）。第１音響信号Ｚ1が編集されている場合（Ｓd1：YES）、制御装置１１（第３生成部４３）は、第１音響信号Ｚ1に対する変更の内容を表す編集データＲを生成する（Ｓd2）。

図１８に例示される通り、編集データＲは、時間軸上の相異なる単位期間に対応する複数の単位データＵの時系列で構成される。各単位期間に対応する単位データＵは、第１音響信号Ｚ1の編集部分Ｐ1に指示された波形（振幅および音色）の変更の内容を表す。例えば、第１音響信号Ｚ1の編集部分Ｐ1に対応する各単位期間の単位データＵは、変更の内容を示す数値に設定される。他方、第１音響信号Ｚ1のうち編集部分Ｐ1以外の部分に対応する単位期間の単位データＵは、所定の初期値（例えばゼロ）に設定される。

他方、第１音響信号Ｚ1が編集されていない場合（Ｓd1：NO）、制御装置（第３生成部４３）は、図１８に例示される通り、全部の単位データＵが初期値に設定された編集データＲを生成する（Ｓd3）。すなわち、第１音響信号Ｚ1が編集されていなことを表す編集データＲが生成される。

以上の手順で編集データＲを生成すると、制御装置１１（第３生成部４３）は、第３入力データＤ3を第３推定モデルＭ3により処理することで第２音響信号Ｚ2を生成する（Ｓd4）。第３入力データＤ3は、前述の各形態と同様の音素列データＸおよびピッチデータＹに加えて、編集データＲを含む。第３推定モデルＭ3は、編集データＲを含む第３入力データＤ3と音響信号Ｚとの関係を機械学習により学習した統計モデルである。したがって、第２音響信号Ｚ2は、各編集部分Ｐ1について、第１音響信号Ｚ1に対する利用者からの指示に応じた変更後の信号波形Ｇdを表す。すなわち、第１音響信号Ｚ1に対する編集が第２音響信号Ｚ2にも適用される。

以上の説明から理解される通り、第３生成部４３は、第４実施形態と同様に、第２発音スタイルが指定された場合に、各編集部分Ｐ1について利用者からの指示に応じた変更後の信号波形Ｇdを表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応する信号波形Ｇdを表す第２音響信号Ｚ2を生成する。目標楽曲の全体にわたる音響信号Ｚ0の生成は省略される。

なお、以上の説明においては、第２音響信号Ｚ2の生成に編集データＲを利用する形態を例示したが、第１実施形態における第２音素列データＸ2の生成（図９）、および、第３実施形態における第２ピッチデータＹ2の生成（図１３）にも、編集データＲが同様に適用される。

例えば、第１生成部４１は、第１音素列データＸ1に対する変更の内容を表す編集データＲを生成する。第２発音スタイルが指定された場合、第１生成部４１は、第１入力データＤ1を第１推定モデルＭ1により処理することで第２音素列データＸ2を生成する。第１入力データＤ1は、制御データＣおよびスタイルデータＱに加えて編集データＲを含む。したがって、第１生成部４１は、各編集部分Ｐ1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応する位置を表す第２音素列データＸ2を生成する。以上の説明から理解される通り、目標楽曲の全体にわたる音素列データＸ0の生成（Ｓa1）は省略されてよい。

また、第２生成部４２は、第１ピッチデータＹ1に対する変更の内容を表す編集データＲを生成する。第２発音スタイルが指定された場合、第２生成部４２は、第２入力データＤ2を第２推定モデルＭ2により処理することで第２ピッチデータＹ2を生成する。第２入力データＤ2は、制御データＣおよび音素列データＸに加えて編集データＲを含む。したがって、第２生成部４２は、各編集部分Ｐ1について利用者からの指示に応じた変更後の位置を表し、かつ、各初期部分Ｐ2について第２発音スタイルに対応する位置を表す第２ピッチデータＹ2を生成する。以上の説明から理解される通り、目標楽曲の全体にわたるピッチデータＹ0の生成（Ｓb1）は省略されてよい。

（７）前述の各形態においては、目標楽曲の歌唱音を目標音として例示したが、目標音は歌唱音に限定されない。例えば、目標音の演奏により楽器が発音する楽器音が、目標音として生成されてもよい。楽器音を生成する形態においては、制御データＣから発音文字Ｃ3が省略され、音響処理部４０から第１生成部４１が省略される。第２生成部４２は、制御データＣとスタイルデータＱとを含む第２入力データＤ2を第２推定モデルＭ2に入力することでピッチデータＹを生成する。なお、歌唱音および楽器音は、音楽的な要素を含む楽音として包括的に表現される。歌唱音に関する発音スタイルは歌唱スタイルとも表現され、楽器音に関する発音スタイルは演奏スタイルとも表現される。また、音楽的な要素を必要としない非楽音を目的音として生成する場合にも本開示は適用される。非楽音は、例えば会話音等の言語音を含む。

（８）例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により、音響処理システム１００を実現してもよい。例えば、音響処理システム１００は、情報装置から受信した制御データＣおよびスタイルデータＱを利用して音響信号Ｚを生成し、音響信号Ｚを情報装置に送信する。情報装置に対する操作の内容を表す操作データが情報装置から音響処理システム１００に送信される。音響処理システム１００の制御装置１１（特性編集部３３）は、操作データが表す利用者からの指示に応じて各時系列データ（音素列データＸ，ピッチデータＹ，音響信号Ｚ）を編集する。

（９）以上に例示した音響処理システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

Ｆ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係るプログラムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、前記時系列データを利用者からの指示に応じて変更する特性編集部、としてコンピュータシステムを機能させるプログラムであって、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

以上の態様においては、第１発音スタイルに対応する第１時系列データと、第２発音スタイルに対応する第２時系列データとが生成される。したがって、発音スタイルが相違する多様な目標音を合成できる。また、第１部分については、第１時系列データにおける利用者からの指示に応じた変更後の音響特性が、第２時系列データにおいても維持される。したがって、第１発音スタイルから第２発音スタイルへの変更にあたり、利用者は、第１部分の変更を改めて指示する必要がない。すなわち、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成できる。

「目標音」は、合成の対象となる任意の音である。「目標音」は、音楽的な要素（例えばピッチまたはリズム）を含む楽音のほか、音楽的な要素を必要としない非楽音も含む。楽音は、例えば歌唱者が発音する歌唱音または楽器が発音する楽器音を含む。また、非楽音は、例えば会話音等の言語音を含む。

「（第１／第２）発音スタイル」は、目標音に関する音響的な性質である。例えば、目標音の音色または調子等、聴感的な印象に影響する各種の性質が、「発音スタイル」の典型例である。例えば歌唱に着目すると、前ノリ（ahead of the beat）または後ノリ（behind the beat）等の歌唱時の癖または歌い回し等の性質が「発音スタイル」として例示される。「発音スタイル」は、発音源の種類（例えば歌唱者）、音楽ジャンルまたは言語等、発音スタイルに影響する各種の事項により指定される。

「（第１／第２）時系列データ」は、目標音の音響特性の時系列を表す任意の形式のデータである。音響特性は、例えばピッチ、音量または音色である。また、歌唱音については、時間軸上における各音素の端点（始点または終点）の位置が音響特性として例示される。音響特性は、目標音の合成の条件（合成条件）を包含する。

「第１部分」は、利用者からの指示に応じて編集された時間軸上の時点または期間である。第１時系列データについて１以上の第１部分が設定される。時間軸上における第１部分の位置または時間長は、例えば利用者からの指示に応じて設定される。「第２部分」は、時間軸上における第１部分以外の部分である。すなわち、「第２部分」は、利用者からの指示が反映されていない部分とも表現される。

態様１の具体例（態様２）において、前記目標音は、時間軸上の複数の音単位で構成される音声であり、前記音響特性は、前記複数の音単位の各々の端点の位置を含み、前記第１部分は、前記第１時系列データが指定する複数の端点のうち前記利用者が位置を変更した端点である。以上の態様においては、各音単位の端点の位置が音響特性として時系列データにより表されるから、各音単位の端点の位置が発音スタイルに応じて変化する多様な目標音を生成できる。例えば、各音単位の発音の開始または終了が早目および遅目の何れであるかが、発音スタイルに応じて多様に変化する。また、利用者からの指示に応じて変更された端点については発音スタイルの変更の前後にわたり維持される。したがって、発音スタイルの変更毎に利用者が特定の音単位の端点を同様に変更する必要はない。

「音単位」は、音声の音韻的な単位である。例えば、母音または子音等の音素を基準とする分節単位が「音単位」の典型例である。すなわち、単体の音素が「音単位」とされてもよいし、複数の音素の連鎖（音素連鎖）が「音単位」とされてもよい。また、１個以上の音素で構成される音節も「音単位」の概念に包含される。

態様２の具体例（態様３）において、前記音響処理部は、前記目標音の合成条件を指定する制御データと、前記第１発音スタイルを示す第１スタイルデータとを含む第１入力データを、第１入力データと時系列データとの関係を機械学習により学習した第１推定モデルにより処理することで、前記第１時系列データを生成し、前記制御データと、前記第２発音スタイルを示す第２スタイルデータとを含む第１入力データを、前記第１推定モデルにより処理することで、前記第２時系列データの前記第２部分を生成する。以上の態様においては、目標音の合成条件を指定する制御データと、発音スタイルを示す（第１／第２）スタイルデータとを含む第１入力データを第１推定モデルにより処理することで、（第１／第２）時系列データが生成される。したがって、機械学習に利用された複数の訓練データにおける第１入力データと時系列データとの間に存在する関係のもとで、統計的に妥当な時系列データを生成できる。

態様３の具体例（態様４）において、前記音響処理部は、前記第１推定モデルにより生成された時系列データの一部における音響特性を、前記第１部分における変更後の音響特性に変更することで、前記第２時系列データを生成する。以上の態様においては、第１推定モデルにより生成された時系列データの第１部分を、利用者からの指示に応じた変更後の音響特性に変更することで、第２時系列データが生成される。すなわち、第１推定モデルにより時系列データを生成する処理自体は、音響特性の変更の有無に関わらず共通する。したがって、時系列データの生成のための処理を簡素化できる。

態様２から態様４の何れかの具体例（態様５）において、前記音響処理部は、前記制御データと前記第１時系列データまたは前記第２時系列データとを含む第２入力データを、第２入力データとピッチデータとの関係を機械学習により学習した第２推定モデルにより処理することで、前記目標音のピッチの時系列を表すピッチデータを生成し、前記第１時系列データまたは前記第２時系列データと、前記ピッチデータとを利用して、前記目標音を表す音響信号を生成する。以上の態様においては、目標音の合成条件を指定する制御データと、時系列データとを含む第２入力データを第２推定モデルにより処理することでピッチデータが生成される。したがって、機械学習に利用された複数の訓練データにおける第２入力データとピッチデータとの間に存在する関係のもとで、統計的に妥当なピッチデータを生成できる。

態様２から態様５の何れかの具体例（態様６）において、前記音響処理部は、前記第１時系列データまたは前記第２時系列データと前記ピッチデータとを含む第３入力データを、第３入力データと音響信号との関係を機械学習により学習した第３推定モデルにより処理することで、前記音響信号を生成する。以上の態様においては、時系列データとピッチデータとを含む第３入力データを第３推定モデルにより処理することで音響信号が生成される。したがって、機械学習に利用された複数の訓練データにおける第３入力データと音響信号との間に存在する関係のもとで、統計的に妥当な音響信号を生成できる。

態様１から態様６の何れかの具体例（態様７）において、前記音響特性は、前記目標音のピッチであり、前記第１部分は、前記第１時系列データが表すピッチの時系列のうち前記利用者が変更を指示した部分である。以上の態様においては、目標音のピッチが音響特性として時系列データにより表されるから、ピッチの時間的な遷移が発音スタイルに応じて変化する多様な目標音を生成できる。

態様１から態様７の何れかの具体例（態様８）において、前記音響特性は、前記目標音の振幅および音色であり、前記第１部分は、前記第１時系列データが表す振幅および音色の時系列のうち前記利用者が変更を指示した部分である。以上の態様においては、目標音の振幅および音色が音響特性として時系列データにより表されるから、振幅および音色の時間的な遷移が発音スタイルに応じて変化する多様な目標音を生成できる。

態様１から態様８の何れかの具体例（態様９）において、前記第１発音スタイルおよび前記第２発音スタイルの各々は、相異なる複数の発音スタイルのうち前記利用者からの指示に応じて選択された発音スタイルである。以上の形態によれば、利用者の意図に沿った発音スタイルの目標音を生成できる。

態様１から態様９の何れかの具体例（態様１０）において、前記特性編集部は、前記利用者からの指示が適正であるか否かを判定し、前記指示が適正でない場合には、前記第１部分の変更を実行しない。以上の態様によれば、利用者からの不適正な指示が無効化されるから、不適正な時系列データが生成される可能性を低減できる。

本開示のひとつの態様（態様１１）に係る音響処理方法は、合成されるべき目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データのうちの第１部分を、利用者からの指示に応じて変更し、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

本開示のひとつの態様（態様１２）に係る音響処理システムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。

１００…音響処理システム、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…放音装置、２０…表示制御部、３０…編集制御部、３１…発音スタイル選択部、３２…楽譜編集部、３３…特性編集部、４０…音響処理部、４１…第１生成部、４２…第２生成部、４３…第３生成部。

Claims

合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、
前記時系列データを利用者からの指示に応じて変更する特性編集部、
としてコンピュータシステムを機能させるプログラムであって、
前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、
前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、
前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する
プログラム。
前記目標音は、時間軸上の複数の音単位で構成される音声であり、
前記音響特性は、前記複数の音単位の各々の端点の位置を含み、
前記第１部分は、前記第１時系列データが指定する複数の端点のうち前記利用者が位置を変更した端点である
請求項１のプログラム。
前記音響処理部は、
前記目標音の合成条件を指定する制御データと、前記第１発音スタイルを示す第１スタイルデータとを含む第１入力データを、第１入力データと時系列データとの関係を機械学習により学習した第１推定モデルにより処理することで、前記第１時系列データを生成し、
前記制御データと、前記第２発音スタイルを示す第２スタイルデータとを含む第１入力データを、前記第１推定モデルにより処理することで、前記第２時系列データの前記第２部分を生成する
請求項２のプログラム。
前記音響処理部は、前記第１推定モデルにより生成された時系列データの一部における音響特性を、前記第１部分における変更後の音響特性に変更することで、前記第２時系列データを生成する
請求項３のプログラム。
前記音響処理部は、
前記制御データと前記第１時系列データまたは前記第２時系列データとを含む第２入力データを、第２入力データとピッチデータとの関係を機械学習により学習した第２推定モデルにより処理することで、前記目標音のピッチの時系列を表すピッチデータを生成し、
前記第１時系列データまたは前記第２時系列データと、前記ピッチデータとを利用して、前記目標音を表す音響信号を生成する
請求項４のプログラム。
前記音響処理部は、
前記第１時系列データまたは前記第２時系列データと前記ピッチデータとを含む第３入力データを、第３入力データと音響信号との関係を機械学習により学習した第３推定モデルにより処理することで、前記音響信号を生成する
請求項５のプログラム。
前記音響特性は、前記目標音のピッチであり、
前記第１部分は、前記第１時系列データが表すピッチの時系列のうち前記利用者が変更を指示した部分である
請求項１のプログラム。
前記音響特性は、前記目標音の振幅および音色であり、
前記第１部分は、前記第１時系列データが表す振幅および音色の時系列のうち前記利用者が変更を指示した部分である
請求項１のプログラム。
前記第１発音スタイルおよび前記第２発音スタイルの各々は、相異なる複数の発音スタイルのうち前記利用者からの指示に応じて選択された発音スタイルである
請求項１のプログラム。
前記特性編集部は、前記利用者からの指示が適正であるか否かを判定し、前記指示が適正でない場合には、前記第１部分の変更を実行しない
請求項１のプログラム。
合成されるべき目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データのうちの第１部分を、利用者からの指示に応じて変更し、
前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する
コンピュータシステムにより実現される音響処理方法。
合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、
前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、
前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、
前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、
前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する
音響処理システム。