JP6597903B2

JP6597903B2 - 楽曲データ処理方法およびプログラム

Info

Publication number: JP6597903B2
Application number: JP2018528862A
Authority: JP
Inventors: 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-07-22
Filing date: 2017-07-20
Publication date: 2019-10-30
Anticipated expiration: 2037-07-20
Also published as: WO2018016581A1; JPWO2018016581A1; US10586520B2; US20190156809A1

Description

本発明は、自動演奏に利用される楽曲データに対する処理に関する。

楽曲を演奏した音の解析により、楽曲内で現に演奏されている位置（以下「演奏位置」という）を推定するスコアアライメント技術が従来から提案されている（例えば特許文献１）。例えば、楽曲の演奏内容を表す楽曲データと、演奏により発音された音を表す音響信号とを対比することで、演奏位置を推定することが可能である。

特開２０１５−７９１８３号公報

他方、楽曲の演奏内容を表す楽曲データを利用して鍵盤楽器等の楽器を発音させる自動演奏技術が普及している。演奏位置の解析結果を自動演奏に適用すれば、演奏者による楽器の演奏に同期した自動演奏が実現され得る。しかし、実際の演奏には演奏者に固有の傾向（例えば音楽的な表現または演奏の癖）が反映されるから、実際の演奏の傾向とは無関係に事前に用意された楽曲データを利用した推定では、演奏位置を高精度に推定することは困難である。以上の事情を考慮して、本発明は、実際の演奏の傾向を楽曲データに反映させることを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る楽曲データ処理方法は、演奏音を表す音響信号の解析により楽曲内の演奏位置を推定し、複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新し、前記楽曲データの更新においては、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する。
本発明の他の態様に係るプログラムは、コンピュータを、演奏音を表す音響信号の解析により楽曲内の演奏位置を推定する演奏解析部、および、複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新する第１更新部として機能させるプログラムであって、前記第１更新部は、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する。

本発明の実施形態に係る自動演奏システムのブロック図である。合図動作および演奏位置の説明図である。画像合成部による画像合成の説明図である。演奏対象曲の演奏位置と自動演奏の指示位置との関係の説明図である。合図動作の位置と演奏対象曲の演奏の始点との関係の説明図である。演奏画像の説明図である。演奏画像の説明図である。制御装置の動作のフローチャートである。楽曲データ処理装置のブロック図である。更新処理部の動作のフローチャートである。第１更新処理のフローチャートである。演奏テンポ遷移の説明図である。第２更新処理のフローチャートである。第２更新処理の説明図である。自動演奏システムのブロック図である。演奏者の発音タイミングと伴奏パートの発音タイミングとのシミュレーション結果である。自動演奏システムの評価結果である。

＜自動演奏システム＞
図１は、本発明の好適な形態に係る自動演奏システム１００のブロック図である。自動演奏システム１００は、複数の演奏者Ｐが楽器を演奏する音響ホール等の空間に設置され、複数の演奏者Ｐによる楽曲（以下「演奏対象曲」という）の演奏に並行して演奏対象曲の自動演奏を実行するコンピュータシステムである。なお、演奏者Ｐは、典型的には楽器の演奏者であるが、演奏対象曲の歌唱者も演奏者Ｐであり得る。すなわち、本出願における「演奏」には、楽器の演奏だけでなく歌唱も包含される。また、実際には楽器の演奏を担当しない者（例えば、コンサート時の指揮者またはレコーディング時の音響監督など）も、演奏者Ｐに含まれ得る。

図１に例示される通り、本実施形態の自動演奏システム１００は、制御装置１２と記憶装置１４と収録装置２２と自動演奏装置２４と表示装置２６とを具備する。制御装置１２と記憶装置１４とは、例えばパーソナルコンピュータ等の情報処理装置で実現される。

制御装置１２は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、自動演奏システム１００の各要素を統括的に制御する。記憶装置１４は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置１２が実行するプログラムと制御装置１２が使用する各種のデータとを記憶する。なお、自動演奏システム１００とは別体の記憶装置１４（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１２が記憶装置１４に対する書込および読出を実行してもよい。すなわち、記憶装置１４は自動演奏システム１００から省略され得る。

本実施形態の記憶装置１４は、楽曲データＭを記憶する。楽曲データＭは、自動演奏による演奏対象曲の演奏内容を指定する。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽曲データＭとして好適である。具体的には、楽曲データＭは、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データである。指示データは、音高（ノートナンバ）と強度（ベロシティ）とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔（デルタタイム）を指定する。

図１の自動演奏装置２４は、制御装置１２による制御のもとで演奏対象曲の自動演奏を実行する。具体的には、演奏対象曲を構成する複数の演奏パートのうち、複数の演奏者Ｐの演奏パート（例えば弦楽器）とは別個の演奏パートが、自動演奏装置２４により自動演奏される。本実施形態の自動演奏装置２４は、駆動機構２４２と発音機構２４４とを具備する鍵盤楽器（すなわち自動演奏ピアノ）である。発音機構２４４は、自然楽器のピアノと同様に、鍵盤の各鍵の変位に連動して弦（すなわち発音体）を発音させる打弦機構である。具体的には、発音機構２４４は、弦を打撃可能なハンマと、鍵の変位をハンマに伝達する複数の伝達部材（例えばウィペン，ジャックおよびレペティションレバー）とで構成されるアクション機構を鍵毎に具備する。駆動機構２４２は、発音機構２４４を駆動することで演奏対象曲の自動演奏を実行する。具体的には、駆動機構２４２は、各鍵を変位させる複数の駆動体（例えばソレノイド等のアクチュエータ）と、各駆動体を駆動する駆動回路とを含んで構成される。制御装置１２からの指示に応じて駆動機構２４２が発音機構２４４を駆動することで、演奏対象曲の自動演奏が実現される。なお、自動演奏装置２４に制御装置１２または記憶装置１４を搭載してもよい。

収録装置２２は、複数の演奏者Ｐが演奏対象曲を演奏する様子を収録する。図１に例示される通り、本実施形態の収録装置２２は、複数の撮像装置２２２と複数の収音装置２２４とを具備する。撮像装置２２２は、演奏者Ｐ毎に設置され、演奏者Ｐの撮像により画像信号Ｖ0を生成する。画像信号Ｖ0は、演奏者Ｐの動画像を表す信号である。収音装置２２４は、演奏者Ｐ毎に設置され、演奏者Ｐによる演奏（例えば楽器の演奏または歌唱）で発音された音（例えば楽音または歌唱音）を収音して音響信号Ａ0を生成する。音響信号Ａ0は、音の波形を表す信号である。以上の説明から理解される通り、相異なる演奏者Ｐを撮像した複数の画像信号Ｖ0と、相異なる演奏者Ｐが演奏した音を収音した複数の音響信号Ａ0とが収録される。なお、電気弦楽器等の電気楽器から出力される音響信号Ａ0を利用してもよい。したがって、収音装置２２４を省略してもよい。

制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、演奏対象曲の自動演奏を実現するための複数の機能（合図検出部５２，演奏解析部５４，演奏制御部５６および表示制御部５８）を実現する。なお、制御装置１２の機能を複数の装置の集合（すなわちシステム）で実現した構成、または、制御装置１２の機能の一部または全部を専用の電子回路で実現してもよい。また、収録装置２２と自動演奏装置２４と表示装置２６とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置１２の一部または全部の機能を実現してもよい。

各演奏者Ｐは、演奏対象曲の演奏の合図となる動作（以下「合図動作」という）を実行する。合図動作は、時間軸上の１個の時点を指示する動作（ジェスチャー）である。例えば、演奏者Ｐが自身の楽器を持上げる動作、または演奏者Ｐが自身の身体を動かす動作が、合図動作の好適例である。例えば演奏対象曲の演奏を主導する特定の演奏者Ｐは、図２に例示される通り、演奏対象曲の演奏を開始すべき始点に対して所定の期間（以下「準備期間」という）Ｂだけ手前の時点Ｑで合図動作を実行する。準備期間Ｂは、例えば演奏対象曲の１拍分の時間長の期間である。したがって、準備期間Ｂの時間長は演奏対象曲の演奏速度（テンポ）に応じて変動する。例えば演奏速度が速いほど準備期間Ｂは短い時間となる。演奏者Ｐは、演奏対象曲に想定される演奏速度のもとで１拍分に相当する準備期間Ｂだけ演奏対象曲の始点から手前の時点で合図動作を実行したうえで、当該始点の到来により演奏対象曲の演奏を開始する。合図動作は、他の演奏者Ｐによる演奏の契機となるほか、自動演奏装置２４による自動演奏の契機として利用される。なお、準備期間Ｂの時間長は任意であり、例えば複数拍分の時間長としてもよい。

図１の合図検出部５２は、演奏者Ｐによる合図動作を検出する。具体的には、合図検出部５２は、各撮像装置２２２が演奏者Ｐを撮像した画像を解析することで合図動作を検出する。図１に例示される通り、本実施形態の合図検出部５２は、画像合成部５２２と検出処理部５２４とを具備する。画像合成部５２２は、複数の撮像装置２２２が生成した複数の画像信号Ｖ0を合成することで画像信号Ｖを生成する。画像信号Ｖは、図３に例示される通り、各画像信号Ｖ0が表す複数の動画像（＃1，＃2，＃3，……）を配列した画像を表す信号である。すなわち、複数の演奏者Ｐの動画像を表す画像信号Ｖが画像合成部５２２から検出処理部５２４に供給される。

検出処理部５２４は、画像合成部５２２が生成した画像信号Ｖを解析することで複数の演奏者Ｐの何れかによる合図動作を検出する。検出処理部５２４による合図動作の検出には、演奏者Ｐが合図動作の実行時に移動させる要素（例えば身体または楽器）を画像から抽出する画像認識処理と、当該要素の移動を検出する動体検出処理とを含む公知の画像解析技術が使用され得る。また、ニューラルネットワークまたは多分木等の識別モデルを合図動作の検出に利用してもよい。例えば、複数の演奏者Ｐによる演奏を撮像した画像信号から抽出された特徴量を所与の学習データとして利用して、識別モデルの機械学習（例えばディープラーニング）が事前に実行される。検出処理部５２４は、実際に自動演奏が実行される場面で画像信号Ｖから抽出した特徴量を機械学習後の識別モデルに適用することで合図動作を検出する。

図１の演奏解析部５４は、演奏対象曲のうち複数の演奏者Ｐが現に演奏している位置（以下「演奏位置」という）Ｔを各演奏者Ｐによる演奏に並行して順次に推定する。具体的には、演奏解析部５４は、複数の収音装置２２４の各々が収音した音を解析することで演奏位置Ｔを推定する。図１に例示される通り、本実施形態の演奏解析部５４は、音響混合部５４２と解析処理部５４４とを具備する。音響混合部５４２は、複数の収音装置２２４が生成した複数の音響信号Ａ0を混合することで音響信号Ａを生成する。すなわち、音響信号Ａは、相異なる音響信号Ａ0が表す複数種の音の混合音を表す信号である。

解析処理部５４４は、音響混合部５４２が生成した音響信号Ａの解析により演奏位置Ｔを推定する。例えば、解析処理部５４４は、音響信号Ａが表す音と楽曲データＭが示す演奏対象曲の演奏内容とを相互に照合することで演奏位置Ｔを特定する。また、本実施形態の解析処理部５４４は、演奏対象曲の演奏速度（テンポ）Ｒを音響信号Ａの解析により推定する。例えば、解析処理部５４４は、演奏位置Ｔの時間変化（すなわち、時間軸方向における演奏位置Ｔの変化）から演奏速度Ｒを特定する。なお、解析処理部５４４による演奏位置Ｔおよび演奏速度Ｒの推定には、公知の音響解析技術（スコアアライメント）が任意に採用され得る。例えば、特許文献１に開示された解析技術を演奏位置Ｔおよび演奏速度Ｒの推定に利用してもよい。また、ニューラルネットワークまたは多分木等の識別モデルを演奏位置Ｔおよび演奏速度Ｒの推定に利用してもよい。例えば、複数の演奏者Ｐによる演奏を収音した音響信号Ａから抽出された特徴量を所与の学習データとして利用して、識別モデルを生成する機械学習（例えばディープラーニング）が自動演奏前に実行される。解析処理部５４４は、実際に自動演奏が実行される場面で音響信号Ａから抽出した特徴量を、機械学習により生成された識別モデルに適用することで演奏位置Ｔおよび演奏速度Ｒを推定する。

合図検出部５２による合図動作の検出と演奏解析部５４による演奏位置Ｔおよび演奏速度Ｒの推定とは、複数の演奏者Ｐによる演奏対象曲の演奏に並行して実時間的に実行される。例えば、合図動作の検出と演奏位置Ｔおよび演奏速度Ｒの推定とが所定の周期で反復される。ただし、合図動作の検出の周期と演奏位置Ｔおよび演奏速度Ｒの推定の周期との異同は不問である。

図１の演奏制御部５６は、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように自動演奏装置２４に演奏対象曲の自動演奏を実行させる。具体的には、演奏制御部５６は、合図検出部５２による合図動作の検出を契機として自動演奏の開始を自動演奏装置２４に対して指示するとともに、演奏対象曲のうち演奏位置Ｔに対応する時点について楽曲データＭが指定する演奏内容を自動演奏装置２４に指示する。すなわち、演奏制御部５６は、演奏対象曲の楽曲データＭに含まれる各指示データを自動演奏装置２４に対して順次に供給するシーケンサである。自動演奏装置２４は、演奏制御部５６からの指示に応じて演奏対象曲の自動演奏を実行する。複数の演奏者Ｐによる演奏の進行とともに演奏位置Ｔは演奏対象曲内の後方に移動するから、自動演奏装置２４による演奏対象曲の自動演奏も演奏位置Ｔの移動とともに進行する。以上の説明から理解される通り、演奏対象曲の各音の強度またはフレーズ表現等の音楽表現を楽曲データＭで指定された内容に維持したまま、演奏のテンポと各音のタイミングとは複数の演奏者Ｐによる演奏に同期するように、演奏制御部５６は自動演奏装置２４に自動演奏を指示する。したがって、例えば特定の演奏者（例えば現在では生存していない過去の演奏者）の演奏を表す楽曲データＭを使用すれば、当該演奏者に特有の音楽表現を自動演奏で忠実に再現しながら、当該演奏者と実在の複数の演奏者Ｐとが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。

ところで、演奏制御部５６が指示データの出力により自動演奏装置２４に自動演奏を指示してから自動演奏装置２４が実際に発音する（例えば発音機構２４４のハンマが打弦する）までには数百ミリ秒程度の時間が必要である。すなわち、演奏制御部５６からの指示に対して自動演奏装置２４による実際の発音は不可避的に遅延する。したがって、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔ自体の演奏を演奏制御部５６が自動演奏装置２４に指示する構成では、複数の演奏者Ｐによる演奏に対して自動演奏装置２４による発音が遅延する結果となる。

そこで、本実施形態の演奏制御部５６は、図２に例示される通り、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔに対して後方（未来）の時点ＴAの演奏を自動演奏装置２４に指示する。すなわち、遅延後の発音が複数の演奏者Ｐによる演奏に同期する（例えば演奏対象曲の特定の音符が自動演奏装置２４と各演奏者Ｐとで略同時に演奏される）ように、演奏制御部５６は演奏対象曲の楽曲データＭ内の指示データを先読みする。

図４は、演奏位置Ｔの時間的な変化の説明図である。単位時間内の演奏位置Ｔの変動量（図４の直線の勾配）が演奏速度Ｒに相当する。図４では、演奏速度Ｒが一定に維持された場合が便宜的に例示されている。

図４に例示される通り、演奏制御部５６は、演奏対象曲のうち演奏位置Ｔに対して調整量αだけ後方の時点ＴAの演奏を自動演奏装置２４に指示する。調整量αは、演奏制御部５６による自動演奏の指示から自動演奏装置２４が実際に発音するまでの遅延量Ｄと、演奏解析部５４が推定した演奏速度Ｒとに応じて可変に設定される。具体的には、演奏速度Ｒのもとで遅延量Ｄの時間内に演奏対象曲の演奏が進行する区間長を、演奏制御部５６は調整量αとして設定する。したがって、演奏速度Ｒが速い（図４の直線の勾配が急峻である）ほど調整量αは大きい数値となる。なお、図４では演奏対象曲の全区間にわたり演奏速度Ｒが一定に維持された場合を想定したが、実際には演奏速度Ｒは変動し得る。したがって、調整量αは、演奏速度Ｒに連動して経時的に変動する。

遅延量Ｄは、自動演奏装置２４の測定結果に応じた所定値（例えば数十から数百ミリ秒程度）に事前に設定される。なお、実際の自動演奏装置２４では、演奏される音高または強度に応じて遅延量Ｄが相違し得る。そこで、自動演奏の対象となる音符の音高または強度に応じて遅延量Ｄ（さらには遅延量Ｄに依存する調整量α）を可変に設定してもよい。

また、演奏制御部５６は、合図検出部５２が検出する合図動作を契機として演奏対象曲の自動演奏の開始を自動演奏装置２４に指示する。図５は、合図動作と自動演奏との関係の説明図である。図５に例示される通り、演奏制御部５６は、合図動作が検出された時点Ｑから時間長δが経過した時点ＱAで自動演奏装置２４に対する自動演奏の指示を開始する。時間長δは、準備期間Ｂに相当する時間長τから自動演奏の遅延量Ｄを減算した時間長である。準備期間Ｂの時間長τは演奏対象曲の演奏速度Ｒに応じて変動する。具体的には、演奏速度Ｒが速い（図５の直線の勾配が急峻である）ほど準備期間Ｂの時間長τは短くなる。ただし、合図動作の時点ＱAでは演奏対象曲の演奏は開始されていないから、演奏速度Ｒは推定されていない。そこで、演奏制御部５６は、演奏対象曲に想定される標準的な演奏速度（標準テンポ）Ｒ0に応じて準備期間Ｂの時間長τを算定する。演奏速度Ｒ0は、例えば楽曲データＭにて指定される。ただし、複数の演奏者Ｐが演奏対象曲について共通に認識している速度（例えば演奏練習時に想定した速度）を演奏速度Ｒ0として設定してもよい。

以上に説明した通り、演奏制御部５６は、合図動作の時点ＱAから時間長δ（δ＝τ−Ｄ）が経過した時点ＱAで自動演奏の指示を開始する。したがって、合図動作の時点Ｑから準備期間Ｂが経過した時点ＱB（すなわち、複数の演奏者Ｐが演奏を開始する時点）において、自動演奏装置２４による発音が開始される。すなわち、複数の演奏者Ｐによる演奏対象曲の演奏の開始と略同時に自動演奏装置２４による自動演奏が開始される。本実施形態の演奏制御部５６による自動演奏の制御は以上の例示の通りである。

図１の表示制御部５８は、自動演奏装置２４による自動演奏の進行を視覚的に表現した画像（以下「演奏画像」という）Ｇを表示装置２６に表示させる。具体的には、表示制御部５８は、演奏画像Ｇを表す画像データを生成して表示装置２６に出力することで演奏画像Ｇを表示装置２６に表示させる。表示装置２６は、表示制御部５８から指示された演奏画像Ｇを表示する。例えば液晶表示パネルまたはプロジェクタが表示装置２６の好適例である。複数の演奏者Ｐは、表示装置２６が表示する演奏画像Ｇを、演奏対象曲の演奏に並行して随時に視認することが可能である。

本実施形態の表示制御部５８は、自動演奏装置２４による自動演奏に連動して動的に変化する動画像を演奏画像Ｇとして表示装置２６に表示させる。図６および図７は、演奏画像Ｇの表示例である。図６および図７に例示される通り、演奏画像Ｇは、底面７２が存在する仮想空間７０に表示体（オブジェクト）７４を配置した立体的な画像である。図６に例示される通り、表示体７４は、仮想空間７０内に浮遊するとともに所定の速度で降下する略球状の立体である。仮想空間７０の底面７２には表示体７４の影７５が表示され、表示体７４の降下とともに底面７２上で当該影７５が表示体７４に接近する。図７に例示される通り、自動演奏装置２４による発音が開始される時点で表示体７４は仮想空間７０内の所定の高度まで上昇するとともに、当該発音の継続中に表示体７４の形状が不規則に変形する。そして、自動演奏による発音が停止（消音）すると、表示体７４の不規則な変形が停止して図６の初期的な形状（球状）に復帰し、表示体７４が所定の速度で降下する状態に遷移する。自動演奏による発音毎に表示体７４の以上の動作（上昇および変形）が反復される。例えば、演奏対象曲の演奏の開始前に表示体７４は降下し、演奏対象曲の始点の音符が自動演奏により発音される時点で表示体７４の移動の方向が降下から上昇に転換する。したがって、表示装置２６に表示された演奏画像Ｇを視認する演奏者Ｐは、表示体７４の降下から上昇への転換により自動演奏装置２４による発音のタイミングを把握することが可能である。

本実施形態の表示制御部５８は、以上に例示した演奏画像Ｇが表示されるように表示装置２６を制御する。なお、表示制御部５８が表示装置２６に画像の表示または変更を指示してから、表示装置２６による表示画像に当該指示が反映されるまでの遅延は、自動演奏装置２４による自動演奏の遅延量Ｄと比較して充分に小さい。そこで、表示制御部５８は、演奏対象曲のうち演奏解析部５４が推定した演奏位置Ｔ自体の演奏内容に応じた演奏画像Ｇを表示装置２６に表示させる。したがって、前述の通り、自動演奏装置２４による実際の発音（演奏制御部５６による指示から遅延量Ｄだけ遅延した時点）に同期して演奏画像Ｇが動的に変化する。すなわち、演奏対象曲の各音符の発音を自動演奏装置２４が実際に開始する時点で演奏画像Ｇの表示体７４の移動は降下から上昇に転換する。したがって、各演奏者Ｐは、自動演奏装置２４が演奏対象曲の各音符を発音する時点を視覚的に確認することが可能である。

図８は、自動演奏システム１００の制御装置１２の動作を例示するフローチャートである。例えば、所定の周期で発生する割込信号を契機として、複数の演奏者Ｐによる演奏対象曲の演奏に並行して図８の処理が開始される。図８の処理を開始すると、制御装置１２（合図検出部５２）は、複数の撮像装置２２２から供給される複数の画像信号Ｖ0を解析することで、任意の演奏者Ｐによる合図動作の有無を判定する（ＳA1）。また、制御装置１２（演奏解析部５４）は、複数の収音装置２２４から供給される複数の音響信号Ａ0の解析により演奏位置Ｔと演奏速度Ｒとを推定する（ＳA2）。なお、合図動作の検出（ＳA1）と演奏位置Ｔおよび演奏速度Ｒの推定（ＳA2）との順序は逆転され得る。

制御装置１２（演奏制御部５６）は、演奏位置Ｔおよび演奏速度Ｒに応じた自動演奏を自動演奏装置２４に対して指示する（ＳA3）。具体的には、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように自動演奏装置２４に演奏対象曲の自動演奏を実行させる。また、制御装置１２（表示制御部５８）は、自動演奏の進行を表現する演奏画像Ｇを表示装置２６に表示させる（ＳA4）。

以上に例示した実施形態では、演奏者Ｐによる合図動作と演奏位置Ｔの進行とに同期するように自動演奏装置２４による自動演奏が実行される一方、自動演奏装置２４による自動演奏の進行を表す演奏画像Ｇが表示装置２６に表示される。したがって、自動演奏装置２４による自動演奏の進行を演奏者Ｐが視覚的に確認して自身の演奏に反映させることが可能である。すなわち、複数の演奏者Ｐによる演奏と自動演奏装置２４による自動演奏とが相互に作用し合う自然な合奏が実現される。本実施形態では特に、自動演奏による演奏内容に応じて動的に変化する演奏画像Ｇが表示装置２６に表示されるから、演奏者Ｐが自動演奏の進行を視覚的および直観的に把握できるという利点がある。

また、本実施形態では、演奏解析部５４が推定した演奏位置Ｔに対して時間的に後方の時点ＴAの演奏内容が自動演奏装置２４に指示される。したがって、演奏制御部５６による演奏の指示に対して自動演奏装置２４による実際の発音が遅延する場合でも、演奏者Ｐによる演奏と自動演奏とを高精度に同期させることが可能である。また、演奏解析部５４が推定した演奏速度Ｒに応じた可変の調整量αだけ演奏位置Ｔに対して後方の時点ＴAの演奏が自動演奏装置２４に指示される。したがって、例えば演奏速度Ｒが変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。

＜楽曲データの更新＞
以上に例示した自動演奏システム１００で使用される楽曲データＭは、例えば図９に例示された楽曲データ処理装置２００により生成される。楽曲データ処理装置２００は、制御装置８２と記憶装置８４と収音装置８６とを具備する。制御装置８２は、例えばＣＰＵ等の処理回路であり、楽曲データ処理装置２００の各要素を統括的に制御する。記憶装置８４は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置８２が実行するプログラムと制御装置８２が使用する各種のデータとを記憶する。なお、楽曲データ処理装置２００とは別体の記憶装置８４（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置８２が記憶装置８４に対する書込および読出を実行してもよい。すなわち、記憶装置８４は楽曲データ処理装置２００から省略され得る。第１実施形態の記憶装置８４は、演奏対象曲の楽曲データＭを記憶する。収音装置８６は、単数または複数の演奏者による楽器の演奏で発音された音（例えば楽音または歌唱音）を収音して音響信号Ｘを生成する。

楽曲データ処理装置２００は、収音装置８６が生成した演奏対象曲の音響信号Ｘに応じて当該演奏対象曲の楽曲データＭを更新することで、演奏者による楽器の演奏の傾向を楽曲データＭに反映させるコンピュータシステムである。したがって、自動演奏システム１００による自動演奏の実行前（例えば演奏会のリハーサルの段階）に楽曲データ処理装置２００による楽曲データＭの更新が実行される。図９に例示される通り、記憶装置８４に記憶されたプログラムを実行することで、制御装置８２は、音響信号Ｘに応じて楽曲データＭを更新するための複数の機能（演奏解析部８２２および更新処理部８２４）を実現する。なお、制御装置８２の機能を複数の装置の集合（すなわちシステム）で実現した構成、または、制御装置８２の機能の一部または全部を専用の電子回路が実現した構成を採用してもよい。また、自動演奏システム１００の制御装置１２が演奏解析部８２２および更新処理部８２４として機能することで、楽曲データ処理装置２００を自動演奏システム１００に搭載してもよい。前述の演奏解析部５４を演奏解析部８２２として利用してもよい。

演奏解析部８２２は、記憶装置８４に記憶された楽曲データＭと収音装置８６が生成した音響信号Ｘとを対比することで、演奏対象曲のうち演奏者が現に演奏している演奏位置Ｔを推定する。演奏解析部８２２による演奏位置Ｔの推定には、第１実施形態の演奏解析部５４と同様の処理が好適に採用される。

更新処理部８２４は、演奏解析部８２２による演奏位置Ｔの推定結果に応じて、演奏対象曲の楽曲データＭを更新する。具体的には、更新処理部８２４は、演奏者による演奏の傾向（例えば演奏者に固有の演奏または歌唱の癖）が反映されるように楽曲データＭを更新する。例えば、演奏者による演奏のテンポ（以下「演奏テンポ」という）および音量（以下「演奏音量」という）の変化の傾向が楽曲データＭに反映される。すなわち、演奏者に特有の音楽的な表現を反映した楽曲データＭが生成される。

図９に例示される通り、更新処理部８２４は、第１更新部９１と第２更新部９２とを含んで構成される。第１更新部９１は、演奏テンポの傾向を楽曲データＭに反映させる。第２更新部９２は、演奏音量の傾向を楽曲データＭに反映させる。

図１０は、更新処理部８２４が実行する処理の内容を例示するフローチャートである。例えば利用者からの指示に応じて図１０の処理が開始される。処理を開始すると、第１更新部９１は、演奏テンポを楽曲データＭに反映させる処理（以下「第１更新処理」という）を実行する（ＳB1）。第２更新部９２は、演奏音量を楽曲データＭに反映させる処理（以下「第２更新処理」という）を実行する（ＳB2）。なお、第１更新処理ＳB1および第２更新処理ＳB2の順序は任意である。制御装置８２が第１更新処理ＳB1と第２更新処理ＳB2とを並列に実行してもよい。

＜第１更新部９１＞
図１１は、第１更新処理ＳB1の具体的な内容を例示するフローチャートである。第１更新部９１は、演奏解析部８２２が演奏位置Ｔを推定した結果から時間軸上の演奏テンポの遷移（以下「演奏テンポ遷移」という）Ｃを解析する（ＳB11）。具体的には、演奏位置Ｔの時間変化（具体的には単位時間毎の演奏位置Ｔの変化量）を演奏テンポとして演奏テンポ遷移Ｃが特定される。演奏テンポ遷移Ｃの解析は、演奏対象曲の複数回（Ｋ回）にわたる演奏の各々について実行される。すなわち、図１２に例示される通り、Ｋ個の演奏テンポ遷移Ｃが特定される。第１更新部９１は、演奏対象曲内の複数の時点の各々について、Ｋ個の演奏テンポの分散σP²を算定する（ＳB12）。図１２から理解される通り、任意の１個の時点における分散σP²は、Ｋ回の演奏における当該時点での演奏テンポが分布する範囲の指標（散布度）である。

記憶装置８４は、楽曲データＭが指定するテンポ（以下「基準テンポ」という）の分散σR²を、演奏対象曲内の複数の時点の各々について記憶する。分散σR²は、楽曲データＭが指定する基準テンポに対して許容されるべき誤差範囲（すなわち、許容されるテンポが分布する範囲）の指標であり、例えば楽曲データＭの作成者が事前に用意する。第１更新部９１は、演奏対象曲の複数の時点の各々について基準テンポの分散σR²を記憶装置８４から取得する（ＳB13）。

第１更新部９１は、演奏テンポの散布度の遷移（すなわち分散σP²の時系列）と、基準テンポの散布度の遷移（すなわち分散σR²の時系列）とに応じたテンポの軌跡となるように、演奏対象曲の楽曲データＭが指定する基準テンポを更新する（ＳB14）。更新後の基準テンポの決定には、例えばベイズ推定が好適に利用される。具体的には、第１更新部９１は、演奏対象曲のうち演奏テンポの分散σP²が基準テンポの分散σR²を下回る部分（σP²＜σR²）については、基準テンポと比較して演奏テンポを楽曲データＭに優先的に反映させる。すなわち、楽曲データＭが指定する基準テンポが演奏テンポに近付けられる。具体的には、演奏対象曲のうち演奏テンポの誤差が少ない傾向にある部分（すなわち分散σP²が小さい部分）については、演奏テンポを優先的に楽曲データＭに反映させることで演奏テンポの傾向が優先的に反映される。他方、演奏対象曲のうち演奏テンポの分散σP²が基準テンポの分散σR²を上回る部分（σP²＞σR²）については、演奏テンポと比較して基準テンポを楽曲データＭに優先的に反映させる。すなわち、楽曲データＭが指定する基準テンポが維持される方向に作用する。

以上の構成によれば、演奏者の実際の演奏の傾向（具体的には演奏テンポの変動の傾向）を楽曲データＭに反映させることが可能である。したがって、楽曲データ処理装置２００による処理後の楽曲データＭを自動演奏システム１００による自動演奏に利用することで、演奏者の演奏の傾向を反映した自然な演奏が実現される。

＜第２更新部９２＞
図１３は、第２更新部９２が実行する第２更新処理ＳB2の具体的な内容を例示するフローチャートであり、図１４は、第２更新処理ＳB2の説明図である。図１４に例示される通り、第２更新部９２は、音響信号Ｘから観測行列Ｚを生成する（ＳB21）。観測行列Ｚは、音響信号Ｘのスペクトログラムを表す。具体的には、観測行列Ｚは、図１４に例示される通り、時間軸上のＮ_ｔ個の時点にそれぞれ対応するＮ_ｔ個の観測ベクトルｚ(１)〜ｚ(Ｎ_ｔ)を横方向に配列したＮ_ｆ行Ｎ_ｔ列の非負行列である。任意の１個の観測ベクトルｚ(ｎ_ｔ)（ｎ_ｔ＝１〜Ｎ_ｔ）は、音響信号Ｘのうち時間軸上のｎ_ｔ番目の時点における強度スペクトル（振幅スペクトルまたはパワースペクトル）を表すＮ_ｆ次元のベクトルである。

記憶装置８４は、基底行列Ｈを記憶する。基底行列Ｈは、図１４に例示される通り、演奏対象曲内で演奏される可能性があるＮ_ｋ個の音符にそれぞれ対応するＮ_ｋ個の基底ベクトルｈ(１)〜ｈ(Ｎ_ｋ)を横方向に配列したＮ_ｆ行Ｎ_ｋ列の非負行列である。任意の１個の音符に対応する基底ベクトルｈ(ｎ_ｋ)（ｎ_ｋ＝１〜Ｎ_ｋ）は、当該音符に対応する演奏音の強度スペクトル（例えば振幅スペクトルまたはパワースペクトル）である。第２更新部９２は、記憶装置８４から基底行列Ｈを取得する（ＳB22）。

第２更新部９２は、係数行列Ｇを生成する（ＳB23）。係数行列Ｇは、図１４に例示される通り、係数ベクトルｇ(１)〜ｇ(Ｎ_ｋ)を縦方向に配列したＮ_ｋ行Ｎ_ｔ列の非負行列である。任意の１個の係数ベクトルｇ(ｎ_ｋ)は、基底行列Ｈ内の１個の基底ベクトルｈ(ｎ_ｋ)に対応した音符について音量の変化を示すＮ_ｔ次元のベクトルである。具体的には、第２更新部９２は、複数の音符の各々について時間軸上の音量（発音／消音）の遷移を表す初期的な係数行列Ｇ0を楽曲データＭから生成し、時間軸上で係数行列Ｇ0を伸縮することにより係数行列Ｇを生成する。具体的には、第２更新部９２は、演奏解析部８２２が演奏位置Ｔを推定した結果に応じて係数行列Ｇ0を時間軸上で伸縮することで、音響信号Ｘと同等の時間長にわたる各音符の音量の変化を表す係数行列Ｇを生成する。

以上の説明から理解される通り、任意の１個の音符に対応する基底ベクトルｈ(ｎ_ｋ)と係数ベクトルｇ(ｎ_ｋ)との積ｈ(ｎ_ｋ)ｇ(ｎ_ｋ)は、演奏対象曲内における当該音符のスペクトログラムに相当する。そして、基底ベクトルｈ(ｎ_ｋ)と係数ベクトルｇ(ｎ_ｋ)との積ｈ(ｎ_ｋ)ｇ(ｎ_ｋ)を複数の音符について加算した行列（以下「参照行列」という）Ｙは、演奏対象曲を楽曲データＭに沿って演奏した場合の演奏音のスペクトログラムに相当する。具体的には、参照行列Ｙは、図１４に例示される通り、演奏音の強度スペクトルを表すベクトルｙ(１)〜ｙ(Ｎ_ｔ)を横方向に配列したＮ_ｆ行Ｎ_ｔ列の非負行列である。

第２更新部９２は、以上に説明した参照行列Ｙが、音響信号Ｘのスペクトログラムを表す観測行列Ｚに近付くように、記憶装置８４に記憶された基底行列Ｈと楽曲データＭとを更新する（ＳB24）。具体的には、参照行列Ｙが観測行列Ｚに近付くように、楽曲データＭが各音符について指定する音量の変化が更新される。例えば、第２更新部９２は、観測行列Ｚと参照行列Ｙとの差異を表す評価関数が最小化されるように、基底行列Ｈと楽曲データＭ（係数行列Ｇ）を反復的に更新する。評価関数としては、観測行列Ｚと参照行列Ｙとの間のＫＬ距離（またはＩ-ダイバージェンス）が好適である。評価関数の最小化には、例えばベイズ推定（特に変分ベイズ法）が好適に利用される。

以上の構成によれば、演奏対象曲を演奏者が実際に演奏したときの演奏音量の変動の傾向を楽曲データＭに反映させることが可能である。したがって、楽曲データ処理装置２００による処理後の楽曲データＭを自動演奏システム１００による自動演奏に利用することで、演奏音量の傾向を反映した自然な演奏が実現される。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の実施形態では、合図検出部５２が検出した合図動作を契機として対象楽曲の自動演奏を開始したが、演奏対象曲の途中の時点における自動演奏の制御に合図動作を使用してもよい。例えば、演奏対象曲内で長時間にわたる休符が終了して演奏が再開される時点で、前述の各形態と同様に、合図動作を契機として演奏対象曲の自動演奏が再開される。例えば、図５を参照して説明した動作と同様に、演奏対象曲内で休符後に演奏が再開される時点に対して準備期間Ｂだけ手前の時点Ｑで特定の演奏者Ｐが合図動作を実行する。そして、遅延量Ｄと演奏速度Ｒとに応じた時間長δが当該時点Ｑから経過した時点で、演奏制御部５６は、自動演奏装置２４に対する自動演奏の指示を再開する。なお、演奏対象曲の途中の時点では既に演奏速度Ｒが推定されているから、時間長δの設定には、演奏解析部５４が推定した演奏速度Ｒが適用される。

ところで、演奏対象曲のうち合図動作が実行され得る期間は、演奏対象曲の演奏内容から事前に把握され得る。そこで、演奏対象曲のうち合図動作が実行される可能性がある特定の期間（以下「監視期間」という）を対象として合図検出部５２が合図動作の有無を監視してもよい。例えば、演奏対象曲に想定される複数の監視期間の各々について始点と終点とを指定する区間指定データが記憶装置１４に格納される。区間指定データを楽曲データＭに内包させてもよい。合図検出部５２は、演奏対象曲のうち区間指定データで指定される各監視期間内に演奏位置Ｔが存在する場合に合図動作の監視を実行し、演奏位置Ｔが監視期間の外側にある場合には合図動作の監視を停止する。以上の構成によれば、演奏対象曲のうち監視期間に限定して合図動作が検出されるから、演奏対象曲の全区間にわたり合図動作の有無を監視する構成と比較して合図検出部５２の処理負荷が軽減されるという利点がある。また、演奏対象曲のうち実際には合図動作が実行され得ない期間について合図動作が誤検出される可能性を低減することも可能である。

（２）前述の実施形態では、画像信号Ｖが表す画像の全体（図３）を解析することで合図動作を検出したが、画像信号Ｖが表す画像のうち特定の領域（以下「監視領域」という）を対象として、合図検出部５２が合図動作の有無を監視してもよい。例えば、合図検出部５２は、画像信号Ｖが示す画像のうち合図動作が予定されている特定の演奏者Ｐを含む範囲を監視領域として選択し、当該監視領域を対象として合図動作を検出する。監視領域以外の範囲については合図検出部５２による監視対象から除外される。以上の構成によれば、監視領域に限定して合図動作が検出されるから、画像信号Ｖが示す画像の全体にわたり合図動作の有無を監視する構成と比較して合図検出部５２の処理負荷が軽減されるという利点がある。また、実際には合図動作を実行しない演奏者Ｐの動作が合図動作と誤判定される可能性を低減することも可能である。

なお、前述の変形例（１）で例示した通り、演奏対象曲の演奏中に複数回にわたり合図動作が実行される場合を想定すると、合図動作を実行する演奏者Ｐが合図動作毎に変更される可能性もある。例えば、演奏対象曲の開始前の合図動作は演奏者Ｐ1が実行する一方、演奏対象曲の途中の合図動作は演奏者Ｐ2が実行する。したがって、画像信号Ｖが表す画像内で監視領域の位置（またはサイズ）を経時的に変更する構成も好適である。合図動作を実行する演奏者Ｐは演奏前に決定されるから、例えば監視領域の位置を時系列に指定する領域指定データが記憶装置１４に事前に格納される。合図検出部５２は、画像信号Ｖが表す画像のうち領域指定データで指定される各監視領域について合図動作を監視し、監視領域以外の領域については合図動作の監視対象から除外する。以上の構成によれば、合図動作を実行する演奏者Ｐが楽曲の進行とともに変更される場合でも、合図動作を適切に検出することが可能である。

（３）前述の実施形態では、複数の撮像装置２２２を利用して複数の演奏者Ｐを撮像したが、１個の撮像装置２２２により複数の演奏者Ｐ（例えば複数の演奏者Ｐが所在する舞台の全体）を撮像してもよい。同様に、複数の演奏者Ｐが演奏した音を１個の収音装置２２４により収音してもよい。また、複数の画像信号Ｖ0の各々について合図検出部５２が合図動作の有無を監視する構成（したがって、画像合成部５２２は省略され得る）も採用され得る。

（４）前述の実施形態では、撮像装置２２２が撮像した画像信号Ｖの解析で合図動作を検出したが、合図検出部５２が合図動作を検出する方法は以上の例示に限定されない。例えば、演奏者Ｐの身体に装着された検出器（例えば加速度センサ等の各種のセンサ）の検出信号を解析することで合図検出部５２が演奏者Ｐの合図動作を検出してもよい。ただし、撮像装置２２２が撮像した画像の解析により合図動作を検出する前述の実施形態の構成によれば、演奏者Ｐの身体に検出器を装着する場合と比較して、演奏者Ｐの演奏動作に対する影響を低減しながら合図動作を検出できるという利点がある。

（５）前述の実施形態では、相異なる楽器の音を表す複数の音響信号Ａ0を混合した音響信号Ａの解析により演奏位置Ｔおよび演奏速度Ｒを推定したが、各音響信号Ａ0の解析により演奏位置Ｔおよび演奏速度Ｒを推定してもよい。例えば、演奏解析部５４は、複数の音響信号Ａ0の各々について前述の実施形態と同様の方法で暫定的な演奏位置Ｔおよび演奏速度Ｒを推定し、各音響信号Ａ0に関する推定結果から確定的な演奏位置Ｔおよび演奏速度Ｒを決定する。例えば各音響信号Ａ0から推定された演奏位置Ｔおよび演奏速度Ｒの代表値（例えば平均値）が確定的な演奏位置Ｔおよび演奏速度Ｒとして算定される。以上の説明から理解される通り、演奏解析部５４の音響混合部５４２は省略され得る。

（６）前述の実施形態で例示した通り、自動演奏システム１００は、制御装置１２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、演奏対象曲を演奏する演奏者Ｐの合図動作を検出する合図検出部５２、演奏された音を表す音響信号Ａを当該演奏に並行して解析することで演奏対象曲内の演奏位置Ｔを順次に推定する演奏解析部５４、合図検出部５２が検出する合図動作と演奏解析部５４が推定する演奏位置Ｔの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置２４に実行させる演奏制御部５６、および、自動演奏の進行を表す演奏画像Ｇを表示装置２６に表示させる表示制御部５８、としてコンピュータを機能させる。すなわち、本発明の好適な態様に係るプログラムは、本発明の好適な態様に係る楽曲データ処理方法をコンピュータに実行させるプログラムである。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信してもよい。

（７）本発明の好適な態様は、前述の実施形態に係る自動演奏システム１００の動作方法（自動演奏方法）としても特定される。例えば、本発明の好適な態様に係る自動演奏方法は、コンピュータシステム（単体のコンピュータ、または複数のコンピュータで構成されるシステム）が、演奏対象曲を演奏する演奏者Ｐの合図動作を検出し（ＳA1）、演奏された音を表す音響信号Ａを当該演奏に並行して解析することで演奏対象曲内の演奏位置Ｔを順次に推定し（ＳA2）、合図動作と演奏位置Ｔの進行とに同期するように演奏対象曲の自動演奏を自動演奏装置２４に実行させ（ＳA3）、自動演奏の進行を表す演奏画像Ｇを表示装置２６に表示させる（ＳA4）。

（８）前述の実施形態では、演奏テンポおよび演奏音量の双方を楽曲データＭに反映させたが、演奏テンポおよび演奏音量の一方のみを楽曲データＭに反映させてもよい。すなわち、図９に例示された第１更新部９１および第２更新部９２の一方を省略してもよい。

（９）以上に例示した形態から、例えば以下の構成が把握される。
［態様Ａ１］
本発明の好適な態様（態様Ａ１）に係る楽曲データ処理方法は、演奏音を表す音響信号の解析により楽曲内の演奏位置を推定し、複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新し、前記楽曲データの更新においては、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する。以上の態様によれば、実際の演奏（例えばリハーサル）における演奏テンポの傾向を楽曲データに反映させることが可能である。
［態様Ａ２］
態様１の好適例（態様Ａ２）において、音符に対応する演奏音のスペクトルを表す基底ベクトルと、前記楽曲データが当該音符について指定する音量の変化を表す係数ベクトルとの積を、複数の音符について加算した参照行列が、前記音響信号のスペクトログラムを表す観測行列に近付くように、前記各音符の基底ベクトルと、前記楽曲データが各音符について指定する音量の変化とを更新する。以上の態様によれば、実際の演奏における演奏音量の傾向を楽曲データに反映させることが可能である。
［態様Ａ３］
態様２の好適例（態様Ａ３）において、前記音量の変化の更新では、前記楽曲データが各音符について指定する音量の変化を、前記演奏位置を推定した結果に応じて時間軸上で伸縮し、前記伸縮後の前記音量の変化を表す前記係数行列を利用する。以上の態様では、楽曲データが各音符について指定する音量の変化を、演奏位置の推定結果に応じて伸縮した係数行列が利用される。したがって、演奏テンポが変動した場合でも、実際の演奏における演奏音量の傾向を楽曲データに適切に反映させることが可能である。
［態様Ａ４］
本発明の好適な態様（態様Ａ４）に係るプログラムは、コンピュータを、演奏音を表す音響信号の解析により楽曲内の演奏位置を推定する演奏解析部、および、複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新する第１更新部として機能させるプログラムであって、前記第１更新部は、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する。以上の態様によれば、実際の演奏（例えばリハーサル）における演奏テンポの傾向を楽曲データに反映させることが可能である。

（１０）前述の形態で例示した自動演奏システムについて、例えば以下の構成が把握される。
［態様Ｂ１］
本発明の好適な態様（態様Ｂ１）に係る自動演奏システムは、楽曲を演奏する演奏者の合図動作を検出する合図検出部と、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定する演奏解析部と、合図検出部が検出する合図動作と演奏解析部が推定する演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させる演奏制御部と、自動演奏の進行を表す画像を表示装置に表示させる表示制御部とを具備する。以上の構成では、演奏者による合図動作と演奏位置の進行とに同期するように自動演奏装置による自動演奏が実行される一方、自動演奏装置による自動演奏の進行を表す画像が表示装置に表示される。したがって、自動演奏装置による自動演奏の進行を演奏者が視覚的に確認して自身の演奏に反映させることが可能である。すなわち、演奏者による演奏と自動演奏装置による自動演奏とが相互に作用し合う自然な演奏が実現される。
［態様Ｂ２］
態様Ｂ１の好適例（態様Ｂ２）において、演奏制御部は、楽曲のうち演奏解析部が推定した演奏位置に対して後方の時点の演奏を自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏位置に対して時間的に後方の時点の演奏内容が自動演奏装置に指示される。したがって、演奏制御部による演奏の指示に対して自動演奏装置による実際の発音が遅延する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
［態様Ｂ３］
態様Ｂ２の好適例（態様Ｂ３）において、演奏解析部は、音響信号の解析により演奏速度を推定し、演奏制御部は、楽曲のうち、演奏解析部が推定した演奏位置に対して演奏速度に応じた調整量だけ後方の時点の演奏を、自動演奏装置に指示する。以上の態様では、演奏解析部が推定した演奏速度に応じた可変の調整量だけ演奏位置に対して後方の時点の演奏が自動演奏装置に指示される。したがって、例えば演奏速度が変動する場合でも、演奏者による演奏と自動演奏とを高精度に同期させることが可能である。
［態様Ｂ４］
態様Ｂ１から態様Ｂ３の何れかの好適例（態様Ｂ４）において、合図検出部は、撮像装置が演奏者を撮像した画像の解析により合図動作を検出する。以上の態様では、撮像装置が撮像した画像の解析により演奏者の合図動作が検出されるから、例えば演奏者の身体に装着した検出器により合図動作を検出する場合と比較して、演奏者による演奏に対する影響を低減しながら合図動作を検出できるという利点がある。
［態様Ｂ５］
態様Ｂ１から態様Ｂ４の何れかの好適例（態様Ｂ５）において、表示制御部は、自動演奏による演奏内容に応じて動的に変化する画像を表示装置に表示させる。以上の態様では、自動演奏による演奏内容に応じて動的に変化する画像が表示装置に表示されるから、演奏者が自動演奏の進行を視覚的および直観的に把握できるという利点がある。
［態様Ｂ６］
本発明の好適な態様（態様Ｂ６）に係る自動演奏方法は、コンピュータシステムが、楽曲を演奏する演奏者の合図動作を検出し、演奏された音を表す音響信号を当該演奏に並行して解析することで楽曲内の演奏位置を順次に推定し、合図動作と演奏位置の進行とに同期するように楽曲の自動演奏を自動演奏装置に実行させ、自動演奏の進行を表す画像を表示装置に表示させる。

＜詳細な説明＞
本発明の好適な態様は、以下のように表現され得る。
１．前提
自動演奏システムとは、人間の演奏に対し、機械が合わせて伴奏を生成するシステムである。ここでは、クラシック音楽のように、自動演奏システムと人間それぞれが弾くべき楽譜表現が与えられている自動演奏システムについて論じる。このような自動演奏システムは、音楽演奏の練習支援、および、演奏者に合わせてエレクトロニクスを駆動するような音楽の拡張表現など、幅広い応用がある。なお、以下では、合奏エンジンが演奏するパートのことを「伴奏パート」と呼ぶ。音楽的に整合した合奏を行うためには、伴奏パートの演奏タイミングを適切に制御することが必要である。適切なタイミング制御には、以下に記載する４つの要求がある。

［要求１］原則として、自動演奏システムは、人間の奏者が弾いている場所を弾く必要がある。したがって、自動演奏システムは、再生する楽曲の位置を、人間の演奏者に合わせる必要がある。特にクラシック音楽では、演奏速度(テンポ)の抑揚が音楽表現上重要であるため、演奏者のテンポ変化を追従する必要がある。また、より精度が高い追従を行うために、演奏者の練習(リハーサル)を解析することで、演奏者のクセを獲得することが好ましい。

［要求２］自動演奏システムは、音楽的に整合した演奏を生成すること。つまり、伴奏パートの音楽性が保たれる範囲内で人間の演奏を追従する必要がある。

［要求３］楽曲のコンテキストに応じて、伴奏パートが演奏者に合わせる度合い（主従関係）を変えることが可能であること。楽曲中には、音楽性を多少損なってでも人に合わせるべき場所、または、追従性を損なっても伴奏パートの音楽性を保持すべき場所がある。従って、要件１と要件２でそれぞれ述べた「追従性」と「音楽性」のバランスは楽曲のコンテキストにより変わる。たとえば、リズムが不明瞭なパートは、リズムをよりはっきり刻むパートに追従する傾向がある。

［要求４］演奏者の指示によって、即座に主従関係を変えることが可能であること。追従性と自動演奏システムの音楽性のトレードオフは、リハーサル中に人間同士が対話を通じて調整することが多い。また、このような調整を行った場合、調整を行った箇所を弾き直すことで、調整結果を確認する。したがって、リハーサル中に追従性の挙動を設定できる自動演奏システムが必要である。

これらの要求を同時に満たすためには、演奏者が演奏している位置を追従した上で、音楽的に破綻しないように伴奏パートを生成する必要がある。これらを実現するためには、自動演奏システムは、(1)演奏者の位置を予測するモデル、(2)音楽的な伴奏パートを生成するためのタイミング生成モデル、(3)主従関係を踏まえ、演奏タイミングを補正するモデル、の三要素が必要となる。また、これらの要素は独立して操作もしくは学習できる必要がある。しかし、従来はこれらの要素を独立に扱うことが難しかった。そこで、以下の説明では、(1)演奏者の演奏タイミング生成過程、(2)自動演奏システムが音楽的に演奏できる範囲を表現した演奏タイミング生成過程、(3)自動演奏システムが主従関係を持ちながら演奏者に合わせるための、自動演奏システムと演奏者の演奏タイミングを結合する過程、これら三要素を独立にモデル化し、統合することを考える。独立に表現することにより、個々の要素を独立に学習したり、操作することが可能になる。システム使用時には、演奏者のタイミング生成過程を推論しながら、自動演奏システムが演奏できるタイミングの範囲を推論し、合奏と演奏者のタイミングを協調させるように伴奏パートを再生する。これにより、自動演奏システムは音楽的に破綻しない合奏を、人間に合わせながら演奏することが可能になる。

２．関連技術
従来の自動演奏システムでは、楽譜追従を用いることで演奏者の演奏タイミングを推定する。その上で、合奏エンジンと人間を協調させるため、大きく分けて二つのアプローチが用いられる。第一に、多数のリハーサルを通じて演奏者と合奏エンジンの演奏タイミングに対する関係性を回帰することで、楽曲における平均的な挙動、もしくは時々刻々と変化する挙動、を獲得することが提案されている。このようなアプローチでは、合奏の結果自体を回帰するため、結果的に伴奏パートの音楽性と、伴奏パートの追従性を同時に獲得できる。一方、演奏者のタイミング予測、合奏エンジンの生成過程と、合わせる度合いを切り分けて表現することが難しいため、リハーサル中に追従性または音楽性を独立に操作することは難しいと考えられる。また、音楽的な追従性を獲得するためには、人間同士の合奏データを別途解析する必要があるため、コンテンツ整備にコストがかかる。第二に、少ないパラメータで記述される動的システムを用いることでテンポ軌跡に対して制約を設けるアプローチがある。このアプローチでは、テンポの連続性といった事前情報を設けた上で、リハーサルを通じて演奏者のテンポ軌跡などを学習する。また、伴奏パートは伴奏パートの発音タイミングを別途学習できる。これらは少ないパラメータでテンポ軌跡を記述するため、リハーサル中に伴奏パートまたは人間の「癖」を容易に手動で上書きできる。しかし、追従性を独立に操作することは難しく、追従性は演奏者と合奏エンジンそれぞれが独立に演奏した時における発音タイミングのばらつきから間接的に得られていた。リハーサル中における瞬発力を高めるためには、自動演奏システムによる学習と、自動演奏システムと演奏者との対話を交互に行うことが有効と考えられる。そこで、追従性を独立に操作するため、合奏再生ロジック自体を調整する方法が提案されている。本手法では、このようなアイディアに基づき、「合わせ方」「伴奏パートの演奏タイミング」「演奏者の演奏タイミング」を独立かつ対話的に制御できるような数理モデルを考える。

３．システムの概要
自動演奏システムの構成を図１５に示す。本手法では、演奏者の位置を追従するために、音響信号とカメラ映像に基づき楽譜追従を行う。また、楽譜追従の事後分布から得られた統計情報を元に、演奏者の演奏している位置の生成過程に基づき、演奏者の位置を予測する。伴奏パートの発音タイミングを決定するためには、演奏者のタイミングを予測モデルと、伴奏パートが取りうるタイミングの生成過程を結合することで、伴奏パートのタイミングを生成する。

４．楽譜追従
演奏者が現在弾いている楽曲中の位置を推定するために、楽譜追従を用いる。本システムの楽譜追従手法では、楽譜の位置と演奏されているテンポを同時に表現する離散的な状態空間モデルを考える。観測音を状態空間上の隠れマルコフ過程(hidden Markov model;ＨＭＭ)としてモデル化し、状態空間の事後分布をdelayed-decision型のforward-backwardアルゴリズムで逐次推定する。delayed-decision型のfoward-backwardアルゴリズムとは、forwardアルゴリズムを逐次実行し、現在の時刻がデータの終端と見なしbackwardアルゴリズムを走らせることで、現在の時刻より数フレーム前の状態に対する事後分布を算出することを言う。事後分布のＭＡＰ値が楽譜上でオンセットとみなされる位置を通過した時点で、事後分布のラプラス近似を出力する。

状態空間の構造に関して述べる。まず、楽曲をＲ個の区間に分け、それぞれの区間を一つの状態とする。ｒ番目の区間では、その区間を通過するのに必要なフレーム数ｎと、それぞれのｎに対し、現在の経過フレーム０≦１＜ｎを状態変数として持つ。つまり、ｎはある区間のテンポに相当し、ｒとｌを組み合わせたものが楽譜上の位置に相当する。このような状態空間上の遷移を、次のようなマルコフ過程として表現する。

このようなモデルは、explicit-duration HMMとleft-to-right HMMとの双方の特長を兼備する。すなわち、ｎの選択により、区間内の継続長を大まかに決めつつも、区間内における微小なテンポ変動を自己遷移確率ｐで吸収できる。区間の長さまたは自己遷移確率は、楽曲データを解析して求める。具体的には、テンポ指令、またはフェルマータといったアノテーション情報を活用する。

次に、このようなモデルの観測尤度を定義する。それぞれの状態（ｒ,ｎ,ｌ）には、ある楽曲中の位置~ｓ(ｒ,ｎ,ｌ)が対応している。また、楽曲中における任意の位置ｓに対して、観測される定Ｑ変換(ＣＱＴ)とΔＣＱＴの平均値/~ｃ_s ²と/Δ~ｃ_s ²とに加え、精度κ_s ^(c)とκ_s ^(Δc)とがそれぞれ割り当てられる（記号/はベクトルを意味し、記号~は数式内のオーバーラインを意味する）。これらに基づき、時刻tにおいて、ＣＱＴ，ｃ_t，ΔＣＱＴ，Δｃ_tを観測したとき、状態（ｒ_t,ｎ_t,ｌ_t）に対応する観測尤度を以下のように定義する。

ここで、ｖＭＦ(x|μ,κ)とはvon Mises-Fisher分布を指し、具体的には、ｘ∈Ｓ^D（ＳD：Ｄ−１次元単位球面）となるよう正規化して以下の数式で表現される。

~ｃまたはΔ~ｃを決める際には、楽譜表現のピアノロールと、各音から想定されるＣＱＴのモデルを用いる。まず楽譜上に存在する音高と楽器名のペアに対して固有のインデックスｉを割り当てる。また、ｉ番目の音に対して、平均的な観測ＣＱＴω_ifを割り当てる。楽譜上の位置sにおいて、ｉ番目の音の強度をｈ_siと置くと、~ｃ_s,fは次のように与えられる。Δ~ｃは、~ｃ_s,fに対してs方向に一次差分を取り、半波整流することで得られる。

無音の状態から楽曲を開始する際には、視覚情報がより重要になる。そこで、本システムでは、前述の通り、演奏者の前に配置されたカメラから検出された合図動作（キュー）を活用する。本手法では、自動演奏システムをトップダウンに制御するアプローチとは異なり、観測尤度に直接に合図動作の有無を反映させることで、音響信号と合図動作を統一的に扱う。そこで、まず楽譜情報に合図動作が必要とされる箇所｛^ｑ_i｝を抽出する。^ｑ_iには、楽曲の開始地点またはフェルマータの位置が含まれる。楽譜追従を実行中に合図動作を検出した場合、楽譜上の位置Ｕ[^ｑ_i−Τ,^ｑ_i]に対応する状態の観測尤度を０にすることで、合図動作の位置以降に事後分布を誘導する。楽譜追従により、合奏エンジンは、楽譜上で音が切り替わった位置から数フレーム後に、現在推定される位置またはテンポの分布を正規分布として近似したものを受け取る。すなわち、楽譜追従エンジンは、楽曲データ上に存在するn番目の音の切り替わり(以下「オンセットイベント」という)を検出したら、そのオンセットイベントが検出された時刻のタイムスタンプｔ_nと、推定された楽譜上の平均位置μ_nとその分散σ_n ²を合奏タイミング生成部に通知する。なお、delayed-decision型の推定を行うため、通知自体には１００ｍｓの遅延が生じる。

５．演奏タイミング結合モデル
合奏エンジンは、楽譜追従から通知された情報(ｔ_n,μ_n,σ_n ²)を元に、適切な合奏エンジンの再生位置を計算する。合奏エンジンが演奏者に合わせるためには、(1)演奏者が演奏するタイミングの生成過程、(2)伴奏パートが演奏するタイミングの生成過程、(3)演奏者を聞きながら伴奏パートが演奏する過程の三つを独立にモデル化することが好ましい。このようなモデルを使い、伴奏パート生成したい演奏タイミングと、演奏者の予測位置を加味しながら、最終的な伴奏パートのタイミングを生成する。

５.１演奏者の演奏タイミング生成過程
演奏者の演奏タイミングを表現するため、演奏者が、ｔ_nとｔ_n+1の間で楽譜上の位置を、速度ｖ_n ^(p)で直線運動していると仮定する。すなわち、ｘ_n ^(p)をｔ_nでの演奏者が弾いている楽譜上の位置とし、ε_n ^(p)を速度または楽譜上の位置に対するノイズとし、次のような生成過程を考える。ただし、ΔＴ_m,n＝ｔ_m−ｔ_nとする。

ノイズε_n ^(p)は、テンポの変化に加え、アゴーギクまたは発音タイミング誤差が含まれる。前者を表すためには、テンポ変化に応じて発音タイミングも変わることを踏まえ、ｔ_nとｔ_n-1の間を、分散ψ²の正規分布から生成された加速度で遷移するモデルを考える。すると、ε_n ^(p)の共分散行列は、ｈ＝[ΔＴ_n,n-1 ²／２,ΔＴ_n,n-1]とすると、Σ_n ^(p)＝ψ²ｈ’ｈと与えられ、テンポ変化と発音タイミング変化が相関するようになる。また、後者を表すため、標準偏差σ_n ^(p)の白色雑音を考え、σ_n ^(p)をΣ_n,0,0 ^(p)に加算する。したがって、σ_n ^(p)をΣ_n,0,0 ^(p)に加算した行列をΣ_n ^(p)とすると、ε_n ^(p)〜Ｎ(０,Σ_n ^(p))と与えられる。Ｎ(a,b)は、平均ａおよび分散ｂの正規分布を意味する。

次に、楽譜追従システムが報告する、ユーザの演奏タイミングの履歴/μ_n＝[μ_n,μ_n-1,…,μ_n-In]と/σ_n ²＝[σ_n,σ_n-1,…,σ_n-In]を、式(3)および式(4)と結びつけることを考える。ここで、Ｉ_nは、考慮する履歴の長さであり、ｔ_nよりも１拍前のイベントまでを含むように設定される。このような/μ_nおよび/σ_n ²の生成過程を次のように定める。

ここで、/Ｗ_nは、ｘ_n ^(p)とｖ_n ^(p)から観測/μ_nを予測するための回帰係数である。ここでは、/Ｗ_nを以下のように定義する。

従来のように、観測値として直近のμ_nを使うのではなく、それ以前の履歴も用いることにより、楽譜追従が一部で失敗しても動作が破綻しにくくなると考えられる。また、/Ｗ_nをリハーサルを通じて獲得することも可能であると考えられ、テンポの増減のパターンといった、長時間の傾向に依存する演奏法にも追従ができるようになると考えられる。このようなモデルは、テンポと楽譜上の位置変化の関係性を明記するという意味では、トラジェクトリＨＭＭのコンセプトを連続状態空間に適用したものに相当する。

５.２伴奏パートの演奏タイミング生成過程
前述したような、演奏者のタイミングモデルを使うことで、演奏者の内部状態［ｘ_n ^(p),ｖ_n ^(p)］を、楽譜追従が報告した位置の履歴から推論することができる。自動演奏システムは、このような推論と、伴奏パートがどのように「弾きたいか」というクセを協調させながら、最終的な発音タイミングを推論する。そこで、ここでは伴奏パートがどのように「弾きたいか」という、伴奏パートにおける演奏タイミングの生成過程について考える。

伴奏パートの演奏タイミングでは、与えられたテンポ軌跡から一定の範囲内のテンポ軌跡で演奏される過程を考える。与えられるテンポ軌跡とは、演奏表情付けシステムまたは人間の演奏データを使うことが考えられる。自動演奏システムがｎ番目のオンセットイベントを受け取ったときに、楽曲上のどの位置を弾いているかの予測値^ｘ_n ^(a)とその相対速度^ｖ_n ^(a)を次のように表現する。

ここで、~ｖ_n ^(a)とは時刻ｔ_nで報告された楽譜上の位置ｎにおいて事前に与えたテンポであり、事前に与えたテンポ軌跡を代入する。また、ε^(a)は、事前に与えたテンポ軌跡から生成された演奏タイミングに対して許容される逸脱の範囲を定める。このようなパラメータにより、伴奏パートとして音楽的に自然な演奏の範囲を定める。β∈［０,１］とは事前に与えたテンポにどれだけ強く引き戻そうとするかを表す項であり、テンポ軌跡を~ｖ_n ^(a)に引き戻そうとする効果がある。このようなモデルはオーディオアラインメントにおいて一定の効果があるため、同一楽曲を演奏するタイミングの生成過程として妥当性があると示唆される。なお、このような制約がない場合（β＝１）、^ｖはウィナー過程に従うため、テンポが発散し、極端に速かったり遅い演奏が生成されうる。

５.３演奏者と伴奏パートの演奏タイミング結合過程
ここまでは、演奏者の発音タイミングと、伴奏パートの発音タイミングをそれぞれ独立にモデル化した。ここでは、これらの生成過程を踏まえた上で、演奏者を聞きながら、伴奏パートが「合わせる」過程について述べる。そこで、伴奏パートが人に合わせる際、伴奏パートが現在弾こうとする位置の予測値と、演奏者の現在位置の予測値の誤差を徐々に補正するような挙動を記述することを考える。以下では、このような、誤差を補正する程度を記述した変数を「結合係数」と呼ぶ。結合係数は、伴奏パートと演奏者の主従関係に影響される。例えば、演奏者が伴奏パートよりも明瞭なリズムを刻んでいる場合、伴奏パートは演奏者に強めに合わせること多い。また、リハーサル中に主従関係を演奏者から指示された場合は、指示されたように合わせ方を変える必要がある。つまり、結合係数は、楽曲のコンテキストまたは演奏者との対話に応じて変わる。そこで、ｔ_nを受け取った際の楽譜位置における結合係数γ_n∈［０,１］が与えられたとき、伴奏パートが演奏者に合わせる過程を以下のように記述する。

このモデルでは、γ_nの大小に応じて、追従度合いが変わる。例えば、γ_n＝０の時は、伴奏パートは演奏者に一切合わせず、γ_n＝１の時は、伴奏パートは演奏者に完璧に合わせようとする。このようなモデルでは、伴奏パートが演奏しうる演奏^ｘ_n ^(a)の分散と、演奏者の演奏タイミングｘ_n ^(p)における予測誤差も結合係数によって重み付けられる。そのため、ｘ^(a)またはｖ^(a)の分散は演奏者の演奏タイミング確率過程自体と、伴奏パートの演奏タイミング確率過程自体が協調されたものになる。そのため、演奏者と自動演奏システム、両者が「生成したい」テンポ軌跡を自然に統合できていることがわかる。

β＝０.９における、本モデルのシミュレーションを図１６に示す。このようにγを変えることで、伴奏パートのテンポ軌跡(正弦波)と、演奏者のテンポ軌跡(ステップ関数)の間を補完できることが分かる。また、βの影響により、生成されたテンポ軌跡は、演奏者のテンポ軌跡よりも伴奏パートの目標とするテンポ軌跡に近づけるようになっていることが分かる。つまり、~ｖ^(a)よりも演奏者が速い場合は演奏者を「引っ張り」、遅い場合は演奏者を「急かす」ような効果があると考えられる。

５.４結合係数γの算出方法
結合係数γ_nに表すような演奏者同士の同期度合いは、いくつかの要因により設定される。まず、楽曲中のコンテキストに主従関係が影響される。例えば、合奏をリードするのは、分かりやすいリズムを刻むパートであることが多い。また、対話を通じて主従関係を変えることもある。楽曲中のコンテキストから主従関係を設定するため、楽譜情報から、音の密度φ_n＝［伴奏パートに対する音符密度の移動平均、演奏者パートに対する音符密度の移動平均］を算出する。音の数が多いパートの方が、テンポ軌跡を決めやすいため、このような特徴量を使うことで近似的に結合係数を抽出できると考えられる。このとき、伴奏パートが演奏を行っていない場合（φ_n,0＝０）、合奏の位置予測は演奏者に完全に支配され、また、演奏者が演奏を行わない箇所（φ_n,1＝０)では、合奏の位置予測は演奏者を完全に無視するような挙動が望ましい。そこで、次のようにγ_nを決定する。

ただし、ε＞０は十分に小さい値とする。人間同士の合奏では、完全に一方的な主従関係（γ_n＝０またはγ_n＝１）は発生しにくいのと同様に、上式のようなヒューリスティックは、演奏者と伴奏パートどちらも演奏している場合は完全に一方的な主従関係にはならない。完全に一方的な主従関係は、演奏者・合奏エンジンどちらかがしばらく無音である場合のみ起こるが、このような挙動はむしろ望ましい。

また、γ_nはリハーサル中など、必要に応じて、演奏者またはオペレータが上書きすることができる。γ_nの定義域が有限であり、かつその境界条件での挙動が自明であること、または、γ_nの変動に対し挙動が連続的に変化することは、リハーサル中に適切な値を人間が上書きする上で望ましい特性であると考えられる。

５.５オンライン推論
自動演奏システムの運用時は、（ｔ_n,μ_n,σ_n ²）を受け取ったタイミングで、前述の演奏タイミングモデルの事後分布を更新する。提案手法はカルマンフィルタを用いて効率的に推論することができる。（ｔ_n,μ_n,σ_n ²）が通知された時点でカルマンフィルタのpredictとupdateステップを実行し、時刻ｔにおいて伴奏パートが演奏すべき位置を以下のように予測する。

ここでτ^(s)とは、自動演奏システムにおける入出力遅延である。なお、本システムでは、伴奏パート発音時にも状態変数を更新する。つまり、前述したように、楽譜追従結果に応じてpredict/updateステップを実行することに加え、伴奏パートが発音した時点で、predictステップのみを行い、得られた予測値を状態変数に代入する。

６．評価実験
本システムを評価するため、まず演奏者の位置推定精度を評価する。合奏のタイミング生成に関しては、合奏のテンポを規定値に引き戻そうとする項であるβ、または、伴奏パートを演奏者にどれだけ合わせるかの指標であるγの有用性を、演奏者へのヒアリングを行うことで評価する。

６.１楽譜追従の評価
楽譜追従精度の評価を行うため、Bergmullerのエチュードに対する追従精度を評価した。評価データとして、Bergmullerのエチュード(Op.100)のうち、14曲(1番，4番-10番，14番，15番，19番，20番，22番，23番)をピアニストが演奏したデータを収録したものを使い、譜面追従精度を評価した。なお、この実験ではカメラの入力は使用しなかった。評価尺度にはＭＩＲＥＸに倣い、Total precisionを評価した。Total precisionとは、アラインメントの誤差がある閾値τに収まる場合を正解とした場合の、コーパス全体に対する精度を示す。

まず、delayed-decision型の推論に関する有用性を検証するため、delayed-decision forward backwardアルゴリズムにおける遅延フレーム量に対するtotal precision(τ＝３００ｍｓ)を評価した。結果を図１７に示す。数フレーム前の結果の事後分布を活用することで精度が上がることが分かる。また、遅延量が２フレームを超えると精度は徐々に下がることも分かる。また、遅延量２フレームの場合、τ＝１００ｍｓでtotal precision＝８２％、τ＝５０ｍｓで６４％であった。

６.２演奏タイミング結合モデルの検証
演奏タイミング結合モデルの検証は、演奏者へのヒアリングを通じて行った。本モデルの特徴としては、合奏エンジンが想定テンポに引き戻そうとするβと、結合係数γの存在であり、これら両者についての有効性を検証した。

まず、結合係数の影響を外すため、式(4)をｖ_n ^(p)＝βｖ_n-1 ^(p)＋(１−β)~ｖ_n ^(a)とし、ｘ_n ^(a)＝ｘ_n ^(p)、ｖ_n ^(a)＝ｖ_n ^(p)としたシステムを用意した。つまり、テンポの期待値が^ｖにあり、その分散がβにより制御されるようなダイナミクスを仮定しながら、楽譜追従の結果をフィルタリングした結果を直接伴奏の演奏タイミング生成に使うような合奏エンジンを考えた。まず、β＝０に設定した場合の自動演奏システムを、ピアニスト６名に一日間利用してもらったあと、使用感に関してヒアリングを行った。対象曲はクラシック・ロマン派・ポピュラーなど幅広いジャンルの曲から選曲した。ヒアリングでは、合奏に人間が合わせようとすると、伴奏パートも人間に合わせようとし、テンポが極端に遅くなったり速くなるという不満が支配的であった。このような現象は、式(12)におけるτ^(s)が不適切に設定されていることにより、システムの応答が演奏者と微妙に合わない場合に発生する。例えば、システムの応答が想定よりも少し早い場合、ユーザは少し早めに返されるシステムに合わせようとするため、テンポを上げる。その結果、そのテンポに追従するシステムが更に早めに応答を返すことで、テンポが加速し続ける。

次に、β＝０.１で同じ曲目を使って別のピアニスト５名と、β＝０の実験にも参加したピアニスト１名で実験を行った。β＝０の場合と同じ質問内容でヒアリングを行ったが、テンポが発散する問題は聞かれなかった。また、β＝０でも実験に協力したピアニストからも追従性が改善しているというコメントがあった。ただし、演奏者がある曲に対して想定しているテンポと、システムが引き戻そうとするテンポに大きな齟齬がある場合、システムがもたつく・急かす、といったコメントが聞かれた。この傾向は特に未知の曲を弾く場合、つまり演奏者が「常識的な」テンポを知らない場合、において見られた。このことから、システムが一定のテンポに引き込もうとする効果により、テンポの発散を未然に防ぐ一方で、伴奏パートとテンポに関する解釈が極端に異なる場合、伴奏パートに煽られるような印象を受けることが示唆された。また、追従性に関しては、楽曲のコンテキストに応じて変えたほうがよいことも示唆された。なぜならば、楽曲の特性よって「引っ張ってもらったほうがいい」「もっと合わせて欲しい」といった、合わせ方の度合いに関する意見がほぼ一貫したためである。

最後に、プロの弦カルテットにγ＝０に固定したシステムと、演奏のコンテキストに応じてγを調整したシステムを使ってもらったところ、後者の方が挙動が良いというコメントがあり、その有用性が示唆された。ただし、この検証では後者のシステムが改善後のシステムであることを被験者が知っていたため、好適にはＡＢ法などを使い追加検証する必要がある。また、リハーサル中の対話に応じてγを変更する局面がいくつか存在したため、結合係数をリハーサル中で変更することが有用であると示唆された。

７．事前の学習処理
演奏者の「癖」を獲得するため、楽譜追従から算出された時刻ｔでのＭＡＰ状態^ｓ_tと、その入力特徴系列｛ｃ_t｝^T _t=1をもとに、ｈ_siとω_ifおよびテンポ軌跡を推定する。ここでは、これらの推定方法について簡単に述べる。ｈ_siとω_ifの推定においては、次のようなPoisson-Gamma 系のInformed NMFモデルを考え、事後分布を推定する。

ここで現れる超パラメータは楽器音データベースまたは楽譜表現のピアノロールから適当に算出する。事後分布は、変分ベイズ法で近似的に推定する。具体的には、事後分布ｐ(ｈ,ω|c)をｑ(h)ｑ(w)という形で近似し、事後分布とｑ(h)ｑ(w)の間のＫＬ距離を、補助変数を導入しながら最小化する。このようにして推定された事後分布から、楽器音の音色に相当するパラメータωのＭＡＰ推定を保存し、以降のシステム運用で使う。なお、ピアノロールの強さに相当するｈを使うことも可能である。

続いて、演奏者がそれぞれの楽曲上の区間を演奏する長さ(すなわちテンポ軌跡)を推定する。テンポ軌跡を推定すると演奏者特有のテンポ表現を復元できるため、演奏者の位置予測が改善される。一方、リハーサルの回数が少ない場合は推定誤差などによりテンポ軌跡の推定が誤り、位置予測の精度がむしろ悪化する可能性もある。そこで、テンポ軌跡を変更する際には、テンポ軌跡に関する事前情報をまず持たせ、演奏者のテンポ軌跡が事前情報から一貫して逸脱している場所のテンポのみを変えることを考える。まず、演奏者のテンポがどれだけばらつくかを計算する。ばらつき度合いの推定値自体もリハーサルの回数が少ないと不安定になるため、演奏者のテンポ軌跡の分布自体にも事前分布を持たせる。演奏者が楽曲中の位置ｓにおけるテンポの平均μ_s ^(p)と分散λ_s ^(p)とがＮ(μ_s ^(p)|ｍ₀,ｂ₀λ_s ^(p)-1)Gamma(λ_s ^(p)-1|ａ₀ ^λ,ｂ₀ ^λ)に従うとする。すると、Ｋ回の演奏から得られたテンポの平均がμ_s ^(R)、精度（分散）がλ_s ^(R)-1であったとすると、テンポの事後分布は以下のように与えられる。

このようにして得られた事後分布を、楽曲中の位置ｓで取りうるテンポの分布Ｎ(μ_s ^S,λ_s ^S-1)から生成された分布とみなした場合の事後分布を求めると、その平均値は以下のように与えられる。

このようにして算出されたテンポを元に、式(3)または式(4)で用いられるεの平均値を更新する。

１００…自動演奏システム、１２…制御装置、１４…記憶装置、２２…収録装置、２２２…撮像装置、２２４…収音装置、２４…自動演奏装置、２４２…駆動機構、２４４…発音機構、２６…表示装置、５２…合図検出部、５２２…画像合成部、５２４…検出処理部、５４…演奏解析部、５４２…音響混合部、５４４…解析処理部、５６…演奏制御部、５８…表示制御部、Ｇ…演奏画像、７０…仮想空間、７４…表示体、８２…制御装置、８２２…演奏解析部、８２４…更新処理部、９１…第１更新部、９２…第２更新部、８４…記憶装置、８６…収音装置。

Claims

演奏音を表す音響信号の解析により楽曲内の演奏位置を推定し、
複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新し、
前記楽曲データの更新においては、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する
楽曲データ処理方法。
音符に対応する演奏音のスペクトルを表す基底ベクトルと、前記楽曲データが当該音符について指定する音量の変化を表す係数ベクトルとの積を、複数の音符について加算した参照行列が、前記音響信号のスペクトログラムを表す観測行列に近付くように、前記各音符の基底ベクトルと、前記楽曲データが各音符について指定する音量の変化とを更新する
請求項１の楽曲データ処理方法。
前記音量の変化の更新においては、前記楽曲データが各音符について指定する音量の変化を、前記演奏位置を推定した結果に応じて時間軸上で伸縮し、前記伸縮後の前記音量の変化を表す前記係数行列を利用する
請求項２の楽曲データ処理方法。
コンピュータを、
演奏音を表す音響信号の解析により楽曲内の演奏位置を推定する演奏解析部、および、
複数回にわたる前記楽曲の演奏について前記演奏位置を推定した結果から生成される演奏テンポの散布度の遷移と、事前に用意された基準テンポの散布度の遷移とに応じたテンポの軌跡となるように、前記楽曲の演奏内容を表す楽曲データが指定するテンポを更新する第１更新部
として機能させるプログラムであって、
前記第１更新部は、前記楽曲のうち、前記演奏テンポの散布度が前記基準テンポの散布度を下回る部分については前記演奏テンポが優先的に反映され、前記演奏テンポの散布度が前記基準テンポの散布度を上回る部分については前記基準テンポが優先的に反映されるように、前記楽曲データが指定するテンポを更新する
プログラム。