JP2023040568A

JP2023040568A - 演奏収録方法、演奏収録システムおよびプログラム

Info

Publication number: JP2023040568A
Application number: JP2021147641A
Authority: JP
Inventors: 貴洋原; Takahiro Hara; 大智井芹; Hirotomo Iseri; 隆広赤羽根; Takahiro Akabane; 哲史小幡; Satoshi Obata; 貴央柳川; Takahisa Yanagawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-03-23
Also published as: WO2023037956A1; US20240212306A1

Abstract

【課題】複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる技術を提供する。
【解決手段】演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。
【選択図】図１０

Description

本開示は、演奏収録方法、演奏収録システムおよびプログラムに関する。

特許文献１に記載の音楽作成システムは、演奏者ごとの演奏コンテンツデータを組み合わせることによって、複数の演奏者による音楽作品を作成する。演奏者ごとの演奏コンテンツデータは、事前に、演奏者ごとに演奏を収録することによって生成される。

特開２０１５－３１８８５号公報

特許文献１に記載の音楽作成システムでは、バンドのような複数の演奏者を有するグループの音楽作品を作成するには、事前に、演奏者ごとに演奏を収録することによって演奏者ごとの演奏コンテンツデータを作成する必要があり、手間がかかった。

本開示のひとつの態様は、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる技術の提供を目的とする。

本開示の一態様に係る演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。

本開示の他の態様に係る演奏収録システムは、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、前記複数の領域候補の中から対象領域を選択する選択部と、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、を含む。

本開示のさらに他の態様に係るプログラムは、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、前記複数の領域候補の中から対象領域を選択する選択部、および、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部としてコンピュータシステムを機能させる。

第１実施形態に係る演奏収録システム１を示す図である。カメラ２に対して仮想的に設定される３つの軸を示す図である。平面に展開されたカメラ２の撮像領域２ａを示す図である。撮像画像Ｋ１を平面に展開した図である。撮像画像Ｋ２を平面に展開した図である。対象物Ｍと複数の領域候補２ｄとの一例を示す図である。領域候補２ｄ１が対象領域２ｅとして選択される例を示す。出力画像Ｐの一例を示す図である。演奏収録システム１の一例を示す図である。処理装置１ｆの一例を示す図である。決定部１１の一例である決定部１１Ａを示す図である。機械学習を説明するための図である。学習データＶ２の一例を示す図である。選択部１２Ａを示す図である。複数の領域候補２ｄを決定する動作の一例を示す図である。演奏データＱを生成する動作の一例を示す図である。領域候補２ｄ３および２ｄ４の一例を示す図である。楽曲Ｃのジャンルに応じた重み係数Ｗ１およびＷ２の一例を示す図である。

Ａ：第１実施形態
Ａ１：演奏収録システム１
図１は、第１実施形態に係る演奏収録システム１を示す図である。演奏収録システム１は、演奏会場Ａにおいて演奏グループＢによる楽曲Ｃの演奏を収録するコンピュータシステムである。

演奏会場Ａは、演奏が行われる場所である。演奏会場Ａは、例えば、音楽スタジオ、演奏ホール、野外ステージまたは教室である。

演奏グループＢは、複数の演奏者Ｄを含む音楽バンドである。複数の演奏者Ｄは、ボーカリストＤ１と楽器演奏者Ｄ２との２人によって構成される。ボーカリストＤ１と楽器演奏者Ｄ２は、それぞれ、演奏者Ｄの一例である。ボーカリストＤ１は、楽曲Ｃを歌う。楽器演奏者Ｄ２は、楽器Ｅを用いて楽曲Ｃを演奏する。楽器Ｅは、ギターである。楽器Ｅは、ギターに限らず、例えば、ベース、ドラム、電子ピアノまたはシンセサイザーでもよい。複数の演奏者Ｄは、複数のボーカリストＤ１を含んでもよい。複数の演奏者Ｄは、複数の楽器演奏者Ｄ２を含んでもよい。複数の楽器演奏者Ｄ２が使用する複数の楽器Ｅは、互いに異なる種類の楽器でもよいし、同一の種類の楽器でもよい。

演奏グループＢは、演奏会場Ａで楽曲Ｃについて、リハーサルの演奏Ｆ１と、本番の演奏Ｆ２と、を行う。リハーサルの演奏Ｆ１は、第１演奏の一例である。本番の演奏Ｆ２は、第２演奏の一例である。

演奏収録システム１は、カメラ２およびマイク３と接続される。演奏収録システム１は、カメラ２およびマイク３のうち少なくとも一方を含んでもよい。カメラ２およびマイク３は、それぞれ、演奏会場Ａの中央に配置される。カメラ２およびマイク３の位置は、演奏会場Ａの中央に限らず、演奏会場Ａに配置されていればよい。演奏収録システム１は、カメラ２とマイク３とを用いて演奏会場Ａにおいて演奏グループＢによる楽曲Ｃの演奏を収録する。

カメラ２は、３６０度カメラである。３６０度カメラは、全天球カメラまたは全方位カメラとも称される。

図２は、カメラ２に対して仮想的に設定される３つの軸を示す図である。３つの軸は、ロール軸Ｇ１とピッチ軸Ｇ２とヨー軸Ｇ３である。ロール軸Ｇ１は、カメラ２の前後方向と平行な軸である。ピッチ軸Ｇ２は、カメラ２の左右方向と並行な軸である。ヨー軸Ｇ３は、カメラ２の上下方向と並行な軸である。ロール軸Ｇ１とピッチ軸Ｇ２とヨー軸Ｇ３は、相互に直交する。

カメラ２の撮像領域２ａは、カメラ２の全周囲を包含する。図３は、平面に展開されたカメラ２の撮像領域２ａを示す図である。平面に展開された撮像領域２ａにおける横方向Ｈ１は、ヨー軸Ｇ３を回転軸とする回転角度θyを示す。回転角度θyは、０度から３６０度までの範囲内の角度である。平面に展開された撮像領域２ａにおける縦方向Ｈ２は、ピッチ軸Ｇ２を中心とする回転角度θpを示す。回転角度θpは、－９０度から９０度までの範囲内の角度である。

撮像領域２ａにおける任意の点２ｂの位置は、回転角度θyと回転角度θpとによって定められる。カメラ２から点２ｂへ向かう方向２ｃも、回転角度θyと回転角度θpとによって定められる。方向２ｃは、アングルとも称される。

カメラ２は、演奏グループＢが演奏会場Ａで楽曲Ｃについてリハーサルの演奏Ｆ１を行う場面を撮像することによって、リハーサル動画データを生成する。リハーサル動画データは、リハーサルの演奏Ｆ１を行う演奏グループＢを動画で示す動画データである。カメラ２は、リハーサル動画データとして、一連の撮像画像データＪ１を生成する。一連の撮像画像データＪ１における各撮像画像データＪ１は、リハーサル動画データが示す動画の一コマを構成する静止画を示す。各撮像画像データＪ１は、リハーサルの演奏Ｆ１を行う演奏グループＢを静止画で示す画像データである。撮像画像データＪ１が示す静止画を「撮像画像Ｋ１」と称する。カメラ２が撮像画像データＪ１を生成することは、カメラ２が撮像画像Ｋ１を生成することを意味する。撮像画像Ｋ１は、第１撮像画像の一例である。

カメラ２は、演奏グループＢが演奏会場Ａで楽曲Ｃについて本番の演奏Ｆ２を行う場面を撮像することによって、本番動画データを生成する。本番動画データは、本番の演奏Ｆ２を行う演奏グループＢを動画で表す動画データである。カメラ２は、本番動画データとして、一連の撮像画像データＪ２を生成する。一連の撮像画像データＪ２における各撮像画像データＪ２は、本番動画データが示す動画の一コマを構成する静止画を示す。各撮像画像データＪ２は、本番の演奏Ｆ２を行う演奏グループＢを静止画で表す画像データである。撮像画像データＪ２が示す静止画を「撮像画像Ｋ２」と称する。カメラ２が撮像画像データＪ２を生成することは、カメラ２が撮像画像Ｋ２を生成することを意味する。撮像画像Ｋ２は、第２撮像画像の一例、および、演奏記録の一例である。

図４は、リハーサルの演奏Ｆ１の場面を表す全方位画像である撮像画像Ｋ１を平面に展開した図である。全方位画像は、例えば、全天球画像、全天球パノラマ画像または周囲３６０度画像とも称される。撮像画像Ｋ１を平面に展開する処理は、演奏収録システム１またはカメラ２によって実行される。以下、カメラ２が撮像画像Ｋ１を平面に展開する処理を実行する例を説明する。カメラ２は、平面に展開された撮像画像Ｋ１を示す撮像画像データＪ１を生成する。

撮像画像Ｋ１は、ボーカリストＤ１と、楽器演奏者Ｄ２と、楽器Ｅと、を表す。撮像画像Ｋ１における任意の点Ｋ１ａの位置は、回転角度θyと回転角度θpとによって定められる。

図５は、本番の演奏Ｆ２の場面を表す全方位画像である撮像画像Ｋ２を平面に展開した図である。撮像画像Ｋ２を平面に展開する処理は、演奏収録システム１またはカメラ２によって実行される。以下では、カメラ２が撮像画像Ｋ２を平面に展開する処理を実行する例を説明する。カメラ２は、平面に展開された撮像画像Ｋ２を示す撮像画像データＪ２を生成する。

撮像画像Ｋ２は、撮像画像Ｋ１と同様に、ボーカリストＤ１と、楽器演奏者Ｄ２と、楽器Ｅと、を表す。撮像画像Ｋ２における任意の点Ｋ２ａの位置は、回転角度θyと回転角度θpとによって定められる。
なお、撮像画像Ｋ１およびＫ２の各々における任意の点の位置（座標）は、回転角度θyと回転角度θpとによって定められる代わりに、平面に展開された撮像画像におけるｘｙ座標によって定められてもよい。平面に展開された撮像画像におけるｘｙ座標とは、例えば、平面に展開された撮像画像の横方向（水平方向）と並行なｘ軸におけるｘ座標と、平面に展開された撮像画像の縦方向（垂直方向）と並行なｙ軸におけるｙ座標と、によって表される座標である。

リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１と、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２とを、相互に区別する必要がない場合、撮像画像Ｋ１およびＫ２の各々を「撮像画像Ｋ」と称する。撮像画像Ｋ１を示す撮像画像データＪ１と、撮像画像Ｋ２を示す撮像画像データＪ２とを、相互に区別する必要がない場合、撮像画像データＪ１およびＪ２の各々を「撮像画像データＪ」と称する。

図１に示されるマイク３は、複数のマイクを有するマイクセットである。複数のマイクは、それぞれ、指向性を有する。マイク３は、指向性を有さない１つのマイクでもよい。マイク３の収音範囲は、マイク３の全周囲を包含する。なお、マイク３の収音範囲は、カメラ２の撮像範囲をカバーしていればよく、必ずしもマイク３の全周囲を包含する必要はない。

マイク３は、演奏グループＢが演奏会場Ａで行う演奏の音を収音する。例えば、マイク３は、演奏グループＢが演奏会場Ａで楽曲Ｃについて行うリハーサルの演奏Ｆ１の音を収音する。また、マイク３は、演奏グループＢが演奏会場Ａで楽曲Ｃについて行う本番の演奏Ｆ２の音を収音する。

マイク３は、演奏音データＬを生成する。演奏音データＬは、マイク３が本番の演奏Ｆ２の音を収音することによって得られる演奏音を示すデータである。演奏音データＬが示す演奏音は、演奏記録の他の例である。

演奏収録システム１は、例えば、スマートフォンである。演奏収録システム１は、スマートフォンに限らず、例えば、パーソナルコンピュータまたはタブレットでもよい。スマートフォンおよびタブレットは、それぞれ、可搬型の情報装置の一例である。パーソナルコンピュータは、可搬型または据置型の情報装置の一例である。演奏収録システム１は、単体の装置で構成されてもよいし、相互に別体である複数の装置で構成されてもよい。

演奏収録システム１は、リハーサル動画データが示す動画の一コマの静止画を示す撮像画像データＪ１と、本番動画データが示す動画の一コマの静止画を示す撮像画像データＪ２と、を取得する。撮像画像データＪ１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１を示す画像データである。撮像画像データＪ２は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２を示す画像データである。

演奏収録システム１は、撮像画像データＪ１が示す撮像画像Ｋ１を用いて、撮像領域２ａにおいて複数の領域候補２ｄを決定する。例えば、演奏収録システム１は、撮像画像Ｋ１における対象物Ｍに基づいて撮像領域２ａにおいて複数の領域候補２ｄを決定する。

対象物Ｍは、例えば、複数の演奏者Ｄの身体の少なくとも一部および楽器Ｅである。複数の演奏者Ｄの身体の少なくとも一部は、例えば、演奏者Ｄの上半身である。複数の演奏者Ｄの身体の少なくとも一部は、演奏者Ｄの上半身に限らず、例えば、演奏者Ｄの手、演奏者Ｄの顔、または、演奏者Ｄの全身でもよい。

図６は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１における対象物Ｍと、撮像領域２ａにおける複数の領域候補２ｄと、の一例を示す図である。

対象物Ｍは、検出対象物Ｍ１と、検出対象物Ｍ２と、を含む。検出対象物Ｍ１は、ボーカリストＤ１の上半身である。検出対象物Ｍ２は、楽器演奏者Ｄ２の全身と楽器Ｅとによって構成される。

演奏収録システム１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１において、画像領域Ｋ１１と、画像領域Ｋ１２と、を特定する。画像領域Ｋ１１と画像領域Ｋ１２は、複数の画像領域の一例である。画像領域Ｋ１１は、リハーサルの演奏Ｆ１の場面において検出対象物Ｍ１を表す領域である。画像領域Ｋ１２は、リハーサルの演奏Ｆ１の場面において検出対象物Ｍ２を表す領域である。

演奏収録システム１は、例えば、画像認識技術を用いて画像領域Ｋ１１と画像領域Ｋ１２とを自動的に特定する。

画像領域Ｋ１１と画像領域Ｋ１２は、それぞれ、矩形である。画像領域Ｋ１１と画像領域Ｋ１２は、それぞれ、共通の縦横比（アスペクト比）ＡＰを有する。画像領域Ｋ１１と画像領域Ｋ１２は、それぞれ、相互に異なる縦横比（アスペクト比）を有してもよい。

演奏収録システム１は、画像領域Ｋ１１を示す画像領域データＮ１を生成する。画像領域Ｋ１１は、リハーサルの演奏Ｆ１の場面においてボーカリストＤ１の上半身を表す領域である。画像領域データＮ１は、位置データＮ１１と、大きさデータＮ１２と、を含む。位置データＮ１１は、画像領域Ｋ１１の中心位置Ｋ１１ｃを、回転角度θyと回転角度θpで示す。画像領域Ｋ１１の中心位置Ｋ１１ｃは、例えば、画像領域Ｋ１１における対角線の交点の位置である。大きさデータＮ１２は、画像領域Ｋ１１の大きさを示す。大きさデータＮ１２は、縦横比ＡＰを有する基準矩形領域の大きさに対する画像領域Ｋ１１の大きさの比を示す。基準矩形画像は、予め設定されている。大きさデータＮ１２は、ズームデータとも称される。

演奏収録システム１は、画像領域Ｋ１２を示す画像領域データＮ２を生成する。画像領域Ｋ１２は、リハーサルの演奏Ｆ１の場面において楽器演奏者Ｄ２の全身と楽器Ｅとを表す領域である。画像領域データＮ２は、位置データＮ２１と、大きさデータＮ２２と、を含む。位置データＮ２１は、画像領域Ｋ１２の中心位置Ｋ１２ｃを、回転角度θyと回転角度θpで示す。画像領域Ｋ１２の中心位置Ｋ１２ｃは、例えば、画像領域Ｋ１２における対角線の交点の位置である。大きさデータＮ２２は、画像領域Ｋ１２の大きさを示す。大きさデータＮ２２は、基準矩形領域の大きさに対する画像領域Ｋ１２の大きさの比を示す。大きさデータＮ２２は、ズームデータとも称される。

撮像領域２ａにおける複数の領域候補２ｄは、領域候補２ｄ１と、領域候補２ｄ２と、を含む。領域候補２ｄ１は、リハーサルの演奏Ｆ１の場面においてボーカリストＤ１の上半身を表す画像領域Ｋ１１に対応する。領域候補２ｄ２は、リハーサルの演奏Ｆ１の場面において楽器演奏者Ｄ２の全身と楽器Ｅとを表す画像領域Ｋ１２に対応する。

演奏収録システム１は、画像領域Ｋ１１を示す画像領域データＮ１と、画像領域Ｋ１２を示す画像領域データＮ２と、を用いて、領域候補２ｄ１と領域候補２ｄ２とを決定する。例えば、演奏収録システム１は、カメラ２の撮像領域２ａにおいて、画像領域データＮ１によって示される範囲を、領域候補２ｄ１として決定する。演奏収録システム１は、カメラ２の撮像領域２ａにおいて、画像領域データＮ２によって示される範囲を、領域候補２ｄ２として決定する。

演奏収録システム１は、複数の領域候補２ｄの中から対象領域２ｅを選択する。図７は、領域候補２ｄ１および領域候補２ｄ２の中から領域候補２ｄ１が対象領域２ｅとして選択される例を示す。領域候補２ｄ２が、対象領域２ｅとして選択されてもよい。

演奏収録システム１は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から、撮像画像Ｋ２における対象領域２ｅの画像を、出力画像Ｐとして抽出する。撮像画像Ｋ２における対象領域２ｅの画像とは、撮像画像Ｋ２のうち、撮像画像Ｋ２内の対象領域２ｅにおいて示される画像を意味する。

図８は、出力画像Ｐの一例を示す図である。出力画像Ｐは、領域候補２ｄ１が対象領域２ｅとして選択された状況において撮像画像Ｋ２から抽出される画像である。

Ａ２：演奏収録システム１の一例
図９は、演奏収録システム１の一例を示す図である。演奏収録システム１は、操作装置１ａと、表示装置１ｂと、スピーカ１ｃと、通信装置１ｄと、記憶装置１ｅと、処理装置１ｆと、を含む。

操作装置１ａは、ユーザからの指示を受け取る入力機器である。操作装置１ａは、例えば、タッチパネルである。操作装置１ａは、タッチパネルに限らず、例えば、ユーザによって操作される操作子でもよい。操作装置１ａは、演奏収録システム１に有線または無電で接続される入力機器（例えば、マウスまたはキーボード）でもよい。操作装置１ａは、演奏収録システム１の外部要素でもよい。

表示装置１ｂは、表示パネルである。表示パネルは、例えば、液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネルである。表示装置１ｂは、タッチパネルでもよい。タッチパネルが、操作装置１ａおよび表示装置１ｂとして用いられてもよい。表示装置１ｂは、演奏収録システム１に有線または無電で接続されてもよい。表示装置１ｂは、演奏収録システム１の外部要素でもよい。表示装置１ｂは、種々の画像を表示する。

スピーカ１ｃは、複数のスピーカを有するスピーカセットである。スピーカ１ｃは、１つのスピーカでもよい。スピーカ１ｃは、演奏収録システム１に有線または無電で接続されてもよい。スピーカ１ｃは、演奏収録システム１の外部要素でもよい。スピーカ１ｃは、種々の音を放音する。

通信装置１ｄは、通信ネットワークＮＷを介して外部装置５と通信する。例えば、通信装置１ｄは、演奏グループＢによる本番の演奏Ｆ２を表す演奏データＱを、通信ネットワークＮＷを介して外部装置５に送信する。外部装置５は、例えば、配信サーバまたは端末装置である。配信サーバは、演奏収録システム１から受信した演奏データＱを配信するサーバである。端末装置は、例えば、スマートフォン、タブレットまたはパーソナルコンピュータである。

記憶装置１ｅは、コンピュータによって読み取り可能な記録媒体（例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体）である。記憶装置１ｅは、１または複数のメモリを含む。記憶装置１ｅは、例えば、不揮発性メモリと、揮発性メモリと、を含む。不揮発性メモリは、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）およびＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）である。揮発性メモリは、例えば、ＲＡＭ（Random Access Memory）である。

記憶装置１ｅは、プログラムＰＧ１と、種々のデータと、を記憶する。プログラムＰＧ１は、演奏収録システム１の動作を規定する。記憶装置１ｅは、処理装置１ｆと通信可能なサーバにおける記憶装置から読み取られたプログラムＰＧ１を記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体の他の例である。記憶装置１ｅは、演奏収録システム１に着脱可能な可搬型の記録媒体でもよい。記憶装置１ｅは、演奏収録システム１の外部要素でもよい。

処理装置１ｆは、１または複数のＣＰＵ（Central Processing Unit）を含む。１または複数のＣＰＵは、１または複数のプロセッサの一例である。処理装置、プロセッサおよびＣＰＵは、それぞれ、コンピュータの一例である。

処理装置１ｆは、記憶装置１ｅからプログラムＰＧ１を読み取る。処理装置１ｆは、プログラムＰＧ１を実行する。

Ａ３：処理装置１ｆ
図１０は、処理装置１ｆの一例を示す図である。処理装置１ｆは、プログラムＰＧ１を実行することによって、決定部１１、選択部１２、抽出部１３、生成部１４、出力制御部１５および通信制御部１６として機能する。決定部１１、選択部１２、抽出部１３、生成部１４、出力制御部１５および通信制御部１６の少なくとも１つは、ＤＳＰ（Digital Signal Processor）およびＡＳＩＣ（Application Specific Integrated Circuit）等の回路によって構成されてもよい。

決定部１１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１を用いて、カメラ２の撮像領域２ａにおいて複数の領域候補２ｄを決定する。決定部１１は、複数の領域候補２ｄを示す候補データＲを生成する。決定部１１は、候補データＲを記憶装置１ｅに格納する。

決定部１１は、複数の領域候補２ｄと、撮像画像Ｋ１における各画像領域（例えば、図６における画像領域Ｋ１１およびＫ１２の各々）が表す楽器の種類と、を示すデータを、候補データＲとして生成してもよい。楽器の種類は、ユーザによって操作装置１ａへ入力されてもよいし、決定部１１が撮像画像Ｋ１について画像認識処理を施すことによって特定されてもよい。決定部１１は、複数の領域候補２ｄと楽器の種類とに加えて演奏グループＢの名称と楽曲Ｃの紹介とを示すデータを、候補データＲとして生成してもよい。この場合、候補データＲの識別が容易である。また、候補データＲが、演奏グループＢの名称を示すデータおよび楽曲Ｃの紹介を示すデータとして兼用可能である。
決定部１１は、相異なる２つ以上の撮像画像Ｋ１の各々について、複数の領域候補２ｄを決定してもよい。相異なる２つ以上の撮像画像Ｋ１は、例えば、ユーザによって指定される。この場合、決定部１１は、相異なる２以上の撮像画像Ｋ１の各々について、候補データＲを生成する。例えば、決定部１１は、相異なる２以上の撮像画像Ｋ１の各々について、当該撮像画像Ｋ１に基づく複数の領域候補２ｄと、リハーサルの演奏Ｆ１の開始時から当該撮像画像Ｋ１の生成時までのリハーサル経過時間と、を示すデータを、候補データＲとして生成する。

選択部１２は、複数の領域候補２ｄの中から対象領域２ｅを選択する。選択部１２は、記憶装置１ｅから候補データＲを読み取る。選択部１２は、候補データＲが示す複数の領域候補２ｄの中から対象領域２ｅを選択する。例えば、選択部１２は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２を解析して対象領域２ｅを選択する。
複数の候補データＲが存在する場合、選択部１２は、本番の演奏Ｆ２の途中で候補データＲを他の候補データＲに切り換えてもよい。例えば、選択部１２は、まず、複数の候補データＲの中から、本番の演奏Ｆ２の経過時間よりも短いリハーサル経過時間を示す候補データＲを、暫定候補データＲａとして特定する。続いて、選択部１２は、暫定候補データＲａの中から、本番の演奏Ｆ２の経過時間との差が最も小さいリハーサル経過時間を示す暫定候補データＲａを、対象候補データＲｂとして特定する。なお、暫定候補データＲａが存在しない場合、選択部１２は、複数の候補データＲの中から、本番の演奏Ｆ２の経過時間との差が最も小さいリハーサル経過時間を示す候補データＲを、対象候補データＲｂとして特定する。続いて、選択部１２は、本番の演奏Ｆ２の当該経過時間における場面を表す撮像画像Ｋ２を解析することによって、対象候補データＲｂが示す複数の領域候補２ｄの中から、対象領域２ｅを選択する。
選択部１２は、ユーザからの指示に応じて対象領域２ｅを選択してもよい。選択部１２は、ランダムに対象領域２ｅを選択してもよい。選択部１２がランダムに対象領域２ｅを選択する場合、対象領域２ｅの選択する処理において、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２（撮像画像データＪ２）を不要にできる。

抽出部１３は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から、撮像画像Ｋ２における対象領域２ｅの画像を、出力画像Ｐとして抽出する。

例えば、抽出部１３は、対象領域２ｅの選択に応じたタイミングで、撮像画像Ｋ２から出力画像Ｐを抽出する。一例を挙げると、抽出部１３は、対象領域２ｅの選択を契機として、撮像画像Ｋ２から出力画像Ｐを抽出する。この場合、対象領域２ｅの選択を契機としたタイミングが、対象領域２ｅの選択に応じたタイミングの一例である。撮像画像Ｋ２が抽出部１３に供給されるタイミングが、撮像画像Ｋ２が選択部１２に供給されるタイミングより遅れる場合、抽出部１３は、対象領域２ｅが選択された時点から一定時間経過したタイミングで、撮像画像Ｋ２から出力画像Ｐを抽出してもよい。この場合、対象領域２ｅが選択された時点から一定時間経過したタイミングが、対象領域２ｅの選択に応じたタイミングの一例である。
対象領域２ｅの選択は、本番の演奏Ｆ２の進行（経過時間）に伴い順次実行される。このため、対象領域２ｅの選択に応じたタイミングは、本番の演奏Ｆ２の進行（経過時間）に応じたタイミングと換言できる。対象領域２ｅが本番の演奏Ｆ２の進行に伴って変化する場合、抽出部１３が撮像画像Ｋ２から抽出する出力画像Ｐは変化する。また、複数の候補領域２ｄが本番の演奏Ｆ２の進行（経過時間）に伴って変化する場合、抽出部１３が撮像画像Ｋ２から抽出する出力画像Ｐは変化し得る。このため、抽出部１３は、本番の演奏Ｆ２の進行に伴って変化する多様な出力画像Ｐを抽出できる。抽出部１３は、出力画像Ｐを示す出力画像データＴを生成する。

生成部１４は、出力画像データＴと、演奏音データＬと、を受け取る。出力画像データＴは、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から抽出された出力画像Ｐ４を示す画像データである。演奏音データＬは、本番の演奏Ｆ２の音を収音するマイク３によって生成される音データである。生成部１４は、出力画像データＴと演奏音データＬとを含む演奏データＱを生成する。演奏データＱは、本番の演奏Ｆ２を画像と音で表すデータ（動画コンテンツ）である。

出力制御部１５は、演奏データＱに含まれる出力画像データＴを表示装置１ｂに提供することによって、表示装置１ｂに、出力画像データＴが示す出力画像Ｐを表示させる。出力制御部１５は、演奏データＱに含まれる演奏音データＬをスピーカ１ｃに提供することによって、スピーカ１ｃに、演奏音データＬが示す演奏音を放音させる。

通信制御部１６は、演奏データＱを通信装置１ｄから通信ネットワークＮＷを介して外部装置５に送信する。

Ａ４：決定部１１の一例
図１１は、決定部１１の一例である決定部１１Ａを示す図である。決定部１１Ａは、検出部１１１と、候補決定部１１２と、推定モデル４１と、推定モデル４２と、を含む。推定モデル４１と推定モデル４２は、決定部１１Ａの外部要素でもよい。

検出部１１１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１から、複数の演奏者Ｄの身体の少なくとも一部および楽器Ｅである対象物Ｍを検出する。例えば、検出部１１１は、撮像画像Ｋ１から、ボーカリストＤ１の上半身である検出対象物Ｍ１と、楽器演奏者Ｄ２の全身と楽器Ｅ（例えば、ギター）とによって構成される検出対象物Ｍ２と、を検出する。

検出部１１１は、推定モデル４１を用いて検出対象物Ｍ１を検出する。推定モデル４１は、撮像画像データＪ（撮像画像Ｋ）と、検出対象物Ｍ１を表す領域と、の関係を機械学習によって学習した学習済みモデルである。推定モデル４１は、深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）によって構成される。深層ニューラルネットワークは、例えば、畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、または、長短期記憶（ＬＳＴＭ：Long Short Term Memory）である。推定モデル４１は、複数種の深層ニューラルネットワークの組合せを含んでもよい。

推定モデル４１は、複数の係数Ｕ１を有する。複数の係数Ｕ１は、推定モデル４１の動作を定める。複数の係数Ｕ１は、機械学習によって調整済みである。

図１２は、機械学習を説明するための図である。機械学習システム６は、演奏収録システム１とは別体のシステムである。機械学習システム６は、例えば、通信ネットワークＮＷを介して演奏収録システム１と通信可能なサーバシステムである。機械学習システム６は、暫定モデル４１ａから推定モデル４１を生成する。暫定モデル４１ａは、複数の係数Ｕ１ａを有する推定モデル（深層ニューラルネットワーク）である。機械学習システム６は、機械学習を通じて複数の係数Ｕ１ａを更新することによって、複数の係数Ｕ１および推定モデル４１を生成する。複数の係数Ｕ１は、更新が完了した複数の係数Ｕ１ａである。推定モデル４１は、更新が完了した複数の係数Ｕ１ａを有する暫定モデル４１ａである。

機械学習システム６は、複数の学習データＶ１を用いて複数の係数Ｕ１ａを更新する。複数の学習データＶ１は、相互に異なる。複数の学習データＶ１の各々は、画像データＶ１ａと、領域データＶ１ｂと、のペアを含む。

画像データＶ１ａは、検出対象物Ｍ１の画像を含む既知画像を示す。画像データＶ１ａは、カメラ２によって生成される。画像データＶ１ａは、カメラ２とは異なる３６０度カメラによって生成されてもよい。画像データＶ１ａは、公知の画像合成技術で生成されてもよい。

領域データＶ１ｂは、当該領域データＶ１ｂとペアの画像データＶ１ａが示す画像において検出対象物Ｍ１を表す領域を示す。領域データＶ１ｂは、検出対象物Ｍ１を表す領域として、検出対象物Ｍ１を包含する矩形の領域を示す。検出対象物Ｍ１を包含する矩形の領域は、縦横比ＡＰを有する。すなわち、領域データＶ１ｂが示す矩形の領域の縦横比は、複数の領域候補２ｄの縦横比と同じである。

領域データＶ１ｂは、位置データＶ１ｂ１と、大きさデータＶ１ｂ２と、を含む。位置データＶ１ｂ１は、検出対象物Ｍ１を包含する矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物Ｍ１を包含する矩形の領域の中心位置は、例えば、検出対象物Ｍ１を包含する矩形の領域における対角線の交点の位置である。大きさデータＶ１ｂ２は、検出対象物Ｍ１を包含する矩形の領域の大きさを示す。大きさデータＶ１ｂ２は、基準矩形領域の大きさに対する検出対象物Ｍ１を包含する矩形の領域の大きさの比を示す。大きさデータＶ１ｂ２は、ズームデータとも称される。

領域データＶ１ｂは、画像データＶ１ａが暫定モデル４１ａに入力される場合に暫定モデル４１ａが出力すべき正解を意味する。

機械学習システム６が画像データＶ１ａを暫定モデル４１ａに入力すると、暫定モデル４１ａは、領域データＶ１ｃを出力する。領域データＶ１ｃは、入力された画像データＶ１ａが示す画像において、検出対象物Ｍ１が存在すると推定される矩形の領域を示す。

領域データＶ１ｃは、位置データＶ１ｃ１と、大きさデータＶ１ｃ２と、を含む。位置データＶ１ｃ１は、検出対象物Ｍ１が存在すると推定される矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物Ｍ１が存在すると推定される矩形の領域の中心位置は、例えば、検出対象物Ｍ１が存在すると推定される矩形の領域における対角線の交点の位置である。大きさデータＶ１ｃ２は、検出対象物Ｍ１が存在すると推定される矩形の領域の大きさを示す。大きさデータＶ１ｃ２は、基準矩形領域の大きさに対する検出対象物Ｍ１が存在すると推定される矩形の領域の大きさの比を示す。大きさデータＶ１ｃ２は、ズームデータとも称される。

機械学習システム６は、複数の学習データＶ１と暫定モデル４１ａとを用いて誤差関数を算定する。誤差関数は、機械学習システム６が暫定モデル４１ａに画像データＶ１ａを入力した場合に暫定モデル４１ａが出力する領域データＶ１ｃと、入力された画像データＶ１ａとペアの領域データＶ１ｂと、の誤差を表す。機械学習システム６は、誤差関数によって表される誤差が低減するように複数の係数Ｕ１ａを更新する。機械学習システム６は、複数の学習データＶ１の各々を用いて複数の係数Ｕ１ａを更新する処理を完了した時点での暫定モデル４１ａを、推定モデル４１として決定する。

推定モデル４１は、複数の学習データＶ１における画像データＶ１ａと領域データＶ１ｂとの関係において、未知の画像データＶ１ａに対して統計的に妥当な領域データＶ１ｃを出力する。推定モデル４１は、画像データＶ１ａと領域データＶ１ｂとの関係を学習した学習済モデルである。推定モデル４１によれば、リハーサルの演奏Ｆ１の場面を示す撮像画像データＪ１が、未知の画像データＶ１ａとして用いられる場合、撮像画像データＪ１が示す画像（撮像画像Ｋ１）について、検出対象物Ｍ１が存在する矩形の領域を高精度に特定できる。

図１１に示される検出部１１１は、リハーサルの演奏Ｆ１の場面を示す撮像画像データＪ１を推定モデル４１に入力する。検出部１１１は、撮像画像データＪ１を推定モデル４１に入力した場合に推定モデル４１から出力される領域データＶ１ｃを、画像領域Ｋ１１を示す画像領域データＮ１として取得する。画像領域Ｋ１１は、図６に示されるように、検出対象物Ｍ１を含む矩形の領域である。このため、検出部１１１は、推定モデル４１から画像領域データＮ１を取得することによって検出対象物Ｍ１を検出する。

検出部１１１は、推定モデル４２を用いて検出対象物Ｍ２を検出する。推定モデル４２は、撮像画像データＪ（撮像画像Ｋ）と、検出対象物Ｍ２を表す領域と、の関係を機械学習によって学習した学習済みモデルである。推定モデル４２は、深層ニューラルネットワークによって構成される。推定モデル４２は、複数種の深層ニューラルネットワークの組合せを含んでもよい。

推定モデル４２は、複数の係数Ｕ２を有する。複数の係数Ｕ２は、推定モデル４２の動作を定める。複数の係数Ｕ２は、機械学習によって調整済みである。

推定モデル４２は、推定モデル４１と同様に生成される。推定モデル４２の生成には、複数の学習データＶ１の代わりに、複数の学習データＶ２が用いられる。複数の学習データＶ２は、相互に異なる。

図１３は、学習データＶ２の一例を示す図である。各学習データＶ２は、画像データＶ２ａと、領域データＶ２ｂと、のペアを含む。

画像データＶ２ａは、検出対象物Ｍ２の画像を含む既知画像を示す。画像データＶ２ａは、カメラ２によって生成される。画像データＶ２ａは、カメラ２とは異なる３６０度カメラによって生成されてもよい。画像データＶ２ａは、公知の画像合成技術で生成されてもよい。

領域データＶ２ｂは、当該領域データＶ２ｂとペアの画像データＶ２ａが示す画像において検出対象物Ｍ２を表す領域を示す。領域データＶ２ｂは、検出対象物Ｍ２を表す領域として、検出対象物Ｍ２を包含する矩形の領域を示す。領域データＶ２ｂを包含する矩形の領域は、縦横比ＡＰを有する。すなわち、領域データＶ２ｂが示す矩形の領域の縦横比は、複数の領域候補２ｄの縦横比と同じである。

領域データＶ２ｂは、位置データＶ２ｂ１と、大きさデータＶ２ｂ２と、を含む。位置データＶ２ｂ１は、検出対象物Ｍ２を包含する矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物Ｍ２を包含する矩形の領域の中心位置は、例えば、検出対象物Ｍ２を包含する矩形の領域における対角線の交点の位置である。大きさデータＶ２ｂ２は、検出対象物Ｍ２を包含する矩形の領域の大きさを示す。大きさデータＶ２ｂ２は、基準矩形領域の大きさに対する検出対象物Ｍ２を包含する矩形の領域の大きさの比を示す。大きさデータＶ２ｂ２は、ズームデータとも称される。

領域データＶ２ｂは、画像データＶ２ａが推定モデル４２に入力される場合に推定モデル４２が出力すべき正解を意味する。画像データＶ２ａが推定モデル４２に入力されると、推定モデル４２は、領域データＶ２ｃを出力する。領域データＶ２ｃは、入力された画像データＶ２ａが示す画像において、検出対象物Ｍ２が存在すると推定される矩形の領域を示す。

領域データＶ２ｃは、位置データＶ２ｃ１と、大きさデータＶ２ｃ２と、を含む。位置データＶ２ｃ１は、検出対象物Ｍ２が存在すると推定される矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物Ｍ２が存在すると推定される矩形の領域の中心位置は、例えば、検出対象物Ｍ２が存在すると推定される矩形の領域における対角線の交点の位置である。大きさデータＶ２ｃ２は、検出対象物Ｍ２が存在すると推定される矩形の領域の大きさを示す。大きさデータＶ２ｃ２は、基準矩形領域の大きさに対する検出対象物Ｍ２が存在すると推定される矩形の領域の大きさの比を示す。大きさデータＶ２ｃ２は、ズームデータとも称される。

図１１に示される推定モデル４２は、複数の学習データＶ２における画像データＶ２ａと領域データＶ２ｂとの関係において、未知の画像データＶ２ａに対して統計的に妥当な領域データＶ２ｃを出力する。推定モデル４２は、画像データＶ２ａと領域データＶ２ｂとの関係を学習した学習済モデルである。推定モデル４２によれば、リハーサルの演奏Ｆ１の場面を示す撮像画像データＪ１が、未知の画像データＶ２ａとして用いられる場合、撮像画像データＪ１が示す画像（撮像画像Ｋ１）について、検出対象物Ｍ２が存在する矩形の領域を高精度に特定できる。

検出部１１１は、リハーサルの演奏Ｆ１の場面を示す撮像画像データＪ１を推定モデル４２に入力する。検出部１１１は、撮像画像データＪ１を推定モデル４２に入力した場合に推定モデル４２から出力される領域データＶ２ｃを、画像領域Ｋ１２を示す画像領域データＮ２として取得する。画像領域Ｋ１２は、図６に示されるように、検出対象物Ｍ２を含む矩形の領域である。このため、検出部１１１は、推定モデル４２から画像領域データＮ２を取得することによって検出対象物Ｍ２を検出する。

候補決定部１１２は、検出部１１１による対象物Ｍ（検出対象物Ｍ１およびＭ２）の検出の結果に基づいて、複数の領域候補２ｄの少なくとも１つを決定する。例えば、候補決定部１１２は、検出部１１１による対象物Ｍの検出の結果に基づいて、複数の領域候補２ｄのすべてを決定する。候補決定部１１２は、画像領域Ｋ１１を示す画像領域データＮ１を用いて、図６に示される領域候補２ｄ１を決定する。候補決定部１１２は、画像領域Ｋ１２を示す画像領域データＮ２を用いて、図６に示される領域候補２ｄ２を決定する。

Ａ５：選択部１２の一例
図１４は、選択部１２の一例である選択部１２Ａを示す図である。選択部１２Ａは、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２における各領域候補２ｄの画像における変化の程度に基づいて、対象領域２ｅを選択する。選択部１２Ａは、動き検出部１２１と、領域選択部１２２と、を含む。

動き検出部１２１は、本番の演奏Ｆ２を表す撮像画像Ｋ２において、各領域候補２ｄの画像における変化の程度を検出する。領域候補２ｄの画像とは、撮像画像Ｋ２内の領域候補２ｄに示される画像を意味する。

例えば、動き検出部１２１は、領域候補２ｄごとに、撮像画像Ｋ２内の領域候補２ｄに示される画像と、当該撮像画像Ｋ２の直前の撮像画像Ｋ２内の領域候補２ｄに示される画像と、の差分に基づいて、領域候補２ｄの画像における変化の程度を検出する。当該差分が大きいほど、領域候補２ｄの画像における変化の程度は大きい。当該差分が小さいほど、領域候補２ｄの画像における変化の程度は小さい。動き検出部１２１は、領域候補２ｄごとに、画像における変化の程度を示す変化指標を生成する。

領域選択部１２２は、各領域候補２ｄの変化指標に基づいて、複数の領域候補２ｄの中から対象領域２ｅを選択する。

Ａ６：複数の領域候補２ｄを決定する動作
図１５は、複数の領域候補２ｄを決定する動作の一例を示す図である。複数の領域候補２ｄを決定する動作は、本番の演奏Ｆ２の前に実行される。複数の領域候補２ｄを決定する動作は、操作装置１ａがユーザから決定指示を受け取ると開始される。以下では、図１１に示される決定部１１Ａが決定部１１として用いられる例を説明する。

ステップＳ１０１において検出部１１１は、リハーサルの演奏Ｆ１の場面を示す撮像画像データＪ１を取得する。例えば、検出部１１１は、カメラ２から撮像画像データＪ１を取得する。撮像画像データＪ１が記憶装置１ｅに格納されている場合、検出部１１１は、記憶装置１ｅから撮像画像データＪ１を取得してもよい。

続いて、ステップＳ１０２において検出部１１１は、撮像画像データＪ１を用いて対象物Ｍ（検出対象物Ｍ１およびＭ２）を検出する。例えば、検出部１１１は、まず、撮像画像データＪ１を推定モデル４１および４２の各々に入力する。続いて、検出部１１１は、推定モデル４１が出力する領域データＶ１ｃを、画像領域Ｋ１１を示す画像領域データＮ１として取得する。画像領域Ｋ１１は、図６に示されるように、検出対象物Ｍ１を表す領域である。続いて、検出部１１１は、推定モデル４２が出力する領域データＶ２ｃを、画像領域Ｋ１２を示す画像領域データＮ２として取得する。画像領域Ｋ１２は、図６に示されるように、検出対象物Ｍ２を表す領域である。

続いて、ステップＳ１０３において図１１に示される候補決定部１１２は、カメラ２の撮像領域２ａにおいて複数の領域候補２ｄを決定する。例えば、候補決定部１１２は、図６に示されるように複数の領域候補２ｄを決定する。一例を挙げると、候補決定部１１２は、カメラ２の撮像領域２ａのうち、画像領域Ｋ１１を示す画像領域データＮ１によって示される範囲を、領域候補２ｄ１として決定する。この場合、画像領域データＮ１は、画像領域Ｋ１１に加えて、領域候補２ｄ１を示す。候補決定部１１２は、カメラ２の撮像領域２ａのうち、画像領域Ｋ１２を示す画像領域データＮ２によって示される範囲を、領域候補２ｄ２として決定する。この場合、画像領域データＮ２は、画像領域Ｋ１２に加えて、領域候補２ｄ２を示す。

続いて、ステップＳ１０４において候補決定部１１２は、複数の領域候補２ｄを示す候補データＲを生成する。候補データＲは、領域候補２ｄ１を示すデータ（画像領域データＮ１）と、領域候補２ｄ２を示すデータ（画像領域データＮ２）を含む。

続いて、ステップＳ１０５において候補決定部１１２は、候補データＲを記憶装置１ｅに格納する。候補データＲが記憶装置１ｅに格納されると、複数の領域候補２ｄを決定する動作が終了する。

Ａ７：演奏データＱ（動画コンテンツ）を生成する動作
図１６は、演奏データＱを生成する動作の一例を示す図である。演奏データＱを生成する動作は、操作装置１ａがユーザから生成指示を受け取ると開始される。以下では、図１２に示される選択部１２Ａが選択部１２として用いられる例を説明する。動き検出部１２１は、生成指示の受け取りに応じて、過去の撮像画像データＪ２を一旦リセットする。また、演奏データＱを生成する動作が、本番の演奏Ｆ２に並行して行われるとする。

ステップＳ２０１において動き検出部１２１は、記憶装置１ｅから複数の領域候補２ｄを示す候補データＲを読み取る。

続いて、ステップＳ２０２において動き検出部１２１は、動き検出部１２１が未取得の撮像画像データＪ２の中から、相互に連続する２つの撮像画像データＪ２の最古のペアを取得する。

続いて、ステップＳ２０３において動き検出部１２１は、直前のステップＳ２０２で取得した２つの撮像画像データＪ２を用いて、領域候補２ｄごとに、変化指標を生成する。変化指標は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２内の領域候補２ｄに示される画像における変化の程度を示す。

以下、直前のステップＳ２０２で取得した２つの撮像画像データＪ２のうち、古い撮像画像データＪ２が示す撮像画像Ｋ２を「撮像画像Ｋ２１」と称し、新しい撮像画像データＪ２が示す撮像画像Ｋ２を「撮像画像Ｋ２２」と称する。

ステップＳ２０３では、動き検出部１２１は、まず、領域候補２ｄごとに、撮像画像Ｋ２１内の領域候補２ｄに示される画像と、撮像画像Ｋ２２内の領域候補２ｄに示される画像と、の差分を、領域候補２ｄの画像における変化の程度として検出する。続いて、動き検出部１２１は、領域候補２ｄごとに、画像における変化の程度（差分）を示す変化指標を生成する。領域候補２ｄ１の変化指標は、ボーカリストＤ１の変化指標を意味する。領域候補２ｄ２の変化指標は、楽器演奏者Ｄ２の変化指標を意味する。動き検出部１２１は、画像における変化の程度（差分）が大きいほど、変化指標の値を大きくする。動き検出部１２１は、画像における変化の程度（差分）が大きいほど、変化指標の値を小さくしてもよい。
動き検出部１２１は、領域候補２ｄごとの変化指標を、所定時間（例えば、１秒）ごとに生成してもよい。所定時間は、１秒に限らず、１秒よりも長くてもよいし短くてもよい。例えば、動き検出部１２１は、所定時間ごとに、当該所定時間に新たに入力される連続する複数の撮像画像データＪ２を取得する。続いて、動き検出部１２１は、新たに入力される連続する複数の撮像画像データＪ２を用いて、領域候補２ｄごとの変化指標を生成する。一例を挙げると、動き検出部１２１は、領域候補２ｄごとに、新たに入力される連続する複数の撮像画像データＪ２が示す各撮像画像Ｋ２における当該領域候補２ｄの画像の相互の差分を合計する。動き検出部１２１は、領域候補２ｄごとに、相互の差分の合計値を、当該領域候補２ｄの画像における変化の程度として検出する。続いて、動き検出部１２１は、ステップＳ２０３で示したように、領域候補２ｄごとに、画像における変化の程度を示す変化指標を生成する。

続いて、ステップＳ２０４において領域選択部１２２は、各領域候補２ｄの変化指標に基づいて、複数の領域候補２ｄの中から対象領域２ｅを選択する。なお、動き検出部１２１が、各領域候補２ｄの変化指標を所定時間ごとに生成する場合、領域選択部１２２は、各領域候補２ｄの新たな変化指標が生成されるごとに、各領域候補２の新たな変化指標に基づいて、複数の領域候補２ｄの中から対象領域２ｅを選択する。

画像における変化の程度が大きいほど変化指標の値が大きい場合、領域選択部１２２は、複数の領域候補２ｄの中から、最も大きい値の変化指標を有する領域候補２ｄを、対象領域２ｅとして選択する。

最も大きい値の変化指標を有する領域候補２ｄが複数存在する場合、領域選択部１２２は、最も大きい値の変化指標を有する複数の領域候補２ｄの中から、対象領域２ｅを選択する。例えば、領域選択部１２２は、最も大きい値の変化指標を有する複数の領域候補２ｄの中から、対象領域２ｅをランダムに選択する。複数の領域候補２ｄに優先度が設定されている場合、領域選択部１２２は、最も大きい値の変化指標を有する複数の領域候補２ｄの中から、最も高い優先度を有する領域候補２ｄを、対象領域２ｅとして選択してもよい。

画像における変化の程度が大きいほど変化指標の値が小さい場合、領域選択部１２２は、複数の領域候補２ｄの中から、最も小さい値の変化指標を有する領域候補２ｄを、対象領域２ｅとして選択する。

最も小さい値の変化指標を有する領域候補２ｄが複数存在する場合、領域選択部１２２は、最も小さい値の変化指標を有する複数の領域候補２ｄの中から、対象領域２ｅを選択する。例えば、領域選択部１２２は、最も小さい値の変化指標を有する複数の領域候補２ｄの中から、対象領域２ｅをランダムに選択する。複数の領域候補２ｄに優先度が設定されている場合、領域選択部１２２は、最も小さい値の変化指標を有する複数の領域候補２ｄの中から、最も高い優先度を有する領域候補２ｄを、対象領域２ｅとして選択してもよい。

画像における変化の程度（差分）が大きいことは、当該画像に示される演奏者Ｄの動きが大きいことを意味する。演奏者Ｄの動きが大きいことは、当該演奏者Ｄが注目される状態である可能性が高い。演奏者Ｄが注目される状態は、例えば、ソロのパートを演奏している状態、または、大きなアクションを行っている状態である。このため、領域選択部１２２は、注目される状態の演奏者Ｄを示す領域候補２ｄを、対象領域２ｅとして選択する。

続いて、ステップＳ２０５において抽出部１３は、図８に示されるように、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から対象領域２ｅの画像を出力画像Ｐとして抽出する。例えば、抽出部１３は、撮像画像Ｋ２から最新の対象領域２ｅの画像を出力画像Ｐとして抽出する。

続いて、ステップＳ２０６において抽出部１３は、出力画像Ｐを示す出力画像データＴを生成する。

続いて、ステップＳ２０７において生成部１４は、出力画像データＴと演奏音データＬとを含む演奏データＱを生成する。演奏音データＬは、本番の演奏Ｆ２の期間にマイク３によって生成される音データである。このため、演奏データＱは、本番の演奏Ｆ２を画像と音声で表す。

ステップＳ２０７では生成部１４は、出力画像データＴの解像度（横方向の画素数と縦方向の画素数）を送信用の解像度に調整する。送信用の解像度は予め設定されている。

続いて、ステップＳ２０８において出力制御部１５は、演奏データＱに含まれる出力画像データＴを表示装置１ｂに提供して、表示装置１ｂに、出力画像データＴが示す出力画像Ｐを表示させる。

続いて、ステップＳ２０９において出力制御部１５は、演奏データＱに含まれる演奏音データＬをスピーカ１ｃに提供して、スピーカ１ｃに、演奏音データＬが示す演奏音を放音させる。

続いて、ステップＳ２１０において通信制御部１６は、演奏データＱを通信装置１ｄから通信ネットワークＮＷを介して外部装置５に送信する。

なお、ステップＳ２０８からステップＳ２１０までの処理順序は、適宜に変更可能である。

続いて、ステップＳ２１１において動き検出部１２１は、未取得の撮像画像データＪ２が存在するかを判断する。未取得の撮像画像データＪ２が存在すると動き検出部１２１が判断すると、処理がステップＳ２０２に戻り、上述の動作が繰り返される。このため、選択部１２Ａは、例えば本番の演奏Ｆ２に並行して順次に対象領域２ｅを選択する。

上述の動作が繰り返されると、選択部１２Ａは、本番の演奏Ｆ２の期間における各演奏者Ｄの動きに応じて、対象領域２ｅを切り換える。このため、注目される状態の演奏者Ｄを切り換えながら示す演奏データＱが生成される。
ステップＳ２１１において未取得の撮像画像データＪ２が存在しないと動き検出部１２１が判断する場合、図１６に示す動作が終了する。なお、このように動作が終了すると、例えば、本番の演奏Ｆ２の一場面を示す最新の撮像画像データＪ２が演奏収録システム１に到着する前に最新の撮像画像データＪ２より古い撮像画像データＪ２についての処理が完了した場合にも、動作が終了してしまう。このため、動き検出部１２１は、ステップＳ２１１において未取得の撮像画像データＪ２が存在しないと判断する場合、待ち時間だけ、少なくとも連続する撮像画像データＪ２を取得できるまで待ってもよい。待ち時間は、例えば、０．５秒である。待ち時間は、０．５秒に限らず、０．５秒よりも長くてもよいし短くてもよい。この場合、動き検出部１２１が、待ち時間の間に少なくとも連続する撮像画像データＪ２を取得すると、処理がステップＳ２０２に戻る。待ち時間が経過しても、動き検出部１２１が、少なくとも連続する撮像画像データＪ２を取得できない場合、図１６に示す動作が終了する。

Ａ８：第１実施形態のまとめ
決定部１１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１を用いて複数の領域候補２ｄを決定する。選択部１２は、複数の領域候補２ｄの中から対象領域２ｅを選択する。抽出部１３は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から対象領域２ｅに応じた部分の画像（出力画像Ｐ）を抽出する。このため、複数の演奏者Ｄを有するグループの音楽作品を作成する際の手間を少なくできる。また、演奏収録システム１とカメラ２とマイク３というシンプルな構成で出力画像Ｐを生成できる。

検出部１１１は、撮像画像Ｋ１から、対象物Ｍ（複数の演奏者Ｄの身体の少なくとも一部および楽器Ｅ）を検出する。候補決定部１１２は、検出部１１１による検出の結果に基づいて、複数の領域候補２ｄの少なくとも１つを決定する。このため、演奏者Ｄの身体の少なくとも一部および楽器Ｅの検出結果に基づいて、複数の領域候補２ｄの少なくとも１つを自動的に決定できる。このため、ユーザの手間をさらに少なくできる。

選択部１２Ａは、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２における各領域候補２ｄの画像における変化の程度に基づいて、対象領域２ｅを選択する。このため、対象領域２ｅを自動的に選択できる。よって、ユーザの手間をさらに少なくできる。

抽出部１３は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から出力画像Ｐを抽出する。このため、複数の演奏者Ｄを有する演奏グループＢの演奏の画像作品を容易に作成できる。

抽出部１３は、対象領域２ｅが選択されたタイミングに基づくタイミングで、撮像画像Ｋ２から出力画像Ｐを抽出する。このため、対象領域を選択したタイミングに基づくタイミング（例えば、対象領域の選択に応じたタイミング）で、出力画像Ｐを抽出できる。

Ｂ：変形例
第１実施形態における変形の態様を以下に示す。以下の態様から任意に選択された２個以上の態様が、相互に矛盾しない範囲において適宜に併合されてもよい。

Ｂ１：第１変形例
第１実施形態において、領域候補２ｄの数は、演奏者Ｄの数よりも多くてもよい。例えば、演奏者Ｄの数が３である場合、領域候補２ｄの数は４以上でもよい。決定部１１は、領域候補２ｄ１および２ｄ２に加えて、ボーカリストＤ１の顔の位置に対応する領域候補２ｄ３と、楽器演奏者Ｄ２の手の位置に対応する領域候補２ｄ４とを、複数の領域候補２ｄとして決定してもよい。

図１７は、領域候補２ｄ３および２ｄ４の一例を示す図である。複数の領域候補２ｄが、ボーカリストＤ１の顔の位置に対応する領域候補２ｄ３を含む場合、ボーカリストＤ１によるアイコンタクト等の動作を示す出力画像Ｐを生成可能である。複数の領域候補２ｄが、楽器演奏者Ｄ２の手の位置に対応する領域候補２ｄ４を含む場合、楽器演奏者Ｄ２による楽器Ｅの操作を示す出力画像Ｐを生成可能である。例えば、楽器演奏者Ｄ２の手による楽器Ｅの演奏にフォーカスした出力画像Ｐを生成できる。決定部１１は、例えば、学習済みモデル等の推定モデルを用いる画像処理技術を実行することによって、領域候補２ｄ１および２ｄ２と同様に、領域候補２ｄ３および２ｄ４を決定する。

決定部１１は、複数の演奏者Ｄの全員が含まれる画像候補を特定し、当該画像候補（複数の演奏者Ｄの全員が含まれる画像候補）に対応する領域候補を決定してもよい。この場合、決定部１１は、学習済みモデル等の推定モデルを用いる画像処理技術を実行することによって、複数の演奏者Ｄの全員が含まれる画像候補を特定する。

第１変形例によれば、少なくとも１人の演奏者Ｄに対して２以上の領域候補２ｄを設定できる。このため、少なくとも１人の演奏者Ｄに対して、多様なアングルで出力画像Ｐを生成できる。

決定部１１は、楽曲Ｃのジャンル、楽曲Ｃの曲名または演奏グループＢのジャンルに応じて、複数の領域候補２ｄを変更してもよい。例えば、楽曲Ｃのジャンルがロックである場合、決定部１１は、複数の領域候補２ｄとして、領域候補２ｄ１～２ｄ４を選択する。楽曲Ｃのジャンルがジャズである場合、決定部１１は、複数の領域候補２ｄとして、領域候補２ｄ１～２ｄ２を選択する。演奏グループＢのジャンルがロックバンドである場合、決定部１１は、複数の領域候補２ｄとして、領域候補２ｄ１～２ｄ４を選択する。演奏グループＢのジャンルがジャズバンドである場合、決定部１１は、複数の領域候補２ｄとして、領域候補２ｄ１～２ｄ２を選択する。この場合、決定部１１は、楽曲Ｃのジャンル、楽曲Ｃの曲名または演奏グループＢのジャンルを示す区分情報をユーザから操作装置１ａを介して受け取る。決定部１１は、区分情報に基づいて、複数の領域候補２ｄを変更する。このため、ユーザは区分情報を用いることによって複数の領域候補２ｄを変更できる。

Ｂ２：第２変形例
第１実施形態および第１変形例において、決定部１１は、複数の画像領域（例えば、図６における画像領域Ｋ１１およびＫ１２）の中からユーザによって選択された画像領域に基づいて、複数の領域候補２ｄのうち少なくとも１つを決定してもよい。

例えば、決定部１１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１において２以上の画像領域（例えば、図６における画像領域Ｋ１１およびＫ１２）を特定した場合、表示装置１ｂに、当該２以上の画像領域を表示させる。決定部１１は、表示装置１ｂに表示された２以上の画像領域の中からユーザによって選択された画像領域に基づいて、複数の領域候補２ｄのうち少なくとも１つを決定する。

例えば、決定部１１は、表示装置１ｂに表示された２以上の画像領域の中からユーザによって選択された画像領域を、選択画像領域として特定する。決定部１１は、選択画像領域を示す画像領域データを生成する。選択画像領域を示す画像領域データは、選択画像領域の中心位置を回転角度θyと回転角度θpで示し、選択画像領域の大きさを基準矩形領域の大きさに対する選択画像領域の大きさの比で示す。決定部１１は、撮像領域２ａにおいて、選択画像領域を示す画像領域データによって示される範囲を、領域候補２ｄとして決定する。

第２変形例によれば、複数の領域候補２ｄの決定において、ユーザによる選択が介在するため、ユーザの好みに応じて領域候補２ｄを決定できる。

Ｂ３：第３変形例
第１実施形態および第１変形例～第２変形例において、決定部１１は、リハーサルの演奏Ｆ１の場面を表す撮像画像Ｋ１においてユーザによって設定された画像領域に基づいて、複数の領域候補２ｄのうち少なくとも１つを決定してもよい。

例えば、決定部１１は、撮像画像Ｋ１において２以上の画像領域（例えば、図６における画像領域Ｋ１１およびＫ１２）を特定した場合、表示装置１ｂに、当該２以上の画像領域を表示させる。決定部１１は、表示装置１ｂに表示された２以上の画像領域の中からユーザによって位置またはサイズが変更された画像領域に基づいて、当該画像領域（ユーザによって位置またはサイズが変更された画像領域）の数と同じ数の領域候補２ｄを決定する。ユーザによって変更された画像領域は、ユーザによって設定された画像領域の一例である。

決定部１１は、撮像画像Ｋ１を表示装置１ｂに表示させてもよい。この場合、決定部１１は、表示装置１ｂに表示された撮像画像Ｋにおいてユーザによって設定された画像領域に基づいて、当該画像領域の数と同じ数の領域候補２ｄを決定する。この場合、決定部１１は、例えば、ユーザによって設定された画像領域の縦横比を縦横比ＡＰに制限する。決定部１１は、ユーザによって設定された画像領域を示す画像領域データを生成する。ユーザによって設定された画像領域を示す画像領域データは、当該画像領域の中心位置を回転角度θyと回転角度θpで示し、当該画像領域の大きさを基準矩形領域の大きさに対する選択画像領域の大きさの比で示す。

ユーザによって変更または設定された画像領域に基づいて、領域候補２ｄを決定する手法は、画像領域Ｋ１１に基づいて領域候補２ｄ１を決定する手法と同様である。

第３変形例によれば、複数の領域候補２ｄの決定において、ユーザによる操作が介在するため、ユーザの好みに応じて領域候補２ｄを決定できる。

Ｂ４：第４変形例
第１実施形態および第１変形例～第３変形例において、決定部１１は、マイク３がリハーサルの演奏Ｆ１の音を収音することによって得られる音に基づいて、撮像領域２ａにおいて楽器Ｅが存在する領域を推定してもよい。

第４変形例において、マイク３は、例えば、指向性を有するマイクである。指向性を有するマイク３とは、指向性を有する複数のマイクで構成されるマイクである。複数のマイクは、それぞれ、指向性に応じた収音範囲を有する。複数のマイクの収音範囲は、互いに異なる。なお、複数のマイクの収音範囲が互いに異なっていれば、複数のマイクの少なくとも１つは無指向性マイクでもよい。

決定部１１は、マイク３を構成する複数のマイクのうち、最も大きな音を収音したマイクを、対象マイクとして特定する。決定部１１は、撮像領域２ａにおいて、対象マイクの収音範囲と重なる領域を、楽器Ｅが存在する領域として推定する。
決定部１１は、マイク３を構成する複数のマイクによる複数の収音結果に基づいて、楽器Ｅが存在する領域を推定してもよい。例えば、各マイクの収音範囲の一部が相互に重なる状況では、決定部１１は、まず、基準レベル以上の音量の音を収音したマイクを、検出マイクとして特定する。決定部１１は、検出マイクとして１つのマイクを特定した場合、撮像領域２ａにおいて、検出マイクの収音範囲と重なる領域を、楽器Ｅが存在する領域として推定する。決定部１１は、検出マイクとして複数のマイクを特定した場合、各検出マイクの収音範囲が重なっている領域を、重畳領域として特定する。決定部１１は、撮像領域２ａにおいて、重畳領域と重なる領域を、楽器Ｅが存在する領域として推定する。

決定部１１は、楽器Ｅが存在する領域の推定結果に基づいて、複数の領域候補２ｄのうち少なくとも１つを決定してもよい。例えば、決定部１１は、楽器Ｅが存在すると推定した領域を、領域候補２ｄとして決定する。

第４変形例によれば、演奏者Ｄの身体の少なくとも一部および楽器Ｅの検出結果に加えて、楽器Ｅが存在する領域の推定結果に基づいて、複数の領域候補２ｄの少なくとも１つが決定される。このため、演奏者Ｄの身体の少なくとも一部および楽器Ｅの検出結果のみに基づいて複数の領域候補２ｄの少なくとも１つが決定される構成に比べて、複数の領域候補２ｄを多様にできる。

Ｂ５：第５変形例
第１実施形態および第１変形例～第４変形例において、選択部１２は、撮像画像Ｋ２での各領域候補２ｄの画像における変化の程度と、指向性を有するマイク３が本番の演奏Ｆ２の音を収音して得られる音と、の両方に基づいて、対象領域２ｅを選択してもよい。

例えば、選択部１２は、まず、マイク３を構成する複数のマイクの中で閾値レベル以上の音を収音したマイクを、検出マイクとして特定する。続いて、選択部１２は、検出マイクの収音範囲の少なくとも一部と重なる領域候補２ｄを特定する。続いて、選択部１２は、検出マイクの収音範囲の少なくとも一部と重なる領域候補２ｄの変化指標を変更する。領域候補２ｄに示される画像における変化の程度が大きいほど変化指標の値が大きい場合、選択部１２は、検出マイクの収音範囲の少なくとも一部と重なる領域候補２ｄの変化指標の値を、調整値だけ大きくする。調整値は、予め設定された値である。領域候補２ｄに示される画像における変化の程度が大きいほど変化指標の値が小さい場合、選択部１２は、検出マイクの収音範囲の少なくとも一部と重なる領域候補２ｄの変化指標の値を、調整値だけ小さくする。続いて、選択部１２は、各領域候補２ｄの変化指標に基づいて、複数の領域候補２ｄの中から対象領域２ｅを選択する。

第５変形例によれば、選択部１２は、各領域候補２ｄの画像における変化の程度と、本番の演奏Ｆ２の音を収音して得られる音と、の両方に基づいて、対象領域２ｅを選択する。このため、各領域候補２ｄの画像における変化の程度のみに基づいて対象領域２ｅが選択される構成に比べて、対象領域２ｅの切り替えを多様にできる。

なお、選択部１２が変化指標の値を変更するために用いる情報は、本番の演奏Ｆ２の音に限らず、演奏者Ｄによる１または複数の特定動作でもよい。特定動作は、例えば、右手を挙げる動作、頭を振る動作、または楽器Ｅを移動する動作である。特定動作は、特殊動作とも称される。複数の特定動作は、互いに異なる。選択部１２は、例えば、画像認識技術で特定動作を検出する。

選択部１２が演奏者Ｄによる特定動作に基づいて変化指標の値を変更することは、選択部１２が、各領域候補２ｄの画像における変化の程度と、演奏者Ｄによる特定動作と、の両方に基づいて、対象領域２ｅを選択することを意味する。このため、各領域候補２ｄの画像における変化の程度のみに基づいて対象領域２ｅが選択される構成に比べて、対象領域２ｅの切り替えを多様にできる。例えば、複数の演奏者Ｄが、順番に右手を挙げることで、出力画像Ｐに示される演奏者Ｄを切り換えることができる。

Ｂ６：第６変形例
第１実施形態および第１変形例～第５変形例において、選択部１２は、撮像画像Ｋ２での各領域候補２ｄの画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、対象領域２ｅを選択してもよい。

例えば、第１実施形態および第１変形例～第５変形例では、本番の演奏Ｆ２の間、楽器演奏者Ｄ２がボーカリストＤ１よりも大きく動く場合、多くの出力画像Ｐが楽器演奏者Ｄ２を表す可能性が高い。しかしながら、多くの出力画像Ｐを、楽器演奏者Ｄ２よりも動きが小さいボーカリストＤ１の画像にしたいという要望も考えられる。第６変形例は、このような要望に応える手法の一例である。例えば、選択部１２は、ボーカリストＤ１の変化指標に対して、楽器演奏者Ｄ２の変化指標よりも大きい重みを付与する。

選択部１２は、ボーカリストＤ１の変化指標に重み係数Ｗ１を乗じることによって得られる指標を、ボーカリストＤ１の指標として算出する。選択部１２は、楽器演奏者Ｄ２の変化指標に重み係数Ｗ２を乗じることによって得られる指標を、楽器演奏者Ｄ２の指標として算出する。選択部１２は、ボーカリストＤ１の指標と楽器演奏者Ｄ２の指標との両方に基づいて、対象領域２ｅを選択する。

重み係数Ｗ１およびＷ２は、例えば、ユーザによって設定される。重み係数Ｗ１およびＷ２は、予め設定されていてもよい。重み係数Ｗ１およびＷ２は、ユーザから操作装置１ａに入力される変更指示に応じて変更されてもよい。ボーカリストＤ１の指標と楽器演奏者Ｄ２の指標は、それぞれ、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２での各領域候補２ｄの画像における変化の程度に対して重み付けを施すことによって得られる指標の一例である。

領域候補２ｄに示される画像における変化の程度が大きいほど変化指標の値が大きい場合、重み係数Ｗ１は、重み係数Ｗ２よりも大きい値に設定される。この状況においてボーカリストＤ１の指標が楽器演奏者Ｄ２の指標よりも大きい場合、選択部１２は、ボーカリストＤ１の領域候補２ｄ１を対象領域２ｅとして選択する。楽器演奏者Ｄ２の指標がボーカリストＤ１の指標よりも大きい場合、選択部１２は、楽器演奏者Ｄ２の領域候補２ｄ２を対象領域２ｅとして選択する。

領域候補２ｄに示される画像における変化の程度が大きいほど変化指標の値が小さい場合、重み係数Ｗ１は、重み係数Ｗ２よりも小さい値に設定される。この状況においてボーカリストＤ１の指標が楽器演奏者Ｄ２の指標よりも小さい場合、選択部１２は、ボーカリストＤ１の領域候補２ｄ１を対象領域２ｅとして選択する。楽器演奏者Ｄ２の指標がボーカリストＤ１の指標よりも小さい場合、選択部１２は、楽器演奏者Ｄ２の領域候補２ｄ２を対象領域２ｅとして選択する。

ボーカリストＤ１の指標が楽器演奏者Ｄ２の指標と等しい場合、選択部１２は、ボーカリストＤ１の領域候補２ｄ１と楽器演奏者Ｄ２の領域候補２ｄ２との中から、対象領域２ｅをランダムに選択する。ボーカリストＤ１の領域候補２ｄ１と楽器演奏者Ｄ２の領域候補２ｄ２に優先度が設定される状況も想定される。この状況においてボーカリストＤ１の指標が楽器演奏者Ｄ２の指標と等しい場合、選択部１２は、領域候補２ｄ１および２ｄ２のうち高い優先度の領域候補２ｄを対象領域２ｅとして選択してもよい。

上述の重み係数Ｗ１と重み係数Ｗ２との設定は、演奏者Ｄの種別（ボーカリストと楽器演奏者）に応じて設定される。演奏者Ｄの種別は、ボーカリストと楽器演奏者に限らず、例えば、ボーカリスト、ギタリスト、ベーシスト、ドラマーでもよい。

重み係数Ｗ１と重み係数Ｗ２は、演奏者Ｄの種別とは異なる情報に応じて設定されてもよい。例えば、重み係数Ｗ１と重み係数Ｗ２は、楽曲Ｃのジャンルに応じて設定されてもよい。

図１８は、楽曲Ｃのジャンルに応じた重み係数Ｗ１およびＷ２の一例を表すジャンルテーブルＪＴを示す図である。楽曲Ｃのジャンルは、図１８に示されるポップスおよびジャズに限らず、例えば、ロックおよびクラシックを含んでもよい。ジャンルテーブルＪＴは、例えば、記憶装置１ｅに記憶される。選択部１２は、ジャンルテーブルＪＴに示される重み係数Ｗ１およびＷ２から、ユーザから操作装置１ａに入力されたジャンルに応じた重み係数Ｗ１およびＷ２を選択する。続いて、選択部１２は、入力されたジャンルに応じた重み係数Ｗ１およびＷ２をそれぞれ変化指標に乗じることによって、ボーカリストＤ１の指標と、楽器演奏者Ｄ２の指標と、を生成する。選択部１２は、ボーカリストＤ１の指標と楽器演奏者Ｄ２の指標とに基づいて対象領域２ｅを選択する。

重み係数Ｗ１と重み係数Ｗ２は、楽曲Ｃの曲目に応じて設定されてもよい。この場合、選択部１２は、対象領域２ｅを楽曲Ｃの曲目に応じて変更できる。

第６変形例によれば、対象領域２ｅとして選択される領域候補２ｄを重み付けによって調整できる。
なお、領域候補２ｄの画像だけではなく、複数のマイクで構成されるマイク３が収音した音の音量も含めて、重みづけが行われてもよい。例えば、ボーカリストＤ１の歌声を強調する場合には、ボーカリストＤ１が存在する収音領域を有するマイクのゲインに対して、他のマイクのゲインよりも大きい重みが施される。この場合、ボーカリストＤ１の歌声が、他の音よりも高い増幅度で増幅され、ボーカリストＤ１の歌声が強調される。マイク３が収音した音の音量への重みづけは、ボーカリストＤ１が存在する収音領域を有するマイクのゲインに対して、他のマイクのゲインよりも大きい重みを施す態様に限定されない。例えば、本番の演奏Ｆ２の進行に応じて、各マイクのゲインに対する重み付けが変更されてもよい。

Ｂ７：第７変形例
第１実施形態および第１変形例～第６変形例において、選択部１２は、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２における各領域候補２ｄの画像の中からユーザによって選択された領域候補２ｄの画像に基づいて、対象領域２ｅを選択してもよい。

例えば、選択部１２は、本番の演奏Ｆ２に並行して、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２における各領域候補２ｄの画像を、表示装置１ｂに表示させる。複数の演奏者Ｄとは異なるユーザは、表示装置１ｂに表示させる各領域候補２ｄの画像の中から１つの領域候補２ｄの画像を、操作装置１ａを用いて選択する。選択部１２は、ユーザによって選択された領域候補２ｄの画像に基づいて、対象領域２ｅを選択する。例えば、選択部１２は、ユーザによって選択された画像を表す領域候補２ｄを、対象領域２ｅとして選択する。なお、選択部１２は、ユーザによって選択された画像を表す領域候補２ｄの変化指数を調整することによって、ユーザによって選択された画像を示す領域候補２ｄを、対象領域２ｅとして選択してもよい。この場合、本番の演奏Ｆ２に並行して、対象領域２ｅを手動で選択できる。

選択部１２は、本番の演奏Ｆ２の前に対象領域２ｅを選択してもよい。例えば、選択部１２は、まず、リハーサルの演奏Ｆ１の場面を表す一連の撮像画像Ｋ１によって各領域候補２ｄに示される動画を表示装置１ｂに表示する。ユーザは、各領域候補２ｄに示されるリハーサルの演奏Ｆ１の動画の進行に合わせて、各領域候補２ｄに示される動画を順次選択する。この際、ユーザは、リハーサルの演奏Ｆ１の動画の進行に合わせて、選択される動画を切り換える。選択部１２は、リハーサルの演奏Ｆ１の動画の進行に合わせてユーザに選択された動画を示す領域候補２ｄを、対象領域２ｅとして順次選択する。選択部１２は、対象領域２ｅの順次の選択結果と、リハーサルの演奏Ｆ１おける経過時間と、を示す選択情報を、記憶装置１ｅに記憶する。抽出部１３は、本番の演奏Ｆ２が始まると、選択情報が示す経過時間に合わせて切り換わる対象領域２ｅに基づいて、出力画像Ｐを抽出する。この場合、本番の演奏Ｆ２の前に、本番の演奏Ｆ２から生成される出力画像Ｐを推測できる。

第７変形例によれば、対象領域２ｅの選択に、ユーザが介在する。このため、ユーザの好みに応じて対象領域２ｅを選択できる。

Ｂ８：第８変形例
第１実施形態および第１変形例～第７変形例において、抽出部１３に入力される撮像画像Ｋ２（本番の演奏Ｆ１の場面を表す画像）は、選択部１２に入力される撮像画像Ｋ２（本番の演奏Ｆ１の場面を表す画像）よりも遅延してもよい。

選択部１２は、撮像画像Ｋ２での画像の変化に基づいて対象領域２ｅを選択する。抽出部１３は、撮像画像Ｋ２に基づいて選択された対象領域２ｅを用いて、撮像画像Ｋ２から出力画像Ｐを抽出する。このため、抽出部１３に入力される撮像画像Ｋ２が、選択部１２に入力される撮像画像Ｋ２と同期する場合、演奏者Ｄの動き出しの場面を表す画像および演奏者Ｄの動き出しの直前の場面を表す画像は、出力画像Ｐとして生成され難い。第８変形例は、演奏者Ｄの動き出しの場面を表す画像および演奏者Ｄの動き出しの直前の場面を表す画像が出力画像Ｐとして生成され難いという課題を解決する手法の一例である。

第８変形例では、例えば、選択部１２が撮像画像Ｋ２を遅延せずに用いるのに対して、抽出部１３は、撮像画像Ｋ２を調整時間だけ遅延して用いる。調整時間は、例えば１秒である。調整時間は、１秒よりも短くてもよいし長くてもよい。抽出部１３は、選択部１２が対象領域２ｅを抽出した撮像画像Ｋ２よりも調整時間だけ前に生成された撮像画像Ｋ２から、出力画像Ｐを抽出する。

第８変形例によれば、演奏者Ｄの動き出しの場面を表す画像および演奏者Ｄの動き出しの直前の場面を表す画像が、出力画像Ｐとして生成されやすくなる。なお、第８変形例では、生成部１４は、演奏音データＬを調整時間だけ遅延して使用する。このため、演奏データＱにおいて、画像と音との同期は維持される。

Ｂ９：第９変形例
第１実施形態および第１変形例～第８変形例において、抽出部１３は、本番の演奏Ｆ２の音のリズムに合わせて、撮像画像Ｋ２からの出力画像Ｐの抽出（出力画像Ｐの切り替え）を実行してもよい。

例えば、抽出部１３は、本番の演奏Ｆ２における楽器Ｅ（例えば、ドラムまたはベース）の音に基づいて、楽曲Ｃのリズム（拍）を推定する。抽出部１３は、楽曲Ｃのリズムに合わせて撮像画像Ｋ２から出力画像Ｐを抽出する。

第９変形例によれば、抽出部１３は、本番の演奏Ｆ２の音を収音することによって得られる音のリズムに合わせて、撮像画像Ｋ２から出力画像Ｐを抽出する。このため、本番の演奏Ｆ２に合わせて出力画像Ｐ２を抽出できる。

Ｂ１０：第１０変形例
第１実施形態および第１変形例～第９変形例において、抽出部１３は、対象領域２ｅの切り換えに応じて、カメラがパンされたように出力画像Ｐを切り換えてもよい。抽出部１３は、対象領域２ｅの切り換えに応じて、切り換え前の出力画像Ｐをフェードアウトさせながら、切り換え前の出力画像Ｐをフェードインさせてもよい。

第１０変形例によれば、出力画像Ｐの切り換えを滑らかできる。また、出力画像Ｐの切り換えを視覚的に演出できる。

Ｂ１１：第１１変形例
第１実施形態および第１変形例～第１０変形例において、選択部１２は、複数の対象領域２ｅを選択してもよい。例えば、画像における変化の程度が大きいほど変化指標の値が大きい場合、選択部１２は、複数の領域候補２ｄの中から、最も大きい値の変化指標を有する領域候補２ｄと、２番目に大きい値の変化指標を有する領域候補２ｄとを、対象領域２ｅとして選択する。

選択部１２が複数の対象領域２ｅを選択する場合、抽出部１３は、対象領域２ｅごとに、本番の演奏Ｆ２の場面を表す撮像画像Ｋ２から対象領域２ｅの画像を出力画像Ｐとして抽出する。

第１１変形例によれば、１つの撮像画像Ｋ２から複数の出力画像Ｐが抽出されるので、複数の出力画像Ｐを一度に示す演奏データＱを生成できる。

Ｂ１２：第１２変形例
第１実施形態および第１変形例～第１０変形例において、演奏記録は、複数の演奏者Ｄが本番の演奏Ｆ２を行う場面をカメラ２が撮像することによって生成される撮像画像Ｋ２に限らない。例えば、演奏記録は、本番の演奏Ｆ２の音をマイク３が収音することによって得られる演奏音を含んでもよい。この場合、演奏記録において対象領域２ｅに応じた部分は、撮像画像Ｋ２における対象領域２ｅの画像に加えて、本番の演奏Ｆ２の音をマイク３が収音することによって得られる演奏音のうち対象領域２ｅからの音を含む。対象領域２ｅからの音は、指向性を有するマイク３（指向性を有する複数のマイクセット）の収音データから、対象領域２ｅからの音を示す収音データを抽出することによって特定される。

演奏記録は、撮像画像Ｋ２と、本番の演奏Ｆ２の音をマイク３が収音することによって得られる演奏音と、のいずれか一方のみでもよい。この場合、演奏記録において対象領域ｅ２に応じた部分は、撮像画像Ｋ２における対象領域２ｅの画像と、本番の演奏Ｆ２の音をマイク３が収音することによって得られる演奏音のうち対象領域２ｅからの音と、の一方である。

第１２変形例によれば、複数の演奏者Ｄを有する演奏グループＢの演奏の演奏音作品を容易に作成できる。

Ｂ１３：第１３変形例
第１実施形態および第１変形例～第１２変形例において、カメラ２は、３６０度カメラに限らず、３６０度未満の画角を有するカメラ（例えば、１８０度カメラ）でもよい。カメラ２が３６０度カメラでない場合、カメラ２が生成した撮像画像を平面に展開する処理は不要である。
カメラ２が３６０度カメラである場合、複数の演奏者Ｄは、複数の演奏者Ｄの各々が撮像領域２ａ内に収まっているかを意識せずに演奏を行える。

Ｂ１４：第１４変形例
第１実施形態および第１変形例～第１３変形例において、第１演奏と第２演奏は、リハーサルの演奏Ｆ１と本番の演奏Ｆ２に限らない。例えば、本番の演奏が繰り返し行われる場合、第１演奏は過去の本番の演奏であり、第２演奏は今後の本番の演奏でもよい。

Ｂ１５：第１５変形例
第１実施形態および第１変形例～第１３変形例において、演奏収録システム１は、スマートフォン、タブレットまたはパーソナルコンピュータではなく、例えば、サーバによって構成されてもよい。

Ｃ：上述の形態および変形例から把握される態様
上述の形態および変形例の少なくとも１つから以下の態様が把握される。

Ｃ１：第１態様
本開示の態様（第１態様）に係る演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。

Ｃ２：第２態様
第１態様の例（第２態様）において、前記複数の領域候補を決定することは、前記第１撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、前記検出の結果に基づいて、前記複数の領域候補の少なくとも１つを決定することと、を含む。この態様によれば、演奏者の身体の少なくとも一部および楽器の検出結果に基づいて、複数の領域候補の少なくとも１つを自動的に決定できる。このため、ユーザの手間をさらに少なくできる。

Ｃ３：第３態様
第２態様の例（第３態様）において、前記複数の領域候補を決定することは、前記第１演奏の音を収音することによって得られる音に基づいて、前記撮像領域において前記楽器が存在する領域を推定することと、前記推定の結果に基づいて、前記複数の領域候補の少なくとも１つを決定することと、をさらに含む。この態様によれば、演奏者の身体の少なくとも一部および楽器の検出結果のみに基づいて複数の領域候補の少なくとも１つが決定される構成に比べて、複数の領域候補を多様にできる。

Ｃ４：第４態様
第１態様の例（第４態様）において、前記複数の領域候補を決定することは、前記第１撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、前記検出の結果に基づいて、前記第１撮像画像において複数の画像領域を特定することと、前記複数の画像領域の中からユーザによって選択された画像領域に基づいて、前記複数の領域候補の少なくとも１つを決定することと、を含む。この態様によれば、複数の領域候補の決定において、ユーザによる選択が介在するため、ユーザの好みに応じて領域候補を決定できる。

Ｃ５：第５態様
第１態様の例（第５態様）において、前記複数の領域候補を決定することは、前記第１撮像画像においてユーザによって設定された画像領域に基づいて、前記複数の領域候補の少なくとも１つを決定すること、を含む。この態様によれば、ユーザの好みに応じて領域候補を決定できる。

Ｃ６：第６態様
第１態様から第５態様のいずれかの例（第６態様）において、前記対象領域を選択することは、前記第２演奏を表す第２撮像画像における各領域候補の画像における変化の程度に基づいて、前記対象領域を選択すること、を含む。この態様によれば、第２撮像画像における各領域候補の画像での変化の程度に基づいて、対象領域を自動的に選択できる。このため、ユーザの手間をさらに少なくできる。

Ｃ７：第７態様
第６態様の例（第７態様）において、前記対象領域を選択することは、前記各領域候補の画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、前記対象領域を選択すること、を含む。この態様によれば、対象領域として選択される領域候補を、重み付けによって調整できる。

Ｃ８：第８態様
第１態様から第５態様のいずれかの例（第８態様）において、前記対象領域を選択することは、前記第２演奏を表す第２撮像画像における各領域候補の画像の中からユーザによって選択された領域候補の画像に基づいて、前記対象領域を選択すること、を含む。この態様によれば、ユーザの好みに応じて対象領域を選択できる。

Ｃ９：第９態様
第１態様から第８態様のいずれかの例（第９態様）において、前記演奏記録から前記対象領域に応じた部分を抽出することは、前記対象領域の選択に応じたタイミングで、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む。この態様によれば、対象領域の選択に応じたタイミングで対象領域に応じた部分を抽出できる。

Ｃ１０：第１０態様
第１態様から第８態様のいずれかの例（第１０態様）において、前記演奏記録から前記対象領域に応じた部分を抽出することは、前記第２演奏の音を収音することによって得られる音のリズムに合わせて、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む。この態様によれば、第２演奏に合わせて対象領域に応じた部分を抽出できる。

Ｃ１１：第１１態様
第１態様から第１０態様のいずれかの例（第１１態様）において、前記演奏記録は、前記複数の演奏者が前記第２演奏を行う場面を前記カメラが撮像することによって生成される第２撮像画像であり、前記対象領域に応じた部分は、前記第２撮像画像における前記対象領域の画像である。この態様によれば、複数の演奏者を有するグループの演奏の映像作品を容易に作成できる。

Ｃ１２：第１２態様
第１態様から第１０態様のいずれかの例（第１２態様）において、前記演奏記録は、前記第２演奏の音をマイクが収音することによって得られる演奏音であり、前記対象領域に応じた部分は、前記演奏音のうち前記対象領域からの音である。この態様によれば、複数の演奏者を有するグループの演奏の演奏音作品を容易に作成できる。

Ｃ１３：第１３態様
本開示の態様（第１３態様）に係る演奏収録システムは、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、前記複数の領域候補の中から対象領域を選択する選択部と、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、を含む。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。

Ｃ１４：第１４態様
本開示の態様（第１４態様）に係るプログラムは、複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、前記複数の領域候補の中から対象領域を選択する選択部、および、前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部としてコンピュータシステムを機能させる。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。

１…演奏収録システム、１ａ…操作装置、１ｂ…表示装置、１ｃ…スピーカ、１ｄ…通信装置、１ｅ…記憶装置、１ｆ…処理装置、２…カメラ、３…マイク、１１…決定部、１１Ａ…決定部、１２…選択部、１２Ａ…選択部、１３…抽出部、１４…生成部、１５…出力制御部、１６…通信制御部、４１…推定モデル、４１ａ…暫定モデル、４２…推定モデル、１１１…検出部、１１２…候補決定部、１２１…動き検出部、１２２…領域選択部。

Claims

コンピュータシステムにより実現される演奏収録方法であって、
複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、
前記複数の領域候補の中から対象領域を選択し、
前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する、
演奏収録方法。
前記複数の領域候補を決定することは、
前記第１撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、
前記検出の結果に基づいて、前記複数の領域候補の少なくとも１つを決定することと、を含む
請求項１に記載の演奏収録方法。
前記複数の領域候補を決定することは、
前記第１演奏の音を収音することによって得られる音に基づいて、前記撮像領域において前記楽器が存在する領域を推定することと、
前記推定の結果に基づいて、前記複数の領域候補の少なくとも１つを決定することと、をさらに含む
請求項２に記載の演奏収録方法。
前記複数の領域候補を決定することは、
前記第１撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、
前記検出の結果に基づいて、前記第１撮像画像において複数の画像領域を特定することと、
前記複数の画像領域の中からユーザによって選択された画像領域に基づいて、前記複数の領域候補の少なくとも１つを決定することと、を含む
請求項１に記載の演奏収録方法。
前記複数の領域候補を決定することは、
前記第１撮像画像においてユーザによって設定された画像領域に基づいて、前記複数の領域候補の少なくとも１つを決定すること、を含む
請求項１に記載の演奏収録方法。
前記対象領域を選択することは、
前記第２演奏を表す第２撮像画像における各領域候補の画像における変化の程度に基づいて、前記対象領域を選択すること、を含む、
請求項１から５のいずれか１項に記載の演奏収録方法。
前記対象領域を選択することは、
前記各領域候補の画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、前記対象領域を選択すること、を含む、
請求項６に記載の演奏収録方法。
前記対象領域を選択することは、
前記第２演奏を表す第２撮像画像における各領域候補の画像の中からユーザによって選択された領域候補の画像に基づいて、前記対象領域を選択すること、を含む、
請求項１から５のいずれか１項に記載の演奏収録方法。
前記演奏記録から前記対象領域に応じた部分を抽出することは、
前記対象領域の選択に応じたタイミングで、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む、
請求項１から８のいずれか１項に記載の演奏収録方法。
前記演奏記録から前記対象領域に応じた部分を抽出することは、
前記第２演奏の音のリズムに合わせて、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む、
請求項１から８のいずれか１項に記載の演奏収録方法。
前記演奏記録は、前記複数の演奏者が前記第２演奏を行う場面を前記カメラが撮像することによって生成される第２撮像画像であり、
前記対象領域に応じた部分は、前記第２撮像画像における前記対象領域の画像である、
請求項１から１０のいずれか１項に記載の演奏収録方法。
前記演奏記録は、前記第２演奏の音をマイクが収音することによって得られる演奏音であり、
前記対象領域に応じた部分は、前記演奏音のうち前記対象領域からの音である、
請求項１から１０のいずれか１項に記載の演奏収録方法。
複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、
前記複数の領域候補の中から対象領域を選択する選択部と、
前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、
を含む演奏収録システム。
複数の演奏者が楽曲の第１演奏を行う場面をカメラが撮像することによって生成される第１撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、
前記複数の領域候補の中から対象領域を選択する選択部、および、
前記複数の演奏者が前記楽曲の第２演奏を行う場面を撮像または前記第２演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部
としてコンピュータシステムを機能させるプログラム。