JP2023040568A - 演奏収録方法、演奏収録システムおよびプログラム - Google Patents

演奏収録方法、演奏収録システムおよびプログラム Download PDF

Info

Publication number
JP2023040568A
JP2023040568A JP2021147641A JP2021147641A JP2023040568A JP 2023040568 A JP2023040568 A JP 2023040568A JP 2021147641 A JP2021147641 A JP 2021147641A JP 2021147641 A JP2021147641 A JP 2021147641A JP 2023040568 A JP2023040568 A JP 2023040568A
Authority
JP
Japan
Prior art keywords
performance
area
image
region
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021147641A
Other languages
English (en)
Inventor
貴洋 原
Takahiro Hara
大智 井芹
Hirotomo Iseri
隆広 赤羽根
Takahiro Akabane
哲史 小幡
Satoshi Obata
貴央 柳川
Takahisa Yanagawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2021147641A priority Critical patent/JP2023040568A/ja
Priority to PCT/JP2022/032959 priority patent/WO2023037956A1/ja
Publication of JP2023040568A publication Critical patent/JP2023040568A/ja
Priority to US18/600,189 priority patent/US20240212306A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)
  • Studio Devices (AREA)
  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2023040568000001
【課題】複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる技術を提供する。
【解決手段】演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。
【選択図】図10

Description

本開示は、演奏収録方法、演奏収録システムおよびプログラムに関する。
特許文献1に記載の音楽作成システムは、演奏者ごとの演奏コンテンツデータを組み合わせることによって、複数の演奏者による音楽作品を作成する。演奏者ごとの演奏コンテンツデータは、事前に、演奏者ごとに演奏を収録することによって生成される。
特開2015-31885号公報
特許文献1に記載の音楽作成システムでは、バンドのような複数の演奏者を有するグループの音楽作品を作成するには、事前に、演奏者ごとに演奏を収録することによって演奏者ごとの演奏コンテンツデータを作成する必要があり、手間がかかった。
本開示のひとつの態様は、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる技術の提供を目的とする。
本開示の一態様に係る演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。
本開示の他の態様に係る演奏収録システムは、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、前記複数の領域候補の中から対象領域を選択する選択部と、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、を含む。
本開示のさらに他の態様に係るプログラムは、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、前記複数の領域候補の中から対象領域を選択する選択部、および、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部としてコンピュータシステムを機能させる。
第1実施形態に係る演奏収録システム1を示す図である。 カメラ2に対して仮想的に設定される3つの軸を示す図である。 平面に展開されたカメラ2の撮像領域2aを示す図である。 撮像画像K1を平面に展開した図である。 撮像画像K2を平面に展開した図である。 対象物Mと複数の領域候補2dとの一例を示す図である。 領域候補2d1が対象領域2eとして選択される例を示す。 出力画像Pの一例を示す図である。 演奏収録システム1の一例を示す図である。 処理装置1fの一例を示す図である。 決定部11の一例である決定部11Aを示す図である。 機械学習を説明するための図である。 学習データV2の一例を示す図である。 選択部12Aを示す図である。 複数の領域候補2dを決定する動作の一例を示す図である。 演奏データQを生成する動作の一例を示す図である。 領域候補2d3および2d4の一例を示す図である。 楽曲Cのジャンルに応じた重み係数W1およびW2の一例を示す図である。
A:第1実施形態
A1:演奏収録システム1
図1は、第1実施形態に係る演奏収録システム1を示す図である。演奏収録システム1は、演奏会場Aにおいて演奏グループBによる楽曲Cの演奏を収録するコンピュータシステムである。
演奏会場Aは、演奏が行われる場所である。演奏会場Aは、例えば、音楽スタジオ、演奏ホール、野外ステージまたは教室である。
演奏グループBは、複数の演奏者Dを含む音楽バンドである。複数の演奏者Dは、ボーカリストD1と楽器演奏者D2との2人によって構成される。ボーカリストD1と楽器演奏者D2は、それぞれ、演奏者Dの一例である。ボーカリストD1は、楽曲Cを歌う。楽器演奏者D2は、楽器Eを用いて楽曲Cを演奏する。楽器Eは、ギターである。楽器Eは、ギターに限らず、例えば、ベース、ドラム、電子ピアノまたはシンセサイザーでもよい。複数の演奏者Dは、複数のボーカリストD1を含んでもよい。複数の演奏者Dは、複数の楽器演奏者D2を含んでもよい。複数の楽器演奏者D2が使用する複数の楽器Eは、互いに異なる種類の楽器でもよいし、同一の種類の楽器でもよい。
演奏グループBは、演奏会場Aで楽曲Cについて、リハーサルの演奏F1と、本番の演奏F2と、を行う。リハーサルの演奏F1は、第1演奏の一例である。本番の演奏F2は、第2演奏の一例である。
演奏収録システム1は、カメラ2およびマイク3と接続される。演奏収録システム1は、カメラ2およびマイク3のうち少なくとも一方を含んでもよい。カメラ2およびマイク3は、それぞれ、演奏会場Aの中央に配置される。カメラ2およびマイク3の位置は、演奏会場Aの中央に限らず、演奏会場Aに配置されていればよい。演奏収録システム1は、カメラ2とマイク3とを用いて演奏会場Aにおいて演奏グループBによる楽曲Cの演奏を収録する。
カメラ2は、360度カメラである。360度カメラは、全天球カメラまたは全方位カメラとも称される。
図2は、カメラ2に対して仮想的に設定される3つの軸を示す図である。3つの軸は、ロール軸G1とピッチ軸G2とヨー軸G3である。ロール軸G1は、カメラ2の前後方向と平行な軸である。ピッチ軸G2は、カメラ2の左右方向と並行な軸である。ヨー軸G3は、カメラ2の上下方向と並行な軸である。ロール軸G1とピッチ軸G2とヨー軸G3は、相互に直交する。
カメラ2の撮像領域2aは、カメラ2の全周囲を包含する。図3は、平面に展開されたカメラ2の撮像領域2aを示す図である。平面に展開された撮像領域2aにおける横方向H1は、ヨー軸G3を回転軸とする回転角度θyを示す。回転角度θyは、0度から360度までの範囲内の角度である。平面に展開された撮像領域2aにおける縦方向H2は、ピッチ軸G2を中心とする回転角度θpを示す。回転角度θpは、-90度から90度までの範囲内の角度である。
撮像領域2aにおける任意の点2bの位置は、回転角度θyと回転角度θpとによって定められる。カメラ2から点2bへ向かう方向2cも、回転角度θyと回転角度θpとによって定められる。方向2cは、アングルとも称される。
カメラ2は、演奏グループBが演奏会場Aで楽曲Cについてリハーサルの演奏F1を行う場面を撮像することによって、リハーサル動画データを生成する。リハーサル動画データは、リハーサルの演奏F1を行う演奏グループBを動画で示す動画データである。カメラ2は、リハーサル動画データとして、一連の撮像画像データJ1を生成する。一連の撮像画像データJ1における各撮像画像データJ1は、リハーサル動画データが示す動画の一コマを構成する静止画を示す。各撮像画像データJ1は、リハーサルの演奏F1を行う演奏グループBを静止画で示す画像データである。撮像画像データJ1が示す静止画を「撮像画像K1」と称する。カメラ2が撮像画像データJ1を生成することは、カメラ2が撮像画像K1を生成することを意味する。撮像画像K1は、第1撮像画像の一例である。
カメラ2は、演奏グループBが演奏会場Aで楽曲Cについて本番の演奏F2を行う場面を撮像することによって、本番動画データを生成する。本番動画データは、本番の演奏F2を行う演奏グループBを動画で表す動画データである。カメラ2は、本番動画データとして、一連の撮像画像データJ2を生成する。一連の撮像画像データJ2における各撮像画像データJ2は、本番動画データが示す動画の一コマを構成する静止画を示す。各撮像画像データJ2は、本番の演奏F2を行う演奏グループBを静止画で表す画像データである。撮像画像データJ2が示す静止画を「撮像画像K2」と称する。カメラ2が撮像画像データJ2を生成することは、カメラ2が撮像画像K2を生成することを意味する。撮像画像K2は、第2撮像画像の一例、および、演奏記録の一例である。
図4は、リハーサルの演奏F1の場面を表す全方位画像である撮像画像K1を平面に展開した図である。全方位画像は、例えば、全天球画像、全天球パノラマ画像または周囲360度画像とも称される。撮像画像K1を平面に展開する処理は、演奏収録システム1またはカメラ2によって実行される。以下、カメラ2が撮像画像K1を平面に展開する処理を実行する例を説明する。カメラ2は、平面に展開された撮像画像K1を示す撮像画像データJ1を生成する。
撮像画像K1は、ボーカリストD1と、楽器演奏者D2と、楽器Eと、を表す。撮像画像K1における任意の点K1aの位置は、回転角度θyと回転角度θpとによって定められる。
図5は、本番の演奏F2の場面を表す全方位画像である撮像画像K2を平面に展開した図である。撮像画像K2を平面に展開する処理は、演奏収録システム1またはカメラ2によって実行される。以下では、カメラ2が撮像画像K2を平面に展開する処理を実行する例を説明する。カメラ2は、平面に展開された撮像画像K2を示す撮像画像データJ2を生成する。
撮像画像K2は、撮像画像K1と同様に、ボーカリストD1と、楽器演奏者D2と、楽器Eと、を表す。撮像画像K2における任意の点K2aの位置は、回転角度θyと回転角度θpとによって定められる。
なお、撮像画像K1およびK2の各々における任意の点の位置(座標)は、回転角度θyと回転角度θpとによって定められる代わりに、平面に展開された撮像画像におけるxy座標によって定められてもよい。平面に展開された撮像画像におけるxy座標とは、例えば、平面に展開された撮像画像の横方向(水平方向)と並行なx軸におけるx座標と、平面に展開された撮像画像の縦方向(垂直方向)と並行なy軸におけるy座標と、によって表される座標である。
リハーサルの演奏F1の場面を表す撮像画像K1と、本番の演奏F2の場面を表す撮像画像K2とを、相互に区別する必要がない場合、撮像画像K1およびK2の各々を「撮像画像K」と称する。撮像画像K1を示す撮像画像データJ1と、撮像画像K2を示す撮像画像データJ2とを、相互に区別する必要がない場合、撮像画像データJ1およびJ2の各々を「撮像画像データJ」と称する。
図1に示されるマイク3は、複数のマイクを有するマイクセットである。複数のマイクは、それぞれ、指向性を有する。マイク3は、指向性を有さない1つのマイクでもよい。マイク3の収音範囲は、マイク3の全周囲を包含する。なお、マイク3の収音範囲は、カメラ2の撮像範囲をカバーしていればよく、必ずしもマイク3の全周囲を包含する必要はない。
マイク3は、演奏グループBが演奏会場Aで行う演奏の音を収音する。例えば、マイク3は、演奏グループBが演奏会場Aで楽曲Cについて行うリハーサルの演奏F1の音を収音する。また、マイク3は、演奏グループBが演奏会場Aで楽曲Cについて行う本番の演奏F2の音を収音する。
マイク3は、演奏音データLを生成する。演奏音データLは、マイク3が本番の演奏F2の音を収音することによって得られる演奏音を示すデータである。演奏音データLが示す演奏音は、演奏記録の他の例である。
演奏収録システム1は、例えば、スマートフォンである。演奏収録システム1は、スマートフォンに限らず、例えば、パーソナルコンピュータまたはタブレットでもよい。スマートフォンおよびタブレットは、それぞれ、可搬型の情報装置の一例である。パーソナルコンピュータは、可搬型または据置型の情報装置の一例である。演奏収録システム1は、単体の装置で構成されてもよいし、相互に別体である複数の装置で構成されてもよい。
演奏収録システム1は、リハーサル動画データが示す動画の一コマの静止画を示す撮像画像データJ1と、本番動画データが示す動画の一コマの静止画を示す撮像画像データJ2と、を取得する。撮像画像データJ1は、リハーサルの演奏F1の場面を表す撮像画像K1を示す画像データである。撮像画像データJ2は、本番の演奏F2の場面を表す撮像画像K2を示す画像データである。
演奏収録システム1は、撮像画像データJ1が示す撮像画像K1を用いて、撮像領域2aにおいて複数の領域候補2dを決定する。例えば、演奏収録システム1は、撮像画像K1における対象物Mに基づいて撮像領域2aにおいて複数の領域候補2dを決定する。
対象物Mは、例えば、複数の演奏者Dの身体の少なくとも一部および楽器Eである。複数の演奏者Dの身体の少なくとも一部は、例えば、演奏者Dの上半身である。複数の演奏者Dの身体の少なくとも一部は、演奏者Dの上半身に限らず、例えば、演奏者Dの手、演奏者Dの顔、または、演奏者Dの全身でもよい。
図6は、リハーサルの演奏F1の場面を表す撮像画像K1における対象物Mと、撮像領域2aにおける複数の領域候補2dと、の一例を示す図である。
対象物Mは、検出対象物M1と、検出対象物M2と、を含む。検出対象物M1は、ボーカリストD1の上半身である。検出対象物M2は、楽器演奏者D2の全身と楽器Eとによって構成される。
演奏収録システム1は、リハーサルの演奏F1の場面を表す撮像画像K1において、画像領域K11と、画像領域K12と、を特定する。画像領域K11と画像領域K12は、複数の画像領域の一例である。画像領域K11は、リハーサルの演奏F1の場面において検出対象物M1を表す領域である。画像領域K12は、リハーサルの演奏F1の場面において検出対象物M2を表す領域である。
演奏収録システム1は、例えば、画像認識技術を用いて画像領域K11と画像領域K12とを自動的に特定する。
画像領域K11と画像領域K12は、それぞれ、矩形である。画像領域K11と画像領域K12は、それぞれ、共通の縦横比(アスペクト比)APを有する。画像領域K11と画像領域K12は、それぞれ、相互に異なる縦横比(アスペクト比)を有してもよい。
演奏収録システム1は、画像領域K11を示す画像領域データN1を生成する。画像領域K11は、リハーサルの演奏F1の場面においてボーカリストD1の上半身を表す領域である。画像領域データN1は、位置データN11と、大きさデータN12と、を含む。位置データN11は、画像領域K11の中心位置K11cを、回転角度θyと回転角度θpで示す。画像領域K11の中心位置K11cは、例えば、画像領域K11における対角線の交点の位置である。大きさデータN12は、画像領域K11の大きさを示す。大きさデータN12は、縦横比APを有する基準矩形領域の大きさに対する画像領域K11の大きさの比を示す。基準矩形画像は、予め設定されている。大きさデータN12は、ズームデータとも称される。
演奏収録システム1は、画像領域K12を示す画像領域データN2を生成する。画像領域K12は、リハーサルの演奏F1の場面において楽器演奏者D2の全身と楽器Eとを表す領域である。画像領域データN2は、位置データN21と、大きさデータN22と、を含む。位置データN21は、画像領域K12の中心位置K12cを、回転角度θyと回転角度θpで示す。画像領域K12の中心位置K12cは、例えば、画像領域K12における対角線の交点の位置である。大きさデータN22は、画像領域K12の大きさを示す。大きさデータN22は、基準矩形領域の大きさに対する画像領域K12の大きさの比を示す。大きさデータN22は、ズームデータとも称される。
撮像領域2aにおける複数の領域候補2dは、領域候補2d1と、領域候補2d2と、を含む。領域候補2d1は、リハーサルの演奏F1の場面においてボーカリストD1の上半身を表す画像領域K11に対応する。領域候補2d2は、リハーサルの演奏F1の場面において楽器演奏者D2の全身と楽器Eとを表す画像領域K12に対応する。
演奏収録システム1は、画像領域K11を示す画像領域データN1と、画像領域K12を示す画像領域データN2と、を用いて、領域候補2d1と領域候補2d2とを決定する。例えば、演奏収録システム1は、カメラ2の撮像領域2aにおいて、画像領域データN1によって示される範囲を、領域候補2d1として決定する。演奏収録システム1は、カメラ2の撮像領域2aにおいて、画像領域データN2によって示される範囲を、領域候補2d2として決定する。
演奏収録システム1は、複数の領域候補2dの中から対象領域2eを選択する。図7は、領域候補2d1および領域候補2d2の中から領域候補2d1が対象領域2eとして選択される例を示す。領域候補2d2が、対象領域2eとして選択されてもよい。
演奏収録システム1は、本番の演奏F2の場面を表す撮像画像K2から、撮像画像K2における対象領域2eの画像を、出力画像Pとして抽出する。撮像画像K2における対象領域2eの画像とは、撮像画像K2のうち、撮像画像K2内の対象領域2eにおいて示される画像を意味する。
図8は、出力画像Pの一例を示す図である。出力画像Pは、領域候補2d1が対象領域2eとして選択された状況において撮像画像K2から抽出される画像である。
A2:演奏収録システム1の一例
図9は、演奏収録システム1の一例を示す図である。演奏収録システム1は、操作装置1aと、表示装置1bと、スピーカ1cと、通信装置1dと、記憶装置1eと、処理装置1fと、を含む。
操作装置1aは、ユーザからの指示を受け取る入力機器である。操作装置1aは、例えば、タッチパネルである。操作装置1aは、タッチパネルに限らず、例えば、ユーザによって操作される操作子でもよい。操作装置1aは、演奏収録システム1に有線または無電で接続される入力機器(例えば、マウスまたはキーボード)でもよい。操作装置1aは、演奏収録システム1の外部要素でもよい。
表示装置1bは、表示パネルである。表示パネルは、例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネルである。表示装置1bは、タッチパネルでもよい。タッチパネルが、操作装置1aおよび表示装置1bとして用いられてもよい。表示装置1bは、演奏収録システム1に有線または無電で接続されてもよい。表示装置1bは、演奏収録システム1の外部要素でもよい。表示装置1bは、種々の画像を表示する。
スピーカ1cは、複数のスピーカを有するスピーカセットである。スピーカ1cは、1つのスピーカでもよい。スピーカ1cは、演奏収録システム1に有線または無電で接続されてもよい。スピーカ1cは、演奏収録システム1の外部要素でもよい。スピーカ1cは、種々の音を放音する。
通信装置1dは、通信ネットワークNWを介して外部装置5と通信する。例えば、通信装置1dは、演奏グループBによる本番の演奏F2を表す演奏データQを、通信ネットワークNWを介して外部装置5に送信する。外部装置5は、例えば、配信サーバまたは端末装置である。配信サーバは、演奏収録システム1から受信した演奏データQを配信するサーバである。端末装置は、例えば、スマートフォン、タブレットまたはパーソナルコンピュータである。
記憶装置1eは、コンピュータによって読み取り可能な記録媒体(例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体)である。記憶装置1eは、1または複数のメモリを含む。記憶装置1eは、例えば、不揮発性メモリと、揮発性メモリと、を含む。不揮発性メモリは、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)およびEEPROM(Electrically Erasable Programmable Read Only Memory)である。揮発性メモリは、例えば、RAM(Random Access Memory)である。
記憶装置1eは、プログラムPG1と、種々のデータと、を記憶する。プログラムPG1は、演奏収録システム1の動作を規定する。記憶装置1eは、処理装置1fと通信可能なサーバにおける記憶装置から読み取られたプログラムPG1を記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体の他の例である。記憶装置1eは、演奏収録システム1に着脱可能な可搬型の記録媒体でもよい。記憶装置1eは、演奏収録システム1の外部要素でもよい。
処理装置1fは、1または複数のCPU(Central Processing Unit)を含む。1または複数のCPUは、1または複数のプロセッサの一例である。処理装置、プロセッサおよびCPUは、それぞれ、コンピュータの一例である。
処理装置1fは、記憶装置1eからプログラムPG1を読み取る。処理装置1fは、プログラムPG1を実行する。
A3:処理装置1f
図10は、処理装置1fの一例を示す図である。処理装置1fは、プログラムPG1を実行することによって、決定部11、選択部12、抽出部13、生成部14、出力制御部15および通信制御部16として機能する。決定部11、選択部12、抽出部13、生成部14、出力制御部15および通信制御部16の少なくとも1つは、DSP(Digital Signal Processor)およびASIC(Application Specific Integrated Circuit)等の回路によって構成されてもよい。
決定部11は、リハーサルの演奏F1の場面を表す撮像画像K1を用いて、カメラ2の撮像領域2aにおいて複数の領域候補2dを決定する。決定部11は、複数の領域候補2dを示す候補データRを生成する。決定部11は、候補データRを記憶装置1eに格納する。
決定部11は、複数の領域候補2dと、撮像画像K1における各画像領域(例えば、図6における画像領域K11およびK12の各々)が表す楽器の種類と、を示すデータを、候補データRとして生成してもよい。楽器の種類は、ユーザによって操作装置1aへ入力されてもよいし、決定部11が撮像画像K1について画像認識処理を施すことによって特定されてもよい。決定部11は、複数の領域候補2dと楽器の種類とに加えて演奏グループBの名称と楽曲Cの紹介とを示すデータを、候補データRとして生成してもよい。この場合、候補データRの識別が容易である。また、候補データRが、演奏グループBの名称を示すデータおよび楽曲Cの紹介を示すデータとして兼用可能である。
決定部11は、相異なる2つ以上の撮像画像K1の各々について、複数の領域候補2dを決定してもよい。相異なる2つ以上の撮像画像K1は、例えば、ユーザによって指定される。この場合、決定部11は、相異なる2以上の撮像画像K1の各々について、候補データRを生成する。例えば、決定部11は、相異なる2以上の撮像画像K1の各々について、当該撮像画像K1に基づく複数の領域候補2dと、リハーサルの演奏F1の開始時から当該撮像画像K1の生成時までのリハーサル経過時間と、を示すデータを、候補データRとして生成する。
選択部12は、複数の領域候補2dの中から対象領域2eを選択する。選択部12は、記憶装置1eから候補データRを読み取る。選択部12は、候補データRが示す複数の領域候補2dの中から対象領域2eを選択する。例えば、選択部12は、本番の演奏F2の場面を表す撮像画像K2を解析して対象領域2eを選択する。
複数の候補データRが存在する場合、選択部12は、本番の演奏F2の途中で候補データRを他の候補データRに切り換えてもよい。例えば、選択部12は、まず、複数の候補データRの中から、本番の演奏F2の経過時間よりも短いリハーサル経過時間を示す候補データRを、暫定候補データRaとして特定する。続いて、選択部12は、暫定候補データRaの中から、本番の演奏F2の経過時間との差が最も小さいリハーサル経過時間を示す暫定候補データRaを、対象候補データRbとして特定する。なお、暫定候補データRaが存在しない場合、選択部12は、複数の候補データRの中から、本番の演奏F2の経過時間との差が最も小さいリハーサル経過時間を示す候補データRを、対象候補データRbとして特定する。続いて、選択部12は、本番の演奏F2の当該経過時間における場面を表す撮像画像K2を解析することによって、対象候補データRbが示す複数の領域候補2dの中から、対象領域2eを選択する。
選択部12は、ユーザからの指示に応じて対象領域2eを選択してもよい。選択部12は、ランダムに対象領域2eを選択してもよい。選択部12がランダムに対象領域2eを選択する場合、対象領域2eの選択する処理において、本番の演奏F2の場面を表す撮像画像K2(撮像画像データJ2)を不要にできる。
抽出部13は、本番の演奏F2の場面を表す撮像画像K2から、撮像画像K2における対象領域2eの画像を、出力画像Pとして抽出する。
例えば、抽出部13は、対象領域2eの選択に応じたタイミングで、撮像画像K2から出力画像Pを抽出する。一例を挙げると、抽出部13は、対象領域2eの選択を契機として、撮像画像K2から出力画像Pを抽出する。この場合、対象領域2eの選択を契機としたタイミングが、対象領域2eの選択に応じたタイミングの一例である。撮像画像K2が抽出部13に供給されるタイミングが、撮像画像K2が選択部12に供給されるタイミングより遅れる場合、抽出部13は、対象領域2eが選択された時点から一定時間経過したタイミングで、撮像画像K2から出力画像Pを抽出してもよい。この場合、対象領域2eが選択された時点から一定時間経過したタイミングが、対象領域2eの選択に応じたタイミングの一例である。
対象領域2eの選択は、本番の演奏F2の進行(経過時間)に伴い順次実行される。このため、対象領域2eの選択に応じたタイミングは、本番の演奏F2の進行(経過時間)に応じたタイミングと換言できる。対象領域2eが本番の演奏F2の進行に伴って変化する場合、抽出部13が撮像画像K2から抽出する出力画像Pは変化する。また、複数の候補領域2dが本番の演奏F2の進行(経過時間)に伴って変化する場合、抽出部13が撮像画像K2から抽出する出力画像Pは変化し得る。このため、抽出部13は、本番の演奏F2の進行に伴って変化する多様な出力画像Pを抽出できる。抽出部13は、出力画像Pを示す出力画像データTを生成する。
生成部14は、出力画像データTと、演奏音データLと、を受け取る。出力画像データTは、本番の演奏F2の場面を表す撮像画像K2から抽出された出力画像P4を示す画像データである。演奏音データLは、本番の演奏F2の音を収音するマイク3によって生成される音データである。生成部14は、出力画像データTと演奏音データLとを含む演奏データQを生成する。演奏データQは、本番の演奏F2を画像と音で表すデータ(動画コンテンツ)である。
出力制御部15は、演奏データQに含まれる出力画像データTを表示装置1bに提供することによって、表示装置1bに、出力画像データTが示す出力画像Pを表示させる。出力制御部15は、演奏データQに含まれる演奏音データLをスピーカ1cに提供することによって、スピーカ1cに、演奏音データLが示す演奏音を放音させる。
通信制御部16は、演奏データQを通信装置1dから通信ネットワークNWを介して外部装置5に送信する。
A4:決定部11の一例
図11は、決定部11の一例である決定部11Aを示す図である。決定部11Aは、検出部111と、候補決定部112と、推定モデル41と、推定モデル42と、を含む。推定モデル41と推定モデル42は、決定部11Aの外部要素でもよい。
検出部111は、リハーサルの演奏F1の場面を表す撮像画像K1から、複数の演奏者Dの身体の少なくとも一部および楽器Eである対象物Mを検出する。例えば、検出部111は、撮像画像K1から、ボーカリストD1の上半身である検出対象物M1と、楽器演奏者D2の全身と楽器E(例えば、ギター)とによって構成される検出対象物M2と、を検出する。
検出部111は、推定モデル41を用いて検出対象物M1を検出する。推定モデル41は、撮像画像データJ(撮像画像K)と、検出対象物M1を表す領域と、の関係を機械学習によって学習した学習済みモデルである。推定モデル41は、深層ニューラルネットワーク(DNN:Deep Neural Network)によって構成される。深層ニューラルネットワークは、例えば、畳込ニューラルネットワーク(CNN:Convolutional Neural Network)、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または、長短期記憶(LSTM:Long Short Term Memory)である。推定モデル41は、複数種の深層ニューラルネットワークの組合せを含んでもよい。
推定モデル41は、複数の係数U1を有する。複数の係数U1は、推定モデル41の動作を定める。複数の係数U1は、機械学習によって調整済みである。
図12は、機械学習を説明するための図である。機械学習システム6は、演奏収録システム1とは別体のシステムである。機械学習システム6は、例えば、通信ネットワークNWを介して演奏収録システム1と通信可能なサーバシステムである。機械学習システム6は、暫定モデル41aから推定モデル41を生成する。暫定モデル41aは、複数の係数U1aを有する推定モデル(深層ニューラルネットワーク)である。機械学習システム6は、機械学習を通じて複数の係数U1aを更新することによって、複数の係数U1および推定モデル41を生成する。複数の係数U1は、更新が完了した複数の係数U1aである。推定モデル41は、更新が完了した複数の係数U1aを有する暫定モデル41aである。
機械学習システム6は、複数の学習データV1を用いて複数の係数U1aを更新する。複数の学習データV1は、相互に異なる。複数の学習データV1の各々は、画像データV1aと、領域データV1bと、のペアを含む。
画像データV1aは、検出対象物M1の画像を含む既知画像を示す。画像データV1aは、カメラ2によって生成される。画像データV1aは、カメラ2とは異なる360度カメラによって生成されてもよい。画像データV1aは、公知の画像合成技術で生成されてもよい。
領域データV1bは、当該領域データV1bとペアの画像データV1aが示す画像において検出対象物M1を表す領域を示す。領域データV1bは、検出対象物M1を表す領域として、検出対象物M1を包含する矩形の領域を示す。検出対象物M1を包含する矩形の領域は、縦横比APを有する。すなわち、領域データV1bが示す矩形の領域の縦横比は、複数の領域候補2dの縦横比と同じである。
領域データV1bは、位置データV1b1と、大きさデータV1b2と、を含む。位置データV1b1は、検出対象物M1を包含する矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物M1を包含する矩形の領域の中心位置は、例えば、検出対象物M1を包含する矩形の領域における対角線の交点の位置である。大きさデータV1b2は、検出対象物M1を包含する矩形の領域の大きさを示す。大きさデータV1b2は、基準矩形領域の大きさに対する検出対象物M1を包含する矩形の領域の大きさの比を示す。大きさデータV1b2は、ズームデータとも称される。
領域データV1bは、画像データV1aが暫定モデル41aに入力される場合に暫定モデル41aが出力すべき正解を意味する。
機械学習システム6が画像データV1aを暫定モデル41aに入力すると、暫定モデル41aは、領域データV1cを出力する。領域データV1cは、入力された画像データV1aが示す画像において、検出対象物M1が存在すると推定される矩形の領域を示す。
領域データV1cは、位置データV1c1と、大きさデータV1c2と、を含む。位置データV1c1は、検出対象物M1が存在すると推定される矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物M1が存在すると推定される矩形の領域の中心位置は、例えば、検出対象物M1が存在すると推定される矩形の領域における対角線の交点の位置である。大きさデータV1c2は、検出対象物M1が存在すると推定される矩形の領域の大きさを示す。大きさデータV1c2は、基準矩形領域の大きさに対する検出対象物M1が存在すると推定される矩形の領域の大きさの比を示す。大きさデータV1c2は、ズームデータとも称される。
機械学習システム6は、複数の学習データV1と暫定モデル41aとを用いて誤差関数を算定する。誤差関数は、機械学習システム6が暫定モデル41aに画像データV1aを入力した場合に暫定モデル41aが出力する領域データV1cと、入力された画像データV1aとペアの領域データV1bと、の誤差を表す。機械学習システム6は、誤差関数によって表される誤差が低減するように複数の係数U1aを更新する。機械学習システム6は、複数の学習データV1の各々を用いて複数の係数U1aを更新する処理を完了した時点での暫定モデル41aを、推定モデル41として決定する。
推定モデル41は、複数の学習データV1における画像データV1aと領域データV1bとの関係において、未知の画像データV1aに対して統計的に妥当な領域データV1cを出力する。推定モデル41は、画像データV1aと領域データV1bとの関係を学習した学習済モデルである。推定モデル41によれば、リハーサルの演奏F1の場面を示す撮像画像データJ1が、未知の画像データV1aとして用いられる場合、撮像画像データJ1が示す画像(撮像画像K1)について、検出対象物M1が存在する矩形の領域を高精度に特定できる。
図11に示される検出部111は、リハーサルの演奏F1の場面を示す撮像画像データJ1を推定モデル41に入力する。検出部111は、撮像画像データJ1を推定モデル41に入力した場合に推定モデル41から出力される領域データV1cを、画像領域K11を示す画像領域データN1として取得する。画像領域K11は、図6に示されるように、検出対象物M1を含む矩形の領域である。このため、検出部111は、推定モデル41から画像領域データN1を取得することによって検出対象物M1を検出する。
検出部111は、推定モデル42を用いて検出対象物M2を検出する。推定モデル42は、撮像画像データJ(撮像画像K)と、検出対象物M2を表す領域と、の関係を機械学習によって学習した学習済みモデルである。推定モデル42は、深層ニューラルネットワークによって構成される。推定モデル42は、複数種の深層ニューラルネットワークの組合せを含んでもよい。
推定モデル42は、複数の係数U2を有する。複数の係数U2は、推定モデル42の動作を定める。複数の係数U2は、機械学習によって調整済みである。
推定モデル42は、推定モデル41と同様に生成される。推定モデル42の生成には、複数の学習データV1の代わりに、複数の学習データV2が用いられる。複数の学習データV2は、相互に異なる。
図13は、学習データV2の一例を示す図である。各学習データV2は、画像データV2aと、領域データV2bと、のペアを含む。
画像データV2aは、検出対象物M2の画像を含む既知画像を示す。画像データV2aは、カメラ2によって生成される。画像データV2aは、カメラ2とは異なる360度カメラによって生成されてもよい。画像データV2aは、公知の画像合成技術で生成されてもよい。
領域データV2bは、当該領域データV2bとペアの画像データV2aが示す画像において検出対象物M2を表す領域を示す。領域データV2bは、検出対象物M2を表す領域として、検出対象物M2を包含する矩形の領域を示す。領域データV2bを包含する矩形の領域は、縦横比APを有する。すなわち、領域データV2bが示す矩形の領域の縦横比は、複数の領域候補2dの縦横比と同じである。
領域データV2bは、位置データV2b1と、大きさデータV2b2と、を含む。位置データV2b1は、検出対象物M2を包含する矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物M2を包含する矩形の領域の中心位置は、例えば、検出対象物M2を包含する矩形の領域における対角線の交点の位置である。大きさデータV2b2は、検出対象物M2を包含する矩形の領域の大きさを示す。大きさデータV2b2は、基準矩形領域の大きさに対する検出対象物M2を包含する矩形の領域の大きさの比を示す。大きさデータV2b2は、ズームデータとも称される。
領域データV2bは、画像データV2aが推定モデル42に入力される場合に推定モデル42が出力すべき正解を意味する。画像データV2aが推定モデル42に入力されると、推定モデル42は、領域データV2cを出力する。領域データV2cは、入力された画像データV2aが示す画像において、検出対象物M2が存在すると推定される矩形の領域を示す。
領域データV2cは、位置データV2c1と、大きさデータV2c2と、を含む。位置データV2c1は、検出対象物M2が存在すると推定される矩形の領域の中心位置を、回転角度θyと回転角度θpで示す。検出対象物M2が存在すると推定される矩形の領域の中心位置は、例えば、検出対象物M2が存在すると推定される矩形の領域における対角線の交点の位置である。大きさデータV2c2は、検出対象物M2が存在すると推定される矩形の領域の大きさを示す。大きさデータV2c2は、基準矩形領域の大きさに対する検出対象物M2が存在すると推定される矩形の領域の大きさの比を示す。大きさデータV2c2は、ズームデータとも称される。
図11に示される推定モデル42は、複数の学習データV2における画像データV2aと領域データV2bとの関係において、未知の画像データV2aに対して統計的に妥当な領域データV2cを出力する。推定モデル42は、画像データV2aと領域データV2bとの関係を学習した学習済モデルである。推定モデル42によれば、リハーサルの演奏F1の場面を示す撮像画像データJ1が、未知の画像データV2aとして用いられる場合、撮像画像データJ1が示す画像(撮像画像K1)について、検出対象物M2が存在する矩形の領域を高精度に特定できる。
検出部111は、リハーサルの演奏F1の場面を示す撮像画像データJ1を推定モデル42に入力する。検出部111は、撮像画像データJ1を推定モデル42に入力した場合に推定モデル42から出力される領域データV2cを、画像領域K12を示す画像領域データN2として取得する。画像領域K12は、図6に示されるように、検出対象物M2を含む矩形の領域である。このため、検出部111は、推定モデル42から画像領域データN2を取得することによって検出対象物M2を検出する。
候補決定部112は、検出部111による対象物M(検出対象物M1およびM2)の検出の結果に基づいて、複数の領域候補2dの少なくとも1つを決定する。例えば、候補決定部112は、検出部111による対象物Mの検出の結果に基づいて、複数の領域候補2dのすべてを決定する。候補決定部112は、画像領域K11を示す画像領域データN1を用いて、図6に示される領域候補2d1を決定する。候補決定部112は、画像領域K12を示す画像領域データN2を用いて、図6に示される領域候補2d2を決定する。
A5:選択部12の一例
図14は、選択部12の一例である選択部12Aを示す図である。選択部12Aは、本番の演奏F2の場面を表す撮像画像K2における各領域候補2dの画像における変化の程度に基づいて、対象領域2eを選択する。選択部12Aは、動き検出部121と、領域選択部122と、を含む。
動き検出部121は、本番の演奏F2を表す撮像画像K2において、各領域候補2dの画像における変化の程度を検出する。領域候補2dの画像とは、撮像画像K2内の領域候補2dに示される画像を意味する。
例えば、動き検出部121は、領域候補2dごとに、撮像画像K2内の領域候補2dに示される画像と、当該撮像画像K2の直前の撮像画像K2内の領域候補2dに示される画像と、の差分に基づいて、領域候補2dの画像における変化の程度を検出する。当該差分が大きいほど、領域候補2dの画像における変化の程度は大きい。当該差分が小さいほど、領域候補2dの画像における変化の程度は小さい。動き検出部121は、領域候補2dごとに、画像における変化の程度を示す変化指標を生成する。
領域選択部122は、各領域候補2dの変化指標に基づいて、複数の領域候補2dの中から対象領域2eを選択する。
A6:複数の領域候補2dを決定する動作
図15は、複数の領域候補2dを決定する動作の一例を示す図である。複数の領域候補2dを決定する動作は、本番の演奏F2の前に実行される。複数の領域候補2dを決定する動作は、操作装置1aがユーザから決定指示を受け取ると開始される。以下では、図11に示される決定部11Aが決定部11として用いられる例を説明する。
ステップS101において検出部111は、リハーサルの演奏F1の場面を示す撮像画像データJ1を取得する。例えば、検出部111は、カメラ2から撮像画像データJ1を取得する。撮像画像データJ1が記憶装置1eに格納されている場合、検出部111は、記憶装置1eから撮像画像データJ1を取得してもよい。
続いて、ステップS102において検出部111は、撮像画像データJ1を用いて対象物M(検出対象物M1およびM2)を検出する。例えば、検出部111は、まず、撮像画像データJ1を推定モデル41および42の各々に入力する。続いて、検出部111は、推定モデル41が出力する領域データV1cを、画像領域K11を示す画像領域データN1として取得する。画像領域K11は、図6に示されるように、検出対象物M1を表す領域である。続いて、検出部111は、推定モデル42が出力する領域データV2cを、画像領域K12を示す画像領域データN2として取得する。画像領域K12は、図6に示されるように、検出対象物M2を表す領域である。
続いて、ステップS103において図11に示される候補決定部112は、カメラ2の撮像領域2aにおいて複数の領域候補2dを決定する。例えば、候補決定部112は、図6に示されるように複数の領域候補2dを決定する。一例を挙げると、候補決定部112は、カメラ2の撮像領域2aのうち、画像領域K11を示す画像領域データN1によって示される範囲を、領域候補2d1として決定する。この場合、画像領域データN1は、画像領域K11に加えて、領域候補2d1を示す。候補決定部112は、カメラ2の撮像領域2aのうち、画像領域K12を示す画像領域データN2によって示される範囲を、領域候補2d2として決定する。この場合、画像領域データN2は、画像領域K12に加えて、領域候補2d2を示す。
続いて、ステップS104において候補決定部112は、複数の領域候補2dを示す候補データRを生成する。候補データRは、領域候補2d1を示すデータ(画像領域データN1)と、領域候補2d2を示すデータ(画像領域データN2)を含む。
続いて、ステップS105において候補決定部112は、候補データRを記憶装置1eに格納する。候補データRが記憶装置1eに格納されると、複数の領域候補2dを決定する動作が終了する。
A7:演奏データQ(動画コンテンツ)を生成する動作
図16は、演奏データQを生成する動作の一例を示す図である。演奏データQを生成する動作は、操作装置1aがユーザから生成指示を受け取ると開始される。以下では、図12に示される選択部12Aが選択部12として用いられる例を説明する。動き検出部121は、生成指示の受け取りに応じて、過去の撮像画像データJ2を一旦リセットする。また、演奏データQを生成する動作が、本番の演奏F2に並行して行われるとする。
ステップS201において動き検出部121は、記憶装置1eから複数の領域候補2dを示す候補データRを読み取る。
続いて、ステップS202において動き検出部121は、動き検出部121が未取得の撮像画像データJ2の中から、相互に連続する2つの撮像画像データJ2の最古のペアを取得する。
続いて、ステップS203において動き検出部121は、直前のステップS202で取得した2つの撮像画像データJ2を用いて、領域候補2dごとに、変化指標を生成する。変化指標は、本番の演奏F2の場面を表す撮像画像K2内の領域候補2dに示される画像における変化の程度を示す。
以下、直前のステップS202で取得した2つの撮像画像データJ2のうち、古い撮像画像データJ2が示す撮像画像K2を「撮像画像K21」と称し、新しい撮像画像データJ2が示す撮像画像K2を「撮像画像K22」と称する。
ステップS203では、動き検出部121は、まず、領域候補2dごとに、撮像画像K21内の領域候補2dに示される画像と、撮像画像K22内の領域候補2dに示される画像と、の差分を、領域候補2dの画像における変化の程度として検出する。続いて、動き検出部121は、領域候補2dごとに、画像における変化の程度(差分)を示す変化指標を生成する。領域候補2d1の変化指標は、ボーカリストD1の変化指標を意味する。領域候補2d2の変化指標は、楽器演奏者D2の変化指標を意味する。動き検出部121は、画像における変化の程度(差分)が大きいほど、変化指標の値を大きくする。動き検出部121は、画像における変化の程度(差分)が大きいほど、変化指標の値を小さくしてもよい。
動き検出部121は、領域候補2dごとの変化指標を、所定時間(例えば、1秒)ごとに生成してもよい。所定時間は、1秒に限らず、1秒よりも長くてもよいし短くてもよい。例えば、動き検出部121は、所定時間ごとに、当該所定時間に新たに入力される連続する複数の撮像画像データJ2を取得する。続いて、動き検出部121は、新たに入力される連続する複数の撮像画像データJ2を用いて、領域候補2dごとの変化指標を生成する。一例を挙げると、動き検出部121は、領域候補2dごとに、新たに入力される連続する複数の撮像画像データJ2が示す各撮像画像K2における当該領域候補2dの画像の相互の差分を合計する。動き検出部121は、領域候補2dごとに、相互の差分の合計値を、当該領域候補2dの画像における変化の程度として検出する。続いて、動き検出部121は、ステップS203で示したように、領域候補2dごとに、画像における変化の程度を示す変化指標を生成する。
続いて、ステップS204において領域選択部122は、各領域候補2dの変化指標に基づいて、複数の領域候補2dの中から対象領域2eを選択する。なお、動き検出部121が、各領域候補2dの変化指標を所定時間ごとに生成する場合、領域選択部122は、各領域候補2dの新たな変化指標が生成されるごとに、各領域候補2の新たな変化指標に基づいて、複数の領域候補2dの中から対象領域2eを選択する。
画像における変化の程度が大きいほど変化指標の値が大きい場合、領域選択部122は、複数の領域候補2dの中から、最も大きい値の変化指標を有する領域候補2dを、対象領域2eとして選択する。
最も大きい値の変化指標を有する領域候補2dが複数存在する場合、領域選択部122は、最も大きい値の変化指標を有する複数の領域候補2dの中から、対象領域2eを選択する。例えば、領域選択部122は、最も大きい値の変化指標を有する複数の領域候補2dの中から、対象領域2eをランダムに選択する。複数の領域候補2dに優先度が設定されている場合、領域選択部122は、最も大きい値の変化指標を有する複数の領域候補2dの中から、最も高い優先度を有する領域候補2dを、対象領域2eとして選択してもよい。
画像における変化の程度が大きいほど変化指標の値が小さい場合、領域選択部122は、複数の領域候補2dの中から、最も小さい値の変化指標を有する領域候補2dを、対象領域2eとして選択する。
最も小さい値の変化指標を有する領域候補2dが複数存在する場合、領域選択部122は、最も小さい値の変化指標を有する複数の領域候補2dの中から、対象領域2eを選択する。例えば、領域選択部122は、最も小さい値の変化指標を有する複数の領域候補2dの中から、対象領域2eをランダムに選択する。複数の領域候補2dに優先度が設定されている場合、領域選択部122は、最も小さい値の変化指標を有する複数の領域候補2dの中から、最も高い優先度を有する領域候補2dを、対象領域2eとして選択してもよい。
画像における変化の程度(差分)が大きいことは、当該画像に示される演奏者Dの動きが大きいことを意味する。演奏者Dの動きが大きいことは、当該演奏者Dが注目される状態である可能性が高い。演奏者Dが注目される状態は、例えば、ソロのパートを演奏している状態、または、大きなアクションを行っている状態である。このため、領域選択部122は、注目される状態の演奏者Dを示す領域候補2dを、対象領域2eとして選択する。
続いて、ステップS205において抽出部13は、図8に示されるように、本番の演奏F2の場面を表す撮像画像K2から対象領域2eの画像を出力画像Pとして抽出する。例えば、抽出部13は、撮像画像K2から最新の対象領域2eの画像を出力画像Pとして抽出する。
続いて、ステップS206において抽出部13は、出力画像Pを示す出力画像データTを生成する。
続いて、ステップS207において生成部14は、出力画像データTと演奏音データLとを含む演奏データQを生成する。演奏音データLは、本番の演奏F2の期間にマイク3によって生成される音データである。このため、演奏データQは、本番の演奏F2を画像と音声で表す。
ステップS207では生成部14は、出力画像データTの解像度(横方向の画素数と縦方向の画素数)を送信用の解像度に調整する。送信用の解像度は予め設定されている。
続いて、ステップS208において出力制御部15は、演奏データQに含まれる出力画像データTを表示装置1bに提供して、表示装置1bに、出力画像データTが示す出力画像Pを表示させる。
続いて、ステップS209において出力制御部15は、演奏データQに含まれる演奏音データLをスピーカ1cに提供して、スピーカ1cに、演奏音データLが示す演奏音を放音させる。
続いて、ステップS210において通信制御部16は、演奏データQを通信装置1dから通信ネットワークNWを介して外部装置5に送信する。
なお、ステップS208からステップS210までの処理順序は、適宜に変更可能である。
続いて、ステップS211において動き検出部121は、未取得の撮像画像データJ2が存在するかを判断する。未取得の撮像画像データJ2が存在すると動き検出部121が判断すると、処理がステップS202に戻り、上述の動作が繰り返される。このため、選択部12Aは、例えば本番の演奏F2に並行して順次に対象領域2eを選択する。
上述の動作が繰り返されると、選択部12Aは、本番の演奏F2の期間における各演奏者Dの動きに応じて、対象領域2eを切り換える。このため、注目される状態の演奏者Dを切り換えながら示す演奏データQが生成される。
ステップS211において未取得の撮像画像データJ2が存在しないと動き検出部121が判断する場合、図16に示す動作が終了する。なお、このように動作が終了すると、例えば、本番の演奏F2の一場面を示す最新の撮像画像データJ2が演奏収録システム1に到着する前に最新の撮像画像データJ2より古い撮像画像データJ2についての処理が完了した場合にも、動作が終了してしまう。このため、動き検出部121は、ステップS211において未取得の撮像画像データJ2が存在しないと判断する場合、待ち時間だけ、少なくとも連続する撮像画像データJ2を取得できるまで待ってもよい。待ち時間は、例えば、0.5秒である。待ち時間は、0.5秒に限らず、0.5秒よりも長くてもよいし短くてもよい。この場合、動き検出部121が、待ち時間の間に少なくとも連続する撮像画像データJ2を取得すると、処理がステップS202に戻る。待ち時間が経過しても、動き検出部121が、少なくとも連続する撮像画像データJ2を取得できない場合、図16に示す動作が終了する。
A8:第1実施形態のまとめ
決定部11は、リハーサルの演奏F1の場面を表す撮像画像K1を用いて複数の領域候補2dを決定する。選択部12は、複数の領域候補2dの中から対象領域2eを選択する。抽出部13は、本番の演奏F2の場面を表す撮像画像K2から対象領域2eに応じた部分の画像(出力画像P)を抽出する。このため、複数の演奏者Dを有するグループの音楽作品を作成する際の手間を少なくできる。また、演奏収録システム1とカメラ2とマイク3というシンプルな構成で出力画像Pを生成できる。
検出部111は、撮像画像K1から、対象物M(複数の演奏者Dの身体の少なくとも一部および楽器E)を検出する。候補決定部112は、検出部111による検出の結果に基づいて、複数の領域候補2dの少なくとも1つを決定する。このため、演奏者Dの身体の少なくとも一部および楽器Eの検出結果に基づいて、複数の領域候補2dの少なくとも1つを自動的に決定できる。このため、ユーザの手間をさらに少なくできる。
選択部12Aは、本番の演奏F2の場面を表す撮像画像K2における各領域候補2dの画像における変化の程度に基づいて、対象領域2eを選択する。このため、対象領域2eを自動的に選択できる。よって、ユーザの手間をさらに少なくできる。
抽出部13は、本番の演奏F2の場面を表す撮像画像K2から出力画像Pを抽出する。このため、複数の演奏者Dを有する演奏グループBの演奏の画像作品を容易に作成できる。
抽出部13は、対象領域2eが選択されたタイミングに基づくタイミングで、撮像画像K2から出力画像Pを抽出する。このため、対象領域を選択したタイミングに基づくタイミング(例えば、対象領域の選択に応じたタイミング)で、出力画像Pを抽出できる。
B:変形例
第1実施形態における変形の態様を以下に示す。以下の態様から任意に選択された2個以上の態様が、相互に矛盾しない範囲において適宜に併合されてもよい。
B1:第1変形例
第1実施形態において、領域候補2dの数は、演奏者Dの数よりも多くてもよい。例えば、演奏者Dの数が3である場合、領域候補2dの数は4以上でもよい。決定部11は、領域候補2d1および2d2に加えて、ボーカリストD1の顔の位置に対応する領域候補2d3と、楽器演奏者D2の手の位置に対応する領域候補2d4とを、複数の領域候補2dとして決定してもよい。
図17は、領域候補2d3および2d4の一例を示す図である。複数の領域候補2dが、ボーカリストD1の顔の位置に対応する領域候補2d3を含む場合、ボーカリストD1によるアイコンタクト等の動作を示す出力画像Pを生成可能である。複数の領域候補2dが、楽器演奏者D2の手の位置に対応する領域候補2d4を含む場合、楽器演奏者D2による楽器Eの操作を示す出力画像Pを生成可能である。例えば、楽器演奏者D2の手による楽器Eの演奏にフォーカスした出力画像Pを生成できる。決定部11は、例えば、学習済みモデル等の推定モデルを用いる画像処理技術を実行することによって、領域候補2d1および2d2と同様に、領域候補2d3および2d4を決定する。
決定部11は、複数の演奏者Dの全員が含まれる画像候補を特定し、当該画像候補(複数の演奏者Dの全員が含まれる画像候補)に対応する領域候補を決定してもよい。この場合、決定部11は、学習済みモデル等の推定モデルを用いる画像処理技術を実行することによって、複数の演奏者Dの全員が含まれる画像候補を特定する。
第1変形例によれば、少なくとも1人の演奏者Dに対して2以上の領域候補2dを設定できる。このため、少なくとも1人の演奏者Dに対して、多様なアングルで出力画像Pを生成できる。
決定部11は、楽曲Cのジャンル、楽曲Cの曲名または演奏グループBのジャンルに応じて、複数の領域候補2dを変更してもよい。例えば、楽曲Cのジャンルがロックである場合、決定部11は、複数の領域候補2dとして、領域候補2d1~2d4を選択する。楽曲Cのジャンルがジャズである場合、決定部11は、複数の領域候補2dとして、領域候補2d1~2d2を選択する。演奏グループBのジャンルがロックバンドである場合、決定部11は、複数の領域候補2dとして、領域候補2d1~2d4を選択する。演奏グループBのジャンルがジャズバンドである場合、決定部11は、複数の領域候補2dとして、領域候補2d1~2d2を選択する。この場合、決定部11は、楽曲Cのジャンル、楽曲Cの曲名または演奏グループBのジャンルを示す区分情報をユーザから操作装置1aを介して受け取る。決定部11は、区分情報に基づいて、複数の領域候補2dを変更する。このため、ユーザは区分情報を用いることによって複数の領域候補2dを変更できる。
B2:第2変形例
第1実施形態および第1変形例において、決定部11は、複数の画像領域(例えば、図6における画像領域K11およびK12)の中からユーザによって選択された画像領域に基づいて、複数の領域候補2dのうち少なくとも1つを決定してもよい。
例えば、決定部11は、リハーサルの演奏F1の場面を表す撮像画像K1において2以上の画像領域(例えば、図6における画像領域K11およびK12)を特定した場合、表示装置1bに、当該2以上の画像領域を表示させる。決定部11は、表示装置1bに表示された2以上の画像領域の中からユーザによって選択された画像領域に基づいて、複数の領域候補2dのうち少なくとも1つを決定する。
例えば、決定部11は、表示装置1bに表示された2以上の画像領域の中からユーザによって選択された画像領域を、選択画像領域として特定する。決定部11は、選択画像領域を示す画像領域データを生成する。選択画像領域を示す画像領域データは、選択画像領域の中心位置を回転角度θyと回転角度θpで示し、選択画像領域の大きさを基準矩形領域の大きさに対する選択画像領域の大きさの比で示す。決定部11は、撮像領域2aにおいて、選択画像領域を示す画像領域データによって示される範囲を、領域候補2dとして決定する。
第2変形例によれば、複数の領域候補2dの決定において、ユーザによる選択が介在するため、ユーザの好みに応じて領域候補2dを決定できる。
B3:第3変形例
第1実施形態および第1変形例~第2変形例において、決定部11は、リハーサルの演奏F1の場面を表す撮像画像K1においてユーザによって設定された画像領域に基づいて、複数の領域候補2dのうち少なくとも1つを決定してもよい。
例えば、決定部11は、撮像画像K1において2以上の画像領域(例えば、図6における画像領域K11およびK12)を特定した場合、表示装置1bに、当該2以上の画像領域を表示させる。決定部11は、表示装置1bに表示された2以上の画像領域の中からユーザによって位置またはサイズが変更された画像領域に基づいて、当該画像領域(ユーザによって位置またはサイズが変更された画像領域)の数と同じ数の領域候補2dを決定する。ユーザによって変更された画像領域は、ユーザによって設定された画像領域の一例である。
決定部11は、撮像画像K1を表示装置1bに表示させてもよい。この場合、決定部11は、表示装置1bに表示された撮像画像Kにおいてユーザによって設定された画像領域に基づいて、当該画像領域の数と同じ数の領域候補2dを決定する。この場合、決定部11は、例えば、ユーザによって設定された画像領域の縦横比を縦横比APに制限する。決定部11は、ユーザによって設定された画像領域を示す画像領域データを生成する。ユーザによって設定された画像領域を示す画像領域データは、当該画像領域の中心位置を回転角度θyと回転角度θpで示し、当該画像領域の大きさを基準矩形領域の大きさに対する選択画像領域の大きさの比で示す。
ユーザによって変更または設定された画像領域に基づいて、領域候補2dを決定する手法は、画像領域K11に基づいて領域候補2d1を決定する手法と同様である。
第3変形例によれば、複数の領域候補2dの決定において、ユーザによる操作が介在するため、ユーザの好みに応じて領域候補2dを決定できる。
B4:第4変形例
第1実施形態および第1変形例~第3変形例において、決定部11は、マイク3がリハーサルの演奏F1の音を収音することによって得られる音に基づいて、撮像領域2aにおいて楽器Eが存在する領域を推定してもよい。
第4変形例において、マイク3は、例えば、指向性を有するマイクである。指向性を有するマイク3とは、指向性を有する複数のマイクで構成されるマイクである。複数のマイクは、それぞれ、指向性に応じた収音範囲を有する。複数のマイクの収音範囲は、互いに異なる。なお、複数のマイクの収音範囲が互いに異なっていれば、複数のマイクの少なくとも1つは無指向性マイクでもよい。
決定部11は、マイク3を構成する複数のマイクのうち、最も大きな音を収音したマイクを、対象マイクとして特定する。決定部11は、撮像領域2aにおいて、対象マイクの収音範囲と重なる領域を、楽器Eが存在する領域として推定する。
決定部11は、マイク3を構成する複数のマイクによる複数の収音結果に基づいて、楽器Eが存在する領域を推定してもよい。例えば、各マイクの収音範囲の一部が相互に重なる状況では、決定部11は、まず、基準レベル以上の音量の音を収音したマイクを、検出マイクとして特定する。決定部11は、検出マイクとして1つのマイクを特定した場合、撮像領域2aにおいて、検出マイクの収音範囲と重なる領域を、楽器Eが存在する領域として推定する。決定部11は、検出マイクとして複数のマイクを特定した場合、各検出マイクの収音範囲が重なっている領域を、重畳領域として特定する。決定部11は、撮像領域2aにおいて、重畳領域と重なる領域を、楽器Eが存在する領域として推定する。
決定部11は、楽器Eが存在する領域の推定結果に基づいて、複数の領域候補2dのうち少なくとも1つを決定してもよい。例えば、決定部11は、楽器Eが存在すると推定した領域を、領域候補2dとして決定する。
第4変形例によれば、演奏者Dの身体の少なくとも一部および楽器Eの検出結果に加えて、楽器Eが存在する領域の推定結果に基づいて、複数の領域候補2dの少なくとも1つが決定される。このため、演奏者Dの身体の少なくとも一部および楽器Eの検出結果のみに基づいて複数の領域候補2dの少なくとも1つが決定される構成に比べて、複数の領域候補2dを多様にできる。
B5:第5変形例
第1実施形態および第1変形例~第4変形例において、選択部12は、撮像画像K2での各領域候補2dの画像における変化の程度と、指向性を有するマイク3が本番の演奏F2の音を収音して得られる音と、の両方に基づいて、対象領域2eを選択してもよい。
例えば、選択部12は、まず、マイク3を構成する複数のマイクの中で閾値レベル以上の音を収音したマイクを、検出マイクとして特定する。続いて、選択部12は、検出マイクの収音範囲の少なくとも一部と重なる領域候補2dを特定する。続いて、選択部12は、検出マイクの収音範囲の少なくとも一部と重なる領域候補2dの変化指標を変更する。領域候補2dに示される画像における変化の程度が大きいほど変化指標の値が大きい場合、選択部12は、検出マイクの収音範囲の少なくとも一部と重なる領域候補2dの変化指標の値を、調整値だけ大きくする。調整値は、予め設定された値である。領域候補2dに示される画像における変化の程度が大きいほど変化指標の値が小さい場合、選択部12は、検出マイクの収音範囲の少なくとも一部と重なる領域候補2dの変化指標の値を、調整値だけ小さくする。続いて、選択部12は、各領域候補2dの変化指標に基づいて、複数の領域候補2dの中から対象領域2eを選択する。
第5変形例によれば、選択部12は、各領域候補2dの画像における変化の程度と、本番の演奏F2の音を収音して得られる音と、の両方に基づいて、対象領域2eを選択する。このため、各領域候補2dの画像における変化の程度のみに基づいて対象領域2eが選択される構成に比べて、対象領域2eの切り替えを多様にできる。
なお、選択部12が変化指標の値を変更するために用いる情報は、本番の演奏F2の音に限らず、演奏者Dによる1または複数の特定動作でもよい。特定動作は、例えば、右手を挙げる動作、頭を振る動作、または楽器Eを移動する動作である。特定動作は、特殊動作とも称される。複数の特定動作は、互いに異なる。選択部12は、例えば、画像認識技術で特定動作を検出する。
選択部12が演奏者Dによる特定動作に基づいて変化指標の値を変更することは、選択部12が、各領域候補2dの画像における変化の程度と、演奏者Dによる特定動作と、の両方に基づいて、対象領域2eを選択することを意味する。このため、各領域候補2dの画像における変化の程度のみに基づいて対象領域2eが選択される構成に比べて、対象領域2eの切り替えを多様にできる。例えば、複数の演奏者Dが、順番に右手を挙げることで、出力画像Pに示される演奏者Dを切り換えることができる。
B6:第6変形例
第1実施形態および第1変形例~第5変形例において、選択部12は、撮像画像K2での各領域候補2dの画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、対象領域2eを選択してもよい。
例えば、第1実施形態および第1変形例~第5変形例では、本番の演奏F2の間、楽器演奏者D2がボーカリストD1よりも大きく動く場合、多くの出力画像Pが楽器演奏者D2を表す可能性が高い。しかしながら、多くの出力画像Pを、楽器演奏者D2よりも動きが小さいボーカリストD1の画像にしたいという要望も考えられる。第6変形例は、このような要望に応える手法の一例である。例えば、選択部12は、ボーカリストD1の変化指標に対して、楽器演奏者D2の変化指標よりも大きい重みを付与する。
選択部12は、ボーカリストD1の変化指標に重み係数W1を乗じることによって得られる指標を、ボーカリストD1の指標として算出する。選択部12は、楽器演奏者D2の変化指標に重み係数W2を乗じることによって得られる指標を、楽器演奏者D2の指標として算出する。選択部12は、ボーカリストD1の指標と楽器演奏者D2の指標との両方に基づいて、対象領域2eを選択する。
重み係数W1およびW2は、例えば、ユーザによって設定される。重み係数W1およびW2は、予め設定されていてもよい。重み係数W1およびW2は、ユーザから操作装置1aに入力される変更指示に応じて変更されてもよい。ボーカリストD1の指標と楽器演奏者D2の指標は、それぞれ、本番の演奏F2の場面を表す撮像画像K2での各領域候補2dの画像における変化の程度に対して重み付けを施すことによって得られる指標の一例である。
領域候補2dに示される画像における変化の程度が大きいほど変化指標の値が大きい場合、重み係数W1は、重み係数W2よりも大きい値に設定される。この状況においてボーカリストD1の指標が楽器演奏者D2の指標よりも大きい場合、選択部12は、ボーカリストD1の領域候補2d1を対象領域2eとして選択する。楽器演奏者D2の指標がボーカリストD1の指標よりも大きい場合、選択部12は、楽器演奏者D2の領域候補2d2を対象領域2eとして選択する。
領域候補2dに示される画像における変化の程度が大きいほど変化指標の値が小さい場合、重み係数W1は、重み係数W2よりも小さい値に設定される。この状況においてボーカリストD1の指標が楽器演奏者D2の指標よりも小さい場合、選択部12は、ボーカリストD1の領域候補2d1を対象領域2eとして選択する。楽器演奏者D2の指標がボーカリストD1の指標よりも小さい場合、選択部12は、楽器演奏者D2の領域候補2d2を対象領域2eとして選択する。
ボーカリストD1の指標が楽器演奏者D2の指標と等しい場合、選択部12は、ボーカリストD1の領域候補2d1と楽器演奏者D2の領域候補2d2との中から、対象領域2eをランダムに選択する。ボーカリストD1の領域候補2d1と楽器演奏者D2の領域候補2d2に優先度が設定される状況も想定される。この状況においてボーカリストD1の指標が楽器演奏者D2の指標と等しい場合、選択部12は、領域候補2d1および2d2のうち高い優先度の領域候補2dを対象領域2eとして選択してもよい。
上述の重み係数W1と重み係数W2との設定は、演奏者Dの種別(ボーカリストと楽器演奏者)に応じて設定される。演奏者Dの種別は、ボーカリストと楽器演奏者に限らず、例えば、ボーカリスト、ギタリスト、ベーシスト、ドラマーでもよい。
重み係数W1と重み係数W2は、演奏者Dの種別とは異なる情報に応じて設定されてもよい。例えば、重み係数W1と重み係数W2は、楽曲Cのジャンルに応じて設定されてもよい。
図18は、楽曲Cのジャンルに応じた重み係数W1およびW2の一例を表すジャンルテーブルJTを示す図である。楽曲Cのジャンルは、図18に示されるポップスおよびジャズに限らず、例えば、ロックおよびクラシックを含んでもよい。ジャンルテーブルJTは、例えば、記憶装置1eに記憶される。選択部12は、ジャンルテーブルJTに示される重み係数W1およびW2から、ユーザから操作装置1aに入力されたジャンルに応じた重み係数W1およびW2を選択する。続いて、選択部12は、入力されたジャンルに応じた重み係数W1およびW2をそれぞれ変化指標に乗じることによって、ボーカリストD1の指標と、楽器演奏者D2の指標と、を生成する。選択部12は、ボーカリストD1の指標と楽器演奏者D2の指標とに基づいて対象領域2eを選択する。
重み係数W1と重み係数W2は、楽曲Cの曲目に応じて設定されてもよい。この場合、選択部12は、対象領域2eを楽曲Cの曲目に応じて変更できる。
第6変形例によれば、対象領域2eとして選択される領域候補2dを重み付けによって調整できる。
なお、領域候補2dの画像だけではなく、複数のマイクで構成されるマイク3が収音した音の音量も含めて、重みづけが行われてもよい。例えば、ボーカリストD1の歌声を強調する場合には、ボーカリストD1が存在する収音領域を有するマイクのゲインに対して、他のマイクのゲインよりも大きい重みが施される。この場合、ボーカリストD1の歌声が、他の音よりも高い増幅度で増幅され、ボーカリストD1の歌声が強調される。マイク3が収音した音の音量への重みづけは、ボーカリストD1が存在する収音領域を有するマイクのゲインに対して、他のマイクのゲインよりも大きい重みを施す態様に限定されない。例えば、本番の演奏F2の進行に応じて、各マイクのゲインに対する重み付けが変更されてもよい。
B7:第7変形例
第1実施形態および第1変形例~第6変形例において、選択部12は、本番の演奏F2の場面を表す撮像画像K2における各領域候補2dの画像の中からユーザによって選択された領域候補2dの画像に基づいて、対象領域2eを選択してもよい。
例えば、選択部12は、本番の演奏F2に並行して、本番の演奏F2の場面を表す撮像画像K2における各領域候補2dの画像を、表示装置1bに表示させる。複数の演奏者Dとは異なるユーザは、表示装置1bに表示させる各領域候補2dの画像の中から1つの領域候補2dの画像を、操作装置1aを用いて選択する。選択部12は、ユーザによって選択された領域候補2dの画像に基づいて、対象領域2eを選択する。例えば、選択部12は、ユーザによって選択された画像を表す領域候補2dを、対象領域2eとして選択する。なお、選択部12は、ユーザによって選択された画像を表す領域候補2dの変化指数を調整することによって、ユーザによって選択された画像を示す領域候補2dを、対象領域2eとして選択してもよい。この場合、本番の演奏F2に並行して、対象領域2eを手動で選択できる。
選択部12は、本番の演奏F2の前に対象領域2eを選択してもよい。例えば、選択部12は、まず、リハーサルの演奏F1の場面を表す一連の撮像画像K1によって各領域候補2dに示される動画を表示装置1bに表示する。ユーザは、各領域候補2dに示されるリハーサルの演奏F1の動画の進行に合わせて、各領域候補2dに示される動画を順次選択する。この際、ユーザは、リハーサルの演奏F1の動画の進行に合わせて、選択される動画を切り換える。選択部12は、リハーサルの演奏F1の動画の進行に合わせてユーザに選択された動画を示す領域候補2dを、対象領域2eとして順次選択する。選択部12は、対象領域2eの順次の選択結果と、リハーサルの演奏F1おける経過時間と、を示す選択情報を、記憶装置1eに記憶する。抽出部13は、本番の演奏F2が始まると、選択情報が示す経過時間に合わせて切り換わる対象領域2eに基づいて、出力画像Pを抽出する。この場合、本番の演奏F2の前に、本番の演奏F2から生成される出力画像Pを推測できる。
第7変形例によれば、対象領域2eの選択に、ユーザが介在する。このため、ユーザの好みに応じて対象領域2eを選択できる。
B8:第8変形例
第1実施形態および第1変形例~第7変形例において、抽出部13に入力される撮像画像K2(本番の演奏F1の場面を表す画像)は、選択部12に入力される撮像画像K2(本番の演奏F1の場面を表す画像)よりも遅延してもよい。
選択部12は、撮像画像K2での画像の変化に基づいて対象領域2eを選択する。抽出部13は、撮像画像K2に基づいて選択された対象領域2eを用いて、撮像画像K2から出力画像Pを抽出する。このため、抽出部13に入力される撮像画像K2が、選択部12に入力される撮像画像K2と同期する場合、演奏者Dの動き出しの場面を表す画像および演奏者Dの動き出しの直前の場面を表す画像は、出力画像Pとして生成され難い。第8変形例は、演奏者Dの動き出しの場面を表す画像および演奏者Dの動き出しの直前の場面を表す画像が出力画像Pとして生成され難いという課題を解決する手法の一例である。
第8変形例では、例えば、選択部12が撮像画像K2を遅延せずに用いるのに対して、抽出部13は、撮像画像K2を調整時間だけ遅延して用いる。調整時間は、例えば1秒である。調整時間は、1秒よりも短くてもよいし長くてもよい。抽出部13は、選択部12が対象領域2eを抽出した撮像画像K2よりも調整時間だけ前に生成された撮像画像K2から、出力画像Pを抽出する。
第8変形例によれば、演奏者Dの動き出しの場面を表す画像および演奏者Dの動き出しの直前の場面を表す画像が、出力画像Pとして生成されやすくなる。なお、第8変形例では、生成部14は、演奏音データLを調整時間だけ遅延して使用する。このため、演奏データQにおいて、画像と音との同期は維持される。
B9:第9変形例
第1実施形態および第1変形例~第8変形例において、抽出部13は、本番の演奏F2の音のリズムに合わせて、撮像画像K2からの出力画像Pの抽出(出力画像Pの切り替え)を実行してもよい。
例えば、抽出部13は、本番の演奏F2における楽器E(例えば、ドラムまたはベース)の音に基づいて、楽曲Cのリズム(拍)を推定する。抽出部13は、楽曲Cのリズムに合わせて撮像画像K2から出力画像Pを抽出する。
第9変形例によれば、抽出部13は、本番の演奏F2の音を収音することによって得られる音のリズムに合わせて、撮像画像K2から出力画像Pを抽出する。このため、本番の演奏F2に合わせて出力画像P2を抽出できる。
B10:第10変形例
第1実施形態および第1変形例~第9変形例において、抽出部13は、対象領域2eの切り換えに応じて、カメラがパンされたように出力画像Pを切り換えてもよい。抽出部13は、対象領域2eの切り換えに応じて、切り換え前の出力画像Pをフェードアウトさせながら、切り換え前の出力画像Pをフェードインさせてもよい。
第10変形例によれば、出力画像Pの切り換えを滑らかできる。また、出力画像Pの切り換えを視覚的に演出できる。
B11:第11変形例
第1実施形態および第1変形例~第10変形例において、選択部12は、複数の対象領域2eを選択してもよい。例えば、画像における変化の程度が大きいほど変化指標の値が大きい場合、選択部12は、複数の領域候補2dの中から、最も大きい値の変化指標を有する領域候補2dと、2番目に大きい値の変化指標を有する領域候補2dとを、対象領域2eとして選択する。
選択部12が複数の対象領域2eを選択する場合、抽出部13は、対象領域2eごとに、本番の演奏F2の場面を表す撮像画像K2から対象領域2eの画像を出力画像Pとして抽出する。
第11変形例によれば、1つの撮像画像K2から複数の出力画像Pが抽出されるので、複数の出力画像Pを一度に示す演奏データQを生成できる。
B12:第12変形例
第1実施形態および第1変形例~第10変形例において、演奏記録は、複数の演奏者Dが本番の演奏F2を行う場面をカメラ2が撮像することによって生成される撮像画像K2に限らない。例えば、演奏記録は、本番の演奏F2の音をマイク3が収音することによって得られる演奏音を含んでもよい。この場合、演奏記録において対象領域2eに応じた部分は、撮像画像K2における対象領域2eの画像に加えて、本番の演奏F2の音をマイク3が収音することによって得られる演奏音のうち対象領域2eからの音を含む。対象領域2eからの音は、指向性を有するマイク3(指向性を有する複数のマイクセット)の収音データから、対象領域2eからの音を示す収音データを抽出することによって特定される。
演奏記録は、撮像画像K2と、本番の演奏F2の音をマイク3が収音することによって得られる演奏音と、のいずれか一方のみでもよい。この場合、演奏記録において対象領域e2に応じた部分は、撮像画像K2における対象領域2eの画像と、本番の演奏F2の音をマイク3が収音することによって得られる演奏音のうち対象領域2eからの音と、の一方である。
第12変形例によれば、複数の演奏者Dを有する演奏グループBの演奏の演奏音作品を容易に作成できる。
B13:第13変形例
第1実施形態および第1変形例~第12変形例において、カメラ2は、360度カメラに限らず、360度未満の画角を有するカメラ(例えば、180度カメラ)でもよい。カメラ2が360度カメラでない場合、カメラ2が生成した撮像画像を平面に展開する処理は不要である。
カメラ2が360度カメラである場合、複数の演奏者Dは、複数の演奏者Dの各々が撮像領域2a内に収まっているかを意識せずに演奏を行える。
B14:第14変形例
第1実施形態および第1変形例~第13変形例において、第1演奏と第2演奏は、リハーサルの演奏F1と本番の演奏F2に限らない。例えば、本番の演奏が繰り返し行われる場合、第1演奏は過去の本番の演奏であり、第2演奏は今後の本番の演奏でもよい。
B15:第15変形例
第1実施形態および第1変形例~第13変形例において、演奏収録システム1は、スマートフォン、タブレットまたはパーソナルコンピュータではなく、例えば、サーバによって構成されてもよい。
C:上述の形態および変形例から把握される態様
上述の形態および変形例の少なくとも1つから以下の態様が把握される。
C1:第1態様
本開示の態様(第1態様)に係る演奏収録方法は、コンピュータシステムにより実現される演奏収録方法であって、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、前記複数の領域候補の中から対象領域を選択し、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。
C2:第2態様
第1態様の例(第2態様)において、前記複数の領域候補を決定することは、前記第1撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、前記検出の結果に基づいて、前記複数の領域候補の少なくとも1つを決定することと、を含む。この態様によれば、演奏者の身体の少なくとも一部および楽器の検出結果に基づいて、複数の領域候補の少なくとも1つを自動的に決定できる。このため、ユーザの手間をさらに少なくできる。
C3:第3態様
第2態様の例(第3態様)において、前記複数の領域候補を決定することは、前記第1演奏の音を収音することによって得られる音に基づいて、前記撮像領域において前記楽器が存在する領域を推定することと、前記推定の結果に基づいて、前記複数の領域候補の少なくとも1つを決定することと、をさらに含む。この態様によれば、演奏者の身体の少なくとも一部および楽器の検出結果のみに基づいて複数の領域候補の少なくとも1つが決定される構成に比べて、複数の領域候補を多様にできる。
C4:第4態様
第1態様の例(第4態様)において、前記複数の領域候補を決定することは、前記第1撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、前記検出の結果に基づいて、前記第1撮像画像において複数の画像領域を特定することと、前記複数の画像領域の中からユーザによって選択された画像領域に基づいて、前記複数の領域候補の少なくとも1つを決定することと、を含む。この態様によれば、複数の領域候補の決定において、ユーザによる選択が介在するため、ユーザの好みに応じて領域候補を決定できる。
C5:第5態様
第1態様の例(第5態様)において、前記複数の領域候補を決定することは、前記第1撮像画像においてユーザによって設定された画像領域に基づいて、前記複数の領域候補の少なくとも1つを決定すること、を含む。この態様によれば、ユーザの好みに応じて領域候補を決定できる。
C6:第6態様
第1態様から第5態様のいずれかの例(第6態様)において、前記対象領域を選択することは、前記第2演奏を表す第2撮像画像における各領域候補の画像における変化の程度に基づいて、前記対象領域を選択すること、を含む。この態様によれば、第2撮像画像における各領域候補の画像での変化の程度に基づいて、対象領域を自動的に選択できる。このため、ユーザの手間をさらに少なくできる。
C7:第7態様
第6態様の例(第7態様)において、前記対象領域を選択することは、前記各領域候補の画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、前記対象領域を選択すること、を含む。この態様によれば、対象領域として選択される領域候補を、重み付けによって調整できる。
C8:第8態様
第1態様から第5態様のいずれかの例(第8態様)において、前記対象領域を選択することは、前記第2演奏を表す第2撮像画像における各領域候補の画像の中からユーザによって選択された領域候補の画像に基づいて、前記対象領域を選択すること、を含む。この態様によれば、ユーザの好みに応じて対象領域を選択できる。
C9:第9態様
第1態様から第8態様のいずれかの例(第9態様)において、前記演奏記録から前記対象領域に応じた部分を抽出することは、前記対象領域の選択に応じたタイミングで、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む。この態様によれば、対象領域の選択に応じたタイミングで対象領域に応じた部分を抽出できる。
C10:第10態様
第1態様から第8態様のいずれかの例(第10態様)において、前記演奏記録から前記対象領域に応じた部分を抽出することは、前記第2演奏の音を収音することによって得られる音のリズムに合わせて、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む。この態様によれば、第2演奏に合わせて対象領域に応じた部分を抽出できる。
C11:第11態様
第1態様から第10態様のいずれかの例(第11態様)において、前記演奏記録は、前記複数の演奏者が前記第2演奏を行う場面を前記カメラが撮像することによって生成される第2撮像画像であり、前記対象領域に応じた部分は、前記第2撮像画像における前記対象領域の画像である。この態様によれば、複数の演奏者を有するグループの演奏の映像作品を容易に作成できる。
C12:第12態様
第1態様から第10態様のいずれかの例(第12態様)において、前記演奏記録は、前記第2演奏の音をマイクが収音することによって得られる演奏音であり、前記対象領域に応じた部分は、前記演奏音のうち前記対象領域からの音である。この態様によれば、複数の演奏者を有するグループの演奏の演奏音作品を容易に作成できる。
C13:第13態様
本開示の態様(第13態様)に係る演奏収録システムは、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、前記複数の領域候補の中から対象領域を選択する選択部と、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、を含む。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。
C14:第14態様
本開示の態様(第14態様)に係るプログラムは、複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、前記複数の領域候補の中から対象領域を選択する選択部、および、前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部としてコンピュータシステムを機能させる。この態様によれば、演奏者ごとの演奏の収録を不要にできる。このため、複数の演奏者を有するグループの音楽作品を作成する際の手間を少なくできる。
1…演奏収録システム、1a…操作装置、1b…表示装置、1c…スピーカ、1d…通信装置、1e…記憶装置、1f…処理装置、2…カメラ、3…マイク、11…決定部、11A…決定部、12…選択部、12A…選択部、13…抽出部、14…生成部、15…出力制御部、16…通信制御部、41…推定モデル、41a…暫定モデル、42…推定モデル、111…検出部、112…候補決定部、121…動き検出部、122…領域選択部。

Claims (14)

  1. コンピュータシステムにより実現される演奏収録方法であって、
    複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定し、
    前記複数の領域候補の中から対象領域を選択し、
    前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する、
    演奏収録方法。
  2. 前記複数の領域候補を決定することは、
    前記第1撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、
    前記検出の結果に基づいて、前記複数の領域候補の少なくとも1つを決定することと、を含む
    請求項1に記載の演奏収録方法。
  3. 前記複数の領域候補を決定することは、
    前記第1演奏の音を収音することによって得られる音に基づいて、前記撮像領域において前記楽器が存在する領域を推定することと、
    前記推定の結果に基づいて、前記複数の領域候補の少なくとも1つを決定することと、をさらに含む
    請求項2に記載の演奏収録方法。
  4. 前記複数の領域候補を決定することは、
    前記第1撮像画像から、前記複数の演奏者の身体の少なくとも一部および楽器を検出することと、
    前記検出の結果に基づいて、前記第1撮像画像において複数の画像領域を特定することと、
    前記複数の画像領域の中からユーザによって選択された画像領域に基づいて、前記複数の領域候補の少なくとも1つを決定することと、を含む
    請求項1に記載の演奏収録方法。
  5. 前記複数の領域候補を決定することは、
    前記第1撮像画像においてユーザによって設定された画像領域に基づいて、前記複数の領域候補の少なくとも1つを決定すること、を含む
    請求項1に記載の演奏収録方法。
  6. 前記対象領域を選択することは、
    前記第2演奏を表す第2撮像画像における各領域候補の画像における変化の程度に基づいて、前記対象領域を選択すること、を含む、
    請求項1から5のいずれか1項に記載の演奏収録方法。
  7. 前記対象領域を選択することは、
    前記各領域候補の画像における変化の程度に対して重み付けを施すことによって得られる指標に基づいて、前記対象領域を選択すること、を含む、
    請求項6に記載の演奏収録方法。
  8. 前記対象領域を選択することは、
    前記第2演奏を表す第2撮像画像における各領域候補の画像の中からユーザによって選択された領域候補の画像に基づいて、前記対象領域を選択すること、を含む、
    請求項1から5のいずれか1項に記載の演奏収録方法。
  9. 前記演奏記録から前記対象領域に応じた部分を抽出することは、
    前記対象領域の選択に応じたタイミングで、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む、
    請求項1から8のいずれか1項に記載の演奏収録方法。
  10. 前記演奏記録から前記対象領域に応じた部分を抽出することは、
    前記第2演奏の音のリズムに合わせて、前記演奏記録から前記対象領域に応じた部分を抽出すること、を含む、
    請求項1から8のいずれか1項に記載の演奏収録方法。
  11. 前記演奏記録は、前記複数の演奏者が前記第2演奏を行う場面を前記カメラが撮像することによって生成される第2撮像画像であり、
    前記対象領域に応じた部分は、前記第2撮像画像における前記対象領域の画像である、
    請求項1から10のいずれか1項に記載の演奏収録方法。
  12. 前記演奏記録は、前記第2演奏の音をマイクが収音することによって得られる演奏音であり、
    前記対象領域に応じた部分は、前記演奏音のうち前記対象領域からの音である、
    請求項1から10のいずれか1項に記載の演奏収録方法。
  13. 複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部と、
    前記複数の領域候補の中から対象領域を選択する選択部と、
    前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部と、
    を含む演奏収録システム。
  14. 複数の演奏者が楽曲の第1演奏を行う場面をカメラが撮像することによって生成される第1撮像画像を用いて、前記カメラの撮像領域において複数の領域候補を決定する決定部、
    前記複数の領域候補の中から対象領域を選択する選択部、および、
    前記複数の演奏者が前記楽曲の第2演奏を行う場面を撮像または前記第2演奏の音を収音することによって得られる演奏記録から、前記対象領域に応じた部分を抽出する抽出部
    としてコンピュータシステムを機能させるプログラム。
JP2021147641A 2021-09-10 2021-09-10 演奏収録方法、演奏収録システムおよびプログラム Pending JP2023040568A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021147641A JP2023040568A (ja) 2021-09-10 2021-09-10 演奏収録方法、演奏収録システムおよびプログラム
PCT/JP2022/032959 WO2023037956A1 (ja) 2021-09-10 2022-09-01 演奏収録方法、演奏収録システムおよびプログラム
US18/600,189 US20240212306A1 (en) 2021-09-10 2024-03-08 Performance Recording System, Performance Recording Method, and Recording Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021147641A JP2023040568A (ja) 2021-09-10 2021-09-10 演奏収録方法、演奏収録システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2023040568A true JP2023040568A (ja) 2023-03-23

Family

ID=85506668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021147641A Pending JP2023040568A (ja) 2021-09-10 2021-09-10 演奏収録方法、演奏収録システムおよびプログラム

Country Status (3)

Country Link
US (1) US20240212306A1 (ja)
JP (1) JP2023040568A (ja)
WO (1) WO2023037956A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612539A (zh) * 2016-05-30 2024-02-27 索尼公司 视频音频处理设备、视频音频处理方法和存储介质
CN109478400B (zh) * 2016-07-22 2023-07-07 杜比实验室特许公司 现场音乐表演的多媒体内容的基于网络的处理及分布

Also Published As

Publication number Publication date
WO2023037956A1 (ja) 2023-03-16
US20240212306A1 (en) 2024-06-27

Similar Documents

Publication Publication Date Title
US11030987B2 (en) Method for selecting background music and capturing video, device, terminal apparatus, and medium
CN109478400B (zh) 现场音乐表演的多媒体内容的基于网络的处理及分布
CN111326132B (zh) 音频处理方法、装置、存储介质及电子设备
US20160226610A1 (en) Crowd sentiment detection and analysis
WO2017064367A1 (en) Distributed audio capture and mixing
US11557269B2 (en) Information processing method
CN112165590A (zh) 视频的录制实现方法、装置及电子设备
US10102835B1 (en) Sensor driven enhanced visualization and audio effects
CN109547843B (zh) 对音视频进行处理的方法和装置
CN109616090B (zh) 多音轨序列生成方法、装置、设备及存储介质
WO2014061931A1 (ko) 음향 재생 장치 및 음향 재생 방법
US20200365123A1 (en) Information processing method
US20240129669A1 (en) Distribution system, sound outputting method, and non-transitory computer-readable recording medium
EP3255905A1 (en) Distributed audio mixing
WO2023037956A1 (ja) 演奏収録方法、演奏収録システムおよびプログラム
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
JP2017005371A (ja) 共演映像演出装置および共演映像演出システム
CN113596353B (zh) 体感互动数据处理方法、装置及体感互动设备
JP6967735B1 (ja) 信号処理装置及び信号処理システム
JP2021174350A (ja) 画像処理プログラム及び画像処理装置
CN113485559A (zh) 基于全景漫游平台的虚拟乐器演奏方法及***
JP4257300B2 (ja) カラオケ端末装置
US10448186B2 (en) Distributed audio mixing
WO2023286367A1 (ja) 情報処理装置、情報処理方法、プログラム
US20210337110A1 (en) Image processing method, image processing apparatus and non-transitory computer readable medium