JP2017092832A - 再生方法および再生装置 - Google Patents

再生方法および再生装置 Download PDF

Info

Publication number
JP2017092832A
JP2017092832A JP2015223504A JP2015223504A JP2017092832A JP 2017092832 A JP2017092832 A JP 2017092832A JP 2015223504 A JP2015223504 A JP 2015223504A JP 2015223504 A JP2015223504 A JP 2015223504A JP 2017092832 A JP2017092832 A JP 2017092832A
Authority
JP
Japan
Prior art keywords
video
sound
information
moving image
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015223504A
Other languages
English (en)
Inventor
森 隆志
Takashi Mori
隆志 森
祐 高橋
Yu Takahashi
祐 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015223504A priority Critical patent/JP2017092832A/ja
Publication of JP2017092832A publication Critical patent/JP2017092832A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】 視聴者に違和感を与えることのない多視点映像を手軽に編集することを可能にする技術を提供する。【解決手段】音識別部120は、音を表す音響情報A_Nと、当該音の演奏者の映像を表す映像情報V_Nとを含む動画情報CAV_Nを動画情報取得部110から受け取ると、音響情報A_Nを解析して、当該音の種類を識別する。動画情報出力部130は、複数の領域に画像が表示される表示部30の表示画面の各領域に上記音の種類を示す音識別情報を対応付けた映像配置テーブル213を参照することにより、音識別部120により識別された動画情報CAV_Nの種別に対応する領域を特定し、その領域に映像情報V_Nの表す映像を割り当てて表示部30の表示画面に表示させる。【選択図】図1

Description

本発明は、動画編集を支援する技術に関し、特に、編集対象の動画の再生制御に関する。
近年、被写体を複数の視点から撮影した映像(以下、多視点映像)からなる多視点動画が注目されている。この種の多視点動画は、複数の被写体で構成される集合体を被写体毎に撮影した映像を基に構成される。その一例として、ライブ演奏を行うバンドのライブ動画が挙げられる。この種のライブ動画は、例えば、バンドを構成する各メンバーを、担当するパート(例えば、ボーカルやギター)毎に撮影した映像を基に構成される。このようなライブ動画を再生すると、画面に各メンバーの映像が同時に表示され、視聴者は好みのメンバーに注目しながらライブ動画を視聴することができる。また、近年では、多視点映像を構成する各映像からユーザの選択した1の映像を表示する技術が提案されている。例えば、特許文献1によると、メイン画面とサブ画面に分割された表示画面の画面領域のうち、映像データがメイン画面に表示され、当該映像データとは別の視点で撮影された多視点映像データがサブ画面に表示される。ユーザが操作装置を使って所定の操作を行うことにより、サブ画面に表示させる多視点映像データを別の多視点映像データへと切り替えることが可能となっている。
特開2005−159592号公報 P.Herrera, et al., Automatic classification of drum sounds: a comparison offeature selection methods and classification techniques, Proc. InternationalConference on Music and Artificial Intelligence, 2002. P.Herrera, et al., Automatic classification of musical instrument sounds, JournalOf New Music Research, vol. 32, 2003.
ところで、ライブ動画の作成或いは編集を行う際には、動画の再生時に各パートの演奏者(音を発する者、例えば楽器の演奏者或いはボーカル)の映像が画面の適切な位置に表示されるように留意する必要がある。これは、各パートの演奏者の映像の画面内での配置位置が適切でないと、映像に合わせて再生される各パートの音の音像定位位置との整合性が損なわれ、視聴者に違和感を与えるためである。例えば、ギターの演奏者の映像が画面の右側に映っているにもかかわらず、スピーカから放音されるギターの演奏音が左側から聴こえてくる(すなわち、音像が左側に定位している)と、視聴者に違和感を与えることになる。しかし、上記留意点に注意を払いつつ多視点映像を編集することは煩わしい。
この発明は、以上説明した事情に鑑みてなされたものであり、視聴者に違和感を与えることのない多視点映像を手軽に編集することを可能にする技術を提供することを目的としている。
この発明は、少なくとも映像情報を含む動画情報を複数受け取る情報受取ステップと、複数の前記動画情報を解析し、音の種別を映像情報毎に識別する識別ステップと、音の種別毎に表示装置の画面の画面領域が対応付けられた映像配置テーブルを参照し、前記識別された音の種別に対応する映像情報の表す映像を表示装置の画面の画面領域に割り当てて表示させる表示ステップとを含むことを特徴とする再生方法を提供する。
本発明によれば、動画情報に含まれる映像情報の表す映像を画面に表示する際に映像配置テーブルが参照され、その映像に対応する音の種別に応じた画面領域に当該映像が表示される。実際にライブ演奏を行うバンドの各パートの演奏者が、映像配置テーブルに列挙された音を、当該音に対応付けられた領域に応じた位置で演奏する場合、各音の音像定位の位置と、画面に表示される各パートの演奏者の映像の位置とが整合する。したがって、視聴者に違和感を与えることなくライブ動画を再生することが可能となる。なお、動画情報に含まれる音の種別を特定する場合、当該音の種別の識別を支援する分類アルゴリズムとして、非特許文献1或いは非特許文献2に記載のk−NN(k-Nearest Neighbors)法等を用いてもよい。
本発明の第1実施形態である再生装置1の構成を示すブロック図である。 同実施形態における複数の領域に区分けされた表示部30の表示画面を示す図である。 同実施形態におけるクラス分類テーブル214の例を示す図である。 同実施形態における映像配置テーブル213の例を示す図である。 ミックスダウンで推奨される楽器の空間配置を示す図である。 同実施形態において、音識別部120および動画情報出力部130が実行する音識別処理の内容を示すフローチャートである。 本発明の第2実施形態である再生装置1Aの構成を示すブロック図である。 同実施形態における映像配置テーブル213A_Tの一例を示す図である。 同実施形態における映像配置テーブル213A_Tに対応した表示部30の表示画面の例を示す図である。 同実施形態における複数の領域に区分けされた表示部30の表示画面の他の例を示す図である。
以下、図面を参照しつつ本発明の実施の形態について説明する。
<第1実施形態>
図1は、この発明の第1実施形態である再生装置1の構成を示すブロック図である。この再生装置1は、例えばPC(Personal Computer)やタブレット型端末などの動画再生機能を有する装置である。再生装置1は、動画撮像装置(図示略)から取得した動画情報の編集を行う動画編集システムに含まれ、編集対象の動画情報を再生する。この動画編集システムの利用者は、再生装置1により再生される動画を確認しながら、最終的にエンドユーザに配布する動画情報を編集することができる。
本実施形態における編集対象の動画情報は、ライブ演奏を行うバンドの演奏シーンを収録したものである。この動画情報は、映像情報と音響情報とを含む時系列データである。映像情報は、楽器の演奏者や歌手(以下、演奏者)を表す情報である。具体的には、映像情報は、ライブ演奏を行うバンドの各構成メンバー(演奏者)を、担当するパート毎に撮影した映像を表す。一方、音響情報は、楽器の演奏音や歌唱音声(以下、音)を表す情報である。具体的には、音響情報は、各パートの演奏者が演奏する音を表す。本実施形態では、被写体であるバンドは、エレキギター、ボーカル、ベース、キーボード、バスドラムおよびコーラスの6種類のパートにより構成される。各演奏者をパート毎に撮影した映像情報の表す映像の大部分は各パートの演奏者であるが、他のパートの演奏者の一部も映り込んでいる。音響情報の表す音の大部分も各パートの演奏者が発する音であるが、他のパートの演奏者が発する音も含まれている。以下、動画撮像装置による撮影により得られる動画情報を動画情報CAV_N(N=1〜n:nは2以上の自然数、本実施形態ではn=6)、動画情報CAV_Nに含まれる映像情報を映像情報V_N(N=1〜n)、動画情報CAV_Nに含まれる音響情報を音響情報A_N(N=1〜n)と表記する。
図1に示すように、再生装置1は、CPU(Central Processing Unit)10、記憶部20、表示部30、メモリインタフェース部40およびサウンドシステム50を有している。メモリインタフェース部40は、CPU10によって行われるSDメモリカード等の記憶媒体へのアクセスを仲介する装置である。本実施形態において、上述した動画撮像装置による撮影により得られる動画情報CAV_Nは、このメモリインタフェース部40を介して再生装置1に入力される。より詳細には、動画情報CAV_Nが書き込まれた記録媒体がメモリインタフェース部40に接続されると、CPU10(より正確には、動画情報取得部110)は当該記録媒体内の動画情報CAV_Nをメモリインタフェース部40を介して読み出し、不揮発性記憶部210に書き込む。
表示部30は、例えば液晶ディスプレイであり、CPU10による制御の下、映像情報V_Nの各々が表す映像を表示画面に表示する。表示部30の表示画面は、複数の領域(本実施形態では、7個の領域)に仮想的に区分けされており、これら各領域に映像情報V_Nの各々の表す映像が一つずつ表示される。図2は、複数の領域に区分けされた表示部30の表示画面の一例を示す図である。図2に示すように、表示部30の画面は、エリア1〜エリア7に区分けされている。サウンドシステム50は、左右各チャネルのスピーカ等を含んでおり、CPU10による制御の下、放音する。詳細については後述するが、CPU10は音響情報A_Nの各々を上記各スピーカに振り分けて出力する。
記憶部20は、不揮発性記憶部210と揮発性記憶部220とを含んでいる。揮発性記憶部220は、例えばRAM(Random Access Memory)であり、不揮発性記憶部210は、例えばHDD(Hard Disk Drive)やFlashROM(Read Only Memory)である。前述したように、不揮発性記憶部210には、動画情報CAV_Nが格納される。また、不揮発性記憶部210には、再生プログラム211、音識別プログラム212、映像配置テーブル213およびクラス分類テーブル214が予め格納されている。
再生プログラム211は、動画情報CAV_Nの不揮発性記憶部210への書き込みや動画情報CAV_Nの不揮発性記憶部210からの読み出し、動画情報CAV_Nの再生など、再生装置1の基本的な機能をCPU10に実現させるプログラムである。なお、動画情報CAV_Nの再生には、当該動画情報CAV_Nに含まれる音響情報A_Nの表す映像の表示と、当該動画情報CAV_Nに含まれる映像情報V_Nの表す音の出力とが含まれる。
音識別プログラム212は、本発明の特徴を顕著に示す処理をCPU10に実行させるプログラムである。より詳細には、音識別プログラム212は、動画情報CAV_Nに含まれる音響情報A_Nを解析することにより、音響情報A_Nの表す音の種別(パート)をクラス分類テーブル214の格納内容を参照して識別する音識別処理をCPU10に実現させるプログラムである。
クラス分類テーブル214には、ボーカルの歌唱音や楽器の演奏音等の音の種別を示す音識別情報に対応付けてその音の音響的な特徴を示す特徴量ベクトルが格納されている。本実施形態では、1種類の音について、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7種類の音階の各々に対応する7種類の特徴量ベクトルがクラス分類テーブル214に格納されている。そして、各特徴量ベクトルは、その特徴量ベクトルに対応する音の基本周波数成分の信号レベルに対するM(2≦M≦m+1)次倍音成分の信号レベルの比を構成要素とするm次元ベクトルである。このような特徴量ベクトルを音の特徴を示す情報として用いるのは、倍音構造には音の種別が反映されているからである。この特徴量ベクトルについては音の波形を示す波形データにフーリエ変換を施して各周波数成分の信号レベルを抽出する等の周知の手法により生成すれば良い。
本実施形態では、エレキギター、ボーカル、ベース、キーボード、バスドラム、およびコーラスの6種類の音についての音識別情報と特徴量ベクトルとがクラス分類テーブル214に格納されている。以下では、この特徴量ベクトルを「特徴量ベクトルVI_J(I=1〜7、J=1〜6)」と表記する。また、本実施形態では、音識別情報として、エレキギターについて文字列LBegが、ボーカルについては文字列LBboが、ベースについては文字列LBbaが、キーボードについては文字列LBkbが、バスドラムについては文字列LBbdが、およびコーラスについては文字列LBchが用いられている。なお、本実施形態では、音識別情報と特徴量ベクトルVI_Jとを対応付けてクラス分類テーブル214に格納したが、図3に示すように、特徴量ベクトルVI_Jの算出元となった波形データ(すなわち、添え字Nの示す種別および添え字Iの示す音階の音の波形を示す波形データ)をさらに対応付けても良い。
映像配置テーブル213は、映像情報V_Nの表す各パートの演奏者の映像を表示部30の表示画面における表示位置(例えば、表示画面の左上隅を原点とする二次元座標系における当該映像の左上隅の位置座標)を規定するテーブルである。図4は、映像配置テーブル213の例を示す図である。図4に示すように、映像配置テーブル213には、各演奏者の担当する各パートの音識別情報に対応付けて、表示部30における表示領域を示す情報が格納されている。より詳細には、エレキギターを示すLBegにはエリア1が、ボーカルを示すLBboにはエリア2が、ベースを示すLBbaにはエリア3が、キーボードを示すLBkbにはエリア4が、バスドラムを示すLBbdにはエリア5が、コーラスを示すLBchにはエリア6および7が対応付けられている。映像情報V_Nの表す各パートの演奏者の映像は、この映像配置テーブル213に従って表示部30の表示画面に表示され、この点に本発明の顕著な特徴がある。
以下、この点について詳述する。図5は、ミックスダウンで推奨される楽器の空間配置を示す図である。図5において、x軸、y軸およびz軸の各軸は、それぞれ定位、周波数および奥行を示す。図5に示す空間配置図によると、ミックスダウン時にパンを調整する際には、例えばボーカルの音像定位を中央とし、コーラスの音像定位を左右とすることにより、バランスの良い聴感が得られることが知られている。
通常、ライブ演奏では、バンドの各パートを担当する演奏者は、図5(或いは、図4)に従った立ち位置で演奏を行うことが多く、本実施形態における編集対象の動画情報の被写体であるバンドの各演奏者も図5に示す立ち位置で演奏を行っている。図4に従った立ち位置で演奏を行うことにより、バランスの良い聴感が得られるからである。映像情報V_Nの表す映像が表示部30の表示画面にランダムに配置されると、サウンドシステム50から放音される各パートの音の音像定位の位置と、各パートの演奏者の画面内での表示位置との整合性が損なわれ、視聴者に違和感を与えることは前述した通りである。そこで、本実施形態では、映像配置テーブル213に従って、各パートの演奏者の映像を表示部30の表示画面に表示することにより、パート毎の好適な映像表示位置を動画再生システムのユーザ(すなわち、再生装置1のユーザ)に提示し、上記不整合が発生するような動画の編集を防止するのである。
CPU10は、記憶部20(より正確には、不揮発性記憶部210)に記憶されている各プログラムを実行することにより再生装置1の制御中枢として機能する。本実施形態では、CPU10は再生装置1の電源(図示略)の投入を契機として、再生プログラム211および音識別プログラム212を不揮発性記憶部210から揮発性記憶部220へ読み出し、これら各プログラムを並列に実行する。CPU10は、再生プログラム211を実行することにより、図1に示す動画情報取得部110および動画情報出力部130として機能する。また、CPU10は、音識別プログラム212を実行することにより、図1に示す音識別部120として機能する。
動画情報取得部110は、メモリインタフェース部40に記録媒体が接続されると、動画情報CAV_Nを読み出し(情報受取ステップ)、当該動画情報を不揮発性記憶部210に格納するとともに、動画情報CAV_Nを音識別部120に与える。なお、動画情報取得部110は、ユーザに各種情報を入力させるための操作手段(図示略)を介したユーザの操作を契機として、動画情報CAV_Nの読出しを行ってもよい。
音識別部120は、動画情報取得部110から動画情報CAV_Nを受け取ると、当該動画情報に含まれる音響情報A_Nに対して音識別処理を実行する(識別ステップ)。音識別処理の詳細については重複を避けるため動作例において明らかにするが、概略は以下の通りである。音識別部120は、音響情報A_Nの表す音を解析して前述した特徴量ベクトルを生成し、この特徴量ベクトルとクラス分類テーブル214の格納内容とから当該演奏音の種別を識別し、その識別結果を示す音識別情報を動画情報CAV_Nに付与して、動画情報出力部130に与える。
動画情報出力部130は、音識別部120から動画情報CAV_Nを受け取り、音響情報A_Nおよび映像情報V_Nを取り出す。動画情報出力部130は、動画情報CAV_Nを受け取ったことを契機として、記憶部20(より正確には、不揮発性記憶部210)から映像配置テーブル213を読み出す。動画情報出力部130は、音響情報A_Nをミキシングしてサウンドシステム50に出力する。また、動画情報出力部130は、映像配置テーブル213を参照し、動画情報CAV_Nに付与された音識別情報に対応する各領域を特定し、各領域に映像情報V_Nの各々の表す映像が表示されるよう、映像情報V_Nを合成し(表示ステップ)、その合成結果を示す映像情報を表示部30に出力する。
以上が再生装置1の構成である。
次に、再生装置1が実行する動作について説明する。再生装置1が実行する処理は、上述したように音識別処理、および動画情報の再生処理や書込みまたは読出し等の基本的な処理に大別される。
動画編集システムのユーザが、動画撮像装置等により収録した動画情報CAV_Nの書き込まれた記録媒体をメモリインタフェース部40に接続すると、動画情報CAV_Nは動画情報取得部110による読出しおよび書込みを経て音識別部120に与えられる。音識別部120は、動画情報CAV_Nを取得すると、音響情報A_Nの各々を取り出して音識別処理を実行する。図6は、音識別部120および動画情報出力部130が実行する音識別処理の内容を示すフローチャートである。
音識別部120は、音響情報A_Nの各々について以下の処理を実行する。音識別部120は、音響情報A_Nをフレームに区切り、FFT(Fast Fourier Transform)を施す。次いで、音識別部120は、予め定められたフレーム(例えば先頭フレームや、先頭フレームから所定時間経過後のフレーム)の各々についてピッチ(基本周波数)抽出を施し、その基本周波数f[Hz]の信号成分の信号レベルと、そのM(2≦M≦m+1)次倍音成分(周波数:2f、3f、・・・、(m+1)f[Hz])の各信号成分の信号レベルをフレーム毎に算出する。なお、ピッチ抽出については周知の技術を適宜用いるようにすれば良い。次いで、音識別部120は、倍音成分の信号レベルと基本周波数における信号レベルの比を算出し、それらの比を並べて特徴量ベクトルU_Nを生成する。
次いで、音識別部120は、k−NN(k-Nearest Neighbors:k−最近傍法)法による分類アルゴリズムに従って、特徴量ベクトルU_Nの属性(すなわち、音響情報A_Nの表す音の種別)を特定する(ステップS100)。音識別部120は、m次元空間内に、特徴量ベクトルU_Nの終点を中心とし、かつ、特徴量ベクトルVI_Jをk(例えば、k=5)個含むような半径rの球を設定する。より詳細には、音識別部120は、設定した球に含まれる特徴量ベクトルVI_Jの個数をカウントし、その球の内部にk個の特徴量ベクトルVI_Jが含まれるように、半径rの値を調整する。次いで、音識別部120は、記憶部20(より正確には、揮発性記憶部210)からクラス分類テーブル214を読み出し、当該クラス分類テーブル214を参照することにより、その球の内部に含まれるk個の特徴量ベクトルVI_Jの各々の属性を特定する。球の内部に含まれる特徴量ベクトルVI_Jの各々の属性が全て等しい場合、音識別部120は当該属性を特徴量ベクトルU_Nの属性として決定する。球の内部に含まれるk個の特徴量ベクトルVI_Jの各々の属性が複数種類に亙っている場合、多数決により決定した属性、すなわちより多く特定された属性を特徴量ベクトルU_Nの属性として決定する。例えば、球の内部に含まれる5つの特徴量ベクトルVI_Jの属性としてエレキギター(LBeg)が3個、ボーカル(LBbo)が2個特定された場合、多数決により特徴量ベクトルU_Nの属性はエレキギターと特定される。なお、特徴量ベクトルU_Nの属性を精度良く特定したい場合、他のフレームを基に特定した特徴量ベクトルU_NついてもステップS110に示す処理を実行し、そのうち最も多く特定された属性を特徴量ベクトルU_Nの属性として決定すればよい。
音識別部120は、特徴量ベクトルU_Nの各々の属性を特定すると、当該特徴量ベクトルU_Nの属性を示す音識別情報を動画情報CAV_Nに付与し、当該動画情報CAV_Nを動画情報出力部130に与える。例えば、特徴量ベクトルU_1の属性がエレキギターであった場合、ラベルLBegを動画情報CAV_1に付与して動画情報出力部130に与える。
動画情報出力部130は、各々音識別情報を付与された動画情報CAV_Nを音識別部120から受け取ると、記憶部20(より正確には、不揮発性記憶部210)から映像配置テーブル213を読み出し、動画情報CAV_Nに付与された音識別情報に対応付けられた領域、すなわち映像情報V_Nの表す映像を表示する領域を特定する(ステップS110)。次いで、動画情報出力部130は、特定した各領域に映像情報V_Nの表す映像が表示されるよう、映像情報V_Nを合成し、その合成結果を示す映像情報を表示部30に出力する(ステップS120)。この結果、表示部30の表示画面には、映像情報V_Nの表す映像が図2に示す領域に表示される。
以上、本実施形態によれば、音識別部120により識別された各音の演奏者の映像が映像配置テーブル213により指定された領域に表示される。前述したように、本実施形態の被写体のバンドの各演奏者は、図5に示す立ち位置で演奏を行っており、音響情報V_Nにおける音像の定位位置も図5に示す位置に応じたものとなっている。このため、サウンドシステム50から放音される各音の音像の定位位置と、各音の演奏者の映像の表示画面内での配置位置との整合性が損なわれることはない。このため、エンドユーザに配布する動画情報における各演奏者の映像の表示位置を、再生装置1により決定された位置から変更しないように編集を行えば、エンドユーザに違和感を与えることのない多視点映像を手軽に編集することができる。
なお、動画再生システムのユーザが操作手段(図示略)を介して、サウンドシステム50から放音された音響情報A_Nの表す演奏音の定位位置を変更させる編集(パンの調整)を行った場合には、映像情報V_N(或いは映像情報V_1〜V_6の各々)の表示位置を変更後の定位位置に応じて変更する処理をCPU10に行わせて良く、また、映像情報V_Nの表示位置を変更させる編集を行った場合には、音響情報A_N(或いは音響情報V_1〜V_6の各々)のパンを変更後の表示位置に応じて調整する処理をCPU10に行わせても良い。
<第2実施形態>
図7は、本発明の第2実施形態である再生装置1Aの構成を示す図である。図7では、図1と同一の構成要素には同一の符号が付されている。図7と図1を対比すれば明らかなように、本実施形態による再生装置1Aは、記憶部20に代えて記憶部20Aを有する点において第1実施形態による再生装置1と異なる。以下、第1実施形態との相違点である記憶部20Aを中心に説明する。
記憶部20Aは、不揮発性記憶部210に換えて不揮発性記憶部210Aを有する点において記憶部20と異なる。不揮発性記憶部210Aは、以下の3つの点が不揮発性記憶部210と異なる。第1に、複数の映像配置テーブル(図8では、映像配置テーブル213A_T(T=1〜t:tは2以上の自然数))が格納されている点である。第2に、クラス分類テーブル214に代えてクラス分類テーブル214Aが格納されている点である。そして、第3に、再生プログラム211に代えて再生プログラム211Aが格納されている点である。
映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々の格納内容は、第1実施形態における映像配置テーブル213と同様に、ミックスダウンで推奨される楽器の空間配置に対応している。映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々は、それぞれ編成の異なるバンド(楽団)に対応している。例えば、図8に示す映像配置テーブル213A_1は、音識別情報としてLBeg、LBbo、LBba、LBkb、LBpi(ピアノを示す音識別情報)を含んでいる。つまり、図8に示す映像配置テーブル213A_1の格納内容は、エレキギター、ボーカル、ベース、およびピアノにより構成されるバンド(楽団)に対応する。クラス分類テーブル214Aは、映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々に格納されている音識別情報のすべてを含んでいる。
CPU10は、再生プログラム211Aを実行することにより動画情報取得部110および動画情報出力部130Aとして機能する。動画情報出力部130Aは、映像配置テーブル213A_Tのうちから、動画情報CAV_Nに付与された音識別情報をすべて含むテーブル(以下、映像配置テーブル213A_t0)を選択する。そして、動画情報出力部130Aは、映像配置テーブル213A_t0を基に、動画情報CAV_Nに付与された音識別情報に対応付けられた領域を特定する。図9は、各映像配置テーブル213A_t0に対応した表示部30の表示画面の例を示す図である。図9に示すように、動画情報出力部130Aにより特定された各映像配置テーブル213A_t0に従って、映像情報V_Nの表す各パートの演奏者の映像が表示部30の表示画面に表示される。
一般にバンドの構成はバンド毎に区々であるが、本実施形態によれば、バンドの構成に応じた最適な表示位置に各演奏者の映像を配置して表示部30に表示させることが可能になる。
<他の実施形態>
以上、この発明の各種の実施形態について説明したが、この発明には他にも実施形態が考えられる。
(1)上記各実施形態では、音響情報A_Nの表す音の種別を音識別部120により特定したが、音識別部120(音識別処理)を省略してもよい。この場合、キーボード等の入力手段を再生装置1に設け、音響情報A_Nの表す音の種別を示す情報を、当該入力手段を介してユーザに入力させる。そして、この情報を動画情報出力部130に参照させればよい。この態様によれば、音識別部120を省略することができるため、CPU10の処理負荷を低減させることが可能となる。
(2)上記各実施形態では、音響情報A_Nに対して音識別処理を実行することにより、その音響情報A_Nの表す音の種別を特定した。しかし、映像情報V_Nの表す映像に対して画像解析処理を実行することにより、音響情報A_Nの表す音の種別を特定してもよい。また、音識別処理と画像解析処理を併用してもよい。この態様によれば、いずれか一方のみでは識別不能な場合であっても、音の種別を特定可能な場合があり、また、音の種別をより精度良く特定することが可能となる。
(3)上記各実施形態において、音識別部120により識別された音響情報A_Nの各々の表す音の種別を基に、当該音により構成される楽曲ジャンルを識別し、識別した楽曲ジャンルの種別に応じて、映像情報V_Nの各々の表す映像の表示画面内の配置位置を決定してもよい。具体的には、各々異なる楽曲ジャンル毎に、楽曲を構成する音の種別毎に当該音に対応する映像の配置位置を規定したテーブルを予め記憶部20に格納しておく。そして、音識別部120には、音響情報A_Nの各々が表す音の種別を過不足なく含む映像配置テーブルに対応する楽曲ジャンルを当該音により構成される楽曲の楽曲ジャンルとして識別させ、動画情報出力部130には、音識別部120により識別された楽曲ジャンルに対応する映像配置テーブルを参照させればよい。なお、表示画面内の配置位置を決定する際には、その楽曲ジャンルで一般的に推奨されている配置位置を基に決定してもよい。
(4)上記第2実施形態において、音識別部120および120Aは、表示部30への映像の表示を開始してから所定時間が経過する毎に音識別処理を行ってもよい。この態様によれば、ライブ演奏中に異なる種類の楽器を演奏し始めたりするようなことがあったとしても、都度、楽器の種類に応じた映像配置テーブル213A_Tに従って、映像情報V_Nの表す各パートの演奏者の映像を表示部30の表示画面に表示することが可能となる。また、ライブの開演から所定時間が経過する毎に各演奏者が立ち位置を変更する場合には、その変更時刻毎にその変更後の立ち位置に応じた映像配置テーブル213A_Tを用意しておき、表示部30への映像の表示を開始してから上記所定時間が経過する毎にその変更時刻に応じた映像配置テーブル213A_Tを用いて音識別処理を行うことで映像情報V_Nの表す各パートの演奏者の映像の表示位置を各演奏者の動きに追従させることが可能になる。
(5)上記第1実施形態において、表示部30の表示画面の区分けの方法は適宜変更してもよい。図10は、複数の領域に区分けされた表示部30の表示画面の他の例を示す図である。図10に示す例では、表示部30の表示画面は、表示画面全体に亘って複数の長方形の領域に区切られている。この態様によれば、表示部30の表示画面を有効利用することが可能となる。
(6)上記第2実施形態において、編集対象の動画の被写体であるバンドの編成と同じ編成に対応する映像配置テーブル213A_Tが存在しない場合、動画情報出力部130は、映像配置テーブル213A_Tのうちから、動画情報CAV_Nに付与された音識別情報を最も多く含むテーブルを選択し、その映像配置テーブルに従って映像情報V_Nの表す各パートの演奏者の映像の表示位置を決定してもよい。
(7)上記各実施形態では、特徴量ベクトルU_Nの属性を決定する際のアルゴリズムとしてk−NN法を用いたが、例えばSVM(Support Vector Machine)などの他のアルゴリズムを用いても良い。
(8)上記実施形態では、音識別部120が抽出する特徴量として音響情報A_Nの表す音信号の倍音成分の信号レベルを例として挙げたが、例えばケプストラムなどの他の特徴量であってもよい。
(9)上記各実施形態では、バンドを構成する各演奏者の映像および演奏音を表す動画情報CAV_Nが再生装置1に入力されたが、バンド全体の映像および演奏音を表す動画情報が再生装置1に入力されてもよい。この場合、以下の処理を再生装置1の各部およびユーザに実行させてもよい。
この場合、再生装置1には、当該動画情報から各演奏者の演奏音を表す音響情報A_Nと各演奏者の映像を表す映像情報V_Nとを生成させた後に上記実施形態の処理を実行させるようにすればよい。なお、バンド全体の映像および演奏音を表す動画情報からの各演奏者の演奏音を表す音響情報A_Nの生成については、独立成分分析等の既存の音源分離技術等を用いるようにすればよい。また、当該動画情報からの映像情報V_Nの生成および音響情報A_Nとの対応付けについては、例えば上記動画情報の表す映像において各演奏者の占める領域およびその演奏者の演奏音の種別(すなわち、音響情報A_Nとの対応)をユーザに指定させることにより実現すればよい。
上記実施形態において、動画情報CAV_Nの再生時に、音響情報A_Nの表す音に基づいて映像情報V_Nの表す映像を同期させてもよい(特開2001−36867号公報参照)。この場合、音響情報A_Nに含まれる演奏音の特徴を基に各音響情報A_Nを同期させることにより、各映像情報V_Nの表す映像を同期させることが可能となる。
1,1A…再生装置、10…CPU、110…動画情報取得部、120…音識別部、130,130A…動画情報出力部、20,20A…記憶部、210,210A…不揮発性記憶部、211,211A…再生プログラム、212…音識別プログラム、213,213A_T…映像配置テーブル、220…揮発性記憶部、214,214A…クラス分類テーブル、30…表示部、40…メモリインタフェース、50…サウンドシステム。

Claims (5)

  1. 少なくとも映像情報を含む動画情報を複数受け取る情報受取ステップと、
    複数の前記動画情報を解析し、音の種別を映像情報毎に識別する識別ステップと、
    音の種別毎に表示装置の画面の画面領域が対応付けられた映像配置テーブルを参照し、前記識別された音の種別に対応する映像情報の表す映像を表示装置の画面の画面領域に割り当てて表示させる表示ステップと
    を含むことを特徴とする再生方法。
  2. 映像情報を複数受け取り、音の種別毎に表示装置の画面の画面領域が対応付けられた映像配置テーブルを参照して、複数の前記映像情報の各々について、当該映像情報の表す映像に対応する音の種別に応じた画面領域を特定し、その領域に当該映像を割り当てて表示装置に表示させる動画情報出力部
    を有することを特徴とする再生装置。
  3. 前記映像情報と、その映像情報の表す映像に対応する音を表す音響情報と、を含む動画情報を複数受け取り、複数の前記音響情報の各々が表す音の種別を、当該音響情報または当該音響情報に対応する映像情報の少なくとも一方を解析して識別する音識別部を有し、
    前記動画情報出力部は、
    複数の前記映像情報の各々が表す映像の画面領域を前記音識別部により識別された音の種別に応じて特定する
    ことを特徴とする請求項2に記載の再生装置。
  4. 格納されている音の種別の組み合わせが互いに異なる複数の前記映像配置テーブルを有し、
    前記動画情報出力部は、複数の前記映像配置テーブルのうちから前記音識別部により識別された音の種別をすべて含む映像配置テーブルを選択し、当該選択した映像配置テーブルを参照して各映像の画面領域を特定することを特徴とする請求項3に記載の再生装置。
  5. 複数の前記音響情報が表す音は、楽曲を構成し、
    各々異なる楽曲ジャンルに対応する複数の前記映像配置テーブルを有し、
    前記音識別部は、識別した音の種別を基に当該音により構成される楽曲ジャンルを識別し、
    前記動画情報出力部は、前記複数の映像配置テーブルのうちから音識別部により識別された楽曲ジャンルを示す映像配置テーブルを選択し、当該選択した映像配置テーブルを参照して各映像の画面領域を特定することを特徴とする請求項3または4に記載の再生装置。
JP2015223504A 2015-11-13 2015-11-13 再生方法および再生装置 Pending JP2017092832A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015223504A JP2017092832A (ja) 2015-11-13 2015-11-13 再生方法および再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015223504A JP2017092832A (ja) 2015-11-13 2015-11-13 再生方法および再生装置

Publications (1)

Publication Number Publication Date
JP2017092832A true JP2017092832A (ja) 2017-05-25

Family

ID=58768756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015223504A Pending JP2017092832A (ja) 2015-11-13 2015-11-13 再生方法および再生装置

Country Status (1)

Country Link
JP (1) JP2017092832A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018033093A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 合成パラメータ最適化装置、その方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018033093A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 合成パラメータ最適化装置、その方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP7517500B2 (ja) 再生装置、再生方法、およびプログラム
US8917972B2 (en) Modifying audio in an interactive video using RFID tags
US8887051B2 (en) Positioning a virtual sound capturing device in a three dimensional interface
CN103733249B (zh) 信息***、信息再现装置、信息生成方法及记录介质
KR101414217B1 (ko) 실시간 영상합성 장치 및 그 방법
CN118175379A (zh) 显示设备及音频处理方法
CN114615534A (zh) 显示设备及音频处理方法
JP6568351B2 (ja) カラオケシステム、プログラム及びカラオケ音声再生方法
JP2017092832A (ja) 再生方法および再生装置
CN114598917B (zh) 显示设备及音频处理方法
JP2022117505A (ja) コンテンツ修正装置、コンテンツ配信サーバ、コンテンツ修正方法、コンテンツ修正プログラム、および、記録媒体
JP2018155936A (ja) 音データ編集方法
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
Toft Recording Classical Music
JP2014123085A (ja) カラオケにおいて歌唱に合わせて視聴者が行う身体動作等をより有効に演出し提供する装置、方法、およびプログラム
JP5338312B2 (ja) 自動演奏同期装置、自動演奏鍵盤楽器およびプログラム
JP6474292B2 (ja) カラオケ装置
JP2020008752A (ja) 生バンドカラオケライブ配信システム
JP5687961B2 (ja) 同期再生装置及び同期再生方法
JP4422538B2 (ja) 音付映像の再生装置
Lopes INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES
JP2007201806A (ja) 音声付動画データの作成方法
JP2023174364A (ja) カラオケ装置
JP2005210350A (ja) 映像編集方法及び装置
JP2013114088A (ja) 音響再生装置