WO2017026387A1

WO2017026387A1 - 映像処理装置、映像処理方法および記録媒体

Info

Publication number: WO2017026387A1
Application number: PCT/JP2016/073074
Authority: WO
Inventors: 近藤　多伸; 祐高橋; 佳孝浦谷
Original assignee: ヤマハ株式会社
Priority date: 2015-08-07
Filing date: 2016-08-05
Publication date: 2017-02-16
Also published as: JP2017038152A

Abstract

映像処理装置は、相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、複数のコンテンツデータの何れかの動画が表示される第１区間と、複数のコンテンツデータの各々における特定区間の動画が表示される第２区間とを含む編集動画を表す編集データを生成する編集処理部とを具備する。

Description

映像処理装置、映像処理方法および記録媒体

　本発明は、動画を処理する技術に関する。

　音響と動画とを含む素材を編集する各種の技術が従来から提案されている。例えば特許文献１には、相異なる位置で収録された複数の動画を被写体の動き情報に応じて順次に切替えることでマルチアングル映像を再生する技術が開示されている。

特開２００７－２００９２号公報

　しかし、特許文献１の技術では、複数の動画が順次に切替わりながら再生されるに過ぎず、例えば共通の場面を収録した複数の多様な動画が組合わされた印象的な動画を生成することは実際には困難である。以上の事情を考慮して、本発明は、複数のコンテンツデータの動画が組合わされた動画を生成することを目的とする。

　以上の課題を解決するために、本発明の好適な態様に係る映像処理装置は、相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、複数のコンテンツデータの何れかの動画が表示される第１区間と、複数のコンテンツデータの各々における特定区間の動画が表示される第２区間とを含む編集動画を表す編集データを生成する編集処理部とを具備する。以上の構成では、複数のコンテンツデータの何れかの動画が表示される第１区間に加えて、複数のコンテンツデータにおける特定区間の動画が表示される第２区間を含む編集動画の編集データが生成される。したがって、時間軸上で共通する特定区間内の複数のコンテンツデータの動画が組合わされた編集動画を生成することが可能である。

本発明の第１実施形態に係る映像処理装置の構成を例示する構成図である。複数のコンテンツデータの説明図である。複数のコンテンツデータを相互に同期させる処理の説明図である。編集指示画面の模式図である。変数処理の説明図である。編集動画の説明図である。映像処理の動作のフローチャートである。第２実施形態における編集動画の説明図である。

＜第１実施形態＞
　図１は、第１実施形態の映像処理装置１０の構成を例示する構成図である。映像処理装置１０は、音響（例えば音声または楽音）および動画を処理するためのコンピュータシステムであり、図１に例示される通り、制御装置２２と記憶装置２４と通信装置２６と表示装置３２と放音装置３４と操作装置３６とを具備する。例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の可搬型の情報処理装置で映像処理装置１０は好適に実現され得るが、据置型の情報処理装置で映像処理装置１０を実現することも可能である。

　制御装置２２は、映像処理装置１０の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。通信装置２６は、複数（Ｎ個）の収録装置１２と通信する（Ｎは２以上の自然数）。Ｎ個の収録装置１２の各々は、音響を収音する収音装置と動画を撮像する撮像装置とを具備する映像機器であり、収音装置が収音した音響と撮像装置が撮像した動画とを表すデータ（以下「コンテンツデータ」という）Ｘを生成する。音響および動画の収録に専用されるデジタルカムコーダ等の映像機器のほか、収録機能を搭載した携帯電話機またはスマートフォン等の情報端末が収録装置１２として利用され得る。第１実施形態の通信装置２６は、Ｎ個の収録装置１２からコンテンツデータＸ（動画ファイル）を受信する。具体的には、通信装置２６は、例えばWi-Fi（登録商標）またはBluetooth（登録商標）等の公知の近距離無線通信によりＮ個の収録装置１２の各々からコンテンツデータＸを受信する。ただし、通信装置２６と各収録装置１２との通信方式は任意であり、例えば通信装置２６が有線で各収録装置１２と通信することも可能である。

　記憶装置２４は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成され、制御装置２２が実行するプログラムと制御装置２２が使用する各種のデータとを記憶する。第１実施形態の記憶装置２４は、Ｎ個の収録装置１２から通信装置２６が受信したＮ個のコンテンツデータＸを記憶する。図２には、通信装置２６がＮ個の収録装置１２から受信したＮ個のコンテンツデータＸ（Ｘ1，Ｘ2，……，ＸN）が例示されている。図２に例示される通り、任意の１個のコンテンツデータＸは、相互に並行に収録された音響および動画を包含する。なお、映像処理装置１０が通信可能なサーバに記憶装置２４（すなわちクラウドストレージ）を設置することも可能である。すなわち、映像処理装置１０から記憶装置２４は省略され得る。

　Ｎ個の収録装置１２は、例えば相異なる位置で共通の収録対象（被写体）の音響および動画を並行に収録する。例えば、音響ホール等の共通の音響空間の相異なる地点に複数の収録装置１２が配置され、各収録装置１２が別個の角度から例えば舞台または観客の様子を収録してコンテンツデータＸを生成する。なお、コンテンツデータＸのファイル形式は任意である。各収録装置１２の利用者は、例えば掛け声等の合図を契機として収録装置１２による収録を個々に開始する。したがって、音響および動画の収録の開始点は、Ｎ個のコンテンツデータＸの間で厳密には一致せず、コンテンツデータＸ毎に相違し得る。ただし、Ｎ個の収録装置１２は共通の被写体を並行に収録するから、Ｎ個のコンテンツデータＸは、相互に共通の音響（ただし音量等の音響特性は相違し得る）を含有する。

　図１の表示装置３２（例えば液晶表示パネル）は、制御装置２２から指示された画像を表示する。放音装置３４（例えばスピーカーまたはヘッドホン）は、制御装置２２から指示された音響を放音する。操作装置３６は、利用者からの指示を受付ける入力機器であり、例えば利用者による操作を検知する複数の操作子、または、表示装置３２の表示面に対する利用者の接触を検知するタッチパネルで構成される。

　制御装置２２は、記憶装置２４に記憶されたプログラムを実行することで、Ｎ個のコンテンツデータＸを処理するための複数の機能（同期処理部４２，区間設定部４４および編集処理部４６）を実現する。なお、制御装置２２の一部の機能を音響処理または画像処理の専用の電子回路で実現した構成、または、制御装置２２の機能を複数の装置に分散した構成も採用され得る。

　同期処理部４２は、収録装置１２が生成したＮ個のコンテンツデータＸを相互に同期させる。複数のコンテンツデータＸの同期とは、各コンテンツデータＸの音響および動画の時間軸をＮ個のコンテンツデータＸについて相互に合致させた状態を意味する。すなわち、同期処理部４２は、図３に例示される通り、各コンテンツデータＸにおける特定の時刻（例えば特定の音響が発音された時点）がＮ個のコンテンツデータＸにわたり時間軸上の共通の時点となるように各コンテンツデータＸの時間軸上の位置を調整する。Ｎ個のコンテンツデータＸの同期には公知の技術が任意に採用され得るが、例えば図３の例示からも理解される通り、各コンテンツデータＸの音響を解析することでＮ個のコンテンツデータＸを相互に同期させる構成が好適である。すなわち、各コンテンツデータＸの音響の時間変動（すなわち音圧波形）がＮ個のコンテンツデータＸにわたり時間軸上で整合するように各コンテンツデータＸの時間軸上の位置が調整される。

　図１の編集処理部４６は、同期処理部４２による処理後のＮ個のコンテンツデータＸ（すなわち音響および動画が時間軸上で相互に同期したＮ個のコンテンツデータＸ）を統合する編集処理で編集データＹを生成する。編集データＹは、動画（以下「編集動画」という）と音響とを含む動画ファイルである。具体的には、編集処理部４６は、Ｎ個のコンテンツデータＸの各々から少なくともひとつの区間を抽出し、これらの抽出した区間を相互に連結することで編集データＹを生成する。以上の通り、Ｎ個のコンテンツデータＸは編集データの素材として利用される。編集処理部４６が生成した編集データは記憶装置２４に記憶される。なお、編集データのファイル形式は任意である。

　第１実施形態の編集処理部４６は、所定値（例えば１０秒）を下回る時間長の編集動画を生成する。すなわち、編集処理部４６が生成する編集動画は短時間に制限される。編集処理部４６が生成した編集データの編集動画は表示装置３２により表示され、当該編集データの音響は放音装置３４から放音される。すなわち、表示装置３２および放音装置３４は、編集データを再生する再生機器として機能する。編集処理部４６による編集処理の内容は、操作装置３６に対する利用者からの指示に応じて制御される。

　図４は、編集処理の内容を利用者が指示するために表示装置３２に表示される編集指示画面６０の模式図である。図４に例示される通り、編集指示画面６０は、編集領域６２と確認領域６４とを包含する。編集領域６２には、同期処理部４２による処理後のコンテンツデータＸの動画を表象するＮ個の画像列６６が共通の時間軸（横軸）のもとで並列に配置される。任意の１個のコンテンツデータＸの画像列６６は、例えば当該コンテンツデータＸの動画に包含される複数の画像（キャプチャ画像）を時間軸に沿って時系列に配列した画像である。他方、確認領域６４には、操作装置３６に対する操作で利用者が選択した１個のコンテンツデータＸの動画が表示される。したがって、利用者は、所望のコンテンツデータＸの動画の内容を確認領域６４で随時に確認しながら、編集処理の内容を指示することが可能である。

　利用者は、編集指示画面６０を視認しながら操作装置３６を適宜に操作することで、編集領域６２に時間軸上の所望の区間（以下「特定区間」という）Ｓを指示することが可能である。図１の区間設定部４４は、操作装置３６に対する操作で利用者から指示された特定区間Ｓを設定する。特定区間Ｓは、Ｎ個のコンテンツデータＸについて時間軸上で共通する一部の区間である。すなわち、特定区間Ｓの始点または終点の時刻は、Ｎ個のコンテンツデータＸの動画にわたり時間軸上の同時刻である。特定区間Ｓの時間長ＴSは、利用者からの指示に応じた数値に設定される。ただし、特定区間Ｓの時間長ＴSを固定長とすることも可能である。

　図５は、同期処理部４２による処理後のＮ個のコンテンツデータＸの動画と編集処理部４６が生成する編集データＹの編集動画Ｍとの関係の説明図である。図５に例示される通り、編集処理部４６がＮ個のコンテンツデータＸ（Ｘ1，Ｘ2，……，ＸN）から生成する編集データＹの編集動画Ｍは、時間軸上で複数の区間に区分され、各区間は第１区間Ｑ1および第２区間Ｑ2の何れかに分類される。図５の例示では、２個の第１区間Ｑ1と１個の第２区間Ｑ2とが便宜的に図示されているが、編集動画Ｍ内の第１区間Ｑ1および第２区間Ｑ2の個数は任意である。例えば、編集動画Ｍに複数の第２区間Ｑ2を含めることも可能である。

　第１区間Ｑ1は、Ｎ個のコンテンツデータＸの何れかの動画および音響が再生される区間である。具体的には、Ｎ個のコンテンツデータＸのうち利用者が操作装置３６に対する操作で選択した１個のコンテンツデータＸの動画および音響が第１区間Ｑ1に配置される。図５では、第２区間Ｑ2の直前の第１区間Ｑ1にコンテンツデータＸ1の動画（特定区間Ｓの直前の区間）が配置され、第２区間Ｑ2の直後の第１区間Ｑ1にコンテンツデータＸ2の動画（特定区間Ｓの直後の区間）が配置された場合が例示されている。

　第２区間Ｑ2は、Ｎ個のコンテンツデータＸの各々における特定区間Ｓの動画が時系列に表示される区間である。すなわち、コンテンツデータＸの動画のうち時間軸上の共通の特定区間Ｓ内の動画ＺをＮ個のコンテンツデータＸにわたり抽出したＮ個の動画Ｚ（Ｚ1，Ｚ2，……，ＺN）が第２区間Ｑ2に時系列に配置される。したがって、第２区間Ｑ2の時間長は、特定区間Ｓの時間長ＴSのＮ個分（ＴS×Ｎ）に相当する。また、第２区間Ｑ2では、各コンテンツデータＸにおける特定区間Ｓ内の動画Ｚの表示に並行して、当該コンテンツデータＸのうち特定区間Ｓ内の音響が放音される。なお、第２区間Ｑ2におけるＮ個の動画Ｚの各々の表示時に、任意の１個のコンテンツデータＸにおける特定区間Ｓ内の音響を反復して再生することも可能である。

　Ｎ個の動画Ｚの配列の順序は任意である。例えば、操作装置３６に対する操作で利用者がＮ個のコンテンツデータＸの各々の優先度を事前に設定し、第２区間Ｑ2内に優先度の順序でＮ個の動画Ｚを配列する構成が採用され得る。例えば撮像時の画角（撮影範囲）を示す撮影情報を各コンテンツデータＸが含む場合、第２区間Ｑ2内に画角の順序（例えば広角側および望遠側の一方から他方に向かう順序）でＮ個の動画Ｚを配列することも可能である。また、Ｎ個の動画Ｚを第２区間Ｑ2内にランダムな順序で配列する構成も想定される。以上の説明から理解される通り、編集データＹで表現される編集動画Ｍの第２区間Ｑ2では、図６に例示される通り、Ｎ個の収録装置１２が相互に共通の時間帯（特定区間Ｓ）に別個の位置および角度で撮影したＮ個の動画Ｚ（Ｚ1，Ｚ2，Ｚ3，……）の各々が時分割で順次に表示される。

　図７は、映像処理装置１０の動作のフローチャートである。操作装置３６に対する利用者からの指示を契機として図７の処理が開始される。図７の処理を開始すると、制御装置２２は、図４に例示した編集指示画面６０を表示装置３２に表示させ（Ｓ1）、操作装置３６に対する利用者からの指示を受付けて当該指示に応じた処理を実行する（Ｓ2）。例えば制御装置２２（区間設定部４４）は、操作装置３６に対する利用者からの指示に応じて、第１区間Ｑ1および第２区間Ｑ2を時間軸上に設定し、各第１区間Ｑ1に配置されるコンテンツデータＸをＮ個のなかから選択する。また、制御装置２２は、操作装置３６に対する利用者からの指示に応じて特定区間Ｓを設定する。利用者からの指示の受付（Ｓ2）は、利用者が編集処理の実行を指示するまで反復される（Ｓ3：NO）。

　操作装置３６に対する操作で利用者が編集処理を指示すると（Ｓ3：YES）、制御装置２２（編集処理部４６）は、Ｎ個のコンテンツデータＸに対する編集処理で編集データＹを生成する（Ｓ4）。具体的には、前述の通り、Ｎ個のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1と、Ｎ個のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが時系列に表示される第２区間Ｑ2とを含む編集動画Ｍを表す編集データＹが生成される。例えばいま、Ｎ個のうち任意の２個のコンテンツデータＸ（第１コンテンツデータＸおよび第２コンテンツデータＸ）に着目する。第１コンテンツデータＸおよび第２コンテンツデータＸの一方の動画が表示される第１区間Ｑ1と、第１コンテンツデータＸおよび第２コンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2と、を含む編集動画Ｍの編集データＹが生成される。制御装置２２は、編集処理（Ｓ4）で生成した編集データＹの編集動画Ｍを表示装置３２に表示させるとともに当該編集データＹの音響を放音装置３４から放音させる（Ｓ5）。

　以上に説明した通り、第１実施形態では、Ｎ個のコンテンツデータＸの何れかの動画が選択的に表示される第１区間Ｑ1に加えて、Ｎ個のコンテンツデータＸの各々における特定区間ＳのＮ個の動画Ｚが表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹが生成される。編集動画Ｍのうち第２区間Ｑ2については、時間軸上で共通する特定区間Ｓ内の複数のコンテンツデータＸの動画が組合わされる。したがって、共通の時間帯に相異なる位置および角度で撮影された特定区間Ｓ内の被写体の様子を視聴者が視聴できる印象的な編集動画Ｍを生成できる。例えば、動画内で特に印象的なイベント（例えばスポーツの動画の得点シーン）を包含するように特定区間Ｓを選定することで、当該イベントの様子を多様な方向から視聴できる印象的な編集動画Ｍが生成される。第１実施形態では特に、特定区間ＳのＮ個の動画Ｚが時系列に表示されるから、共通の時間帯（特定区間Ｓ）に撮影された複数の動画Ｚが順次に切替わる印象的な編集動画Ｍを生成できるという利点がある。

　また、第１実施形態では、Ｎ個のコンテンツデータＸを相互に同期させたうえで編集処理が実行されるから、収録開始の時点がコンテンツデータＸ毎に相違する場合でも、時間的に相互に整合したＮ個のコンテンツデータＸを統合した適切な編集動画Ｍを生成できるという利点がある。第１実施形態では特に、コンテンツデータＸの音響を利用してＮ個のコンテンツデータＸを相互に同期させるから、例えば動画の内容を解析してＮ個のコンテンツデータＸを同期させる構成と比較して、動画の内容に関わらず適切にＮ個のコンテンツデータＸを同期させることが可能である。

　なお、以上の例示では、利用者からの指示に応じて特定区間Ｓの時間長ＴSを設定したが、第２区間Ｑ2の時間長Ｔを利用者からの指示に応じて設定することも可能である。特定区間Ｓの時間長ＴSは、第２区間Ｑ2の時間長ＴをコンテンツデータＸの総数Ｎで除算した時間（Ｔ/Ｎ）に設定される。以上の構成によれば、コンテンツデータＸの総数Ｎの多寡に関わらず、第２区間Ｑ2を所望の時間長Ｔに制限することが可能である。

＜第２実施形態＞
　本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図８は、第２実施形態の編集処理部４６が生成する編集データＹの説明図である。編集データＹが表す編集動画Ｍのうち第２区間Ｑ2において表示装置３２に表示される再生画面６８が図８には例示されている。図８に例示される通り、第２実施形態の編集処理部４６は、編集動画Ｍの第２区間Ｑ2において、Ｎ個のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが相異なる領域に並列に表示されるように編集データＹを生成する。すなわち、編集動画Ｍの第２区間Ｑ2では、コンテンツデータＸの動画のうち特定区間Ｓ内の動画ＺをＮ個のコンテンツデータＸにわたり抽出したＮ個の動画Ｚ（Ｚ1，Ｚ2，……，ＺN）が再生画面６８（表示装置３２）の相異なる領域に配置される。したがって、第２区間Ｑ2の時間長は特定区間Ｓの時間長ＴSと同等である。第１区間Ｑ1では、第１実施形態と同様に、Ｎ個のコンテンツデータＸの何れかの動画および音響が再生される。第１区間Ｑ1については、１個のコンテンツデータＸの動画が表示装置３２の表示領域の全体にわたり表示される。他方、第２区間Ｑ2については、特定区間Ｓの複数の動画Ｚが表示領域内の相異なる領域（したがって、第１区間Ｑ1の動画が表示される領域よりも狭い領域）に表示される。

　第２実施形態では、Ｎ個のコンテンツデータＸの何れかの動画が選択的に表示される第１区間Ｑ1に加えて、Ｎ個のコンテンツデータＸの各々における特定区間ＳのＮ個の動画Ｚが表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹが生成される。したがって、第１実施形態と同様に、時間軸上で共通する特定区間Ｓ内の複数のコンテンツデータＸの動画が組合わされた印象的な編集動画Ｍを生成することが可能である。また、第２実施形態では、特定区間ＳのＮ個の動画Ｚが相異なる領域に並列に表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹが生成されるから、共通の時間帯に相異なる位置および角度で撮影された特定区間Ｓ内の被写体の様子を視聴者が並列に視聴できる印象的な編集動画Ｍを生成することが可能である。例えば、動画内で特に印象的なイベントを包含するように特定区間Ｓを選定することで、当該イベントの様子を多様な方向から並列に視聴できる印象的な編集動画Ｍが生成される。

　第１実施形態および第２実施形態の例示から理解される通り、編集処理部４６は、Ｎ個のコンテンツデータの各々における特定区間Ｓの動画Ｚが表示される区間（第２区間Ｑ2）を含む編集動画Ｍの編集データＹを生成する要素として包括的に表現される。なお、記憶装置２４に記憶されたＮ個のコンテンツデータＸの一部である複数のコンテンツデータＸについて、特定区間Ｓ内の動画Ｚを第２区間Ｑ2に配置することも可能である。また、編集動画Ｍが複数の第２区間Ｑ2を内包する場合、編集動画Ｍ内の全部の第２区間Ｑ2が同数の動画Ｚを含む構成、または、動画Ｚの総数が第２区間Ｑ2毎に相違し得る構成が想定される。

＜変形例＞
　以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、Ｎ個のコンテンツデータＸの各々から選択された区間を相互に連結することで編集データＹを生成したが、編集データＹの生成方法は以上の例示に限定されない。例えば、Ｎ個のコンテンツデータＸの各々から抽出される区間をコンテンツデータＸ毎に指定する制御データを編集データＹとして編集処理部４６が生成することも可能である。すなわち、編集データＹ自体が動画または音楽を包含する必要はなく、Ｎ個のコンテンツデータＸを利用した編集処理の内容を指示する編集データＹが生成される。以上の説明から理解される通り、各コンテンツデータＸに対する直接的な編集（特定区間の切出または連結）は必須ではない。

（２）前述の各形態では、利用者からの指示に応じて区間設定部４４が特定区間Ｓを設定したが、特定区間Ｓの設定方法は以上の例示に限定されない。例えば、区間設定部４４がコンテンツデータＸの音響の解析で特定の音響（以下「特定音」という）を検出した場合に、当該特定音の時点に応じて特定区間Ｓを設定することも可能である。

　例えば、区間設定部４４は、Ｎ個のコンテンツデータＸにわたる音響の解析、または、Ｎ個から事前に選択された１個のコンテンツデータＸの音響の解析により特定音を検出する。具体的には、特定の種類の音源が発音した音響（例えば特定の楽器の演奏音）、特定の語句を発音した音声、音量が所定の閾値を上回る音響、または、所定の周波数帯域の音響が特定音として例示され得る。特定音の検出には、公知の音響解析技術（例えば音源分離、音声認識、特徴量抽出等）が利用され得る。区間設定部４４は、例えば、特定音の時点から前方または後方の所定長にわたる区間、特定音の時点を含む所定長の区間、または、相前後する特定音の間の区間を、特定区間Ｓとして設定する。以上の構成によれば、Ｎ個のコンテンツデータＸにおいて特定音の前後の特定区間Ｓの動画Ｚが第２区間Ｑ2にて表示される印象的な編集動画Ｍの編集データＹを生成することが可能である。例えば、スポーツの動画の得点時のアナウンス（例えば「ゴール！」という音声）を特定音として特定区間Ｓを設定することで、得点のシーンを多様な方向から視聴できるな編集動画Ｍが生成される。したがって、視聴者にとって印象的な編集動画Ｍを生成することが可能である。

（３）前述の各形態では、映像処理装置１０に接続された収録装置１２からＮ個のコンテンツデータＸを取得したが、Ｎ個のコンテンツデータＸを取得するための構成は以上の例示に限定されない。例えば、光ディスク等の可搬型の記録媒体からＮ個のコンテンツデータＸを取得する構成、または、インターネット等の通信網を介してＮ個のコンテンツデータＸを取得する構成も採用され得る。

（４）前述の各形態では、編集処理部４６が生成した編集データＹを表示装置３２および放音装置３４により再生したが、編集データＹの利用方法（出力形態）は任意である。例えば、編集データＹを外部装置に送信することも可能である。具体的には、携帯電話機またはスマートフォン等の他の通信端末に編集データＹを送信する構成、または、編集処理部４６が生成した編集データＹを動画投稿サイトに投稿して複数の利用者の間で共有する構成が好適である。また、映像処理装置１０に装着された可搬型の記録媒体（例えば半導体メモリ）に編集データＹを書込むことも可能である。

（５）前述の各形態では、同期処理部４２がＮ個のコンテンツデータＸを同期させたが、例えば各収録装置１２の相互間の通信によりＮ個の収録装置１２が同時に収録を開始する構成では、相互に同期したＮ個のコンテンツデータＸが映像処理装置１０に提供される。したがって、Ｎ個のコンテンツデータＸを相互に同期させるための構成（同期処理部４２）は映像処理装置１０から省略され得る。

（６）前述の各形態で例示した映像処理装置１０は、前述の通り制御装置２２とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号（transitory, propagating signal）を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

（７）本発明は、前述の各形態に係る映像処理装置１０の動作方法（映像処理方法）としても特定され得る。具体的には、本発明の好適な態様に映像処理方法においては、コンピュータ（単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む）が、相互に同期した動画を含む複数のコンテンツデータＸについて時間軸上で共通する特定区間Ｓを設定し、複数のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1と、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2とを含む編集動画Ｍを表す編集データＹを生成する。

（８）以上に例示した具体的な形態から把握される本発明の好適な態様を以下に例示する。
＜態様１＞
　本発明の好適な態様（態様１）に係る映像処理装置１０は、相互に同期した動画を含む複数のコンテンツデータＸについて時間軸上で共通する特定区間Ｓを設定する区間設定部４４と、複数のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1と、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2とを含む編集動画Ｍを表す編集データＹを生成する編集処理部４６とを具備する。態様１では、複数のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1に加えて、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹが生成される。したがって、時間軸上で共通する特定区間Ｓ内の複数のコンテンツデータＸの動画が組合わされた印象的な編集動画Ｍを生成することが可能である。

＜態様２＞
　態様１の好適例（態様２）において、編集処理部４６は、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが時系列に表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹを生成する。態様２では、時間軸上で共通する特定区間Ｓの複数の動画Ｚが時系列に表示されるから、共通の時間帯に撮影された複数の動画Ｚが順次に切替わる印象的な編集動画Ｍを生成できるという利点がある。

＜態様３＞
　態様２の好適例（態様３）において、編集処理部４６は、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが、利用者からの指示に応じた順序で、第２区間Ｑ2において時系列に表示される編集動画Ｍの編集データＹを生成する。態様３では、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが、利用者からの指示に応じた順序で第２区間Ｑ2内に時系列に表示されるから、利用者の嗜好や意図を反映した編集動画Ｍを生成することが可能である。

＜態様４＞
　態様２の好適例（態様４）において、編集処理部４６は、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが、撮像時の画角に応じた順序で、第２区間Ｑ2において時系列に表示される編集動画Ｍの編集データＹを生成する。態様４では、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが、撮影時の画角に応じた順序で第２区間Ｑ2内に時系列に表示されるから、例えば第２区間Ｑ2内の複数の動画Ｚの画角が広角側および望遠側の一方から他方に変化する編集動画Ｍを生成することが可能である。

＜態様５＞
　態様２から態様４の好適例（態様５）において、編集処理部４６は、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが、利用者からの指示に応じて設定された時間長の第２区間Ｑ2において時系列に表示される編集動画Ｍの編集データＹを生成する。態様５では、利用者からの指示に応じた時間長の範囲内に複数のコンテンツデータＸの配列した編集動画Ｍを生成することが可能である。

＜態様６＞
　態様１の好適例（態様６）において、編集処理部４６は、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが相異なる領域に並列に表示される第２区間Ｑ2を含む編集動画Ｍの編集データＹを生成する。態様６では、時間軸上で共通する特定区間Ｓの複数の動画Ｚが相異なる領域に並列に表示されるから、共通の時間帯に撮影された複数の動画Ｚを視聴者が並列に確認できる印象的な編集動画Ｍを生成することが可能である。

＜態様７＞
　態様１から態様６の何れかの好適例において、複数のコンテンツデータＸの各々は音響を含み、音響を利用して複数のコンテンツデータＸを相互に同期させる同期処理部を具備し、編集処理部４６は、同期処理部による処理後の複数のコンテンツデータＸから編集データＹを生成する。以上の態様では、編集処理の実行前に複数のコンテンツデータＸを相互に同期させるから、時間的に相互に整合した複数のコンテンツデータＸを統合した編集動画Ｍを生成できるという利点がある。

＜態様８＞
　態様１から態様７の何れかの好適例において、区間設定部４４は、利用者からの指示に応じて特定区間Ｓを設定する。以上の態様では、複数のコンテンツデータＸの各々において利用者の嗜好や意図を反映した特定区間Ｓの動画Ｚを含む編集動画Ｍを生成することが可能である。

＜態様９＞
　態様１から態様７の何れかの好適例において、区間設定部４４は、複数のコンテンツデータＸのうち１個以上のコンテンツデータＸの音響の解析により検出される特定音の時点に応じて特定区間Ｓを設定する。以上の態様では、複数のコンテンツデータＸにおいて特定音が検出された時点に応じた特定区間Ｓの動画Ｚが第２区間Ｑ2にて表示されるから、例えば特定音が発音された場面を視聴者に効果的に印象付ける編集動画Ｍを生成することが可能である。態様９において、特定音は、例えば、特定の種類の音源が発音した音響、特定の語句を発音した音声、音量が所定の閾値を上回る音響、または、所定の周波数帯域の音響である。

＜態様１０＞
　本発明の好適な態様（態様１０）は、以上に例示した各形態に係る映像処理装置１０の動作方法（映像処理方法）である。具体的には、態様１０に係る映像処理方法は、コンピュータが、相互に同期した動画を含む複数のコンテンツデータＸについて時間軸上で共通する特定区間Ｓを設定し、複数のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1と、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2とを含む編集動画Ｍを表す編集データＹを生成する。

＜態様１１＞
　本発明の好適な態様（態様１１）は、以上に例示した各形態に係る映像処理装置１０としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体である。具体的には、態様１１に係る記録媒体は、コンピュータを、相互に同期した動画を含む複数のコンテンツデータＸについて時間軸上で共通する特定区間Ｓを設定する区間設定部４４、および、複数のコンテンツデータＸの何れかの動画が表示される第１区間Ｑ1と、複数のコンテンツデータＸの各々における特定区間Ｓの動画Ｚが表示される第２区間Ｑ2とを含む編集動画Ｍを表す編集データＹを生成する編集処理部４６として機能させるプログラムを記憶する。

１０……映像処理装置、１２……収録装置、２２……制御装置、２４……記憶装置、２６……通信装置、３２……表示装置、３４……放音装置、３６……操作装置、４２……同期処理部、４４……区間設定部、４６……編集処理部。

Claims

　相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、
　前記複数のコンテンツデータの何れかの動画が表示される第１区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第２区間とを含む編集動画を表す編集データを生成する編集処理部と
　を具備する映像処理装置。
　前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が時系列に表示される前記第２区間を含む前記編集動画の編集データを生成する
　請求項１の映像処理装置。
　前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、利用者からの指示に応じた順序で、前記第２区間において時系列に表示される前記編集動画の編集データを生成する
　請求項２の映像処理装置。
　前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、撮像時の画角に応じた順序で、前記第２区間において時系列に表示される前記編集動画の編集データを生成する
　請求項２の映像処理装置。
　前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、利用者からの指示に応じて設定された時間長の前記第２区間において時系列に表示される前記編集動画の編集データを生成する
　請求項２から請求項４の何れかの映像処理装置。
　前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が相異なる領域に並列に表示される前記第２区間を含む前記編集動画の編集データを生成する
　請求項１の映像処理装置。
　前記複数のコンテンツデータの各々は音響を含み、
　前記音響を利用して前記複数のコンテンツデータを相互に同期させる同期処理部を具備し、
　前記編集処理部は、前記同期処理部による処理後の前記複数のコンテンツデータから前記編集データを生成する
　請求項１から請求項６の何れかの映像処理装置。
　前記区間設定部は、利用者からの指示に応じて前記特定区間を設定する
　請求項１から請求項７の何れかの映像処理装置。
　前記区間設定部は、前記複数のコンテンツデータのうち１個以上のコンテンツデータの音響の解析により検出される特定音の時点に応じて前記特定区間を設定する
　請求項１から請求項７の何れかの映像処理装置。
　コンピュータが、
　相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定し、
　前記複数のコンテンツデータの何れかの動画が表示される第１区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第２区間とを含む編集動画を表す編集データを生成する
　映像処理方法。
　コンピュータを、
　相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部、および、
　前記複数のコンテンツデータの何れかの動画が表示される第１区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第２区間とを含む編集動画を表す編集データを生成する編集処理部
　として機能させるプログラムを記録した記録媒体。