JP2015032905A - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
JP2015032905A
JP2015032905A JP2013159672A JP2013159672A JP2015032905A JP 2015032905 A JP2015032905 A JP 2015032905A JP 2013159672 A JP2013159672 A JP 2013159672A JP 2013159672 A JP2013159672 A JP 2013159672A JP 2015032905 A JP2015032905 A JP 2015032905A
Authority
JP
Japan
Prior art keywords
moving image
unit
video
feature amount
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013159672A
Other languages
English (en)
Inventor
建志 入江
Kenji Irie
建志 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc, Canon MJ IT Group Holdings Inc filed Critical Canon Marketing Japan Inc
Priority to JP2013159672A priority Critical patent/JP2015032905A/ja
Publication of JP2015032905A publication Critical patent/JP2015032905A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供する。【解決手段】複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、要約対象動画を取得し、要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する。抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する。【選択図】図1

Description

本発明は、動画編集装置、及びその制御方法、プログラムに関する。
近年、撮影デバイスの普及に伴って、大量の動画が撮影、保存されるようになってきており、複数の動画を編集し、つなぎあわせ、内容を要約した動画を作成する作業が広く一般的に行われるようになってきている。しかし、動画編集時において、素材となる動画を検索する作業は、日付や動画ファイル名などのメタデータにもとづいて行う場合がほとんどであり、利用者にとって非常に煩雑な作業となっている。
このような課題を解決するために、特許文献1では、キーワードを利用した検索時に複数の素材動画が候補となる場合、素材同士の画像特徴量から算出した類似度を用いることで、編集後の動画における、所定のシーンと隣接シーンとの類似度が高いシーンを持つ素材動画により高い優先度を与え、優先度順に表示することで利用者が動画を決定する効率を上げる手法が示されている。
また、特許文献2では、動画中の画像に物体認識や文字認識を行い、認識結果を文字情報として記録しておくことで、検索・編集時における利用者の効率を上げる手法が示されている。
特開2005−303840 特開2007−082088
上記特許文献1では、検索時に利用される動画の内容を表すキーワードに関しては、あらかじめ利用者が登録しておく必要があり、登録作業は利用者にとって非常に負担となる作業である。
また、上記特許文献2では、特定物体認識の精度によっては利用者にとって利用しづらいものであり、物体認識した名称について利用者が記憶していなければ検索することができない。さらに、利用者が間違った認識結果を訂正する機能については提供されていない。
そこで、本発明は、動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供することを目的とする。
本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、前記要約対象動画を取得する取得手段と、前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段と、を備えることを特徴とする。
また、本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置における情報処理方法であって、前記情報処理装置の取得手段が、前記要約対象動画を取得する取得工程と、前記情報処理装置の物体特徴量抽出手段が、前記取得工程により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出工程と、前記情報処理装置の物体特定手段が、前記物体特徴量抽出工程より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定工程と、を備えることを特徴とする。
また、本発明は、複数の要約対象動画をもとに、要約動画を生成する情報処理装置において実行可能なプログラムであって、前記情報処理装置を、前記要約対象動画を取得する取得手段と、前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段として機能させることを特徴とする。
本発明によれば、動画編集時に素材となる動画を検索する際の利便性を向上させる仕組みを提供することが可能となる。
本発明の実施形態における動画編集システムの構成を示す図である 本発明の実施形態における利用者端末101,要約生成装置102に適用可能な情報処理装置のハードウェア構成を示すブロック図である 本発明の実施形態における動画編集システムの機能ブロックの構成を示す図である。 本発明の実施形態における画像検索システムにおける検索対象画像の登録手順の一例を示すフローチャートである 本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理を示すフローチャートである 本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理を示すフローチャートである 本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理を示すフローチャートである S709における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例である S712における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例である S715における推定対象動画フレームと推定用動画フレーム間の経過時間を計算するための式の一例である 本発明の実施形態における動画編集システムにおける要約生成処理の手順を示すフローチャートである 本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理を示すフローチャートである 本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理を示すフローチャートである S1302において初期要約重みベクトルを算出するための式の一例である 本発明の実施形態における動画データベースの一例を示す図である 本発明の実施形態における物体認識データベースの一例を示す図である 本発明における動画編集システムの利用者端末の要約生成指定・要約対象表示部における表示画面の一例を示す図である 利用者が要約動画生成の条件を設定するための表示画面の一例を示す図である 動画編集システムの利用者端末の要約候補表示・編集部における表示画面の一例を示す図である 利用者が要約候補動画の編集を行うための表示画面の一例を示す図である
<第1の実施形態>
以下、図面を参照して、本発明の実施形態を詳細に説明する。
まず、図1を参照して、本発明の実施形態における動画編集システムの構成について説明する。図1は、本発明の実施形態における動画編集システムの構成を示す図である。図1は、ひとつ又は複数の利用者端末101と、ひとつの要約生成装置102がローカルエリアネットワーク(LAN)103を介して接続される構成となっている。
利用者端末101は、動画の編集を行う利用者が使用する情報処理装置であって、動画検索・要約生成・要約編集要求を発信する機能と結果を受信して表示する機能を有する。
要約生成装置102は、対象となる複数の動画を記憶しており、利用者端末101からの検索要求を受け付け、動画の検索処理を行い、検索結果を応答する機能、利用者端末101からの要約生成要求を受け付け、動画の要約生成処理を行い、結果を応答する機能、利用者端末101からの要約編集要求を受け付け、処理を行い、編集結果を応答する機能を有する。また、外部から対象とする動画を入力する機能を備えている。以上が図1の、本発明の実施形態における動画編集システムの構成についての説明である。
以下、図2を用いて、本発明の実施形態における利用者端末101,要約生成装置102に適用可能な情報処理装置のハードウェア構成を示すブロック図の構成の一例について説明する。図2は、本発明の実施形態における利用者端末101,要約生成装置102に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。なお、図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワーク(例えば、図1に示したLAN103)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。以上が図2の、本発明の実施形態における利用者端末101、要約生成装置102に適用可能な情報処理装置のハードウェア構成を示すブロック図の構成の一例についての説明である。
次に、図3を用いて、本発明の実施形態における動画編集システムの機能ブロックの構成について説明する。図3は、本発明の実施形態における動画編集システムの機能ブロックの構成を示す図である。
図1の説明にて前述したように、本発明の実施形態における動画編集システムは、利用者端末101と要約生成装置102と画像ソース500から構成される。利用者端末101と要約生成装置102と画像ソース500とはそれぞれネットワークを介して相互に通信可能に接続されている。なお、本実施形態においては図1や図3に示すように利用者端末と要約生成装置を別々の端末として説明しているが、利用者端末と要約生成装置の両方の機能を備えた一つの端末により、本実施形態の処理が実行されても良い。
利用者端末101は、要約生成装置102に対して、動画検索要求を送り、検索結果を受信し表示し、要約対象の動画を指示し、要約生成の指示を送るための情報処理装置である。利用者端末101は、要約生成指定・要約対象表示部301と、要約候補表示・編集部302と、から構成される。
要約生成指定・要約対象表示部301は、利用者から、検索要求としてのクエリーと、要約対象動画の指示と、動画メタデータ訂正の指示と、要約生成条件の指示と、要約生成の指示を受け付ける入力機能を有し、当該クエリーや当該指示を、ネットワークを通じて、要約生成装置102の要約候補生成部406へ送信する機能と、要約生成装置102から応答される動画検索結果を受信する機能と、該検索結果を表示する機能と、を有する機能処理部である。
要約候補表示・編集部302は、要約生成装置102から応答される要約候補結果を受信する機能と、該要約候補結果を表示する機能と、該要約候補結果の編集を指示する機能と、要約動画の出力を指示する機能と、を有する機能処理部である。
要約生成装置102は、利用者端末101から、動画の検索要求を受信し、蓄積された動画に対して要求された検索処理を実行し、要約生成の指示を受信し、要約候補を生成し、要約動画の出力指示を受信し、要約動画を出力し、検索結果情報と生成した要約候補を利用者端末101へ送信する情報処理装置である。要約生成装置102は、動画登録部401と、動画解析部402と、特徴量抽出部403と、物体認識部404と、物体推定部405と、要約候補生成部406と、動画検索部407と、メタデータ訂正部408と、要約重みベクトル生成部409と、要約候補結果出力部410と、動画推薦部411と、動画データベース412と、物体認識データベース413と、から構成される。
動画登録部401は、処理対象となる動画を本システムへ登録する機能処理部である。動画ソース500で指示されるシステムの外部のアクターから、対象とする動画データ(群)を受信または取得し、当該動画データ(群)を動画解析部402へ渡し、当該動画データ群をそれぞれ動画データベース412へ保存する機能を有する。
動画解析部402は、動画登録部401から動画データ群を受け取り、受け取った各動画に付帯する位置情報および日付情報を動画データベース412へ保存する機能と、各動画データから、全ての動画フレームデータ、つまり画像データを取得する機能と、当該各画像データを特徴量抽出部403へ渡し、画像特徴量の抽出処理を指示する機能と、当該各画像データを物体認識部404へ渡し、物体認識処理を指示する機能と、受け取った動画データ群を物体推定部に渡し、物体推定処理を指示する機能と、を有する機能処理部である。
特徴量抽出部403は、動画解析部402から画像データを受け取り、該画像データの特徴量(例えばRGBヒストグラム)を抽出し、該特徴量データを動画データベース412へ保存する機能処理部である。
物体認識部404は、動画解析部402から画像データを受け取り、該画像データから特定物体認識を行うための特徴量データ、例えば、SIFT(Scale Invariant Feature Transform)特徴量(局所的な領域の濃度変化特徴を表す特徴量)などの局所特徴量から計算されるBag Of Features特徴量(例えば、あらかじめ局所特徴量の集合をKmeans法によりクラスタリングしておき、代表的な局所特徴量を任意の個数見つけ出し、画像1枚における求めた代表的な局所特徴量の出現度合いを表した特徴量)を抽出する機能と、該特徴量データと、物体認識データベース413の中に保存されている物体特徴量とを比較して特定物体認識処理を行う機能と、該特定物体認識結果と特定物体の位置情報を、動画データベース412に保存する機能と、該画像データと物体認識データベース413の中に保存されている一般物体認識器と一般物体名称から一般物体認識処理を行う機能と、該一般物体認識結果を動画データベース412に保存する機能と、を有する機能処理部である。
物体推定部405は、動画解析部402から動画データ群を受け取り、動画データベース412の中に一般物体認識結果が保存されている各動画について、該動画データと、動画データベース412の中に保存されている特定物体認識結果と動画撮影日時と動画位置情報を利用して、該一般物体認識結果の、特定物体名称を推定する機能と、該推定結果を動画データベース412に保存する機能と、を有する機能処理部である。
要約候補生成部406は、動画検索要求として検索クエリーを受け取り、該検索クエリーを動画検索部407へ渡し、動画検索処理を指示する機能と、該動画検索結果を利用者端末101の要約生成指定・要約対象表示部301に送信する機能と、要約生成指示を受け取り、要約対象動画と該要約対象動画のメタデータを要約重みベクトル生成部409へ渡し、要約重みベクトル生成処理を指示する機能と、該要約重みベクトルと該要約対象動画から要約候補を生成する機能と、メタデータ訂正要求として文字列クエリーを受け取り、該文字列クエリーをメタデータ訂正部408へ渡し、メタデータ訂正を指示する機能と、要約候補出力要求を受け取り、要約候補結果出力部410に生成した要約候補の出力を指示する機能と、を有する機能処理部である。
動画検索部407は、要約候補生成部406、要約重みベクトル生成部409、および要約候補結果出力部410から動画検索クエリーを受け取り、動画データベース412の中に保存されている各動画について、当該検索クエリーの条件に合致する動画の動画データおよび付帯する動画メタデータを取得し、当該検索結果を応答する機能処理部である。
メタデータ訂正部408は、要約候補生成部406からメタデータ訂正要求として文字列クエリーを受け取り、当該クエリーから動画データベース412の中に保存されている動画メタデータの訂正処理機能を有する、機能処理部である。
要約重みベクトル生成部409は、要約候補生成部406から要約対象動画と該要約対象動画のメタデータを受け取り、要約生成の際に、当該要約対象動画の時間を設定するために用いる要約重みベクトルを生成する機能を有する、機能処理部である。
要約候補結果出力部410は、要約候補生成部406から要約候補結果を受け取り、当該要約候補結果を、利用者端末101の要約候補表示・編集部302へ送信する機能と、要約候補表示・編集部302から要約候補結果の編集要求を受け取り、該当編集結果を要約候補表示・編集部302に送信する機能と、要約候補表示・編集部302から推薦動画の表示要求を受け取り、該当要求を動画推薦部411に渡し、推薦動画の計算を指示する機能と、を有する機能処理部である。
動画推薦部411は、要約候補結果出力部410から、推薦動画表示要求を受け取り、該当要求に合致する動画を動画データベース412から検索し、検索結果を該当推薦動画として要約候補結果出力部410へ応答する機能を有する機能処理部である。
動画データベース412は、要約対象動画となる動画データ群、および図15で例示される、各動画のメタデータおよび各動画の、各フレームのメタデータを保存する記憶領域である。
(図15の説明)
ここで図15を用いて、本発明の実施形態における動画データベース412の一例について説明する。
図15の動画メタデータ保存テーブルは、1行が動画データベース412に蓄えられている1つの動画データを表し、動画データのID(識別子)(動画NOとも言う)とともに、fpsカラムに動画のFPS(フレームパーセカンド)が、フレーム数カラムに動画のフレーム数が、撮影日時カラムに、動画の撮影開始日時を示す時間情報が、動画位置情報カラムに、動画の撮影開始時の緯度・経度を示す位置情報が、それぞれ保存されていることを表している。
図15の動画フレームメタデータ保存テーブルは、1行が動画データベース412に蓄えられている1つの動画中の1つのフレームを表し、動画フレームのID(識別子)とともに、フレームNoカラムに動画の何フレーム目であるかを示すフレームNoが保存される。また、動画IDカラムにはフレームがどの動画のものであるかを示す動画ID(上記動画メタデータ保存テーブルの動画ID)が保存される。また、画像特徴量カラムにはフレームから取得した画像特徴量(例えば、色の分布情報を表し、多次元数値ベクトルで表現されるRGBヒストグラム)が保存される。また、特定物体名称カラムには、フレームに特定物体認識処理を行って取得されるフレーム中に存在する特定物体の名称が保存される。また、一般物体名称カラムには、フレームに一般物体認識処理を行って取得されるフレーム中に存在する一般物体の名称が保存される。また、物体推定結果カラムには、フレームに物体推定処理を行って取得されるフレーム中に存在する特定物体の名称が保存される。また、フレーム位置情報カラムには、フレームの特定物体名称カラムの値から取得されるフレーム撮影時の位置情報を示す緯度・経度が保存される。また、特定物体説明情報カラムには、フレームの特定物体名称カラムの値から取得される特定物体に付帯する該当特定物体を説明する情報が保存される。また、曖昧検索インデックスカラムには、フレームの特定物体説明情報カラムの値から生成される動画検索時に利用者が特定物体名称を記憶していない場合でも検索可能にするための単語列が保存される。
物体認識データベース413は、図16で例示される、特定物体認識、一般物体認識および物体推定を行う際に利用するための特定物体名称や物***置情報などを保存する記憶領域である。
(図16の説明)
ここで図16を用いて、本発明の実施形態における物体認識データベース413の一例について説明する。
図16の特定物体管理テーブルは、1行が物体認識データベース413に蓄えられている1つの特定物体のデータを表し、特定物体データのID(識別子)(特定物体NOとも言う)とともに、物体特徴量カラムには、該当特定物体であることを特定するための多次元数値ベクトルで表現される特徴量が保存される。また、特定物体名称カラムには、特定物体の名称を表現する値が保存される。また、特定物***置情報カラムには、特定物体の存在する緯度・経度が、それぞれ保存されていることを表している。
ここで、物体特徴量カラムには、例えば、SIFT(Scale Invariant Feature Transform)特徴量(局所的な領域の濃度変化特徴を表す特徴量)などの局所特徴量から計算されるBag Of Features特徴量(例えば、局所特徴量の集合をKmeans法によりクラスタリングし、代表的な局所特徴量を任意の個数見つけ出し、画像1枚における求めた代表的な局所特徴量の出現度合いを表した特徴量)が当てはめられる。
図16の一般物体管理テーブルは、1行が物体認識データベース413に蓄えられている1つの一般物体のデータを表し、一般物体データのID(識別子)(一般物体NOとも言う)とともに、一般物体検出器出力ラベルカラムには、各一般物体検出器が物体を識別した際に出力する数値が保存される。また、一般物体名称カラムには、一般物体の名称を表現する値が、それぞれ保存されていることを表している。
ここで、一般物体検出器とは、例えば、前記したBag Of Features特徴量と、サポートベクターマシン(Support Vector Machine、SVM)と呼ばれる機械学習手法を利用して構成されるものである。サポートベクターマシンとは、教師あり学習手法の1つであり、あらかじめ正解データと非正解データ(学習データ)を用いて、正解データを識別するパターンを学習することができるものである。したがって、当該検出器は、あらかじめ各一般物体の学習データを用意し、用意した学習データより抽出したBag Of Features特徴量を学習することで、当該物体であるかどうかを識別するパターンを学習し、画像から抽出したBag Of Features特徴量を入力として与えると、物体が識別できた場合には、識別物体ごとにひもづけられたラベルIDを出力するものであり、物体認識データベース413に保存されているものである。
図16の物体推定用テーブルは、1行が、物体認識データベース413に蓄えられている1つの物体推定データを表し、物体推定データのID(識別子)(物体推定NOとも言う)とともに、一般物体名称カラムに、一般物体の名称を表現する値が、特定物体名称カラムに、推定結果を表す特定物体の名称を表現する値が、特定物***置情報カラムに、特定物体の存在する緯度・経度が、それぞれ保存されていることを表している。
図3の説明に戻る。
動画ソース500は、本動画編集システムにおける、要約対象となる動画の出所(入力ソース)を表す外部アクターである。例えば、直接動画データを提供する利用者そのもの、各種ビデオカメラ等の映像入力機器なども考えられる。以上が図3の、本発明の実施形態における動画編集システムの機能ブロックの構成についての説明である。
次に図4を参照して、本発明の実施形態における画像検索システムにおける検索対象画像の登録手順について説明する。図4は、本発明の実施形態における画像検索システムにおける検索対象画像の登録手順の一例を示すフローチャートである。
尚、以下で説明する動画ソース500(外部装置)は、上記で説明したようにいくつも種類が考えられるが、ここではシステムの利用者が操作する、要約を行いたい動画群が保存されている利用者端末とした場合の例で説明する。
ステップS401では、動画登録部401は、動画ソース500で表わされるシステム利用者が操作する利用者端末から要約対象となる動画データ群を取得し、取得した動画データ群を動画データベース412に保存して、当該動画データ群を動画解析部402へ入力する。
ステップS402では、動画解析部402は、前記取得した動画データ群それぞれに動画解析処理を行い、動画検索時に利用される動画メタデータと動画フレームメタデータを、動画データベース412へ登録する。前記動画メタデータと動画フレームメタデータは、前述した通り、図15で例示されるようなテーブル構造で保存される。動画解析部402は、該動画データ群を、物体推定部405へ入力する。ステップS402の動画解析の詳細処理は、図5を用いて後述する。
ステップS403では、物体推定部405は、前記取得した動画データ群それぞれについて物体推定処理を行い、推定した結果を動画データベース412の動画フレームメタデータ保存テーブルへ登録する。ステップS403の物体推定の詳細処理は、図7を用いて後述する。
ステップS404では、動画解析部402は、動画データベース412の動画フレームメタデータ保存テーブルより特定物体名称を持っている動画フレームを取得し、取得した動画フレームに対する繰り返し処理を開始する。
ステップS405では、動画解析部402は、処理中の動画フレームに対して、取得した特定物体名称より、該特定物体を説明する情報を取得し、動画データベース412の動画フレームメタデータ保存テーブルへ登録する。前記特定物体を説明する情報は、例えば、インターネット上にあるデータや、予め構築したデータベースから取得することが可能である。
ステップS406では、動画解析部402は、利用者が当該特定物体の名称を記憶していなくても、該フレームを持つ動画を検索可能にするために、ステップS405で取得した特定物体説明情報に対して、例えば、形態素解析処理を行い、名詞情報だけを、曖昧検索インデックスとして、動画データベース412の動画フレームメタデータ保存テーブルへ登録する。
ステップS407では、未処理の動画フレームがある場合は、ステップS405に戻る。未処理の動画フレームがない場合は、処理を終了する。
以上の図4に示す処理により、要約対象動画について、当該要約対象動画に含まれる特定物体に関する情報を含むデータとして登録することが可能となる。具体的には、図15に示す動画フレームメタデータ保存テーブルに示す情報を登録することが可能となる。
次に、図5を用いて、本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理について説明する。図5は、本発明の実施形態における、動画編集システムにおける動画解析処理の詳細処理を示すフローチャートである。
ステップS501では、動画解析部402は、ステップS401で取得した動画データ群に対する繰り返し処理を開始する。
ステップS502では、動画解析部402は、動画に付帯するメタデータとして、撮影日時、位置情報(緯度・経度情報)を抽出し、動画データベース412の動画メタデータ保存テーブルへ登録する。
ステップS503では、動画解析部402は、処理中の動画の各フレームに対する繰り返し処理を開始する。
ステップS504では、動画解析部402は、処理中の動画フレームを特徴量抽出部403へ入力する。特徴量抽出部403は、前記取得した動画フレームに対し、画像特徴量の抽出処理を行い、抽出した特徴量を動画データベース412の動画フレームメタデータ保存テーブルへ登録する。ここで、画像特徴量とは、前述したように、例えば、各色の分布を表現するRGBヒストグラムなどの、多次元数値ベクトルで表現される特徴量である。
ステップS505では、動画解析部402は、処理中の動画フレームを、物体認識部404へ入力する。物体認識部404は、前記取得した動画フレームに対し、物体認識処理を行い、該認識結果を動画データベース412の動画フレームメタデータ保存テーブルへ登録する。ステップS505の物体認識の詳細処理は、図6を用いて後述する。
ステップS506では、動画解析部402は、未処理の動画フレームがある場合は、ステップS504へ戻る。未処理の動画フレームがない場合は、ステップS507へ進む。
ステップS507では、動画解析部402は、未処理の動画がある場合は、ステップS502へ戻る。未処理の動画がない場合は、処理を終了する。
次に、図6を用いて、本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理について説明する。図6は、本発明の実施形態における、動画編集システムにおける物体認識処理の詳細処理を示すフローチャートである。
ステップS601では、物体認識部404は、前記取得した動画フレームより、前述した物体特徴量、Bag Of Features特徴量を抽出する。物体認識部404は、前記抽出した物体特徴量と、前述した物体認識データベース413の特定物体管理テーブルに保存されている各物体特徴量とを比較し、各特定物体との類似度を計算する。類似度は、例えば、多次元数値ベクトル同士のユークリッド距離で計算される。物体認識部404は、前記計算した各類似度のうち、最も小さい類似度が十分小さい場合(例えば0.01未満である場合。なお当該判断基準となる値は、予め設定されている値であっても、その都度設定する値であってもいずれでも良い。)、該当する特定物体を認識したと判断し、該認識結果を、特定物体名称として動画データベース412の動画フレームメタデータ保存テーブルへ登録する。
認識しない場合は、登録処理を実行せず、次の処理(ステップS602)に移行する。
ステップS602では、物体認識部404は、ステップS601の処理で取得した特定物体認識結果より、前述した物体認識データベース413の特定物体管理テーブルに保存されている特定物***置情報を取得し、該位置情報を動画データベース412の動画フレームメタデータ保存テーブルへ登録する。
ステップS603では、物体認識部404は、ステップS601で動画フレームより抽出した物体特徴量を、前述した物体認識データベース413に保存されている一般物体検出器に入力する。物体認識部404は、前記一般物体検出器の出力と、物体認識データベース413の一般物体管理テーブルの各一般物体検出器出力ラベルとを比較し、該動画フレームに一般物体が存在するかを認識する。物体認識部404は、該認識結果を動画データベース412の動画フレームメタデータ保存テーブルへ登録する。
以上の図5、図6のフローチャートに示す処理により、予め登録された情報に基づき、要約対象動画の各フレームに含まれる物体の名称等を特定することが可能となる。
次に、図7を用いて、本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理について説明する。図7は、本発明の実施形態における、動画編集システムにおける物体推定処理の詳細処理を示すフローチャートである。
ステップS701では、物体推定部405は、取得した動画データ群に対する、物体推定の繰り返し処理を開始する。
ステップS702では、物体推定部405は、当該動画(推定対象動画と呼ぶ)について、動画データベース412の、動画フレームメタデータ保存テーブルの一般物体名称が登録されているか否かを判断する。一般物体名称が登録されている場合は、ステップS703へ進む。登録されていない場合は、ステップS717へ進む。
ステップS703では、物体推定部405は、動画データベース412の、動画メタデータ保存テーブルに保存されている、推定対象動画のメタデータを取得する。
ステップS704では、物体推定部405は、ステップS703で取得した推定対象動画のメタデータの撮影日時について、当該撮影日時と同日に撮影された動画群を、動画データベース412より取得する。物体推定部405は、前記取得した動画群の中に、動画データベース412の、動画フレームメタデータ保存テーブルの、特定物体名称が登録されている動画が存在するか否かを判断する。特定物体名称が登録されている動画が存在する場合は、前記取得した動画群のうち、特定物体名称が登録されている動画群のみを一時記憶領域に保存し、ステップS705へ進む。存在しない場合は、ステップS717へ進む。
ステップS705では、物体推定部405は、推定対象動画について、動画データベース412の、動画フレームメタデータ保存テーブルの一般物体名称が格納されている動画フレーム(推定対象動画フレームと呼ぶ)のメタデータを取得する。
ステップS706では、物体推定部405は、ステップS704で一時記憶領域に保存した特定物体名称が登録されている動画群について、動画データベース412の動画メタデータ保存テーブルに保存されている撮影日時とfpsとフレーム数を取得し、動画フレームメタデータ保存テーブルに保存されている、特定物体名称が登録されているフレームのフレームNoを取得する。物体推定部405は、取得した該動画群の撮影日時とfpsとフレーム数、該動画群の特定物体名称が登録されているフレームのフレームNo群、ステップS703で取得した推定対象動画メタデータの撮影日時とfpsとフレーム数、ステップS705で取得した推定対象動画フレームメタデータのフレームNoと、を利用し、推定対象動画フレームの撮影時間と最も近い時間に撮影された、特定物体名称が登録されている動画フレーム(推定用動画フレームと呼ぶ)を決定する。
ステップS707では、物体推定部405は、動画データベース412の動画メタデータ保存テーブルから、ステップS706で決定した推定用動画フレームが属する動画(推定用動画と呼ぶ)の、動画メタデータを取得し、動画フレームメタデータ保存テーブルから、推定用動画フレームのメタデータを取得する。
ステップS708では、物体推定部405は、ステップS703で取得した推定対象動画メタデータに、動画位置情報が登録されているか否かを判断する。動画位置情報が登録されている場合は、ステップS711へ進む。登録されていない場合は、ステップS709へ進む。
ステップS709では、物体推定部405は、ステップS703で取得した推定対象動画の撮影日時とfpsと、ステップS705で取得した推定対象動画フレームのフレームNoと、ステップS707で取得した推定用動画の撮影日時とfpsと、推定用動画フレームのフレームNoと、図8で示される式を用いて、推定対象動画フレームと推定用動画フレーム間の経過時間を計算する。
ステップS710では、物体推定部405は、ステップS707で取得した推定用動画フレームのフレーム位置情報が示す位置から、例えば、一般的な成人男性の歩行速度の時速4kmで、ステップS709で計算した推定対象動画フレームと推定用動画フレーム間の経過時間を移動した場合の位置から、誤差1km範囲内に存在する、物体認識データベース413の、物体推定用テーブルに保存されているレコードを取得する。(ただし、移動速度は、時速4kmに限定されるものではなく、また、複数の移動速度について計算しても良い。また、誤差も、1kmに限るものではなく、実施例に合わせて設定すれば良い。)物体推定部405は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップS705で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース412の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。
ステップS711では、物体推定部405は、ステップS703で取得した推定対象動画の動画IDと、ステップS707で取得した推定用動画の動画IDが同じであるか否かを判断する。同じである場合は、ステップS714へ進む。同じでない場合は、ステップS712へ進む。
ステップS712では、物体推定部405は、ステップS703で取得した推定対象動画のfpsと、ステップS705で取得した推定対象動画フレームのフレームNoと、図9で示される式を用いて、推定対象動画の開始フレームと推定対象動画フレーム間の経過時間を計算する。
ステップS713では、物体推定部405は、ステップS703で取得した推定対象動画の動画位置情報が示す位置から、例えば、一般的な成人男性の歩行速度の時速4kmで、ステップS711で計算した推定対象動画フレームと推定用動画フレーム間の経過時間を移動した場合の位置から、誤差1km範囲内に存在する、物体認識データベース413の、物体推定用テーブルに保存されているレコードを取得する。(ただし、移動速度は、時速4kmに限定されるものではなく、また、複数の移動速度について計算しても良い。また、誤差も、1kmに限るものではなく、実施例に合わせて設定すれば良い。)物体推定部405は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップS705で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース412の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。
ステップS714では、物体推定部405は、ステップS703で取得した推定対象動画の動画位置情報とfpsと、ステップS707で取得した推定用動画フレームのフレーム位置情報とフレームNoと、を利用して、推定対象動画の撮影時の推定移動速度を計算する。
ステップS715では、物体推定部405は、ステップS705で取得した推定対象動画フレームのフレームNoと、ステップS707で取得した推定用動画フレームのフレームNoと、図10に示される式を用いて、推定対象動画の開始フレームと推定対象動画フレーム間の経過時間と、推定用動画フレームと推定対象動画フレーム間の経過時間をそれぞれ計算し、経過時間の小さい方の経過時間および位置情報(推定対象動画の開始フレームと推定対象動画フレーム間の経過時間の方が小さければ、推定対象動画の動画位置情報、推定用動画フレームと推定対象動画フレーム間の経過時間の方が小さければ、推定用動画フレームのフレーム位置情報)を一時記憶領域に保存する。
ステップS716では、物体推定部405は、ステップS715で一時記憶領域に保存した位置情報が示す位置から、ステップS714で計算した移動速度で、ステップS715で一時記憶領域に保存した経過時間を移動した場合の位置から、誤差1km範囲内に存在する、物体認識データベース413の、物体推定用テーブルに保存されているレコードを取得する。(ただし、誤差は、1kmに限るものではなく、実施例に合わせて設定すれば良い。)物体推定部405は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップS705で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース412の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。
ステップS716では、物体推定部405は、ステップS715で一時記憶領域に保存した位置情報から、ステップS715で一時記憶領域に保存した経過時間で、ステップS714で計算した移動速度によって移動可能な範囲内にある、物体認識データベース413の、物体推定用テーブルに保存されているレコードを取得する。物体推定部405は、前記取得したレコード群のうち、該レコードの一般物体名称と、ステップS705で取得した推定対象動画フレームの一般物体名称とが合致するレコードの特定物体名称を、物体推定結果として、推定対象動画フレームが示す動画データベース412の動画フレームメタデータ保存テーブルのレコードの、物体推定結果に登録する。
ステップS717では、物体推定部405は、未処理の動画がある場合は、ステップS702へ戻る。未処理の動画がない場合は、処理を終了する。
以上の図7のフローチャートで示す処理により、動画中に一般物体名称は特定されたものの、特定物体としては認識できなかった場合であっても、他の動画の情報に基づき、当該一般物体の具体的な名称等を特定することが可能となる。
例えば、図6に示す処理により、「建物」や「改札」として認識された物体について、他の動画の情報を用いることで、当該建物が「増上寺」であると推定したり、当該改札が「東京駅」の改札であると推定することが可能となる。
次に、図11を用いて、本発明の実施形態における動画編集システムにおける要約生成処理の手順について説明する。図11は、本発明の実施形態における動画編集システムにおける要約生成処理の手順を示すフローチャートである。
ステップS1101では、要約生成指定・要約対象表示部301は、利用者による要約候補生成指示を検知した場合はステップS1110へ進み、検知していない場合はステップS1102へ進む。
(図17の説明)
ここで図17を参照して、本発明における動画編集システムの利用者端末101の要約生成指定・要約対象表示部301における表示画面の一例について説明する。
1701は、利用者が要約動画の生成指示を、要約生成装置102に送信するためのボタンを表している。
1702で指示される表示領域は、要約生成指示を送信する際の、要約の対象動画とする動画の一覧を、各動画の代表的な静止画像1枚で表示するための領域である。各動画の代表的な静止画像とは、例えば、動画の先頭フレームで表される画像であっても良いし、動画データベース412の動画フレームメタデータ保存テーブルから、利用者が一目見て動画の内容がわかるように、特定物体名称を持つフレームを選択しても良い。
1703は、利用者が要約の対象とする動画候補を、撮影期間やキーワードの条件に基いて検索する指示を、要約生成装置102に送信するためのボタンを表している。
1704は、利用者が動画検索のために、動画の撮影時間を検索の条件として設定するための入力フィールドである。
1705は、利用者が、動画に付帯するキーワード、例えば、動画データベース412の動画フレームメタデータ管理テーブルに保存されている、特定物体名称に合致する動画を、検索の条件として設定するための入力フィールドである。
1706で指示される表示領域は、利用者が1703のボタンを押下して動画検索を指示した時の、検索結果に含まれる各動画を、各動画の代表的な静止画像1枚で表示するための領域である。
1707は、検索結果の動画フレームが、動画データベース412の動画フレームメタデータ管理テーブルに保存されている、特定物体名称または物体推定結果を持つ場合、該特定物体名称または該物体推定結果を、該動画フレーム上に表示することで、利用者が、該動画の内容を一目見て把握できるようにしていることを表している。ここで、物体推定結果として、複数の推定結果を持っている場合、該推定結果を全て表示することで、利用者が、後述するメタデータ訂正処理を行うことにより、効率的に物体推定結果の訂正を行うことができる。
1708は、動画フレームが、動画データベース412の動画フレームメタデータ管理テーブルに保存されている、特定物体説明情報を持つ場合、該特定物体説明情報を、該動画フレーム上に表示することで、利用者が、該動画の内容と、該動画フレームに紐付けられている特定物体の内容を把握できるようにしていることを表している。
1707と1708により、利用者は、動画フレームに紐付けられている特定物体の内容をひと目で把握できるとともに、該特定物体が実際の該動画フレームに映っている物体と異なる場合には、即座に訂正しやすくなる。
1709は、利用者が、上述したように、メタデータを訂正、例えば、マウスで1707で示された領域をクリックして、正しい特定物体名称を入力するなどした後に、該訂正結果を要約生成装置102に送信するためのボタンである。
1710は、利用者が、1706の表示領域に示されている動画を1つ、あるいは複数、マウスで選択し、該選択動画を、要約対象動画に追加するためのボタンである。利用者が、動画を選択し、1710を押下すると、該動画は1702で指示される表示領域に追加される。
なお、要約対象動画に追加する方法については、ボタン1710の押下に限らず、1706の表示領域に示されている動画を選択し、当該動画をドラッグし、1702の表示領域にドロップすることで追加するよう構成しても良い。
1711は、利用者が、要約を生成する際の条件を設定する際に押下するボタンである。当該ボタンを押下すると、図18に示されるような画面が表示される。
(図18の説明)
ここで図18を参照して、前述した、1711のボタンを押下した際に表示される、利用者が要約動画生成の条件を設定するための表示画面の一例について説明する。
1801は、利用者が、要約動画に、優先して含まれてほしい動画を設定するために、動画フレームの持つ特定物体名称を指定するための入力フィールドである。
1802は、利用者が、生成される要約動画の再生時間を設定するための、入力フィールドである。
1803は、利用者が、要約動画生成の条件の設定を終了するためのボタンである。
以上、説明したように、利用者は、図17に示される画面を利用して、動画の検索指示、要約対象動画の指定、メタデータの訂正指示、要約候補の生成指示を行うことができる。
図11の説明に戻る。
ステップS1102では、要約生成指定・要約対象表示部301は、利用者による動画検索指示を検知した場合は、ステップS1103に進み、検知していない場合は、ステップS1107へ進む。
ステップS1103では、要約生成指定・要約対象表示部301は、前述した動画の撮影期間と動画に付帯するキーワードを、検索クエリーとして要約生成装置102へ送信する。
ステップS1104では、要約生成装置102の、要約候補生成部406は、ステップS1103で送信された検索クエリーを受信し、該検索クエリーを動画検索部407へ入力し、動画検索処理を指示する。動画検索部407は、当該検索クエリーの、動画撮影期間に、動画データベース412の動画メタデータ保存テーブルの撮影日時が合致する動画と、当該検索クエリーのキーワードを、動画データベース412の動画フレームメタデータ保存テーブルの、特定物体名称または物体推定結果または曖昧検索インデックスに持つ動画を、動画検索結果として、要約候補生成部406へ応答する。
ステップS1105では、要約候補生成部406は、ステップS1104で動画検索部407より応答された動画検索結果を、利用者端末101の、要約生成指定・要約対象表示部301へ送信する。
ステップS1106では、要約生成指定・要約対象表示部301は、受信した動画検索結果を表示する。利用者は、表示された検索結果から、要約対象として追加したい動画を選択し、要約対象動画に追加する。要約生成指定・要約対象表示部301は、追加された要約対象動画を、一時記憶領域に記録する。
ステップS1107では、要約生成指定・要約対象表示部301は、利用者によるメタデータ訂正指示を検知した場合は、ステップS1108に進み、検知していない場合は、ステップS1101へ戻る。
ステップS1108では、要約生成指定・要約対象表示部301は、動画フレームIDと、前述した1707に入力されたメタデータ訂正結果を、メタデータ訂正クエリーとして要約生成装置102へ送信する。
ステップS1109では、要約生成装置102の要約候補生成部406は、ステップS1108で送信されたメタデータ訂正クエリーを受信し、該メタデータ訂正クエリーを、メタデータ訂正部408へ入力し、メタデータ訂正を指示する。メタデータ訂正部408は、当該メタデータ訂正クエリーの動画フレームIDが示す動画フレームに対して、動画データベース412の動画フレームメタデータ保存テーブルの特定物体名称に、当該メタデータ訂正クエリーのメタデータ訂正結果を登録する。
ステップS1110では、要約生成指定・要約対象表示部301は、前述した1702で指示される表示領域の、対象動画群と、図18で示される画面により設定された要約生成の条件を、要約生成クエリーとして、要約生成装置102へ送信する。
ステップS1111では、要約生成装置102の、要約候補生成部406は、ステップS1110で送信された要約生成クエリーより、要約候補を生成する。要約候補生成部406は、当該要約候補結果を要約候補結果出力部410へ入力し、要約候補結果の送信を指示する。ステップS1111の要約候補生成の詳細処理は、図12を用いて後述する。
ステップS1112では、要約候補結果出力部410は、要約候補結果を利用者端末101の、要約候補表示・編集部302へ送信する。
ステップS1113では、要約候補表示・編集部302は、受信した要約候補結果を表示する。利用者は、表示された当該要約候補結果を確認する。
(図19の説明)
ここで図19を参照して、本発明における動画編集システムの利用者端末101の要約候補表示・編集部302における表示画面の一例について説明する。
1901で指示される表示領域は、要約候補結果を、当該要約候補を構成する各動画の代表的な静止画像を、要約動画の時系列となるようにつなげて(タイムラインと呼ぶ)表示するための領域である。
1902は、利用者が、1901に表示される要約候補の編集を行うためのボタンである。
1903は、利用者が、1901に表示される要約候補を、最終的な要約動画として出力するためのボタンである。
(図20の説明)
ここで図20を参照して、前述した、1902のボタンを押下した際に表示される、利用者が要約候補動画の編集を行うための表示画面の一例について説明する。
2001は、編集中の要約候補を表示しているタイムラインである。
2002は、利用者が、最終的な要約動画を出力するためのボタンである。
2003で指示される表示領域は、利用者が新たに要約動画に追加したい動画を、動画検索を行って表示するための領域である。利用者は、例えば、本領域に表示された動画を代表する静止画像を、マウスを利用してドラッグアンドドロップの操作を行い、2001で指示されるタイムライン上の、動画を追加したい箇所へ移動することで、要約候補の編集処理を行うことができる。
2004は、利用者が、例えば、2001で指示されるタイムライン上の静止画像をマウスでクリックした後に、その次の動画として、より自然につながるような素材動画の推薦結果の表示を指示するためのボタンである。推薦動画は、例えば、要約生成装置102が、動画の各フレームの画像特徴量を平均し(動画特徴量と呼ぶ)、利用者が選択した動画の動画特徴量との類似度(特徴量同士のユークリッド距離などにより計算される)を計算することによって行われる。要約生成装置102は、計算した類似度が小さい順に、例えば5個の動画を推薦結果として利用者端末101に送信する。
2005は、利用者が2002のボタンを押下して、動画推薦結果の表示を指示した時の、推薦結果に含まれる動画を、各動画の代表的な静止画像1枚で表示するための領域である。
以上、説明したように、利用者は、図20に示される画面を利用して、要約動画の素材となる動画の入れ替えや再生時間の変更、新たに検索した動画を追加するなどの操作により、要約候補動画の編集処理と要約動画の出力指示を行うことができる。
図11の説明に戻る。
ステップS1114では、要約候補表示・編集部302は、利用者による要約候補の修正を検知した場合は、ステップS1115へ進み、検知していない場合はステップS1116へ進む。
ステップS1115では、要約候補表示・編集部302は、前述したように、利用者による図20で示される画面を利用した要約候補動画の編集処理を行う。
ステップS1116では、要約候補表示・編集部302は、利用者による要約動画出力指示を検知し、要約動画出力指示を要約生成装置102の要約候補結果出力部に送信する。
ステップS1117では、要約候補結果出力部410は、ステップS1117で送信された要約動画出力指示により、最終的な要約動画を作成し、出力する。出力先は、例えば、要約生成装置102が備える外部記憶装置や、利用者端末101が備える外部記憶装置であってもよい。
以上、図11を用いて、本発明の実施形態における動画編集システムにおける要約生成処理の手順について説明した。
次に、図12を用いて、本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理について説明する。図12は、本発明の実施形態における、動画編集システムにおける要約候補生成処理の詳細処理を示すフローチャートである。
ステップS1201では、要約候補生成部406は、動画データベース412の動画メタデータ保存テーブルから、受信した要約対象動画群の動画メタデータを取得する。
ステップS1202では、要約候補生成部406は、受信した要約生成クエリーより、要約生成の条件を取得する。
ステップS1203では、要約候補生成部406は、ステップS1201で取得した要約対象動画群の動画メタデータと、ステップS1202で取得した要約生成の条件と、を要約重みベクトル生成部409へ入力し、要約候補を構成する、各要約対象動画の再生フレーム数を決定するための、要約重みベクトル生成処理を指示する。ステップS1203の要約重みベクトル生成の詳細処理は、図13を用いて後述する。
ステップS1204では、要約候補生成部406は、要約対象動画データ群に対する繰り返し処理を開始する。
ステップS1205では、要約候補生成部406は、ステップS1201で取得した要約対象動画のフレーム数と、ステップS1203で生成した要約重みベクトルの、要約対象動画に対応する重みより、当該要約動画の再生フレーム数を計算する。
ステップS1206では、要約候補生成部406は、動画データベース412の動画フレームメタデータから、要約対象動画に該当する動画フレームのメタデータ群を取得する。要約候補生成部406は、前記取得した動画フレームメタデータ群のうち、特定物体名称または物体推定結果に、ステップS1202で取得した要約生成の条件の優先キーワードと合致する動画フレームが存在する場合、当該動画フレームを中間フレームとし、ステップS1205で計算した再生フレーム数を満たすように、当該要約動画の再生フレームNo群を決定する。要約候補生成部406は、前記取得した動画フレームメタデータ群のうち、特定物体名称または物体推定結果に、ステップS1202で取得した要約生成の条件の優先キーワードと合致する動画フレームが存在しない場合、当該要約対象動画の開始フレームからステップS1205で計算した再生フレーム数を、当該要約動画の再生フレームNo群として決定する。
ステップS1207では、要約候補生成部406は、未処理の動画がある場合は、ステップS1205へ戻る。未処理の動画がない場合は、ステップS1208へ進む。
ステップS1208では、要約候補生成部406は、ステップS1207で決定した各要約対象動画の再生フレームNo群で構成される、要約候補を生成し、該要約候補結果を要約候補結果出力部410へ入力し、要約候補結果の送信を指示する。
次に、図13を用いて、本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理について説明する。図13は、本発明の実施形態における、動画編集システムにおける要約重みベクトル生成処理の詳細処理を示すフローチャートである。
ステップS1301では、要約重みベクトル生成部409は、受信した要約生成の条件の、出力動画時間が設定されていれば、当該出力動画時間を再生フレーム数に変換し、xに代入する。設定されていなければ、受信した要約対象動画群の動画メタデータのフレーム数を合算し、合算したフレーム数を例えば10で割ったフレーム数をxに代入する。
ステップS1302では、要約重みベクトル生成部409は、受信した各要約対象動画群の動画メタデータの各フレーム数と、要約対象動画の数と、図14で示される式を用いて、各要約対象動画に対応する重みからなる、初期要約重みベクトルを生成する。
ステップS1303では、要約重みベクトル生成部409は、動画データベース412の動画フレームメタデータから、受信した要約対象動画群に該当する動画フレームのメタデータ群を取得する。
ステップS1304では、要約重みベクトル生成部409は、受信した要約生成の条件の、優先キーワードに対する繰り返し処理を開始する。
ステップS1305では、要約重みベクトル生成部409は、ステップS1303で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在しない動画群のなかで、要約重みベクトルの重みが最大の動画を選び、tとする。
ステップS1306では、要約重みベクトル生成部409は、ステップS1305で選択した動画tの重みを1/2に更新し、更新した当該重みをtwとする。
ステップS1307では、要約重みベクトル生成部409は、ステップS1303で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在する動画の数を、nとする。
ステップS1308では、要約重みベクトル生成部409は、ステップS1303で取得した要約対象動画群のフレームメタデータの特定物体名称または物体推定結果に、優先キーワードと合致するフレームが存在する動画に対する繰り返し処理を開始する。
ステップS1309では、要約重みベクトル生成部409は、対象動画の重みにtw/nを足して対象動画の重みを更新し、更新した重みをuwとする。
ステップS1310では、要約重みベクトル生成部409は、対象動画の動画メタデータのフレーム数をmとする。
ステップS1311では、要約重みベクトル生成部409は、uwがm/xより大きければ、ステップS1312へ進む。そうでない場合、ステップS1315へ進む。
ステップS1312では、要約重みベクトル生成部409は、uwからm/xを引いた値を、uw’とする。
ステップS1313では、要約重みベクトル生成部409は、uw’を動画tの重みに足し、動画tの重みを更新する。
ステップS1314では、要約重みベクトル生成部409は、対象動画の重みをm/xに更新する。
ステップS1315では、要約重みベクトル生成部409は、未処理の動画がある場合は、ステップS1309へ戻る。未処理の動画がない場合は、ステップS1316へ進む。
ステップS1316では、要約重みベクトル生成部409は、未処理の優先キーワードがある場合は、ステップS1305へ戻る。未処理の優先キーワードがない場合は、処理を終了する。
以上、図13を用いて説明したように、各要約対象動画の再生フレーム数を、優先キーワードが合致するフレームが存在する動画ほど再生フレーム数が大きくなるように、要約重みベクトルを生成することができる。
以上説明したように、本発明によれば、動画に含まれる物体が何であるかを特定し、特定された結果とともに動画データを保存しておくことが可能となる(例えば、動画中に「建物」が写っている。そしてその建物は「増上寺」である。といった情報とともに動画データを保存することが可能となる)。このように動画データを保存することで、要約動画を作成する際に、ユーザはキーワードを入力することで、当該キーワードが示す物体が写っているシーンを含む要約動画を作成することが可能となる(例えば、ユーザが「増上寺」というキーワードを指定して要約動画の生成指示をした場合には、「増上寺」が写っているシーンを含む要約動画が生成される)。
このように、図4〜図7に示す処理により、要約した動画を作成する等の動画編集時において、その素材となる動画を検索する際の利便性を向上することが可能となる。
さらに、図11〜図13に示す処理により、ユーザが望む要約動画を生成することが可能となる。
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
また、本発明におけるプログラムは、図11〜図13、図17の処理をコンピュータに実行させるプログラムである。なお、本発明におけるプログラムは、図11〜図13、図17の各処理ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
利用者端末 101
要約生成装置 102

Claims (10)

  1. 複数の要約対象動画をもとに、要約動画を生成する情報処理装置であって、
    前記要約対象動画を取得する取得手段と、
    前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、
    前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段と、
    を備えることを特徴とする情報処理装置。
  2. 特定物体の名称と、当該特定物体の物体特徴量とを対応付けて管理する特定物体管理手段をさらに備え、
    前記物体特定手段は、前記物体特徴量抽出手段により抽出された物体特徴量と、前記特定物体管理手段により管理された物体特徴量とを比較することで、前記動画フレームに含まれる特定物体を特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記物体特定手段は、さらに、前記特徴量抽出手段により抽出された特徴量と、あらかじめ記憶された学習データとを用いて、当該動画フレームに含まれる一般物体を特定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記物体特定手段により特定物体が特定された動画フレームが撮影された時間情報と、当該特定物体の位置情報と、前記物体特定手段により一般物体が特定された動画フレームが撮影された時間情報とを用いて、当該特定された一般物体を推定する物体推定手段をさらに備えることを特徴とする請求項3に記載の情報処理装置。
  5. 要約動画を生成する要約動画生成手段をさらに備え、
    前記要約動画生成手段は、前記物体特定手段により特定された特定物体の名称を、当該特定物体が含まれる動画フレームとともに表示する要約動画を生成することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記物体特定手段により特定された物体に関する情報を取得する第2の取得手段と、
    前記第2の取得手段により取得した情報を形態素解析する解析手段と、
    前記第2の取得手段で取得した情報および前記解析手段で解析した結果を前記動画フレームと対応付けて管理する物体説明情報管理手段と、
    をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記要約対象動画を検索するための検索キーワードを受け付ける検索ワード受付手段と、
    前記検索ワード受付手段で受け付けた検索キーワードにより、前記特定物体の名称および前記第2の取得手段により取得した情報および前記解析手段により解析された結果を検索することで、要約対象動画を検索する検索手段と、をさらに備えることを特徴とする請求項6に記載の情報処理装置。
  8. 前記特定物体の名称に対してユーザによる訂正指示を受け付ける訂正受付手段と、
    前記訂正受付手段により受け付けた訂正指示に従い、当該特定物体の名称を訂正する訂正手段と、
    をさらに備えることを特徴とする請求項5乃至7のいずれか1項に記載の情報処理装置。
  9. 複数の要約対象動画をもとに、要約動画を生成する情報処理装置における情報処理方法であって、
    前記情報処理装置の取得手段が、前記要約対象動画を取得する取得工程と、
    前記情報処理装置の物体特徴量抽出手段が、前記取得工程により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出工程と、
    前記情報処理装置の物体特定手段が、前記物体特徴量抽出工程より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定工程と、
    を備えることを特徴とする情報処理方法。
  10. 複数の要約対象動画をもとに、要約動画を生成する情報処理装置において実行可能なプログラムであって、
    前記情報処理装置を、
    前記要約対象動画を取得する取得手段と、
    前記取得手段により取得した要約対象動画の動画フレームから、当該動画フレームに含まれる物体を特定するための物体特徴量を抽出する物体特徴量抽出手段と、
    前記物体特徴量抽出手段より抽出された物体特徴量に基づき、当該動画フレームに含まれる物体を特定する物体特定手段として機能させることを特徴とするプログラム。
JP2013159672A 2013-07-31 2013-07-31 情報処理装置、情報処理方法、プログラム Pending JP2015032905A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013159672A JP2015032905A (ja) 2013-07-31 2013-07-31 情報処理装置、情報処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013159672A JP2015032905A (ja) 2013-07-31 2013-07-31 情報処理装置、情報処理方法、プログラム

Publications (1)

Publication Number Publication Date
JP2015032905A true JP2015032905A (ja) 2015-02-16

Family

ID=52517912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013159672A Pending JP2015032905A (ja) 2013-07-31 2013-07-31 情報処理装置、情報処理方法、プログラム

Country Status (1)

Country Link
JP (1) JP2015032905A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147513A (ko) * 2015-06-15 2016-12-23 한화테크윈 주식회사 감시 시스템
WO2019231093A1 (ko) * 2018-05-29 2019-12-05 삼성전자주식회사 전자 장치 및 그 제어방법
WO2021060966A1 (en) * 2019-09-27 2021-04-01 Mimos Berhad A system and method for retrieving a presentation content
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147513A (ko) * 2015-06-15 2016-12-23 한화테크윈 주식회사 감시 시스템
KR102350917B1 (ko) * 2015-06-15 2022-01-13 한화테크윈 주식회사 감시 시스템
WO2019231093A1 (ko) * 2018-05-29 2019-12-05 삼성전자주식회사 전자 장치 및 그 제어방법
KR20190135672A (ko) * 2018-05-29 2019-12-09 삼성전자주식회사 전자 장치 및 그 제어방법
KR102585777B1 (ko) 2018-05-29 2023-10-10 삼성전자주식회사 전자 장치 및 그 제어방법
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor
WO2021060966A1 (en) * 2019-09-27 2021-04-01 Mimos Berhad A system and method for retrieving a presentation content
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP5801395B2 (ja) シャッタクリックを介する自動的メディア共有
US10789525B2 (en) Modifying at least one attribute of an image with at least one attribute extracted from another image
US8300953B2 (en) Categorization of digital media based on media characteristics
JP5358083B2 (ja) 人物画像検索装置及び画像検索装置
US8107689B2 (en) Apparatus, method and computer program for processing information
JP7283086B2 (ja) コンテンツメディアにテキスト要約を関連付けるためのシステム及び方法、プログラム、及びコンピュータ装置
US7003140B2 (en) System and method of searching for image data in a storage medium
JP2007259415A (ja) 画像処理装置及び画像処理方法、サーバ及びその制御方法、プログラム並びに記憶媒体
CN106407268B (zh) 一种基于覆盖率最优化法的内容检索方法及***
CN102779153A (zh) 信息处理设备和信息处理方法
JP6351219B2 (ja) 画像検索装置、画像検索方法及びプログラム
US20190034455A1 (en) Dynamic Glyph-Based Search
JP2015032905A (ja) 情報処理装置、情報処理方法、プログラム
CN110825928A (zh) 搜索方法和设备
JP2002189757A (ja) データ検索装置及び方法
GB2542891A (en) Modifying at least one attribute of an image with at least one attribute extracted from another image
TW202207049A (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
KR101640317B1 (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
JP5408241B2 (ja) 情報処理装置、情報処理方法、プログラム
JP5772908B2 (ja) 情報処理装置、情報処理システム、その制御方法およびプログラム
JP2007102362A (ja) 分類カテゴリ自動形成装置及びデジタル画像コンテンツ自動分類装置並びにデジタル画像コンテンツ管理システム
CN104850600A (zh) 一种用于搜索包含人脸的图片的方法和装置
JP2019008684A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP2014010640A (ja) 画像検索装置、情報処理方法、プログラム
WO2020148988A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150410