JP5568178B2 - ビデオの要約方法 - Google Patents

ビデオの要約方法 Download PDF

Info

Publication number
JP5568178B2
JP5568178B2 JP2013512120A JP2013512120A JP5568178B2 JP 5568178 B2 JP5568178 B2 JP 5568178B2 JP 2013512120 A JP2013512120 A JP 2013512120A JP 2013512120 A JP2013512120 A JP 2013512120A JP 5568178 B2 JP5568178 B2 JP 5568178B2
Authority
JP
Japan
Prior art keywords
video
digital video
video sequence
processor
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013512120A
Other languages
English (en)
Other versions
JP2013533666A5 (ja
JP2013533666A (ja
Inventor
ディーヴァー,アアロン
Original Assignee
インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテレクチュアル ベンチャーズ ファンド 83 エルエルシー filed Critical インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Publication of JP2013533666A publication Critical patent/JP2013533666A/ja
Publication of JP2013533666A5 publication Critical patent/JP2013533666A5/ja
Application granted granted Critical
Publication of JP5568178B2 publication Critical patent/JP5568178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本発明は、デジタルビデオ処理の分野に関し、特に、デジタルビデオ要約を形成する方法に関する。
多くのデジタル式の取込装置(capture device)は、ビデオや静止画像を取り込むことができる。デジタルのビデオコンテンツを管理することは、面倒な仕事である。ビデオは、その最初のフレームのサムネイル画像を用いて、視覚的に表されることが多いが、その内容への十分な見通しを提供することができない。特定のイベントが、得られたビデオに含まれるかどうかを決定するためには、ビデオを丸ごと視聴しなければならないことが多い。ユーザは、長いビデオを丸ごと視聴することなく、その簡易な要約を得られることが好ましい。
デジタルビデオは、さらに、共有の観点から、現実の実際上の問題を呈することがある。多くのデジタル式の取込装置は、秒間30又は60フレームで、1920x1080ピクセルの空間解像度において、ビデオを記録する。圧縮されていても、生成されるデータ量により、比較的短いビデオを共有することも、非現実的となる可能性がある。
ビデオ編集ソフトウェアは、ビデオを、より簡単に共有可能な短いバージョンへと、手動で要約するために用いられる。手動のビデオ編集は、長くて骨の折れる工程となり得る。多くのユーザは、手動の編集に興味を有していない。また、自動のビデオ要約アルゴリズムが、存在する。かかる解決策は、取り込んだビデオを入力として用いて、そのビデオを分析し、ビデオ要約(video summary)を決定する。そのようなアルゴリズムは非常に複雑であり、ビデオ要約を決定するために必要とされる分析を実行する目的で、そのビデオをデコードする必要がある。従って、デジタル式の取込装置上で、取り込んだばかりのビデオに対応するビデオ要約を、すぐに視聴することは不可能である。かかる欠点は、取り込んだビデオの簡易な確認や共有を困難にする。
従って、デジタル式の取込装置において、ビデオ要約を算出するシステム及び方法を提供することが望ましい。特に、デジタル式の取込装置上で、ビデオの取り込みの完了時、最小限の遅延により、ビデオ要約を生成可能な解決策を提供することが望ましい。
本発明は、デジタルビデオ取込(capture)装置を用いて取り込まれるデジタルビデオシーケンス(sequence)のビデオ要約を形成する方法であって:
前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と;
一以上の特徴量(feature value)を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と;
前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と;
圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と;
圧縮された前記デジタルビデオシーケンスを格納した後に、該デジタルビデオシーケンスを展開することなく、プロセッサを用いて、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片(snippet)を特定する段階であって、前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と;
前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と;
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と;
を有する。
かかる発明は、特徴量を決定するための取込時に、ビデオデータを分析することにより、ビデオ要約が生成されるとき、そのビデオデータの展開を不要とする点で、有利である。
かかる発明は、取込が完了した後、格納されたデジタルビデオのシーケンスを展開することなく、特徴量を分析し、一以上のキーとなるビデオの断片を特定する点で、さらに有利である。キーとなるビデオの断片は、ビデオ要約を形成するために、集められる。これにより、ビデオの取り込みが完了したとき、最小限の遅延で、ビデオ要約を、デジタル取込装置上で生成し、閲覧することが可能になる。
いくつかの実施形態において、ビデオ要約は、メタデータを用いて、デジタルビデオファイルにエンコードされる。ここで、ビデオ要約は、別個のファイルとしてエンコードされる必要はない。ビデオ要約のメタデータを理解し、同時に、従来のプレーヤに対して透過的である、「スマートな」ビデオプレーヤを用いて、ビデオ要約を都合よく閲覧できる点で、有利である。
本発明の一実施形態によってビデオ要約を形成するシステムの部品を表すハイレベルな図。 本発明の一実施形態によってビデオ要約を生成する方法を表すフロー図。 本発明の一実施形態によって、ユーザのフィードバックを利用してビデオ要約を生成する方法を表すフロー図。 本発明の一実施形態によって、ビデオ要約がメタデータとして格納される場合に、ビデオ要約を生成する方法を表すフロー図。 本発明の一実施形態によってビデオ要約を閲覧する方法を表すフロー図。
以下の詳細な説明において、本発明の好ましい実施形態は、通常、ソフトウェアプログラムとして実現され得るように、説明される。当業者は、そのようなソフトウェアの均等物が、ハードウェアにおいても構成され得ることを、容易に理解するであろう。画像処理アルゴリズム及びシステムはよく知られているため、本説明は、特に、本発明に従うシステム及び方法の一部を形成するか、あるいはそれらとより直接的に協働するアルゴリズム及びシステムを対象とする。本明細書で明確に示されない、かかるアルゴリズム及びシステムの他の態様、並びに、関連する画像信号を生成し、あるいは処理するハードウェア若しくはソフトウェアは、当該技術分野で知られた、かかるシステム、アルゴリズム、部品及び要素から選択され得る。以下の資料において、本発明に従って説明されるシステムを考慮すれば、以下で明確に示されず、示唆されず、あるいは説明されない、本発明の実装に有益なソフトウェアは、従来から存在するものであり、当該技術分野における通常の技術の範囲内である。
さらに、本明細書で用いられるように、本発明の方法を実行するコンピュータプログラムは、コンピュータ読み取り可能な記憶媒体に格納され得る。かかる記憶媒体は、例えば、磁気ディスク(例えば、ハードドライブ又はフロッピーディスク)若しくは磁気テープのような磁気記憶媒体;光学ディスク、光学テープ若しくは機械読み取り可能なバーコードのような光学記憶媒体;ランダムアクセスメモリ(RAM)若しくはリードオンリーメモリ(ROM)のような、ソリッドステート電子記憶デバイス;又は、本発明による方法を実行するために、一以上のコンピュータを制御する命令を有するコンピュータプログラムを格納するよう用いられる、他の物理デバイス又は媒体を含む。
本発明は、本明細書で説明される実施形態の組み合わせを含む。「特定の実施形態」等への言及は、本発明の少なくとも一の実施形態において存在する特徴に言及する。「一実施形態」又は「特定の実施形態」等への別個の言及は、必ずしも、同一の、一の実施形態又は複数の実施形態に言及するものではない。しかしながら、かかる実施形態は、そのように明示されない限り、あるいは、当業者にとって容易に明らかでない限り、相互に排他的ではない。「方法」又は「複数の方法」等への言及における、単数形又は複数形の使用は、限定するものではない。明示的に言及するか、文脈によって必要とされない限り、本開示において、「又は」の語は、排他的でない意味で用いられる点に留意する。
撮像装置、信号の取込及び信号処理のための関連する回路、並びに、ディスプレイを用いるデジタルカメラは、周知のものであるため、本説明は、特に、本発明による方法及び装置の一部を形成する要素か、又は、それらと、より直接的に協働する要素を対象とする。本明細書で明確に示されない、あるいは、説明されない要素は、当該技術分野で知られる要素から選択される。説明されるべき実施形態のいくつかの態様は、ソフトウェアで提供される。以下の資料において、本発明に従って示され、かつ説明されるシステムを考慮すれば、以下で明確に示されず、示唆されず、あるいは説明されない、本発明の実装に有益なソフトウェアは、従来から存在するものであり、当該技術分野における通常の技術の範囲内である。
デジタルカメラについての以下の説明は、当該技術分野の当業者によく知られている。コストを低減し、特徴を追加し、あるいはカメラの性能を改善するために選択可能な、本実施形態の多くのバリエーションが存在することは明白である。
図1は、本発明によりビデオ画像を取り込むことの可能なデジタルカメラ10を含む、デジタル写真システムのブロック図である。好ましくは、デジタルカメラ10は、携帯可能なバッテリ駆動の装置であり、画像を取り込んで確認するとき、ユーザによって容易に握るのに十分小さい。デジタルカメラ10は、デジタル画像を生成する。デジタル画像は、イメージメモリ30を用いてデジタル画像ファイルとして格納される。本明細書で用いられるように、「デジタル画像」又は「デジタル画像ファイル」の表現は、デジタル静止画像又はデジタルビデオファイルのような、あらゆるデジタル画像ファイルを表す。
いくつかの実施形態において、デジタルカメラ10は、モーションビデオ画像及び静止画像の両方を取り込む。他の実施形態において、デジタルカメラ10は、モーションビデオ画像のみを取り込む、デジタルビデオカメラである。デジタルカメラ10は、デジタル音楽プレーヤ(例えば、MP3プレーヤ)、携帯電話、GPS受信機又はPDA(programmable digital assistant)の機能を含む(ただし、これに限定されない)、他の機能を含むことができる。
デジタルカメラ10は、調整可能な開口部を有するレンズ4と、調整可能なシャッター6を含む。好ましい実施形態において、レンズ4は、ズームレンズであり、ズーム・フォーカスモータドライブ8により、制御される。レンズ4は、情景(図示しない)からの光を、例えば単一チップのカラーCCD又はCMOSイメージセンサのような、イメージセンサ14上へと集める。レンズ4は、イメージセンサ14上に、情景の画像を形成するための、一つの種類の光学システムである。他の実施形態において、光学システムは、可変焦点又は固定焦点による、単焦点レンズを用いてもよい。
イメージセンサ14の出力は、アナログ信号プロセッサ(ASP)及びアナログデジタル(A/D)コンバータ16によってデジタル形式へと変換され、バッファメモリ18に一時的に格納される。バッファメモリ18に格納されたイメージデータは、後に、プロセッサ20により、ファームウェアメモリ28に格納された、組み込みソフトウェアプログラム(例えば、ファームウェア)を用いて、処理される。いくつかの実施形態において、ソフトウェアプログラムは、リードオンリーメモリ(ROM)を用いて、ファームウェアメモリ28に、恒常的に格納される。他の実施形態において、ファームウェアメモリ28は、例えば、フラッシュEPROMメモリを用いることにより、変更され得る。かかる実施形態において、外部の装置は、有線インタフェース38又は無線モデム50を用いて、ファームウェアメモリ28に格納されたソフトウェアプログラムを更新することができる。かかる実施形態において、ファームウェアメモリ28は、イメージセンサの較正データ、ユーザ設定の選択、及び、カメラの電源がオフにされたときに保存されなければならない他のデータを格納するために、用いられ得る。いくつかの実施形態において、プロセッサ20は、プログラムメモリ(図示しない)を含み、ファームウェアメモリ28に格納されたソフトウェアプログラムは、プロセッサ20によって実行される前に、プログラムメモリへとコピーされる。
当然のことながら、プロセッサ20の機能は、単一のプログラム可能なプロセッサを用いて、提供され得るか、あるいは、一以上のデジタル信号プロセッサ(DSP)装置を含む、複数のプログラム可能なプロセッサの使用により、提供され得る。代わりに、プロセッサ20は、カスタム回路(例えば、特にデジタルカメラでの使用のために設計された、一以上のカスタム集積回路(IC)による)か、あるいは、プログラム可能なプロセッサとカスタム回路の組み合わせにより、提供され得る。当然のことながら、図1に示される様々な部品のうちのいくつか又は全てと、プロセッサ20との間のコネクタは、共通のデータバスを用いて構成され得る。例えば、いくつかの実施形態において、プロセッサ20と、バッファメモリ18、イメージメモリ30及びファームウェアメモリ28との間の接続は、共通のデータバスを用いて構成され得る。
処理された画像は、イメージメモリ30を用いて、格納される。当然のことながら、イメージメモリ30は、当業者にとって知られた、いかなるメモリであってもよく、着脱可能なフラッシュメモリカード、内蔵のフラッシュメモリチップ、磁気メモリ又は光学メモリを含む(但し、これに限定されない)。いくつかの実施形態において、イメージメモリ30は、内蔵のフラッシュメモリチップと、セキュアデジタル(SD)カードのような、着脱可能なフラッシュメモリカードへの標準インタフェースとの、両方を含むことができる。代わりに、マイクロSDカード、コンパクトフラッシュ(CF)カード、マルチメディアカード(MMC)、xDカード又はメモリスティックのような、異なるメモリカード形式が用いられてもよい。
画像センサ14は、タイミングジェネレータ12によって制御される。タイミングジェネレータ12は、列やピクセルを選択し、ASP及びA/Dコンバータ16の処理を同期させるために、様々なクロック信号を生成する。イメージセンサ14は、およそ4000x3000ピクセルの静止画像ファイルを提供するために、例えば、12.4メガピクセル(4080x3040ピクセル)を有する。カラー画像を提供するために、イメージセンサは、一般的に、色フィルタ配列で覆われる。色フィルタ配列は、異なる色の付けられたピクセルを含む、ピクセルの配列を有するイメージセンサを提供する。異なる色のピクセルは、多くの異なるパターンで、配列され得る。一つの例として、異なる色のピクセルは、よく知られたベイヤ(Bayer)のカラーフィルタ配列を用いて、配列され得る。かかるフィルタ配列は、ベイヤによる米国特許3,971,065号「Color imaging array」に記載されている。かかる開示を、本明細書にて援用する。二つ目の例として、異なる色のピクセルは、コンプトン(Compton)とハミルトン(Hamilton)により、2007年7月28日に出願された、米国特許出願公開2005/191729(タイトル「Image sensor with improved light sensitivity」)に記載されるように、配列され得る。かかる開示を、本明細書にて援用する。これらの例は、限定するものではなく、多くの他の色パターンが用いられ得る。
当然ながら、イメージセンサ14、タイミングジェネレータ12並びにASP及びA/Dコンバータ16は、個別に製造された集積回路であってもよいし、一般的にCMOSイメージセンサと共になされるように、単一の集積回路として製造されてもよい。いくつかの実施形態において、かかる単一の集積回路は、図1において、プロセッサ20で実行されるいくつかの機能を含む、他の機能を実行することができる。
イメージセンサ14は、タイミングジェネレータ12により、第一のモードにおいて作動されるとき、低解像度センサの画像データのモーションシーケンスを提供するために、機能する。かかるモーションシーケンスは、ビデオ画像を取り込むときや、画像を構成するために、取り込まれる静止画像をプレビューするときに、利用される。かかるプレビューモードのセンサ画像データは:例えば、1280x720ピクセルのHD解像度画像データとして;例えば640x480ピクセルのVGA解像度画像データとして;あるいは、イメージセンサの解像度に比べて、著しく少ない列と行のデータを有する、他の解像度を用いて;提供される。
プレビューモードのセンサ画像データは、同一色を有する、隣接するピクセルの値を組み合わせるか、いくつかのピクセル値を除去するか、あるいは、いくつかの色のピクセル値を組み合わせ、同時に他の色のピクセル値を除去することにより、提供され得る。プレビューモードの画像データは、パルルスキー(Parulski)らによる、米国特許第6,292,218号(タイトル「Electronic camera for initiating capture of still images while previewing motion images」)に記載されるように、処理され得る。かかる内容を、本明細書にて援用する。
イメージセンサ14は、タイミングジェネレータ12により、第二のモードで作動されるとき、高解像度の静止画像データを提供するために、さらに機能する。かかる最終モードのセンサ画像データは、高解像度の出力画像データとして提供される。その画像データは、照明レベルが高い景色に対して、イメージセンサの全てのピクセルを含み、例えば、4000x3000ピクセルを有する、12メガピクセルの最終画像データとなり得る。照明レベルが低い場合に、最終のセンサ画像データは、信号レベルを増加させるため、すなわち、センサの「ISOスピード」を増加させるために、イメージセンサ上の同様の色付けされたピクセルのいくつかの数を「ビニング」することによって、提供され得る。
ズーム・フォーカスモータドライバ8は、プロセッサ20によって供給される制御信号によって制御され、適切な焦点距離設定を提供し、景色に(イメージセンサ14の上に)焦点を合わせる。イメージセンサ14の露出レベルは、調整可能な開口部及び調整可能なシャッター6のf値と露光時間、タイミングジェネレータ12を用いたイメージセンサ14の露光時間、及び、ASP・A/Dコンバータ16のゲイン設定(すなわち、ISOスピード)によって、制御される。プロセッサ20は、景色を照らすフラッシュ2も制御する。
デジタルカメラ10のレンズ4は、「スルーザレンズ(through-the-lens)」オートフォーカスを用いることによって、第一のモードにおいて焦点合わせされる。かかるオートフォーカスは、パルルスキー(Parulski)らによる、米国特許第5,668,597号(タイトル「Electronic Camera with Rapid Automatic Focus of an Image upon a Progressive Scan Image Sensor」)において説明される。かかる内容を、本明細書にて援用する。これは、ズーム・フォーカスモータドライバ8によって達成され、レンズのフォーカス位置を、短焦点位置と無限焦点位置との間の範囲の多数の位置へと調整し、同時に、プロセッサ20は、イメージセンサ14によって取り込まれた画像の中央位置の、ピークのシャープネス値を提供する、最も近い(closest)フォーカス位置を決定する。最も近いフォーカス位置に対応するフォーカス距離は、例えば、適切なシーンモードを自動的に設定するような、いくつかの目的のために利用され、画像ファイル内のメタデータとして、他のレンズ設定及びカメラ設定とともに、保管され得る。
プロセッサ20は、メニューや、ディスプレイメモリ32に一時的に格納される低解像度のカラー画像を生成する。これらは、イメージディスプレイ32上に表示される。イメージディスプレイ32は、典型的には、アクティブマトリクス型の液晶ディスプレイ(LCD)であるが、有機発光ダイオード(OLED)ディスプレイのような、他の種類のディスプレイが用いられてもよい。ビデオインタフェース44は、デジタルカメラ10から、フラットパネルHDTVディスプレイのような、ビデオディスプレイ46へと、ビデオ出力信号を提供する。プレビューモード、あるいはビデオモードにおいて、バッファメモリ18のデジタル画像データは、プロセッサ20によって処理され、イメージディスプレイ32上に、典型的にはカラー画像として表示される、一連のモーションプレビュー画像を形成する。レビューモードにおいて、イメージディスプレイ32上に表示される画像は、イメージメモリ30に格納されたデジタル画像ファイルの画像データを用いて、生成される。
イメージディスプレイ32上に表示されるグラフィカルユーザインタフェースは、ユーザコントロール34により提供されるユーザ入力に応じて、操作される。ユーザコントロール34は、ビデオ取込モード、静止取込モード及びレビューモードのような、様々なカメラモードを選択し、静止画像や動画の取り込みを開始するために使用される。いくつかの実施形態において、上で述べた第一のモード(すなわち、静止プレビューモード)は、ユーザが部分的に、ユーザコントロール34の一つである、シャッターボタンを押し下げたときに、開始される。そして、第二のモード(すなわち、静止画像取り込みモード)は、ユーザが完全にシャッターボタンを押し下げたときに、開始される。また、ユーザコントロール34は、カメラの電源の投入、レンズ4の制御及び画像取込処理の開始のために、用いられる。ユーザコントロール34は、典型的に、ボタン、ロッカースイッチ、ジョイスティック又は回転式のダイヤルの組み合わせを含む。いくつかの実施形態において、いくつかのユーザコントロール34は、イメージディスプレイ32上の、タッチスクリーンオーバレイを用いることにより、提供される。他の実施形態において、さらなる状態ディスプレイ又は画像ディスプレイが用いられ得る。
ユーザコントロール34を用いて選択されることのできるカメラのモードは、「タイマ」モードを含む。「タイマ」モードが選択されると、ユーザが完全にシャッターボタンを押下した後であって、プロセッサ20が静止画像の取り込みを開始する前に、短い遅延(例えば、10秒)が生ずる。
プロセッサ20に接続されるオーディオコーデックは、マイク24からの音声信号を受信し、音声信号を、スピーカ26へと提供する。かかる部品は、ビデオシーケンス又は静止画像とともに、オーディオトラックを録音し、再生するために存在する。デジタルカメラ10が、コンビネーションカメラや携帯電話のような、多機能機器である場合には、マイク24やスピーカ26は、通話のために用いられ得る。
いくつかの実施形態において、スピーカ26は、ユーザインタフェースの一部として用いられ、例えば、ユーザコントロールが押されたことや、特定のモードが選択されたことを表す、様々な可聴の信号を提供する。いくつかの実施形態において、マイク24、オーディオコーデック22及びプロセッサ20は、音声認識を提供するために用いられ得る。そうして、ユーザは、ユーザコントロール34ではなく、音声コマンドを使用して、プロセッサ20へユーザ入力を提供することができる。スピーカ26は、さらに、ユーザに、着信を知らせるために、用いられ得る。これは、ファームウェアメモリ28に格納された標準の着信音か、あるいは、無線ネットワーク58からダウンロードされ、イメージメモリ30に格納された、カスタムの着信音を用いて、なされ得る。さらに、バイブレーション装置(図示しない)が、着信を静かに(例えば、聞こえないように)通知するために、用いられ得る。
いくつかの実施形態では、デジタルカメラ10は、カメラの移動に関連するデータを提供する加速度計27をさらに含む。好ましくは、加速度計27は、(全部で入力の6次元の)3つの直行方向のそれぞれに対する直線加速度及び回転加速度を検出する。
プロセッサ20は、イメージメモリ30に、周知のExif−JPEG画像ファイルのような、「完成した」画像ファイルの中で圧縮され、格納される、表示sRGB画像データを生成するために、イメージセンサ14から、画像データについての追加の処理を、さらに提供する。
デジタルカメラ10は、有線インタフェース38を介して、インタフェース/充電器48へと接続され得る。インタフェース/充電器40は、コンピュータ40へと接続される。コンピュータ40は、家庭又はオフィスに配置された、デスクトップコンピュータ又はポータブルコンピュータであってもよい。有線インタフェース38は、例えば、周知のUSB2.0インタフェース規格に準じてもよい。インタフェース/充電器48は、有線インタフェース38を介して、デジタルカメラ10の、一組の充電可能なバッテリ(図示しない)へと電力を提供することができる。
デジタルカメラ10は、無線モデム50を含む。無線モデム50は、無線ネットワーク58により、無線周波数帯52を用いて、相互作用する。無線モデム50は、周知のBluetooth(登録商標)無線インタフェースや、802.11無線インタフェースのような、様々な無線インタフェースプロトコルを用いることができる。コンピュータ40は、インターネット70を用いて、画像を、Kodak EasyShare Gallery(登録商標)のような、写真サービスプロバイダ72へと、アップロードすることができる。他の装置(図示しない)は、写真サービスプロバイダ72により格納された画像へとアクセスすることができる。
代替となる実施形態において、無線モデム50は、3GSMネットワークのような、携帯電話ネットワーク(図示しない)により、電波周波数(例えば、無線)リンクを通じて、通信する。携帯電話ネットワークは、デジタルカメラ10のデジタル画像ファイルをアップロードするために、インターネット70と接続する。かかるデジタル画像ファイルは、コンピュータ40又は写真サービスプロバイダ72へと提供され得る。
ここで、本発明は、図2を参照して説明される。まず、デジタルカメラ10のような、デジタルビデオ取込装置は、デジタルビデオシーケンス取込ステップ210において、デジタルビデオシーケンスを取り込む。ここで、デジタルビデオシーケンスは、複数のビデオフレームからなる。
特徴量決定ステップ220において、デジタルビデオシーケンスが取り込まれたとき、ビデオフレームの少なくとも一のサブセットが分析され、一以上の特徴量を決定するかかる特徴量は、色の特性や、ビデオフレーム内の顔の存在のような、ビデオフレームに関連する、様々な属性を表現することができる。特徴量は、連続したビデオフレーム間の全体的な(global)動きの値(motion value)や、連続するフレームの対応する要素間の局所的な(local)動きの値のような、動きに基づく属性を表現してもよい。全体的な動きの値は、典型的には、取込装置の動きに対応し、同時に、局所的な動きの値は、シーンの中のオブジェクトの動きに言及する。当業者は、前述した特徴は一例に過ぎず、他の特徴量が、ビデオフレームの分析に基づいて決定され得ることを認識することができる。
特徴量決定ステップ220は、デジタルビデオシーケンスが取り込まれたときに、マイク24を通じて録音され、オーディオコーデックにより処理された、少なくとも一の音声サンプルの分析を、さらに含んでもよい。音声特徴量は、時間領域及び特定の周波数レンジの両方についての信号強度のような、属性を含んでもよい。
特徴量決定ステップ220は、さらに、デジタルビデオシーケンスが取得時における、デジタルビデオ取込装置設定の分析を含んでもよい。かかる装置設定の特徴値は、ズーム・フォーカスモータドライブ8を制御することにより、ズームレンズ4のズーム位置を調整するための、ユーザコントロール34の形式のユーザ入力を含む。画像の倍率をさらに高めることのできるデジタルズームは、別の特徴値であってもよい。
特徴量決定ステップ220は、デジタルビデオシーケンスの取込時における、加速度計27の加速度データの分析をさらに含んでもよい。加速度データは、デジタルカメラ10の移動に関する測定値を提供し、ビデオフレームデータに基づく動きの計算を増補するか、あるいは置換するために用いられ得る。
特徴量決定ステップ220は、プロセッサ20により用いられるビデオエンコーダにより生成されるデータの分析をさらに含んでもよい。かかるデータは、ビデオエンコード処理において用いられる動き予測の一部として生成される、動きベクトル情報を含む。一般の多くのビデオエンコード処理は、一連の通常の処理の一部として、そのような動きベクトル情報を定期的に生成する。
それぞれのビデオフレームに対して、特徴量が決定された後に、デジタルビデオシーケンス圧縮ステップ230は、ビデオフレームを圧縮する。MPEG規格やH.263規格で定められるように、ビデオ圧縮アルゴリズムは、当該技術分野の当業者にとって、周知である。圧縮されたビデオフレームは、Apple QuickTime(登録商標)のような、コンテナに含められ得る。QuickTimeは、ビデオファイルのファイルフォーマットのラッパ(wrapper)を提供する。
圧縮済(compressed)デジタルビデオシーケンス格納ステップ240は、イメージメモリ30のような、プロセッサがアクセス可能なメモリに、圧縮されたデジタルビデオシーケンスを格納する。格納された圧縮済デジタルビデオシーケンスは、ビデオ情報及び音声情報を含んでもよい。
本発明の一実施形態において、特徴量決定ステップ220で決定される特徴量は、格納された圧縮済デジタルビデオシーケンスに関連付けられた、メタデータとして、保管される。メタデータは、例えば、Apple QuickTimeファイルフォーマットの仕様で定義される、ユーザデータのatom内に、保管され得る。
本発明の別の実施形態において、特徴量決定ステップ220において決定される特徴量は、格納された、圧縮済デジタルビデオシーケンスと関連付けられた、別個のファイルとして、保管される。
本発明の、さらに別の実施形態において、特徴量決定ステップ220において決定される特徴量は、如何なる永続的なメモリにも保管されず、ビデオ要約形成アルゴリズムの完了時に破棄される。
ビデオ取込処理が完了し、圧縮済デジタルビデオシーケンスが格納された後に、キーとなるビデオの断片特定ステップ250が実行され、デジタルビデオシーケンスの、キーとなるビデオの断片が特定される。キーとなるビデオの断片特定ステップ250は、一以上のキーとなるビデオの断片を特定するために、プロセッサを用いて、格納された、圧縮済デジタルビデオシーケンスを展開することなく、特徴量を自動的に分析する。それぞれのキーとなるビデオの断片は、デジタルビデオシーケンスのビデオフレームの一組に対応する。一般的に、キーとなるビデオの断片を含むビデオフレームは、デジタルビデオシーケンスの中の、連続フレームである。また、キーとなるビデオの断片は、最初のフレーム番号と、最後のフレーム番号又はその断片の長さを表す値とによって、特定され得る。
ビデオに関連付けられた特徴量に基づいて、ビデオから、キーとなるビデオの断片を決定する多くの方法が、当該技術分野において周知である。かかるアプローチのいくつかにおいて、ビデオのキーフレームが最初に特定され、次に、キーとなるビデオの断片が、各ビデオのキーフレームの周りのビデオシーケンスの節を選択することにより、形成される。ルオ(Luo)らによる、米国特許出願公開2007/0183497は、デジタルの動き予測技術により計算されるように、ビデオの中の動きの特性に基づいて、ビデオのキーフレームを選択する方法を開示する。かかる内容は、本明細書にて援用される。ルオらによる、米国特許出願公開2007/0182861は、ビデオ取込装置と関連付けられた加速度計のデータにより提供されるように、ビデオの中の動きの特性に基づいて、ビデオのキーフレームを選択する方法を開示する。かかる内容も、本明細書にて援用される。かかる方法のいずれかは、本発明に従って、決定された特徴量から、キーとなるビデオの断片を特定するために、用いられ得る。
特徴量が、格納された、圧縮済デジタルビデオシーケンスと関連付けられた、別個のファイルとして保管される実施形態では、キーとなるビデオの断片特定ステップ250は、その別個のファイルから特徴量を読み込み、分析にために、その特徴量情報を提供することができる。
同様に、特徴量が、格納された、圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして保管される実施形態では、キーとなるビデオの断片特定ステップ250は、格納されたデジタルビデオシーケンスのビデオフレームを展開することなく、格納された圧縮済デジタルビデオシーケンスから、特徴量を抽出することができる。格納された圧縮済デジタルビデオシーケンスから、特徴量のメタデータを抽出することは、格納された圧縮済デジタルビデオシーケンスを展開することとは考えられない点に留意する。むしろ、格納された圧縮済デジタルビデオシーケンスの展開は、圧縮済デジタルビデオシーケンスの一連のビデオフレームを再構築するために用いられる、ビデオデータ又はヘッダデータのような、圧縮済みのビットストリームの中のデータをデコードすることを指す。
本発明の利点は、キーとなるビデオの断片を、格納された圧縮済デジタルビデオシーケンスを展開することなく、決定することができる点にある。これにより、キーとなるビデオの断片を決定でき、取込処理が完了した後に、最小限の遅延で、ビデオ要約を形成できる。既存技術における方法は、格納された圧縮済デジタルビデオシーケンスから、個別のビデオフレームを抽出しており、展開作業を実行するために必要となる時間量に縛られていた。
本発明のいくつかの実施形態において、キーとなるビデオの断片は、デジタルビデオシーケンスの取込時に決定される特徴量の分析に、完全に基づいて、特定される。本発明の他の実施形態において、キーとなるビデオの断片は、特徴量と、格納された圧縮済デジタルビデオシーケンスから抽出された追加野情報の分析に基づいて、特定される。これらの場合には、格納された圧縮済デジタルビデオシーケンスの中のいくつかの情報を、少なくとも部分的に展開する必要がある場合がある。
例えば、本発明の一実施形態において、音声情報は、格納された圧縮済デジタルビデオシーケンスから抽出され、キーとなるビデオの断片を特定するために、特徴量と共に用いられる。音声データは、全体が圧縮済のデジタルビデオファイルのうちの小さな割合を含み、ビデオフレームのピクセルデータの展開と比較して、迅速に抽出され得る。いくつかのシナリオにおいては、取込時の音声の特徴量を生成することができない。プロセッサは、音声の特徴量を決定するために利用可能な計算周期を有しない可能性があるが、他の特徴量を決定し、取り込まれたビデオを処理し、エンコードする。かかる場合において、音声情報は、キーとなるビデオの断片を特定するために、格納された圧縮済デジタルビデオシーケンスから音声情報を抽出することにより、用いられ得る。これは、速度と性能の妥協を表している。音声情報は、キーとなるビデオの断片を特定するために必要とされる、より長い全体の処理時間のコストにおいて、キーとなるビデオの断片特定ステップ250の性能を改善するために用いられ得る。
同様に、本発明の別の実施形態において、ビデオフレーム情報が、格納された圧縮済デジタルビデオシーケンスから抽出され、キーとなるビデオの断片を特定するために、特徴量とともに、使用される。全ビデオシーケンスの展開は、取込時に、ビデオに基づく特徴量を決定する大きな利点を取り除く。従って、好ましくは、よくても少量のビデオフレームが、格納された圧縮済デジタルビデオシーケンスからデコードされる。当業者は、個々のフレームが、独立して符号化されたフレームであるとき、効率的に、圧縮済デジタルビデオシーケンスからデコードされ得ることを認識するであろう。ビデオ情報の使用は、スピードと性能の妥協を表している。ビデオ情報は、キーとなるビデオの断片を特定するために必要とされる、より長い全体の処理時間のコストにおいて、キーとなるビデオの断片特定ステップ250の性能を改善するために用いられる。
本発明のいくつかの実施形態において、キーとなるビデオの断片特定ステップ250は、ユーザコントロール34からのユーザ入力を利用し、ビデオ要約の様々な属性を制御する。ユーザ入力は、ビデオ要約の長さ、個々のキーとなるビデオの断片の最小の持続時間及びキーとなるビデオの断片の総数(但しこれに限定されない)を特定することを含み得る。
好ましい実施形態において、キーとなるビデオの断片特定ステップ250は、
ディーバ(Deever)による、米国特許出願12/786,471(タイトル「Method For Determining Key Video Frames」)において説明される方法を用いる。かかる方法は、最初に、デジタルビデオシーケンスを分析し、時間関数として、重要度を決定する。重要度は、全体的な(global)動きと局所的な(local)動きを含む、デジタルビデオシーケンスの特性の関数である。好ましくは、重要度は、特徴量決定ステップ220で決定された特徴量を用いて、算出される。重要度は、デジタルビデオシーケンスの、ゆがんだ時間の(warped-time)表現を形成するために、使用される。ゆがんだ時間の表現は、デジタルビデオシーケンスの中のいくつかのビデオフレームに、より大きな時間の重みを与え、他のビデオフレームに、より小さな時間の重みを与える。ゆがんだ時間のデジタルビデオシーケンスの表現は、等しくゆがめられた時間間隔の一組へと分割される。キーとなるビデオフレームは、ゆがめられた時間間隔のそれぞれの中のビデオフレームを分析することにより、ゆがめられた時間間隔のそれぞれから、選択される。好ましくは、ゆがめられた時間間隔のそれぞれに対する、キーとなるビデオフレームは、ゆがめられた時間間隔の中の対応するビデオフレームと関連付けられる、特徴量決定ステップ220から決定される特徴量を分析することにより、選択される。そのような基準は、ズームイン処理の完了の直後に生ずる、キーとなるビデオフレームの選択か、又は、ビデオフレームの中央領域における局所的な動きの適度なレベルを有する、キーとなるビデオフレームの選択を含む。
一つの実施形態において、キーとなるビデオの断片は、キーとなるビデオフレームのそれぞれの周囲のビデオフレームの一組を選択することによって、形成される。例えば、キーとなるビデオの断片は、キーとなるビデオフレームの前又は後の、2秒のビデオフレームを選択することにより、形成される。従って、4秒の長さの、キーとなるビデオの断片が形成される。
代わりに、キーとなるビデオフレームがランク付けされ、キーとなるビデオの断片が、最も高くランク付けされた、キーとなるビデオフレームに対応する、キーとなるビデオフレームのサブセットのみに対して、形成されてもよい。キーとなるビデオフレームのランク付けは、カメラの固定パターンを決定するために、デジタルビデオシーケンスを分析し、さらに、カメラの固定パターンに応じて、キーとなるビデオフレームをランク付けすることを含む。好ましくは、特徴量決定ステップ220で決定される、全体的な動きに対応する特徴量は、全体的な動きのトレース(形跡)を提供する。トレーは、デジタルビデオシーケンス全体を通じた、カメラの固定領域を示す。高い固定領域に対応するビデオフレーム、すなわち、カメラが、ビデオキャプチャ全体において高い割合で固定された領域は、高くランク付けされる。ランク付けの処理は、反復して実行され、各ステップにおいて、次に最も高くランク付けされたキーとなるビデオフレームを選択する。各ステップにおいて、当該処理は、そのランク付け処理に既に含まれた固定領域を表す、キーとなるビデオフレームより上の、表現されていない固定領域を表す、キーとなるビデオフレームを推進する。キーとなるビデオフレームが一度ランク付けされると、最も高くランク付けされた、キーとなるビデオフレームは、キーとなるビデオの断片の中に含められるよう、選択され得る。
既に述べたように、キーとなるビデオの断片は、キーとなるビデオフレームの夫々の周りの、ビデオフレームの一組を選択することによって、形成され得る。代替的に、キーとなるビデオの断片は、ビデオ要約の総時間や、キーとなるビデオの断片の許容される最小時間のような、設定基準によって形成され得る。キーとなるビデオの断片は、その設定基準を満足するよう選択され、同時に、任意で、さらなる基準に応じるように選択される。例えば、キーとなるビデオの断片は、発話中のセグメントの途中で開始又は終了する可能性を最小化するように、選択され得る。
キーとなるビデオの断片が特定された後、ビデオ要約形成ステップ260は、ビデオ要約を形成する。ビデオ要約は、個々のキーとなるビデオの断片を、一つの集まりへと集めることによって、形成される。好ましい実施形態において、キーとなるビデオの断片は、デジタルビデオシーケンスにおける発生の順序に対応する、年代順で集められる。
ビデオ要約の表現(representation)は、ビデオ要約の表現格納ステップ270において、プロセッサがアクセス可能なメモリに格納される。本発明の一実施形態において、プロセッサがアクセス可能なメモリの中の、ビデオ要約の表現を格納する段階は、ビデオ要約に対応するデジタルビデオシーケンスの中の、ビデオフレームの指示(indication)を提供する、フレーム特定メタデータを格納する段階を含む。そのフレーム特定メタデータは、格納された圧縮済デジタルビデオシーケンスと関連付けられて、格納され得る。例えば、ビデオ要約の表現は、格納された圧縮済デジタルビデオシーケンスのメタデータとして格納され得る。これは、ビデオ要約に含まれる、キーとなるビデオの断片に対応する、一連の開始フレームと終了フレームを示す。これにより、ビデオ要約の表現は、フレーム特定メタデータの格納を必要とすること以外の、追加の物理的なメモリを使用することなく、格納され得る。
本発明の別の実施形態において、プロセッサがアクセス可能なメモリの中の、ビデオ要約の表現を格納する段階は、特定されたキーとなるビデオの断片に対応する、格納された圧縮済デジタルビデオシーケンスのビデオフレームを抽出する段階と、それらを併合して、そのビデオ要約に対応する、新たな併合されたビデオシーケンスを形成する段階とを含む。いくつかの場合には、圧縮済デジタルビデオシーケンスの一部の展開と、圧縮済ビデオ要約を形成するために併合されたビデオシーケンスの圧縮とが必要となる可能性がある。併合されたビデオシーケンスは、一般に、ビデオデータと、対応する音声データとを含み、これらは、圧縮済デジタルビデオシーケンスから抽出されなければならない。
圧縮済ビデオ要約は、プロセッサがアクセス可能なメモリに格納され得る。かかる実施形態において、圧縮済ビデオ要約は、圧縮済デジタルビデオシーケンスとは別のファイルとして格納される。いくつかの場合には、ビデオ要約の表現は、元の圧縮済デジタルビデオシーケンスとは独立して、閲覧され、あるいは共有され得る、デジタルビデオファイルとなる。好ましい実施形態において、格納される、ビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットの、デジタルビデオファイルである。
本発明のいくつかの実施形態において、ビデオ要約に対応する、抽出済ビデオフレームは、異なる空間解像度で抽出された抽出済ビデオフレームを生成するために、リサンプリングされる。その後、異なる空間解像度で抽出された抽出済ビデオフレームが圧縮され、圧縮済ビデオ要約が形成される。かかるリサンプリングは、高い空間解像度で取り込まれたビデオを共有する場合に、特に有利となり得る。このようにして、圧縮済ビデオ要約は、より少ないビデオフレームを含み、かつ、そのビデオフレームがより低い空間解像度を有することにより、圧縮済デジタルビデオシーケンスより小さくなり得る。より低い空間解像度のビデオ要約が、より高い解像度のビデオフレーム全体を展開することなく、生成され得る。ビデオ要約を生成するために必要なビデオフレームのみが、展開される必要がある。
同様に、ビデオ要約に対応する抽出済ビデオフレームは、異なる空間解像度で抽出済ビデオフレームを生成するために、時間次元でリサンプリングされる。その後に、異なる空間解像度で抽出された抽出済ビデオフレームが圧縮され、圧縮済ビデオ要約が形成される。
図3は、本発明の別の実施形態に対応する。当該実施形態では、ユーザは、形成されたビデオ要約をプレビューし、更新されたビデオ要約が、調整されたユーザ設定を用いて形成されるよう要求することができる。かかる実施形態において、デジタルビデオシーケンス取込ステップ210と、特徴量決定ステップ220と、デジタルビデオシーケンス圧縮ステップ230と、圧縮済デジタルビデオシーケンス格納ステップ240と、キーとなるビデオの断片特定ステップ250と、ビデオ要約形成ステップ260と、ビデオ要約の表現格納ステップ270は、既に示した図2に従って、全てが実行される。ビデオ要約形成ステップ260により経緯背されるビデオ要約が格納される前に、ユーザは、ビデオ要約プレビューステップ262を用いて、ビデオ要約をプレビューすることができる。ユーザは、ユーザ満足度テスト264を用いて、最初のビデオ要約による、彼又は彼女の満足を示すよう促される。ユーザがビデオ要約に満足した場合には、処理は、図2に示したように、ビデオ要約の表現格納ステップ270へと進む。一方、ユーザがそのビデオ要約に満足しなかった場合、ユーザ設定調整ステップ266が用いられ、ユーザは、一以上の設定を調整することができ、新たなビデオ要約を形成させることができる。かかるユーザ設定は、ユーザ制御34を通じて入力され得る。ユーザ設定は、ビデオ要約の長さ、キーとなるビデオの断片の最小の長さ、あるいは、ビデオ要約に含まれる、キーとなるビデオの断片の数のような、パラメータ設定を含むことができる。ユーザが、ユーザ設定を調整した後、キーとなるビデオの断片特定ステップ250と、ビデオ要約形成ステップ260が、ユーザ設定に応じて、新たなビデオ要約を形成するために、用いられる。当業者は、ユーザが、ビデオ要約に満足するまで、ビデオ要約をプレビューし、ユーザ設定を複数回更新することができ、対応するビデオ要約を形成する点について、認識するであろう。
図4は、本発明の別の実施形態を表す。当該実施形態は、ビデオ要約が、格納されたデジタルビデオシーケンスと関連付けられたメタデータとして、格納される。デジタルビデオシーケンス取込ステップ410は、デジタルビデオシーケンスを、デジタルビデオ取込装置を用いて取り込む。ここで、デジタルビデオシーケンスは、複数のビデオフレームを含む。デジタルビデオシーケンス取込ステップ420は、プロセッサがアクセス可能なメモリに、デジタルビデオシーケンスを格納する。格納されたデジタルビデオシーケンスは、図2の特徴量決定ステップ220を用いて決定されたように、決定された特徴量を含んでもよいし、含んでいなくてもよい。
次に、キーとなるビデオの断片特定ステップ430は、格納されたデジタルビデオシーケンスの、ビデオフレームの一以上の組に対応する、一以上のキーとなるビデオの断片を特定する。いくつかの実施形態において、キーとなるビデオの断片特定ステップ430は、図2のキーとなるビデオの断片特定ステップ250に関して説明されたように、格納された特徴量を利用することができる。他の実施形態において、キーとなるビデオの断片特定ステップ430は、ビデオ分析アルゴリズムを用いて、格納されたデジタルビデオシーケンスのフレームを直接分析する。このようにして、キーとなるビデオの断片特定ステップ430は、分析を実行するため、一般に、そのデジタルビデオシーケンスを展開する必要がある。当該技術分野において周知のあらゆる方法を、キーとなるビデオの断片(図2に関して既に述べたものを含む)を特定するために、用いることができる。
ビデオ要約形成ステップ440は、特定されたキーとなるビデオの断片を集め、図2のビデオ要約形成ステップ260と同様な方法で、ビデオ要約を形成する。メタデータとしてのビデオ要約格納ステップ450は、格納されたデジタルビデオシーケンスと関連付けられたメタデータを格納駆ることにより、プロセッサがアクセス可能なメモリに、そのビデオ要約を格納する。ここで、メタデータは、ビデオ要約に対応するビデオフレームの指示(indication)を提供する。
キーとなるビデオの断片特定ステップ430、ビデオ要約形成ステップ440及びメタデータとしてのビデオ要約格納ステップ450は、デジタルビデオシーケンス取込ステップ410とデジタルビデオシーケンス格納ステップ420と同一のデジタルビデオ取込装置上で生ずる必要はなく、あるいは、同一のプロセッサ20を用いて生ずる必要はない。例えば、デジタルビデオシーケンス格納ステップ420は、例えば、着脱可能なメモリカードのような、イメージメモリ30に書き込まれた、格納されたデジタルビデオシーケンスを得ることができる。着脱可能なメモリカードは、格納されたデジタルビデオシーケンスを、キーとなるビデオの断片特定ステップ430、ビデオ要約形成ステップ440及びメタデータとしてのビデオ要約格納ステップ450が適用されない、別の装置へと移動するために、用いられ得る。いくつかの場合には、別の装置は、図1で示したような、別のデジタルビデオ取込装置であってもよい。他の実施形態において、格納されたデジタルビデオシーケンスは、コンピュータ40(図1)又はビデオ編集システムのような、別の装置へと読み込まれる。ここで、格納されたデジタルビデオシーケンスは、ビデオ要約を決定するために、処理され得る。
好ましい実施形態において、キーとなるビデオの断片特定ステップ430は、格納されたデジタルビデオシーケンスから、少なくとも一のビデオフレームを抽出する段階と、そのビデオフレームを分析して、そのビデオフレームと関連付けられる特徴量を決定する段階を含む。好ましい実施形態において、キーとなるビデオの断片特定ステップ430は、さらに、格納されたデジタルビデオシーケンスから、少なくとも一の音声サンプルを抽出する段階と、その音声サンプルを分析して、その音声サンプルと関連付けられる特徴量を決定する段階を含む。特徴量は、キーとなるビデオの断片を特定するために、分析され得る。
好ましい実施形態において、メタデータとしてのビデオ要約格納ステップ450は、ビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供する、フレーム特定(identification)メタデータを格納する段階を含む。フレーム特定メタデータの形式でビデオ要約を格納することは、フレーム特定を格納するために必要となる最小限のメモリ量以外に、追加の物理的なメモリを用いることなく、ビデオ要約を格納することができるという利点を有する。好ましくは、フレーム特定メタデータは、格納された圧縮済デジタルビデオシーケンスと関連付けられて、格納される。例えば、ビデオ要約の表現は、格納された圧縮済デジタルビデオシーケンスの中のメタデータとして格納され、ビデオ要約に含まれる、キーとなるビデオの断片に対応する、一連の開始フレーム及び終了フレームを示す。他の実施形態において、フレーム特定メタデータは、格納されたデジタルビデオシーケンスと関連付けられた、別個のファイルに格納されてもよい。
本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ450は、さらに、ビデオ要約を含む、キーとなるビデオの断片に対応する、音声サンプルの指示を提供するメタデータを格納する段階を含む。
本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ450は、さらに、特定されたキーとなるビデオの断片の間の境界に適用される、ビデオ遷移の効果の指示を提供するメタデータを格納する段階を含む。ビデオ遷移の効果は、例えば、一のキーとなるビデオの断片から次へのフェード(すなわち、「クロスディゾルブ」)効果や、あるキーとなるビデオの断片から白色(又は黒白)へのフェード効果及び次のビデオの断片へのフェード効果を含み得る。他の種類の遷移の効果は、クロスワイプ効果、サークル効果の開始と終了、水平又は垂直のブラインド効果、およびチェッカー板の遷移効果のような、特殊効果を含んでもよい。当業者は、これらが単なる数少ない例であることを認識し、多くの異なる種類の遷移効果が、本発明に従って用いられ得ることを認識するであろう。ビデオ遷移効果の使用は、デジタルビデオシーケンスの一のセグメントから他のセグメントへの突然の遷移を除去することにより、ビデオ要約の全体的な視覚品質を改善することができる。
本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ450は、さらに、キーとなるビデオの断片の間の境界で適用される、音声の遷移効果の指示を提供するメタデータを格納する段階を含む。音声の遷移効果は、例えば、無音へのフェードと復帰を含み得る。かかる音声の遷移効果は、デジタルビデオシーケンスの一のセグメントから他のセグメントへの突然の遷移を除去することにより、ビデオ要約の全体的な音声品質を改善することができる。
図5は、本発明に従って、ビデオ要約を表示するビデオ再生システムにより使用される処理のフローチャートを表す。特に、図5の方法は、直接再生可能なデジタルビデオファイルではなく、メタデータとして格納される、ビデオ要約を表示するよう適合されている。
最初に、データ読込ステップ510は、格納されたデジタルビデオ要約と関連付けられたデータを読み込む。ここで、そのデータは、ビデオ要約に対応する、格納されたデジタルビデオシーケンスのビデオフレームの指示を提供する。例えば、ビデオフレームの指示を提供するデータは、デジタルビデオシーケンスを格納するために用いられたデジタルビデオファイルに格納されたメタデータから抽出され得る。ここで、メタデータは、どのビデオフレームが、ビデオ要約に含まれるかを示す。代わりに、そのデータは、格納されたデジタルビデオシーケンスと関連付けられた、別個のファイルから抽出されてもよい。
次に、ビデオフレーム抽出ステップ520は、キーとなるビデオの断片に対応するビデオフレームを抽出する。キーとなるビデオの断片は、格納されたデジタルビデオシーケンスのビデオ要約を含む。一般に、格納されるデジタルビデオシーケンスは、圧縮された形式で、格納される。そのような場合には、ビデオフレーム抽出ステップ520は、格納されたデジタルビデオシーケンスを展開する段階を含む。
ビデオ要約形成ステップ530は、キーとなるビデオの断片に対して抽出されたビデオフレームから、ビデオ要約を形成するために用いられる。最も単純な場合には、ビデオ要約形成ステップ530は、抽出されたビデオフレームを、連続したビデオクリップへと単純に編集する。
ビデオ要約が形成されると、ビデオ要約表示ステップ540は、ソフトコピーディスプレイ(softcopy display)上に、そのビデオ要約を表示するために用いられる。かかるディスプレイは、例えば、デジタルビデオ取込装置上のレビュースクリーン又はコンピュータ若しくはテレビスクリーンに関連付けられたディスプレイであり得る。
データ読込ステップ510は、ビデオ要約に対応する、音声サンプルの指示を提供してもよい。この場合には、ビデオフレーム抽出ステップ520は、さらに、ビデオ要約に対応する、格納されたデジタルビデオシーケンスから、適切な音声サンプルを抽出する段階を含み得る。
本発明のいくつかの実施形態において、データ読込ステップ510は、さらに、ビデオ要約に対するビデオの遷移効果の指示を提供する。同様に、データ読込ステップ510は、ビデオ要約に対する音声の遷移効果の指示を提供することができる。データ読込ステップ510がビデオの遷移効果の指示を提供する場合には、ビデオ要約形成ステップ530は、特定された遷移効果に従って、抽出されたビデオフレームを修正する。こうして、編集されたビデオ要約は、所望の遷移を有することとなる。従って、例えば、黒色へのフェードによるビデオの遷移効果は、ビデオ要約に含まれる、キーとなるビデオの断片の、直近15フレームの間にフェード効果を生ずることを示すデータを読み込むことにより、適用され得る。黒色へのフェードによるビデオの遷移に対応するフレームが、格納されたデジタルビデオシーケンスから抽出されると、ビデオフレームデータは、ゆるやかに黒色へフェードさせるための方式(formula)により、修正され得る。黒色へのフェード効果は、抽出されたフレームが、黒色から、元のビデオデータへと、ゆるやかにフェードする方式により修正される間に、次のキーとなるビデオの断片の最初の15フレームの間で、反転されても良い。
ソフトコピーディスプレイが、音声を伝える一以上のスピーカを含む場合には、音声の遷移効果は、スピーカによる音声の伝達の前に、同様に処理され得る。例えば、無音へのフェードによる音声の遷移効果は、キーとなるビデオの断片に対応する、最後の8000個の音声サンプルの間に生ずることを示すデータを読み込むことにより、適用され得る。無音へのフェードの遷移に対応する音声サンプルが、格納されたデジタルビデオシーケンスから抽出されると、音声サンプルデータは、ゆるやかに無音へフェードさせるための方式により、修正され得る。無音へのフェード効果は、抽出された音声サンプルが、無音から、元の音声データへと、ゆるやかにフェードする方式により修正される間に、次のキーとなるビデオの断片に対応する最初の8000音声サンプルの間で、反転されても良い。
本発明によりビデオ要約を形成するいくつかの方法において、ビデオ要約に含まれるビデオフレーム又は音声サンプルに対応するビデオ要約メタデータ、及び、ビデオ又は音声の遷移効果は、格納されたデジタルビデオシーケンスを含む、デジタルビデオファイルに格納される。さらに、本発明によりビデオ要約を表示するいくつかのシステムにおいて、かかるビデオ要約メタデータは、ビデオ要約に対応する何れのビデオフレームや音声サンプルが、格納されたデジタルビデオシーケンスから抽出される必要があるのかについての指示と、ビデオをディスプレイ上に表示し、音声をスピーカに伝達する前に、どのビデオ及び音声の遷移効果が適用されるべきかを表す指示とを提供するために、読み込まれる。かかる方法及びシステムは、ビデオ要約が、そのビデオ要約に対応する、追加の個別のビデオファイルを格納することなく、指示され、表示される点で、有利である。
いくつかの実施形態において、ビデオディスプレイ装置は、ユーザに、元のビデオか、ビデオ要約を閲覧する選択肢を提供することができる。例えば、元のビデオシーケンス又はビデオ要約を再生するためのデジタルビデオカメラ(camcorder)に、別個の再生ボタンが、提供されてもよい。いくつかの実施形態において、ビデオ要約は、「早送り」ボタンを有効化することに応じて、再生されてもよい。これは、ビデオ要約が、速いペースでビデオシーケンスを進める、ビデオシーケンスの中のフレームの時間サンプリングを単に提供する従来の早送りのアプローチとは異なる、代わりの方法を表す事実を反映する。ビデオ要約の再生は、ユーザが、閲覧を望むビデオシーケンスの所望の箇所を特定するための、より便利な手段となり得る。
図5について説明されるビデオ再生システムは、格納されたデジタルビデオシーケンスからビデオ要約メタデータを抽出し、そのビデオ要約メタデータを、デジタルビデオシーケンスのビデオ要約版を表示する方法を理解することのできる、「スマートな」ビデオプレーヤである。かかる「スマートな」ビデオプレーヤは、閲覧者に、完全なデジタルビデオシーケンス又はビデオ要約版の何れかを閲覧する選択を提供することができる。標準的なビデオプレーヤは、ビデオ要約に関連付けられたビデオ要約メタデータを認識することができないであろう。しかしながら、標準的なビデオプレーヤは、元の、格納されたデジタルビデオシーケンスを読み込み、表示することができる。このような場合に、格納されたデジタルビデオシーケンスに含まれるメタデータは、単に無視され、完全なデジタルビデオシーケンスが再生される。
図1と図2を再び参照すると、本発明の別の実施形態は、デジタルビデオシーケンスを取り込み、対応するビデオ要約を生成する、デジタルビデオ取込システム(デジタルカメラ10)である。該デジタルビデオ取込システムは:ビデオフレームを取り込むイメージセンサ14と;景色をイメージセンサへ撮像するための光学システム(調整可能な開口部と調整可能なシャッター6を有するレンズ4)と;ビデオ要約を形成し、プロセッサが読み取り可能なメモリに、そのビデオ要約の表現を格納するためのプロセッサ20と;デジタルビデオシーケンスを閲覧するためのイメージディスプレイ32と;ユーザコントロール34のような、ソフトコピーディスプレイ上に、格納されたデジタルビデオシーケンスを閲覧するか、あるいは格納されたビデオ要約の表現を閲覧するかの選択をユーザに提供するための手段と;を有する。デジタルビデオ取込システムは、例えば、デジタルビデオカメラ又は静止取り込みモード及びビデオ取り込みモードの両方を有するデジタルカメラであってもよい。デジタルビデオ取込システムは、さらに、ウェブカメラを有するラップトップ又はデスクトップコンピュータのような、他の形式をとってもよい。
デジタルビデオ取込システムのプロセッサ20は、図2に示された方法のステップを実行するソフトウェアとともに提供される。より具体的には、ユーザ命令に応じて、プロセッサ20は、複数のビデオフレームを含むデジタルビデオシーケンスを取り込む、デジタルビデオシーケンス取込ステップ210を開始することができる。プロセッサ20は、特徴量決定ステップ220を用いて、一以上の特徴量を決定するため、デジタルビデオシーケンスが取り込まれたとき、デジタルビデオシーケンスのビデオフレームの少なくとも一のサブセットを自動的に分析する。プロセッサ20は、次に、デジタルビデオシーケンス圧縮ステップ230を適用することにより、デジタルビデオシーケンスを圧縮する。そして、圧縮済デジタルビデオシーケンス格納ステップ240を適用することにより、得られた圧縮済デジタルビデオシーケンスが、プロセッサがアクセス可能なメモリに格納される。プロセッサ20は、次に、キーとなるビデオの断片特定ステップ250を適用して、格納された圧縮済デジタルビデオシーケンスを展開することなく、特徴量を自動的に分析する。これによって、一以上のキーとなるビデオの断片が特定する。キーとなるビデオの断片のそれぞれは、デジタルビデオシーケンスのビデオフレームの一組に対応する。最終的に、プロセッサ20は、ビデオ要約形成ステップ260を適用し、ビデオ要約を形成するために、キーとなるビデオの断片を集める。そして、ビデオ要約の表現格納ステップ270を用いて、プロセッサがアクセス可能なメモリに、そのビデオ要約の表現を格納する。
デジタルビデオ取込システムのプロセッサ20は、さらに、デジタルビデオシーケンスが取り込まれたとき、デジタルビデオシーケンスの少なくとも一の音声サンプルを自動的に分析し、一以上の特徴量を決定するステップを実行することができる。
デジタルビデオ取込システムのプロセッサ20は、さらに、決定された特徴量を、格納された圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして、プロセッサがアクセス可能なメモリに格納するステップを実行することができる。
デジタルビデオ取込システムのプロセッサ20は、さらに、決定された特徴量を、格納された圧縮済デジタルビデオシーケンスと関連付けられた別個のファイルとして、プロセッサがアクセス可能なメモリに格納するステップを実行することができる。
デジタルビデオ取込システムのプロセッサ20は、さらに、一以上のキーとなるビデオの断片を特定するために、特徴量とともにユーザ入力を自動的に分析することができる。そのユーザ入力は、ユーザコントロール34に由来し、ビデオ要約の長さ、ビデオ要約に含まれる、キーとなるビデオの断片の最小の長さ、及び、ビデオ要約に含まれる、キーとなるビデオの断片の数に関する制限を含むことができる。
デジタルビデオ取込システムのプロセッサ20は、さらに、ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納するステップをさらに実行することができる。ここで、そのビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供するメタデータが生成され、格納された、圧縮済デジタルビデオシーケンスと関連付けられて保管される。
ユーザは、デジタルビデオ取込システム上のユーザコントロール34を有効化し、ソフトコピーのイメージディスプレイ32上又は外部のビデオディスプレイ46上の、ビデオ要約を閲覧することができる。ビデオ要約が、当該ビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供するメタデータとして格納されている場合、当該ビデオ要約は、図5において説明されるように、抽出され、表示される。特に、デジタルビデオ取込システムは、さらに、「スマートな」ビデオプレーヤの役割を実行することができ、メタデータに基づいて、適切なビデオ及び音声データを抽出することができる。
いくつかの実施形態において、ユーザインタフェースは、ユーザが、ビデオ要約をレビューし、受け入れ可能であるかどうかを決定できるように、提供され得る。ユーザが、ビデオ要約が望ましいものでないと決定した場合には、デジタルビデオ取込システムは、ユーザコントロール34を通じて、ユーザに、ユーザによって調整されるユーザ設定を用いたビデオ要約を要求する選択を提供する。かかる(調整される)ユーザ設定は、例えば、ビデオ要約の長さ、ビデオ要約の中のキーとなるビデオの断片の最小長、又はビデオ要約に含まれるキーとなるビデオの断片の数を含んでもよい。いくつかの実施形態において、システムは、キーとなるビデオの断片特定ステップ250の、異なる設定又は異なるバリエーションを用いて、一連のビデオ要約の選択を自動的に形成することができる。従って、ユーザは、複数のビデオ要約のバージョンから効果的に選択することができる。そうして、満足のいかないビデオ要約が生成される可能性を低減し、機能の全体的な成果を増大させる。
説明されたデジタルビデオ取込システムは、一連のビデオ要約が、格納された圧縮済デジタルビデオシーケンスを展開する必要なく、また、ビデオ要約を新たなファイルとしてエンコードする必要なく、迅速に生成され、レビューされる点において、有利である。
個別のビデオ要約ファイルを用いてビデオ要約を格納することは、ビデオ要約が、ネットワークにわたって共有される場合か、又は、圧縮済のデジタルビデオシーケンスに含まれるメタデータを解釈することができ、そのビデオ要約を抽出することができる、「スマートな」ビデオディスプレイを備えていない装置と共有される場合に、望ましい。このような場合には、デジタルビデオ取込システムのプロセッサ20により生成される、格納されたデジタルビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットで格納されるデジタルビデオファイルであってもよい。いくつかの実施形態において、ビデオ要約は、別個のビデオ要約ファイルとして、常に格納される。代わりに、ユーザコントロール34は、ユーザが、ビデオ要約を格納する好ましい方法を選択できるように、提供されてもよい。いくつかの実施形態において、ビデオ要約は、ユーザがユーザインタフェース上の「共有」ボタンを開始したことに応じて、別個のビデオ要約ファイルとして格納されてもよい。
デジタルビデオ取込システムが別個のファイルとしてビデオ要約を格納する実施形態において、プロセッサ20は、さらに、ビデオ要約の表現を、プロセッサがアクセス可能なメモリに、デジタルビデオファイルとして格納するステップを実行することができる。この場合には、プロセッサ20は、そのビデオ要約に対応する、格納された圧縮済デジタルビデオシーケンスの少なくとも一部を展開し、次に、抽出されたビデオフレームを圧縮して、圧縮済ビデオ要約を形成するためのソフトウェアとともに提供される。ここで、圧縮済ビデオ要約は、プロセッサがアクセス可能なメモリに格納され得る。さらに、デジタルビデオ取込システムのプロセッサ20は、格納された圧縮済デジタルビデオシーケンスの少なくとも一部を展開し、ビデオ要約に対応する音声サンプルを抽出し、抽出された音声サンプルを圧縮し、圧縮され抽出された音声サンプルを、圧縮済ビデオ要約に含めるステップを実行することができる。
コンピュータネットワークを通じてビデオファイルを共有することは、共有の前に、空間若しくは時間解像度又は元のビデオシーケンスを小さくすることにより、容易になる。デジタルビデオ取込システムのプロセッサ20は、さらに、抽出されたビデオフレームをリサンプリングし、異なる空間又は時間解像度で、抽出されたビデオフレームを生成することができる。本発明は、より低い解像度のビデオ要約が、元の圧縮済デジタルビデオシーケンス全体を展開することなく、形成され得る点で、有利である。ビデオ要約の生成に関連する圧縮済デジタルビデオデータのみが、展開される必要がある。これにより、元の圧縮済デジタルビデオシーケンスからビデオ要約への変換が、より高速になる。
圧縮済デジタルビデオシーケンスのサイズを削減するために用いられる圧縮の積極性を増加させることにより、ネットワークを通じたビデオファイルの共有は、さらに容易になる。デジタルビデオ取込システムのプロセッサ20は、より圧縮されたビデオ要約を生成するために、格納された圧縮済デジタルビデオシーケンスより、さらに積極的な圧縮設定により、抽出されたビデオフレームを圧縮することができる。本発明は、より圧縮されたビデオ要約ファイルが、元の圧縮済デジタルビデオシーケンスを展開することなく、形成され得る点で、有利である。
デジタルビデオ取込システムのイメージセンサ14、光学システム(レンズ4)、プロセッサ20及びソフトコピーディスプレイ(イメージディスプレイ32)は、全て、デジタルビデオカメラの部品であってもよい。また、デジタルビデオカメラのユーザインタフェースコントロールは、ユーザに、デジタルビデオカメラのソフトコピーディスプレイで、格納された圧縮済デジタルビデオシーケンス又は格納された圧縮済ビデオ要約の何れを閲覧するか選択させることができる。かかるフレームワークにおいて、ユーザは、デジタルビデオカメラ上で、ビデオを取り込み、すぐにビデオ要約版を閲覧し、望む場合には修正を要求し、ビデオ要約を共有するために選択することができる。それによって、別個のビデオ要約ファイルが生成され、共有される。
デジタルビデオカメラは、外部のソフトコピーディスプレイへ接続され、ユーザは、格納された圧縮済デジタルビデオシーケンスか、格納されたビデオ要約を、その外部のソフトコピーディスプレイで閲覧することができる。
ソフトコピーディスプレイは、格納されたデジタルビデオシーケンス及び格納されたビデオ要約にアクセス可能な、独立したビデオ閲覧システムの部品であってもよい。デジタルカメラのユーザインタフェースコントロールは、ユーザに、そのソフトコピーディスプレイで、格納された圧縮済デジタルビデオシーケンス又は格納されたビデオ要約の何れを閲覧するか選択させることができる。
デジタルビデオ取込システムのプロセッサ20は、ビデオ要約を形成するとき、複数のキーとなるビデオの断片の間に適用される、ビデオの遷移効果をさらに提供することができる。ビデオの遷移効果の結果は、表示時に計算され得る。これは、格納された圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして格納されるビデオ要約に対して、特に有利である。
本発明のいくつかの実施形態において、デジタルビデオ取込システムのプロセッサ20は、キーとなるビデオの断片を分析することにより、複数の利用可能な遷移効果の中から、ビデオの遷移効果を自動的に選択する。白色へのフェードによる遷移は、いくつかのビデオコンテンツにおいて好ましい一方で、黒色へのフェードは、他のビデオコンテンツにおいて好ましい。また、追加の異なるビデオの遷移は、さらに他のビデオコンテンツに対して好ましい。キーとなるビデオの断片の自動的な分析は、何れのビデオの遷移効果が、2つのキーとなるビデオの断片の間の、最適な視覚結果を提供するかを示す情報を提供することができる。
音声の遷移効果は、同様の方法によって取り扱われ得る。デジタルビデオ取込システムのプロセッサ20は、ビデオ要約を形成するとき、複数のキーとなるビデオの断片の間に適用される、音声の遷移効果をさらに提供することができる。音声の遷移効果の結果は、表示時に計算され得る。
本発明によるデジタルビデオ取込システムの別の実施形態において、プロセッサ20は、キーとなるビデオの断片特定ステップ250のバリエーションを適用する。かかるバリエーションは、キーとなるビデオの断片を特定するために、特徴量とともに、格納された圧縮済デジタルビデオシーケンスに含まれる情報を、自動的に分析する段階を含む。かかる実施形態において、ビデオ要約を含む、キーとなるビデオの断片を決定するとき、利用可能な追加の情報と引き換えに、速度を犠牲にする。多くの場合、プロセッサ20は、取り込み時に、所望の特徴量の全てを計算するために必要な計算周期(cycle)を有していない可能性がある。かかる場合には、格納された圧縮済デジタルビデオシーケンスは、部分的に展開され、キーとなるビデオの断片の計算に用いられる情報を抽出することができる。例えば、本発明のいくつかの実施形態において、格納された圧縮済デジタルビデオシーケンスに含まれる音声情報が、抽出され得る。さらに、本発明のいくつかの実施形態において、格納された圧縮済デジタルビデオシーケンスに含まれるビデオ情報もまた、抽出され得る。
本発明により可能となった別の機能は、手動トリミング(assisted manual trim)補助機能である。多くのデジタルビデオ取込装置は、手動トリミングの編集機能を提供する。ユーザは、取り込まれたビデオをレビューし、ビデオの開始と終了からのトリミングを選択する。本発明を用いて、一のキーとなるビデオの断片を含むビデオ要約が形成され、ビデオ要約の開始点と終了点が、手動トリミング点の示唆として提供される。
取り込み時に特徴量を決定し、決定した特徴量を取り込みの後に使用する処理は、ビデオ要約を形成することに加え、他のアプリケーションに対しても有益で有り得る点に留意する。ビデオの中のキーとなるフレームを決定するために特徴量を使用する段階を含む、他の選択が、本発明の範囲内にあると考えられる。
多くのデジタルビデオシーケンス圧縮アルゴリズムは、ビデオをエンコーディングするとき、画像のグループを使用する。画像のグループは、デコードされるために、独立に符号化されたビデオフレームとともに、少なくとも一の他のビデオフレームからの情報に依存する、追加のビデオフレームを含む。画像のグループの一つの一般的な例は、独立してエンコードされたフレーム(Tフレーム)に続いて、エンコードされた予測フレーム(Pフレーム)を有する。ここで、各Pフレームは、前のフレームから予測される。画像のグループが終了し、新たな画像のグループが、次のTフレームにより開始する。かかる圧縮方式において、Tフレームは、アクセス点を、圧縮済デジタルビデオシーケンスへと提供する。ここで、フレームは、一のTフレームの開始点から抽出され得る。特に、画像のグループ全体は、圧縮済デジタルビデオシーケンスから抽出され、画像のグループを含む圧縮済バイトの位置及び数を示すヘッダ情報のデコードのみを要求する、ビデオ要約へと変換され得る。従って、キーとなるビデオの断片の開始フレームが、画像のグループを開始するTフレームであり、かつ、好ましくは、キーとなるビデオの断片が画像のグループの正確な数を含むという制約を課すことは、ビデオ要約を形成するときに、有利である。かかる制約は、元の圧縮済デジタルビデオシーケンスの最小限の展開による、別個のビデオ要約ファイルの生成を可能にする。
コンピュータプログラム製品は、例えば、磁気ディスク(フロッピーディスクのような)若しくは磁気テープのような磁気記憶媒体;光学ディスク、光学テープ若しくは機械読み取り可能なバーコードのような光学記憶媒体;ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)のような固体(solid-state)電子記憶装置;本発明による方法を実行するために一以上のコンピュータを制御する命令を有するコンピュータプログラムを格納するよう用いられる他の物理装置若しくは媒体;のような、一以上の記憶媒体を含んでもよい。
2 フラッシュ
4 レンズ
6 調整可能な開口部及び調整可能なシャッター
8 ズーム・フォーカスモータドライブ
10 デジタルカメラ
12 タイミングジェネレータ
14 イメージセンサ
16 ASP及びA/Dコンバータ
18 バッファメモリ
20 プロセッサ
22 オーディオコーデック
24 マイク
25 圧力センサ
26 スピーカ
27 加速度計
28 ファームウェアメモリ
30 イメージメモリ
32 イメージディスプレイ
34 ユーザコントロール
36 ディスプレイメモリ
38 有線インタフェース
40 コンピュータ
42 チルトセンサ
44 ビデオインタフェース
46 ビデオディスプレイ
48 インタフェース/充電器
50 無線モデム
52 無線周波数帯
58 無線ネットワーク
70 インターネット
72 写真サービスプロバイダ

Claims (17)

  1. デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって:
    前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と;
    一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と;
    前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と;
    圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と;
    圧縮された前記デジタルビデオシーケンスを格納した後に、該デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と;
    前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と;
    前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と;
    を有する、方法。
  2. 前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の音声サンプルを自動的に分析し、一以上の特徴量を決定する段階
    をさらに含む、請求項1に記載の方法。
  3. 前記デジタルビデオが取り込まれたとき、プロセッサを用いて、少なくとも一の前記デジタルビデオ取込装置の設定を自動的に分析し、一以上の特徴量を決定する段階
    をさらに含む、請求項1に記載の方法。
  4. 前記デジタルビデオが取り込まれたとき、プロセッサを用いて、加速度計により生成されたデータを自動的に分析し、一以上の特徴量を決定する段階
    をさらに含む、請求項1に記載の方法。
  5. 決定された前記特徴量は、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられたメタデータとして、プロセッサがアクセス可能なメモリに格納される、
    請求項1に記載の方法。
  6. 決定された前記特徴量は、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられた、別個のファイルとして、プロセッサがアクセス可能なメモリに格納される、
    請求項1に記載の方法。
  7. 前記特徴量を自動的に分析する段階は、一以上のキーとなるビデオの断片を、ユーザ入力に応じて特定する段階をさらに含む、
    請求項1に記載の方法。
  8. 前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階は、さらに:
    圧縮され、格納された前記デジタルビデオシーケンスの少なくとも一部を展開し、前記ビデオ要約に対応するビデオフレームを抽出する段階と;
    抽出された前記ビデオフレームを圧縮し、圧縮されたビデオ要約を形成する段階と;
    前記圧縮されたビデオ要約を、プロセッサがアクセス可能なメモリに格納する段階と;
    をさらに含む、請求項1に記載の方法。
  9. 前記ビデオ要約に対応する音声サンプルを抽出する段階と;
    抽出された前記音声サンプルを、前記圧縮されたビデオ要約に含める段階と;
    をさらに含む、請求項8に記載の方法。
  10. 異なる空間解像度で、抽出されたビデオフレームを生成するために、抽出された前記ビデオフレームがリサンプリングされる、
    請求項8に記載の方法。
  11. 格納される前記ビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットの、デジタルビデオファイルである、
    請求項1に記載の方法。
  12. 前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階は、
    前記ビデオ要約に対応する前記デジタルビデオシーケンスの前記ビデオフレームの指示を提供するメタデータを生成する段階
    をさらに含み、
    前記メタデータは、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられて格納される、
    請求項1に記載の方法。
  13. デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって:
    前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と;
    一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と;
    前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と;
    圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と;
    圧縮された前記デジタルビデオシーケンスを格納した後に、プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれる追加の情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記ビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と;
    前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と;
    前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と;
    を有する、方法。
  14. プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれる音声情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定し、
    前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、
    請求項13に記載の方法。
  15. プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれるビデオ情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する、
    請求項13に記載の方法。
  16. デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって:
    a)前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と;
    b)一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と;
    c)前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と;
    d)圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と;
    e)圧縮された前記デジタルビデオシーケンスを格納した後に、圧縮され、格納された前記デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記ビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と;
    f)前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と;
    g)ユーザに、前記ビデオ要約をプレビューさせる段階と;
    h)前記ユーザから調整されたユーザ設定を受信する段階と;
    i)圧縮され、格納された前記デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、前記調整されたユーザ設定に応じて、一以上の更新されたキーとなるビデオの断片を特定する段階であって、前記更新されたキーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と;
    j)前記更新されたキーとなるビデオの断片を集め、更新されたビデオ要約を形成する段階と;
    k)前記更新されたビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と;
    を含む、方法。
  17. 前記g)乃至j)の段階は、前記ユーザが、プレビューされたビデオ要約に満足するまで繰り返される、
    請求項16に記載の方法。
JP2013512120A 2010-05-25 2011-05-23 ビデオの要約方法 Active JP5568178B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/786,483 US8432965B2 (en) 2010-05-25 2010-05-25 Efficient method for assembling key video snippets to form a video summary
US12/786,483 2010-05-25
PCT/US2011/037530 WO2011149825A1 (en) 2010-05-25 2011-05-23 Video summary method

Publications (3)

Publication Number Publication Date
JP2013533666A JP2013533666A (ja) 2013-08-22
JP2013533666A5 JP2013533666A5 (ja) 2014-05-15
JP5568178B2 true JP5568178B2 (ja) 2014-08-06

Family

ID=44280684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013512120A Active JP5568178B2 (ja) 2010-05-25 2011-05-23 ビデオの要約方法

Country Status (5)

Country Link
US (1) US8432965B2 (ja)
EP (1) EP2577662A1 (ja)
JP (1) JP5568178B2 (ja)
CN (1) CN102906816B (ja)
WO (1) WO2011149825A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9520156B2 (en) * 2010-08-31 2016-12-13 Excalibur Ip, Llc Content preview generation
US9848158B2 (en) * 2011-05-04 2017-12-19 Monument Peak Ventures, Llc Digital camera user interface for video trimming
US9241101B2 (en) 2011-05-04 2016-01-19 Intellectual Ventures Fund 83 Llc Digital camera user interface for text entry
US8643746B2 (en) 2011-05-18 2014-02-04 Intellectual Ventures Fund 83 Llc Video summary including a particular person
US8665345B2 (en) 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
US8442265B1 (en) * 2011-10-19 2013-05-14 Facebook Inc. Image selection from captured video sequence based on social components
US8959022B2 (en) * 2012-07-03 2015-02-17 Motorola Solutions, Inc. System for media correlation based on latent evidences of audio
US8989503B2 (en) 2012-08-03 2015-03-24 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
US9076043B2 (en) 2012-08-03 2015-07-07 Kodak Alaris Inc. Video summarization using group sparsity analysis
US8913835B2 (en) 2012-08-03 2014-12-16 Kodak Alaris Inc. Identifying key frames using group sparsity analysis
AU2015206198B2 (en) * 2014-01-20 2017-06-29 H4 Engineering, Inc. Neural network for video editing
CN105530554B (zh) * 2014-10-23 2020-08-07 南京中兴新软件有限责任公司 一种视频摘要生成方法及装置
US9479694B2 (en) * 2014-10-28 2016-10-25 Google Inc. Systems and methods for autonomously generating photo summaries
TWI554090B (zh) 2014-12-29 2016-10-11 財團法人工業技術研究院 產生多媒體影音摘要的系統與方法
CN107810531B (zh) * 2015-04-29 2020-11-27 通腾科技股份有限公司 数据处理***
US10090020B1 (en) * 2015-06-30 2018-10-02 Amazon Technologies, Inc. Content summarization
CN105100776B (zh) * 2015-08-24 2017-03-15 深圳凯澳斯科技有限公司 一种立体视频截图方法及装置
US20170148488A1 (en) * 2015-11-20 2017-05-25 Mediatek Inc. Video data processing system and associated method for analyzing and summarizing recorded video data
KR102592904B1 (ko) * 2016-02-19 2023-10-23 삼성전자주식회사 영상 요약 장치 및 방법
US20170323342A1 (en) * 2016-05-04 2017-11-09 International Business Machines Corporation Advertisement management based on mobile resource performance
US11042754B2 (en) * 2017-05-05 2021-06-22 Google Llc Summarizing video content
US10845956B2 (en) 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
CN107920253B (zh) * 2017-10-31 2020-08-18 北京赛思信安技术股份有限公司 一种基于gpu的视频处理方法
CN108133025B (zh) * 2017-12-28 2020-12-08 和芯星通(上海)科技有限公司 传感器数据的批处理方法及装置、电子设备及存储介质
US10679069B2 (en) 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
CN108648195B (zh) * 2018-05-09 2022-06-28 联想(北京)有限公司 一种图像处理方法及装置
CN112052841B (zh) * 2020-10-12 2021-06-29 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971065A (en) 1975-03-05 1976-07-20 Eastman Kodak Company Color imaging array
US4642678A (en) 1984-09-10 1987-02-10 Eastman Kodak Company Signal processing method and apparatus for producing interpolated chrominance values in a sampled color image signal
US4774574A (en) 1987-06-02 1988-09-27 Eastman Kodak Company Adaptive block transform image coding method and apparatus
US5189511A (en) 1990-03-19 1993-02-23 Eastman Kodak Company Method and apparatus for improving the color rendition of hardcopy images from electronic cameras
AU7106294A (en) * 1993-06-16 1995-01-03 Abraham, Carmela R System and method for transmitting video material
US5493335A (en) 1993-06-30 1996-02-20 Eastman Kodak Company Single sensor color camera with user selectable image record size
US5668597A (en) 1994-12-30 1997-09-16 Eastman Kodak Company Electronic camera with rapid automatic focus of an image upon a progressive scan image sensor
US5828406A (en) 1994-12-30 1998-10-27 Eastman Kodak Company Electronic camera having a processor for mapping image pixel signals into color display pixels
JP3472659B2 (ja) 1995-02-20 2003-12-02 株式会社日立製作所 映像供給方法および映像供給システム
US5652621A (en) 1996-02-23 1997-07-29 Eastman Kodak Company Adaptive color plane interpolation in single sensor color electronic camera
US6956573B1 (en) * 1996-11-15 2005-10-18 Sarnoff Corporation Method and apparatus for efficiently representing storing and accessing video information
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6591058B1 (en) * 1997-12-23 2003-07-08 Intel Corporation Time shifting by concurrently recording and playing a data stream
TW501022B (en) * 1998-03-16 2002-09-01 Mitsubishi Electric Corp Moving picture coding system
US6192162B1 (en) 1998-08-17 2001-02-20 Eastman Kodak Company Edge enhancing colored digital images
US6833865B1 (en) 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
US6625325B2 (en) 1998-12-16 2003-09-23 Eastman Kodak Company Noise cleaning and interpolating sparsely populated color digital image using a variable noise cleaning kernel
US6462754B1 (en) 1999-02-22 2002-10-08 Siemens Corporate Research, Inc. Method and apparatus for authoring and linking video documents
WO2001041451A1 (en) 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
AUPQ535200A0 (en) 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US7055168B1 (en) 2000-05-03 2006-05-30 Sharp Laboratories Of America, Inc. Method for interpreting and executing user preferences of audiovisual information
US20040125877A1 (en) 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
GB0029880D0 (en) 2000-12-07 2001-01-24 Sony Uk Ltd Video and audio information processing
US7203620B2 (en) * 2001-07-03 2007-04-10 Sharp Laboratories Of America, Inc. Summarization of video content
US20030043292A1 (en) * 2001-08-31 2003-03-06 Pyle Norman C. System and method for automatic capture of light producing scenes
KR20030026529A (ko) * 2001-09-26 2003-04-03 엘지전자 주식회사 키프레임 기반 비디오 요약 시스템
US7035435B2 (en) 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
AU2003249663A1 (en) 2002-05-28 2003-12-12 Yesvideo, Inc. Summarization of a visual recording
CA2443365C (en) 2002-11-19 2010-01-12 F. Hoffmann-La Roche Ag Methods for the recombinant production of antifusogenic peptides
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
CN100452871C (zh) * 2004-10-12 2009-01-14 国际商业机器公司 视频监视***的视频分析、存档和报警方法和设备
US20060103736A1 (en) * 2004-11-12 2006-05-18 Pere Obrador Sequential processing of video data
JP4849818B2 (ja) 2005-04-14 2012-01-11 イーストマン コダック カンパニー ホワイトバランス調整装置及び色識別装置
JP4453603B2 (ja) * 2005-05-23 2010-04-21 カシオ計算機株式会社 ダイジェスト作成装置およびダイジェスト作成処理のプログラム
WO2007073347A1 (en) * 2005-12-19 2007-06-28 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
US7889794B2 (en) 2006-02-03 2011-02-15 Eastman Kodak Company Extracting key frame candidates from video clip
US8031775B2 (en) 2006-02-03 2011-10-04 Eastman Kodak Company Analyzing camera captured video for key frames
US20070226624A1 (en) * 2006-02-23 2007-09-27 Peker Kadir A Content-based video summarization using spectral clustering
US20070237225A1 (en) 2006-03-30 2007-10-11 Eastman Kodak Company Method for enabling preview of video files
CN101427250B (zh) * 2006-04-20 2012-07-04 Nxp股份有限公司 对数据流创建摘要的数据摘要***和方法
JP2009536490A (ja) * 2006-05-05 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザの関連フィードバックによりビデオのサマリを更新する方法
EP2063635A4 (en) 2006-09-12 2009-12-09 Panasonic Corp CONTENT IMAGE FORMATION DEVICE
US20080155627A1 (en) * 2006-12-04 2008-06-26 O'connor Daniel Systems and methods of searching for and presenting video and audio
US7907789B2 (en) * 2007-01-05 2011-03-15 Freescale Semiconductor, Inc. Reduction of block effects in spatially re-sampled image information for block-based image coding
US8503523B2 (en) 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US8108398B2 (en) * 2007-06-29 2012-01-31 Microsoft Corporation Auto-summary generator and filter
WO2009066213A1 (en) * 2007-11-22 2009-05-28 Koninklijke Philips Electronics N.V. Method of generating a video summary
JP4737228B2 (ja) * 2008-05-07 2011-07-27 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP4620150B2 (ja) 2008-10-23 2011-01-26 株式会社東芝 電子機器および映像処理方法
US8446490B2 (en) 2010-05-25 2013-05-21 Intellectual Ventures Fund 83 Llc Video capture system producing a video summary

Also Published As

Publication number Publication date
US8432965B2 (en) 2013-04-30
CN102906816B (zh) 2015-09-09
EP2577662A1 (en) 2013-04-10
CN102906816A (zh) 2013-01-30
WO2011149825A1 (en) 2011-12-01
JP2013533666A (ja) 2013-08-22
US20110293018A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
JP5568178B2 (ja) ビデオの要約方法
US9124860B2 (en) Storing a video summary as metadata
US8446490B2 (en) Video capture system producing a video summary
KR101531783B1 (ko) 특정한 사람을 포함하는 비디오 요약본
TWI554096B (zh) 包含興趣特徵之視訊摘要
US20110292288A1 (en) Method for determining key video frames
EP2577506A2 (en) Determining key video snippets using selection criteria
US20110292229A1 (en) Ranking key video frames using camera fixation
US20070297767A1 (en) Image reproducing apparatus and reproducing program creation apparatus
JP5392244B2 (ja) 撮像装置、制御方法およびプログラム
JP6332963B2 (ja) 画像処理装置及び画像処理装置の制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140328

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140328

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140527

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140620

R150 Certificate of patent or registration of utility model

Ref document number: 5568178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250