JP5568178B2

JP5568178B2 - ビデオの要約方法

Info

Publication number: JP5568178B2
Application number: JP2013512120A
Authority: JP
Inventors: ディーヴァー，アアロン
Original assignee: インテレクチュアルベンチャーズファンド８３エルエルシー
Priority date: 2010-05-25
Filing date: 2011-05-23
Publication date: 2014-08-06
Anticipated expiration: 2031-05-23
Also published as: US8432965B2; CN102906816B; EP2577662A1; CN102906816A; WO2011149825A1; JP2013533666A; US20110293018A1

Description

本発明は、デジタルビデオ処理の分野に関し、特に、デジタルビデオ要約を形成する方法に関する。

多くのデジタル式の取込装置（capture device）は、ビデオや静止画像を取り込むことができる。デジタルのビデオコンテンツを管理することは、面倒な仕事である。ビデオは、その最初のフレームのサムネイル画像を用いて、視覚的に表されることが多いが、その内容への十分な見通しを提供することができない。特定のイベントが、得られたビデオに含まれるかどうかを決定するためには、ビデオを丸ごと視聴しなければならないことが多い。ユーザは、長いビデオを丸ごと視聴することなく、その簡易な要約を得られることが好ましい。

デジタルビデオは、さらに、共有の観点から、現実の実際上の問題を呈することがある。多くのデジタル式の取込装置は、秒間３０又は６０フレームで、１９２０ｘ１０８０ピクセルの空間解像度において、ビデオを記録する。圧縮されていても、生成されるデータ量により、比較的短いビデオを共有することも、非現実的となる可能性がある。

ビデオ編集ソフトウェアは、ビデオを、より簡単に共有可能な短いバージョンへと、手動で要約するために用いられる。手動のビデオ編集は、長くて骨の折れる工程となり得る。多くのユーザは、手動の編集に興味を有していない。また、自動のビデオ要約アルゴリズムが、存在する。かかる解決策は、取り込んだビデオを入力として用いて、そのビデオを分析し、ビデオ要約（video summary）を決定する。そのようなアルゴリズムは非常に複雑であり、ビデオ要約を決定するために必要とされる分析を実行する目的で、そのビデオをデコードする必要がある。従って、デジタル式の取込装置上で、取り込んだばかりのビデオに対応するビデオ要約を、すぐに視聴することは不可能である。かかる欠点は、取り込んだビデオの簡易な確認や共有を困難にする。

従って、デジタル式の取込装置において、ビデオ要約を算出するシステム及び方法を提供することが望ましい。特に、デジタル式の取込装置上で、ビデオの取り込みの完了時、最小限の遅延により、ビデオ要約を生成可能な解決策を提供することが望ましい。

本発明は、デジタルビデオ取込（capture）装置を用いて取り込まれるデジタルビデオシーケンス（sequence）のビデオ要約を形成する方法であって：
前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と；
一以上の特徴量（feature value）を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と；
前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と；
圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と；
圧縮された前記デジタルビデオシーケンスを格納した後に、該デジタルビデオシーケンスを展開することなく、プロセッサを用いて、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片（snippet）を特定する段階であって、前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と；
前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と；
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と；
を有する。

かかる発明は、特徴量を決定するための取込時に、ビデオデータを分析することにより、ビデオ要約が生成されるとき、そのビデオデータの展開を不要とする点で、有利である。

かかる発明は、取込が完了した後、格納されたデジタルビデオのシーケンスを展開することなく、特徴量を分析し、一以上のキーとなるビデオの断片を特定する点で、さらに有利である。キーとなるビデオの断片は、ビデオ要約を形成するために、集められる。これにより、ビデオの取り込みが完了したとき、最小限の遅延で、ビデオ要約を、デジタル取込装置上で生成し、閲覧することが可能になる。

いくつかの実施形態において、ビデオ要約は、メタデータを用いて、デジタルビデオファイルにエンコードされる。ここで、ビデオ要約は、別個のファイルとしてエンコードされる必要はない。ビデオ要約のメタデータを理解し、同時に、従来のプレーヤに対して透過的である、「スマートな」ビデオプレーヤを用いて、ビデオ要約を都合よく閲覧できる点で、有利である。

本発明の一実施形態によってビデオ要約を形成するシステムの部品を表すハイレベルな図。本発明の一実施形態によってビデオ要約を生成する方法を表すフロー図。本発明の一実施形態によって、ユーザのフィードバックを利用してビデオ要約を生成する方法を表すフロー図。本発明の一実施形態によって、ビデオ要約がメタデータとして格納される場合に、ビデオ要約を生成する方法を表すフロー図。本発明の一実施形態によってビデオ要約を閲覧する方法を表すフロー図。

以下の詳細な説明において、本発明の好ましい実施形態は、通常、ソフトウェアプログラムとして実現され得るように、説明される。当業者は、そのようなソフトウェアの均等物が、ハードウェアにおいても構成され得ることを、容易に理解するであろう。画像処理アルゴリズム及びシステムはよく知られているため、本説明は、特に、本発明に従うシステム及び方法の一部を形成するか、あるいはそれらとより直接的に協働するアルゴリズム及びシステムを対象とする。本明細書で明確に示されない、かかるアルゴリズム及びシステムの他の態様、並びに、関連する画像信号を生成し、あるいは処理するハードウェア若しくはソフトウェアは、当該技術分野で知られた、かかるシステム、アルゴリズム、部品及び要素から選択され得る。以下の資料において、本発明に従って説明されるシステムを考慮すれば、以下で明確に示されず、示唆されず、あるいは説明されない、本発明の実装に有益なソフトウェアは、従来から存在するものであり、当該技術分野における通常の技術の範囲内である。

さらに、本明細書で用いられるように、本発明の方法を実行するコンピュータプログラムは、コンピュータ読み取り可能な記憶媒体に格納され得る。かかる記憶媒体は、例えば、磁気ディスク（例えば、ハードドライブ又はフロッピーディスク）若しくは磁気テープのような磁気記憶媒体；光学ディスク、光学テープ若しくは機械読み取り可能なバーコードのような光学記憶媒体；ランダムアクセスメモリ（ＲＡＭ）若しくはリードオンリーメモリ（ＲＯＭ）のような、ソリッドステート電子記憶デバイス；又は、本発明による方法を実行するために、一以上のコンピュータを制御する命令を有するコンピュータプログラムを格納するよう用いられる、他の物理デバイス又は媒体を含む。

本発明は、本明細書で説明される実施形態の組み合わせを含む。「特定の実施形態」等への言及は、本発明の少なくとも一の実施形態において存在する特徴に言及する。「一実施形態」又は「特定の実施形態」等への別個の言及は、必ずしも、同一の、一の実施形態又は複数の実施形態に言及するものではない。しかしながら、かかる実施形態は、そのように明示されない限り、あるいは、当業者にとって容易に明らかでない限り、相互に排他的ではない。「方法」又は「複数の方法」等への言及における、単数形又は複数形の使用は、限定するものではない。明示的に言及するか、文脈によって必要とされない限り、本開示において、「又は」の語は、排他的でない意味で用いられる点に留意する。

撮像装置、信号の取込及び信号処理のための関連する回路、並びに、ディスプレイを用いるデジタルカメラは、周知のものであるため、本説明は、特に、本発明による方法及び装置の一部を形成する要素か、又は、それらと、より直接的に協働する要素を対象とする。本明細書で明確に示されない、あるいは、説明されない要素は、当該技術分野で知られる要素から選択される。説明されるべき実施形態のいくつかの態様は、ソフトウェアで提供される。以下の資料において、本発明に従って示され、かつ説明されるシステムを考慮すれば、以下で明確に示されず、示唆されず、あるいは説明されない、本発明の実装に有益なソフトウェアは、従来から存在するものであり、当該技術分野における通常の技術の範囲内である。

デジタルカメラについての以下の説明は、当該技術分野の当業者によく知られている。コストを低減し、特徴を追加し、あるいはカメラの性能を改善するために選択可能な、本実施形態の多くのバリエーションが存在することは明白である。

図１は、本発明によりビデオ画像を取り込むことの可能なデジタルカメラ１０を含む、デジタル写真システムのブロック図である。好ましくは、デジタルカメラ１０は、携帯可能なバッテリ駆動の装置であり、画像を取り込んで確認するとき、ユーザによって容易に握るのに十分小さい。デジタルカメラ１０は、デジタル画像を生成する。デジタル画像は、イメージメモリ３０を用いてデジタル画像ファイルとして格納される。本明細書で用いられるように、「デジタル画像」又は「デジタル画像ファイル」の表現は、デジタル静止画像又はデジタルビデオファイルのような、あらゆるデジタル画像ファイルを表す。

いくつかの実施形態において、デジタルカメラ１０は、モーションビデオ画像及び静止画像の両方を取り込む。他の実施形態において、デジタルカメラ１０は、モーションビデオ画像のみを取り込む、デジタルビデオカメラである。デジタルカメラ１０は、デジタル音楽プレーヤ（例えば、ＭＰ３プレーヤ）、携帯電話、ＧＰＳ受信機又はＰＤＡ（programmable digital assistant）の機能を含む（ただし、これに限定されない）、他の機能を含むことができる。

デジタルカメラ１０は、調整可能な開口部を有するレンズ４と、調整可能なシャッター６を含む。好ましい実施形態において、レンズ４は、ズームレンズであり、ズーム・フォーカスモータドライブ８により、制御される。レンズ４は、情景（図示しない）からの光を、例えば単一チップのカラーＣＣＤ又はＣＭＯＳイメージセンサのような、イメージセンサ１４上へと集める。レンズ４は、イメージセンサ１４上に、情景の画像を形成するための、一つの種類の光学システムである。他の実施形態において、光学システムは、可変焦点又は固定焦点による、単焦点レンズを用いてもよい。

イメージセンサ１４の出力は、アナログ信号プロセッサ（ＡＳＰ）及びアナログデジタル（Ａ／Ｄ）コンバータ１６によってデジタル形式へと変換され、バッファメモリ１８に一時的に格納される。バッファメモリ１８に格納されたイメージデータは、後に、プロセッサ２０により、ファームウェアメモリ２８に格納された、組み込みソフトウェアプログラム（例えば、ファームウェア）を用いて、処理される。いくつかの実施形態において、ソフトウェアプログラムは、リードオンリーメモリ（ＲＯＭ）を用いて、ファームウェアメモリ２８に、恒常的に格納される。他の実施形態において、ファームウェアメモリ２８は、例えば、フラッシュＥＰＲＯＭメモリを用いることにより、変更され得る。かかる実施形態において、外部の装置は、有線インタフェース３８又は無線モデム５０を用いて、ファームウェアメモリ２８に格納されたソフトウェアプログラムを更新することができる。かかる実施形態において、ファームウェアメモリ２８は、イメージセンサの較正データ、ユーザ設定の選択、及び、カメラの電源がオフにされたときに保存されなければならない他のデータを格納するために、用いられ得る。いくつかの実施形態において、プロセッサ２０は、プログラムメモリ（図示しない）を含み、ファームウェアメモリ２８に格納されたソフトウェアプログラムは、プロセッサ２０によって実行される前に、プログラムメモリへとコピーされる。

当然のことながら、プロセッサ２０の機能は、単一のプログラム可能なプロセッサを用いて、提供され得るか、あるいは、一以上のデジタル信号プロセッサ（ＤＳＰ）装置を含む、複数のプログラム可能なプロセッサの使用により、提供され得る。代わりに、プロセッサ２０は、カスタム回路（例えば、特にデジタルカメラでの使用のために設計された、一以上のカスタム集積回路（ＩＣ）による）か、あるいは、プログラム可能なプロセッサとカスタム回路の組み合わせにより、提供され得る。当然のことながら、図１に示される様々な部品のうちのいくつか又は全てと、プロセッサ２０との間のコネクタは、共通のデータバスを用いて構成され得る。例えば、いくつかの実施形態において、プロセッサ２０と、バッファメモリ１８、イメージメモリ３０及びファームウェアメモリ２８との間の接続は、共通のデータバスを用いて構成され得る。

処理された画像は、イメージメモリ３０を用いて、格納される。当然のことながら、イメージメモリ３０は、当業者にとって知られた、いかなるメモリであってもよく、着脱可能なフラッシュメモリカード、内蔵のフラッシュメモリチップ、磁気メモリ又は光学メモリを含む（但し、これに限定されない）。いくつかの実施形態において、イメージメモリ３０は、内蔵のフラッシュメモリチップと、セキュアデジタル（ＳＤ）カードのような、着脱可能なフラッシュメモリカードへの標準インタフェースとの、両方を含むことができる。代わりに、マイクロＳＤカード、コンパクトフラッシュ（ＣＦ）カード、マルチメディアカード（ＭＭＣ）、ｘＤカード又はメモリスティックのような、異なるメモリカード形式が用いられてもよい。

画像センサ１４は、タイミングジェネレータ１２によって制御される。タイミングジェネレータ１２は、列やピクセルを選択し、ＡＳＰ及びＡ／Ｄコンバータ１６の処理を同期させるために、様々なクロック信号を生成する。イメージセンサ１４は、およそ４０００ｘ３０００ピクセルの静止画像ファイルを提供するために、例えば、１２．４メガピクセル（４０８０ｘ３０４０ピクセル）を有する。カラー画像を提供するために、イメージセンサは、一般的に、色フィルタ配列で覆われる。色フィルタ配列は、異なる色の付けられたピクセルを含む、ピクセルの配列を有するイメージセンサを提供する。異なる色のピクセルは、多くの異なるパターンで、配列され得る。一つの例として、異なる色のピクセルは、よく知られたベイヤ（Bayer）のカラーフィルタ配列を用いて、配列され得る。かかるフィルタ配列は、ベイヤによる米国特許３，９７１，０６５号「Color imaging array」に記載されている。かかる開示を、本明細書にて援用する。二つ目の例として、異なる色のピクセルは、コンプトン（Compton）とハミルトン（Hamilton）により、２００７年７月２８日に出願された、米国特許出願公開２００５／１９１７２９（タイトル「Image sensor with improved light sensitivity」）に記載されるように、配列され得る。かかる開示を、本明細書にて援用する。これらの例は、限定するものではなく、多くの他の色パターンが用いられ得る。

当然ながら、イメージセンサ１４、タイミングジェネレータ１２並びにＡＳＰ及びＡ／Ｄコンバータ１６は、個別に製造された集積回路であってもよいし、一般的にＣＭＯＳイメージセンサと共になされるように、単一の集積回路として製造されてもよい。いくつかの実施形態において、かかる単一の集積回路は、図１において、プロセッサ２０で実行されるいくつかの機能を含む、他の機能を実行することができる。

イメージセンサ１４は、タイミングジェネレータ１２により、第一のモードにおいて作動されるとき、低解像度センサの画像データのモーションシーケンスを提供するために、機能する。かかるモーションシーケンスは、ビデオ画像を取り込むときや、画像を構成するために、取り込まれる静止画像をプレビューするときに、利用される。かかるプレビューモードのセンサ画像データは：例えば、１２８０ｘ７２０ピクセルのＨＤ解像度画像データとして；例えば６４０ｘ４８０ピクセルのＶＧＡ解像度画像データとして；あるいは、イメージセンサの解像度に比べて、著しく少ない列と行のデータを有する、他の解像度を用いて；提供される。

プレビューモードのセンサ画像データは、同一色を有する、隣接するピクセルの値を組み合わせるか、いくつかのピクセル値を除去するか、あるいは、いくつかの色のピクセル値を組み合わせ、同時に他の色のピクセル値を除去することにより、提供され得る。プレビューモードの画像データは、パルルスキー（Parulski）らによる、米国特許第６，２９２，２１８号（タイトル「Electronic camera for initiating capture of still images while previewing motion images」）に記載されるように、処理され得る。かかる内容を、本明細書にて援用する。

イメージセンサ１４は、タイミングジェネレータ１２により、第二のモードで作動されるとき、高解像度の静止画像データを提供するために、さらに機能する。かかる最終モードのセンサ画像データは、高解像度の出力画像データとして提供される。その画像データは、照明レベルが高い景色に対して、イメージセンサの全てのピクセルを含み、例えば、４０００ｘ３０００ピクセルを有する、１２メガピクセルの最終画像データとなり得る。照明レベルが低い場合に、最終のセンサ画像データは、信号レベルを増加させるため、すなわち、センサの「ＩＳＯスピード」を増加させるために、イメージセンサ上の同様の色付けされたピクセルのいくつかの数を「ビニング」することによって、提供され得る。

ズーム・フォーカスモータドライバ８は、プロセッサ２０によって供給される制御信号によって制御され、適切な焦点距離設定を提供し、景色に（イメージセンサ１４の上に）焦点を合わせる。イメージセンサ１４の露出レベルは、調整可能な開口部及び調整可能なシャッター６のｆ値と露光時間、タイミングジェネレータ１２を用いたイメージセンサ１４の露光時間、及び、ＡＳＰ・Ａ／Ｄコンバータ１６のゲイン設定（すなわち、ＩＳＯスピード）によって、制御される。プロセッサ２０は、景色を照らすフラッシュ２も制御する。

デジタルカメラ１０のレンズ４は、「スルーザレンズ（through-the-lens）」オートフォーカスを用いることによって、第一のモードにおいて焦点合わせされる。かかるオートフォーカスは、パルルスキー（Parulski）らによる、米国特許第５，６６８，５９７号（タイトル「Electronic Camera with Rapid Automatic Focus of an Image upon a Progressive Scan Image Sensor」）において説明される。かかる内容を、本明細書にて援用する。これは、ズーム・フォーカスモータドライバ８によって達成され、レンズのフォーカス位置を、短焦点位置と無限焦点位置との間の範囲の多数の位置へと調整し、同時に、プロセッサ２０は、イメージセンサ１４によって取り込まれた画像の中央位置の、ピークのシャープネス値を提供する、最も近い（closest）フォーカス位置を決定する。最も近いフォーカス位置に対応するフォーカス距離は、例えば、適切なシーンモードを自動的に設定するような、いくつかの目的のために利用され、画像ファイル内のメタデータとして、他のレンズ設定及びカメラ設定とともに、保管され得る。

プロセッサ２０は、メニューや、ディスプレイメモリ３２に一時的に格納される低解像度のカラー画像を生成する。これらは、イメージディスプレイ３２上に表示される。イメージディスプレイ３２は、典型的には、アクティブマトリクス型の液晶ディスプレイ（ＬＣＤ）であるが、有機発光ダイオード（ＯＬＥＤ）ディスプレイのような、他の種類のディスプレイが用いられてもよい。ビデオインタフェース４４は、デジタルカメラ１０から、フラットパネルＨＤＴＶディスプレイのような、ビデオディスプレイ４６へと、ビデオ出力信号を提供する。プレビューモード、あるいはビデオモードにおいて、バッファメモリ１８のデジタル画像データは、プロセッサ２０によって処理され、イメージディスプレイ３２上に、典型的にはカラー画像として表示される、一連のモーションプレビュー画像を形成する。レビューモードにおいて、イメージディスプレイ３２上に表示される画像は、イメージメモリ３０に格納されたデジタル画像ファイルの画像データを用いて、生成される。

イメージディスプレイ３２上に表示されるグラフィカルユーザインタフェースは、ユーザコントロール３４により提供されるユーザ入力に応じて、操作される。ユーザコントロール３４は、ビデオ取込モード、静止取込モード及びレビューモードのような、様々なカメラモードを選択し、静止画像や動画の取り込みを開始するために使用される。いくつかの実施形態において、上で述べた第一のモード（すなわち、静止プレビューモード）は、ユーザが部分的に、ユーザコントロール３４の一つである、シャッターボタンを押し下げたときに、開始される。そして、第二のモード（すなわち、静止画像取り込みモード）は、ユーザが完全にシャッターボタンを押し下げたときに、開始される。また、ユーザコントロール３４は、カメラの電源の投入、レンズ４の制御及び画像取込処理の開始のために、用いられる。ユーザコントロール３４は、典型的に、ボタン、ロッカースイッチ、ジョイスティック又は回転式のダイヤルの組み合わせを含む。いくつかの実施形態において、いくつかのユーザコントロール３４は、イメージディスプレイ３２上の、タッチスクリーンオーバレイを用いることにより、提供される。他の実施形態において、さらなる状態ディスプレイ又は画像ディスプレイが用いられ得る。

ユーザコントロール３４を用いて選択されることのできるカメラのモードは、「タイマ」モードを含む。「タイマ」モードが選択されると、ユーザが完全にシャッターボタンを押下した後であって、プロセッサ２０が静止画像の取り込みを開始する前に、短い遅延（例えば、１０秒）が生ずる。

プロセッサ２０に接続されるオーディオコーデックは、マイク２４からの音声信号を受信し、音声信号を、スピーカ２６へと提供する。かかる部品は、ビデオシーケンス又は静止画像とともに、オーディオトラックを録音し、再生するために存在する。デジタルカメラ１０が、コンビネーションカメラや携帯電話のような、多機能機器である場合には、マイク２４やスピーカ２６は、通話のために用いられ得る。

いくつかの実施形態において、スピーカ２６は、ユーザインタフェースの一部として用いられ、例えば、ユーザコントロールが押されたことや、特定のモードが選択されたことを表す、様々な可聴の信号を提供する。いくつかの実施形態において、マイク２４、オーディオコーデック２２及びプロセッサ２０は、音声認識を提供するために用いられ得る。そうして、ユーザは、ユーザコントロール３４ではなく、音声コマンドを使用して、プロセッサ２０へユーザ入力を提供することができる。スピーカ２６は、さらに、ユーザに、着信を知らせるために、用いられ得る。これは、ファームウェアメモリ２８に格納された標準の着信音か、あるいは、無線ネットワーク５８からダウンロードされ、イメージメモリ３０に格納された、カスタムの着信音を用いて、なされ得る。さらに、バイブレーション装置（図示しない）が、着信を静かに（例えば、聞こえないように）通知するために、用いられ得る。

いくつかの実施形態では、デジタルカメラ１０は、カメラの移動に関連するデータを提供する加速度計２７をさらに含む。好ましくは、加速度計２７は、（全部で入力の６次元の）３つの直行方向のそれぞれに対する直線加速度及び回転加速度を検出する。

プロセッサ２０は、イメージメモリ３０に、周知のＥｘｉｆ−ＪＰＥＧ画像ファイルのような、「完成した」画像ファイルの中で圧縮され、格納される、表示ｓＲＧＢ画像データを生成するために、イメージセンサ１４から、画像データについての追加の処理を、さらに提供する。

デジタルカメラ１０は、有線インタフェース３８を介して、インタフェース／充電器４８へと接続され得る。インタフェース／充電器４０は、コンピュータ４０へと接続される。コンピュータ４０は、家庭又はオフィスに配置された、デスクトップコンピュータ又はポータブルコンピュータであってもよい。有線インタフェース３８は、例えば、周知のＵＳＢ２．０インタフェース規格に準じてもよい。インタフェース／充電器４８は、有線インタフェース３８を介して、デジタルカメラ１０の、一組の充電可能なバッテリ（図示しない）へと電力を提供することができる。

デジタルカメラ１０は、無線モデム５０を含む。無線モデム５０は、無線ネットワーク５８により、無線周波数帯５２を用いて、相互作用する。無線モデム５０は、周知のＢｌｕｅｔｏｏｔｈ（登録商標）無線インタフェースや、８０２．１１無線インタフェースのような、様々な無線インタフェースプロトコルを用いることができる。コンピュータ４０は、インターネット７０を用いて、画像を、ＫｏｄａｋＥａｓｙＳｈａｒｅＧａｌｌｅｒｙ（登録商標）のような、写真サービスプロバイダ７２へと、アップロードすることができる。他の装置（図示しない）は、写真サービスプロバイダ７２により格納された画像へとアクセスすることができる。

代替となる実施形態において、無線モデム５０は、３ＧＳＭネットワークのような、携帯電話ネットワーク（図示しない）により、電波周波数（例えば、無線）リンクを通じて、通信する。携帯電話ネットワークは、デジタルカメラ１０のデジタル画像ファイルをアップロードするために、インターネット７０と接続する。かかるデジタル画像ファイルは、コンピュータ４０又は写真サービスプロバイダ７２へと提供され得る。

ここで、本発明は、図２を参照して説明される。まず、デジタルカメラ１０のような、デジタルビデオ取込装置は、デジタルビデオシーケンス取込ステップ２１０において、デジタルビデオシーケンスを取り込む。ここで、デジタルビデオシーケンスは、複数のビデオフレームからなる。

特徴量決定ステップ２２０において、デジタルビデオシーケンスが取り込まれたとき、ビデオフレームの少なくとも一のサブセットが分析され、一以上の特徴量を決定するかかる特徴量は、色の特性や、ビデオフレーム内の顔の存在のような、ビデオフレームに関連する、様々な属性を表現することができる。特徴量は、連続したビデオフレーム間の全体的な（global）動きの値（motion value）や、連続するフレームの対応する要素間の局所的な（local）動きの値のような、動きに基づく属性を表現してもよい。全体的な動きの値は、典型的には、取込装置の動きに対応し、同時に、局所的な動きの値は、シーンの中のオブジェクトの動きに言及する。当業者は、前述した特徴は一例に過ぎず、他の特徴量が、ビデオフレームの分析に基づいて決定され得ることを認識することができる。

特徴量決定ステップ２２０は、デジタルビデオシーケンスが取り込まれたときに、マイク２４を通じて録音され、オーディオコーデックにより処理された、少なくとも一の音声サンプルの分析を、さらに含んでもよい。音声特徴量は、時間領域及び特定の周波数レンジの両方についての信号強度のような、属性を含んでもよい。

特徴量決定ステップ２２０は、さらに、デジタルビデオシーケンスが取得時における、デジタルビデオ取込装置設定の分析を含んでもよい。かかる装置設定の特徴値は、ズーム・フォーカスモータドライブ８を制御することにより、ズームレンズ４のズーム位置を調整するための、ユーザコントロール３４の形式のユーザ入力を含む。画像の倍率をさらに高めることのできるデジタルズームは、別の特徴値であってもよい。

特徴量決定ステップ２２０は、デジタルビデオシーケンスの取込時における、加速度計２７の加速度データの分析をさらに含んでもよい。加速度データは、デジタルカメラ１０の移動に関する測定値を提供し、ビデオフレームデータに基づく動きの計算を増補するか、あるいは置換するために用いられ得る。

特徴量決定ステップ２２０は、プロセッサ２０により用いられるビデオエンコーダにより生成されるデータの分析をさらに含んでもよい。かかるデータは、ビデオエンコード処理において用いられる動き予測の一部として生成される、動きベクトル情報を含む。一般の多くのビデオエンコード処理は、一連の通常の処理の一部として、そのような動きベクトル情報を定期的に生成する。

それぞれのビデオフレームに対して、特徴量が決定された後に、デジタルビデオシーケンス圧縮ステップ２３０は、ビデオフレームを圧縮する。ＭＰＥＧ規格やＨ．２６３規格で定められるように、ビデオ圧縮アルゴリズムは、当該技術分野の当業者にとって、周知である。圧縮されたビデオフレームは、ＡｐｐｌｅＱｕｉｃｋＴｉｍｅ（登録商標）のような、コンテナに含められ得る。ＱｕｉｃｋＴｉｍｅは、ビデオファイルのファイルフォーマットのラッパ（wrapper）を提供する。

圧縮済（compressed）デジタルビデオシーケンス格納ステップ２４０は、イメージメモリ３０のような、プロセッサがアクセス可能なメモリに、圧縮されたデジタルビデオシーケンスを格納する。格納された圧縮済デジタルビデオシーケンスは、ビデオ情報及び音声情報を含んでもよい。

本発明の一実施形態において、特徴量決定ステップ２２０で決定される特徴量は、格納された圧縮済デジタルビデオシーケンスに関連付けられた、メタデータとして、保管される。メタデータは、例えば、ＡｐｐｌｅＱｕｉｃｋＴｉｍｅファイルフォーマットの仕様で定義される、ユーザデータのａｔｏｍ内に、保管され得る。

本発明の別の実施形態において、特徴量決定ステップ２２０において決定される特徴量は、格納された、圧縮済デジタルビデオシーケンスと関連付けられた、別個のファイルとして、保管される。

本発明の、さらに別の実施形態において、特徴量決定ステップ２２０において決定される特徴量は、如何なる永続的なメモリにも保管されず、ビデオ要約形成アルゴリズムの完了時に破棄される。

ビデオ取込処理が完了し、圧縮済デジタルビデオシーケンスが格納された後に、キーとなるビデオの断片特定ステップ２５０が実行され、デジタルビデオシーケンスの、キーとなるビデオの断片が特定される。キーとなるビデオの断片特定ステップ２５０は、一以上のキーとなるビデオの断片を特定するために、プロセッサを用いて、格納された、圧縮済デジタルビデオシーケンスを展開することなく、特徴量を自動的に分析する。それぞれのキーとなるビデオの断片は、デジタルビデオシーケンスのビデオフレームの一組に対応する。一般的に、キーとなるビデオの断片を含むビデオフレームは、デジタルビデオシーケンスの中の、連続フレームである。また、キーとなるビデオの断片は、最初のフレーム番号と、最後のフレーム番号又はその断片の長さを表す値とによって、特定され得る。

ビデオに関連付けられた特徴量に基づいて、ビデオから、キーとなるビデオの断片を決定する多くの方法が、当該技術分野において周知である。かかるアプローチのいくつかにおいて、ビデオのキーフレームが最初に特定され、次に、キーとなるビデオの断片が、各ビデオのキーフレームの周りのビデオシーケンスの節を選択することにより、形成される。ルオ（Luo）らによる、米国特許出願公開２００７／０１８３４９７は、デジタルの動き予測技術により計算されるように、ビデオの中の動きの特性に基づいて、ビデオのキーフレームを選択する方法を開示する。かかる内容は、本明細書にて援用される。ルオらによる、米国特許出願公開２００７／０１８２８６１は、ビデオ取込装置と関連付けられた加速度計のデータにより提供されるように、ビデオの中の動きの特性に基づいて、ビデオのキーフレームを選択する方法を開示する。かかる内容も、本明細書にて援用される。かかる方法のいずれかは、本発明に従って、決定された特徴量から、キーとなるビデオの断片を特定するために、用いられ得る。

特徴量が、格納された、圧縮済デジタルビデオシーケンスと関連付けられた、別個のファイルとして保管される実施形態では、キーとなるビデオの断片特定ステップ２５０は、その別個のファイルから特徴量を読み込み、分析にために、その特徴量情報を提供することができる。

同様に、特徴量が、格納された、圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして保管される実施形態では、キーとなるビデオの断片特定ステップ２５０は、格納されたデジタルビデオシーケンスのビデオフレームを展開することなく、格納された圧縮済デジタルビデオシーケンスから、特徴量を抽出することができる。格納された圧縮済デジタルビデオシーケンスから、特徴量のメタデータを抽出することは、格納された圧縮済デジタルビデオシーケンスを展開することとは考えられない点に留意する。むしろ、格納された圧縮済デジタルビデオシーケンスの展開は、圧縮済デジタルビデオシーケンスの一連のビデオフレームを再構築するために用いられる、ビデオデータ又はヘッダデータのような、圧縮済みのビットストリームの中のデータをデコードすることを指す。

本発明の利点は、キーとなるビデオの断片を、格納された圧縮済デジタルビデオシーケンスを展開することなく、決定することができる点にある。これにより、キーとなるビデオの断片を決定でき、取込処理が完了した後に、最小限の遅延で、ビデオ要約を形成できる。既存技術における方法は、格納された圧縮済デジタルビデオシーケンスから、個別のビデオフレームを抽出しており、展開作業を実行するために必要となる時間量に縛られていた。

本発明のいくつかの実施形態において、キーとなるビデオの断片は、デジタルビデオシーケンスの取込時に決定される特徴量の分析に、完全に基づいて、特定される。本発明の他の実施形態において、キーとなるビデオの断片は、特徴量と、格納された圧縮済デジタルビデオシーケンスから抽出された追加野情報の分析に基づいて、特定される。これらの場合には、格納された圧縮済デジタルビデオシーケンスの中のいくつかの情報を、少なくとも部分的に展開する必要がある場合がある。

例えば、本発明の一実施形態において、音声情報は、格納された圧縮済デジタルビデオシーケンスから抽出され、キーとなるビデオの断片を特定するために、特徴量と共に用いられる。音声データは、全体が圧縮済のデジタルビデオファイルのうちの小さな割合を含み、ビデオフレームのピクセルデータの展開と比較して、迅速に抽出され得る。いくつかのシナリオにおいては、取込時の音声の特徴量を生成することができない。プロセッサは、音声の特徴量を決定するために利用可能な計算周期を有しない可能性があるが、他の特徴量を決定し、取り込まれたビデオを処理し、エンコードする。かかる場合において、音声情報は、キーとなるビデオの断片を特定するために、格納された圧縮済デジタルビデオシーケンスから音声情報を抽出することにより、用いられ得る。これは、速度と性能の妥協を表している。音声情報は、キーとなるビデオの断片を特定するために必要とされる、より長い全体の処理時間のコストにおいて、キーとなるビデオの断片特定ステップ２５０の性能を改善するために用いられ得る。

同様に、本発明の別の実施形態において、ビデオフレーム情報が、格納された圧縮済デジタルビデオシーケンスから抽出され、キーとなるビデオの断片を特定するために、特徴量とともに、使用される。全ビデオシーケンスの展開は、取込時に、ビデオに基づく特徴量を決定する大きな利点を取り除く。従って、好ましくは、よくても少量のビデオフレームが、格納された圧縮済デジタルビデオシーケンスからデコードされる。当業者は、個々のフレームが、独立して符号化されたフレームであるとき、効率的に、圧縮済デジタルビデオシーケンスからデコードされ得ることを認識するであろう。ビデオ情報の使用は、スピードと性能の妥協を表している。ビデオ情報は、キーとなるビデオの断片を特定するために必要とされる、より長い全体の処理時間のコストにおいて、キーとなるビデオの断片特定ステップ２５０の性能を改善するために用いられる。

本発明のいくつかの実施形態において、キーとなるビデオの断片特定ステップ２５０は、ユーザコントロール３４からのユーザ入力を利用し、ビデオ要約の様々な属性を制御する。ユーザ入力は、ビデオ要約の長さ、個々のキーとなるビデオの断片の最小の持続時間及びキーとなるビデオの断片の総数（但しこれに限定されない）を特定することを含み得る。

好ましい実施形態において、キーとなるビデオの断片特定ステップ２５０は、
ディーバ（Deever）による、米国特許出願１２／７８６，４７１（タイトル「Method For Determining Key Video Frames」）において説明される方法を用いる。かかる方法は、最初に、デジタルビデオシーケンスを分析し、時間関数として、重要度を決定する。重要度は、全体的な（global）動きと局所的な（local）動きを含む、デジタルビデオシーケンスの特性の関数である。好ましくは、重要度は、特徴量決定ステップ２２０で決定された特徴量を用いて、算出される。重要度は、デジタルビデオシーケンスの、ゆがんだ時間の（warped-time）表現を形成するために、使用される。ゆがんだ時間の表現は、デジタルビデオシーケンスの中のいくつかのビデオフレームに、より大きな時間の重みを与え、他のビデオフレームに、より小さな時間の重みを与える。ゆがんだ時間のデジタルビデオシーケンスの表現は、等しくゆがめられた時間間隔の一組へと分割される。キーとなるビデオフレームは、ゆがめられた時間間隔のそれぞれの中のビデオフレームを分析することにより、ゆがめられた時間間隔のそれぞれから、選択される。好ましくは、ゆがめられた時間間隔のそれぞれに対する、キーとなるビデオフレームは、ゆがめられた時間間隔の中の対応するビデオフレームと関連付けられる、特徴量決定ステップ２２０から決定される特徴量を分析することにより、選択される。そのような基準は、ズームイン処理の完了の直後に生ずる、キーとなるビデオフレームの選択か、又は、ビデオフレームの中央領域における局所的な動きの適度なレベルを有する、キーとなるビデオフレームの選択を含む。

一つの実施形態において、キーとなるビデオの断片は、キーとなるビデオフレームのそれぞれの周囲のビデオフレームの一組を選択することによって、形成される。例えば、キーとなるビデオの断片は、キーとなるビデオフレームの前又は後の、２秒のビデオフレームを選択することにより、形成される。従って、４秒の長さの、キーとなるビデオの断片が形成される。

代わりに、キーとなるビデオフレームがランク付けされ、キーとなるビデオの断片が、最も高くランク付けされた、キーとなるビデオフレームに対応する、キーとなるビデオフレームのサブセットのみに対して、形成されてもよい。キーとなるビデオフレームのランク付けは、カメラの固定パターンを決定するために、デジタルビデオシーケンスを分析し、さらに、カメラの固定パターンに応じて、キーとなるビデオフレームをランク付けすることを含む。好ましくは、特徴量決定ステップ２２０で決定される、全体的な動きに対応する特徴量は、全体的な動きのトレース（形跡）を提供する。トレーは、デジタルビデオシーケンス全体を通じた、カメラの固定領域を示す。高い固定領域に対応するビデオフレーム、すなわち、カメラが、ビデオキャプチャ全体において高い割合で固定された領域は、高くランク付けされる。ランク付けの処理は、反復して実行され、各ステップにおいて、次に最も高くランク付けされたキーとなるビデオフレームを選択する。各ステップにおいて、当該処理は、そのランク付け処理に既に含まれた固定領域を表す、キーとなるビデオフレームより上の、表現されていない固定領域を表す、キーとなるビデオフレームを推進する。キーとなるビデオフレームが一度ランク付けされると、最も高くランク付けされた、キーとなるビデオフレームは、キーとなるビデオの断片の中に含められるよう、選択され得る。

既に述べたように、キーとなるビデオの断片は、キーとなるビデオフレームの夫々の周りの、ビデオフレームの一組を選択することによって、形成され得る。代替的に、キーとなるビデオの断片は、ビデオ要約の総時間や、キーとなるビデオの断片の許容される最小時間のような、設定基準によって形成され得る。キーとなるビデオの断片は、その設定基準を満足するよう選択され、同時に、任意で、さらなる基準に応じるように選択される。例えば、キーとなるビデオの断片は、発話中のセグメントの途中で開始又は終了する可能性を最小化するように、選択され得る。

キーとなるビデオの断片が特定された後、ビデオ要約形成ステップ２６０は、ビデオ要約を形成する。ビデオ要約は、個々のキーとなるビデオの断片を、一つの集まりへと集めることによって、形成される。好ましい実施形態において、キーとなるビデオの断片は、デジタルビデオシーケンスにおける発生の順序に対応する、年代順で集められる。

ビデオ要約の表現（representation）は、ビデオ要約の表現格納ステップ２７０において、プロセッサがアクセス可能なメモリに格納される。本発明の一実施形態において、プロセッサがアクセス可能なメモリの中の、ビデオ要約の表現を格納する段階は、ビデオ要約に対応するデジタルビデオシーケンスの中の、ビデオフレームの指示（indication）を提供する、フレーム特定メタデータを格納する段階を含む。そのフレーム特定メタデータは、格納された圧縮済デジタルビデオシーケンスと関連付けられて、格納され得る。例えば、ビデオ要約の表現は、格納された圧縮済デジタルビデオシーケンスのメタデータとして格納され得る。これは、ビデオ要約に含まれる、キーとなるビデオの断片に対応する、一連の開始フレームと終了フレームを示す。これにより、ビデオ要約の表現は、フレーム特定メタデータの格納を必要とすること以外の、追加の物理的なメモリを使用することなく、格納され得る。

本発明の別の実施形態において、プロセッサがアクセス可能なメモリの中の、ビデオ要約の表現を格納する段階は、特定されたキーとなるビデオの断片に対応する、格納された圧縮済デジタルビデオシーケンスのビデオフレームを抽出する段階と、それらを併合して、そのビデオ要約に対応する、新たな併合されたビデオシーケンスを形成する段階とを含む。いくつかの場合には、圧縮済デジタルビデオシーケンスの一部の展開と、圧縮済ビデオ要約を形成するために併合されたビデオシーケンスの圧縮とが必要となる可能性がある。併合されたビデオシーケンスは、一般に、ビデオデータと、対応する音声データとを含み、これらは、圧縮済デジタルビデオシーケンスから抽出されなければならない。

圧縮済ビデオ要約は、プロセッサがアクセス可能なメモリに格納され得る。かかる実施形態において、圧縮済ビデオ要約は、圧縮済デジタルビデオシーケンスとは別のファイルとして格納される。いくつかの場合には、ビデオ要約の表現は、元の圧縮済デジタルビデオシーケンスとは独立して、閲覧され、あるいは共有され得る、デジタルビデオファイルとなる。好ましい実施形態において、格納される、ビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットの、デジタルビデオファイルである。

本発明のいくつかの実施形態において、ビデオ要約に対応する、抽出済ビデオフレームは、異なる空間解像度で抽出された抽出済ビデオフレームを生成するために、リサンプリングされる。その後、異なる空間解像度で抽出された抽出済ビデオフレームが圧縮され、圧縮済ビデオ要約が形成される。かかるリサンプリングは、高い空間解像度で取り込まれたビデオを共有する場合に、特に有利となり得る。このようにして、圧縮済ビデオ要約は、より少ないビデオフレームを含み、かつ、そのビデオフレームがより低い空間解像度を有することにより、圧縮済デジタルビデオシーケンスより小さくなり得る。より低い空間解像度のビデオ要約が、より高い解像度のビデオフレーム全体を展開することなく、生成され得る。ビデオ要約を生成するために必要なビデオフレームのみが、展開される必要がある。

同様に、ビデオ要約に対応する抽出済ビデオフレームは、異なる空間解像度で抽出済ビデオフレームを生成するために、時間次元でリサンプリングされる。その後に、異なる空間解像度で抽出された抽出済ビデオフレームが圧縮され、圧縮済ビデオ要約が形成される。

図３は、本発明の別の実施形態に対応する。当該実施形態では、ユーザは、形成されたビデオ要約をプレビューし、更新されたビデオ要約が、調整されたユーザ設定を用いて形成されるよう要求することができる。かかる実施形態において、デジタルビデオシーケンス取込ステップ２１０と、特徴量決定ステップ２２０と、デジタルビデオシーケンス圧縮ステップ２３０と、圧縮済デジタルビデオシーケンス格納ステップ２４０と、キーとなるビデオの断片特定ステップ２５０と、ビデオ要約形成ステップ２６０と、ビデオ要約の表現格納ステップ２７０は、既に示した図２に従って、全てが実行される。ビデオ要約形成ステップ２６０により経緯背されるビデオ要約が格納される前に、ユーザは、ビデオ要約プレビューステップ２６２を用いて、ビデオ要約をプレビューすることができる。ユーザは、ユーザ満足度テスト２６４を用いて、最初のビデオ要約による、彼又は彼女の満足を示すよう促される。ユーザがビデオ要約に満足した場合には、処理は、図２に示したように、ビデオ要約の表現格納ステップ２７０へと進む。一方、ユーザがそのビデオ要約に満足しなかった場合、ユーザ設定調整ステップ２６６が用いられ、ユーザは、一以上の設定を調整することができ、新たなビデオ要約を形成させることができる。かかるユーザ設定は、ユーザ制御３４を通じて入力され得る。ユーザ設定は、ビデオ要約の長さ、キーとなるビデオの断片の最小の長さ、あるいは、ビデオ要約に含まれる、キーとなるビデオの断片の数のような、パラメータ設定を含むことができる。ユーザが、ユーザ設定を調整した後、キーとなるビデオの断片特定ステップ２５０と、ビデオ要約形成ステップ２６０が、ユーザ設定に応じて、新たなビデオ要約を形成するために、用いられる。当業者は、ユーザが、ビデオ要約に満足するまで、ビデオ要約をプレビューし、ユーザ設定を複数回更新することができ、対応するビデオ要約を形成する点について、認識するであろう。

図４は、本発明の別の実施形態を表す。当該実施形態は、ビデオ要約が、格納されたデジタルビデオシーケンスと関連付けられたメタデータとして、格納される。デジタルビデオシーケンス取込ステップ４１０は、デジタルビデオシーケンスを、デジタルビデオ取込装置を用いて取り込む。ここで、デジタルビデオシーケンスは、複数のビデオフレームを含む。デジタルビデオシーケンス取込ステップ４２０は、プロセッサがアクセス可能なメモリに、デジタルビデオシーケンスを格納する。格納されたデジタルビデオシーケンスは、図２の特徴量決定ステップ２２０を用いて決定されたように、決定された特徴量を含んでもよいし、含んでいなくてもよい。

次に、キーとなるビデオの断片特定ステップ４３０は、格納されたデジタルビデオシーケンスの、ビデオフレームの一以上の組に対応する、一以上のキーとなるビデオの断片を特定する。いくつかの実施形態において、キーとなるビデオの断片特定ステップ４３０は、図２のキーとなるビデオの断片特定ステップ２５０に関して説明されたように、格納された特徴量を利用することができる。他の実施形態において、キーとなるビデオの断片特定ステップ４３０は、ビデオ分析アルゴリズムを用いて、格納されたデジタルビデオシーケンスのフレームを直接分析する。このようにして、キーとなるビデオの断片特定ステップ４３０は、分析を実行するため、一般に、そのデジタルビデオシーケンスを展開する必要がある。当該技術分野において周知のあらゆる方法を、キーとなるビデオの断片（図２に関して既に述べたものを含む）を特定するために、用いることができる。

ビデオ要約形成ステップ４４０は、特定されたキーとなるビデオの断片を集め、図２のビデオ要約形成ステップ２６０と同様な方法で、ビデオ要約を形成する。メタデータとしてのビデオ要約格納ステップ４５０は、格納されたデジタルビデオシーケンスと関連付けられたメタデータを格納駆ることにより、プロセッサがアクセス可能なメモリに、そのビデオ要約を格納する。ここで、メタデータは、ビデオ要約に対応するビデオフレームの指示（indication）を提供する。

キーとなるビデオの断片特定ステップ４３０、ビデオ要約形成ステップ４４０及びメタデータとしてのビデオ要約格納ステップ４５０は、デジタルビデオシーケンス取込ステップ４１０とデジタルビデオシーケンス格納ステップ４２０と同一のデジタルビデオ取込装置上で生ずる必要はなく、あるいは、同一のプロセッサ２０を用いて生ずる必要はない。例えば、デジタルビデオシーケンス格納ステップ４２０は、例えば、着脱可能なメモリカードのような、イメージメモリ３０に書き込まれた、格納されたデジタルビデオシーケンスを得ることができる。着脱可能なメモリカードは、格納されたデジタルビデオシーケンスを、キーとなるビデオの断片特定ステップ４３０、ビデオ要約形成ステップ４４０及びメタデータとしてのビデオ要約格納ステップ４５０が適用されない、別の装置へと移動するために、用いられ得る。いくつかの場合には、別の装置は、図１で示したような、別のデジタルビデオ取込装置であってもよい。他の実施形態において、格納されたデジタルビデオシーケンスは、コンピュータ４０（図１）又はビデオ編集システムのような、別の装置へと読み込まれる。ここで、格納されたデジタルビデオシーケンスは、ビデオ要約を決定するために、処理され得る。

好ましい実施形態において、キーとなるビデオの断片特定ステップ４３０は、格納されたデジタルビデオシーケンスから、少なくとも一のビデオフレームを抽出する段階と、そのビデオフレームを分析して、そのビデオフレームと関連付けられる特徴量を決定する段階を含む。好ましい実施形態において、キーとなるビデオの断片特定ステップ４３０は、さらに、格納されたデジタルビデオシーケンスから、少なくとも一の音声サンプルを抽出する段階と、その音声サンプルを分析して、その音声サンプルと関連付けられる特徴量を決定する段階を含む。特徴量は、キーとなるビデオの断片を特定するために、分析され得る。

好ましい実施形態において、メタデータとしてのビデオ要約格納ステップ４５０は、ビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供する、フレーム特定（identification）メタデータを格納する段階を含む。フレーム特定メタデータの形式でビデオ要約を格納することは、フレーム特定を格納するために必要となる最小限のメモリ量以外に、追加の物理的なメモリを用いることなく、ビデオ要約を格納することができるという利点を有する。好ましくは、フレーム特定メタデータは、格納された圧縮済デジタルビデオシーケンスと関連付けられて、格納される。例えば、ビデオ要約の表現は、格納された圧縮済デジタルビデオシーケンスの中のメタデータとして格納され、ビデオ要約に含まれる、キーとなるビデオの断片に対応する、一連の開始フレーム及び終了フレームを示す。他の実施形態において、フレーム特定メタデータは、格納されたデジタルビデオシーケンスと関連付けられた、別個のファイルに格納されてもよい。

本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ４５０は、さらに、ビデオ要約を含む、キーとなるビデオの断片に対応する、音声サンプルの指示を提供するメタデータを格納する段階を含む。

本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ４５０は、さらに、特定されたキーとなるビデオの断片の間の境界に適用される、ビデオ遷移の効果の指示を提供するメタデータを格納する段階を含む。ビデオ遷移の効果は、例えば、一のキーとなるビデオの断片から次へのフェード（すなわち、「クロスディゾルブ」）効果や、あるキーとなるビデオの断片から白色（又は黒白）へのフェード効果及び次のビデオの断片へのフェード効果を含み得る。他の種類の遷移の効果は、クロスワイプ効果、サークル効果の開始と終了、水平又は垂直のブラインド効果、およびチェッカー板の遷移効果のような、特殊効果を含んでもよい。当業者は、これらが単なる数少ない例であることを認識し、多くの異なる種類の遷移効果が、本発明に従って用いられ得ることを認識するであろう。ビデオ遷移効果の使用は、デジタルビデオシーケンスの一のセグメントから他のセグメントへの突然の遷移を除去することにより、ビデオ要約の全体的な視覚品質を改善することができる。

本発明のいくつかの実施形態において、メタデータとしてのビデオ要約格納ステップ４５０は、さらに、キーとなるビデオの断片の間の境界で適用される、音声の遷移効果の指示を提供するメタデータを格納する段階を含む。音声の遷移効果は、例えば、無音へのフェードと復帰を含み得る。かかる音声の遷移効果は、デジタルビデオシーケンスの一のセグメントから他のセグメントへの突然の遷移を除去することにより、ビデオ要約の全体的な音声品質を改善することができる。

図５は、本発明に従って、ビデオ要約を表示するビデオ再生システムにより使用される処理のフローチャートを表す。特に、図５の方法は、直接再生可能なデジタルビデオファイルではなく、メタデータとして格納される、ビデオ要約を表示するよう適合されている。

最初に、データ読込ステップ５１０は、格納されたデジタルビデオ要約と関連付けられたデータを読み込む。ここで、そのデータは、ビデオ要約に対応する、格納されたデジタルビデオシーケンスのビデオフレームの指示を提供する。例えば、ビデオフレームの指示を提供するデータは、デジタルビデオシーケンスを格納するために用いられたデジタルビデオファイルに格納されたメタデータから抽出され得る。ここで、メタデータは、どのビデオフレームが、ビデオ要約に含まれるかを示す。代わりに、そのデータは、格納されたデジタルビデオシーケンスと関連付けられた、別個のファイルから抽出されてもよい。

次に、ビデオフレーム抽出ステップ５２０は、キーとなるビデオの断片に対応するビデオフレームを抽出する。キーとなるビデオの断片は、格納されたデジタルビデオシーケンスのビデオ要約を含む。一般に、格納されるデジタルビデオシーケンスは、圧縮された形式で、格納される。そのような場合には、ビデオフレーム抽出ステップ５２０は、格納されたデジタルビデオシーケンスを展開する段階を含む。

ビデオ要約形成ステップ５３０は、キーとなるビデオの断片に対して抽出されたビデオフレームから、ビデオ要約を形成するために用いられる。最も単純な場合には、ビデオ要約形成ステップ５３０は、抽出されたビデオフレームを、連続したビデオクリップへと単純に編集する。

ビデオ要約が形成されると、ビデオ要約表示ステップ５４０は、ソフトコピーディスプレイ（softcopy display）上に、そのビデオ要約を表示するために用いられる。かかるディスプレイは、例えば、デジタルビデオ取込装置上のレビュースクリーン又はコンピュータ若しくはテレビスクリーンに関連付けられたディスプレイであり得る。

データ読込ステップ５１０は、ビデオ要約に対応する、音声サンプルの指示を提供してもよい。この場合には、ビデオフレーム抽出ステップ５２０は、さらに、ビデオ要約に対応する、格納されたデジタルビデオシーケンスから、適切な音声サンプルを抽出する段階を含み得る。

本発明のいくつかの実施形態において、データ読込ステップ５１０は、さらに、ビデオ要約に対するビデオの遷移効果の指示を提供する。同様に、データ読込ステップ５１０は、ビデオ要約に対する音声の遷移効果の指示を提供することができる。データ読込ステップ５１０がビデオの遷移効果の指示を提供する場合には、ビデオ要約形成ステップ５３０は、特定された遷移効果に従って、抽出されたビデオフレームを修正する。こうして、編集されたビデオ要約は、所望の遷移を有することとなる。従って、例えば、黒色へのフェードによるビデオの遷移効果は、ビデオ要約に含まれる、キーとなるビデオの断片の、直近１５フレームの間にフェード効果を生ずることを示すデータを読み込むことにより、適用され得る。黒色へのフェードによるビデオの遷移に対応するフレームが、格納されたデジタルビデオシーケンスから抽出されると、ビデオフレームデータは、ゆるやかに黒色へフェードさせるための方式（formula）により、修正され得る。黒色へのフェード効果は、抽出されたフレームが、黒色から、元のビデオデータへと、ゆるやかにフェードする方式により修正される間に、次のキーとなるビデオの断片の最初の１５フレームの間で、反転されても良い。

ソフトコピーディスプレイが、音声を伝える一以上のスピーカを含む場合には、音声の遷移効果は、スピーカによる音声の伝達の前に、同様に処理され得る。例えば、無音へのフェードによる音声の遷移効果は、キーとなるビデオの断片に対応する、最後の８０００個の音声サンプルの間に生ずることを示すデータを読み込むことにより、適用され得る。無音へのフェードの遷移に対応する音声サンプルが、格納されたデジタルビデオシーケンスから抽出されると、音声サンプルデータは、ゆるやかに無音へフェードさせるための方式により、修正され得る。無音へのフェード効果は、抽出された音声サンプルが、無音から、元の音声データへと、ゆるやかにフェードする方式により修正される間に、次のキーとなるビデオの断片に対応する最初の８０００音声サンプルの間で、反転されても良い。

本発明によりビデオ要約を形成するいくつかの方法において、ビデオ要約に含まれるビデオフレーム又は音声サンプルに対応するビデオ要約メタデータ、及び、ビデオ又は音声の遷移効果は、格納されたデジタルビデオシーケンスを含む、デジタルビデオファイルに格納される。さらに、本発明によりビデオ要約を表示するいくつかのシステムにおいて、かかるビデオ要約メタデータは、ビデオ要約に対応する何れのビデオフレームや音声サンプルが、格納されたデジタルビデオシーケンスから抽出される必要があるのかについての指示と、ビデオをディスプレイ上に表示し、音声をスピーカに伝達する前に、どのビデオ及び音声の遷移効果が適用されるべきかを表す指示とを提供するために、読み込まれる。かかる方法及びシステムは、ビデオ要約が、そのビデオ要約に対応する、追加の個別のビデオファイルを格納することなく、指示され、表示される点で、有利である。

いくつかの実施形態において、ビデオディスプレイ装置は、ユーザに、元のビデオか、ビデオ要約を閲覧する選択肢を提供することができる。例えば、元のビデオシーケンス又はビデオ要約を再生するためのデジタルビデオカメラ（camcorder）に、別個の再生ボタンが、提供されてもよい。いくつかの実施形態において、ビデオ要約は、「早送り」ボタンを有効化することに応じて、再生されてもよい。これは、ビデオ要約が、速いペースでビデオシーケンスを進める、ビデオシーケンスの中のフレームの時間サンプリングを単に提供する従来の早送りのアプローチとは異なる、代わりの方法を表す事実を反映する。ビデオ要約の再生は、ユーザが、閲覧を望むビデオシーケンスの所望の箇所を特定するための、より便利な手段となり得る。

図５について説明されるビデオ再生システムは、格納されたデジタルビデオシーケンスからビデオ要約メタデータを抽出し、そのビデオ要約メタデータを、デジタルビデオシーケンスのビデオ要約版を表示する方法を理解することのできる、「スマートな」ビデオプレーヤである。かかる「スマートな」ビデオプレーヤは、閲覧者に、完全なデジタルビデオシーケンス又はビデオ要約版の何れかを閲覧する選択を提供することができる。標準的なビデオプレーヤは、ビデオ要約に関連付けられたビデオ要約メタデータを認識することができないであろう。しかしながら、標準的なビデオプレーヤは、元の、格納されたデジタルビデオシーケンスを読み込み、表示することができる。このような場合に、格納されたデジタルビデオシーケンスに含まれるメタデータは、単に無視され、完全なデジタルビデオシーケンスが再生される。

図１と図２を再び参照すると、本発明の別の実施形態は、デジタルビデオシーケンスを取り込み、対応するビデオ要約を生成する、デジタルビデオ取込システム（デジタルカメラ１０）である。該デジタルビデオ取込システムは：ビデオフレームを取り込むイメージセンサ１４と；景色をイメージセンサへ撮像するための光学システム（調整可能な開口部と調整可能なシャッター６を有するレンズ４）と；ビデオ要約を形成し、プロセッサが読み取り可能なメモリに、そのビデオ要約の表現を格納するためのプロセッサ２０と；デジタルビデオシーケンスを閲覧するためのイメージディスプレイ３２と；ユーザコントロール３４のような、ソフトコピーディスプレイ上に、格納されたデジタルビデオシーケンスを閲覧するか、あるいは格納されたビデオ要約の表現を閲覧するかの選択をユーザに提供するための手段と；を有する。デジタルビデオ取込システムは、例えば、デジタルビデオカメラ又は静止取り込みモード及びビデオ取り込みモードの両方を有するデジタルカメラであってもよい。デジタルビデオ取込システムは、さらに、ウェブカメラを有するラップトップ又はデスクトップコンピュータのような、他の形式をとってもよい。

デジタルビデオ取込システムのプロセッサ２０は、図２に示された方法のステップを実行するソフトウェアとともに提供される。より具体的には、ユーザ命令に応じて、プロセッサ２０は、複数のビデオフレームを含むデジタルビデオシーケンスを取り込む、デジタルビデオシーケンス取込ステップ２１０を開始することができる。プロセッサ２０は、特徴量決定ステップ２２０を用いて、一以上の特徴量を決定するため、デジタルビデオシーケンスが取り込まれたとき、デジタルビデオシーケンスのビデオフレームの少なくとも一のサブセットを自動的に分析する。プロセッサ２０は、次に、デジタルビデオシーケンス圧縮ステップ２３０を適用することにより、デジタルビデオシーケンスを圧縮する。そして、圧縮済デジタルビデオシーケンス格納ステップ２４０を適用することにより、得られた圧縮済デジタルビデオシーケンスが、プロセッサがアクセス可能なメモリに格納される。プロセッサ２０は、次に、キーとなるビデオの断片特定ステップ２５０を適用して、格納された圧縮済デジタルビデオシーケンスを展開することなく、特徴量を自動的に分析する。これによって、一以上のキーとなるビデオの断片が特定する。キーとなるビデオの断片のそれぞれは、デジタルビデオシーケンスのビデオフレームの一組に対応する。最終的に、プロセッサ２０は、ビデオ要約形成ステップ２６０を適用し、ビデオ要約を形成するために、キーとなるビデオの断片を集める。そして、ビデオ要約の表現格納ステップ２７０を用いて、プロセッサがアクセス可能なメモリに、そのビデオ要約の表現を格納する。

デジタルビデオ取込システムのプロセッサ２０は、さらに、デジタルビデオシーケンスが取り込まれたとき、デジタルビデオシーケンスの少なくとも一の音声サンプルを自動的に分析し、一以上の特徴量を決定するステップを実行することができる。

デジタルビデオ取込システムのプロセッサ２０は、さらに、決定された特徴量を、格納された圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして、プロセッサがアクセス可能なメモリに格納するステップを実行することができる。

デジタルビデオ取込システムのプロセッサ２０は、さらに、決定された特徴量を、格納された圧縮済デジタルビデオシーケンスと関連付けられた別個のファイルとして、プロセッサがアクセス可能なメモリに格納するステップを実行することができる。

デジタルビデオ取込システムのプロセッサ２０は、さらに、一以上のキーとなるビデオの断片を特定するために、特徴量とともにユーザ入力を自動的に分析することができる。そのユーザ入力は、ユーザコントロール３４に由来し、ビデオ要約の長さ、ビデオ要約に含まれる、キーとなるビデオの断片の最小の長さ、及び、ビデオ要約に含まれる、キーとなるビデオの断片の数に関する制限を含むことができる。

デジタルビデオ取込システムのプロセッサ２０は、さらに、ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納するステップをさらに実行することができる。ここで、そのビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供するメタデータが生成され、格納された、圧縮済デジタルビデオシーケンスと関連付けられて保管される。

ユーザは、デジタルビデオ取込システム上のユーザコントロール３４を有効化し、ソフトコピーのイメージディスプレイ３２上又は外部のビデオディスプレイ４６上の、ビデオ要約を閲覧することができる。ビデオ要約が、当該ビデオ要約に対応するデジタルビデオシーケンスのビデオフレームの指示を提供するメタデータとして格納されている場合、当該ビデオ要約は、図５において説明されるように、抽出され、表示される。特に、デジタルビデオ取込システムは、さらに、「スマートな」ビデオプレーヤの役割を実行することができ、メタデータに基づいて、適切なビデオ及び音声データを抽出することができる。

いくつかの実施形態において、ユーザインタフェースは、ユーザが、ビデオ要約をレビューし、受け入れ可能であるかどうかを決定できるように、提供され得る。ユーザが、ビデオ要約が望ましいものでないと決定した場合には、デジタルビデオ取込システムは、ユーザコントロール３４を通じて、ユーザに、ユーザによって調整されるユーザ設定を用いたビデオ要約を要求する選択を提供する。かかる（調整される）ユーザ設定は、例えば、ビデオ要約の長さ、ビデオ要約の中のキーとなるビデオの断片の最小長、又はビデオ要約に含まれるキーとなるビデオの断片の数を含んでもよい。いくつかの実施形態において、システムは、キーとなるビデオの断片特定ステップ２５０の、異なる設定又は異なるバリエーションを用いて、一連のビデオ要約の選択を自動的に形成することができる。従って、ユーザは、複数のビデオ要約のバージョンから効果的に選択することができる。そうして、満足のいかないビデオ要約が生成される可能性を低減し、機能の全体的な成果を増大させる。

説明されたデジタルビデオ取込システムは、一連のビデオ要約が、格納された圧縮済デジタルビデオシーケンスを展開する必要なく、また、ビデオ要約を新たなファイルとしてエンコードする必要なく、迅速に生成され、レビューされる点において、有利である。

個別のビデオ要約ファイルを用いてビデオ要約を格納することは、ビデオ要約が、ネットワークにわたって共有される場合か、又は、圧縮済のデジタルビデオシーケンスに含まれるメタデータを解釈することができ、そのビデオ要約を抽出することができる、「スマートな」ビデオディスプレイを備えていない装置と共有される場合に、望ましい。このような場合には、デジタルビデオ取込システムのプロセッサ２０により生成される、格納されたデジタルビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットで格納されるデジタルビデオファイルであってもよい。いくつかの実施形態において、ビデオ要約は、別個のビデオ要約ファイルとして、常に格納される。代わりに、ユーザコントロール３４は、ユーザが、ビデオ要約を格納する好ましい方法を選択できるように、提供されてもよい。いくつかの実施形態において、ビデオ要約は、ユーザがユーザインタフェース上の「共有」ボタンを開始したことに応じて、別個のビデオ要約ファイルとして格納されてもよい。

デジタルビデオ取込システムが別個のファイルとしてビデオ要約を格納する実施形態において、プロセッサ２０は、さらに、ビデオ要約の表現を、プロセッサがアクセス可能なメモリに、デジタルビデオファイルとして格納するステップを実行することができる。この場合には、プロセッサ２０は、そのビデオ要約に対応する、格納された圧縮済デジタルビデオシーケンスの少なくとも一部を展開し、次に、抽出されたビデオフレームを圧縮して、圧縮済ビデオ要約を形成するためのソフトウェアとともに提供される。ここで、圧縮済ビデオ要約は、プロセッサがアクセス可能なメモリに格納され得る。さらに、デジタルビデオ取込システムのプロセッサ２０は、格納された圧縮済デジタルビデオシーケンスの少なくとも一部を展開し、ビデオ要約に対応する音声サンプルを抽出し、抽出された音声サンプルを圧縮し、圧縮され抽出された音声サンプルを、圧縮済ビデオ要約に含めるステップを実行することができる。

コンピュータネットワークを通じてビデオファイルを共有することは、共有の前に、空間若しくは時間解像度又は元のビデオシーケンスを小さくすることにより、容易になる。デジタルビデオ取込システムのプロセッサ２０は、さらに、抽出されたビデオフレームをリサンプリングし、異なる空間又は時間解像度で、抽出されたビデオフレームを生成することができる。本発明は、より低い解像度のビデオ要約が、元の圧縮済デジタルビデオシーケンス全体を展開することなく、形成され得る点で、有利である。ビデオ要約の生成に関連する圧縮済デジタルビデオデータのみが、展開される必要がある。これにより、元の圧縮済デジタルビデオシーケンスからビデオ要約への変換が、より高速になる。

圧縮済デジタルビデオシーケンスのサイズを削減するために用いられる圧縮の積極性を増加させることにより、ネットワークを通じたビデオファイルの共有は、さらに容易になる。デジタルビデオ取込システムのプロセッサ２０は、より圧縮されたビデオ要約を生成するために、格納された圧縮済デジタルビデオシーケンスより、さらに積極的な圧縮設定により、抽出されたビデオフレームを圧縮することができる。本発明は、より圧縮されたビデオ要約ファイルが、元の圧縮済デジタルビデオシーケンスを展開することなく、形成され得る点で、有利である。

デジタルビデオ取込システムのイメージセンサ１４、光学システム（レンズ４）、プロセッサ２０及びソフトコピーディスプレイ（イメージディスプレイ３２）は、全て、デジタルビデオカメラの部品であってもよい。また、デジタルビデオカメラのユーザインタフェースコントロールは、ユーザに、デジタルビデオカメラのソフトコピーディスプレイで、格納された圧縮済デジタルビデオシーケンス又は格納された圧縮済ビデオ要約の何れを閲覧するか選択させることができる。かかるフレームワークにおいて、ユーザは、デジタルビデオカメラ上で、ビデオを取り込み、すぐにビデオ要約版を閲覧し、望む場合には修正を要求し、ビデオ要約を共有するために選択することができる。それによって、別個のビデオ要約ファイルが生成され、共有される。

デジタルビデオカメラは、外部のソフトコピーディスプレイへ接続され、ユーザは、格納された圧縮済デジタルビデオシーケンスか、格納されたビデオ要約を、その外部のソフトコピーディスプレイで閲覧することができる。

ソフトコピーディスプレイは、格納されたデジタルビデオシーケンス及び格納されたビデオ要約にアクセス可能な、独立したビデオ閲覧システムの部品であってもよい。デジタルカメラのユーザインタフェースコントロールは、ユーザに、そのソフトコピーディスプレイで、格納された圧縮済デジタルビデオシーケンス又は格納されたビデオ要約の何れを閲覧するか選択させることができる。

デジタルビデオ取込システムのプロセッサ２０は、ビデオ要約を形成するとき、複数のキーとなるビデオの断片の間に適用される、ビデオの遷移効果をさらに提供することができる。ビデオの遷移効果の結果は、表示時に計算され得る。これは、格納された圧縮済デジタルビデオシーケンスと関連付けられたメタデータとして格納されるビデオ要約に対して、特に有利である。

本発明のいくつかの実施形態において、デジタルビデオ取込システムのプロセッサ２０は、キーとなるビデオの断片を分析することにより、複数の利用可能な遷移効果の中から、ビデオの遷移効果を自動的に選択する。白色へのフェードによる遷移は、いくつかのビデオコンテンツにおいて好ましい一方で、黒色へのフェードは、他のビデオコンテンツにおいて好ましい。また、追加の異なるビデオの遷移は、さらに他のビデオコンテンツに対して好ましい。キーとなるビデオの断片の自動的な分析は、何れのビデオの遷移効果が、２つのキーとなるビデオの断片の間の、最適な視覚結果を提供するかを示す情報を提供することができる。

音声の遷移効果は、同様の方法によって取り扱われ得る。デジタルビデオ取込システムのプロセッサ２０は、ビデオ要約を形成するとき、複数のキーとなるビデオの断片の間に適用される、音声の遷移効果をさらに提供することができる。音声の遷移効果の結果は、表示時に計算され得る。

本発明によるデジタルビデオ取込システムの別の実施形態において、プロセッサ２０は、キーとなるビデオの断片特定ステップ２５０のバリエーションを適用する。かかるバリエーションは、キーとなるビデオの断片を特定するために、特徴量とともに、格納された圧縮済デジタルビデオシーケンスに含まれる情報を、自動的に分析する段階を含む。かかる実施形態において、ビデオ要約を含む、キーとなるビデオの断片を決定するとき、利用可能な追加の情報と引き換えに、速度を犠牲にする。多くの場合、プロセッサ２０は、取り込み時に、所望の特徴量の全てを計算するために必要な計算周期（cycle）を有していない可能性がある。かかる場合には、格納された圧縮済デジタルビデオシーケンスは、部分的に展開され、キーとなるビデオの断片の計算に用いられる情報を抽出することができる。例えば、本発明のいくつかの実施形態において、格納された圧縮済デジタルビデオシーケンスに含まれる音声情報が、抽出され得る。さらに、本発明のいくつかの実施形態において、格納された圧縮済デジタルビデオシーケンスに含まれるビデオ情報もまた、抽出され得る。

本発明により可能となった別の機能は、手動トリミング（assisted manual trim）補助機能である。多くのデジタルビデオ取込装置は、手動トリミングの編集機能を提供する。ユーザは、取り込まれたビデオをレビューし、ビデオの開始と終了からのトリミングを選択する。本発明を用いて、一のキーとなるビデオの断片を含むビデオ要約が形成され、ビデオ要約の開始点と終了点が、手動トリミング点の示唆として提供される。

取り込み時に特徴量を決定し、決定した特徴量を取り込みの後に使用する処理は、ビデオ要約を形成することに加え、他のアプリケーションに対しても有益で有り得る点に留意する。ビデオの中のキーとなるフレームを決定するために特徴量を使用する段階を含む、他の選択が、本発明の範囲内にあると考えられる。

多くのデジタルビデオシーケンス圧縮アルゴリズムは、ビデオをエンコーディングするとき、画像のグループを使用する。画像のグループは、デコードされるために、独立に符号化されたビデオフレームとともに、少なくとも一の他のビデオフレームからの情報に依存する、追加のビデオフレームを含む。画像のグループの一つの一般的な例は、独立してエンコードされたフレーム（Ｔフレーム）に続いて、エンコードされた予測フレーム（Ｐフレーム）を有する。ここで、各Ｐフレームは、前のフレームから予測される。画像のグループが終了し、新たな画像のグループが、次のＴフレームにより開始する。かかる圧縮方式において、Ｔフレームは、アクセス点を、圧縮済デジタルビデオシーケンスへと提供する。ここで、フレームは、一のＴフレームの開始点から抽出され得る。特に、画像のグループ全体は、圧縮済デジタルビデオシーケンスから抽出され、画像のグループを含む圧縮済バイトの位置及び数を示すヘッダ情報のデコードのみを要求する、ビデオ要約へと変換され得る。従って、キーとなるビデオの断片の開始フレームが、画像のグループを開始するＴフレームであり、かつ、好ましくは、キーとなるビデオの断片が画像のグループの正確な数を含むという制約を課すことは、ビデオ要約を形成するときに、有利である。かかる制約は、元の圧縮済デジタルビデオシーケンスの最小限の展開による、別個のビデオ要約ファイルの生成を可能にする。

コンピュータプログラム製品は、例えば、磁気ディスク（フロッピーディスクのような）若しくは磁気テープのような磁気記憶媒体；光学ディスク、光学テープ若しくは機械読み取り可能なバーコードのような光学記憶媒体；ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）のような固体（solid-state）電子記憶装置；本発明による方法を実行するために一以上のコンピュータを制御する命令を有するコンピュータプログラムを格納するよう用いられる他の物理装置若しくは媒体；のような、一以上の記憶媒体を含んでもよい。

２フラッシュ
４レンズ
６調整可能な開口部及び調整可能なシャッター
８ズーム・フォーカスモータドライブ
１０デジタルカメラ
１２タイミングジェネレータ
１４イメージセンサ
１６ＡＳＰ及びＡ／Ｄコンバータ
１８バッファメモリ
２０プロセッサ
２２オーディオコーデック
２４マイク
２５圧力センサ
２６スピーカ
２７加速度計
２８ファームウェアメモリ
３０イメージメモリ
３２イメージディスプレイ
３４ユーザコントロール
３６ディスプレイメモリ
３８有線インタフェース
４０コンピュータ
４２チルトセンサ
４４ビデオインタフェース
４６ビデオディスプレイ
４８インタフェース／充電器
５０無線モデム
５２無線周波数帯
５８無線ネットワーク
７０インターネット
７２写真サービスプロバイダ

Claims

デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって：
前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と；
一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と；
前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と；
圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と；
圧縮された前記デジタルビデオシーケンスを格納した後に、該デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と；
前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と；
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と；
を有する、方法。
前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の音声サンプルを自動的に分析し、一以上の特徴量を決定する段階
をさらに含む、請求項１に記載の方法。
前記デジタルビデオが取り込まれたとき、プロセッサを用いて、少なくとも一の前記デジタルビデオ取込装置の設定を自動的に分析し、一以上の特徴量を決定する段階
をさらに含む、請求項１に記載の方法。
前記デジタルビデオが取り込まれたとき、プロセッサを用いて、加速度計により生成されたデータを自動的に分析し、一以上の特徴量を決定する段階
をさらに含む、請求項１に記載の方法。
決定された前記特徴量は、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられたメタデータとして、プロセッサがアクセス可能なメモリに格納される、
請求項１に記載の方法。
決定された前記特徴量は、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられた、別個のファイルとして、プロセッサがアクセス可能なメモリに格納される、
請求項１に記載の方法。
前記特徴量を自動的に分析する段階は、一以上のキーとなるビデオの断片を、ユーザ入力に応じて特定する段階をさらに含む、
請求項１に記載の方法。
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階は、さらに：
圧縮され、格納された前記デジタルビデオシーケンスの少なくとも一部を展開し、前記ビデオ要約に対応するビデオフレームを抽出する段階と；
抽出された前記ビデオフレームを圧縮し、圧縮されたビデオ要約を形成する段階と；
前記圧縮されたビデオ要約を、プロセッサがアクセス可能なメモリに格納する段階と；
をさらに含む、請求項１に記載の方法。
前記ビデオ要約に対応する音声サンプルを抽出する段階と；
抽出された前記音声サンプルを、前記圧縮されたビデオ要約に含める段階と；
をさらに含む、請求項８に記載の方法。
異なる空間解像度で、抽出されたビデオフレームを生成するために、抽出された前記ビデオフレームがリサンプリングされる、
請求項８に記載の方法。
格納される前記ビデオ要約の表現は、標準的なビデオプレーヤを用いて再生されるよう適合されたフォーマットの、デジタルビデオファイルである、
請求項１に記載の方法。
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階は、
前記ビデオ要約に対応する前記デジタルビデオシーケンスの前記ビデオフレームの指示を提供するメタデータを生成する段階
をさらに含み、
前記メタデータは、圧縮され、格納された前記デジタルビデオシーケンスと関連付けられて格納される、
請求項１に記載の方法。
デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって：
前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と；
一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と；
前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と；
圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と；
圧縮された前記デジタルビデオシーケンスを格納した後に、プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれる追加の情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記ビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と；
前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と；
前記ビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と；
を有する、方法。
プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれる音声情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定し、
前記キーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、
請求項１３に記載の方法。
プロセッサを用いて、圧縮され、格納された前記デジタルビデオシーケンスに含まれるビデオ情報とともに、前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する、
請求項１３に記載の方法。
デジタルビデオ取込装置を用いて取り込まれるデジタルビデオシーケンスのビデオ要約を形成する方法であって：
ａ）前記デジタルビデオ取込装置を用いて、デジタルビデオシーケンスを取り込む段階であって、前記デジタルビデオシーケンスは、複数のビデオフレームを含む、段階と；
ｂ）一以上の特徴量を決定するために、前記デジタルビデオシーケンスが取り込まれたとき、プロセッサを用いて、前記デジタルビデオシーケンスの少なくとも一の前記ビデオフレームを自動的に分析する段階と；
ｃ）前記デジタルビデオシーケンスを圧縮する段階であって、分析された前記ビデオフレームは、対応する前記特徴量が決定された後にのみ圧縮される、段階と；
ｄ）圧縮された前記デジタルビデオシーケンスを、プロセッサがアクセス可能なメモリに格納する段階と；
ｅ）圧縮された前記デジタルビデオシーケンスを格納した後に、圧縮され、格納された前記デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、一以上のキーとなるビデオの断片を特定する段階であって、前記ビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と；
ｆ）前記キーとなるビデオの断片を集め、ビデオ要約を形成する段階と；
ｇ）ユーザに、前記ビデオ要約をプレビューさせる段階と；
ｈ）前記ユーザから調整されたユーザ設定を受信する段階と；
ｉ）圧縮され、格納された前記デジタルビデオシーケンスを展開することなく、プロセッサを用いて前記特徴量を自動的に分析し、前記調整されたユーザ設定に応じて、一以上の更新されたキーとなるビデオの断片を特定する段階であって、前記更新されたキーとなるビデオの断片の夫々は、前記デジタルビデオシーケンスのビデオフレームの一組に対応する、段階と；
ｊ）前記更新されたキーとなるビデオの断片を集め、更新されたビデオ要約を形成する段階と；
ｋ）前記更新されたビデオ要約の表現を、プロセッサがアクセス可能なメモリに格納する段階と；
を含む、方法。
前記ｇ）乃至ｊ）の段階は、前記ユーザが、プレビューされたビデオ要約に満足するまで繰り返される、
請求項１６に記載の方法。