JP4426966B2 - スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法 - Google Patents

スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法 Download PDF

Info

Publication number
JP4426966B2
JP4426966B2 JP2004504147A JP2004504147A JP4426966B2 JP 4426966 B2 JP4426966 B2 JP 4426966B2 JP 2004504147 A JP2004504147 A JP 2004504147A JP 2004504147 A JP2004504147 A JP 2004504147A JP 4426966 B2 JP4426966 B2 JP 4426966B2
Authority
JP
Japan
Prior art keywords
shot
frame
scene
frames
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004504147A
Other languages
English (en)
Other versions
JP2005525034A (ja
Inventor
イーン・リ
トン・ツァン
ダニエル・アール・トレッター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2005525034A publication Critical patent/JP2005525034A/ja
Application granted granted Critical
Publication of JP4426966B2 publication Critical patent/JP4426966B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)

Description

[発明の分野]
本発明は、包括的にはビデオ材料の要約および閲覧に関し、より詳細には要約プロセスおよび閲覧プロセスの自動化およびカスタマイズに関する。
[発明の背景]
デジタルビデオは、コンピュータ業界および電気通信業界で急成長している要素である。
多くの企業、大学、さらには家庭がすでに、アナログフォーマットのビデオおよびデジタルフォーマットのビデオの両方を大量に収納している。
例としては、放送ニュースに使用されるビデオ、訓練・教育ビデオ、セキュリティ監視ビデオ、およびホームビデオが挙げられる。
デジタルビデオの急速な発達により、多くの人々がマルチメディアを取り込みマルチメディアと対話する方法が変化しつつあり、その過程の中で多くの新しいニーズおよび用途がもたらされた。
したがって、ビデオのアーカイブ、カタログ化、およびインデックス付けのコストを削減すると共に、格納されているビデオの効率、操作性、およびアクセス可能性を向上させる新技術の研究開発が大いに必要である。
1つの重要な話題は、ユーザが大量のビデオデータコレクションを素早く閲覧できるようにする方法、およびビデオデータの素早い閲覧を可能にしながら、ビデオ内容への効率的なアクセスおよび表現を実現する方法である。
こういった問題に対処するために、ビデオ要約技法が出現し、近年、研究の関心をより多く集めている。
ビデオ要約は、名称が示すようにより長いビデオドキュメントの内容を短くまとめたものであり、オリジナルの本質的なメッセージを良い状態で保持しながら、ビデオドキュメントの内容についての簡潔な情報をユーザに提供する。
理論上、ビデオ要約は手動で、または自動的に生成することができる。
しかし、大量のビデオデータがすでに存在し、作成される新しいビデオデータの量が今後も増え続けることから、ビデオ要約を手動で生成することはますます困難になっている。
したがって、ビデオ要約プロセスにおいて人間の介入を減らすように、完全に自動化されたビデオ解析・処理ツールを開発することがますます重要になりつつある。
2つの基本的に異なる種類のビデオ要約、すなわち静止画像要約および動画像要約がある。
静止画像要約は、ビデオサマリとも呼ばれ、基礎となるビデオソースから抽出または生成された目立った画像(キーフレームとして知られる)の小さな集まりである。
動画像要約は、ビデオスキミングとも呼ばれ、画像シーケンスの集まり、ならびにオリジナルシーケンスから抽出された対応するオーディオ要約からなり、したがってそれ自体、長さのかなり短いビデオクリップである。
一般にビデオサマリは、視覚的情報のみが利用され、オーディオ情報またはテキスト情報を処理する必要がないため、スキミングよりもはるかに素早く構築することができる。
したがってビデオサマリは、タイミングすなわち同期の問題がないことからより容易に表示することができる。
さらに、抽出されたすべての代表フレームの時間順を空間順で表示することができ、したがって、ユーザはビデオの内容をより素早く把握することができる。
最後に、必要なときに、ビデオサマリ中の抽出静止画像をすべて非常に容易にプリントアウトすることができる。
ビデオ要約化に対する一般的な手法として、多くの場合、ビデオシーケンス全体がまず一連のショットに分割され、次いで1つまたは複数のキーフレームが、色および動きを含む様々な特徴に基づいた基礎となるビデオ内容の複雑性に応じて、均一サンプリング(uniform sampling)または適応型方式のいずれか一方によって各ショットから抽出される。
こういったシステムの代表的な出力は、抽出されたキーフレームすべてがそれぞれの時間順に表示される静止ストーリーボードである。
こういった手法には2つの主な欠点がある。
第1に、こういった作業はデータ量の削減を図るが、多くの場合、ビデオ内容を要約するのではなく「そのまま」提示するだけである。
ショットが異なるとユーザに対する重要性が異なる場合があるため、重要なショットには重要性の低いショットよりも多くのキーフレームを割り当てることが好ましい。
第2に、静止ストーリーボードは、実際の要約システムにおいて有用な特徴であるスケーラブルなビデオサマリを得る機能をユーザに提供することができない。
たとえば、ユーザはより多くのキーフレームが必要な、特定のシーンまたはショットを詳細に見たいときもあり、また単により少ないキーフレームを必要とする非常に粗い要約化を必要とするときもある。
米国特許第5995095号 欧州特許出願公開第1045316号 Lajendijk R L et al., 「Visual Search in a SMASH System」, 1996年9月16日, 1996年9月16-19日 Interanaional Conference on Image Processing(ICIP)会報, Lausanne New York US, IEEE, vol. 1, p671-674 Dufaux F, 「Key Frame Selection to Represent a Video」, 2000年9月10日, IEEE INT CONF IMAGE PROCESS; IEEE International Conference on Image Processing(ICIP 2000)会報, Vancouver Canada, vol. 2, p275-278 Yueting Zhuang et al., 「Adaptive Key Frame Extraction Using Unsupervised Clusting」, Image Processing, ICIP 98 International Conference 会報, 1998年10月4-7日 Chicago IL USA, 1998年10月4日 Los Alamitos CA USA, IEEE Comput. SOC, p866-870 Corridoni J M et al.,「Structured Representation and Automatic Indexing of Movie Information Content」, Pattern Recongnition, Pergamon Press INC., 1998年12月1日, Elmsford NY US, vol. 31, no. 12, p2027-2045 J. Kim, H. S. Chang, J. KimおよびH. M. Kim,「Efficient camera motion characterization for MPEG video indexing」ICME2000, 2000年, New York
ビデオ内容を各自が望む詳細なレベルで要約しナビゲートする柔軟性をユーザに提供する、ビデオドキュメントのスケーラブルなビデオサマリを自動的かつ知的に生成するシステムおよび方法が必要である。
[発明の概要]
本明細書に記載の本発明は、ビデオドキュメントを自動的に要約するシステムおよび方法を提供する。
ビデオドキュメントはシーン、ショット、およびフレームに分解され、各シーン、ショット、およびフレームに重要値が割り当てられる。
各ショットの重要値に基づいて、或る数のキーフレームがショットに割り振られる。
次いで、割り振られた数のキーフレームが各ショットから選択される。
キーフレーム数は、ユーザ入力に応答して詳細度を高める、または低めるように変更することができる。
[好ましい実施形態の説明]
以下の好ましい実施形態の詳細な説明では、本明細書の一部を成し、本発明を実施し得る特定の実施形態を例として示す添付図面を参照する。
他の実施形態も利用することができ、構造的または論理的な変更を本発明の範囲から逸脱することなく行い得ることを理解されたい。
したがって、以下の詳細な説明は限定の意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって規定される。
本発明によれば、ビデオシーケンス20がまず、図1aに示すように、検出されたシーン22およびショット24の構造に基づいて階層ツリーとして表現される。
本明細書で使用される場合、ショット24は連続した撮影期間中に取り込まれたビデオセグメントとして定義され、シーン22は意味的に関連するショット24のセットからなる。
ショット24は一連の個々のフレーム26からなる。
ショットおよびシーンを検出する様々なアルゴリズムが存在し、そのうちのいずれもビデオシーケンス20をシーン22、ショット24、およびフレーム26の構造に分解するにあたって使用するのに適している場合がある。
解析されるビデオシーケンス20のタイプに応じて、或るアルゴリズムが別のアルゴリズムよりも好ましい場合がある。
たとえば、ホームビデオとの併用に特に適した手法が2001年12月14日に出願され、本発明と同じ譲受人に譲渡され、参照により本明細書に援用される米国特許出願第10/020,255号に提示されている。
本発明によりビデオサマリ80を作成する1つのプロセスを図1bに示す。
ビデオシーケンス20をシーン22、ショット24、およびフレーム26に分解した後、以下さらに詳細に説明する測定値に基づいて各構成要素シーン22、ショット24、およびフレーム26に重要値が割り当てられる。
本発明により重要値を生成する1つのプロセスを図1cに示す。
次に、所望の数のキーフレームNが与えられた場合、キーフレームはシーン22の重要値に基づいて基礎となるシーン22に振り分けられ、重要なシーン22ほど、多くのキーフレームが割り当てられる。
次いで、各シーン22内で、割り当てられた数のキーフレームが、ショット24の重要値に基づいてシーンの構成要素ショット24にさらに振り分けられる。
最後に、指定された数のキーフレームが、フレーム26の重要値に従って各ショット24の基礎となるビデオフレーム26から選択される。
このプロセスを用いて、重要なシーン、ショットおよびフレームにより多くのキーフレームを割り当てるスケーラブルなビデオ要約80が実現する。
さらに、柔軟なビデオ内容の閲覧に対するユーザのニーズを満たすために、キーフレームの指定数を、ユーザがビデオ内容をナビゲートする際に増減することができる。
本明細書に記載の本発明のパフォーマンスは、シーン22、ショット24、およびフレーム26のそれぞれに対する重要度測定値の3つのカテゴリの定義および計算に大きく依存することが容易に明らかになる。
重要値の計算について以下さらに詳細に説明する。
[シーン重要度計算]
本発明の一実施形態によりシーン22の重要度を求める際に3つの要因が考慮される。
すなわち、
1)シーン中のフレーム数から見たシーンの長さ、
2)シーンのアクティビティレベル、および、
3)シーンに含まれる構成要素ショットの数。
上記考慮事項の基礎となる根拠は、シーンが長い、アクティビティが高い、またショットが多いことはすべて重要なシーンであることを示すということである。
たとえば、興味のある被写体にビデオ撮影者の注意が引き付けられる場合、通常、被写体に興味がない場合よりもビデオの取り込みにより長い時間をかける。
また、シーン22の基礎となるビデオ内容がかなりダイナミックである(通常、カメラの動きが多いこと、オブジェクトのアクティビティが多いこと、および含まれるショットの数が多いことを特徴とする)場合、シーン22は複雑な内容を有し、したがってより多くのキーフレームを受けるに値する。
シーンの長さおよびシーン22に含まれる構成要素ショット24の数を求めることは、シーン22中のフレーム26およびショット24の数をカウントする以外に必要なことは殆どない単純なプロセスである。
そのために、フレーム26およびショット24をカウントする適した方法をいずれも採用することができる。
より困難な態様は、シーン22のアクティビティレベルの定量化である。
シーン22のアクティビティレベルを定量化するために、シーン内の連続した各フレーム対のフレーム間カラーヒストグラム差分が計算され、それぞれの平均がシーンのアクティビティレベル指標として使用される。
ヒストグラム差分はあまり正確な動き指標ではないが、計算が速く、結果はシーンレベルに十分である。
個々のショット24の重要値の計算に関して以下説明するように、より正確であるが、より時間のかかる動きベクトル計算を使用してもよい。
解析中のビデオシーケンス20が総計でSN個のシーンを含み、シーンiの重要度をIMで表すと想定すると、シーンの重要度は、
Figure 0004426966
として計算される。
ここで、α1、β1、およびγ1は足して1になる重み係数であり、lはシーンiの長さであり、HDは平均ヒストグラム差分であり、SHは包含するショットの数である。
所望のキーフレームの総数がNである場合、シーンiに割り振られるキーフレーム数Nは、N=IM×Nである。
α1、β1、およびγ1の値は経験的に求められる。
本発明の一実施形態によれば、α1の値の範囲は0.10〜0.20であることができ、β1の値の範囲は0.30〜0.50であることができ、γ1の値の範囲は0.40〜0.60であることができる。
[ショット重要度計算]
本発明の一実施形態によりショット24の重要度を求める際に、3つの要因が考慮される。
すなわち、
1)ショット中のフレーム数から見たショットの長さ、
2)ショットのアクティビティレベル、および、
3)検出されたカメラの動き(主にカメラパニングが考慮される)。
ショットの長さおよびアクティビティレベルを考慮する根拠は、シーン22の重要度を求めることに関して上に説明した根拠と同様である。
カメラの動きの検出を含める理由は、特定のカメラの動きが存在する場合にショットの内容がより複雑になる傾向があり、したがってショット24がより多くのキーフレームを受けるに値するためである。
シーン22の重要度を求める場合と同様に、ショットの長さは、任意の適したカウント方法を用いてショット24中のフレーム26の数をカウントすることによって求めることができる。
ショット24のアクティビティレベルを計算するには、ショット内のあらゆる基準フレーム対間の動き量が計算され、それぞれの平均がショット24のアクティビティレベルを示すために使用される。
多くのビデオシーケンス20(特にホームビデオ)はデジタル化され、H.26XフォーマットまたはMPEG−Xフォーマットに圧縮されるため、動きベクトル情報は、予測符号化フレーム26を含むオリジナルビットストリームから直接得ることができる。
特に、予測符号化フレーム、たとえばPフレームの場合は、あらゆるマクロブロックの動きベクトルmvの大きさがまず計算され、次いでPフレーム中のすべての動きベクトルmvの大きさの平均を使用してアクティビティレベルを示す。
ビデオデータが予測符号化フレーム26を含まない場合は、ビデオシーケンス20を、予測符号化フレーム26を含むフォーマットに変換することができるか、あるいは当該技術分野において既知の他の方法を用いて動きベクトルmv情報を求めて定量化することができる。
カメラの動きの検出は従来技術において利用されており、大半の既存の方法は連続した画像間で計算されるオプティカルフローを解析することに基づいている。
基本的に、カメラの動きの解析作業はすべて2つのクラスに分類することができる。
すなわち、
1)カメラの動きを表すアフィンモデルを定め、計算されたオプティカルフローからモデルパラメータを推測するアルゴリズム、および、
2)角度分布またはオプティカルフローベクトルの大きさを使用することにより、動きモデルなしで、観察されたオプティカルフローパターンを直接解析するアルゴリズム(たとえば、J. Kim, H. S. Chang, J. KimおよびH. M. Kim著「Efficient camera motion characterization for MPEG video indexing」ICME2000, New York, 2000を参照のこと)。
いずれのクラスのアルゴリズムを使用してもよいが、最初のクラスのアルゴリズムはカメラの振動および突然の動きに敏感であるため、ホームビデオ等の用途によっては2番目のクラスのアルゴリズムが好ましい。
図2は、カメラのパニング、傾斜、およびズーミングを含む典型的な3つのタイプのカメラの動きの理想的なオプティカルフローパターンを示す。
オプティカルフローの推定は通常、未処理のビデオデータを使用する勾配方法またはブロックマッチング方法に基づくため、計算的に非常に高価な場合がある。
本発明の一実施形態によれば、すぐに使用できる動きベクトルmv情報がビデオデータビットストリーム(MPEG−XフォーマットまたはH.26Xフォーマットにあるように)に埋め込まれることを意図する。
この情報は、オプティカルフローの推定に対する代替として使用することができ、それによって計算負荷が低減する。
カメラの動きは、抽出された動きベクトルmvのレイアウトパターンを解析することによって検出することができる。
ショット24のアクティビティレベルを求めることに関して上に述べたように、ビデオデータが動きベクトルmv情報を含む予測符号化フレーム26を含まない場合、予測符号化フレームを含むフォーマットにビデオを変換することができるか、あるいは当該技術分野において既知の他の方法を使用して動きベクトル情報を求めて定量化することができる。
図3に示すように、カメラの動きは8つの方向に量子化される。
各方向は、反時計方向に沿った最近傍部分領域を含む。
たとえば、動きベクトルmvが0〜45度の領域にある場合、それは方向1とインデックス付けられる。
以下の考察は、カメラのパニングの方向に焦点をあてる。
これは、カメラのパニングがホームビデオにおいて観察される主なカメラの動きであるためである。
理想的には、カメラパニング中、すべての動きベクトルmvはすべて図3に示す方向1または5を指すべきである。
しかし、カメラの振動により、方向1および8、または方向4および5の領域にある動きベクトルmvもあるであろう。
典型的なMPEGビデオシーケンスには、3つのフレームタイプがある。
すなわち、Iフレーム、Pフレーム、およびBフレームである。
Iフレームはすべて、動き予測および補償なしでフレーム内符号化される一方で、Pフレームは前のIフレームまたはPフレームから予測符号化される。
Pフレーム内の各マクロブロックはフレーム内符号化、順方向予測、または単にスキップすることができる。
圧縮率をさらに向上させるために、前のまたは後のIフレームおよびPフレームから双方向予測符号化することのできるBフレームが定義される。
図4は、IBBPBBPBB・・・のパターンを有する15枚のフレームを含む典型的なMPEG GOP(ピクチャグループ)構造30を示す。
Bフレームは、カメラの動きの検出を混乱させる傾向がある順方向予測および逆方向予測の両方の動きベクトルmvを含むことができるため、すべてのBフレームは破棄され、Pフレームのみが使用される。
これは、典型的な1秒あたり29.97フレームのレートの場合、1秒内に8枚のPフレームがあることができ、典型的なカメラの動きは通常、1秒よりも長く続くため好ましい。
本明細書において説明するカメラの動きを検出する方法には3つの主なステップが含まれる。
ステップ1において、各Pフレームの動きベクトルmvが上に述べた8つの方向に分類され、方向ヒストグラム32が計算される。
フレーム26は、カメラの動きシーケンス、たとえば右へのカメラパニングに属する場合、過半数の動きベクトルmvを方向1および8に有するはずであり、その他の場合、動きベクトルmvは表される主な方向なしで分散し得る。
さらに、連続した一連のPフレームは、カメラの動きが検出されたことが明らかになる前に同様の動きパターンを提示する必要がある。
これを図5aおよび図5bに示す。
図5aは、右パニングシーケンス内の8枚のPフレームのヒストグラム32を示し、図5bは、カメラズーミングシーケンス内の8枚のPフレームのヒストグラム32'を示す。
図5a中の略すべてのPフレームが右を向いた主な方向で同様のパターンを提示していることは極めて明らかである。
図5bにおいて、動きベクトルmvは、ズーミングシーケンスを特徴付ける各方向に沿って略等しく分布している。
カメラの動きを検出する方法のステップ2において、Pフレームの方向動き比率rおよび方向動きベクトルの大きさの平均(AvgMag)が計算される。
右へのカメラパニングの場合、rはフレーム26に含まれる動きベクトルmvの総数に対する、方向1および8に沿った動きベクトルmvの量の比率である。
rが特定のしきい値、たとえば0.6よりも大きい場合、フレーム26は候補としてインデックス付けられる。
rの値は経験的に選択され、本発明の一実施形態では、0.5〜0.7の範囲の値を有することができる。
AvgMagは単に、方向1および8にあるすべての動きベクトルmvの大きさの平均である。
カメラの動きを検出する方法のステップ3では、上記計算が所与のショット内のあらゆるPフレームに対して繰り返される。
十分な長さを有する候補のシーケンス40が観察され、その平均AvgMagが予め設定されたしきい値よりも大きい場合、カメラパニングシーケンスが検出されることが明らかになり、その他の場合、カメラの動きは存在しない。
図6aおよび図6bはそれぞれ統計rおよびAvgMagのグラフを示し、図6aはカメラパニングシーケンスを含むショットであり、図6bはカメラの動きのないショットである。
図6aおよび図6bを入念に観察することにより、AvgMagを考慮せずにrのみを考慮すると、カメラの動きの誤った検出に繋がる可能性があることが分かる。
たとえば、rのみを考慮すると、カメラの小さな揺れの動きに起因する長い候補シーケンスもあるため、図6bのショットシーケンスでの誤った動き検出判断に繋がる可能性がある。
最後に、より正確な検出結果が望まれる場合は、方向動きベクトルの大きさの標準偏差StdMagも考慮することができる。
たとえば、連続したカメラのパニングシーケンスがある場合は、StdMag値は動きの一貫性により極めて小さいはずである。
ここで、シーンi内に総計でSH枚のショットがあると想定する。
次いで、ショットiの重要度IMS
Figure 0004426966
として計算することができる。
ここで、α2、β2、およびγ2は足して1になる重み係数であり、lsはショットiの長さであり、Actは動きベクトルの大きさの平均であり、Camは二値カメラ動き検出結果である。
ここで、シーンiに割り当てられるキーフレームがNである場合、ショットiに割り当てられるキーフレーム数NSは、NS=IMS×Nである。
NSが1未満の場合、各ショットから少なくとも1つのキーフレームを抽出することが望まれるのであれば、NSの値を1に設定することができる。
別法として、各ショットから少なくとも1つのキーフレームを抽出することが好ましくないのであれば、NSの値を0に設定することができる。
α2、β2、およびγ2の値は経験的に求められる。
本発明の一実施形態によれば、α2の値の範囲は0.3〜0.5であることができ、β2の値の範囲は0.4〜0.6であることができ、γ2の値の範囲は0.0〜0.2であることができる。
[フレーム重要度計算]
本発明の一実施形態によりフレーム26の重要度を求める際に4つの要因が考慮される。
すなわち、
1)フレーム中の肌色のピクセルの割合、
2)フレームにおいて検出された人間の顔の数、
3)フレームのエッジエネルギーの分布、および、
4)フレームに含まれる動きアクティビティ量。
最初の2つの要因を含める理由は、一般的に言えば、人間の顔を含むフレーム26は、たとえば風景フレームよりも多くの情報を提供するためである。
顔検出アルゴリズムが顔を見落とした場合、見落とされた顔検出を肌色検出により補償することができる。
最後の2つの要因は、抽出されたキーフレームが、素早いカメラの動き、素早い被写体の移動、またはカメラ焦点合わせの不良等に起因するぶれた画像ではなく、十分に焦点が合った鮮明な画像であることを確実にするために使用される。
たとえば、カメラパニング後に撮影された静止画像は、ぶれる、または不安定である場合があるパニング中に撮影された画像よりも好ましい。
したがって、フレーム重要度の場合、より少ないアクティビティを含むフレーム26が好ましい。
肌色検出は、顔検出分野および顔認識分野の両方で広く利用されている。
主に2つのモデルが評価され使用されている。
YCbCrモデルは生来、MPEG符号化およびJPEG符号化に関連し、HSV(色相、彩度、明度)モデルは主にコンピュータグラフィックスに使用される。
肌色部分空間を概算するために、両方のモデルにおいて肌色パッチを使用して肌の色合いの領域を画定する。
また、強度値Yは肌色の分布に対して殆ど影響がないことが観察されているため、作業によっては、Yを考慮することなく、クロミナンス平面(CbCr)において肌色分類が直接実行される(たとえば、H. WangおよびS. -F. Chang著「A highly efficient system for automatic face region detection in MPEG video」IEEE Transaction on Circuit System and Video Technology, vol. 7, no.4, pp. 615-628, 1997を参照のこと)。
図7aはCbCr色空間における色相を示す一方で、図7bは、広範囲の肌色の外観(異なる人種、異なる照明条件等)をカバーする様々な静止画像からなるデータから得られる、肌色が占める対応領域を示す。
肌色サンプルは実際に、CbCr色空間において単一で極めてコンパクトなクラスタを形成することが分かる。
この観察から導き出されるように、色を肌色と分類するためにRGBに関して以下の規則が使用される。
すなわち、(Y≧32)かつ(G<0.8R)かつ(B<G)かつ(B>0.7G)の場合に肌色である。
Y基準を含める理由は暗すぎる領域を除外するためである。
図8a(ビデオフレーム26を示す)および図8b(図8aにおけるビデオフレームの肌色減色)は、肌色検出により男性の顔を十分に認識することができる一方で、後ろにいる女性の顔は影になっているため無視される一例を示す。
顔検出・認識アルゴリズムは当該技術分野において既知である。
任意の適したアルゴリズムを、本明細書に記載の本発明の実施態様に使用することができる。
アルゴリズムの感度および特定のアルゴリズムに必要な計算負荷を考慮することができる。
図9aおよび図9bは、顔が検出されない例(図9a)および顔が検出される例(図9b)を示す。
大抵のホームビデオの簡単(casual)な写真性質により、ぶれて焦点がぼけた多くのビデオフレーム26を容易に見つけることができる。
一般的にいえば、好ましいキーフレームは、示差的なエッジを有する、十分に焦点が合った鮮明な画像である。
この選好は適切なキーフレーム候補を特定するのに役立つように適用される。
具体的には、所与のフレームについて、エッジオペレータを使用してフレームのすべてのエッジを見つける。
次いで、エッジエネルギーの標準偏差が計算される。
エッジエネルギーの標準偏差が予め設定された値よりも大きい場合、フレームの焦点が十分に合っていることが明らかになり、キーフレームに適格であり、その他の場合、フレームはキーフレーム候補として破棄される。
図10a〜図10dは、或る画像はぶれており(図10a)、他の或る画像は鮮明な(図10c)2つの画像に垂直エッジオペレータを適用する例を示す。
図10cの鮮明な画像は非常に示差的なエッジ(図10d)を有するが、図10aのぶれた画像は、仮にあったとしても殆ど識別できないエッジ(図10b)を有することが容易に分かる。
エッジはいくつかの適した様式で検出することができる。
エッジを検出する1つの適した様式は「Prewitt」エッジオペレータの使用であり、この場合、以下の2つの勾配が用いられる。
Figure 0004426966
ここで、GおよびGは、それぞれ行勾配および列勾配である。
図11は、1つの特定のショット24内のすべてのフレーム26のエッジエネルギーの計算された標準偏差60を示す。
ショット24内のフレーム26の大半は、より大きな数を有する一組のフレーム26以外は小さい値を有することが分かる。
実際、このショット24は多くのぶれた部分を含み、十分に焦点の合ったフレーム26はほんのわずかである。
[キーフレーム選択]
ショットi内に総計でF枚のフレームがあると想定する。
そうすると、フレームiの重要度IMFは、
Figure 0004426966
として計算することができる。
ここで、α3、β3、γ3、およびδは足して1になる重み係数であり、PSは肌色ピクセルの割合であり、NFは検出された顔の数であり、EStdは計算されたエッジエネルギーの標準偏差であり、FActはフレームiに含まれる動きアクティビティである。
顔およびエッジの検出は両方とも非常に時間のかかるものであるため、1つ1つのフレームに対して繰り返す必要はないことに留意されたい。
その代わり、ビデオ内容の連続性により、隣接するフレームの小さなセットが通常、同じ顔およびエッジ検出結果を共有することができる。
α3、β3、γ3、およびδの値は経験的に求められる。
本発明の一実施形態によれば、α3の値の範囲は0.1〜0.3であることができ、β3の値の範囲は0.1〜0.3であることができ、γ3の値の範囲は0.1〜0.3であることができ、δの値の範囲は0.3〜0.5であることができる。
フレーム重要度が求められた後、各ショットに割り当てられるキーフレーム数NSを、ショット内のF枚すべてのフレームから選択しなければならない。
F枚すべてのフレームはそれぞれの重要値に基づいて降順にソートされ、理論上、最上部からNS枚のフレームが、最も重要なフレームであるためキーフレームとして選択されるべきである。
しかし、1枚のフレームが大きな重要値を有する場合、そのフレームに隣接するフレームの多くもまた、ビデオ内容の視覚的また動きの連続性により大きな重要値を有することになる。
したがって、割り振られたキーフレームのすべてまたは多くがショットの同じ時間領域から採用される場合があり、ビデオ内容の良好な表現を提供しない場合がある。
ショットのビデオ内容のより良好な表現を提供するために、時間制約付きキーフレーム選択あるいは重要度適応キーフレーム選択を用いることができる。
時間制約付きキーフレーム選択では2つの追加規則が実施される。
第1に、キーフレームは互いに視覚的に異なっているべきである。
具体的には、新たに抽出されたキーフレームはそれまでに抽出されたすべてのキーフレームと視覚的に異なっているべきである。
カラーヒストグラム比較がこの目的のために用いることのできる1つの方法である。
第2に、キーフレームは互いに時間的に離れているべきである。
具体的には、抽出されたキーフレームはすべて、ビデオ内容全部をカバーするように、可能な限り均一にショットに分散すべきである。
良好に分散したキーフレームのセットは通常、時間的にまとまったキーフレームのセットよりも基礎となるビデオ内容を良好に表現することになる。
重要度適応キーフレーム選択では、キーフレームは基礎となる重要曲線に適応することによって選択される。
特に、ショット内のすべてのフレームの重要値はまず正規化されて、基礎となる面積が1に等しい曲線が形成される。
図12は1つの特定のショットの重要曲線70を示し、下(正規化後)の曲線70'が上の未処理曲線から3×1平均フィルタを使用することによって得られる。
次に、ショットの全体の時間軸が、各セグメント72内の重要値の和(すなわち、曲線下の面積)が1/NSに等しくなるように、NS個のセグメント72に分けられる(図には1つのセグメント72のみを示す)。
次いで、各セグメント72内で最高の重要度を有するフレーム26が代表フレーム26として選択される。
抽出されたすべてのフレームが時間線において良好に分散することを確実にするため、時間制約付きキーフレーム選択に用いられたもののような時間制限規則を用いることができる。
実験結果に基づくと、時間制約付きキーフレーム選択は重要度適応キーフレーム選択よりもわずかに良好な結果を生成するが、カラーヒストグラムの計算および比較により、速度がより遅いという代償を払う。
最後に、時間制約付きキーフレーム選択では、抽出されるキーフレームの数は、基礎となるショットが単調な内容を有する場合にNSより少ない場合がある。
実験結果により、フレームの重要度を求めるために使用される要因の有効性が確認される。
図9aおよび図9bは2つのフレームを示し、図9bは顔検出を含めた後に抽出されたキーフレームであり、図9aはオリジナルの候補である。
図9bの画像は画像において人物をより容易に識別することができるため、図9bの画像が明らかに良好な選択である。
図13aおよび図13bは、エッジエネルギー制限要因が実施される場合に、図13aに示す最初に選択されたキーフレームが図13bに示すフレームで置き換えられる別の2つのフレームを示す。
図13bの画像はよりはっきりと焦点が合っており、図13aのぼやけた画像よりも視覚的に感じがよい。
初期キーフレームセットNを上に述べたように生成した後、ショット・シーン構造に基づいて新しいキーフレームセットN'を構築することができる。
新しいキーフレームセットN'は、ユーザがより多くのキーフレームおよびより高い詳細度(N'>N)、またはより少数のキーフレームおよびより低い詳細度(N'<N)をビデオサマリに望む場合に望ましい場合がある。
より多くのキーフレームが必要な場合、追加の数のキーフレームを基礎となるビデオ内容から抽出しなければならない。
さらに抽出する必要のあるキーフレームND(ND=N'−N)が与えられる場合、初期キーフレームセットNを生成する場合に上に述べたような様式で、追加のキーフレームが、基礎となるシーン22およびショット24のすべてに、それぞれの重要値に基づいて割り当てられる。
基本的な割り当て規則は、重要なシーン22およびショット24ほど多くのキーフレームを得ることである。
上に述べたものと同様のキーフレーム抽出プロセスを、各ショット24が新たに指定された数のキーフレームを得た後、適用することができる。
より少ないキーフレームが必要な場合、余分なキーフレームが初期キーフレームセットNから除去される。
図1dに示すように、オリジナルセットNから除去しなければならないキーフレームND(ND=N−N')が与えられる場合、ND枚のキーフレームが基礎となるシーン22に分散される。
但し、シーン22から除去すべきキーフレーム数はシーン22の重要度に反比例する。
R枚のフレームをシーンjのキーフレームセットから除去する必要があると想定する場合の手順は以下である。
すなわち、シーン22内の最低重要度ショット24から始めて各ショット24をチェックする。
ショットが2つ以上のキーフレームを含む場合、最低重要度キーフレームを除去し、Rを1だけ減分する。
Rが0に等しい場合は停止し、その他の場合は次のショット24に続く。
最後のショット24に達した場合は、最低重要度ショット24から再び始める。
あらゆるショット24に残っているキーフレームが1枚のみであり、Rが依然として0よりも大きい場合、最低重要度ショット24からはじめて、そのショットの最後のキーフレームを除去する。
したがって、ユーザの好みに基づいてスケーラブルなビデオサマリ80を実現することができる。
さらに、初期キーフレームセットNがオフラインで生成される場合、リアルタイムビデオ要約を実現することができる。
スケーラブルなビデオサマリの価値は、ユーザがビデオ階層(シーン−ショット−フレーム)ツリーに沿ってナビゲートを必要とする例で分かる。
たとえば、ユーザが特定のシーン22またはショット24の詳細なサマリを見たい一方で、他の短いレビューだけを見たい場合、本明細書に記載の本発明は、予め規定されているが、調整可能なスケールファクタを使用することによってこれを容易に実現することができる。
具体的には、初期キーフレーム割り当て数に基づいてスケールファクタを使用して、所望のショット、シーン、さらにはシーケンス全体に現在所望のキーフレーム数を計算することができる。
次いで、キーフレームが上に述べた方式を使用して抽出または除去される。
ユーザは、デフォルトのナビゲーションスケールに満足しない場合、各自が満足するように容易に調整することができる。
本明細書に記載のビデオ要約化およびナビゲーションシステムは、選ばれたプラットフォームが十分な計算能力を有するプロセッサ102、ビデオサマリを記憶するデータ記憶システム104、およびビデオサマリ80の詳細レベルをユーザが変更できるようにするインタフェース106を有する限り、家庭用コンピュータ100等、様々なプラットフォームに実装することができる。
データ記憶システム104は、ハードドライブディスクであっても、他の永久記憶装置であっても、または選ばれたプラットフォームのランダムアクセスメモリであってもよい。
ビデオサマリ80は、表示装置108、たとえばビデオモニタやプリンタによって生成されるハードコピーに表示することができる。
[実験結果]
図14aおよび図14bは、本明細書に記載のスケーラブルなビデオサマリ80の一例を示し、図14aは特定のショットに初期生成される3枚のキーフレームを示し、図14bはユーザが基礎となる内容をより詳細に見ることを要求した場合にさらに抽出される2枚のキーフレームを示す。
このショットは実際に、出席しているすべてのゲストを紹介する長いカメラパニングシーケンスを含み、2枚の追加キーフレームによりユーザがショットについての理解度を深めることができることが分かる。
特定の実施形態を好ましい実施形態の説明を目的として本明細書に図示し説明したが、本発明の範囲から逸脱することなく、図示し説明した特定の実施形態に代えて広範な代替および/または等価の実施態様を用い得ることが当業者により理解されよう。
コンピュータ分野および電気分野の当業者は、本発明を非常に広い範囲の実施形態で実施し得ることを容易に理解するであろう。
本願は、本明細書において説明した好ましい実施形態の適合形態および変形形態をいずれも包含することを意図する。
したがって、本発明は特許請求項および特許請求項の等価物によってのみ限定されることを明らかに意図する。
ビデオ階層構造の概略図である。 本発明によるビデオサマリを作成する1つのプロセスを示すフローチャートである。 本発明による重要値計算の一実施形態を示すフローチャートである。 本発明によるキーフレーム除去の一実施形態を示すフローチャートである。 カメラのパニング、傾斜、およびズーミングのオプティカルフローフィールドを示す。 カメラの動きが量子化される8つの方向を示す。 MPEGピクチャグループ構造の一例を示す。 カメラの右へのパニングを示すヒストグラムの一例である。 カメラのズーミングを示すヒストグラムの一例である。 カメラパニングシーケンスを含むビデオショットを示す統計rおよびAvgMagのグラフである。 カメラの動きなしのショットを含むビデオショットを示す統計rおよびAvgMagのグラフである。 CbCr色空間において肌色が占める領域を示す。 CbCr色空間において肌色が占める領域を示す。 肌色検出により或る顔が認識される一方で別の顔が無視される一例を示す。 肌色検出により或る顔が認識される一方で別の顔が無視される一例を示す。 顔認識アルゴリズムが或るフレームにおいて顔の検出に失敗する一方で、別のフレームにおいて顔を検出する一例を示す。 顔認識アルゴリズムが或るフレームにおいて顔の検出に失敗する一方で、別のフレームにおいて顔を検出する一例を示す。 垂直エッジオペレータを適用して十分に焦点合わせされたキーフレームを選択する例を示す。 垂直エッジオペレータを適用して十分に焦点合わせされたキーフレームを選択する例を示す。 垂直エッジオペレータを適用して十分に焦点合わせされたキーフレームを選択する例を示す。 垂直エッジオペレータを適用して十分に焦点合わせされたキーフレームを選択する例を示す。 ビデオショット例のエッジエネルギーの計算された標準偏差のグラフである。 ビデオショット例の重要曲線を示す。 フレームエッジエネルギーを考慮したキーフレーム選択を示す。 フレームエッジエネルギーを考慮しないキーフレーム選択を示す。 本明細書に記載のスケーラブルなビデオサマリの一例を示す。 本明細書に記載のスケーラブルなビデオサマリの一例を示す。 本発明によるビデオサマリの作成に使用することができるコンピュータシステムの概略図である。
符号の説明
20・・・ビデオシーケンス,
22・・・シーン,
24・・・ショット,
26・・・フレーム,
102・・・データプロセッサ,
104・・・データ記憶装置,
106・・・ユーザインタフェース,
108・・・表示装置,

Claims (10)

  1. カメラにより撮影されたビデオドキュメントを自動的に要約する方法であって、
    前記ビデオドキュメント(20)を、シーン(22)、ショット(24)およびフレーム(26)に分解するステップと、
    前記シーン(22)の長さと、前記シーン(22)のアクティビティレベルと、前記シーン(22)中のショット(24)の数とに基づいて、各シーン(22)の重要値を計算するステップと、
    前記ショット(24)の長さと、前記ショット(24)内のアクティビティレベルと、前記ショット(24)内のパニングを示すカメラの動きとに基づいて、各ショット(24)の重要値を計算するステップと、
    前記フレーム(26)中の肌色ピクセルの割合と、前記フレーム(26)において検出された人間の顔の数と、前記フレーム(26)の輪郭線の明確さを示す値と、前記フレーム(26)に含まれるアクティビティレベルとに基づいて、各フレーム(26)の重要値を計算するステップと、
    前記シーン(22)の前記重要値に基づいて、前記シーン(22)に所定数のキーフレーム(N)を割り当てるステップと、
    前記ショット(24)の前記重要値に基づいて、各シーン(22)に割り当てられた前記キーフレームを、各シーンの前記構成要素ショット(24)に振り分けるステップと、
    ショット内の各フレームの重要値を示す重要値曲線配下の面積に基づき正規化された前記重要値曲線の面積を、前記ショットに振り分けられたキーフレームの数で分割したセグメントそれぞれにおいて、セグメントに含まれるフレームのうちの1つをキーフレームとして選択するステップと、
    ユーザ入力に応答して、キーフレーム数を変更するステップと
    を含む方法。
  2. シーンの重要値を計算することは、
    前記シーン(22)の長さを測定するステップと、
    前記シーン(22)のアクティビティレベルを定量化するステップと、
    前記シーン(22)中のショット(24)の数をカウントするステップと
    を含む請求項1に記載の方法。
  3. 前記シーン(22)の前記アクティビティレベルを定量化することは、
    前記シーン内の連続した各フレーム対のカラーヒストグラム差分を計算するステップと、
    前記計算した差分の平均を用いて前記シーンのアクティビティレベルを示すステップと
    を含む請求項2に記載の方法。
  4. ショットの重要値を計算することは、
    前記ショット(24)の長さを測定するステップと、
    前記ショット(24)内のアクティビティレベルを定量化するステップと、
    前記ショット(24)内のパニングを示すカメラの動きを定量化するステップと
    を含む
    請求項1に記載の方法。
  5. 前記ショット(24)内のアクティビティレベルを定量化することは、
    前記ショット(24)内の少なくとも1つの連続するフレーム対間の動きベクトルの大きさを計算するステップと、
    前記計算した動きベクトルの大きさの平均を用いて前記ショットのアクティビティレベルを示すステップと
    を含む
    請求項4に記載の方法。
  6. 前記ショット(24)内のパニングを示すカメラの動きを定量化することは、
    各フレーム(26)の方向動きベクトルmvを離散数の方向に分類するステップと、
    動きベクトルヒストグラム(32)を計算するステップと、
    方向動き比率および前記方向動きベクトルmvの大きさ平均を計算するステップと
    を含む請求項1に記載の方法。
  7. フレームの重要値を計算することは、
    前記フレーム(26)中の肌色ピクセルの割合を求めるステップと、
    前記フレーム(26)において検出された人間の顔の数をカウントするステップと、
    前記フレーム(26)の輪郭線の明確さを示す値を計算するステップと、
    前記フレーム(26)に含まれるアクティビティレベルを定量化するステップと
    を含む請求項1に記載の方法。
  8. 各ショット(24)から割り振られた数のキーフレームを選択することは、ショット内で時系列に並ぶフレームから、予め決められた間隔以上で抽出されたフレームをキーフレームとして選択するステップ
    を含む
    請求項1に記載の方法。
  9. ユーザ入力に応答してキーフレーム数を変更することは、
    前記所定数の選択されたキーフレーム(N)から1つまたは複数のキーフレームを除去するステップ、または、
    前記所定数の選択されたキーフレーム(N)に1つまたは複数のキーフレームを追加するステップ
    を含む
    請求項1に記載の方法。
  10. カメラにより撮影されたビデオドキュメントを要約する方法を実行するようにコンピュータシステムを制御する命令を含むコンピュータ可読媒体であって、前記方法は、
    前記ビデオドキュメントをシーン、ショット、およびフレームに分解するステップと、
    前記シーンの長さと、前記シーンのアクティビティレベルと、前記シーン中のショットの数とに基づいて、各シーンの重要値を計算するステップと、
    前記ショットの長さと、前記ショット内のアクティビティレベルと、前記ショット(24)内のパニングを示すカメラの動きとに基づいて、各ショットの重要値を計算するステップと、
    前記フレーム中の肌色ピクセルの割合と、前記フレームにおいて検出された人間の顔の数と、前記フレームの輪郭線の明確さを示す値と、前記フレームに含まれるアクティビティレベルとに基づいて、各フレームの重要値を計算するステップと、
    各シーンの前記重要値に基づいて、前記シーンに所定数のキーフレームを割り振るステップと、
    各ショットの前記重要値に基づいて、各シーンに割り当てられた前記キーフレームを、各シーンの前記構成要素ショットに割り振るステップと、
    ショット内の各フレームの重要値を示す重要値曲線配下の面積に基づき正規化された前記重要値曲線の面積を、前記ショットに振り分けられたキーフレームの数で分割したセグメントそれぞれにおいて、セグメントに含まれるフレームのうちの1つをキーフレームとして選択するステップと、
    ユーザ入力に応答してキーフレーム数を変更するステップと
    を含む
    コンピュータ可読媒体。
JP2004504147A 2002-05-07 2003-05-07 スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法 Expired - Fee Related JP4426966B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/140,511 US7035435B2 (en) 2002-05-07 2002-05-07 Scalable video summarization and navigation system and method
PCT/US2003/014709 WO2003096229A2 (en) 2002-05-07 2003-05-07 Scalable video summarization and navigation system and method

Publications (2)

Publication Number Publication Date
JP2005525034A JP2005525034A (ja) 2005-08-18
JP4426966B2 true JP4426966B2 (ja) 2010-03-03

Family

ID=29399443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004504147A Expired - Fee Related JP4426966B2 (ja) 2002-05-07 2003-05-07 スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法

Country Status (5)

Country Link
US (1) US7035435B2 (ja)
EP (1) EP1502210A2 (ja)
JP (1) JP4426966B2 (ja)
AU (1) AU2003230369A1 (ja)
WO (1) WO2003096229A2 (ja)

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6870956B2 (en) 2001-06-14 2005-03-22 Microsoft Corporation Method and apparatus for shot detection
US7047494B2 (en) * 2002-05-07 2006-05-16 Hewlett-Packard Development Company, L.P. Scalable video summarization
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
GB2395852B (en) * 2002-11-29 2006-04-19 Sony Uk Ltd Media handling system
US7164798B2 (en) * 2003-02-18 2007-01-16 Microsoft Corporation Learning-based automatic commercial content detection
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
US7480442B2 (en) * 2003-07-02 2009-01-20 Fuji Xerox Co., Ltd. Systems and methods for generating multi-level hypervideo summaries
US7400761B2 (en) * 2003-09-30 2008-07-15 Microsoft Corporation Contrast-based image attention analysis framework
US7471827B2 (en) * 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
US7664292B2 (en) * 2003-12-03 2010-02-16 Safehouse International, Inc. Monitoring an output from a camera
US8081863B2 (en) * 2004-01-30 2011-12-20 Panasonic Corporation Content playback apparatus
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video
JP2005277981A (ja) * 2004-03-26 2005-10-06 Seiko Epson Corp 画像処理のための対象画像の選択
US7697785B2 (en) * 2004-03-31 2010-04-13 Fuji Xerox Co., Ltd. Generating a highly condensed visual summary
US8411902B2 (en) * 2004-04-07 2013-04-02 Hewlett-Packard Development Company, L.P. Providing a visual indication of the content of a video by analyzing a likely user intent
US9053754B2 (en) * 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
JP4758161B2 (ja) 2004-07-30 2011-08-24 パナソニック株式会社 ダイジェストの作成方法及び装置
US7986372B2 (en) 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
GB2421135A (en) * 2004-12-09 2006-06-14 Sony Uk Ltd User resizable video display of catalogue entries
US7760956B2 (en) 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US20060271855A1 (en) * 2005-05-27 2006-11-30 Microsoft Corporation Operating system shell management of video files
US8089563B2 (en) * 2005-06-17 2012-01-03 Fuji Xerox Co., Ltd. Method and system for analyzing fixed-camera video via the selection, visualization, and interaction with storyboard keyframes
US8180826B2 (en) 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8196032B2 (en) 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7904455B2 (en) * 2005-11-03 2011-03-08 Fuji Xerox Co., Ltd. Cascading cluster collages: visualization of image search results on small displays
US8036263B2 (en) * 2005-12-23 2011-10-11 Qualcomm Incorporated Selecting key frames from video frames
US7599918B2 (en) * 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
WO2007091587A1 (ja) * 2006-02-08 2007-08-16 Nec Corporation 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
WO2008028334A1 (en) * 2006-09-01 2008-03-13 Thomson Licensing Method and device for adaptive video presentation
US8000533B2 (en) * 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
US8375302B2 (en) * 2006-11-17 2013-02-12 Microsoft Corporation Example based video editing
DE102007063635A1 (de) * 2007-03-22 2009-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion
US9047374B2 (en) * 2007-06-08 2015-06-02 Apple Inc. Assembling video content
US8224087B2 (en) * 2007-07-16 2012-07-17 Michael Bronstein Method and apparatus for video digest generation
WO2009024966A2 (en) * 2007-08-21 2009-02-26 Closevu Ltd. Method for adapting media for viewing on small display screens
US8526489B2 (en) 2007-09-14 2013-09-03 General Instrument Corporation Personal video recorder
US8788963B2 (en) * 2008-10-15 2014-07-22 Apple Inc. Scrollable preview of content
US8045366B2 (en) * 2008-11-05 2011-10-25 Seagate Technology Llc STRAM with composite free magnetic element
US9032299B2 (en) * 2009-04-30 2015-05-12 Apple Inc. Tool for grouping media clips for a media editing application
US8359537B2 (en) 2009-04-30 2013-01-22 Apple Inc. Tool for navigating a composite presentation
US20100281371A1 (en) * 2009-04-30 2010-11-04 Peter Warner Navigation Tool for Video Presentations
US8769421B2 (en) * 2009-04-30 2014-07-01 Apple Inc. Graphical user interface for a media-editing application with a segmented timeline
US8345990B2 (en) * 2009-08-03 2013-01-01 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
US8897603B2 (en) * 2009-08-20 2014-11-25 Nikon Corporation Image processing apparatus that selects a plurality of video frames and creates an image based on a plurality of images extracted and selected from the frames
US8571330B2 (en) * 2009-09-17 2013-10-29 Hewlett-Packard Development Company, L.P. Video thumbnail selection
US8438484B2 (en) * 2009-11-06 2013-05-07 Sony Corporation Video preview module to enhance online video experience
US8599316B2 (en) 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
US8619150B2 (en) 2010-05-25 2013-12-31 Intellectual Ventures Fund 83 Llc Ranking key video frames using camera fixation
US8432965B2 (en) 2010-05-25 2013-04-30 Intellectual Ventures Fund 83 Llc Efficient method for assembling key video snippets to form a video summary
US8446490B2 (en) 2010-05-25 2013-05-21 Intellectual Ventures Fund 83 Llc Video capture system producing a video summary
US8520088B2 (en) 2010-05-25 2013-08-27 Intellectual Ventures Fund 83 Llc Storing a video summary as metadata
US8605221B2 (en) 2010-05-25 2013-12-10 Intellectual Ventures Fund 83 Llc Determining key video snippets using selection criteria to form a video summary
US8773490B2 (en) * 2010-05-28 2014-07-08 Avaya Inc. Systems, methods, and media for identifying and selecting data images in a video stream
US9323438B2 (en) 2010-07-15 2016-04-26 Apple Inc. Media-editing application with live dragging and live editing capabilities
US8875025B2 (en) 2010-07-15 2014-10-28 Apple Inc. Media-editing application with media clips grouping capabilities
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
CN102402536A (zh) * 2010-09-13 2012-04-04 索尼公司 从视频中提取关键帧的方法和设备
JP5671349B2 (ja) * 2011-01-06 2015-02-18 任天堂株式会社 画像処理プログラム、画像処理装置、画像処理システム、および画像処理方法
US9099161B2 (en) 2011-01-28 2015-08-04 Apple Inc. Media-editing application with multiple resolution modes
US20120210219A1 (en) 2011-02-16 2012-08-16 Giovanni Agnoli Keywords and dynamic folder structures
US8966367B2 (en) 2011-02-16 2015-02-24 Apple Inc. Anchor override for a media-editing application with an anchored timeline
US9997196B2 (en) 2011-02-16 2018-06-12 Apple Inc. Retiming media presentations
US11747972B2 (en) 2011-02-16 2023-09-05 Apple Inc. Media-editing application with novel editing tools
WO2012110689A1 (en) * 2011-02-18 2012-08-23 Nokia Corporation Method, apparatus and computer program product for summarizing media content
WO2012136880A1 (en) * 2011-04-06 2012-10-11 Nokia Corporation Method, apparatus and computer program product for managing media content
US9271035B2 (en) * 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US20120263439A1 (en) * 2011-04-13 2012-10-18 David King Lassman Method and apparatus for creating a composite video from multiple sources
US8665345B2 (en) 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
US8643746B2 (en) 2011-05-18 2014-02-04 Intellectual Ventures Fund 83 Llc Video summary including a particular person
US9536564B2 (en) 2011-09-20 2017-01-03 Apple Inc. Role-facilitated editing operations
US9402114B2 (en) 2012-07-18 2016-07-26 Cisco Technology, Inc. System and method for providing randomization in adaptive bitrate streaming environments
US9516078B2 (en) * 2012-10-26 2016-12-06 Cisco Technology, Inc. System and method for providing intelligent chunk duration
CN102902819B (zh) * 2012-10-30 2015-10-14 浙江宇视科技有限公司 一种视频智能分析方法及装置
JP2016517640A (ja) * 2013-03-06 2016-06-16 トムソン ライセンシングThomson Licensing ビデオの画像サマリ
GB2531969B (en) * 2013-10-03 2016-08-10 Supponor Oy Method and apparatus for image frame identification
US10460194B2 (en) * 2014-03-07 2019-10-29 Lior Wolf System and method for the detection and counting of repetitions of repetitive activity via a trained network
US9639762B2 (en) 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
US10089532B2 (en) * 2015-02-23 2018-10-02 Kodak Alaris Inc. Method for output creation based on video content characteristics
US10158983B2 (en) 2015-07-22 2018-12-18 At&T Intellectual Property I, L.P. Providing a summary of media content to a communication device
CN108025134B (zh) 2015-08-28 2021-07-16 克里斯医疗***股份有限公司 包括传输连接件的流量传感器***
KR20170098079A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 전자 장치 및 전자 장치에서의 비디오 녹화 방법
US20170316256A1 (en) * 2016-04-29 2017-11-02 Google Inc. Automatic animation triggering from video
US11259088B2 (en) * 2017-10-27 2022-02-22 Google Llc Previewing a video in response to computing device interaction
CN111465916B (zh) * 2017-12-22 2024-04-23 索尼公司 信息处理装置、信息处理方法以及程序
US11200425B2 (en) 2018-09-21 2021-12-14 Samsung Electronics Co., Ltd. Method for providing key moments in multimedia content and electronic device thereof
CN110213614B (zh) * 2019-05-08 2021-11-02 北京字节跳动网络技术有限公司 从视频文件中提取关键帧的方法和装置
EP3968636A1 (en) 2020-09-11 2022-03-16 Axis AB A method for providing prunable video

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) * 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US5708767A (en) * 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US8107015B1 (en) * 1996-06-07 2012-01-31 Virage, Incorporated Key frame selection
JPH09326990A (ja) * 1996-06-07 1997-12-16 Matsushita Electric Ind Co Ltd 映像編集装置
JPH10232884A (ja) * 1996-11-29 1998-09-02 Media Rinku Syst:Kk 映像ソフトウェア処理方法及び映像ソフトウェア処理装置
US6340971B1 (en) * 1997-02-03 2002-01-22 U.S. Philips Corporation Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6320669B1 (en) * 1998-04-08 2001-11-20 Eastman Kodak Company Method and apparatus for obtaining consumer video segments for the purpose of creating motion sequence cards
US6252975B1 (en) * 1998-12-17 2001-06-26 Xerox Corporation Method and system for real time feature based motion analysis for key frame selection from a video
US6342904B1 (en) * 1998-12-17 2002-01-29 Newstakes, Inc. Creating a slide presentation from full motion video
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
JP4227241B2 (ja) 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
US6424789B1 (en) * 1999-08-17 2002-07-23 Koninklijke Philips Electronics N.V. System and method for performing fast forward and slow motion speed changes in a video stream based on video content
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content

Also Published As

Publication number Publication date
WO2003096229A2 (en) 2003-11-20
US20030210886A1 (en) 2003-11-13
US7035435B2 (en) 2006-04-25
JP2005525034A (ja) 2005-08-18
AU2003230369A1 (en) 2003-11-11
WO2003096229A3 (en) 2004-04-01
EP1502210A2 (en) 2005-02-02

Similar Documents

Publication Publication Date Title
JP4426966B2 (ja) スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法
Cernekova et al. Information theory-based shot cut/fade detection and video summarization
Zabih et al. A feature-based algorithm for detecting and classifying production effects
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
De Avila et al. VSUMM: A mechanism designed to produce static video summaries and a novel evaluation method
US6807306B1 (en) Time-constrained keyframe selection method
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
US8031775B2 (en) Analyzing camera captured video for key frames
US8363960B2 (en) Method and device for selection of key-frames for retrieving picture contents, and method and device for temporal segmentation of a sequence of successive video pictures or a shot
US8442384B2 (en) Method and apparatus for video digest generation
US7889794B2 (en) Extracting key frame candidates from video clip
JP5005154B2 (ja) 記憶媒体上に記憶された情報信号を再生する装置
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
Lian Automatic video temporal segmentation based on multiple features
CN107430780B (zh) 用于基于视频内容特性的输出创建的方法
US8320664B2 (en) Methods of representing and analysing images
JP2005276220A (ja) ビデオからのインテリジェントなキーフレーム抽出
JP2006510072A (ja) 一様なカラーセグメントを検出するための方法及びシステム
Sebastian et al. A survey on video summarization techniques
Yang et al. Key frame extraction using unsupervised clustering based on a statistical model
JP2002133420A (ja) 映像インデックス付けおよびイメージ読み出しシステム
US20070061727A1 (en) Adaptive key frame extraction from video data
KR102245349B1 (ko) 비디오로부터의 색상 스키마 추출 방법 및 장치
KR20050033075A (ko) 비디오 이미지들의 시퀀스에서 콘텐트 속성을 검출하는 유닛 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080825

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees