JP4613569B2 - キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システム - Google Patents

キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システム Download PDF

Info

Publication number
JP4613569B2
JP4613569B2 JP2004291478A JP2004291478A JP4613569B2 JP 4613569 B2 JP4613569 B2 JP 4613569B2 JP 2004291478 A JP2004291478 A JP 2004291478A JP 2004291478 A JP2004291478 A JP 2004291478A JP 4613569 B2 JP4613569 B2 JP 4613569B2
Authority
JP
Japan
Prior art keywords
segment
similarity
key frame
digital media
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004291478A
Other languages
English (en)
Other versions
JP2005115952A5 (ja
JP2005115952A (ja
Inventor
エル.クーパー マシュー
ティー.フート ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2005115952A publication Critical patent/JP2005115952A/ja
Publication of JP2005115952A5 publication Critical patent/JP2005115952A5/ja
Application granted granted Critical
Publication of JP4613569B2 publication Critical patent/JP4613569B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、デジタル・メディア分析の分野に関し、より詳細には、デジタル・メディア自動識別分析の分野に関する。即ち、本発明は、キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システムに関する。
インターネット、デジタル・スチルカメラ、及びデジタル・ビデオカメラの出現により、個人が大きな集合の「デジタル・メディア」を整理することは日常的なこととなっている。この集合が大きくなるほど、必要なメディア項目を迅速に捜して識別し、検討及び/又は編集することが困難になる。
この問題を解決しようと、いくつかの技法が考案されてきている。例えば、ある技法では、メディアのその特定項目の代表として「キーフレーム」が識別される。しかしながら、現在のキーフレーム選択技法には、デジタル・メディアの類似項目(即ち、類似した内容を含む項目)により区別不可能なほど類似したキーフレームがよく生じる、という問題がある。専門的に作製されたデジタル・ビデオでさえも、この状況は非常によく生じる。例えば、一般的なフィルム技法として、各話者のショットを交互につなぎ合わせて対話フロー図を構成する技法がある。セグメント化後、同じ話者の各ショットは、同じ対象を同じ角度から同じ照明、背景などで撮っているので、非常に類似している。デジタル・カメラから得られる短いビデオ・クリップや、セグメント・ベースのビデオ・リポジトリから得られるプリセグメントの結果のような、多数の一般的なビデオ・ソースが、この問題を共有している。このような従来技術に関するものとして、特許文献1には、音楽やスピーチの特徴点の抽出手法とセグメント化についての手法が記載されている。また、米国特許出願第10/086,817号明細書には、ビデオ、オーディオ、テキスト等のメディアにおける、類似度を指標とした最適な要約作製手法が記載されている。
また、非特許文献1には、デジタル・ビデオの記録内容についてキーフレームを用いる3つの視覚的インターフェースにより、効率的なアクセスポイントを提供することが記載されている。非特許文献2も、やはり、キーフレームを利用するものであり、デジタル・ビデオ全体を的確に要約し、かつ、それぞれ、異なるキーフレームを決定することにより、適切なアクセスポイントを提供する技術を提供する。非特許文献3は、デジタル・ビデオにおける繰り返しを検出することにより、キーフレームにおける類似性を減少させるようにして、効率的なキーフレームを選択する、ショット分類法について記載している。
米国特許第6,542,869号明細書 A.ギルゲンゾーン(A. Girgensohn)、J.ボレツキー(J. Boreczky)、L.ウィルコックス(L. Wilcox)著,「キーフレーム・ベースのデジタル・ビデオ用ユーザ・インタフェース(Keyframe-Based User Interfaces for Digital Video)」,IEEEコンピュータ(IEEE Computer),2001年9月 A.ギルゲンゾーン、J.ボレツキー著,「時間制約付きキーフレーム選択技法(Time-Constrained Keyframe Selection Technique)」,IEEEマルチメディア・システムズ会報(Proc. IEEE Multimedia Systems),第1巻,p.756−761,1999年 H.アオキ(H. Aoki)、S.シモツジ(S. Shimotsuji)、O.ホリ(O. Hori)著,「ビデオ・ブラウジングに効果的なキーフレームを選択するショット分類法(A Shot Classification Method of Selecting Effective Key-Frames for Video Browsing)」,ACMマルチメディア会報(Proc. ACM Multimedia),1996年
従って、デジタル・メディアを代表しその他の選択されたキーフレームとは異なるキーフレームを自動的に選択するシステム及び方法を提供することが望ましい。
概略的に述べると、本発明の実施形態によれば、ソース・デジタル・メディアのセグメントを代表するキーフレームを識別選択するシステム及び方法が提供される。キーフレームは、ソース・デジタル・メディアを前処理して、メディアのフレームに対する特徴ベクトルを取得することにより選択される。次に、ソース・デジタル・メディアの各セグメントに対する候補キーフレームを同じセグメントのその他のフレームと比較することにより、類似度(similarity value)が決定される。また、この候補キーフレームをソース・デジタル・メディアのその他のセグメントに属するフレームとも比較することによって、非類似度(dis-similarity measure)が決定される。次に、最良値を有する、即ち、セグメントの代表であると共にその他のキーフレームと区別可能である、候補キーフレームを選択することにより、代表キーフレームが選択される。
請求項1の発明は、ソース・デジタル・メディアのセグメントを代表するキーフレームの識別選択を行うプログラムであって、コンピュータに、複数のセグメントを含む前記ソース・デジタル・メディアを取得するステップと、取得された前記ソース・デジタル・メディアを前処理して複数の特徴ベクトルを取得するステップと、取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定するステップと、取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定するステップと、前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するステップと、を実行させるためのプログラムである。
請求項2の発明は、前記セグメント内の類似度と前記セグメント外の類似度との差分又は比率で表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが全フレームに対して最大となるように、前記キーフレームを識別選択する、請求項1に記載のプログラムである。
請求項3の発明は、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含む、請求項1に記載のプログラムである。
請求項4の発明は、前記複数項目のソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するステップを含む、請求項3に記載のプログラムである。
請求項5の発明は、前記ソース・デジタル・メディアを取得するステップに続いて、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいるかを判定するステップをさらに含む、請求項1に記載のプログラムである。
請求項6の発明は、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいると判定された場合、前記ソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するステップをさらに含む、請求項5に記載のプログラムである。
請求項7の発明は、前記セグメント内の類似度を決定するステップが、候補キーフレームをセグメントに属するその他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント内の類似度を決定するステップと、をさらに含み、前記セグメント外の類似度を決定するステップが、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント外の類似度を決定するステップと、をさらに含む、請求項1に記載のプログラムである。
請求項8の発明は、デジタル情報を代表するキーフレームの識別選択を行うプログラムであって、コンピュータに、デジタル情報を取得するステップと、前記デジタル情報を複数のセグメントにセグメント化するステップと、複数のセグメントにセグメント化された前記デジタル情報を前処理して複数の特徴ベクトルを取得するステップと、取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定するステップと、取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定するステップと、前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するステップと、を実行させるためのプログラムである。
請求項9の発明は、前記セグメント内の類似度を決定するステップが、候補キーフレームをセグメントに属するその他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント内の類似度を決定するステップと、を含み、前記セグメント外の類似度を決定するステップが、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント外の類似度を決定するステップと、を含み、前記キーフレームを識別選択するステップにおいて、前記セグメント内の類似度と前記セグメント外の類似度とを用いて表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが、各セグメント内の全フレームに対して最大となるように、各セグメントのキーフレームを識別選択する、請求項8に記載のプログラムである。
請求項10の発明は、前記キーフレームを識別選択するステップが、前記セグメント内の類似度と前記セグメント外の類似度とをバイアスするステップを含む、請求項9に記載のプログラムである。
請求項11の発明は、前記キーフレームを識別選択するステップが、複数のキーフレームを各セグメントの代表として識別選択するステップを含む、請求項8に記載のプログラムである。
請求項12の発明は、ソース・デジタル・メディアのセグメントを代表するキーフレームの識別選択システムであって、複数のセグメントを含む前記ソース・デジタル・メディアを入力するメディア入力部と、前記メディア入力部により入力された前記ソース・デジタル・メディアを前処理して複数の特徴ベクトルを取得する特徴ベクトル取得部と、前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定する第1の類似度決定部と、前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定する第2の類似度決定部と、前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するキーフレーム選択部と、を含む前記キーフレームの識別選択システムである。
請求項13の発明は、前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度との差分又は比率で表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが全フレームに対して最大となるように、前記キーフレームを識別選択する、請求項12に記載のキーフレームの識別選択システムである。
請求項14の発明は、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含む、請求項12に記載のキーフレームの識別選択システムである。
請求項15の発明は、前記複数項目のソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するメディア連結部を含む、請求項14に記載のキーフレームの識別選択システムである。
請求項16の発明は、取得された前記ソース・デジタル・メディアに対し、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいるか、を判定するメデイア判定部をさらに含む、請求項12に記載のキーフレームの識別選択システムである。
請求項17の発明は、前記第1の類似度決定部が、候補キーフレームをセグメントに属するその他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント内の類似度を決定し、前記第2の類似度決定部が、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント外の類似度を決定する、請求項12に記載のキーフレームの識別選択システムである。
請求項18の発明は、デジタル情報を代表するキーフレームの識別選択システムであって、デジタル情報を取得するデジタル情報取得部と、前記デジタル情報を複数のセグメントにセグメント化するセグメント処理部と、複数のセグメントにセグメント化された前記デジタル情報を前処理して複数の特徴ベクトルを取得する特徴ベクトル取得部と、前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定する第1の類似度決定部と、前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定する第2の類似度決定部と、前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するキーフレーム選択部と、を含む、前記キーフレームの識別選択システムである。
請求項19の発明は、前記第1の類似度決定部が、候補キーフレームをセグメントに属するその他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント内の類似度を決定し、前記第2の類似度決定部が、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント外の類似度を決定し、前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度とを用いて表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが、各セグメント内の全フレームに対して最大となるように、各セグメントのキーフレームを識別選択する、請求項18に記載のキーフレームの識別選択システムである。
請求項20の発明は、前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度とをバイアスする、請求項19に記載のキーフレームの識別選択システムである。
請求項21の発明は、前記キーフレーム選択部が、複数のキーフレームを各セグメントの代表として識別選択する、請求項19に記載のキーフレームの識別選択システムである。
本発明を、特定の実施形態に関して説明する。本発明のその他の目的、特徴、及び利点については、明細書及び図面を参照すれば明らかとなるであろう。
定義
本明細書中で用いられる「デジタル・メディア」とは、デジタル・ビデオ、デジタル画像、デジタル・オーディオ、テキスト、及び印刷可能ページを含むが、これらに限定されるわけではない。
本明細書中で用いられる「フレーム」とは、より大きな項目若しくは集合であるデジタル・メディアのあらゆる基本サブユニットである。例えば、デジタル・ビデオは静止画像のシーケンスであり、各静止画像を本明細書中ではフレームと呼んで説明する。デジタル・ビデオと同様に、デジタル写真の集合も、概念上、静止画像のシーケンスとみなすことができる。このようなシーケンス若しくは集合に対して、各単独の写真を本明細書中ではフレームと呼ぶ。オーディオ、テキスト、及び/若しくはその他のデジタル・メディアから構成されるストリーム、ドキュメント、又はドキュメント集合に対し、フレームとは、このような集合の部分集合である。このようなタイプのメディアは、どのような長さのサブユニットに分割して分析してもよい。本明細書中では、フレームには、より長いストリームから抜粋されたオーディオ又はテキストが含まれ得る。全体を通してフレームという語が用いられているが、この用語は、本発明の範囲をデジタル・ビデオ又はデジタル画像集合に限定することを意図しているわけではなく、あらゆる形態のデジタル・メディアのあらゆるサブユニットを指すために明細書の中で用いている。
本明細書中で用いられる「セグメント」とは、より大きな項目若しくは集合であるデジタル・メディアから選択されるフレームの集合である。例えば、デジタル・メディアを様々な基準に応じてフレームグループにセグメント化することによって、ブラウジング及びナビゲーションが容易になり得る。セグメントは、より大きな項目若しくは集合であるデジタル・メディアのどの部分若しくは部分集合であってもよい。或いは、セグメントは、デジタル・メディアの項目全体であってもよい。例えば、セグメントは、そのソース又は長さに関わらず、デジタル画像の集合であってもよいし、デジタル・ビデオのどの部分であってもよい(ビデオ全体であってもよい)。
本明細書中で用いられる「キーフレーム」とは、セグメント(フレームの集合)から、デジタル・メディアのそのセグメントの代表として選択されるフレームである。
上記定義における例は絶対的なものではなく、あらゆるその他の形態のデジタル・メディアを本発明の実施形態に同様に適用することができる。
概観
本発明の実施形態によれば、デジタル・メディアのセグメントの代表としてキーフレームを識別選択するシステム及び方法が提供される。セグメントを代表しその他のキーフレームと異なるキーフレームを選択することによって、キーフレームが視覚的に特有且つ独特となる。例えば、2つのビデオ・セグメントが同じ招待講演者のビデオを含んでいるが、一方のセグメントでその講演者が笑っているか又は違う方向を向いている場合、選択されたキーフレームがこのような変化を反映すれば、そのキーフレームが表すビデオ・セグメントがもう一方のビデオ・セグメントから容易に区別される。後でより詳細に説明するように、一実施形態では、キーフレームの選択は、そのキーフレームが属するセグメントとその他のセグメントとに対するキーフレームの類似度を測定することにより行われる。要するに、本発明の実施形態によれば、代表的且つ特徴的なキーフレームを選択する定量的方法が提供される。別の例では、デジタル・テキストブックの2つの章(各章はセグメントとみなされる)が類似した題材を含んでいるが、一方の章が要約を含んでいる場合、その章に対して選択されたキーフレームがその要約からのテキストを含んでいれば、それによりその章がもう一方の章から区別される。
図1は、本発明の実施形態によるキーフレーム識別選択処理を示している。当業者には明らかであるように、図1及び図4は、特定機能を行う論理ブロックを示している。別の実施形態では、より多くの又はより少ない論理ブロックを用いてもよい。本発明の実施形態では、論理ブロックは、ソフトウェア・プログラム、ソフトウェア・オブジェクト、ソフトウェア機能、ソフトウェア・サブルーチン、ソフトウェア・メソッド、ソフトウェア・インスタンス、コード・フラグメント、ハードウェア動作、又はユーザ操作を、単独で若しくは組み合わせて表し得る。例えば、この論理ブロックは、図6に示されたキーフレーム識別選択ソフトウェア512を表し得る。
図1の処理は論理ブロック101で開始し、この論理ブロック101では、システムがソース・デジタル・メディアを取得する。このデジタル・メディアは、デジタル・ビデオのようなどんな単独項目のデジタル・メディアであってもよいし、異なるメディアをどのように組み合わせたデジタル・メディアであってもよい。例えば、簡単に図2を参照すると、論理ブロック101で取得されるデジタル・メディアは、セグメント化されていないデジタル・ビデオ2011のような、単独項目のデジタル・メディアであってもよい。或いは、このソース・デジタル・メディアは、セグメント化された若しくはセグメント化されていないデジタル・ビデオやデジタル画像集合など(例えば、セグメント化されていないデジタル・ビデオ2011、セグメント化されたデジタル・ビデオ2012、デジタル画像2013、セグメント化されたデジタル画像集合2014、セグメント化されていないデジタル画像集合2015、セグメント化されていないデジタル・テキスト2016、セグメント化されたデジタル・テキスト2017、セグメント化されていないデジタル・オーディオ2018、セグメント化されたデジタル・オーディオ2019)のうちの1項目以上であってもよい。本発明の実施形態では、論理ブロック101で取得されるソース・デジタル・メディアとして、複数のタイプをどのように組み合わせたデジタル・メディアを用いてもよい。論理ブロック101でソース・デジタル・メディアが取得されると、制御は論理ブロック103へ進む。
論理ブロック103では、ソース・デジタル・メディアが複数項目のデジタル・メディアを含んでいるかということに関して、判定が行われる。ソース・デジタル・メディアが複数項目のデジタル・メディアを含んでいると判定された場合には、制御は論理ブロック105へ進む。一方、論理ブロック103で、ソース・デジタル・メディアが1項目のみのデジタル・メディアを含んでいると判定された場合には、制御は論理ブロック107へ進む。
論理ブロック105では、複数項目のデジタル・メディアが、分析のために、始めと終わりを有する単独ソースに連結される。例えば、図3に示されているように、ソース・デジタル・メディアが、セグメント化されていないデジタル・ビデオ2011、セグメント化されたデジタル・ビデオ2012、デジタル画像2013、及びセグメント化されたデジタル画像集合2014を含んでいる場合、論理ブロック105では、分析及び最終的なキーフレーム抽出のために、これらの項目のデジタル・メディアが全て連結され、単独項目のデジタル・メディア210として扱われる。各項目のデジタル・メディアの元の終了点と開始点は、連結されると、連結ソース・デジタル・メディアにおけるセグメント境界として扱われる。連結されると、制御は論理ブロック107へ進み、処理が続けられる。
論理ブロック107では、ソース・デジタル・メディアがセグメント化されているかということに関して、判定が行われる。後でより詳細に説明するように、本発明の実施形態では、多数の方法でセグメント化を行ってもよいし、どのようなセグメント化技法を用いてもよい。論理ブロック107で、ソース・デジタル・メディアがセグメント化されていると判定された場合には、制御は論理ブロック109へ進む。一方、ソース・デジタル・メディアがセグメント化されていないと判定された場合には、制御は論理ブロック111へ進む。
論理ブロック109では、ソース・デジタル・メディアのセグメント化がさらに必要であるか若しくは要求されているかということに関して、判定が行われる。この判定は、自動的に行われてもよいし、ユーザの要求に応じて行われてもよい。ユーザが単にさらなるセグメント化を要求する場合には、制御は論理ブロック111へ進み、処理が続けられる。セグメント化の自動判定は、既存のセグメントの長さに基づいて行われてもよいし、且つ/又は既存のセグメント全体にわたるシーン変化の計算値に基づいて行われてもよい。例えば、セグメント化されていないデジタル・ビデオ2011のために、ソース・デジタル・メディア210に対してさらなるセグメント化を決定してもよい。連結後、セグメント化されていないデジタル・ビデオ2011は、ソース・デジタル・メディア210の1つのセグメントとして扱われる。ソース・デジタル・メディア210の分析に基づいて、セグメント201全体にわたって数ヶ所のシーン変化を識別することによって、さらなるセグメント化の必要性を示してもよい。
説明の便宜上、セグメント化されていないデジタル・ビデオ2011は、誕生日会のシーン、ハワイへの休暇のシーン、及び山への休暇のシーンを含むと仮定する。連続フレーム間の差を算出することによって、セグメント化されていない複数のシーンがあるということが判定される。このような判定が為されたら、システムは、自動的に制御を論理ブロック111へ進めてもよいし、或いは、セグメント化をさらに行うことが有益であるということをユーザに示して、セグメント化を行うかということに関する判定を要求してもよい。セグメント化がさらに行われる場合には、制御は論理ブロック111へ進み、処理が続けられる。
或いは、自動的に又はユーザ入力により、さらなるセグメント化は必要でないと判定された場合には、制御は論理ブロック113へ進む。この判定におけるユーザ入力とは、さらなるセグメント化は望まないということをユーザが単に示したものである。判定が自動的に行われる場合には、このような結果が生じ得、その時点で全てのシーンがセグメント化されているか、シーンが1つしか存在しない。例えば、ソース・デジタル・メディアがセグメント化されたデジタル画像集合2014しか含んでいない場合、さらなるセグメント化は必要でないとシステムは判定し、制御は論理ブロック113へ進む。
論理ブロック111では、ソース・デジタル・メディアがセグメント化される。本発明の実施形態はいずれの特定のセグメント化技法にも依存することはなく、どのようなセグメント化技法が用いられてもよい。さらに、セグメント化は、全くセグメント化されていないソース・デジタル・メディアに対して行ってもよいし、部分的にのみセグメント化されているソース・デジタル・メディアに対して行ってもよい。本発明の実施形態で用いられ得るセグメント化技法の例としては、ユーザによる手動セグメント化や、フレーム間の差を閾値処理したり、ヒストグラムに基づいてフレーム差を測定したり、自己類似度(self-similarity)を用いたりすることによる自動セグメント化が挙げられるが、これらに限定されるわけではない。自己類似度については、「ビデオの自己類似度分析によるシーン境界検出(Scene Boundary Detection via Video Self-Similarity Analysis)」(マシュー・クーパー(Matthew Cooper)、ジョナサン・フート(Jonathan Foote)著,2001年)に記載されており、この文献は参照により本明細書中に組み込まれる。さらに、米国特許第6,542,869号(発明の名称:音楽及びスピーチを含むオーディオの自動分析方法(Method For Automatic Analysis Of Audio Including Music And Speech);発明者:ジョナサン・フート)(この特許文献は参照により本明細書中に組み込まれる)には、類似度に基づいたさらなるセグメント化技法が記載されており、この技法は本発明の実施形態で用いられ得る。ソース・デジタル・メディアがセグメント化されると、制御は論理ブロック113へ進む。
論理ブロック113では、デジタル・メディアのフレームがパラメータ化されて、これらのフレームを代表する特徴ベクトルが取得される。本発明の実施形態では、ソース・デジタル・メディアの各フレームをパラメータ化してもよい。或いは、処理時間を短縮するために、フレームの一部のみをパラメータ化してもよく、例えば、1フレームおきに、又は2フレームおきに、又はその他どのようなフレームの組み合わせでパラメータ化してもよい。さらに別の実施形態では、複数のフレーム集合を一緒にパラメータ化し、各フレーム集合に対して1つの特徴ベクトルを生成してもよい。
特徴ベクトルを取得するには、どのようなパラメータ化技法を用いてもよい。例えば、低次離散コサイン変換(「DCT」)係数に基づいて、特徴ベクトルを算出してもよい。このような実施形態では、ソース・デジタル・メディアを特定周波数でサンプリングすることによってフレームを取得してもよく、これらのフレームは、3つのチャネルがほぼ相関しないオータ(Ohta)色空間に変換される。各変換チャネルのDCTが算出され、得られた3つのチャネルの25〜49の低周波数係数を連結することによって特徴ベクトルが形成される。この変換方法は、低次化や忠実度よりも分析法(及び、必要であれば計算量)に応じて最適化される。結果として、サンプリングされた各ビデオ・フレームに対し、コンパクトな特徴ベクトル若しくは縮小した係数が得られる。このような手法は、類似度を定量化するのに適している。その理由は、類似したフレームは類似した変換係数(特徴ベクトル)を取得するからである。特徴ベクトルが決定されると、制御は論理ブロック115へ進む。
論理ブロック115では、特徴ベクトルが分析され、キーフレームが各セグメントの代表として選択される。キーフレームを選択する様々な技法については、後で詳細に説明する。キーフレームが選択されたら、システムは、これらのフレームをどのような構成技法でユーザに表示してもよい。
当然のことながら、図1に関して説明した処理は、論理ブロックで示したステップを異なる順序で行ったり、追加のステップを用いたり、より少ないステップを用いたりして、異なる構成若しくは構造で実施してもよい。例えば、一実施形態では、前処理ステップ113を、論理ブロック103及び105の後で、且つセグメント化に関する判定及びセグメント化を行う論理ブロック107、109、及び111の前に行ってもよい。
キーフレーム識別選択方法のさらに別の実施形態が、図4に示されている。処理300は、論理ブロック301において、ソース・デジタル・メディアを取得することにより開始する。図1の論理ブロック101に関して上述したように、このソース・デジタル・メディアは、どのような形態及び組み合わせのデジタル・メディアであってもよいし、複数のソースから取得してもよい。デジタル・メディアが取得されると、制御は論理ブロック303へ進み、論理ブロック103に関して上述したように、このソース・デジタル・メディアが複数項目のデジタル・メディアを含んでいるかということに関して判定が行われる。ソース・デジタル・メディアが複数項目のデジタル・メディアを含んでいると判定された場合には、制御は論理ブロック305へ進む。一方、ソース・デジタル・メディアが複数項目のデジタル・メディアを含んでいないと判定された場合には、制御は論理ブロック313へ進む。
論理ブロック305では、論理ブロック105に関して上述したように、処理及びキーフレーム選択のために、複数項目のデジタル・メディアが1項目のソース・デジタル・メディアに連結される。メディアが連結されると、制御は論理ブロック313へ進み、この論理ブロック313では、論理ブロック113に関して上述した技法のいずれかを用いてソース・デジタル・メディアが前処理され、各フレーム、フレーム部分、又はフレームグループに対して特徴ベクトルが取得される。次に、制御は論理ブロック315へ進む。後で詳細に説明すると共に、前に論理ブロック115に関して略述したように、論理ブロック315では、様々なキーフレーム選択技法のうちの1つを用いて、キーフレームが識別選択される。
前述の実施形態とは異なり、図4に関して説明した実施形態はセグメント化を含んでいない。代わりに、ソース・デジタル・メディアは、既にセグメント化されているものと仮定される。しかしながら、この処理は、事前にセグメント化されていないデータにもやはり適用することができる。例えば、1項目のみのデジタル・メディアが取得された場合には、このデジタル・メディアは1つのセグメントとして扱われ、1つのキーフレームが生成される。複数項目のデジタル・メディアがソース・デジタル・メディアに含まれている場合には、連結後、元の各項目は個々のセグメントとみなされ、これらのセグメント及び/又はあらゆる他のセグメントのそれぞれに対するキーフレームが生成される。
図6は、本発明の実施形態を実施するのに適した計算機アーキテクチャ500を示している。この計算機アーキテクチャ500は、プロセッサ502、記憶装置503、及び表示モニタ504を備える。また、このアーキテクチャ500は、モデムのようなインターネット・アクセス装置510、入出力装置513、カーソル制御装置505、ランダム・アクセス・メモリ(「RAM」)507、読出し専用メモリ(「ROM」)508、キーボード506、及びグラフィックス・コプロセッサ509を備えていてもよい。計算機アーキテクチャ500のこれらの要素は全て、様々な要素間においてデータを搬送する共通バス501によって結合され得る。このバス501は、一般的には、データ信号、アドレス信号、及び制御信号を含む。
本発明の実施形態は、図6に示した計算機アーキテクチャ500のような、あらゆる計算機アーキテクチャにおいて実行可能であるが、このようなアーキテクチャが本発明の実施形態を実行できる唯一のものである、と限定されるわけではない。
本発明の実施形態では、記憶装置503は、コンピュータ可読媒体のような製品であり得る。記憶装置503としては、例えば、磁気ハードディスク、光ディスク、フロッピー(登録商標)ディスク、CD−ROM(コンパクトディスク読出し専用メモリ)、RAM(ランダム・アクセス・メモリ)、ROM(読出し専用メモリ)、又は、その他の読取り可能若しくは書込み可能なデータ記憶技術を、単独で或いは組み合わせて用いてもよい。
この記憶装置503は、マイクロソフト・ウィンドウズ(Microsoft Windows)(登録商標)、アップル・マッキントッシュ(Apple Macintosh)OS(登録商標)、又はユニックス(Unix)(登録商標)のような、オペレーティング・システム511を備えていてもよく、このオペレーティング・システム511は、計算機アーキテクチャ500を用いて、プログラム若しくはアプリケーションを実行することができる。本発明の実施形態は、キーフレーム選択ソフトウェア・プログラム512として実施され、記憶装置503に記憶される。
当然のことながら、キーフレーム選択ソフトウェア・プログラム512のような本発明の実施形態は、ソフトウェア・プログラム、ソフトウェア・オブジェクト、ソフトウェア機能、ソフトウェア・サブルーチン、ソフトウェア・メソッド、ソフトウェア・インスタンス、コード・フラグメント、ハードウェア動作、又はユーザ操作を、単独で若しくは組み合わせて用いた形態であってよい。さらに、このキーフレーム選択ソフトウェア・プログラム512は、1台、2台、又は何台の計算機500を用いて実施してもよい。
キーフレーム識別選択
一実施形態によれば、論理ブロック115及び315によって行われるようなキーフレームの識別選択は、論理ブロック113及び313で生成された特徴ベクトルに基づいて行われる。類似度や線形の識別方法(手段)に基づく検討手法のうちのいずれか1つを用いて、特徴ベクトルを比較し、キーフレームを選択してもよい。
キーフレーム選択技法に関係なく、後の時点でキーフレームを再生するための計算上の留意事項がある。留意事項の1つは、集合にさらなるビデオ又は画像を追加する場合のキーフレーム更新コスト(costs)である。例えば、ライトテーブルにおいて、デジタル写真編成ソフトウェアは、通常、サムネイルを用いる。ユーザは、写真を「事象」にグループ化することが多く、これらの事象はそれぞれ、セグメントとして扱われ、集合をより高いレベルで観察する際にはキーフレームにより表され得る。さらなる写真が追加される場合には、キーフレームを更新して、さらなる識別を行うのが望ましい。
本発明の実施形態において用いられる類似度に基づく1つの方法では、類似度O(N)の複雑度(Nはフレームの総数である)がもたらされ、類似度マトリックスにさらなる行及び列が追加される。線形識別技法は、後述するように、以前に生成したキーフレームを更新するのによりコストがかかる。WFLDは、後述するように、一般固有ベクトルから構成されているので、フレームを追加して分析を更新するには、「インテリジェント情報検索に対する線形代数の使用(Using Linear Algebra For Intelligent Information Retrieval)」(M.W.ベリー(M. W. Berry)、S.T.デュメ(S. T. Dumais)、G.W.オブライエン(G. W. O'Brien)著,SIAM論評(SIAM Review)37(4):p.573−595,1995年)に記載されているような「畳込み(folding-in)」技法が適用可能である。これらのコストは、ほぼO(ND)となる。
その他計算上の特徴は、クラス外平均類似度Cを算出又は更新する際に、全てのビデオ・フレームの部分集合のみが考慮される。1つの方法では、既に選択されたキーフレームの集合{vk *}のみを用いて、Cが再度算出される。その他の計算上の特徴についても、本発明の実施形態の中で考慮されている。
類似度に基づくキーフレーム識別選択
類似度に基づくインプリメンテーションを用いることによって、候補キーフレームをセグメント内の他のフレーム(本明細書中では「クラス内フレーム(in-class frames)」と呼ぶ)と比較して、候補キーフレームがそのセグメントをどの程度よく表しているか(類似度)を判定すると共に、候補キーフレームを他のセグメントのフレーム(本明細書中では「クラス外フレーム(out-of-class frames)」と呼ぶ)と比較して、候補キーフレームがこれらのフレームからどの程度区別可能であるか(非類似度)を判定することができる。
説明を簡略化するために、N個のフレームを有するソース・デジタル・ビデオについて述べる。この説明は決して限定することを意図したものではなく、あらゆるその他の形態のデジタル・メディアを用いてもよい。
上述した特徴ベクトルのフレーム索引付き集合は、V={vi:i=1,…,N}と示し得る。特徴ベクトルvl〜vrから構成されるデジタル・ビデオのセグメントQ、即ち、Q={vi:i=l,…,r}⊂Vについて考える。距離測度d(.,.)を選択することによって、2つのフレームの類似度が定量化される。あらゆる候補キーフレームvj∈Q及びセグメントQに対する平均類似度Sは、以下の式で表される。
以下、主要な数式(1)から(24)において、文字S,Q,j,v,v,v・・・等一部の文字は斜体にて示されている。
Figure 0004613569
Sは、キーフレームvjのクラス内平均類似度、即ち、キーフレームvjが属するセグメントに対するキーフレームvjの類似度である。Cは、クラス外平均類似度、即ち、そのデジタル・メディアの他のセグメントに対するキーフレームvjの類似度である。
Figure 0004613569
Cを以下のように定義する。
Figure 0004613569
図5に示されているように、要素S(i,j)=d(vi,vj)を有する類似度マトリックスを用いると、これらの計算が容易になる。好適な代表キーフレームj401は、高いクラス内平均類似度Sを有する。つまり、このキーフレームj401は、平均して、キーフレームj401が属するセグメントを構成しているフレームに非常に類似している。マトリックス400を参照すると、候補キーフレームj401のクラス内平均類似度Sは、キーフレームjをセグメントCk403のその他のクラス内フレームのそれぞれと比較することによって決定される。このセグメントCk403のクラス内フレームは、マトリックス400の空白マス405で表されている。
また、識別するためには、候補キーフレームj401は、Cを最小化しなくてはならない。つまり、候補キーフレームj401は、その他のセグメントに属するフレーム及びゆえにキーフレームにできるだけ類似していてはならない。キーフレームj401のクラス外平均類似度Cは、キーフレームj401をデジタル・メディア402のクラス外フレームと比較することによって決定される。2つの値SとCの差及び/又は比率の計算値は、候補キーフレームが両方の基準を同時にどの程度よく満たしているかを示す。
従って、差分の性能指数は以下の式で算出し得る。
Figure 0004613569
一方、比率の性能指数は以下の式で算出し得る。
Figure 0004613569
上記2つの式において、下付き文字S及びRはそれぞれ、減算式及び除算式を表す。
別の実施形態では、識別度対自己類似度をトレードオフ又はバイアスするのが望ましい。これらの場合には、非負定数αs及びβsを用いて、重み付けの計算値を以下のように求めてもよい。
Figure 0004613569
一方、定数αr及びβrを用いる比率の重み付け性能指数は、以下の式で算出される。
Figure 0004613569
下付き文字s及びrはそれぞれ、この定数が減算式及び除算式に関するものであることを示している。どちらの場合にも、βに対するαの割合を高くすると、自己類似度の重要度が高くなり、逆にαに対するβの割合を高くすると、得られるキーフレームの識別度が高くなる。
セグメントQに対して最適な代表キーフレームv*を選択するには、Qにおける全フレームに関するグッドネス・ファンクション(goodness function)Fを以下のように最大化する。
Figure 0004613569
各セグメントに対する複数のキーフレーム
別の実施形態では、ユーザは、各セグメントを表すために複数のキーフレームを選択することができる。このような実施形態において、セグメントQ={vl,…,vr}とサブセグメントP={vj,…,vk}⊂Qとの平均自己類似度Sは、以下の式で表される。
Figure 0004613569
セグメント化に関し、相互類似度は以下のように定義される。
Figure 0004613569
上記等式(8)及び(9)の結果を利用するのであれば、それぞれ下記等式(10)、(11)、(12)、及び(13)で識別されているような、上記等式(3)、(4)、(5)、及び(6)の修正版のうちのいずれを用いて、所望のキーフレームを選択してもよい。
Figure 0004613569
Figure 0004613569
Figure 0004613569
Figure 0004613569
セグメントQに対して代表キーフレームv*の最適なグループを選択するには、Qにおける全フレームに関するグッドネス・ファンクションFを以下のように最大化する。
Figure 0004613569
キーフレーム線形識別選択
さらに別の実施形態では、線形識別法を利用してキーフレームを選択してもよい。情報検索のためのテキスト・ドキュメント集合の索引付けのために、非常に首尾よく、スペクトル法が用いられてきた。1つの例としては、潜在意味的索引付け(LSI:latent semantic indexing)がある。このような技法は、特徴空間における非本質的な変化を無視することにより次元の縮小に用いられる。分類の過程において、次元を縮小させる線形手法を用いれば、ラベル付き訓練データをさらに利用することによって、次元が縮小された空間において分散を「形付け」、識別を容易にすることができる。
フィッシャー(Fisher)の線形識別法は、このような技法の一例である。特徴ベクトルのフレーム索引付き集合V={v1,…,vN}に話を戻すと、セグメント化後、VはK個のセグメントに分割され、特徴ベクトルは次式で表される。
Figure 0004613569
ここで、各特徴ベクトルviは、正確に1セグメントCkの1要素となっている。各セグメントに対し、平均特徴ベクトルμkが以下の式で算出される。
Figure 0004613569
上記式において、Nkは、セグメントCkにおけるフレームの数である。μは、ビデオ全体に関して算出される平均特徴ベクトルを示している。次に、クラス内分散マトリックスを以下のように定義する。
Figure 0004613569
また、クラス外分散マトリックスを以下のように定義する。
Figure 0004613569
所望の次元Dに関し、変換は以下の式で表される。
Figure 0004613569
Figure 0004613569
列ベクトルwiは一般固有ベクトルであり、最大固有値Dは以下の式を満たす。
Figure 0004613569
FLDは、特徴フレームデータを、D×NマトリックスU=WFLD TVに投影する。変換が最適化されることによって、同じセグメントのフレームから抽出された特徴が集められると同時に、これらの特徴は他のセグメントの特徴と区別される。その結果、キーフレームの選択が簡単になり、特徴ベクトルが各セグメントの平均特徴ベクトルに最も近いフレームを決定すればよい。線形性により、以下の式が成り立つ。
Figure 0004613569
次に、各セグメントに対するキーフレームが、以下の式に基づいて選択される。
Figure 0004613569
或いは、各セグメントに対するキーフレームは、以下の式に基づいて選択されてもよい。
Figure 0004613569
次元の縮小により、各クラスの特徴データ内の代表モードが強調され、特異な変化は無視される。同時に、この線形識別投影法は、特徴をクラスの中で区別しやすいように変換するようになっている。変換された特徴空間におけるモードは合わせて、識別に向けて最適化される。これにより、次元の縮小とキーフレームの選択を同時に行う、合理的な方法が提供される。
説明のために、本発明の実施形態による、デジタル・メディア集合に対するキーフレーム識別選択の実施例を以下に示す。この実施例は、本発明の実施形態の使用法の理解を促すためのものであり、決して限定することを意図したものではない。
図7及び図8は、ソース・デジタル・メディア(この実施例では、従来技術(図7)及び本発明の実施形態(図8)を利用したゴルフ指導用デジタル・ビデオ)に対するキーフレーム選択の結果を示している。このソース・デジタル・メディアは、7つの異なるセグメントにセグメント化され、各セグメントは、ソース・デジタル・メディア内に含まれた異なるゴルフのスイングを表している。このソース・デジタル・メディアは、わずかな細部のみが異なる非常に類似したショットをいくつか含んでいる。セグメント化後、各セグメントのフレームに対して特徴ベクトルが算出される。これらの特徴ベクトルが比較され、セグメントに対するキーフレームが選択されて識別される。
図7は、従来技術、即ち、キーフレームの非識別選択技法を用いて、ソース・デジタル・メディアから選択されたキーフレーム6011、6012、6013、6014、6015、6016、6017を示している。これに対し、図8は、本発明の実施形態によって実施された、キーフレームの識別選択の結果を示している。この差は明らかである。つまり、識別選択されたキーフレーム6021、6022、6023、6024、6025、6026、6027は、7つのセグメントのうちの6つが明らかに異なっているのに対して、非識別技法により選択されたキーフレームは、図7に示されているように、4つしか区別がつかない。この実施例では、上記米国特許第6,542,869号に記載されていると共に、図5に示されているように、フレーム・パラメータに低次DCT係数を用い、類似度マトリックスを生成するのにコサイン距離関数を用いた。
従って、キーフレーム識別選択法を用いれば、各セグメントの代表であると同時に互いに区別可能であるキーフレームがユーザに提供される。
本発明の実施形態は、デジタル・メディアが管理若しくは処理されるシナリオであれば、どのようなシナリオにも適用できる。例としては、ビデオ編集ソフトウェア、ビデオ・スチルカメラ、グラフィカル・ファイル・ブラウザ、並びに、セットトップ・ボックス及びPVRが挙げられる。ビデオ編集用の多くのソフトウェア・パッケージでは、選択及び編集のために、キーフレームがアイコンとして用いられて、ビデオ・クリップが表示されている。図8から分かるように、同じショットの複数バージョン(「テイク」)から選択する場合には、特徴的なキーフレームがあると特に役に立つ。
容量の大きなハードディスク記憶装置を備えたビデオ・スチルカメラがまさに市場に出始めたところであり、短いビデオ・クリップを記録することのできるデジタル・スチルカメラも人気がある。これらの装置は全て、通常、小さなディスプレイ上において、既に記録されたメディアをブラウジングする機能を一般的に有している。特徴的なキーフレームを用いることによって、記憶されたメディアを有効に表示することができると共に、記録されたシーンの適切な「テイク」を削除してしまうというような誤りをユーザが冒さないようにすることができる。
ほとんどのデスクトップ・ウィンドウィング・システムは、グラフィカル・データファイルをサムネイル画像として見ることができるようにする「プレビュー」モードを含む。特に、この場合、即ち、多数のビデオ・セグメントを含み得る大きなディレクトリをブラウジングする場合には、キーフレーム識別選択法が有用である。上述したように、本発明の実施形態は、あらゆる集合及び/又は形態のデジタル・メディアに適している。例えば、特徴的なキーフレームを選択することによって、ビデオ・セグメントと全く同じ方法で、画像集合を表示することができる。画像グループ(例えば、画像フォルダや画像ディレクトリ)を扱う画像管理プログラムも、集合全体を1つの特徴的なキーフレームで表示することができるので、本発明の実施形態が有効である。
パーソナル・ビデオ・レコーダ(及び昨今増えつつあるセットトップ・テレビジョン・デコーダ・ボックス)は、メディア管理に関する同様の難題、つまり、シンプル且つ簡単なインタフェースで、多数のビデオファイルをどのように表示し、そこからどのように選択するかという難題を抱えている。インタフェースに特徴的なキーフレームを追加すれば、ユーザは、例えば、カメラの配置、舞台装置及び照明、並びに司会者に関する内容が非常に類似したトーク番組の異なるエディションにおいても、より適切な選択を行うことができる。
当然のことながら、上述した特定の実施形態は、本発明の原理を単に例示したものであって、本発明の範囲及び精神から逸脱しない限り、当業者によって様々な変更を行うことができる。従って、本発明の範囲は、添付の特許請求の範囲によってのみ制限される。
本発明の実施形態におけるキーフレーム識別選択処理を示す図である。 本発明の実施形態における異なるタイプのデジタル・メディアを示すブロック図である。 本発明の実施形態における、数種類の異なる項目のデジタル・メディアを連結させたソース・デジタル・メディアを示すブロック図である。 本発明の実施形態における他のキーフレーム識別選択処理を示す図である。 本発明の実施形態において生成される類似度マトリックスSを示す図である。 本発明の実施形態を実行するのに利用され得る汎用計算システムのブロック図である。 キーフレーム非識別選択法を用いて生成された、7つのビデオ・セグメントのキーフレーム・グループを示す図である。 本発明の実施形態におけるキーフレーム識別選択法を用いて生成された、7つのビデオ・セグメントのキーフレーム・グループを示す図である。
符号の説明
100、300 処理
210、402 デジタル・メディア
400 マトリックス
403 セグメント
405 空白マス
500 計算機アーキテクチャ
501 共通バス
601、602 キーフレーム

Claims (21)

  1. ソース・デジタル・メディアのセグメントを代表するキーフレームの識別選択を行うプログラムであって、
    コンピュータに、
    複数のセグメントを含む前記ソース・デジタル・メディアを取得するステップと、
    取得された前記ソース・デジタル・メディアを前処理して複数の特徴ベクトルを取得するステップと、
    取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定するステップと、
    取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定するステップと、
    前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するステップと、
    を実行させるためのプログラム。
  2. 前記セグメント内の類似度と前記セグメント外の類似度との差分又は比率で表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが全フレームに対して最大となるように、前記キーフレームを識別選択する、請求項1に記載のプログラム。
  3. 前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含む、請求項1に記載のプログラム。
  4. 前記複数項目のソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するステップを含む、請求項3に記載のプログラム。
  5. 前記ソース・デジタル・メディアを取得するステップに続いて、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいるかを判定するステップをさらに含む、請求項1に記載のプログラム。
  6. 前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいると判定された場合、前記ソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するステップをさらに含む、請求項5に記載のプログラム。
  7. 前記セグメント内の類似度を決定するステップが、候補キーフレームをセグメントに属するその他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント内の類似度を決定するステップと、をさらに含み、
    前記セグメント外の類似度を決定するステップが、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント外の類似度を決定するステップと、をさらに含む、
    請求項1に記載のプログラム。
  8. デジタル情報を代表するキーフレームの識別選択を行うプログラムであって、
    コンピュータに、
    デジタル情報を取得するステップと、
    前記デジタル情報を複数のセグメントにセグメント化するステップと、
    複数のセグメントにセグメント化された前記デジタル情報を前処理して複数の特徴ベクトルを取得するステップと、
    取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定するステップと、
    取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定するステップと、
    前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するステップと、
    を実行させるためのプログラム。
  9. 前記セグメント内の類似度を決定するステップが、候補キーフレームをセグメントに属するその他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント内の類似度を決定するステップと、を含み、
    前記セグメント外の類似度を決定するステップが、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較するステップと、前記比較ステップに応じて、前記候補キーフレームの前記セグメント外の類似度を決定するステップと、を含み、
    前記キーフレームを識別選択するステップにおいて、前記セグメント内の類似度と前記セグメント外の類似度とを用いて表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが、各セグメント内の全フレームに対して最大となるように、各セグメントのキーフレームを識別選択する、
    請求項8に記載のプログラム。
  10. 前記キーフレームを識別選択するステップが、前記セグメント内の類似度と前記セグメント外の類似度とをバイアスするステップを含む、請求項9に記載のプログラム。
  11. 前記キーフレームを識別選択するステップが、複数のキーフレームを各セグメントの代表として識別選択するステップを含む、請求項8に記載のプログラム。
  12. ソース・デジタル・メディアのセグメントを代表するキーフレームの識別選択システムであって、
    複数のセグメントを含む前記ソース・デジタル・メディアを入力するメディア入力部と、
    前記メディア入力部により入力された前記ソース・デジタル・メディアを前処理して複数の特徴ベクトルを取得する特徴ベクトル取得部と、
    前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定する第1の類似度決定部と、
    前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定する第2の類似度決定部と、
    前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するキーフレーム選択部と、
    を含む前記キーフレームの識別選択システム。
  13. 前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度との差分又は比率で表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが全フレームに対して最大となるように、前記キーフレームを識別選択する、請求項12に記載のキーフレームの識別選択システム。
  14. 前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含む、請求項12に記載のキーフレームの識別選択システム。
  15. 前記複数項目のソース・デジタル・メディアを1項目のソース・デジタル・メディアに連結するメディア連結部を含む、請求項14に記載のキーフレームの識別選択システム。
  16. 取得された前記ソース・デジタル・メディアに対し、前記ソース・デジタル・メディアが複数項目のソース・デジタル・メディアを含んでいるか、を判定するメデイア判定部をさらに含む、請求項12に記載のキーフレームの識別選択システム。
  17. 前記第1の類似度決定部が、候補キーフレームをセグメントに属するその他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント内の類似度を決定し、
    前記第2の類似度決定部が、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント外の類似度を決定する、
    請求項12に記載のキーフレームの識別選択システム。
  18. デジタル情報を代表するキーフレームの識別選択システムであって、
    デジタル情報を取得するデジタル情報取得部と、
    前記デジタル情報を複数のセグメントにセグメント化するセグメント処理部と、
    複数のセグメントにセグメント化された前記デジタル情報を前処理して複数の特徴ベクトルを取得する特徴ベクトル取得部と、
    前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記複数のセグメントの1つのセグメントに対する候補キーフレームに対する、前記1つのセグメントに属するその他のフレームとの間でのセグメント内の類似度を決定する第1の類似度決定部と、
    前記特徴ベクトル取得部により取得された前記複数の特徴ベクトルの分析結果に基づいて、前記候補キーフレームに対する、残りの複数のセグメントに属するフレームとの間でのセグメント外の類似度を決定する第2の類似度決定部と、
    前記セグメント内の類似度と前記セグメント外の類似度とに基づいて、前記1つのセグメント内のフレームとはできるだけ高い類似度を有しているという第1の基準、及び前記1つのセグメント外に属するフレームとはできるだけ類似していないという第2の基準を同時によく満たすフレームを、各セグメントのキーフレームとして識別選択するキーフレーム選択部と、
    を含む、前記キーフレームの識別選択システム。
  19. 前記第1の類似度決定部が、候補キーフレームをセグメントに属するその他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント内の類似度を決定し、
    前記第2の類似度決定部が、1つのセグメントの候補キーフレームを残りの複数のセグメントに属する他のフレームと比較し、その比較の結果に応じて、前記候補キーフレームの前記セグメント外の類似度を決定し、
    前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度とを用いて表され、最適な代表キーフレームであることを示す性能指標であるグッドネス・ファンクションFが、各セグメント内の全フレームに対して最大となるように、各セグメントのキーフレームを識別選択する、
    請求項18に記載のキーフレームの識別選択システム。
  20. 前記キーフレーム選択部が、前記セグメント内の類似度と前記セグメント外の類似度とをバイアスする、請求項19に記載のキーフレームの識別選択システム。
  21. 前記キーフレーム選択部が、複数のキーフレームを各セグメントの代表として識別選択する、請求項19に記載のキーフレームの識別選択システム。
JP2004291478A 2003-10-03 2004-10-04 キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システム Expired - Fee Related JP4613569B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/678,935 US7778469B2 (en) 2003-10-03 2003-10-03 Methods and systems for discriminative keyframe selection

Publications (3)

Publication Number Publication Date
JP2005115952A JP2005115952A (ja) 2005-04-28
JP2005115952A5 JP2005115952A5 (ja) 2007-11-22
JP4613569B2 true JP4613569B2 (ja) 2011-01-19

Family

ID=34394057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004291478A Expired - Fee Related JP4613569B2 (ja) 2003-10-03 2004-10-04 キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システム

Country Status (2)

Country Link
US (1) US7778469B2 (ja)
JP (1) JP4613569B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8657119B2 (en) * 2006-01-04 2014-02-25 Scott D. Wolf Segmented media publishing system
WO2007091587A1 (ja) * 2006-02-08 2007-08-16 Nec Corporation 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム
US20070292112A1 (en) * 2006-06-15 2007-12-20 Lee Shih-Hung Searching method of searching highlight in film of tennis game
US20090079840A1 (en) * 2007-09-25 2009-03-26 Motorola, Inc. Method for intelligently creating, consuming, and sharing video content on mobile devices
US8140550B2 (en) * 2008-08-20 2012-03-20 Satyam Computer Services Limited Of Mayfair Centre System and method for bounded analysis of multimedia using multiple correlations
US9113153B2 (en) 2011-01-14 2015-08-18 Kodak Alaris Inc. Determining a stereo image from video
US9300947B2 (en) 2011-03-24 2016-03-29 Kodak Alaris Inc. Producing 3D images from captured 2D video
KR101859412B1 (ko) * 2011-09-05 2018-05-18 삼성전자 주식회사 컨텐츠변환장치 및 컨텐츠변환방법
US9116924B2 (en) * 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
CN110569373B (zh) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
KR102215285B1 (ko) * 2018-12-26 2021-02-15 건국대학교 산학협력단 키 프레임 선택 방법 및 이를 수행하는 장치들
CN113722543A (zh) * 2021-09-14 2021-11-30 图灵创智(北京)科技有限公司 一种视频相似性比对方法、***及设备
CN115967823A (zh) * 2021-10-09 2023-04-14 北京字节跳动网络技术有限公司 视频封面生成方法、装置、电子设备及可读介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022792A (ja) * 1999-05-28 2001-01-26 Fuji Xerox Co Ltd キーフレーム選択のための候補フレームを選択する方法
JP2001155169A (ja) * 1999-11-24 2001-06-08 Nec Corp ビデオ画像の分割、分類、および要約のための方法およびシステム
JP2001216332A (ja) * 1999-12-06 2001-08-10 Hynix Semiconductor Inc 動映像の検索、ブラウジングまたは要約を行うための動映像表現方法と、その処理装置および処理方法
US6331859B1 (en) * 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
US20020038456A1 (en) * 2000-09-22 2002-03-28 Hansen Michael W. Method and system for the automatic production and distribution of media content using the internet
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
JP2003061112A (ja) * 2001-08-20 2003-02-28 Univ Waseda カメラワーク検出装置およびカメラワーク検出方法
JP2003061038A (ja) * 2001-08-20 2003-02-28 Univ Waseda 映像コンテンツ編集支援装置および映像コンテンツ編集支援方法
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US20030161396A1 (en) * 2002-02-28 2003-08-28 Foote Jonathan T. Method for automatically producing optimal summaries of linear media

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993588A (ja) * 1995-09-28 1997-04-04 Toshiba Corp 動画像処理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6331859B1 (en) * 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
JP2001022792A (ja) * 1999-05-28 2001-01-26 Fuji Xerox Co Ltd キーフレーム選択のための候補フレームを選択する方法
JP2001155169A (ja) * 1999-11-24 2001-06-08 Nec Corp ビデオ画像の分割、分類、および要約のための方法およびシステム
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
JP2001216332A (ja) * 1999-12-06 2001-08-10 Hynix Semiconductor Inc 動映像の検索、ブラウジングまたは要約を行うための動映像表現方法と、その処理装置および処理方法
US20020038456A1 (en) * 2000-09-22 2002-03-28 Hansen Michael W. Method and system for the automatic production and distribution of media content using the internet
JP2003061112A (ja) * 2001-08-20 2003-02-28 Univ Waseda カメラワーク検出装置およびカメラワーク検出方法
JP2003061038A (ja) * 2001-08-20 2003-02-28 Univ Waseda 映像コンテンツ編集支援装置および映像コンテンツ編集支援方法
US20030161396A1 (en) * 2002-02-28 2003-08-28 Foote Jonathan T. Method for automatically producing optimal summaries of linear media

Also Published As

Publication number Publication date
US20050074168A1 (en) 2005-04-07
US7778469B2 (en) 2010-08-17
JP2005115952A (ja) 2005-04-28

Similar Documents

Publication Publication Date Title
US6865297B2 (en) Method for automatically classifying images into events in a multimedia authoring application
US7702185B2 (en) Use of image similarity in annotating groups of visual images in a collection of visual images
US7697792B2 (en) Process-response statistical modeling of a visual image for use in determining similarity between visual images
JP2994177B2 (ja) ビデオ・セグメント間の境界部の位置を特定するためのシステム及び方法
US7212666B2 (en) Generating visually representative video thumbnails
JP5005154B2 (ja) 記憶媒体上に記憶された情報信号を再生する装置
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
KR100708067B1 (ko) 디지털 영상 검색 장치 및 그 방법
US20060015497A1 (en) Content-based indexing or grouping of visual images, with particular use of image similarity to effect same
US20060020597A1 (en) Use of image similarity in summarizing a collection of visual images
US20060015495A1 (en) Use of image similarity in image searching via a network of computational apparatus
US20120148149A1 (en) Video key frame extraction using sparse representation
JP4613569B2 (ja) キーフレーム識別選択方法、この方法をコンピュータに実行させるプログラム、およびキーフレーム識別選択システム
US20060015494A1 (en) Use of image similarity in selecting a representative visual image for a group of visual images
JP4882486B2 (ja) スライド画像判定デバイスおよびスライド画像判定プログラム
US20050200762A1 (en) Redundancy elimination in a content-adaptive video preview system
JP5286732B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4894956B2 (ja) 時間区間代表特徴ベクトル生成装置
US20040181545A1 (en) Generating and rendering annotated video files
US8433566B2 (en) Method and system for annotating video material
Zhu et al. Automatic scene detection for advanced story retrieval
JPH11259507A (ja) 映像検索方法および映像検索プログラムを格納した記録媒体
JP4224917B2 (ja) 信号処理方法及び映像音声処理装置
Wang et al. Sequence-kernel based sparse representation for amateur video summarization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071002

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101004

R150 Certificate of patent or registration of utility model

Ref document number: 4613569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370