WO2007020897A1

WO2007020897A1 - 映像シーン分類装置および映像シーン分類方法

Info

Publication number: WO2007020897A1
Application number: PCT/JP2006/315957
Authority: WO
Inventors: Masaki Yamauchi; Masayuki Kimura
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-08-17
Filing date: 2006-08-11
Publication date: 2007-02-22
Also published as: US8233708B2; CN101243448A; US20090257649A1; JP4841553B2; JPWO2007020897A1

Abstract

　画像を分類する際に、画像内の処理対象範囲を映像内容に応じて動的に変更させながら分類用の指標を生成することで、ロバスト性の良い分類を可能とする。　映像シーン分類装置（１００）における画像分類部（１０４）は、取得した複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する。クラスタ選択部（１０６）は、分類された前記クラスタの中から少なくとも１つのクラスタを選択する。インデックス生成部（１０８）は、選択されたクラスタを構成する画像のうち、少なくとも１つの画像にインデックスを付与する。これにより、分類結果のクラスタからインデックス付与に適したクラスタを選択する際に、クラスタの要素数や時間分布・ＥＰＧ情報など比較的平易な情報に基づいてインデキシングルールを選択し、これに従ってインデックスを生成することで、自明的かつ安定したチャプタの生成が可能になる。

Description

明細書

映像シーン分類装置および映像シーン分類方法

技術分野

[0001] 本発明は、映像コンテンツを対象としたインデックスの自動生成技術に関し、特に放送映像コンテンツにチヤプタ (インデックス）を自動的に付加するチヤプタリング技術に関する。

背景技術

[0002] 近年、デジタルコンテンツの撮像や蓄積に関する環境が急速に整ったことを背景として、これらのコンテンツをどのように取り扱うかについての検討が拡がっている。 HD D/DVDレコーダを始めとするデジタル家電の普及は、個人での大量の映像コンテンッの所有やアクセスを容易なものとして、る。

[0003] このような「コンテンツ爆発」とも呼べる状況においては、ユーザに対して、映像コンテンッの視聴時 (さらに、検索時や編集時等）における利便性をいかに提供するかが課題となる。例えば、テレビ番組等の放送コンテンツに対しては、意味のあるまとまり毎に自動でチヤプタ (インデックス）を付与し、このチヤプタを使用してボタン一つで見た、シーンを頭出しできるようにする等の視聴支援技術が重要になる。

[0004] また、番組中のカット点を検出し、タイムスタンプをメタデータとしてチヤプタリングする手法もあるが、これは、特許庁標準技術集にもあるように、古くから提示されている手法である（例えば、非特許文献 1参照)。しかし、一般に放送コンテンツの場合は、数秒ないし十数秒に 1回程度カット点が出現し、コマーシャル放送や音楽プロモーシヨンなどのビデオクリップの場合は、 1秒未満に 1回カット点が出現することも珍しくない。これは、 1つの番組でもチヤプタが数百〜数千に及ぶことを意味する。利便性を考えると、好みのシーンを探すために数百回以上の操作をすることは現実性に乏しく、カット点をそのままチヤプタリングに用いることは殆ど無意味であると言わざるを得ない。

[0005] これに対し、いくつかのカット点をまとめることによってチヤプタの数を減らす試みも行われている。また、映像に言語情報や音声信号を組み合わせることによってチヤプタリングを行うもの（例えば、非特許文献 1又は特許文献 1参照）や、カット点間の画像の類似性に基づくもの（例えば、非特許文献 2参照）、テンプレートマッチングなどの特定シーンに対する認識抽出処理や隠れマルコフなどのモデルにより、映像におけるカット構成の規則性や映像コンテンツの構成上の特徴を用いるもの（例えば、非特許文献 3又は特許文献 2参照）、カット点の代わりに単純に一定時間毎にパケットィ匕するもの (例えば、非特許文献 4参照)などが提案されている。便宜上、これらをカテゴリモデリング法 (CM法）と呼ぶことにする。

特許文献 1：特開 2000— 285243号公報

特許文献 2：特開 2003 - 52003号公報

特許文献 3：特開 2004 - 361987号公報

非特許文献 1 :「ショット分類に基づく映像への自動的索引付け手法」（井手一郎、他、信学論（D— 11)、 Vol. J82-D-II, No. 10、 pp. 1543— 1551、 Oct. 1 999. )

非特許文献 2 :「映像対話検出によるテレビ番組コーナ構成高速解析システム」（青木恒、信学論（D— 11)、 Vol. J88— D— II、 No. 1、 pp. 17— 27、 Jan. 2005. )

非特許文献 3：「カット構成の規則性を利用したスポーツ映像のプレイ単位への分割」 (椋木雅之、他、信学論（D— 11)、 Vol. J85— D— II、 No. 6、 pp. 1016— 102 4、 Jun. 2002. )

非特許文献 4:「固定長の時空間画像に基づく映像シーンのクラスタリング」（岡本啓嗣、他、信学論（D— 11)、 Vol. J86-D-II, No. 6、 pp. 877— 885、 Jun. 2003. )

非特許文献 5：「Event Detection and Summarization in Sports VideoJ ( B. Li、他、 IEEE Workshop on CBAIVL 2001、 pp. 114— 138、 Dec. 2001. )

発明の開示

発明が解決しょうとする課題

し力しながら、理想的な視聴支援技術を実現するためには、なんらかの形でメタデータを付与するための技術が必要である。ところが、一般的には、メタデータを付与するためには高度なメディア理解技術が必要と考えられており、これが大きな実用上の障壁となっている。

[0007] つまり、汎用的なメタデータを付与し得るシステムの構築には、膨大な知識ベースと理解ルールの構築が必要であるため、メタデータ付与の自動化プロセスは、用手的アプローチが認められて、る（人海戦術的なメタデータ付与が必要視されて、る）ァセットマネジメントシステムなど一部の業務用システム以外は不向きであると考えられてきた。

[0008] 言い換えると、従来の「対象物を個別特定」するトップダウン的手法は、ロバスト性に乏しく、被写対象が特定されにく、一般状況下では非常に困難な課題を抱えて、る (ここでいうトップダウン的手法とは、テンプレートマッチングや事前学習等、対象物を限定した処理を伴う、対象物を事前に特定しなければ対象物を抽出できないタイプの手法を指している）。

[0009] トップダウン型の手法は、そのシステムにおける検出対象を検出する際の性能に大きく依存していることや、理想的モデルと現実データとの乖離に課題があり、顔、ヒト、車又は建築構造物といった対象物やシーン特徴量の変化など、事前に検出対象を特定した上で検出しモデルに当て嵌めてメタデータを付与しているため、ロバスト性を失いやすいのである。

[0010] 更に、ここで、従来技術における実用上の課題について考える。

[0011] まず、第一に、チヤプタの付与基準がユーザにとって自明的でなければならない。

例えば、視聴中に次のチヤプタへジャンプする「スキップ視聴」をする場合、ユーザは、「スキップ後のシーンがどのようなシーンである力」を事前にイメージできなければ現実的に使用できない。ユーザにとって「次にどのようなシーンまでジャンプするのか分力もない」状況は、乱数でスキップしていることと変わりなぐ次第に視聴意欲が削がれることとなる。

[0012] つまり、「チヤプタ」の位置がユーザにとって自明的でない場合には、視聴対象のシーンが「どのシーンがスキップされたのか分からない」ことになり、「（重要なシーンを見逃している可能性もあるため、）使い勝手が悪い」ことにつながる。「どのシーンがスキップされて、次にどのシーンが来るの力」が予測可能でなければ、自明的なチヤプタとは云えない。

[0013] このように、視聴時、検索時又は編集時にぉ、てユーザを支援するためには、チヤプタがユーザにとって自明的な位置に付与されていることが絶対条件であると云える。チヤプタの位置は有意でし力もなるベく固定的な意味を持つシーンであることが望ましぐ重要なシーンの見逃しを招かないためには、特に再現率が重視されなければならない。

[0014] ここで、有意で固定的な意味を持つシーンとは、例えば、ノラエティ番組での各グループの登場シーンや野球番組での各ピッチングシーンなど、ユーザが暗黙裡に「次のチヤプタ」として意識するであろうシーンであり、し力も比較的出現頻度が高いものを指す。

[0015] この視点で考えると、これまでに開示されて、る技術は、ずれも十分ではな、。

[0016] 例えば、あるチヤプタについて、意味のあるカット点として必ずしも間違っていなければ正解に準じて評価するケースがある。この場合、あるチヤプタは 10分程度の意味のある固まり（シーン）に付与され、また別のチヤプタは 3秒程度のシーンに付与されるなど、番組内での各チヤプタの粒度が変化してしまうため、利用者は、次に 10分間分のシーンがスキップされるのか数秒分のシーンがスキップされるのか分からず、非常に困惑する。

[0017] また、野球やサッカーなど特定の番糸且コンテンツに限定するケースでは、当然汎用性が無ぐ野球放送に限っても、天候の変化や球場の変化などに対応することができない。

[0018] また、映像をショットの切り替わり点や適当な映像の変化点や時間幅で幾つかの小区間に区切り、それぞれの区間を適当な手法で分類し、分類された各クラスタの相互関係を総当りで検査しながら映像の構造要素を抽出してチヤプタを生成するケースもある (例えば、特許文献 1参照)。

[0019] しかし、このケースでは、分類性能により構造要素の抽出性能が左右される。一般の放送映像は、必ずしも撮影条件が安定しているとは限らず、天候が変化したり、テ口ップゃキャプションが挿入されたりと、多種多様な変化が発生する。このため、現在の技術水準における一般映像に対する分類性能は、非常に低く不安定である。

[0020] このように分類性能が不安定であるが故に、従来の手法では、分類の結果できあがつたクラスタ同士を総当りで比較湘互相関などにより類似度を比較)し、同じようなシーンがクラスタに含まれて！/、な！/、かを検索 (又は推定)する必要があった。

[0021] 上記特許文献 1では、総当り検索をチェーン検出と称して、映像内の番組構造を抽出するために用いている。しかし、元々、同じであると判定できな力つた (ために同一クラスタに分類できなかった）二つのクラスタを、どうやって同一であるとしてチェーン化するかにつ、ては言及されてヽな、。

[0022] そのため、現実的な精度を有して実装することが不可能であると考えられるが、仮にチェーン化するための類似判定エンジンが実現できたとしても、クラスタを総当りで検索し、その中から構造要素を抽出しなければならず、計算コストは莫大なものになる。その上、でき上がったチヤプタが自明的なものになるかどうかは、更に別問題として残ったままである。

[0023] 一般に、 CM法のチヤプタ性能は、想定したモデルに対しての再現率 (Recall)と適合率（Precision)によって表される。

[0024] 例えば、上記特許文献 2および非特許文献 5に開示されて、るように、条件を極めて限定し (この例では、映像を野球放送に限定)、分類する画像の種類も事前に固定的に決定し (この例では、ピッチングシーンと固定）、分類のための特徴量をピッチングシーンに特ィ匕した場合でも（この例では、後述の図 2のステップ S 304及びステップ S305のように、「ピッチングシーンは緑色の領域と褐色の領域が出現するはず」と決め打ちで特徴量を設定しても）、再現率は 98%、適合率は 95%と報告されている。

[0025] 一見、これらの数値は、性能として十分であると見える力も知れな、。しかし、この数値は、構造化がしゃすく画像パターンが比較的変化しない野球の場合に対し、条件を特ィ匕したものであることに注意された、。

[0026] し力も、この例では、野球放送中の各投球シーンにチヤプタが付与されることになる力一試合では、おおよそ 200〜300球程度の投球シーンが発生する。例えば 250 球とした場合、一試合中に各投球シーンを逃さずチヤプタリングできる確率は、単純計算で 98%の 250乗に相当する確率である。 0. 98の 250乗は約 0. 0064である。つまり、ほぼ 0%である。

[0027] まとめると、従来のビデオ処理 (ビデオチヤプタリング)システムは、画像の分類性能に立脚している。しかし、動画像データの（時間）変化'変動により、必ずしも良好な分類結果を得られるとは限らない。これまでは、動画像を複数のフレーム力もなるセグメントに分割し、各セグメントの特徴量 (画像全体の色ヒストグラムや時間方向での変化量など）を用いて分類していた。しかし、放送中には、任意のタイミングでテロップが入ったり、カメラの切り替えが行なわれるため、人間が見た時に同じカテゴリに分類して欲しいセグメントが、別のカテゴリに分類されることが往々にして発生してしまう。特にトップダウン型では、こういった状況の変化に全く追従できない。

[0028] このような、雑音耐性が低く使用条件が限定された不安定な分類方法による、ビデォ処理は結果として非常に性能が低ぐ実用性に乏しいものとなる。し力も、分類性能の低さを後段 (チヤプタ位置決定ルーチン)が補おうとするため、分類された各カテゴリ間の類似度を全検索しながら映像構造を推定するなど、速度面でも非常に遅いアプローチとなっている。そのため、分類性能の低さから逃れるために、放送コンテンッの内容に対して特ィ匕したアプローチを取らざるを得ず、汎用性が犠牲となっていた

[0029] 更に、繰り返しになる力生成されるチヤプタの付与基準はユーザにとって自明的でなければならず、有意で固定的な意味を持つシーンであることが要求される。

[0030] 本発明は、上記課題に鑑みてなされたものであり、汎用的且つ高速で、ユーザにとつて自明的なチヤプタを生成し得る映像シーン分類装置等を提供することを目的とする。

課題を解決するための手段

[0031] 上記課題を解決するために、本発明に係る映像シーン分類装置は、映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像シーン分類装置であって、前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する画像分類手段と、分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ選択手段と、前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックスを付与するインデックス生成手段とを備える。

[0032] この構成によって、映像を構成する画像について分類指標に基づいてクラスタリングすること〖こより、ロバスト性の良い分類を行うと共に、インデックスを付与すべきクラスタを特定することが可能になるため、ユーザにとってより自明的なチヤプタリングが可會になる。

[0033] また、前記映像シーン分類装置は、さらに、サンプリングすることによって前記映像力複数の画像を取得する映像サンプリング手段と、取得された前記画像毎に画像処理を施す処理範囲を決定し、当該処理範囲に対して画像処理を施すことにより分類指標を特定する処理範囲決定手段とを備え、前記画像分類手段は、決定された前記処理範囲における画像上の特徴を表す分類指標に基づいて前記分類を行うことを特徴とする。

[0034] この構成により、それぞれの画像内でより有意な範囲を動的に限定して画像処理を施して分類指標を決定するので、画像内にキャプションが入るなど、画像に変動が生じた場合であっても、分類指標に基づいて安定したクラスタリングを行うことが可能となる。

[0035] また、前記映像シーン分類装置は、さらに、分類された前記クラスタの分類指標又は前記映像の番組内容情報に基づ、て、インデキシングルールを決定するインデキシングルール選択手段を備え、前記インデックス生成手段は、選択された前記クラスタに対して、選択された前記インデキシングルールを用いて、前記画像にインデックスを付与することを特徴とする。

[0036] この構成により、分類指標又は番組内容情報に基づいて、選択されたクラスタに対してインデックスを付与する際のルールを選択することができ、より画像の特徴に応じたインデックスを付与することが可能となる。

[0037] また、前記インデキシングルール選択手段は、前記番組内容情報に基づいて、 (1) 選択されたクラスタに含まれる全ての画像にインデックス付与する、 (2)選択されたクラスタに含まれる全ての画像を時間軸でソートし、所定時間以内の画像の固まり毎にインデックス付与する、及び、（3)所定のクラスタに含まれる映像ブロックのうち、他の所定クラスタにより連続的な固まりに含まれることのな力つた映像ブロックにインデックス付与する、とする何れかのルールの中力インデキシングルールを選択することを特徴とする。

[0038] この構成により、より木目細力、インデックスの付与ルールを設定することができるため、ユーザにとってより自明的なチヤプタを生成することが可能になる。

[0039] なお、本発明は、上記映像シーン分類装置における特徴的な構成手段をステップとする映像シーン分類方法として実現したり、それらステップをコンピュータ等に実行させるプログラムとして実現したりすることもできる。そして、そのプログラムを DVD等の記録媒体やインターネット等の伝送媒体を介して広く流通させることができるのは云うまでもない。さら〖こ、本発明は、上記特徴的な構成手段を備える集積回路として実現することちでさる。

[0040] さらに、本発明は、上記映像シーン分類装置 100の特徴的な構成手段を備えるクライアントーサーバシステムとして実現することも可能である。

発明の効果

[0041] 本発明により、番組内容に対して、汎用的かつロバストで、ユーザにとってより分かりやすいチヤプタリングが可能となる。そして、ユーザにとって自明的で有意なチヤプタを生成することができる。

[0042] 同時に、生成されるクラスタ精度が高いため、従来手法のような生成クラスタ間に対する類似検査やクラスタ同士の分類行程が不要であるため、高速処理が可能となる。図面の簡単な説明

[0043] [図 1]図 1は、従来例 1の概略を表す図である。

[図 2]図 2は、従来例 2の概略を表す図である。

[図 3]図 3は、従来例 3の概略を表す図である。

[図 4]図 4は、実施の形態 1における映像シーン分類装置の機能構成を示すブロック図である。

[図 5]図 5は、実施の形態 1における映像シーン分類装置の詳細な機能構成を示すブロック図である。

[図 6]図 6は、画像分類部の内部動作の様子を示すフローチャートである。

[図 7]図 7は、クラスタ選択部の内部動作の様子を示すフローチャートである。 [図 8]図 8は、インデックス生成部の内部動作の様子を示すフローチャートである。

[図 9]図 9は、インデックスルール選択部の内部動作の様子を示すフローチャートである。

[図 10]図 10は、処理範囲決定部の内部動作の様子を示すフローチャートである。

[図 11]図 11は、有効 Brickによるインデックスを付与する様子を模式的に示す図である。

[図 12]図 12 (a)〜（c)は、カット画像例を示す図である。

[図 13]図 13 (a)〜（c)は、処理範囲の決定例を示す図である。

[図 14]図 14は、無効 Brickによるインデックスを付与する様子を模式的に示す図である。

符号の説明

100 映像シーン分類装置

101 映像入力部

102 映像サンプリング部

103 処理範囲決定部

104 画像分類部

106 クラスタ選択部

107 インデキシングルール選択部

108 インデックス生成部

109 インデックス再生部

110 出力部

120 番組情報

1201 カット画像

1202 カット画像

1203 カット画像

1301 処理範囲設定例

1302 処理範囲設定例

1303 処理範囲設定例発明を実施するための最良の形態

[0045] 以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本発明について、以下の実施の形態および添付の図面を用いて説明を行うが、これは例示を目的としており、本発明がこれらに限定されることを意図しない。

[0046] また、本発明は、映像データ (放送コンテンツや個人コンテンツといった、動画データ及び静止画データ)をより効果的、かつ効率的に分類し、より精度良ぐ高速にチヤプタを生成する映像シーン分類チヤプタリング技術に関するものである。この映像シーン分類チヤプタリング技術は、映像データの種類に対する事前知識が与えられる場合には、更に良い性能を有する。この事前知識の例として、放送コンテンツでは番組情報 (EPG情報） 120、個人コンテンツではユーザ入力による「旅行」「運動会」といった情報や GPSなどによる位置情報や屋内外情報などがある。

[0047] (実施の形態）

図 4は、本実施の形態における映像シーン分類装置 100の機能構成を示すブロック図である。まず、映像シーン分類装置 100の機能の概略を説明し、その後、各部の機能について詳細な説明を行う。

[0048] 最初に、映像入力部 101におヽて映像情報 (例えば、映像自体を表す映像データ及び映像の制御又は管理に関連する情報など)が入力される。入力された映像情報は、映像サンプリング部 102において、予め規定された時間間隔 (又は Z及び予め決められた規則）に基づいてサンプリングされ、静止画像の集合体が形成される。なお、カット検出機能 (即ち、映像を撮影するカメラの切り替わりを示すカット点を検出する機能）を用いることによって、カット点で映像をサンプリングしてもよい（以降の説明では、映像サンプリング部 102からの出力を、便宜上「カット画像」と呼ぶことにする。もちろん、任意のサンプリング手段によって映像をサンプリングしてもよい。 ) o

[0049] 画像分類部 104は、カット画像を分類 (以下「クラスタリング」ともいう。）すること〖こよつて、 1又は複数のクラスタを生成する部分である。なお、上記カット画像をクラスタリングすること〖こより得られた、 1又は複数の静止画像で構成される画像グループを「クラスタ」という。画像分類部 104における分類性能が、本映像シーン分類装置 100全体の性能に大きく影響することは、既に従来技術の課題として述べた通りである。カツト画像を分類する際の指標 (以下「分類指標」という。）は、各カット画像の画像情報（例えば、カット画像自体を表す画像データ及びカット画像の特徴等を表す情報など）力算出する訳であるが、カット画像内の変化に適応的に追従し、安定した分類を可能とするために、画像分類部 104の前段に、処理範囲決定部 103を設ける。

[0050] 処理範囲決定部 103は、分類指標（即ち、クラスタリングに用いる物理量)を各カット画像の画像情報から算出する際に、画像全体ではなぐ各カット画像内で分類に適した情報を持つ範囲を動的に変更し設定する部分である。なお、ユーザは、操作入力手段 (図示せず)を用いて、上記分類指標の変更が可能である。

[0051] 次に、処理範囲決定部 103の機能について、簡単に説明する。例えば、野球放送でピッチングシーンにインデックス (チヤプタ）を付与する場合を考える。ピッチングシーンは、ヒトが見ればすぐピッチングシーンであると分かる力実際のピッチングシーンのカット画像には様々なバリエーションがある（図 12参照）。

[0052] 例えば、カット画像 1201を基本のピッチングシーンとすると、カット画像 1202は、スコアやボールカウントを表すキャプションが付加されたピッチングシーンであり、更にカメラの角度が若干変化している（カット画像 1202ではノックネット側の壁が見えている）。また、カット画像 1203は、ノッターに関するキャプションが付加されたピッチングシーンである。

[0053] 処理範囲決定部 103は、このような複数のカット画像に対し、ヒトが番組内容を把握するにあたって注目すると予想される範囲（例えば、野球であれば、ピッチャーとバッターの対戦を表示している範囲）を、各カット画像について動的に設定する（図 13参照)。図 13に示されている処理範囲設定例 1301、処理範囲設定例 1302及び処理範囲設定例 1303が、それぞれ、図 12におけるカット画像 1201、カット画像 1202及びカット画像 1203についての処理範囲設定例に相当する。

[0054] このように、本実施の形態では、従来のような画像全体の情報を用いる（又は、画像全体を対象とする）のではなぐ処理範囲決定部 103によって設定された処理範囲の画像情報を用いることで、画像分類部 104により、分類対象の変化に適応して口バストな分類 (クラスタリング)を可能とする (処理範囲決定部 103の動作原理及び内部動作に関する説明は後述する)。 [0055] 次に、クラスタ選択部 106の機能について説明する。クラスタ選択部 106は、画像分類部 104において分類されたクラスタの中から、どのクラスタをチヤプタ付与に用いるかを、予め規定したルールに従って選択する。当然ながら、各クラスタの要素はカツト画像であり、 1以上のカット画像が集まって各クラスタを形成している。

[0056] クラスタ選択部 106におけるクラスタを選択する際のルールの一例として、「最も要素数の多、クラスタを選択する」場合にっ、て説明する。

[0057] クラスタ選択部 106は、画像分類部 104によって分類されたクラスタについて、それらの要素数 (カット画像数）が多いもの順にソートすることとする。この場合、最も要素数の多いクラスタは、最も頻繁に放送された同種のカット画像で構成されており、最も頻繁に放送されたとヽうことは、配信側が最も伝えた、 (伝えなければならなヽ)番組の主構成要素であると云える（正しく分類できない従来の映像分類方法では、このような推論が成立しないことに留意されたい。 ) o

[0058] 例えば、野球放送であれば、放送中に最も頻繁に出現するカットは、図 12 (a)〜（c )のようなピッチングシーンのカット画像である（実験により、他のカット画像に較べて圧倒的に出現頻度が高いことを確認している）。そして、当然ながら、ピッチングシーンが野球プレイのトリガーであり、最も重要な構成要素である。

[0059] 即ち、野球放送にお!、て、最も要素数の多、クラスタを選択すると、そのクラスタにはピッチングシーンのカット画像が集まっている。

[0060] 他の種類の番組では、クラスタの選択方法を変えるべき場合も考えられる力クラスタ選択部 106の基本的な動作は、このように必要な (又は重要な)クラスタを選択することである (クラスタ選択部 106の詳細説明は後述する)。

[0061] 次に、インデキシングルール選択部 107の機能にっ、て説明する。インデキシングルール選択部： L07は、上記クラスタ選択部 106で選択されたクラスタのカット画像にインデックス（チヤプタ）を付与する際のルールであるインデックス生成ルール（「チヤプタ生成ルール」とも、う。）を決定する。

[0062] 例えば、先述の「最も要素数の多!、クラスタ」がクラスタ選択部 106で選択された場合のインデックス生成ルールについて説明する。この場合、インデキシングルール選択部 107が決定するインデックス生成ルールは、「クラスタ選択部 106で選択されたクラスタに含まれるカット画像全てに、インデックスを付与する」こととする。これは、後述の図 9のフローチャート中で、ステップ S909の「直接生成」に相当する。

[0063] その他のインデックス生成ルールについては後述するが、インデキシングルール選択部 107の基本的な動作は、このようにチヤプタを付与する際に必要なルールを決定することである (インデキシングルール選択部 107についての詳細な説明は後述する)。

[0064] 次に、インデックス生成部 108の機能について説明する。インデックス生成部 108 は、クラスタ選択部 106で選択されたクラスタ (これを「選択クラスタ」という。）を構成する全てのカット画像又はその一部のカット画像につ!、て、インデキシングルール選択部 107で選択されたインデックス生成ルールに沿って、インデックスを付与する。

[0065] インデックス生成部 108の動作について、先述のインデキシングルール選択部 107 の例に沿って具体的に説明すると、クラスタ選択部 106において「最も要素数の多いクラスタ」が選択され、インデキシングルール選択部 107において、「直接生成」ルールが選択される。そこで、インデックス生成部 108は、「最も要素数の多いクラスタ」を画像分類部 104によって分類されたクラスタ群カゝら読み出し、「最も要素数の多いクラスタ」に含まれるカット画像の全てにインデックスを付与する。

[0066] このようにクラスタ選択部 106において選択された選択クラスタを、画像分類部 104 によって分類されたクラスタ群カゝら読み出し、インデキシングルール選択部 107で選択されたルールに沿って、選択クラスタのカット画像の一部もしくは全部にインデックスを付与する。

[0067] 次に、インデックス再生部 109の機能について説明する。インデックス再生部 109 は、インデックス生成部 108で生成されたインデックス (チヤプタ）を用いて映像の再生を行う。次のチヤプタが付与されているカット画像への移動や、前のチヤプタが付与されて!/ヽるカット画像への移動、チヤプタが付与されてヽるカット画像単位での手動スキップや自動スキップ、各チヤプタが付与されて、るカット画像以降を所定の秒数間再生して、次のチヤプタが付与されて、るカット画像に移動するなどを行う。

[0068] 次に、出力部 110の機能について説明する。出力部 110は、生成されたインデックスを表すインデックス情報を出力する。出力部 110は、インデックス情報を単独で出力しても、入力された映像に関連づけて出力しても、入力された映像にチヤプタを設定して、チヤプタ付与済み映像として出力してもよい。

[0069] 最後に、番組情報 120について説明する。番組情報 120は、インターネット、放送電波又はユーザの入力によって取得可能な、番組に関する情報を意味しており、 EP G情報などを含む意である。上記処理範囲決定部 103、クラスタ選択部 106及びインデキシングルール選択部 107は、補助情報としてこの番組情報 120を利用することができる。

[0070] 以上が、映像シーン分類装置 100の機能の概略である。

[0071] なお、図 4の構成図は例示を目的としており、本発明は図 4に含まれる構成要素を必ずしも全て含まなくてもよぐ必要な機能を果たす最小限の構成を選択して実現してもよい。

[0072] なお、映像サンプリング部 102でのサンプリング間隔は、固定の時間幅（例えば、 1 秒）でも、 MPEGストリームの Iフレームのサンプリングでも、カット点でのサンプリングでもよぐ任意の既存の手法を用いてサンプリングしてもよ、。

[0073] また、映像サンプリング部 102では、静止画像であるカット画像を出力する代わりに、入力映像を適当な長さの映像小ストリームに分割して、映像ストリーム群として出力してもよい。この場合、サンプリングされた静止画像に対する一連の後処理は、映像小ストリームの一部もしくは全フレームに対する処理と読み替えることができる。

[0074] なお、ユーザや上位システムからの指示入力を受け付けることが必要な場合は、映像入力部 101を介して受け付けてもよい。

[0075] 以下、本発明に係る映像シーン分類装置 100の各主要部分の動作について、詳細に説明する。

[0076] 図 5は、映像シーン分類装置 100のより詳細な機能ブロック図である。そして、各部の内部動作の様子を示すフローチャートを図 6〜図 10に示す。

[0077] 図 5に示されるように、まず、映像入力部 101に映像データが入力されると（S501) 、映像サンプリング部 102によってサンプリングされたカット画像群が生成される (S5 02)。カット画像群を生成する手法は、前述のように、映像内容の変化点でサンプリングすることによる生成（S530)や、カットの変化点を検出し、変化点でサンプリングすることによる生成（S531)、一定時間毎のサンプリングによる生成（S532)など、従来の任意の手法を用いることができる。

[0078] 次に、処理範囲決定部 103の動作について詳細に説明する（図 5、図 10参照)。

[0079] サンプリングされたカット画像群の画像データが入力されると（S1001)、処理範囲決定部 103は、各カット画像力も画像特徴量を算出する（S503ZS1002)。ここで用いる画像特徴量は、画像に関する物理的な情報であり、輝度情報 (エッジ、マッハ効果量など)や色情報 (色相、色差など)である。処理範囲決定部 103は、抽出された画像特徴量に基づヽて、画素単位もしくは小ブロック単位で画像特徴量の解析を行う（S504ZS1003)。解析された各画像特徴量には、所定の重み付けが付加され、重み付けされた各画像特徴量が合算され (S505ZS 1004)、閾値処理がなされる（ S1005)。

[0080] さらに、処理範囲決定部 103は、閾値処理によって特定された画像特徴量に対応するカット画素群に対し、それらを内包もしくは外接する、カット画像内における矩形を決定する（S1006)。処理範囲決定部 103は、このように決定された矩形を処理範囲として出力する（S505ZS1007)。

[0081] ここで、画像特徴量の解析や重み付け、閾値の処理を、番組内容情報、番組書誌情報又は関連情報を用いて適応的に変化させてもよい。

[0082] 例えば、 EPG情報を介して番組内容情報を取得し (S1020)、キャプションの発生しそうな領域や発生頻度を推定 (S1009)したり、テロップ Z各種情報の発生しそうな領域や発生頻度の推定 (S1010)や、キャプションやテロップなどの補助情報ではなぐ主たる画像情報が表示されている領域の推定 (S1011)を行うこともできる。そして、画像特徴量を解析する際に、主たる画像領域の画像特徴量を優先的に使用したり、重み付けの際に、キャプション領域力も発生した画像特徴量の重みを相対的に低く (又は高く)することにより、主たる画像情報の影響を相対的に高く (又は低く)することができる。加えて、閾値の範囲については、テロップやキャプションが発生しやすい場合には画像全体の変化量が大きくなりやすいため、閾値を上げたり、逆に、テロップゃキャプションの発生が少ない場合には、閾値を下げるなど、領域'頻度の推定と各処理とを任意に組み合わせた処理を行うこともできる。 [0083] なお、決定される処理範囲の形状は矩形に限定されな!、。なお、閾値処理で残つた点を内包もしくは外接する矩形の代わりに、閾値処理を行わず、単位面積当たりの画像特徴量がより大きくなるように、所定 (又は所定以上)の大きさの領域を画像中に動力しながら処理範囲を決定してもよい。なお、 EPG情報を介して番組の内容情報を取得した際に、映像中の主体的な色を番組内容力も推定し (例えば、サッカー放送なら緑色など）、その色との乖離度を画像特徴量としてもよい。

[0084] 以上の結果、図 12および 13に示すように、カット画像 1201、カット画像 1202及びカット画像 1203の各画像に対する処理範囲として、処理範囲設定例 1301、処理範囲設定例 1302及び処理範囲設定例 1303が決定される。

[0085] 処理範囲決定部 103において、処理範囲は、おおよそ次のように決定する。例えば、処理範囲設定例 1301の場合、投手の左右にエッジおよび色の差が顕著に現れる。ノッターボックスの白線、打者、キャッチャー、アンパイャについても同様である。これらを重み付けしながら足し合わせることで、所定の閾値よりも大きい画像特徴量を有する点（小ブロック）が発生する。

[0086] 所定の閾値を超えた点（小ブロック）のうち、もっとも画像中で左側にあるもの力ピツチヤーの左側のエッジ、右側にあるものがバッターボックスの白線、上側は打者の頭及びキャッチャーの頭、下側はピッチャーのユニフォームのウェストラインおよびグラウンドの緑と茶色の境目である。この 4辺が決定し、処理範囲設定例 1301のような範囲となる。処理範囲設定例 1302、処理範囲設定例 1303も同様であり、ュニフォームゃバッターボックスなどのエッジの他、キャプション（スコア表示およびボールカウント表示）、テロップ（打者紹介)などのエッジに沿って処理範囲が決定されて、る。

[0087] 次に画像分類部 104について詳細に説明する（図 5、図 6参照)。

[0088] 図 6は、画像分類部 104の内部動作の様子を示すフローチャートである。

[0089] 画像分類部 104が呼び出されると（S601)、変数 nが「1」にセットされ (S602)、前述のカット画像の入力とともにクラスタリングが開始される（S603)。その後、分類指標が選択され (S604ZS506)、選択された分類指標でクラスタリングが実施される (S6 05ZS507)。クラスタリングアルゴリズムは、既存の任意の手法でよい。

[0090] なお、クラスタリング手法を大別すると、似たもの同士を併合してまとめて行く階層的なクラスタリングと、似たものが結果的に同じグループに入るように集合を分割する非階層的クラスタリングとがある。非階層的クラスタリングの代表例として、「k— mean法」がある。また、階層的なクラスタリングでは、最初、各対象をばらばらの一つのクラスタとみなして、近いクラスタを次々と統合することによって、最終的な分類結果を得る。階層的クラスタリングの代表例として、「最小距離法」などが挙げられる。

[0091] さて、クラスタリングの結果、 Cn個クラスタが生成される（S606)。ここでは n= 1なので、 C1個である。ここで、定数 kと nを比較し（S607)、 kと nが等しくない場合には、 Cn 個のクラスタから p個のクラスタを選択し（S608ZS509)、nに 1を付カ卩して（S610)、 p個のクラスタに含まれるカット画像群を新たな入力画像データとしてクラスタリングをやり直す（S603)。このとき、 pは Cn以下の正の整数である。 pの決定方法は、要素数の多いクラスタ力も順に、総入力カット画像数の所定パーセントに達するまでの個数とし、 Cnの 2分の 1を超えないものとする。

[0092] また、上記ステップ S607で kと nが等しい場合には、クラスタリングを完了する（S61 D o

[0093] なお、 pの決定方法は上記に限らず、単に、要素数の多いクラスタから順に、総入力カット画像数の所定パーセントに達するまでの個数として決定してもよい。また、定数によって pを決定していてもよい。また、 Cnの所定割合としても pを設定してもよい。

[0094] なお、定数 kは、 2ないし 3といった固定値でよいが、 S607の代わりに、特定のクラスタ（要素数が上位のクラスタ）に所定の割合以上のカット画像が分類されてヽるか否かでもう一度クラスタリングをおこなうかどうか決定してもよい。

[0095] なお、処理範囲決定部 103から処理範囲が入力されてもよい（S630)。処理範囲が入力された場合、クラスタリングする分類指標として、処理範囲によって限定される物理量を表す情報を用いてもよい。例えば、処理範囲の形状、位置及びサイズなどをクラスタリングする際の分類指標としてもよい。

[0096] なお、分類指標を選択する際に、データベースに格納されて!、る分類指標を参照してもよい（S620)。例えば、上記のような処理範囲の形状、位置及びサイズといった分類指標の他、画像情報から物理量として色指標 (色相指標、色差指標など)や、輝度指標を選び出し、分類指標としてもよい。 [0097] なお、処理範囲の内側の画像のみを対象として、色差指標や、輝度指標などの画像特徴量を算出してもよい。これはもちろん、処理範囲の外側の画像のみでもよぐ更に、所定の幅を持つ処理範囲の周辺領域のみを対象としてもよい。

[0098] これらの分類指標は、物理量を直接使用するほか、ヒストグラムを用いてもょ、。ま 7こ、 DCT (Discrete Lysine Transformノゃ FFT( Fast Fourier Transform)などの周波数変換を行!、、その直流成分又は交流成分を指標として用いてもょ、。

[0099] なお、以下の 2つの物理量を利用してクラスタリングする際の分類指標としてもよい。「1.処理範囲のカット画像中における位置」、「2.処理範囲の内外の一定範囲の画像特徴 (例えば周囲 20ピクセルなど）」。

[0100] 特に、上記「2.」の物理量は、具体的には処理範囲の境界線から内外一定範囲の画素について、エッジ強度と色相のヒストグラムをそれぞれ取得し、ヒストグラムは参照した画素数で正規化しておく。カット画像の分類は、上記「1.」および「2.」の二つの分類指標から、例えば最短距離法に基づくクラスタリングによって行う。この際、 2つの分類指標を個別に用いることで、 2段階のクラスタリングを行ってもよい。

[0101] まず、はじめに、処理範囲間の距離 D1を距離尺度としてクラスタリングを行う。処理範囲を矩形とした場合、 D1は二つの矩形の対応する頂点間の距離である。処理範囲間の距離を比較することで、カット画像の大ま力な構図を判定する効果が見込まれる。次に、 1回目のクラスタリングで要素数が多いクラスタ力も順に一定個数のクラスタを選び、そのクラスタに属するカット画像に対してヒストグラムに基づいて距離 D2を設定し、 2回目のクラスタリングを行う。

[0102] D2は、エッジ強度のヒストグラム He、色相のヒストグラム Hhを用いて定義し、

[0103] [数 1]

Ne

D2 = 厶〖園 { He,x ( i ) , He,y ( 1 ) 1

i=0

Nh

+ L. [ MIN i Hh^ f j ) , Hh,y ( j ) } ]

j=0 のように表される。なお、 MIN{x, y}は、 x, yのうち、小さい方の値を表す。また、 Ne 、 Nhは、ヒストグラムの次数を表す。例えば、 Neは 16、 Nhは 15として色相のヒストグラム Heは、有彩色 12段階と無彩色 3段階を含むものとする。エッジ強度ヒストグラム H eと色相ヒストグラム Hhを用いて、カット画像の前景および背景の類似度を判定する効果が見込まれる。両者を組み合わせることによって、「ヒトがどこを見て類似性を判断して、る力」を大まかに考慮しつつ、注目して、る部分の近傍の特徴を捉えることで、よりヒトの直感に近い分類が可能となる。

[0104] 次に、クラスタ選択部 106について詳細に説明する（図 5、図 7参照)。

[0105] 図 7は、クラスタ選択部 106の内部動作の様子を示すフローチャートである。

[0106] 画像分類部 104においてクラスタリングが終了すると（S701)、クラスタ選択指標が決定される（S702)。クラスタ選択指標には大きく 3種類あり、「クラスタの要素数で選択」、「所定の算出式力選択」及び「特定のクラスタを選択」のうちから何れかが選択される。

[0107] ここで、クラスタの要素数に基づいて選択された場合 (S703 : Yes)、要素数の多いクラスタの上位 S1個が選択され（S704、 S540) (例えば野球の場合、ピッチングシーンのクラスタに相当する。この場合、 S1が 1であり、上位 1個のクラスタが選択され）、ステップ S705に移動する。

[0108] クラスタの要素数順で選択されず (S703 :No)、所定の算出式より選択されていた場合 (S705 :Yes)、所定の算出式を用いて S2個のクラスタが選択される (S706)。

[0109] 所定の算出式 (条件式）は、例えば、次のように記述することができる。「1番目のクラスタ Ciの要素数を Riとするとき、 Thl <Riく Th2を満たす iのうち、 Riの大きいものから順に S2個を選択」する（このケースは、例えば、要素数が 5〜： LO枚のカット画像からなるクラスタを選択する場合などが相当する。クイズ番組の出題シーンなど、番組構成上のトピックの総数がおおよそ予想される場合に有効である。クイズ番組のタイトルなどから、おおよその問題数が予め定義され、その数に有った要素数を持つクラスタを自動選択する。）その後、次のステップ S707に移動する。

[0110] 所定の算出式より選択されておらず (S705 :No)、特定のクラスタより選択されていた場合 (S707 : Yes)、クラスタを選択するためのマッチングのテンプレートが読み込まれる（S708)。テンプレートはパターン DBとしてデータベース化し、記憶しておいても、必要に応じて読み出してもよい（S710)。読み込まれたテンプレートを用いて、各クラスタとパターンマッチングを行い、テンプレートに適合するパターンのクラスタを選択して（S709)、クラスタ選択は完了する（S711)。

[0111] 一方、特定のクラスタからの選択がされていない場合（S707 : No)、これまでに何らかのクラスタの選択がなされているかどうかを判定する（S750)。これまでに何らかのクラスタの選択がされていれば、クラスタ選択完了（S711)に移動する。何も選択されていなければ、これまでの 3通りの何れかの選択手法に限定するよう、フィードバックを選択決定ステップ (S 702)に返す (S721)。

[0112] なお、上記ステップ S709でのパターンマッチングは、全クラスタについて行っても、一部のクラスタについて行ってもよぐ各クラスタの一部の画像 (代表画像）についてのみ行ってもよい。

[0113] また、番組情報 120、例えば EPG情報を介して番組内容情報、番組書誌情報又は関連情報を取得し (S720)、クラスタ選択指標の決定 (S702)や、読み込むテンプレート種類の決定（S708)、 Sl、 S2の決定（S704、 S706)などの補助情報として用いてもよい。

[0114] 例えば、番組情報 120から番組のジャンルが「野球」と分力つた場合には、前述のように、「クラスタの要素数で選択」し、「S1は 1」とすることができる。同じく前述のように、（10問前後が出題される)クイズ番組と分力つた場合には、「所定の算出式から選択」し、算出式は「Thlを 7、 Th2を 13」とし、「S2は 5」などと設定できる。

[0115] また、上記ステップ S 706では、要素数 Riだけではなく、時間分布を用いて条件式としてもよい。例えば、条件式を i番目のクラスタ Ciの j番目の要素（カット画像) Rijのタィムスタンプを TRijとし、時間軸で最小の TRijを MIN— TRij、最大の TRijを MAX —TRijとするとき、番組の本編の時間幅を T1から T2として、本編時間に対する出現時間ズレ（DIF1)を（MIN_TRij— T1) + (T2— MAX_TRij)で定義してもよ！/ヽ。この場合、より DIF1が小さいクラスタを選択することで、同じ要素数のクラスタであつても、より番組全般の特徴を捉えたクラスタを取得することができる。

[0116] 逆に、 MIN— TRijと MAX— TRij力所定の時間幅の中に収まっているようなクラスタを選択するような条件式としてもよい。例えば、 1時間番組の中の最初の 10分から 15分の間に収まっているようなクラスタを選択する、などである。このようなクラスタを時間幅を変えながら複数選択することで、番組内でコーナー毎に大きく構成が変化し、コーナー相互に類似性が無いような番組であっても、適切にインデックス (チヤプタ）を付与するためのクラスタを選択することができる。

[0117] 同様に考えると、ニュース番組など、アンカーパーソンのシーンには類似性があつても、 VTRシーンには類似性がないような番組であれば、番組本編全体に渡って、時間分布の均質なクラスタと、局所的に固まって出現するクラスタを組み合わせることで、容易にチヤプタ付与ができる。

[0118] ちなみに、後述の Brick (チヤプタ Zインデックス候補の固まり）を生成する際に、チャプタに有効な固まり（インデックスを付与すべき範囲を示す固まり）を生成するの力、無効な固まり（インデックスを付与すべきでない範囲を示す固まり）を生成するのかを決定しなければならない。このニュース番組の例では、局所的に固まって出現するクラスタは、インデックスに不向きな「無効な固まり」を生成するためのクラスタといえ、この「無効な固まり」に含まれないカット画像を有する時間分布が均質なクラスタは、ィンデッタスを付与すべきクラスタであると云える。

[0119] もちろん、条件式は上記に限らない。上記の例のように、番糸且情報 120を補助情報として、一般に想定し得る番組構造への仮説 (仮定)を数式ィヒしたものであれば任意のものを扱ってよい。例えば、時間軸では、カット画像の分布、分散、平均又は最頻出現時間帯などを用いて、番組構造との対比を行い、適切なクラスタ選択に役立ててもよい。要素数でも同様に、出現カット数、最大数、平均などを用いて、番組構造との対比を行、、適切なクラスタ選択に役立ててもよ、。

[0120] 更に、番組情報 120を用いて、使用するテンプレートを決定してもよい。特定の図柄やレイアウトを有するシーンが存在する番組であれば、固定的なテンプレートの使用は非常に有効である。このとき、画像分類部 104によって各クラスタは適切に分類されているため、各クラスタの代表画像 (例えば、平均画像）とのマッチングを行い、最も近いクラスタを選択するだけで、他の同様の構図を持つカット画像を一度に取得することができる。画像全体に対して、同じマッチングを行った場合と同様の結果を各クラスタの代表画像 (例えば、平均画像）とのマッチングを行っただけで得られるため、大幅な計算コストの削減にもつながる。

[0121] ステップ S777では、選択クラスタと選択クラスタの属性情報を出力する。ここで、「選択クラスタの属性情報」とは、クラスタを選択した際の「Brickを生成するのに有効 Z無効なクラスタかどうか」及び「直接インデックスを付与すべきクラスタかどうか」について表す情報である。

[0122] 属性情報を決定する判断基準は、先の-ユース番組や野球番組の例で述べたクラスタ自身の選択基準と同一である。「単独で適切にインデックスを付与するためのクラスタとして選択した」クラスタであれば「直接インデックスを付与すべきクラスタ」 t 、う趣旨を伝える属性情報がそのクラスタに付与されて出力される。他の属性情報について同様である。

[0123] なお、この Brickに関する動作については、次のインデキシングルール選択部 107 にて詳しく説明し、その後、クラスタ選択部 106における各 Brick用のクラスタ選択例を示すこととする。

[0124] なお、単純に、番糸且構成においてより意味を持つシーン群やショット群力他のシ一ン群ゃショット群に較べて利用（放送)されることが多くなることは、合理的な仮定であると云える。これは、作成者側の構造的に番組を構成し視聴者に流れを伝えたいという意図を考えた場合でも同様と思われる。番組内容を理解するために必要な導入部分やブリッジ部分は、映像文法的にも高い頻度で繰り返され、番組内のコーナーやシーン (の先頭や重要部分の開始位置)を構成するものと考えられる。クラスタ選択部 106は、このような番組構成上の特徴を踏まえた上で、クラスタを選択することができる。

[0125] なお、クラスタを選択する個数について、例えば次のように求めてもよい。

[0126] コマーシャルなどを含んだ番組の総放送時間を Lpとし、番組内での平均カット出現数をとする（カット画像を用いた場合)。 i番目のクラスタ Ciに含まれるカット数を NCi とするとき、選択する個数となるクラスタ数は、

[0127] [数 2] k

N_Ci > Tc

i—0 を満たす最小の正の整数 kとして求めてもよい。なお Tcはしきい値であり、 γをパラメータとして Tcは γと Τρと Crの積で求められる。 γは番組中において特に重要なカツトがどの程度含まれるかを表すパラメータである。

[0128] 次に、インデキシングルール選択部 107の動作について詳細に説明する（図 5、図 9参照)。後半では、クラスタ選択部 106における各 Brick用のクラスタ選択例を併せて示す。

[0129] 図 9は、インデキシングルール選択部 107の内部動作の様子を示すフローチャートである。

[0130] インデキシングルール選択部 107は、クラスタリング結果（S902)を示すデータの入力（S903)を受け、まず、使用するクラスタ数やクラスタの要素数から、 Brickの生成が必要力どうかを判断する（S904)。ここでは、選択されたクラスタ内のカット画像力時間的にほぼ連続した固まりを形成している場合に、その固まりを Brickと呼んでいる

[0131] Brickの生成が必要と判断された場合、 Brick生成が必要であることを次段に伝えるシグナルが発行される（S905ZS543)。そして、その Brickがチヤプタとして「有効」な候補なのか、「無効」な候補なのかを決め（S906)、有効な場合は「有効チヤプタ」シグナルを発行する（S907)。無効の場合は「無効チヤプタ」シグナルを発行する（S 908ZS542)。その後、各発行シグナルを入力映像に対するインデキシングルールとして出力し（S910ZS511)、インデキシングルールの決定処理を終了する（S911

) o

[0132] Brickを用いたチヤプタリングルールの概略について、図 11を用いて説明する。映像データとしてカット画像が入力され (S 1101)、クラスタリングされる（S 1102)。クラスタのうち、クラスタ A、 B、 Fが選択されたとして、選択クラスタ内のカット画像を元の映像データの時系列上に配置する（S 1103)。 S1104の黒色のデータ位置（黒カット画像）力クラスタ A、 B、 Fの何れかに属しているカット画像のデータ位置に相当し、白色（白カット画像）がそれ以外に相当する。ここで、 Brickを生成すると、 S1105A、 S1105B、 S1105C、 S1105Dのように、 4つの Brick (固まり）力 Sできる。

[0133] ここでの Brickの生成アルゴリズムは、先述のように選択されたクラスタ内のカット画像力時間的にほぼ連続した固まりを形成している場合に Brickとし、連続していな V、場合には Brickとしなヽと、う比較的単純な方法を取って!/、る。時間的に連続かどうかの判定は、図 11の任意の黒カット画像と黒カット画像の間に所定の時間幅 (Twh )以上、一つ以上の白カット画像が含まれている場合、その黒カット同士は同じ Brick を形成しない。つまり、 Twh以上、時間的に間を置かずに黒カット画像が出現する限り、時間的にほぼ連続であるとする。

[0134] この所定の時間幅 Twhは、インデックスを生成する際に必要となる (インデックス生成部 108で必要となる）が、インデキシングルール選択部 107では、時間幅 Twhを特定する必要はない (インデキシングルール選択部 107は、必要最低限、 Brick作成が必要かどうかのみをルールとして決定すれば良！、)。

[0135] なお、図 11の Brick生成（S1105)及びインデックス付与（S1106)の例は、図 9の S907の有効チヤプタが選択された場合に相当する。後述のインデックス生成部 108 でも触れるが、「Brickを有効チヤプタ」とした場合、インデックスは各 Brickの先頭 (もしくは各 Brick内の任意箇所）に付与される。

[0136] 逆に、ステップ S908の「Brickを無効チヤプタ」とした場合は、無効な Brick生成用のクラスタと、 Brickを生成しないクラスタがクラスタ選択部 106で選択されている（先述の-ユース番組など、アンカーパーソンのシーンには類似性があっても、 VTRシーンには類似'性がなヽような番糸且などのケース)。

[0137] 無効 Brickも、 Brickの生成アルゴリズムとしては、先の有効 Brickと同様である。無効 Brick生成用のクラスタに属するカット画像力無効 Brickが生成される。ここで、便宜上、『Brickを生成しないクラスタに選択されたクラスタ』に属するカット画像を有意カット画像と呼ぶことにする。

[0138] この「Brickを無効チヤプタ」とした場合、インデックスは無効 Brickではなぐ有意力ット画像に付与される力有意カット画像のうち、各無効 Brickに含まれるカット画像には付与されない。 [0139] 図 11と同様、無効 Brickを用いたチヤプタリングルールの概略について、図 14を用いて説明する。映像データとしてカット画像が入力され (S1401)、クラスタリングされる（S1402)。クラスタのうち、クラスタ A、 B、 Fが無効 Brickを生成するクラスタとして選択され、クラスタ Dが有効なクラスタとして選択されたとする。これらの選択クラスタ内のカット画像を元の映像データの時系列上に配置する（S1403)。ステップ S1404 の黒色のデータ位置（黒カット画像）が無効 Brickクラスタ A、 B、 Fの何れかに属して V、るカット画像のデータ位置に相当し、白黒の斜め線の模様が入ったデータ位置 (模様カット画像）がクラスタ Dの有意カット画像（6つあるとする）のデータ位置に相当し、白色（白カット画像）がそれ以外に相当する。ここで、先の Brickと同じように無効 Brie kを生成すると、 S1405A、 S1405B, S1405C, S1405Dのように 4つの無効 Brick ができる。

[0140] ここで、 6つの有意カット画像 S1410A、 S1410B、 S1410C、 S1410D、 S1410E 及び S1410Fにインデックスを付与する力このうち、無効 Brickに含まれている S 14 10B及び S1410Dにはインデックスが付与されず、残りの 4つにインデックスが付与される。

[0141] インデキシングルール選択部 107における Brick生成時のインデキシングルールの決定方法は、以上の通りである。

[0142] 次に、ステップ S 904で Brick生成が必要な、と判断された場合にっ、て説明する。この場合は、選択されているクラスタのカット画像に直接インデックスを付与する「直接生成」シグナルを発行する（S909ZS544)。そして、ステップ S910に進む。

[0143] 基本的に、 Brickの生成が必要かどうかの判断は、クラスタ選択部 106で (このクラスタは無効 Brick用のクラスタ、このクラスタは有効 Brick用のクラスタなどと)選択された情報に従って決定される。しかし、何らかの原因でクラスタ選択部 106でのクラスタ指定情報が欠落した場合などには、上記図 7の S720と同様に、番組内容情報、番組書誌情報又は関連情報を、 EPG情報を介して補助情報として入力してもよ、 (S7 20)。 Brickの生成が必要力どうかについて、補助情報に基づいて判断してもよい。

[0144] このように、インデキシングルール選択部 107では、 Brick生成が必要かどうかに基づいて、 Brick生成が必要であれば有効 Brickか無効 Brickかを決定し、 Brick生成の必要がなければ直接生成を決定する。

[0145] この「直接生成」、「有効 Brick生成」及び「無効 Brick生成」の各シグナルに対する実インデキシングルールをまとめると次のようになる。

[0146] ·直接生成:選択されたクラスタに含まれる全カット画像にインデックスを付与する。

[0147] ·有効 Brick生成:選択されたクラスタに含まれる全カット画像を時間軸でソート、所定時間以内の固まり毎にインデックスを付与する。

[0148] ·無効 Brick生成：所定のクラスタ (有意なクラスタ）に含まれるカット画像 (有意カット画像)のうち、他の所定クラスタ (無効クラスタ）による Brickに含まれることのな力つたカット画像にインデックスを付与する。

[0149] なお、クラスタ選択部 106で、有効 Brickを生成するクラスタや、無効 Brickを生成するクラスタとインデックス付与に有効なクラスタをどのように選択するかについてである力上述したクラスタ選択部 106の説明においても触れたように、各クラスタの要素数や総要素数で判断する。他にも、各クラスタの時間分布状況や、 EPG情報を始めとする番組情報 120を用ヽることも前に述べた通りである。

[0150] 重複するが、ニュース番組など、アンカーパーソンのシーンには類似性があっても、 VTRシーンには類似性がないような番組であれば、番組本編全体に渡って、時間分布の均質なクラスタと、局所的に固まって出現するクラスタを組み合わせることで、容易にチヤプタを付与することができる。

[0151] つまり、ニュース番糸且であれば、時間分布の均質なクラスタをチヤプタに有効なクラスタ（有意カットを含むクラスタ）とし、時間分布に偏りのあるクラスタを無効 Brick生成用のクラスタとする、という方法を用いることができる。

[0152] また、上位 n個（例えば 1個）のクラスタに含まれるカット画像数の総カット画像数に占める割合が、所定値 (例えば 15%)以上である場合には、直接生成用のクラスタとして、そのクラスタを選択する、という方法を用いることができる。これは特に野球などのスポーツ番組において有効な手法である。もちろんこの場合、番組情報 120から野球番組である、という情報を取得して、上位 n個を無条件に選択してもよいし、逆に、野球番組で且つ所定割合以上とヽぅ複数条件にしてもょヽ。

[0153] また、上位 n個（例えば 10個）のクラスタのカット数の総和を取っても、総カット数の所定割合を超えなヽような場合や、上位のクラスタが時間分布でそれぞれ偏ってヽる場合などは、上位 n個のクラスタや、時間的に偏っている各クラスタを「有効 Brick」生成用として選択する、という方法を用いることができる。これは、特にバラエティ番組や音楽番組に有効である。もちろんこの場合も、先の野球の例と同じように番組情報 12 0から補助情報を得てもよい。

[0154] なお、この「直接生成」、「有効 Brick生成」及び「無効 Brick生成」の!、ずれかを選択する際に、クラスタ選択部 106におけるマッチングテンプレートを用いたパターンに適合したクラスタ（S708、 S709)を用いてもよい。

[0155] 例えば、特定のシーンには必ずインデックスを付与したい場合には、テンプレートのパターンに適合したクラスタを「直接生成」に用いてもよい。アンカーパーソンのシーンを集め、無効 Brickに含まれた以内場合には、インデックスを付与したい場合には、アンカーパーソン用のテンプレートを利用し当該のシーンを集めてもよい。

[0156] なお、上記図 9の説明では、インデックス付与ルールとして、「直接生成」、「有効 Bri ck生成」及び「無効 Brick生成」についてのみ記述した力これらを組み合わせてィンデッタス付与ルールを構築してもよい。例えば、無効 Brickと有効 Brickをそれぞれ生成し、無効 Brickと重複しな、（内包しな!、Z内包されな、Z—部共有しな、)ような有効 Brickにインデックスを付与してもよい。また、階層的にインデックスを生成するようなルールとしてもよい。例えば、より細力、レイヤーのインデックスとして「直接生成」を用い、より粗ヽ（上位の）レイヤーのインデックスとして「有効 Brick生成」を用いてもよい。ここで、階層構造とした場合に、互いのレイヤーの情報を相互で利用できるようにしても、もちろんよい。

[0157] なお、「直接生成」、「有効 Brick生成」及び「無効 Brick生成」のみではなぐ単純に「利用する」クラスタ、「利用しない」クラスタを指定して、それらを組み合わせることでルールを構成してもよい。「直接生成」、「有効 Brick生成」及び「無効 Brick生成」は、「利用する」クラスタ、「利用しない」クラスタを指定して組み合わせた特殊なケースの一つである。

[0158] また、「利用する」クラスタ、「利用しない」クラスタの選択と組み合わせルールを、番組情報 120を補助情報として生成してもよい。 [0159] なお、 Brickを生成する際の閾値条件である所定の時間幅 (Twh)を、 Brickを構成しないクラスタに属するカット画像の枚数 (Nlim)に置き換えても良ぐ例えば、一つの Brickとして継続できる許容限界 (他のカットが連続して混入してよ!、枚数)を Nlimとすると、 Nlimは、

[0160]

を満たす最小の正整数として求めてもょ、。

[0161] ある Brick内にぉ、て、 Brick構成対象の k個のクラスタ以外に属するカット画像が連続して Nlim枚を超えて出現した場合、その Brickは分割されるものとする。なお、 T Hは閾値であり、 ηをパラメータとして、 ηと kの積を Crで割ったものとして求められる。 r?は、番組中において非重要なカットがどの程度含まれるかを表すパラメータである。先の γと合わせて r?の値は、複数の番組から実験的に求めた値の平均値を採用できる。

[0162] 次にインデックス生成部 108の動作について詳細に説明する（図 5、図 8参照)。

[0163] 図 8は、インデックス生成部 108の内部動作の様子を示すフローチャートである。

[0164] インデキシングルールの入力（S801)、クラスタリング結果の入力（S802)、クラスタ選択結果の入力（S893)によるデータ入力後（S804)、インデキシングルールの発行シグナルに沿って実際にインデックスの生成を行う。直接生成シグナルが発行されている場合、選択されたクラスタのカット画像を直接利用することになり（S805 :Yes) 、選択されたクラスタ内の全カット画像のタイムスタンプを抽出（S806ZS545)した後、抽出したタイムスタンプの各時刻に合わせてインデックスを生成し (S812)、出力する（S813)。

[0165] 直接生成シグナルが発行されて、な、場合 (S805： No)、 Brickを生成することが基本となる。そのため、 Brick生成のシグナルが発行されていない場合は（S807 :N o)、エラー処理を行う (S830)。

[0166] Brick生成のシグナルが発行されている場合（S807 : Yes)、有効 Brickもしくは無効 Brickを、選択されているクラスタを用いて実際に生成する（S808)。生成方法の説明は、既にクラスタ選択部 106やインデキシングルール選択部 107の説明時に述ベている通りである。

[0167] 次に、生成された Brickが有効チヤプタである場合（S809 :YesZS548)、すなわちチヤプタ生成 (インデックスの付与）に有効な Brickである場合、各 Brickの先頭画像のタイムスタンプを抽出し（S810ZS546)、タイムスタンプの各時刻に合わせてィンデッタスを生成して（S812)、出力する（S813)。

[0168] さらに、生成された Brickが無効チヤプタである場合（S809 :NoZS547)、すなわちチヤプタ生成 (インデックスの付与）に無効な Brickである場合、各 Brickに含まれない選択クラスタのカット画像のタイムスタンプを抽出し（S811ZS547)、タイムスタンプの各時刻に合わせてインデックスを生成して（S812)、出力する（S813)。

[0169] なお、 S810では各 Brickの先頭画像のタイムスタンプを抽出したが、各 Brick内の任意のタイミング (例えば、平均時間、中央時間など）をタイムスタンプとして抽出してちょい。

[0170] なお、上記では、インデックス生成のアルゴリズムの一例を示した力インデックス生成のアルゴリズムはこれに限定されるものではなぐインデックスルールとして決定されたルールを実際に実行するアルゴリズムであれば任意の形をとつて良いことは云うまでもない。

[0171] 以上が、本発明に係る実施の形態 1における映像シーン分類装置 100の説明である。

[0172] なお、ここで、参考までに従来例と本願との比較を行ってみる。

[0173] 図 1は、従来例 1 (特許文献 1)の実質的な概略処理ステップを示している。映像をセグメント化し、音響特徴量と映像特徴量からセグメントの類似度を測り、クラスタリングする。その上で互いに類似するセグメントを含むクラスタを探し出し、類似チェーンを構成している。

[0174] 発明が解決しょうとする課題にて先述したように、精度や速度両面をはじめ、実現性そのものにも課題を有しているが (仮に出願時の技術水準で複数のジャンルに適用した場合、適合率 ·再現率とも 30〜50%程度になると試算）、放送番組に汎用的にインデックスを付けようとする点で、本願と目的は同一であり、先行例として従来技術水準を表す文献である。

[0175] 本願発明とは、明らかに構成が異なる上、実現可能であるという点で大きな違いがある。更に、得られる精度や速度面での圧倒的な優位性があり、しかも、カット画像内のテロップなどにもロバストな分類を行い、ヒトの知覚に沿った分類ができるという、従来例 1にはな!/ヽ特有の効果も有してヽる。

[0176] 図 2は、従来例 2 (特許文献 2)の実質的な概略処理ステップを示して、る。映像ジヤンルを特定し、例えば野球の場合には、水平方向に 3つの小領域を設定し、緑色および褐色の領域を検出することでピッチングシーンの検出を試みるものである。

[0177] 上記発明が解決しょうとする課題にて述べたように、ジャンルに対する汎用性がない上、球場や天候にも左右される。また、図 12のように水平方向に大きくテロップが出た場合にも無力である（先に示した再現率は 98%、適合率は 95%という数値は、テロップを含んだカット画像群に対してではない)。経験的に、野球のカット画像には、 20〜30%の確率で複数のキャプションやテロップがカット画像中に含まれて!/、る。このような場合には、特に再現率が約 60〜80%に大きく低下すると試算される。

[0178] このように、実現時には映像状況へのロバスト性とジャンルの汎用性の無さが課題になるが、放送番組にインデックスを付けようとする点で、本願と目的は同一であり、先行例として従来技術水準を表す文献である。

[0179] 本願発明とは、明らかに構成が異なる上、得られる精度で本願発明は圧倒的な優位性があり、し力も、カット画像内のテロップなどにもロバストな分類を行い、ヒトの知覚に沿った分類ができると!、う、従来例 2にはな、特有の効果も有して!/、る。

[0180] 図 3は、従来例 3 (特許文献 3)の実質的な概略処理ステップを示して、る。画像を領域分割し、各領域の形状についてその形状の異質度を算出し、更に、特に色特徴量から誘目度を算出している（主として、赤色を最も目立つ色と定義し、赤色からの色距離を測ることで誘目度を算出してヽる)。異質度と誘目度から領域分割された領域で最も注目される領域を決定している。更に、別途、画像を小ブロックに分け、小プロックごとにこの誘目度の平均値を求め、複数個（例えば k個）の小ブロックの誘目度を順に並べた k次元の特徴ベクトルを生成し、その特徴ベクトルで画像を分類して!/、る [0181] この従来例 3は、チヤプタ生成等を意図したものではなぐ画像を検索する際に、画像のなかで特徴的な部分に特ィ匕した検索を可能とするためのものである。例えば、ュ一ザが「花が主体的に写っている画像」をキー画像に検索する場合、画像全体を捉えて類似度を評価するよりも、特徴的な部分 (花の写っている部分)のみで類似度を評価したほうがユーザの検索した、と考えて、る実情に沿って、て良、、 t 、う主張である。

[0182] 本願発明とは、分類画像の類似分類に際して、ヒトの知覚特性を考慮した分類を行うと言う大くぐりな着想で類似しているものの、本願では主体的に映っている物の検出は行っておらず、逆に比較的普遍的な特徴を持つ範囲を算出している。

[0183] 従来例 3を、例えば野球放送に応用した場合、図 12のカット画像 1202の打者が赤いユニフォームを着ていたとすると、カット画像 1202では、打者の形状だけが注目領域として検出される。一般に同じチームの選手は同じ色のユニフォームを着用しているので、ピッチングシーンに限らず、同じ赤いユニフォームの選手が映っているカット画像は、高い類似度を持ち同じカテゴリに分類されることが容易に想像される。更に、カット画像 1203の選手紹介キャプション力赤色の背景を有していた場合、カット画像 1203では選手紹介キャプションだけが注目領域として検出される。カット画像 1 203とカット画像 1202は同じカテゴリに分類されないことも容易に想像できる。

[0184] 更に、攻守交替した場合には、ユニフォームの色が入れ替わるため、ピッチングシーンに限っても、同じカテゴリへの分類は非常に困難であり、またピッチングシーン以外のカット画像が紛れ込む誤分類も頻発することが予測される。

[0185] つまり、本願発明とは明らかに構成が異なる上、分類のみで見た時の得られる精度についても、本願発明は圧倒的な優位性がある。しカゝも、カット画像内のテロップなどにもロバストな分類を行うことができるという、従来例 3にはない特有の効果も有している。

[0186] このように、従来技術では、分類精度を上げるために、入力画像の種類を限定した上で、分類に用いる特徴量を特ィ匕するアプローチが取られていたことに、改めて留意して頂きたい。例えば、野球放送のみと言った限定をした上で、野球放送に特化した特徴量を用いて分類を行ってヽた。

[0187] 逆に、限定を行わない従来の分類方法では、分類の結果、できあがったクラスタは、本来同じクラスタであるべきカット画像が別々のクラスタに属していたり、全く異なるカット画像が同一クラスタに属しているなど、基本分類性能に問題がある。後段の処理ではそれを吸収するため、総当り的処理が必要となり精度及び速度両面で課題があったことも改めて留意して頂きた、。

[0188] 以上が、本願と従来例との比較である。

[0189] なお、客観的な実験データによる優位性も確認できている。以下にデータを転記する。

[0190] 本願発明の構成によるインデキシングを行うと、例えば野球放送の場合、ピッチングシーンの適合率は平均 99. 6%以上であった。これは、コマーシャルを含む野球放送全編を対象とした場合の数値であり、しかも、比較的悪条件の放送を用いた、実応用を念頭に置いたテストでの数値である（テストには、 3本の野球放送を用いた。その内 1本は、試合開始当初は明るい晴天であった力次第に曇天になって暗くなり、途中から雪が降り出して一時は映像が白くなるほどの降雪があった映像であり、さらに別の 1本は、晴天力も後半は強い雨になった映像である。云うまでもなぐ従来のロバスト性のな!、クラスタリング手法では破綻するケースであり、野球に特化した特許文献 2のようなシステムでも色情報が失われるため破綻するケースである。 )。

[0191] また、他のジャンルの番組でも良好な結果を得ており、処理時間も約 100分 (カット画像数 1411枚）の野球映像に対して、約 45秒（3GHzCPU)であった。この処理時間は、カット画像の読み込み、処理範囲の決定、クラスタリング、インデキシングにか力る時間の総計である。

[0192] 以上のように、本願発明は、明らかに従来例と構成が異なる上、従来の技術水準では到底成し得ない精度と速度を達成することができる。さらに、従来にはない特有の効果も有して、ることが確認される。

[0193] なお、上記では、放送コンテンツの分類やインデックスの付与を中心に説明してきたが、分類の対象となるデータは放送コンテンツに限らず、任意の画像データであつてもよい。 [0194] 特に、静止画を中心とした個人コンテンツ (デジタルカメラで撮影した画像群）には非常に有効である。例えば、同じ場所に複数回行った時の写真を本方式によって同じカテゴリに分類し、同じタグを付与することが (インデキシングすることが）できる。

[0195] 間歇撮影や連続撮影をしたような画像群の場合、その利点は更に大きくなる。上記従来技術での個人コンテンツの分類では、撮影時間のバラつきなどを利用するものがほとんどであるため、画像の視覚的な特徴に基づ、た納得性の高、分類はできない。更に、連続的に取得された画像群では撮影が一定間隔で行われているため、従来技術が拠り所としている時間的なバラつきも利用することができないため、従来手法での分類はほぼ破綻してしまう。

[0196] しかし、本手法であれば、離散的な時間間隔で撮られた静止画像群 (個人の旅行毎の写真など)であっても、連続的な時間間隔で撮られた画像群 (監視カメラ映像や、個人のビデオ映像、個人記録写真など)であっても、視覚的な特徴に基づいてインデキシングすることが可能である。そのため、本手法の利点は更に大きくなる。

[0197] 例えば、仮に間歇撮影のできるカメラを用いて静止画像 (例えば 1枚 Z秒間隔で撮影された画像)を、数時間分から数日分に渡り大量に蓄積する状況を考える。具体的には、例えば監視カメラの画像であってもよいし、個人が旅行中にカメラを体に装着して旅行記を撮影した画像であってもよ、。このような大量画像を自動的に整理した V、、もしくはインデックスを付与した、と、うのは自然な動機として発生すると考えられる。

[0198] 個人旅行の場合で考えると、旅行先の風景の変化（山間部にいる、海辺にいる、街中に、るなど）や天候の変化、屋内外の変化などで撮影される画像は少しずつ変化する。これらの画像は短い時間 (数秒力も数分)では、おおきな変化は殆ど発生せず、おおよそヒトには同じようなシーンであると知覚されることが多い。しかしコンピュータビジョンの観点では、人の眼には同じようなシーンであってもそれを同じカテゴリに分類することは一般に困難である。これは先に説明した放送コンテンツにおけるテロップの有無や細かな相違力従来技術における分類の阻害要因になっていることと同じである。大量の自然画像 (個人コンテンツ)の中から局所的に雰囲気が似ているものを、画像情報で「似ている」として同じカテゴリに分類することは、非常に困難である [0199] そこで、本方式の分類方法を導入する。本方式によりヒトの視覚特徴量 (見た目の雰囲気）に基づ、た分類が可能となる。視覚的に重要では無、ところ (注目されな!/、領域)の画像情報による影響を軽減することができるため、よりヒトの直感に近いような、「似て、る」と思う画像群を一かたまり（クラスタ）としてインデキシングすることができる。

[0200] もちろん、それぞれのクラスタに属する画像に対してタグを付与してもよい。

[0201] このように、分類の対象となるデータは放送コンテンツに限らず、任意の画像データであってもよい。

[0202] なお、ここでは個人コンテンツの例として個人旅行の間歇撮影画像を取り上げたが実施の形態はこれに限定されるものではなぐ任意の静止画像や動画像を対象として良、ことは云うまでもな、。

[0203] 以上のように、本発明により、「対象物を特定しない（トップダウン型ではない）、ヒトの知覚に近い安定した映像の新しい分類方法による、汎用的且つ高速で、ユーザにとって自明的なインデックス (チヤプタ）を生成するチヤプタリングシステムの構築が可能となり、快適な映像再生検索システムを構築することが可能になる。

産業上の利用可能性

[0204] 本発明は、ビデオレコーダ（HDDレコーダや DVDレコーダなど）をはじめ、 TV、携帯電話、カーナビゲーシヨンシステム、 DVDプレーヤ等といった、録画もしくは再生機器等に適用できることはもちろん、サーバでチヤプタリングし、そのデータを映像と併せてクライアント装置に配信するようなサーバ一クライアントシステム等としても利用が可能である。

Claims

請求の範囲

[1] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像シーン分類装置であって、

前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する画像分類手段と、

分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ選択手段と、

前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックスを付与するインデックス生成手段と

を備えることを特徴とする映像シーン分類装置。

[2] 前記映像シーン分類装置は、さらに、

サンプリングすることによって前記映像力も複数の画像を取得する映像サンプリング手段と、

取得された前記画像毎に画像処理を施す処理範囲を決定し、当該処理範囲に対して画像処理を施すことにより分類指標を特定する処理範囲決定手段とを備え、前記画像分類手段は、

決定された前記処理範囲における前記分類指標に基づいて前記分類を行うことを特徴とする請求項 1記載の映像シーン分類装置。

[3] 前記映像シーン分類装置は、さらに、

分類された前記クラスタの分類指標又は前記映像の番組内容情報に基づ、て、ィンデキシングルールを選択するインデキシングルール選択手段を備え、

前記インデックス生成手段は、選択された前記クラスタに対して、選択された前記ィンデキシングルールを用いて、前記画像にインデックスを付与する

ことを特徴とする請求項 1記載の映像シーン分類装置。

[4] 前記インデキシングルール選択手段は、前記番組内容情報に基づいて、

(1)選択されたクラスタに含まれる全ての画像にインデックスを付与する、

(2)選択されたクラスタに含まれる全ての画像を時間軸でソートし、所定時間以内の画像の固まり毎にインデックスを付与する、及び、 (3)所定のクラスタに含まれる映像ブロックのうち、他の所定クラスタにより連続的な固まりに含まれることのな力つた映像ブロックにインデックスを付与する、

とする何れかのルールの中からインデキシングルールを選択する

ことを特徴とする請求項 3記載の映像シーン分類装置。

[5] 前記クラスタ選択手段は、

選択するクラスタの数を決定するクラスタ数決定部と、

選択するクラスタの種類を決定するクラスタ種決定部の少なくとも一つを備え、前記クラスタ数決定部は、

(1)前記意味内容情報もしくは画像情報力映像のジャンルを特定し、特定されたジャンルに対応した所定の数を、選択するクラスタの数として決定する、および

(2)前記意味内容情報もしくは画像情報力映像のジャンルを特定し、特定されたジャンルと分類結果情報によって求まる所定の数を、選択するクラスタの数として決定する、

とする何れかの手法に基づいて前記クラスタ数を決定し、

前記クラスタ種決定部は、

(1)クラスタの映像ブロック数が最大のクラスタカゝら所定個数を選択する、

(2)クラスタの映像ブロックの出現時間平均値が所定時刻に近いクラスタ力所定個数を選択する、

(3)クラスタの映像ブロックの出現時間分布が所定時間帯に近いクラスタ力も所定個数を選択する、及び

(4)クラスタの映像ブロックの出現時間分布が所定時間帯に含まれて、な、クラスタから所定個数を選択する、

とする何れかの手法に基づいて前記クラスタの種類を決定する

ことを特徴とする請求項 1記載の映像シーン分類装置。

[6] 前記処理範囲決定手段は、

入力された映像の輝度情報若しくは色情報を用いて前記対象範囲を決定する、又は前記意味内容情報を用いて、

(1)前記対象範囲の決定に際して、位置に関する重み付けを行う、及び (2)キャプションもしくはテロップが出現する位置を推定し、位置に関する重み付けを行う、

とする何れかの手法に基づいて前記対象範囲を決定する

ことを特徴とする請求項 1記載の映像シーン分類装置。

[7] 前記処理範囲決定手段は、

前記番組内容情報が、野球番組に関する情報を意味するときに、前記重み付けを画像中心部に設定する、又は前記キヤプションの位置推定をスコア表示および選手紹介の表示位置を用いて行う

ことを特徴とする請求項 6記載の映像シーン分類装置。

[8] 前記画像分類手段は、

(1)前記対象範囲の大きさ若しくはその位置の!/、ずれかを用いて、又は

(2)前記対象範囲の内部の画像情報、前記対象範囲の所定の周辺部の画像情報、若しくは前記対象範囲の外部の画像情報のいずれかを用いて、前記クラスタの分類を行い、当該分類において、画像の色情報もしくは輝度情報のヒストグラムを用いる

ことを特徴とする請求項 1記載の映像シーン分類装置。

[9] 前記画像分類手段は、

前記処理対象範囲の位置の各入力画像間での差分量によって第 1の画像の分類を行い、

前記第 1の画像の分類のクラスタ結果から、映像ブロック数が最も多、所定数のクラスタに含まれる映像ブロックを用い、前記処理対象範囲の周辺部の輝度分布もしくは色分布のヒストグラムによって第 2の画像の分類を行う

ことを特徴とする請求項 8記載の映像シーン分類装置。

[10] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像シーン分類方法であって、

前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する画像分類ステップと、

分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ選択ステップと、

前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックスを付与するインデックス生成ステップと

を含むことを特徴とする映像シーン分類方法。

[11] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像シーン分類装置に用いる、コンピュータに実行させるためのプログラムであって、前記プログラムは、

を含むプログラム。

[12] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与するためのプログラムが記録された記録媒体であって、

前記プログラムは、

を含むプログラムが記録された、コンピュータが読み取り可能な記録媒体。

[13] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する集積回路であって、

前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する画像分類手段と、分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ選択手段と、

を備えることを特徴とする集積回路。

サーバ装置とクライアント装置とを有するサーバークライアントシステムであって、前記サーバ装置は、

前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックスを付与するインデックス生成手段と、

前記インデックスが付与された画像を表す画像データをクライアント装置に送信する送信手段とを備え、

前記クライアント装置は、

前記サーバ装置から画像データを受信する受信手段と、

受信した前記画像データに係るインデックスに基づ!/、て、受信された前記データに係る画像の再生時に頭出し又はスキップを伴う再生を行う再生手段とを備えることを特徴とするサーバクライアントシステム。