JP6034702B2

JP6034702B2 - 画像処理装置及び画像処理プログラム

Info

Publication number: JP6034702B2
Application number: JP2013004775A
Authority: JP
Inventors: 貴裕望月; 藤井　真人; 真人藤井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-01-15
Filing date: 2013-01-15
Publication date: 2016-11-30
Anticipated expiration: 2033-01-15
Also published as: JP2014137637A

Description

本発明は、映像に含まれるフレーム画像に対する画像処理装置及び画像処理プログラムに関する。

従来では、記録技術の進歩によりハードディスクに大量の映像を蓄積することが可能となっている。また、ネットワーク環境の発達により、インターネット等の通信ネットワークを通じて多種多様な映像にアクセスすることができるようになっている。そのため、所望の映像を素早く探し出すための検索技術が有用となっている。

ここで、映像の一般的な検索技術としては、映像内容に関するキーワード検索が挙げられる（例えば、特許文献１参照）。しかしながら、映像の量が膨大となった場合には、各シーンへの的確なキーワードやテキスト情報の付与が非常に高い作業コストとなる。また、付与された情報は、作業者の違いによる感覚のブレを含んでおり、検索精度の低下を招く恐れがある。そこで、キーワード検索とは異なるアプローチとして、画像特徴の類似性に基づいた「ビジュアル検索」に関する研究が盛んに行われている。従来のビジュアル検索は、カメラの切り替わりで区切ったショット単位での検索であり、高速に検索するために「代表フレーム画像の類似性」をそのままショットの類似性としている。

ＴｏｍｏｋｉＭａｓｕｄａ，ＤａｉｓｕｋｅＹａｍａｍｏｔｏ，ＳｈｉｇｅｋｉＯｈｉｒａ，ＫａｔａｓｈｉＮａｇａｏ、"ＶｉｄｅｏＳｃｅｎｅＲｅｔｒｉｅｖａｌＵｓｉｎｇＯｎｌｉｎｅＶｉｄｅｏＡｎｎｏｔａｔｉｏｎ"、ＮｅｗＦｒｏｎｔｉｅｒｓｉｎａｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡｗａｒｄｅｄＰａｐｅｒｓ、ＬＮＡＩ４９１４、Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ、ｐｐ．５４−６２（２００８）

しかしながら、上述したショット単位の検索では、検索意図の一部しか満たされない場合があるため、複数ショットで構成される「シーン」を単位とした検索の仕組みが必要となる。また、シーン単位の検索では、シーン途中のフレーム画像の「見た目」が代表フレーム画像と大きく異なる場合がある。したがって、一枚のフレーム画像を「シーンの代表」と位置付けるのは困難である。

例えば、シーンの代表として複数の画像（例えば、全てのショットの代表画像）を用いるアプローチも考えられるが、その場合には、シーン同士の類似度を求めるために「総当り的」な画像同士の類似度算出が必要となるため、算出コストが非常に高くなってしまう。

本発明は、上述した問題点に鑑みなされたものであり、映像中に含まれるシーン毎の特徴情報を適切に取得するための画像処理装置及び画像処理プログラムを提供することを目的とする。

本発明の一態様における画像処理装置は、映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有する。

また、本発明の一態様における画像処理プログラムは、映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、前記コンピュータを、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させる。

本発明によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。

多重スケール画像片ワードヒストグラムの概念図である。本実施形態におけるブロック画像例を示す図である。画像処理装置の機能構成の一例を示す図である。多重スケール画像片ワードの生成処理の一例を示すフローチャートである。画像片ワードの生成の流れを示す図である。多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。多重スケール画像片ワードヒストグラムの生成の流れを示す図である。検索処理の一例を示すフローチャートである。距離Ｄ_ｉの算出例を示す図である。クエリーとする１２種類のシーンとそれぞれについて設定した正解映像内容を示す図である。関連度の概略的な算出例を示す図である。本実施形態における検索結果の一例を示す図である。比較手法の一例を示す図である。実験結果の比較例を示す図である。精度比較の一例を示す図である。

＜本発明について＞
本発明は、映像に含まれる複数のフレーム画像を用いて、映像（例えば、シーン毎）に対する特徴情報を取得する。具体的には、各フレーム画像に対して１又は複数の異なる画像サイズ（以下、「多重スケール」という）を有する画像片ワードのヒストグラム（多重スケール画像片ワードヒストグラム、ＨｉｓｔｏｇｒａｍｏｆＭｕｌｔｉ−ｓｃａｌｅＩｍａｇｅＰｉｅｃｅＷｏｒｄ、以下、必要に応じて「Ｈ−ＭＩＰＷ」という）に基づく特徴情報を用いて各シーンの分類を行う。

画像片とは、例えば１フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ（スケール）は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、Ｈ−ＭＩＰＷは、例えばブロック画像の種類と出現比率（頻度）による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。

ここで、図１は、多重スケール画像片ワードヒストグラムの概念図である。また、図２は、本実施形態におけるブロック画像例を示す図である。図１の例では、所定のシーンからサンプリングしたフレーム画像を１又は複数種類の画像サイズ毎にブロック単位で分割し、分割した画像片に対して特徴情報に基づく多重スケール画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）を生成し、シーン中にどの種類のブロック画像がどのくらい存在するか（出現比率）を取得する。

ここで、ブロック画像の種類は、映っている内容（被写体）と強い因果関係がある。例えば図２に示すように、「空」、「山、森」、「夕焼け」等の映像の内容は、フレーム画像を分割した各ブロックから取得することができる。したがって、したがって、上述したＨ−ＭＩＰＷは、シーンの内容を包括的に表現する特徴の１つと考えることができる。本実施形態では、Ｈ−ＭＩＰＷに基づいて、例えば複数のフレーム画像を含むシーンの特徴情報を取得する。

また、本実施形態では、シーンが１つのヒストグラムで表現されるため、適切なシーンの分類により類似度を高速に算出することができ、取得した特徴情報を用いて映像内容の類似性に基づいたシーン検索を可能とする。以下に、画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜画像処理装置の機能構成例＞
図３は、画像処理装置の機能構成の一例を示す図である。図３の例に示す画像処理装置１０は、大別すると、特徴抽出装置２０と、シーン検索装置３０とを有する。なお、本実施形態における画像処理装置１０は、特徴抽出装置２０及びシーン検索装置３０のうちの何れかを有する構成であってもよい。

特徴抽出装置２０は、予め設定された準備用（サンプル）フレーム画像集合を入力し、画像片ワードを生成する。また、特徴抽出装置２０は、例えば映像を所定の間隔（例えば、一定間隔や映像区切り等）で区切ったシーン（複数のフレーム画像）を入力し、そのシーンに対して上述した画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）を算出する。シーン検索装置３０は、特徴抽出装置２０で得られたＨ−ＭＩＰＷの類似性に基づき、予め蓄積された映像情報の中からユーザ等の要求シーンに対応するシーンを検索する。以下に、特徴抽出装置２０及びシーン検索装置３０について具体的に説明する。

特徴抽出装置２０は、サンプリング取得手段２１と、分割ブロック設定手段２２と、画像片ワード生成手段（ブロック特徴情報生成手段）２３と、シーン分割手段２４と、ヒストグラム生成手段２５とを有する。また、シーン検索装置３０は、ヒストグラム生成手段３１と、検索手段３２とを有する。

サンプリング取得手段２１は、予め蓄積された準備用（サンプル）映像集合４１から、所定の間隔（例えば、Ｔ_１フレーム）毎にフレーム画像をサンプリングし、準備用フレーム画像集合４２（Ｐ_１，・・・,Ｐ_Ｎ＿Ｐ）を出力する。所定の間隔（Ｔ_１）は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット（例えば、映像の切り替わり）の先頭画像であってもよい。

分割ブロック設定手段２２は、画像片ワード生成手段２３により生成される１又は複数の画像片（画像ブロック）の大きさ（スケール、画像サイズ）、種類、及び数等のうち、少なくとも１つを設定する。例えば、分割ブロック設定手段２２は、画像片の大きさを４×４画素、８×８画素、１６×３２画素の３種類と設定することができるが、画像片の大きさや数はこれに限定されるものではない。なお、画像ブロックの設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル（例えば、ニュース番組、スポーツ、ドラマ）等に対応して自動的に設定されてもよい。更に、分割ブロック設定手段２２は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(ＳａｌｉｅｎｃｙＭａｐ)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも１つを設定してもよい。顕著性マップは、周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。

画像片ワード生成手段２３は、例えば分割ブロック設定手段２２により設定された条件等に基づいて、準備用フレーム画像集合４２から画像片ワード４３（Ｗ）を生成する。なお、画像片ワードの具体的な生成手法については、後述する。

シーン分割手段２４は、ユーザ等により入力手段等を用いて指定される検索対象映像４４（Ｖ_１，・・・,Ｖ_Ｎ＿Ｔ）に対して、所定の間隔（例えば、Ｔ_２フレーム）毎のシーンに自動分割し、検索対象シーン４５（Ｓ_１，・・・,Ｓ_Ｎ＿Ｓ）を生成する。

なお、検索対象映像４４とは、シーン毎の特徴情報を抽出する対象の映像を意味し、本実施形態では、一例として、後述するシーン検索装置３０における検索対象となる映像を示している。また、所定の間隔（Ｔ_２）は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、また映像の区切りの最初のフレームの間隔であってもよい。また、所定の間隔（Ｔ_２）は、上述した所定の間隔（Ｔ_１）と同一間隔であってもよく、異なる間隔であってもよい。

ヒストグラム生成手段２５は、映像を一定間隔で区切ったシーンである検索対象シーン４５（Ｓ_１，・・・,Ｓ_Ｎ＿Ｓ）を入力し、その各シーンの画像片ワードヒストグラム４６（Ｈ_１，・・・,Ｈ_Ｎ＿Ｓ）を出力する。なお、ヒストグラム生成手段２５における画像片ワードヒストグラム４６の具体的な生成例については、後述する。

このように、特徴抽出装置２０を用いて、画像片（ブロック領域）単位の特徴を用いることにより、例えば検索精度の向上等につながる高精度な画像の特徴情報を抽出することができる。

なお、上述した準備用映像集合４１、準備用フレーム画像集合４２、画像片ワード４３、検索対象映像４４、検索対象シーン４５、画像片ワードヒストグラム４６は、画像処理装置１０内に設けられる記憶手段等に記憶されていてもよく、また外部装置（例えば、データベースサーバ）等で管理されていてもよい。外部装置で管理される場合、画像処理装置１０は、例えばインターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等に代表される通信ネットワークを介して外部装置とデータの送受信が可能な状態で接続され、外部装置で記憶されているデータの読み出しや、外部装置への書き込みを行うことができる。

シーン検索装置３０において、ヒストグラム生成手段３１は、ユーザ等から入力される要求シーンに対して、上述した特徴抽出装置２０におけるヒストグラム生成手段２５と同様に、ヒストグラムを生成する。図３の例では、ユーザ等により要求される検索対象のシーン５１（Ｖ_Ｑ）に対してヒストグラムを生成し、要求シーンに対する画像片のヒストグラム５２（Ｈ_Ｑ）を出力する。

検索手段３２は、要求シーンの画像片ワードヒストグラム５２に基づいて、上述した特徴抽出装置２０で取得した各シーンの画像片ワードヒストグラム４６を参照して同様のシーンの検索を行い、その検索結果５３を出力する。なお、検索結果５３は、例えば予め設定された閾値以上の画像片の類似度を有するシーンであればよいが、これに限定されるものではない。例えば、類似度が高い順に所定数のシーンを出力してもよい。なお、上述した要求シーン５１、要求シーンの画像片ワードヒストグラム５２、検索結果５３は、例えば予め設定された記憶手段に記憶されていてもよく、外部のデータベース等で管理されていてもよい。

上述したように、本実施形態において画像片は、画像中の内容との相関が強いと考えられるため、Ｈ−ＭＩＰＷは映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、要求シーンに対して高精度な検索を行うことができ、類似性の高いシーンを取得することができる。

次に、上述したブロック画像の種類を表す多重スケール画像片ワード（以下、必要に応じて「ＭＩＰＷＯＲＤ」という）、及び所定のシーン単位のＨ−ＭＩＰＷの算出例について、具体的に説明する。

＜多重スケール画像片ワード（ＭＩＰＷｏｒｄ）の例について＞
上述した画像片ワード生成手段２３における多重スケール画像片ワード（ＭＩＰＷｏｒｄ）を生成する手法について説明する。ＭＩＰＷｏｒｄは、例えば検索対象映像から無作為に選んだ準備用映像等を用いて生成する。図４は、多重スケール画像片ワードの生成処理の一例を示すフローチャートである。また、図５は、画像片ワードの生成の流れを示す図である。

図４の例において、画像片ワード生成処理は、準備用映像集合から所定のフレーム画像をサンプリングする（Ｓ０１）。サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。次に、画像片ワード生成処理は、サンプリングした各フレーム画像を１又は複数スケールにブロック分割する（Ｓ０２）。Ｓ０２の処理では、例えばフレーム画像毎にスケール１（ｎ_Ｗ１×ｎ_Ｈ１個）,・・・,スケールＮ_ｄ（ｎ_ＷＮｄ×ｎ_ＨＮｄ個）の複数のスケールで、それぞれブロック分割する。

次に、画像片ワード生成処理は、分割した各ブロック画像について、所定の特徴ベクトル（特徴情報）を算出する（Ｓ０３）。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、複数の特徴情報を組み合わせてもよい。色特徴としては、例えばＲＧＢ平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、ＣＳ−ＬＢＰ（ＣｅｎｔｅｒＳｙｍｍｅｔｒｉｃ − ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴等がある。

次に、画像片ワード生成処理は、各スケールｉ（ｉ＝１，・・・，Ｎ_ｄ）において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング（分類分け）する（Ｓ０４）。なお、Ｓ０４の処理において、クラスタリング手法は、例えばＫ−Ｍｅａｎｓ法等の分割最適化法を用いることができるが、これに限定されるものではない。Ｓ０４の処理により生成された，各スケールｉにおけるＫ_ｉ個のクラスタをＣ［ｉ，１］，・・・，Ｃ［ｉ，Ｋ_ｉ］とする。

次に、画像片ワード生成処理は、例えば各クラスタＣ［ｉ，ｋ］の中心ベクトルｗ［ｉ，ｋ］を要素とする画像片ワードＷ＝｛ｗ［１，１］，・・・，ｗ［ｉ，ｋ］，・・・，ｗ［Ｎ_ｄ，Ｋ_Ｎｄ］｝を多重スケール画像片ワード（ＭＩＰＷｏｒｄ）として生成する（Ｓ０５）。そして、生成された多重スケール画像片ワード（ＭＩＰＷｏｒｄ）を記憶手段（例えば、画像片ワード４３）等に記憶する（Ｓ０６）。

図５の例では、上述した図４に示す処理において、ブロック分割スケールＮ_ｄ＝２の場合のＭＩＰＷｏｒｄ生成の流れを示している。図５に示すように、同一の準備用（サンプル）映像に対して複数のスケール（画像サイズ）でブロック分割し、それぞれのスケールで分割された画像片毎に特徴ベクトルに基づいてクラスタリングして、画像片ワードを生成する。

なお、準備用映像は、例えば検索対象映像や検索要求シーン等のジャンル（例えば、ニュース、各種のスポーツ（サッカー、野球）等）が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段２２により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。

＜シーン単位の多重スケール画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）の算出例＞
次に、所定のシーン単位のＨ−ＭＩＰＷの算出例について、図を用いて説明する。本実施形態では、多重スケール画像片ワード（ＭＩＰＷｏｒｄ）に基づき、検索対象映像の各シーンのＨ−ＭＩＰＷを算出する。

ここで、図６は、多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。また、図７は、多重スケール画像片ワードヒストグラムの生成の流れを示す図である。

図６において、多重スケール画像片ワードヒストグラム生成処理は、例えば各スケールから生成されたＭＩＰＷｏｒｄ（Ｗ）を構成するベクトルｗ｛ｉ，ｋ｝の数と同じ数からなるヒストグラムＨ＝｛ｈ［１，１］，・・・，ｈ［ｉ，ｋ］，・・・，ｈ［Ｎ_ｄ，Ｋ_Ｎｄ］｝を準備し（Ｓ１１）、各要素の初期値を０とする（Ｓ１２）。

次に、多重スケール画像片ワードヒストグラム生成処理は、シーンＳの各ショットから所定間隔（例えば、Ｔフレーム）毎にフレーム画像をサンプリングする（Ｓ１３）。次に、多重スケール画像片ワードヒストグラム生成処理は、サンプリングした各フレーム画像を１又は複数スケールにブロック分割する（Ｓ１４）。このときのスケールは、例えば、上述したＳ０２の同様のスケール（スケール１（ｎ_Ｗ１×ｎ_Ｗ１個），・・・，スケールＮ_ｄ（ｎ_ＷＮｄ×Ｎ_ＨＮｄ個）であってもよく、Ｓ０２の処理で得られる複数のスケール（例えば、５種類）に含まれる所定数（例えば、３種類）のスケールであってもよい。

次に、多重スケール画像片ワードヒストグラム生成処理は、Ｓ１４の処理で得られた各ブロック画像について、上述したＳ０３の処理と同様に特徴ベクトルを算出する（Ｓ１５）。次に、各スケールｉ（ｉ＝１，・・・，Ｎ_ｄ）において、全ブロック画像についてヒストグラムＨの各要素の加算を行う（Ｓ１６）。Ｓ１６の処理では、具体的にはＭＩＰＷｏｒｄ（Ｗ）のＷ［ｉ，ｋ］（ｋ＝１，・・・，Ｋ_ｉ）の中で、ブロック画像の特徴ベクトルと最も類似度の高いものをｗ［ｉ，ｋ'］とする。また、Ｓ１６の処理では、最も類似度の高い特徴ベクトルｗ［ｉ，ｋ'］に対応するヒストグラムＨの要素ｈ［ｉ，ｋ'］に１を加算する。

また、多重スケール画像片ワードヒストグラム生成処理は、ヒストグラムＨの各要素をサンプリングした全フレーム画像数で除算し（Ｓ１８）、算出されたヒストグラムＨ＝｛ｈ［１，１］，・・・，ｈ［ｉ，ｋ］，・・・，ｈ［Ｎ_ｄ，Ｋ_Ｎｄ］｝をシーンＳのＨ−ＭＩＰＷとし、記憶手段（例えば、画像片ワードヒストグラム４６）等に記憶する（Ｓ１９）。

図７の例では、上述した図６に示す多重スケール画像片ワードヒストグラム生成処理に対するブロック分割スケールＮ_ｄ＝２の場合の処理の流れを示している。図７の例では、検索対象映像に含まれるシーン（複数ショット）Ｓ毎に所定の間隔（Ｔ）でフレーム画像をサンプリングし、複数のスケールにブロック分割する。

また、図７の例では、分割された各ブロックの特徴ベクトルに基づいて、生成済みのＭＩＰＷＯＲＤ（Ｗ）に対して各ブロックの特徴ベクトルに最も近いｗ［ｊ，ｋ］を求め、対応するｈ［ｊ，ｋ］を加算する。これにより、図７の例に示すように、シーンＳのＨ−ＭＩＰＷを取得することができる。したがって、本実施形態では、シーン毎の特徴情報を抽出することができると共に、画像分類を迅速かつ適切に行うことができる。

＜多重スケール画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）を用いたシーン検索＞
次に、シーン検索装置３０における多重スケール画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）を用いたシーン検索の一例について説明する。

図８は、検索処理の一例を示すフローチャートである。図８の例において、検索処理は、各要素を識別する変数の初期値ｉ＝１とし（Ｓ２１）、検索対象シーンＳ_ｉの画像片ワードヒストグラムＨ_ｉと、要求シーンの画像片ワードヒストグラムＨ_Ｑとの距離Ｄ_ｉを算出する（Ｓ２２）。ここで、図９は、距離Ｄ_ｉの算出例を示す図である。本実施形態では、図９に示すように、要求シーンと検索対象シーンＳ_ｉのそれぞれの画像片ワードヒストグラムＨ_Ｑ、Ｈ_ｉのベクトルの距離Ｄ_ｉを要素毎に求めることで、類似性に基づく検索を行う。

つまり、検索処理は、ｉ＝ｉ＋１として（Ｓ２３）順番に次の要素についてベクトルの距離Ｄ_ｉを算出する。ここで、例えばｉがＮ＿Ｓ（要素の最後）よりも値が大きいか否かを判断し（Ｓ２４）、ｉの値がＮ＿Ｓよりも大きくない場合（Ｓ２４において、ＮＯ）、Ｓ２２の処理に戻る。また、ｉの値がＮ＿Ｓより大きい場合（Ｓ２４において、ＹＥＳ）、距離Ｄ_ｉが小さい方が、類似度が高いため、距離Ｄ_ｉの小さい方から予め設定された上位Ｎ_ＨＩＴ個のシーン検索結果を出力する（Ｓ２５）。つまり、Ｓ２５の処理は、類似度の高い方から上位Ｎ_ＨＩＴ個のシーン検索結果を出力するのと同様である。

これにより、画像処理装置１０は、映像中に含まれるシーンに対して適切な特徴情報を設定し、設定した特徴情報を用いて高精度なシーン検索を実現することができる。

＜実験結果＞
次に、本実施形態における効果を明確にするため、一例として実際の番組映像を対象とした各シーンのＨ−ＭＩＰＷの類似性に基づくシーン検索実験について説明し、「映像内容の類似したシーンを検索する」という観点でのＨ−ＭＩＰＷの性能を検証する。

＜実験条件＞
実験条件としては、使用映像の一例として自然関連の放送番組映像２５４本を用い、ＭＩＰＷｏｒｄ生成用の準備用映像１００本を用いる。また、検索対象映像も２５４本を用いる。シーンの区切りは、１シーンのショット数を固定とし、５ショット毎に１シーンとした。全シーン数は約７３００であり、フレーム画像正規化サイズは３２０×１８０とし、ブロック分割スケールはＮｄ＝２、スケール１（１６×１６画素）、スケール２（８×８画素）とする。また、ＭＩＰＷｏｒｄ数は、スケール１及びスケール２は共に７５０とする。

ここで、図１０は、クエリーとする１２種類のシーンとそれぞれについて設定した正解映像内容を示す図である。各画像は、シーンを構成するショットの先頭画像である。図１０の例に示すクエリーシーン（Ｑ１〜Ｑ１２）は、検索対象映像の中から正解設定の容易さを考慮した上で無作為に選択されたものである。また、正解映像内容は「各ショットの何れかに映り、かつ内容の面である程度重要であると思われる被写体」という観点で設定しているが、これに限定されるものではない。例えば、図１０のクエリーシーンＱ１の正解映像内容は、｛山、空と山（空＋山），花、枝、鳥｝等である。また、クエリーシーンＱ２の正解映像内容は、｛建造物遠景，建造物近景色，街の遠景｝等である。

本実施形態では、上述したクエリーシーンのＨ−ＭＩＰＷと検索対象全シーンのＨ−ＭＩＰＷとのヒストグラムインターセクションによる類似度を算出し、類似度の高い順に検索対象シーンを並べ替えることで、検索結果を得ることができる。

＜精度評価のための尺度＞
ここで、検索結果の精度を評価するための尺度（関連度）について説明する。関連度は、シーンの各ショットが正解映像内容と関連しているか、及びシーンがどれだけ正解映像内容を網羅しているか等の両面を考慮して定めることができるが、これに限定されるものではなく、例えば上述の何れかであってもよい。ここで、あるシーンと正解映像内容との関連度Ｒを、「Ｒ＝（２ＲｓＲｃ／（Ｒｓ＋Ｒｃ））・・・（１）」のように設定することができる。ここで、Ｒｓは、「シーンにおける正解映像内容の何れかを含むショット比率」である。また、Ｒｃは、「何れかのショットに含まれる正解映像内容の比率」を表す。

図１１は、関連度の概略的な算出例を示す図である。図１１に示すあるシーンを構成する５つのショットの中で、このシーンの正解映像内容である｛月，山，海，魚｝の何れかが映るショットは、図１１の□印を付けた３つ（フレーム画像１，２，４）である。したがって、上述したショット比率Ｒｓは、３／５＝６０％となる。

一方、４つの正解映像内容｛月，山，海，魚｝の中で、シーンの何れかのショットに映っているものは、○印を付けた３つ（月，山，海）である。したがって、上述した正解映像内容の比率Ｒｃは、３／４＝７５％となる。そして、上述した（１）式により、このシーンと正解映像内容との関連度Ｒは６６．７％となる。

＜シーン検索結果例＞
次に、Ｈ−ＭＩＰＷを用いたシーン検索結果例について説明する。ここで、図１２は、本実施形態における検索結果の一例を示す図である。図１２（ａ）〜図１２（ｃ）は、検索結果例１〜３を示すものである。具体的には、図１２（ａ）は、上述した図１０に示すクエリーシーンＱ１に対する検索結果上位２０シーンを示している。また同様に、図１２（ｂ）がクエリーシーンＱ３、図１２（ｃ）がクエリーシーンＱ９に対するそれぞれの検索結果上位２０シーンを示している。

各画像は、シーンを構成する各ショットの先頭画像である。画像の左上に付けられた○印は、関連度算出における「正解映像内容の何れかを含むショット」を示している。また、検索結果のシーンの右側の表中○印は「何れかのショットに含まれる正解映像内容」を示している。図１２（ａ）〜（ｃ）のそれぞれについて関連度を算出すると、検索結果の上位２０シーンの正解映像内容との関連度の平均値は、図１２（ａ）が５２．１％、図１２（ｂ）が６８．９％、図１２（ｃ）が６８．９％であった。なお、上述の例では、番組映像のジャンルを自然番組に絞っているが、多種多様なある意味「雑多」なシーン集合を検索対象としていることを考慮すると高精度な結果であるといえる。

＜関連手法との精度比較結果＞
次に、本実施形態の有効性を客観的に実証するため、関連手法との精度比較結果について説明する。まず、ブロック分割を多重スケールにすることの効果を検証するために、２つの手法を比較対象とする。図１３は、比較手法の一例を示す図である。図１３（ａ）は、比較手法１として、画像片（ブロック画像）でワードを生成することによる優位性を実証するために、従来の局所特徴を用いたＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓによる手法を示している。代表的な局所特徴としては、輝度勾配ベースのＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴、及びＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）特徴、ＳＩＦＴ特徴をカラー画像用に拡張したＣｏｌｏｒ−ＳＩＦＴ特徴等を用いることができる。この度の比較では、Ｃｏｌｏｒ−ＳＩＦＴ特徴を比較対象とし、ＶｉｓｕａｌＷｏｒｄｓのワード数は１０００とする。

また、図１３（ｂ）は、比較手法２として、本実施形態における分割するスケールの種類が１種類（スケール１（１６×１６画素））のみのブロック分割での画像片ワードヒストグラムによる手法を示している。

比較手法１である局所特徴のＢａｇｏｆＷｏｒｄｓ手法は、一枚の画像の複写体識別については、ある程度良好な性能を示している。しかしながら、比較手法２に示すブロック画像とは異なり、各ワードと被写体との関連性が弱い。したがって、例えばシーン検索のように、複数フレームを統合して処理する場合には、異なる映像内容である２つのシーンと、ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓが類似してしまうといったケースが生じ易くなる。

また、図１４は、実験結果の比較例を示す図である。図１４では、クエリーシーンＱ１２に対する各手法による検索結果の上位２０シーンを示している。なお、図１４（ａ）は、上述した比較手法１による検索結果を示し、図１４（ｂ）は、上述した比較手法２（分割スケールが１種類）による検索結果を示している。また、図１４（ｃ）は、比較手法３として、本実施形態における分割するスケールの種類が複数種類のブロック分割での画像片ワードヒストグラムによる手法を示している。また、図１４の各画像及び図中の○印は、何れかのショットに含まれる正解映像内容を示している。

図１４（ａ）〜図１４（ｃ）をそれぞれ比較すると、図１４（ｃ）が○印が最も多い。ここで、本実施形態におけるシーン検索では、１ページ目に表示する検索結果数は最大２０個程度である。したがって、検索結果上位２０シーンの正解映像内容との関連度Ｒの平均値で精度を評価することができる。

図１４（ａ）〜図１４（ｃ）のそれぞれについて算出した精度は、図１４（ａ）が４３．２％、図１４（ｂ）が６３．５％、図１４（ｃ）が７３．２％であり、本実施形態の一例である比較手法３が、検索精度が最も高いことがわかる。

ここで、図１５は、精度比較の一例を示す図である。図１５（ａ）では、各クエリーに対して評価結果として、上述した図１４（ａ）〜図１４（ｃ）のそれぞれの手法による精度を示している。また、図１５（ｂ）では、図１５（ａ）で示した全クエリーでの精度を平均した全体（Ｔｏｔａｌ）での精度を示している。

図１５（ａ）を参照すると、比較手法３と比較手法１との比較については、８つのクエリーシーン（Ｑ１〜Ｑ４，Ｑ７，Ｑ８，Ｑ１０，Ｑ１２）において精度が高い。また、図１５（ｂ）に示すように、全体で１３％の精度向上を得た。また、比較手法３と比較手法２との比較については、９つのクエリーシーン（Ｑ２〜Ｑ５，Ｑ７，Ｑ９〜Ｑ１２）において本実施形態の精度が高く、全体でも４％の精度向上となった。

これにより、局所特徴（Ｃｏｌｏｒ−ＳＩＦＴ）でなく、画像片（ブロック画像）によるワードを用いた本実施形態の優位性を示すことができる。更に、画像片は、複数のスケールを生成するのが好ましいことが分かる。本実施形態により、Ｈ−ＭＩＰＷを用いることで、映像内容の類似性に基づいた高精度なシーン検索を実現することができる。

＜実行プログラム＞
ここで、上述した画像処理装置１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。

したがって、画像処理装置１０が有する上述した各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（画像処理プログラム）を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、画像処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、例えば上述した各処理を実現することができる。

上述したように本実施形態によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。また、特徴情報に基づく適切なシーンの分類により類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を実現することができる。

例えば、複数カットからなるシーン検索のための動画特徴として、多重スケールのブロック画像の種類と出現比率による多重スケール画像片ワードヒストグラムを用いることで、高精度な画像分類を行うことができる。また、本実施形態を適用することで、例えば放送番組映像に対するシーン検索等や映像内容の類似性に基づいたシーン検索が可能となる。したがって、例えば従来のようにシーンの代表サムネイル画像ではなく、シーン全体の画像特徴の類似性に基づいて高精度なシーン検索を実現することができる。

以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。

１０画像処理装置
２０特徴抽出装置
２１サンプリング取得手段
２２分割ブロック設定手段
２３画像片ワード生成手段（ブロック特徴情報生成手段）
２４シーン分割手段
２５，３１ヒストグラム生成手段
３０シーン検索装置
３２検索手段
４１準備用映像集合
４２準備用フレーム画像集合
４３画像片ワード
４４検索対象映像
４５検索対象シーン
４６，５２画像片ワードヒストグラム
５１要求シーン
５３検索結果

Claims

映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、
サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、
前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、
前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有することを特徴とする画像処理装置。
前記ヒストグラム生成手段は、ユーザからの検索要求シーンに対してブロック単位のヒストグラムを生成し、
生成された前記検索要求シーンを用いて、前記ヒストグラム生成手段で生成されたヒストグラムを参照し、対応するシーンを検索する検索手段とを有することを特徴とする請求項１に記載の画像処理装置。
前記ブロック特徴情報生成手段により生成される１又は複数のブロックの大きさ、種類、及び数のうち、少なくとも１つを設定する分割ブロック設定手段を有することを特徴とする請求項１又は２に記載の画像処理装置。
前記特徴情報は、色特徴又はテクスチャ特徴であることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、
前記コンピュータを、
サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、
前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、
前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、
前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させるための画像処理プログラム。