JP6034702B2 - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP6034702B2
JP6034702B2 JP2013004775A JP2013004775A JP6034702B2 JP 6034702 B2 JP6034702 B2 JP 6034702B2 JP 2013004775 A JP2013004775 A JP 2013004775A JP 2013004775 A JP2013004775 A JP 2013004775A JP 6034702 B2 JP6034702 B2 JP 6034702B2
Authority
JP
Japan
Prior art keywords
scene
image
block
feature information
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013004775A
Other languages
English (en)
Other versions
JP2014137637A (ja
Inventor
貴裕 望月
貴裕 望月
藤井 真人
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013004775A priority Critical patent/JP6034702B2/ja
Publication of JP2014137637A publication Critical patent/JP2014137637A/ja
Application granted granted Critical
Publication of JP6034702B2 publication Critical patent/JP6034702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像に含まれるフレーム画像に対する画像処理装置及び画像処理プログラムに関する。
従来では、記録技術の進歩によりハードディスクに大量の映像を蓄積することが可能となっている。また、ネットワーク環境の発達により、インターネット等の通信ネットワークを通じて多種多様な映像にアクセスすることができるようになっている。そのため、所望の映像を素早く探し出すための検索技術が有用となっている。
ここで、映像の一般的な検索技術としては、映像内容に関するキーワード検索が挙げられる(例えば、特許文献1参照)。しかしながら、映像の量が膨大となった場合には、各シーンへの的確なキーワードやテキスト情報の付与が非常に高い作業コストとなる。また、付与された情報は、作業者の違いによる感覚のブレを含んでおり、検索精度の低下を招く恐れがある。そこで、キーワード検索とは異なるアプローチとして、画像特徴の類似性に基づいた「ビジュアル検索」に関する研究が盛んに行われている。従来のビジュアル検索は、カメラの切り替わりで区切ったショット単位での検索であり、高速に検索するために「代表フレーム画像の類似性」をそのままショットの類似性としている。
Tomoki Masuda,Daisuke Yamamoto,Shigeki Ohira,Katashi Nagao、"Video Scene Retrieval Using Online Video Annotation"、New Frontiers in artificial Intelligence、Awarded Papers、LNAI 4914、Springer−Verlag、pp.54−62(2008)
しかしながら、上述したショット単位の検索では、検索意図の一部しか満たされない場合があるため、複数ショットで構成される「シーン」を単位とした検索の仕組みが必要となる。また、シーン単位の検索では、シーン途中のフレーム画像の「見た目」が代表フレーム画像と大きく異なる場合がある。したがって、一枚のフレーム画像を「シーンの代表」と位置付けるのは困難である。
例えば、シーンの代表として複数の画像(例えば、全てのショットの代表画像)を用いるアプローチも考えられるが、その場合には、シーン同士の類似度を求めるために「総当り的」な画像同士の類似度算出が必要となるため、算出コストが非常に高くなってしまう。
本発明は、上述した問題点に鑑みなされたものであり、映像中に含まれるシーン毎の特徴情報を適切に取得するための画像処理装置及び画像処理プログラムを提供することを目的とする。
本発明の一態様における画像処理装置は、映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有する。
また、本発明の一態様における画像処理プログラムは、映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、前記コンピュータを、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させる。
本発明によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。
多重スケール画像片ワードヒストグラムの概念図である。 本実施形態におけるブロック画像例を示す図である。 画像処理装置の機能構成の一例を示す図である。 多重スケール画像片ワードの生成処理の一例を示すフローチャートである。 画像片ワードの生成の流れを示す図である。 多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。 多重スケール画像片ワードヒストグラムの生成の流れを示す図である。 検索処理の一例を示すフローチャートである。 距離Dの算出例を示す図である。 クエリーとする12種類のシーンとそれぞれについて設定した正解映像内容を示す図である。 関連度の概略的な算出例を示す図である。 本実施形態における検索結果の一例を示す図である。 比較手法の一例を示す図である。 実験結果の比較例を示す図である。 精度比較の一例を示す図である。
<本発明について>
本発明は、映像に含まれる複数のフレーム画像を用いて、映像(例えば、シーン毎)に対する特徴情報を取得する。具体的には、各フレーム画像に対して1又は複数の異なる画像サイズ(以下、「多重スケール」という)を有する画像片ワードのヒストグラム(多重スケール画像片ワードヒストグラム、Histogram of Multi−scale Image Piece Word、以下、必要に応じて「H−MIPW」という)に基づく特徴情報を用いて各シーンの分類を行う。
画像片とは、例えば1フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ(スケール)は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、H−MIPWは、例えばブロック画像の種類と出現比率(頻度)による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。
ここで、図1は、多重スケール画像片ワードヒストグラムの概念図である。また、図2は、本実施形態におけるブロック画像例を示す図である。図1の例では、所定のシーンからサンプリングしたフレーム画像を1又は複数種類の画像サイズ毎にブロック単位で分割し、分割した画像片に対して特徴情報に基づく多重スケール画像片ワードヒストグラム(H−MIPW)を生成し、シーン中にどの種類のブロック画像がどのくらい存在するか(出現比率)を取得する。
ここで、ブロック画像の種類は、映っている内容(被写体)と強い因果関係がある。例えば図2に示すように、「空」、「山、森」、「夕焼け」等の映像の内容は、フレーム画像を分割した各ブロックから取得することができる。したがって、したがって、上述したH−MIPWは、シーンの内容を包括的に表現する特徴の1つと考えることができる。本実施形態では、H−MIPWに基づいて、例えば複数のフレーム画像を含むシーンの特徴情報を取得する。
また、本実施形態では、シーンが1つのヒストグラムで表現されるため、適切なシーンの分類により類似度を高速に算出することができ、取得した特徴情報を用いて映像内容の類似性に基づいたシーン検索を可能とする。以下に、画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<画像処理装置の機能構成例>
図3は、画像処理装置の機能構成の一例を示す図である。図3の例に示す画像処理装置10は、大別すると、特徴抽出装置20と、シーン検索装置30とを有する。なお、本実施形態における画像処理装置10は、特徴抽出装置20及びシーン検索装置30のうちの何れかを有する構成であってもよい。
特徴抽出装置20は、予め設定された準備用(サンプル)フレーム画像集合を入力し、画像片ワードを生成する。また、特徴抽出装置20は、例えば映像を所定の間隔(例えば、一定間隔や映像区切り等)で区切ったシーン(複数のフレーム画像)を入力し、そのシーンに対して上述した画像片ワードヒストグラム(H−MIPW)を算出する。シーン検索装置30は、特徴抽出装置20で得られたH−MIPWの類似性に基づき、予め蓄積された映像情報の中からユーザ等の要求シーンに対応するシーンを検索する。以下に、特徴抽出装置20及びシーン検索装置30について具体的に説明する。
特徴抽出装置20は、サンプリング取得手段21と、分割ブロック設定手段22と、画像片ワード生成手段(ブロック特徴情報生成手段)23と、シーン分割手段24と、ヒストグラム生成手段25とを有する。また、シーン検索装置30は、ヒストグラム生成手段31と、検索手段32とを有する。
サンプリング取得手段21は、予め蓄積された準備用(サンプル)映像集合41から、所定の間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングし、準備用フレーム画像集合42(P,・・・,PN_P)を出力する。所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット(例えば、映像の切り替わり)の先頭画像であってもよい。
分割ブロック設定手段22は、画像片ワード生成手段23により生成される1又は複数の画像片(画像ブロック)の大きさ(スケール、画像サイズ)、種類、及び数等のうち、少なくとも1つを設定する。例えば、分割ブロック設定手段22は、画像片の大きさを4×4画素、8×8画素、16×32画素の3種類と設定することができるが、画像片の大きさや数はこれに限定されるものではない。なお、画像ブロックの設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル(例えば、ニュース番組、スポーツ、ドラマ)等に対応して自動的に設定されてもよい。更に、分割ブロック設定手段22は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(Saliency Map)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも1つを設定してもよい。顕著性マップは、周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。
画像片ワード生成手段23は、例えば分割ブロック設定手段22により設定された条件等に基づいて、準備用フレーム画像集合42から画像片ワード43(W)を生成する。なお、画像片ワードの具体的な生成手法については、後述する。
シーン分割手段24は、ユーザ等により入力手段等を用いて指定される検索対象映像44(V,・・・,VN_T)に対して、所定の間隔(例えば、Tフレーム)毎のシーンに自動分割し、検索対象シーン45(S,・・・,SN_S)を生成する。
なお、検索対象映像44とは、シーン毎の特徴情報を抽出する対象の映像を意味し、本実施形態では、一例として、後述するシーン検索装置30における検索対象となる映像を示している。また、所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、また映像の区切りの最初のフレームの間隔であってもよい。また、所定の間隔(T)は、上述した所定の間隔(T)と同一間隔であってもよく、異なる間隔であってもよい。
ヒストグラム生成手段25は、映像を一定間隔で区切ったシーンである検索対象シーン45(S,・・・,SN_S)を入力し、その各シーンの画像片ワードヒストグラム46(H,・・・,HN_S)を出力する。なお、ヒストグラム生成手段25における画像片ワードヒストグラム46の具体的な生成例については、後述する。
このように、特徴抽出装置20を用いて、画像片(ブロック領域)単位の特徴を用いることにより、例えば検索精度の向上等につながる高精度な画像の特徴情報を抽出することができる。
なお、上述した準備用映像集合41、準備用フレーム画像集合42、画像片ワード43、検索対象映像44、検索対象シーン45、画像片ワードヒストグラム46は、画像処理装置10内に設けられる記憶手段等に記憶されていてもよく、また外部装置(例えば、データベースサーバ)等で管理されていてもよい。外部装置で管理される場合、画像処理装置10は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークを介して外部装置とデータの送受信が可能な状態で接続され、外部装置で記憶されているデータの読み出しや、外部装置への書き込みを行うことができる。
シーン検索装置30において、ヒストグラム生成手段31は、ユーザ等から入力される要求シーンに対して、上述した特徴抽出装置20におけるヒストグラム生成手段25と同様に、ヒストグラムを生成する。図3の例では、ユーザ等により要求される検索対象のシーン51(V)に対してヒストグラムを生成し、要求シーンに対する画像片のヒストグラム52(H)を出力する。
検索手段32は、要求シーンの画像片ワードヒストグラム52に基づいて、上述した特徴抽出装置20で取得した各シーンの画像片ワードヒストグラム46を参照して同様のシーンの検索を行い、その検索結果53を出力する。なお、検索結果53は、例えば予め設定された閾値以上の画像片の類似度を有するシーンであればよいが、これに限定されるものではない。例えば、類似度が高い順に所定数のシーンを出力してもよい。なお、上述した要求シーン51、要求シーンの画像片ワードヒストグラム52、検索結果53は、例えば予め設定された記憶手段に記憶されていてもよく、外部のデータベース等で管理されていてもよい。
上述したように、本実施形態において画像片は、画像中の内容との相関が強いと考えられるため、H−MIPWは映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、要求シーンに対して高精度な検索を行うことができ、類似性の高いシーンを取得することができる。
次に、上述したブロック画像の種類を表す多重スケール画像片ワード(以下、必要に応じて「MIPWORD」という)、及び所定のシーン単位のH−MIPWの算出例について、具体的に説明する。
<多重スケール画像片ワード(MIPWord)の例について>
上述した画像片ワード生成手段23における多重スケール画像片ワード(MIPWord)を生成する手法について説明する。MIPWordは、例えば検索対象映像から無作為に選んだ準備用映像等を用いて生成する。図4は、多重スケール画像片ワードの生成処理の一例を示すフローチャートである。また、図5は、画像片ワードの生成の流れを示す図である。
図4の例において、画像片ワード生成処理は、準備用映像集合から所定のフレーム画像をサンプリングする(S01)。サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。次に、画像片ワード生成処理は、サンプリングした各フレーム画像を1又は複数スケールにブロック分割する(S02)。S02の処理では、例えばフレーム画像毎にスケール1(nW1×nH1個),・・・,スケールN(nWNd×nHNd個)の複数のスケールで、それぞれブロック分割する。
次に、画像片ワード生成処理は、分割した各ブロック画像について、所定の特徴ベクトル(特徴情報)を算出する(S03)。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、複数の特徴情報を組み合わせてもよい。色特徴としては、例えばRGB平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、CS−LBP(Center Symmetric − Local Binary Pattern)特徴等がある。
次に、画像片ワード生成処理は、各スケールi(i=1,・・・,N)において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング(分類分け)する(S04)。なお、S04の処理において、クラスタリング手法は、例えばK−Means法等の分割最適化法を用いることができるが、これに限定されるものではない。S04の処理により生成された,各スケールiにおけるK個のクラスタをC[i,1],・・・,C[i,K]とする。
次に、画像片ワード生成処理は、例えば各クラスタC[i,k]の中心ベクトルw[i,k]を要素とする画像片ワードW={w[1,1],・・・,w[i,k],・・・,w[N,KNd]}を多重スケール画像片ワード(MIPWord)として生成する(S05)。そして、生成された多重スケール画像片ワード(MIPWord)を記憶手段(例えば、画像片ワード43)等に記憶する(S06)。
図5の例では、上述した図4に示す処理において、ブロック分割スケールN=2の場合のMIPWord生成の流れを示している。図5に示すように、同一の準備用(サンプル)映像に対して複数のスケール(画像サイズ)でブロック分割し、それぞれのスケールで分割された画像片毎に特徴ベクトルに基づいてクラスタリングして、画像片ワードを生成する。
なお、準備用映像は、例えば検索対象映像や検索要求シーン等のジャンル(例えば、ニュース、各種のスポーツ(サッカー、野球)等)が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段22により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。
<シーン単位の多重スケール画像片ワードヒストグラム(H−MIPW)の算出例>
次に、所定のシーン単位のH−MIPWの算出例について、図を用いて説明する。本実施形態では、多重スケール画像片ワード(MIPWord)に基づき、検索対象映像の各シーンのH−MIPWを算出する。
ここで、図6は、多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。また、図7は、多重スケール画像片ワードヒストグラムの生成の流れを示す図である。
図6において、多重スケール画像片ワードヒストグラム生成処理は、例えば各スケールから生成されたMIPWord(W)を構成するベクトルw{i,k}の数と同じ数からなるヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}を準備し(S11)、各要素の初期値を0とする(S12)。
次に、多重スケール画像片ワードヒストグラム生成処理は、シーンSの各ショットから所定間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングする(S13)。次に、多重スケール画像片ワードヒストグラム生成処理は、サンプリングした各フレーム画像を1又は複数スケールにブロック分割する(S14)。このときのスケールは、例えば、上述したS02の同様のスケール(スケール1(nW1×nW1個),・・・,スケールN(nWNd×NHNd個)であってもよく、S02の処理で得られる複数のスケール(例えば、5種類)に含まれる所定数(例えば、3種類)のスケールであってもよい。
次に、多重スケール画像片ワードヒストグラム生成処理は、S14の処理で得られた各ブロック画像について、上述したS03の処理と同様に特徴ベクトルを算出する(S15)。次に、各スケールi(i=1,・・・,N)において、全ブロック画像についてヒストグラムHの各要素の加算を行う(S16)。S16の処理では、具体的にはMIPWord(W)のW[i,k](k=1,・・・,K)の中で、ブロック画像の特徴ベクトルと最も類似度の高いものをw[i,k']とする。また、S16の処理では、最も類似度の高い特徴ベクトルw[i,k']に対応するヒストグラムHの要素h[i,k']に1を加算する。
また、多重スケール画像片ワードヒストグラム生成処理は、ヒストグラムHの各要素をサンプリングした全フレーム画像数で除算し(S18)、算出されたヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}をシーンSのH−MIPWとし、記憶手段(例えば、画像片ワードヒストグラム46)等に記憶する(S19)。
図7の例では、上述した図6に示す多重スケール画像片ワードヒストグラム生成処理に対するブロック分割スケールN=2の場合の処理の流れを示している。図7の例では、検索対象映像に含まれるシーン(複数ショット)S毎に所定の間隔(T)でフレーム画像をサンプリングし、複数のスケールにブロック分割する。
また、図7の例では、分割された各ブロックの特徴ベクトルに基づいて、生成済みのMIPWORD(W)に対して各ブロックの特徴ベクトルに最も近いw[j,k]を求め、対応するh[j,k]を加算する。これにより、図7の例に示すように、シーンSのH−MIPWを取得することができる。したがって、本実施形態では、シーン毎の特徴情報を抽出することができると共に、画像分類を迅速かつ適切に行うことができる。
<多重スケール画像片ワードヒストグラム(H−MIPW)を用いたシーン検索>
次に、シーン検索装置30における多重スケール画像片ワードヒストグラム(H−MIPW)を用いたシーン検索の一例について説明する。
図8は、検索処理の一例を示すフローチャートである。図8の例において、検索処理は、各要素を識別する変数の初期値i=1とし(S21)、検索対象シーンSの画像片ワードヒストグラムHと、要求シーンの画像片ワードヒストグラムHとの距離Dを算出する(S22)。ここで、図9は、距離Dの算出例を示す図である。本実施形態では、図9に示すように、要求シーンと検索対象シーンSのそれぞれの画像片ワードヒストグラムH、Hのベクトルの距離Dを要素毎に求めることで、類似性に基づく検索を行う。
つまり、検索処理は、i=i+1として(S23)順番に次の要素についてベクトルの距離Dを算出する。ここで、例えばiがN_S(要素の最後)よりも値が大きいか否かを判断し(S24)、iの値がN_Sよりも大きくない場合(S24において、NO)、S22の処理に戻る。また、iの値がN_Sより大きい場合(S24において、YES)、距離Dが小さい方が、類似度が高いため、距離Dの小さい方から予め設定された上位NHIT個のシーン検索結果を出力する(S25)。つまり、S25の処理は、類似度の高い方から上位NHIT個のシーン検索結果を出力するのと同様である。
これにより、画像処理装置10は、映像中に含まれるシーンに対して適切な特徴情報を設定し、設定した特徴情報を用いて高精度なシーン検索を実現することができる。
<実験結果>
次に、本実施形態における効果を明確にするため、一例として実際の番組映像を対象とした各シーンのH−MIPWの類似性に基づくシーン検索実験について説明し、「映像内容の類似したシーンを検索する」という観点でのH−MIPWの性能を検証する。
<実験条件>
実験条件としては、使用映像の一例として自然関連の放送番組映像254本を用い、MIPWord生成用の準備用映像100本を用いる。また、検索対象映像も254本を用いる。シーンの区切りは、1シーンのショット数を固定とし、5ショット毎に1シーンとした。全シーン数は約7300であり、フレーム画像正規化サイズは320×180とし、ブロック分割スケールはNd=2、スケール1(16×16画素)、スケール2(8×8画素)とする。また、MIPWord数は、スケール1及びスケール2は共に750とする。
ここで、図10は、クエリーとする12種類のシーンとそれぞれについて設定した正解映像内容を示す図である。各画像は、シーンを構成するショットの先頭画像である。図10の例に示すクエリーシーン(Q1〜Q12)は、検索対象映像の中から正解設定の容易さを考慮した上で無作為に選択されたものである。また、正解映像内容は「各ショットの何れかに映り、かつ内容の面である程度重要であると思われる被写体」という観点で設定しているが、これに限定されるものではない。例えば、図10のクエリーシーンQ1の正解映像内容は、{山、空と山(空+山),花、枝、鳥}等である。また、クエリーシーンQ2の正解映像内容は、{建造物遠景,建造物近景色,街の遠景}等である。
本実施形態では、上述したクエリーシーンのH−MIPWと検索対象全シーンのH−MIPWとのヒストグラムインターセクションによる類似度を算出し、類似度の高い順に検索対象シーンを並べ替えることで、検索結果を得ることができる。
<精度評価のための尺度>
ここで、検索結果の精度を評価するための尺度(関連度)について説明する。関連度は、シーンの各ショットが正解映像内容と関連しているか、及びシーンがどれだけ正解映像内容を網羅しているか等の両面を考慮して定めることができるが、これに限定されるものではなく、例えば上述の何れかであってもよい。ここで、あるシーンと正解映像内容との関連度Rを、「R=(2RsRc/(Rs+Rc)) ・・・(1)」のように設定することができる。ここで、Rsは、「シーンにおける正解映像内容の何れかを含むショット比率」である。また、Rcは、「何れかのショットに含まれる正解映像内容の比率」を表す。
図11は、関連度の概略的な算出例を示す図である。図11に示すあるシーンを構成する5つのショットの中で、このシーンの正解映像内容である{月,山,海,魚}の何れかが映るショットは、図11の□印を付けた3つ(フレーム画像1,2,4)である。したがって、上述したショット比率Rsは、3/5=60%となる。
一方、4つの正解映像内容{月,山,海,魚}の中で、シーンの何れかのショットに映っているものは、○印を付けた3つ(月,山,海)である。したがって、上述した正解映像内容の比率Rcは、3/4=75%となる。そして、上述した(1)式により、このシーンと正解映像内容との関連度Rは66.7%となる。
<シーン検索結果例>
次に、H−MIPWを用いたシーン検索結果例について説明する。ここで、図12は、本実施形態における検索結果の一例を示す図である。図12(a)〜図12(c)は、検索結果例1〜3を示すものである。具体的には、図12(a)は、上述した図10に示すクエリーシーンQ1に対する検索結果上位20シーンを示している。また同様に、図12(b)がクエリーシーンQ3、図12(c)がクエリーシーンQ9に対するそれぞれの検索結果上位20シーンを示している。
各画像は、シーンを構成する各ショットの先頭画像である。画像の左上に付けられた○印は、関連度算出における「正解映像内容の何れかを含むショット」を示している。また、検索結果のシーンの右側の表中○印は「何れかのショットに含まれる正解映像内容」を示している。図12(a)〜(c)のそれぞれについて関連度を算出すると、検索結果の上位20シーンの正解映像内容との関連度の平均値は、図12(a)が52.1%、図12(b)が68.9%、図12(c)が68.9%であった。なお、上述の例では、番組映像のジャンルを自然番組に絞っているが、多種多様なある意味「雑多」なシーン集合を検索対象としていることを考慮すると高精度な結果であるといえる。
<関連手法との精度比較結果>
次に、本実施形態の有効性を客観的に実証するため、関連手法との精度比較結果について説明する。まず、ブロック分割を多重スケールにすることの効果を検証するために、2つの手法を比較対象とする。図13は、比較手法の一例を示す図である。図13(a)は、比較手法1として、画像片(ブロック画像)でワードを生成することによる優位性を実証するために、従来の局所特徴を用いたBag of Visual Wordsによる手法を示している。代表的な局所特徴としては、輝度勾配ベースのSIFT(Scale Invariant Feature Transform)特徴、及びSURF(Speeded Up Robust Features)特徴、SIFT特徴をカラー画像用に拡張したColor−SIFT特徴等を用いることができる。この度の比較では、Color−SIFT特徴を比較対象とし、Visual Wordsのワード数は1000とする。
また、図13(b)は、比較手法2として、本実施形態における分割するスケールの種類が1種類(スケール1(16×16画素))のみのブロック分割での画像片ワードヒストグラムによる手法を示している。
比較手法1である局所特徴のBag of Words手法は、一枚の画像の複写体識別については、ある程度良好な性能を示している。しかしながら、比較手法2に示すブロック画像とは異なり、各ワードと被写体との関連性が弱い。したがって、例えばシーン検索のように、複数フレームを統合して処理する場合には、異なる映像内容である2つのシーンと、Bag of Visual Wordsが類似してしまうといったケースが生じ易くなる。
また、図14は、実験結果の比較例を示す図である。図14では、クエリーシーンQ12に対する各手法による検索結果の上位20シーンを示している。なお、図14(a)は、上述した比較手法1による検索結果を示し、図14(b)は、上述した比較手法2(分割スケールが1種類)による検索結果を示している。また、図14(c)は、比較手法3として、本実施形態における分割するスケールの種類が複数種類のブロック分割での画像片ワードヒストグラムによる手法を示している。また、図14の各画像及び図中の○印は、何れかのショットに含まれる正解映像内容を示している。
図14(a)〜図14(c)をそれぞれ比較すると、図14(c)が○印が最も多い。ここで、本実施形態におけるシーン検索では、1ページ目に表示する検索結果数は最大20個程度である。したがって、検索結果上位20シーンの正解映像内容との関連度Rの平均値で精度を評価することができる。
図14(a)〜図14(c)のそれぞれについて算出した精度は、図14(a)が43.2%、図14(b)が63.5%、図14(c)が73.2%であり、本実施形態の一例である比較手法3が、検索精度が最も高いことがわかる。
ここで、図15は、精度比較の一例を示す図である。図15(a)では、各クエリーに対して評価結果として、上述した図14(a)〜図14(c)のそれぞれの手法による精度を示している。また、図15(b)では、図15(a)で示した全クエリーでの精度を平均した全体(Total)での精度を示している。
図15(a)を参照すると、比較手法3と比較手法1との比較については、8つのクエリーシーン(Q1〜Q4,Q7,Q8,Q10,Q12)において精度が高い。また、図15(b)に示すように、全体で13%の精度向上を得た。また、比較手法3と比較手法2との比較については、9つのクエリーシーン(Q2〜Q5,Q7,Q9〜Q12)において本実施形態の精度が高く、全体でも4%の精度向上となった。
これにより、局所特徴(Color−SIFT)でなく、画像片(ブロック画像)によるワードを用いた本実施形態の優位性を示すことができる。更に、画像片は、複数のスケールを生成するのが好ましいことが分かる。本実施形態により、H−MIPWを用いることで、映像内容の類似性に基づいた高精度なシーン検索を実現することができる。
<実行プログラム>
ここで、上述した画像処理装置10は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
したがって、画像処理装置10が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(画像処理プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、画像処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、例えば上述した各処理を実現することができる。
上述したように本実施形態によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。また、特徴情報に基づく適切なシーンの分類により類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を実現することができる。
例えば、複数カットからなるシーン検索のための動画特徴として、多重スケールのブロック画像の種類と出現比率による多重スケール画像片ワードヒストグラムを用いることで、高精度な画像分類を行うことができる。また、本実施形態を適用することで、例えば放送番組映像に対するシーン検索等や映像内容の類似性に基づいたシーン検索が可能となる。したがって、例えば従来のようにシーンの代表サムネイル画像ではなく、シーン全体の画像特徴の類似性に基づいて高精度なシーン検索を実現することができる。
以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。
10 画像処理装置
20 特徴抽出装置
21 サンプリング取得手段
22 分割ブロック設定手段
23 画像片ワード生成手段(ブロック特徴情報生成手段)
24 シーン分割手段
25,31 ヒストグラム生成手段
30 シーン検索装置
32 検索手段
41 準備用映像集合
42 準備用フレーム画像集合
43 画像片ワード
44 検索対象映像
45 検索対象シーン
46,52 画像片ワードヒストグラム
51 要求シーン
53 検索結果

Claims (5)

  1. 映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、
    サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
    前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、
    前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、
    前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有することを特徴とする画像処理装置。
  2. 前記ヒストグラム生成手段は、ユーザからの検索要求シーンに対してブロック単位のヒストグラムを生成し、
    生成された前記検索要求シーンを用いて、前記ヒストグラム生成手段で生成されたヒストグラムを参照し、対応するシーンを検索する検索手段とを有することを特徴とする請求項1に記載の画像処理装置。
  3. 前記ブロック特徴情報生成手段により生成される1又は複数のブロックの大きさ、種類、及び数のうち、少なくとも1つを設定する分割ブロック設定手段を有することを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記特徴情報は、色特徴又はテクスチャ特徴であることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、
    前記コンピュータを、
    サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、
    前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、
    前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、
    前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させるための画像処理プログラム。
JP2013004775A 2013-01-15 2013-01-15 画像処理装置及び画像処理プログラム Active JP6034702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013004775A JP6034702B2 (ja) 2013-01-15 2013-01-15 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013004775A JP6034702B2 (ja) 2013-01-15 2013-01-15 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2014137637A JP2014137637A (ja) 2014-07-28
JP6034702B2 true JP6034702B2 (ja) 2016-11-30

Family

ID=51415117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013004775A Active JP6034702B2 (ja) 2013-01-15 2013-01-15 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP6034702B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6557592B2 (ja) * 2015-12-15 2019-08-07 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175632B2 (ja) * 1997-04-18 2001-06-11 松下電器産業株式会社 シーンチェンジ検出方法およびシーンチェンジ検出装置
JP4177689B2 (ja) * 2003-03-18 2008-11-05 日本放送協会 映像特徴情報生成装置
JP5204716B2 (ja) * 2009-04-15 2013-06-05 日本放送協会 映像検索装置及び映像検索プログラム
JP2011248671A (ja) * 2010-05-27 2011-12-08 Kddi Corp 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2014137637A (ja) 2014-07-28

Similar Documents

Publication Publication Date Title
Khosla et al. Large-scale video summarization using web-image priors
JP5503046B2 (ja) 形状に基づく画像検索
JP4337064B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN108881947B (zh) 一种直播流的侵权检测方法及装置
Priya et al. Shot based keyframe extraction for ecological video indexing and retrieval
CN111209897B (zh) 视频处理的方法、装置和存储介质
CN107223242B (zh) 用于在多个已存储图像中搜索相似图像的方法
Wang et al. Duplicate discovery on 2 billion internet images
CN103995864B (zh) 一种图像检索方法和装置
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
CN103744903B (zh) 一种基于草图的场景图像检索方法
Blažek et al. Video retrieval with feature signature sketches
JP6034702B2 (ja) 画像処理装置及び画像処理プログラム
Chen et al. Mobile visual search from dynamic image databases
JP2015130041A (ja) 画像処理装置及び画像処理プログラム
JP6254771B2 (ja) 画像処理装置及び画像処理プログラム
Tsai Two strategies for bag-of-visual words feature extraction
JP2006350655A (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Li et al. Image content clustering and summarization for photo collections
Doulamis et al. A 4D virtual/augmented reality viewer exploiting unstructured web-based image data
WO2015185479A1 (en) Method of and system for determining and selecting media representing event diversity
Castelo-Fernández et al. Automatic video summarization using the optimum-path forest unsupervised classifier
Mashhadani et al. Identification and extraction of digital forensic evidence from multimedia data sources using multi-algorithmic fusion
Hatem et al. Automatic content description and annotation of sport images using classification techniques
Kawai et al. NHK STRL at TRECVID 2013: Semantic Indexing.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161028

R150 Certificate of patent or registration of utility model

Ref document number: 6034702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250