JP6254771B2 - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP6254771B2
JP6254771B2 JP2013103839A JP2013103839A JP6254771B2 JP 6254771 B2 JP6254771 B2 JP 6254771B2 JP 2013103839 A JP2013103839 A JP 2013103839A JP 2013103839 A JP2013103839 A JP 2013103839A JP 6254771 B2 JP6254771 B2 JP 6254771B2
Authority
JP
Japan
Prior art keywords
image
scene
shot
histogram
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013103839A
Other languages
English (en)
Other versions
JP2014225118A (ja
Inventor
貴裕 望月
貴裕 望月
藤井 真人
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013103839A priority Critical patent/JP6254771B2/ja
Publication of JP2014225118A publication Critical patent/JP2014225118A/ja
Application granted granted Critical
Publication of JP6254771B2 publication Critical patent/JP6254771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像処理装置及び画像処理プログラムに関する。
従来では、カメラのスイッチングにより生じる映像の変化点(ショット(カットともいう))に基づいて、映像を分割する手法が知られている。しかしながら、検索処理等で用いられる映像ハンドリングを行う場合には、場面転換等で区切られたシーン等のように、ショットよりも時間的に長い映像を基本単位としたい場合もある。上述した映像ハンドリングとは、例えば映像素材を加工して映像コンテンツの重要箇所をわかりやすく提示し、内容をよりよく理解できるようにすることをいう。
そこで、映像を分割する手法として、連続するショットの代表画像の色ヒストグラムの変化量に基づき、ショット統合の基準となる「場面転換」を検出する手法が知られている(例えば、特許文献1参照)。
特開2006−254486号公報
しかしながら、上述した特許文献1に示すような手法では、同じ場面のショット代表画像にもかかわらず、背景の色特徴が大きく変化した場合に誤って場面転換点と判断してしまうケースが生じる。
なお、他の手法として、現在の画像の「色リスト」の「統合色リスト」に対する含有率を尺度として場面転換点を検出する手法も考えられるが、この手法は画像中に使用される色の種類に基づいた手法であるためノイズに弱い。
本発明は、上述した問題点に鑑みなされたものであり、映像から高精度なシーン系列を生成するための画像処理装置及び画像処理プログラムを提供することを目的とする。
本発明の一態様における画像処理装置は、映像からシーン系列を生成する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれのフレーム画像をブロック画像に分割し、分割したブロック画像の色特徴又はテクスチャ特徴である特徴情報を生成し、各ブロック画像を前記特徴情報に基づいてクラスタリングすることにより、各ブロック画像が各種類に分類された情報を生成する情報生成手段と、前記シーン系列を生成するための処理対象映像をショット毎に予め設定された一定のフレーム間隔で分割するショット分割手段と、前記ショット分割手段により分割されたショット毎に、分割した各ショットに含まれるフレーム画像をブロック画像に分割し、分割した各ブロック画像の前記特徴情報と、前記情報生成手段により分類分けされた各種類のブロック画像の前記特徴情報との類似性から、前記各種類のブロック画像の出現比率を算出し、算出した前記出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、前記ヒストグラム生成手段により生成されたヒストグラムを用いて前記処理対象映像に対するシーン系列を生成するシーン系列生成手段とを有し、前記シーン系列生成手段は、前記ヒストグラム生成手段により生成された前記ショット毎のヒストグラムの各要素を2以上の数値で多値化し、多値化されたデータ列を前記ショット毎にマージして得られる統合多値データに基づいて、前記シーン系列の分割部分を判断する。
また、本発明の一態様における画像処理プログラムは、コンピュータを、請求項1乃至の何れか1項に記載の画像処理装置が有する各手段として機能させるための画像処理プログラムである。
本発明によれば、高精度なシーン系列を生成することができる。
多重スケール画像片ワードヒストグラムの概念図である。 本実施形態におけるブロック画像例を示す図である。 画像処理装置の機能構成の一例を示す図である。 本実施形態における画像処理の一例を示すフローチャートである。 画像片ワード生成手段における処理の一例を示すフローチャートである。 画像片ワードの生成の流れを示す図である。 ヒストグラム生成手段における処理の一例を示すフローチャートである。 画像片ワードヒストグラムの生成の流れを示す図である。 シーン生成処理の一例を示すフローチャートである。 シーン生成の概要を説明するための図である。 多値データを用いた場合のシーン生成の概要を説明するための図である。 本実施形態におけるシーン系列の生成結果の一例を示す図である。
<本発明について>
本発明は、例えば映像に含まれる複数のフレーム画像を用いて、映像(例えば、シーン毎)に対する特徴情報を取得する。具体的には、各フレーム画像に対して1又は複数の異なる画像サイズ(以下、「多重スケール」という)を有する画像片ワードのヒストグラム(多重スケール画像片ワードヒストグラム、Histogram of Multi−scale Image Piece Word、以下、必要に応じて「H−MIPW」という)に基づく特徴情報を用いて各シーンの分類を行う。
画像片とは、例えば1フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ(スケール)は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、H−MIPWは、例えばブロック画像の種類と出現比率(頻度)による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。
ここで、図1は、多重スケール画像片ワードヒストグラムの概念図である。また、図2は、本実施形態におけるブロック画像例を示す図である。図1の例では、予め学習用に準備された準備用映像(サンプル映像)に含まれる所定のシーンからサンプリングしたフレーム画像を、1又は複数種類の画像サイズ毎にブロック単位で分割し、分割した画像片(ブロック画像)に対する特徴情報の類似性に基づく多重スケール画像片ワードヒストグラム(H−MIPW)を生成し、シーン中にどの種類のブロック画像がどのくらい存在するか(出現比率)を取得する。
ここで、ブロック画像の種類は、映っている内容(被写体)と強い因果関係がある。例えば、図2に示すように、「空」、「山、森」、「夕焼け」等の映像の内容は、フレーム画像を分割した各ブロックから取得することができる。したがって、上述したH−MIPWは、シーンの内容を包括的に表現する特徴の1つと考えることができる。本実施形態では、H−MIPWに基づいて、例えば複数のフレーム画像を含むシーンの特徴情報を取得する。
また、本実施形態では、各映像ファイルのショット毎の画像片ワードヒストグラムを算出すると共に、その変化量に基づいてショットを統合し、シーンを生成する。これにより、本実施形態では、シーンが1つのヒストグラムで表現されるため、適切なシーンの分類により類似度を高速に算出することができ、また取得した特徴情報を用いて映像内容の類似性に基づいてシーン系列を生成することができる。以下に、本実施形態における画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<画像処理装置の機能構成例>
図3は、画像処理装置の機能構成の一例を示す図である。図3の例に示す画像処理装置10は、サンプリング取得手段11と、分割ブロック設定手段12と、画像片ワード生成手段(ブロック特徴情報生成手段)13と、ショット分割手段14と、ヒストグラム生成手段15と、シーン系列生成手段16とを有する。
サンプリング取得手段11は、予め蓄積された準備用映像集合(サンプル映像)21から、所定の間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングし、準備用フレーム画像集合22(P,・・・,PN_P)を出力する。所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット(例えば、映像の切り替わり)の先頭画像であってもよい。
分割ブロック設定手段12は、画像片ワード生成手段13により生成される1又は複数の画像片(ブロック画像)の大きさ(スケール、画像サイズ)、種類、及び数等のうち、少なくとも1つを設定する。例えば、分割ブロック設定手段12は、画像片の大きさを4×4画素、8×8画素、16×32画素の3種類を多重スケールとして設定することができるが、画像片の大きさや数等についてはこれに限定されるものではない。
なお、ブロック画像の設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル(例えば、ニュース番組、スポーツ、ドラマ、風景映像の多い旅番組)等に対応して自動的に設定してもよい。更に、分割ブロック設定手段12は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(Saliency Map)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも1つを設定してもよい。顕著性マップは、例えば周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。
画像片ワード生成手段13は、例えば分割ブロック設定手段12により設定された条件(多重スケール)等に基づいて、準備用フレーム画像集合22に含まれる各フレームをブロック画像に分割する。また、画像片ワード生成手段13は、分割したブロック画像毎の特徴情報を取得し、取得した特徴情報に基づいて、準備用フレーム画像集合22に対する画像片ワード23(W)を生成する。なお、画像片ワード生成手段13における画像片ワード23の具体的な生成手法については、後述する。
ショット分割手段14は、ユーザ等により入力手段等を用いて指定されるシーン生成の処理対象映像24(V)に対して、所定の間隔(例えば、Tフレーム)毎のショット単位に自動分割し、ショット系列25(ST,・・・,STN_ST)を生成する。なお、処理対象映像24(V)とは、例えば本実施形態におけるショット毎の特徴情報を抽出する対象の映像である。また、所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、また映像の区切りの最初のフレームの間隔であってもよい。また、所定の間隔(T)は、上述した所定の間隔(T)と同一間隔であってもよく、異なる間隔であってもよい。
ヒストグラム生成手段15は、映像を一定間隔で区切ったシーンであるショット系列25(ST,・・・,SN_ST)を入力し、その各ショットを1又は複数のスケール毎にそれぞれ分割し、分割した各ショットのブロック画像の特徴情報を取得する。また、ヒストグラム生成手段15は、例えば取得した特徴情報の類似性から、各ショットに対するブロック画像毎の出現比率等を算出し、その結果から各ショットの画像片ワードヒストグラム26(H,・・・,HN_ST)を生成する。なお、ヒストグラム生成手段15における画像片ワードヒストグラム26の具体的な生成例については、後述する。
シーン系列生成手段16は、上述したショット系列25(ST,・・・,STN_ST)及び画像片ワードヒストグラム26(H,・・・,HN_ST)を用いてシーン系列(SN,・・・,STN_SN)を生成する。例えば、シーン系列生成手段16は、各映像ファイルのショット毎に算出された画像片ワードヒストグラムの変化量に基づき、ショットを統合してシーンを生成するが、シーン生成手法についてはこれに限定されるものではない。
このように、本実施形態における画像処理装置10は、画像片(ブロック領域)単位の特徴を用いることにより、例えばシーン系列生成の精度の向上等に繋がる高精度な画像の特徴情報を抽出することができる。また、本実施形態では、番組映像のシーン系列を従来手法よりも高精度に生成することができる。また、本実施形態によれば、生成されたシーン系列を用いて、例えばシーン単位での高精度な映像検索を実現することができる。
なお、上述した準備用映像集合21、準備用フレーム画像集合22、画像片ワード23、処理対象映像24、ショット系列25、画像片ワードヒストグラム26、及びシーン系列27は、画像処理装置10内に設けられる記憶手段等に記憶されていてもよく、また外部装置(例えば、データベースサーバ)等で管理されていてもよい。外部装置で管理される場合、画像処理装置10は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークを介して外部装置とデータの送受信が可能な状態で接続され、外部装置で記憶されているデータの読み出しや、外部装置への書き込みを行うことができる。
上述したように、本実施形態において画像片は、画像中の内容との相関が強いと考えられるため、H−MIPWは映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、要求シーンに対して高精度な検索を行うことができ、類似性の高いシーンを取得することができる。
<画像処理例について>
次に、上述した画像処理装置10における画像処理例についてフローチャートを用いて説明する。図4は、本実施形態における画像処理の一例を示すフローチャートである。図4の例において、サンプリング取得手段11は、例えば1又は複数のジャンルからなる複数の映像集合から無作為に選んだ準備用映像集合21を入力し(S01)、入力した準備用映像集合21から所定のフレーム画像をサンプリングする(S02)。なお、サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。
次に、画像片ワード生成手段13は、分割ブロック設定手段12により予め設定された分割ブロックに基づいて画像片ワード(例えば、多重スケール画像片ワード(MIPWord))を生成する(S03)。次に、ショット分割手段14は、入力された処理対象映像24をショット単位等に自動分割してショット系列25を生成する(S04)。
次に、ヒストグラム生成手段15は、ショット系列と画像片ワードとを用いて画像片ワードヒストグラム26を生成する(S05)。次に、シーン系列生成手段16は、ショット系列25と画像片ワードヒストグラム26とを用いてシーン系列を生成し(S06)、生成したシーン系列を出力する(S07)。
<画像片ワード生成手段13における画像片ワードの生成例について>
次に、上述した画像片ワード生成手段13における多重スケール画像片ワード(MIPWord)を生成する手法について説明する。図5は、画像片ワード生成手段における処理の一例を示すフローチャートである。また、図6は、画像片ワードの生成の流れを示す図である。
図5の例において、画像片ワード生成手段13は、準備用映像集合21から所定の条件によりサンプリングされた各フレーム画像を、分割ブロック設定手段12により設定された条件に基づいて1又は複数スケールにブロック分割する(S11)。なお、サンプリングの条件としては、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。また、S11の処理では、例えばフレーム画像毎にスケール1(nW1×nH1個),・・・,スケールN(nWNd×nHNd個)の複数のスケール(多重スケール)で、それぞれブロック分割する。
次に、画像片ワード生成手段13は、分割した各ブロック画像について、所定の特徴ベクトル(特徴情報)を算出する(S12)。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、また複数の特徴情報を組み合わせてもよい。色特徴としては、例えばRGB平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、CS−LBP(Center Symmetric − Local Binary Pattern)特徴等がある。
次に、画像片ワード生成手段13は、各スケールi(i=1,・・・,N)において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング(分類分け)する(S13)。なお、S13の処理において、クラスタリング手法は、例えばK−Means法等の分割最適化法を用いることができるが、これに限定されるものではない。S13の処理により生成された各スケールiにおけるK個のクラスタをC[i,1],・・・,C[i,K]とする。
次に、画像片ワード生成手段13は、例えば各クラスタC[i,k]の中心ベクトルw[i,k]を要素とする画像片ワードW={v[1,1],・・・,v[i,k],・・・,v[N,KNd]}を多重スケール画像片ワード(MIPWord)として生成する(S14)。そして、画像片ワード生成手段13は、生成された多重スケール画像片ワード(MIPWord)を記憶手段(例えば、画像片ワード23)等に記憶する(S15)。
図6の例では、上述した図5に示す処理において、ブロック分割スケールN=2の場合のMIPWord生成の流れを示しているが、ブロック分割におけるスケール数については、これに限定されるものではない。
図6に示すように、同一の準備用(サンプル)映像からサンプリングしたフレーム画像集合に対して、複数のスケール(画像サイズ)でブロック分割し、それぞれのスケール(スケール1,スケール2)で分割された画像片(ブロック画像集合)毎に特徴ベクトルに基づいてクラスタリングを行い、例えば各クラスタの中心ベクトル等を用いて多重スケールの画像片ワードを生成する。また、図6の例では、画像片ワードWとして、「MIPWord W={v[1,1],v[1,2],・・・,v[1,k],v[2,1],v[2,2],・・・,v[1,k]}」が生成される。
なお、準備用映像集合21は、例えば検索対象映像や検索要求シーン等のジャンル(例えば、ニュース、各種のスポーツ(サッカー、野球)等)が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段12により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。
<ヒストグラム生成手段15における画像片ワードヒストグラムの生成例>
次に、ヒストグラム生成手段15における処理対象映像24の各ショットの画像片ワードヒストグラムの生成例について、図を用いて説明する。図7は、ヒストグラム生成手段における処理の一例を示すフローチャートである。また、図8は、画像片ワードヒストグラムの生成の流れを示す図である。
ヒストグラム生成手段15は、多重スケール画像片ワード(MIPWord)に基づき、処理対象映像24の各ショット単位のH−MIPWを算出する。なお、ヒストグラム生成手段15に入力されるショットSTを生成するためのショット単位への分割処理は、ショット分割手段14により行われ、例えば既存のカットチェンジ点検出手法(例えば、特開2008−83894号公報)等を用いて分割することができるが、これに限定されるものではない。
上述したカットチェンジ点検出手法は、例えば第1と第2の画像のそれぞれの輝度又は色のヒストグラムを生成し、第1と第2の画像のそれぞれの空間配置の相関関係を表す画像である空間相関画像を生成し、第1の画像のヒストグラムと第2の画像のヒストグラムの類似度であるヒストグラム類似度を計算する。また、第1の画像の空間相関画像と第2の画像の空間相関画像の類似度である空間相関画像類似度を計算し、ヒストグラム類似度と空間相関画像類似度とに基づいて、第1の画像と第2の画像との境界がカットチェンジであるかを判定する。なお、ヒストグラム類似度とは、例えば、ヒストグラム同士の重なり率である。また、空間相関画像類似度とは、例えば第1の画像と第2の画像とのそれぞれの空間相関画像の全体若しくは一部同士の相対的な位置をシフトさせながら計算した差分絶対和若しくは差分2乗和の最小値である。
図7の例において、ヒストグラム生成手段15は、まず、各スケールから生成されたMIPWord(W)を構成するベクトルw{i,k}の数と同じ数からなるヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}を予め準備し(S21)、各要素を初期値0とする(S22)。
次に、ヒストグラム生成手段15は、ショット分割手段14により分割されたショット系列25から所定間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングする(S23)。次に、ヒストグラム生成手段15は、サンプリングした各フレーム画像を1又は複数スケールにブロック分割する(S24)。このときのスケールは、例えば、上述したS11と同様のスケール(スケール1(nW1×nW1個),・・・,スケールN(nWNd×NHNd個)であってもよく、S11の処理で得られる複数のスケール(例えば、5種類)のうち、所定数(例えば、3種類)のスケールであってもよい。
次に、ヒストグラム生成手段15は、S24の処理で得られた各ブロック画像について、上述したS12の処理と同様に特徴ベクトルを算出する(S25)。次に、各スケールi(i=1,・・・,N)において、ヒストグラムHの各要素の加算を行う(S26)。S26の処理では、例えばMIPWord(W)のべクトルv[i,k](k=1,・・・,K)の中で、ブロック画像の特徴ベクトルと最も類似度の高いものをv[i,k']とする。また、S26の処理では、最も類似度の高い特徴ベクトルv[i,k']に対応するヒストグラムHの要素h[i,k']に1を加算する。
ここで、ヒストグラム生成手段15は、全ブロック画像について上述した各要素の加算処理を行ったか否かを判断し(S27)、処理を行っていない場合(S27において、NO)、S26の処理に戻り、加算していないスケールにおいて、各要素の加算を行う。また、ヒストグラム生成手段15は、全ブロック画像について上述した各要素の加算処理を行った場合(S27において、YES)、ヒストグラムHの各要素をサンプリングした全フレーム画像数で除算し(S28)、算出されたヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}をショット系列25のH−MIPWとし、記憶手段(例えば、画像片ワードヒストグラム26)等に記憶する(S29)。
図8の例では、上述した図7に示す多重スケール画像片ワードヒストグラム生成処理に対するブロック分割スケールN=2の場合の処理の流れを示しているが、ブロック分割スケール数については、これに限定されるものではない。図8の例では、処理対象映像24に含まれるシーンS(例えば、複数ショットからなるショット系列ST)毎に所定の間隔(T)でフレーム画像をサンプリングし、複数のスケールにブロック分割する。
また、図8の例では、分割された各ブロックの特徴ベクトルを取得し、取得した特徴ベクトルに基づいて、画像片ワード生成手段13で生成済みのMIPWord(W)に対して各ブロックの特徴ベクトルに最も近いwのベクトルv[j,k]を求め、対応するh[j,k]を加算する。これにより、図8の例に示すように、シーンSのH−MIPWを取得することができる。したがって、本実施形態では、シーン毎の特徴情報を抽出することができると共に、画像分類を迅速かつ適切に行うことができる。したがって、各映像ファイルのショット毎に算出された画像片ワードヒストグラムの変化量に基づき、ショットを統合して、高精度なシーン生成を実現することができる。
<シーン系列生成手段16におけるシーン系列生成例>
次に、シーン系列生成手段16におけるシーン生成の一例について説明する。図9は、シーン生成処理の一例を示すフローチャートである。また、図10は、シーン生成の概要を説明するための図である。
図9の例において、シーン系列生成手段16は、処理対象映像24(例えば、番組映像)のショット系列25(ST,・・・,STN_ST)、及び、それらの画像片ワードヒストグラム26(H,・・・,HN_ST)を入力し、各画像片ヒストグラムH(i=1,2,…,N_ST)の各要素を予め設定した2値化閾値で2値化し、2値データBとする(S31)。
なお、S31の処理では、図10の例に示すように、予め2値化行うための2値化閾値を設定し、上述した画像片ヒストグラムの出現比率が、予め設定した2値化閾値以上であるか否かにより判断する。図10の例では、出現比率が、2値化閾値以上の場合には、「1」とし、2値化閾値未満の場合には「0」として2値化を行っているが、これに限定されるものではない。
次に、シーン系列生成手段16は、シーンの区切りを示す変数kの初期値に1を設定し、ショットSTをシーンSNに入れる。また、連結するショットの位置を示す変数n=2とし、また、N=MIN(N_BK,シーンSNに属するショット数)と定義する。なお、MIN(a,b)とは、「aとbの最小値」を表す。
次に、シーン系列生成手段16は、2値データBn−N,Bn−N+1,・・・,Bn−1をそれぞれORでマージして統合2値データBを生成する(S32)。図10の例では、N_BK=3の場合の例を示しているが、これに限定されるものではない。なお、上述したORでマージするとは、各2値データを先頭ビットから順に比較し、比較した2つの2値データが「0」と「0」の場合には「0」を設定し、「0」と「1」及び「1」と「1」である場合には「1」を設定することであるが、マージ方法については、これに限定されるものではない。
次に、シーン系列生成手段16は、シーン系列パラメータRを算出する(S33)。シーン系列パラメータRとは、そのショットが、直前のシーンに含まれるか否かを判断するためのパラメータである。シーン系列パラメータRの算出手法としては、例えば「R=(BとBの双方で「1」であるフラグ数)/(Bnで「1」であるフラグ数)」として算出することができるが、これに限定されるものではない。
次に、シーン系列生成手段16は、S23の処理で得られたシーン系列パラメータRと予め設定された閾値RTHとを比較し、図10の例に示すように、シーン系列パラメータRが閾値RTH以上であるか否かを判断する(S34)。シーン系列生成手段16は、シーン系列パラメータRが閾値RTH以上である場合(S34において、YES)、判断対象のショットSTにおいて場面転換はないと判断し、STを現在のシーン系列SNに含める(S35)。なお、S35の処理では、例えば直前のシーン系列の最後に判断対象のショットSを連結する。
また、シーン系列生成手段16は、シーン系列パラメータRが閾値RTH以上でない場合(S34において、NO)、判断対象のショットSTにおいて場面転換が発生したと判断し、k=k+1として、STで新しいシーンSNを生成する(S36)。
次に、シーン系列生成手段16は、処理対象映像24に含まれる全てのショットについてシーン系列生成処理が完了したか否かを判断する(S37)。S37の処理では、例えば、n=n+1とし、n>N_STであれば、処理が完了したと判断し、n≦N_STの場合には、処理が完了していないと判断する。
シーン系列生成手段16は、S37の処理において、シーン系列生成処理が完了していない場合(S37において、NO)、S33に戻り、次のショットについて処理を行う。また、シーン系列生成手段16は、全てのショットについてシーン系列生成処理が完了した場合(S37において、YES)、シーン系列を出力して処理を終了する(S38)。S38の処理では、シーン系列27(SN,・・・,SNN_SN)が出力される。
なお、上述の例では、各画像片ヒストグラムH(i=1,2,…,N_ST)の各要素を予め設定した2値化閾値で2値化し、2値データBを生成したが、これに限定されるものではなく、例えば多値データを生成してもよい。ここで、図11は、多値データを用いた場合のシーン生成の概要を説明するための図である。
この場合、上述した図9の例に示すシーン系列生成処理のS31の処理において、シーン系列生成手段16は、各画像片ヒストグラムの各要素をK値化(例えば、3以上の多値化)する。なお、本実施形態における多値化とは、上述した2値化を含んでもよい。
また、S22の処理において、シーン系列生成手段16は、K値化されたデータ(K値データ)をマージし、統合K値データ(統合多値データ)を生成する。
上述の処理を具体的に説明すると、シーン系列生成手段16は、各画像片ヒストグラムH(i=1,2,…,N_ST)の各要素を、予め設定したK値化閾値でK値化し、このK値データB={b[1,1],b[1,2],・・・,b[N_R,KN_R]}とする。なお、i=1,2,…,N_ST及びbの添え字[j,k]は、画像片ワード生成手段13で生成した画像片ワードW={v[1,1],v[1,2],…,v[N_R,KN_R]}に対応しており、b[j,k]=(0〜K−1の整数値)である。なお、K=5の場合、値は「0」,「1」,「2」,「3」,「4」の数値を有することができるデータ列となる。
次に、シーン系列生成手段16は、上述したように、初期値k=1を設定し、ショットSTをシーンSNに入れ、n=2とし、N=MIN(N_BK,シーンSNkに属するショット数)と定義する。
次に、シーン系列生成手段16は、図11の例に示すように、現在のショットからN個遡った以下のK値データ
n−N={bn−N[1,1],bn−N[1,2],・・・,bn−N[N_R,KN_R]}
n−N+1={bn−N+1[1,1],bn−N+1[1,2],・・・,bn−N+1[N_R,KN_R]}
・・・
n−1={bn−1[1,1],bn−1[1,2],・・・,bn−1[N_R,KN_R]}
を、「B={b[1,1],b[1,2],・・・,b[N_R,KN_R]}」のように統合して統合K値データBを取得する。ただし、b[j,k]=MAX(bn−N[j,k],bn−N+1[j,k],・・・,bn−1[j,k])とする。また、MAX(a1,a2,…,aN)は、「a1,a2,…,aNの中の最大値」を表す。
次に、シーン系列生成手段16は、図11の例に示すように、Bn={b[1,1],b[1,2],・・・,b[N_R,KN_R]}とBの各要素の比較による以下のB'を生成する。
B'={b'[1,1],b'[1,2],・・・,b'[N_R,KN_R]}
ただし、bn[j,k]>0の場合には、b'[j,k]=b[j,k]とし、bn[j,k]=0の場合には、b'[j,k]=0とする。
次に、シーン系列生成手段16は、図11の例に示すように、BnとB'から以下のRを計算する。
R=(b'[1,1]+b'[1,2]+…+b'[N_R,KN_R])/(b[1,1]+b[1,2]+…+b[N_R,KN_R])
次に、シーン系列生成手段16は、上述したように、シーン系列生成パラメータRと閾値RTHとを比較し、図11の例に示すように、シーン系列生成パラメータRが閾値RTH以上(R≧RTH)である場合には、ショットSTにおける場面転換はないと判断し、STをシーンSNに入れる。また、シーン系列生成手段16は、シーン系列生成パラメータRが閾値RTH以上でない場合には、ショットSTにおいて場面転換が発生したと判断し、k=k+1として、STで新しいシーンSNを生成する。また、シーン系列生成手段16は、n=n+1、n>N_STである場合、シーン系列生成処理を終了と判断して、シーン系列を出力し、そうでない場合には、上述したS33の処理に戻る。これにより、シーン系列生成手段16は、処理対象映像24(V)に対して適切なシーン系列27(SN,…,SNN_SN)を出力することができる。
上述したように、本実施形態では、局所特徴(Color−SIFT)でなく、画像片(ブロック画像)によるワードを用いた本実施形態の優位性を示すことができる。更に、画像片は、複数のスケールを生成するのが好ましいことが分かる。本実施形態により、H−MIPWを用いることで、映像内容の類似性に基づいて高精度にシーン系列を生成することができる。
ここで、図12は、本実施形態におけるシーン系列の生成結果の一例を示す図である。図12の例では、複数のショット(例えば、ショット1〜14)に対応するフレーム画像の一例を示している。本実施形態では、図12に示すような複数のショットを含む処理対象映像24に対して、上述した画像処理(例えば、シーン系列生成処理)を適用することで、例えば「画面転換(例えば、場所や状況等の適切な変化点)」で高精度にシーンを区切ることができる。
なお、図12の例では、ショット1〜5がシーン1として生成され、ショット6〜8がシーン2として生成され、ショット9がシーン3として生成され、ショット10〜14がシーン4として生成されているが、シーン系列の生成結果については、これに限定されるものではない。つまり、本実施形態におけるシーン系列は、各シーンが少なくとも1つのショットを有する。
<実行プログラム>
ここで、上述した画像処理装置10は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
したがって、画像処理装置10が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(画像処理プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、本実施形態における画像処理等を実現することができる。
上述したように本実施形態によれば、高精度なシーン系列を生成することができる。本実施形態によれば、例えば番組映像等において従来手法よりも高精度にシーン系列を生成することができる。また、本実施形態では、例えば各映像ファイルのショット毎の「画像片ワードヒストグラム」を算出すると共に、その変化量に基づきショットを統合してシーンを生成することで、高精度なシーン系列を生成することができる。
また、本実施形態によれば、例えば映像中に含まれるシーン毎の特徴情報を適切に取得することができ、特徴情報に基づく適切なシーンの分類により類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を実現することができる。
以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。
10 画像処理装置
11 サンプリング取得手段
12 分割ブロック設定手段
13 画像片ワード生成手段(ブロック特徴情報生成手段)
14 ショット分割手段
15 ヒストグラム生成手段
16 シーン系列生成手段
21 準備用映像集合
22 準備用フレーム画像集合
23 画像片ワード
24 処理対象映像
25 ショット系列
26 画像片ワードヒストグラム
27 シーン系列

Claims (4)

  1. 映像からシーン系列を生成する画像処理装置において、
    サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
    前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれのフレーム画像をブロック画像に分割し、分割したブロック画像の色特徴又はテクスチャ特徴である特徴情報を生成し、各ブロック画像を前記特徴情報に基づいてクラスタリングすることにより、各ブロック画像が各種類に分類された情報を生成する情報生成手段と、
    前記シーン系列を生成するための処理対象映像をショット毎に予め設定された一定のフレーム間隔で分割するショット分割手段と、
    前記ショット分割手段により分割されたショット毎に、分割した各ショットに含まれるフレーム画像をブロック画像に分割し、分割した各ブロック画像の前記特徴情報と、前記情報生成手段により分類分けされた各種類のブロック画像の前記特徴情報との類似性から、前記各種類のブロック画像の出現比率を算出し、算出した前記出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、
    前記ヒストグラム生成手段により生成されたヒストグラムを用いて前記処理対象映像に対するシーン系列を生成するシーン系列生成手段とを有し、
    前記シーン系列生成手段は、
    前記ヒストグラム生成手段により生成された前記ショット毎のヒストグラムの各要素を2以上の数値で多値化し、多値化されたデータ列を前記ショット毎にマージして得られる統合多値データに基づいて、前記シーン系列の分割部分を判断することを特徴とする画像処理装置。
  2. 記情報生成手段により生成される1又は複数のブロックの大きさ、種類、及び数のうち、少なくとも1つを設定する分割ブロック設定手段を有することを特徴とする請求項1に記載の画像処理装置。
  3. 前記シーン系列生成手段は、
    前記ショット毎のヒストグラムにおける前記各種類のブロック画像毎の出現比率と、予め設定された1又は複数の閾値とを比較することにより多値化を行うことを特徴とする請求項に記載の画像処理装置。
  4. コンピュータを、
    請求項1乃至の何れか1項に記載の画像処理装置が有する各手段として機能させるための画像処理プログラム。
JP2013103839A 2013-05-16 2013-05-16 画像処理装置及び画像処理プログラム Active JP6254771B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013103839A JP6254771B2 (ja) 2013-05-16 2013-05-16 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013103839A JP6254771B2 (ja) 2013-05-16 2013-05-16 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2014225118A JP2014225118A (ja) 2014-12-04
JP6254771B2 true JP6254771B2 (ja) 2017-12-27

Family

ID=52123758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013103839A Active JP6254771B2 (ja) 2013-05-16 2013-05-16 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP6254771B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6557592B2 (ja) * 2015-12-15 2019-08-07 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
CN112381471B (zh) * 2021-01-13 2021-05-18 航天神舟智慧***技术有限公司 基于视频图像智能采样的安全生产监管***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3358692B2 (ja) * 1995-08-02 2002-12-24 日本電信電話株式会社 映像ブロック分類方法及び装置
JP5046241B2 (ja) * 2008-06-23 2012-10-10 株式会社リコー 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
JP2014225118A (ja) 2014-12-04

Similar Documents

Publication Publication Date Title
CN107534796B (zh) 视频处理***和数字视频分发***
US8358837B2 (en) Apparatus and methods for detecting adult videos
KR101891225B1 (ko) 배경 모델을 업데이트하기 위한 방법 및 장치
CN108881947B (zh) 一种直播流的侵权检测方法及装置
CN106937114B (zh) 用于对视频场景切换进行检测的方法和装置
KR102315574B1 (ko) 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치
Pape et al. Utilizing machine learning approaches to improve the prediction of leaf counts and individual leaf segmentation of rosette plant images
CN104376003B (zh) 一种视频检索方法及装置
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
US20120148149A1 (en) Video key frame extraction using sparse representation
Fernandez-Beltran et al. Multimodal probabilistic latent semantic analysis for sentinel-1 and sentinel-2 image fusion
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
US9430718B1 (en) Efficient local feature descriptor filtering
WO2021007846A1 (zh) 一种视频相似检测的方法、装置及设备
JP6794197B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR101836811B1 (ko) 이미지 상호간의 매칭을 판단하는 방법, 장치 및 컴퓨터 프로그램
CN110688524A (zh) 视频检索方法、装置、电子设备及存储介质
JP5116017B2 (ja) 動画検索方法およびシステム
KR101833943B1 (ko) 동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템
JP6254771B2 (ja) 画像処理装置及び画像処理プログラム
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR101332630B1 (ko) 경량화된 랜덤펀스 및 이를 이용한 이미지 표현방법
CN104850600A (zh) 一种用于搜索包含人脸的图片的方法和装置
JP2015130041A (ja) 画像処理装置及び画像処理プログラム
KR101507998B1 (ko) 배경확산 및 영역확장을 이용한 물체 검출 방법 및 장치, 이를 이용한 물체 추적 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171201

R150 Certificate of patent or registration of utility model

Ref document number: 6254771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250