JP4924423B2

JP4924423B2 - 特徴量の予測誤差に基づいて動画像のカット点を検出する装置

Info

Publication number: JP4924423B2
Application number: JP2007518981A
Authority: JP
Inventors: 浩太岩元
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-06-01
Filing date: 2006-05-30
Publication date: 2012-04-25
Anticipated expiration: 2026-05-30
Also published as: JPWO2006129622A1; WO2006129622A1

Description

本発明は、動画像のカット点を検出する装置に関する。なお、カット点とは、ショット（１台のカメラで連続的に撮影された映像区間）とショットの間が瞬間的に切り替わる境界である。

従来の動画像カット点検出装置は、フレーム間の特徴量の比較に基づいて動画像のカット点を検出している。

図１に示すように、この従来の動画像カット点検出装置はフレーム特徴量抽出部１１とフレーム間差分値算出部１２とカット点判定部１３とを有している。フレーム特徴量抽出部１１は動画像の各フレームからそれぞれの特徴量を抽出し、フレーム間差分値算出部１２に出力する。フレーム間差分値算出部１２はフレーム間の特徴量を比較してその差分値（または類似度）を算出し、カット点判定部１３に出力する。カット点判定部１３はフレーム間差分値の大きい（または類似度の小さい）場合に当該フレームをカット点と判定する。

この従来のカット点検出装置（方法）については、用いる特徴量に応じて様々な発明が出願されている。特許文献１には、画素値（輝度情報・色情報）を特徴量として用いるカット点検出方法が記載されている。特許文献２には、ヒストグラムを特徴量として用いるカット点検出方法が記載されている。特許文献３には動きベクトルを特徴量として用いるカット点検出方法が、特許文献４には周波数情報を特徴量として用いるカット点検出方法が、特許文献５にはエッジ情報を特徴量として用いるカット点検出方法がそれぞれ記載されている。また、符号化された動画像を対象に、符号化の情報を特徴量やフレーム間の差分値として用いる方法も提案されている。特許文献６には、符号化における動きベクトルを特徴量として用いるカット点検出方法が記載されている。特許文献７には、符号化モード情報をフレーム間の差分値として用いるカット点検出方法が記載されている。

しかし、特許文献１から特許文献７に記載された、フレーム間の特徴量の比較に基づく従来のカット点検出方法には、次のような問題点がある。

第１に、動きのあるシーン（例えば、パン・ズームなどのカメラモーションを含むシーンや、オブジェクトの動きを含むシーンなど）において、カット点を誤って過剰に検出してしまう。その理由は、動きのあるシーンでは隣接するフレーム間の特徴量の差が大きくなるためである。

第２に、フラッシュや映像の瞬時的な乱れなど、映像の一時的な変動が発生した場合に、誤ってカット点を過剰に検出してしまう。その理由は、映像の一時的な変動によって隣接するフレーム間の特徴量の差が大きくなるためである。

この問題点に対処するために、特許文献８には、フレームの明度情報を用いてフラッシュの検出を行い、フラッシュに起因する過剰なカット点の検出を排除する方法が記載されている。しかし、明度情報のみを用いてフラッシュを特定するのは困難である。また、この方法では、映像の瞬時的な乱れなど、フラッシュ以外の映像の一時的な変動には対応できない。特許文献９には、カット点と検出されたフレームの前後のフレームを比較し、それらの類似度が高い場合に、映像の一時的な変動に起因する過剰なカット点の検出であったと判断する方法が記載されている。しかしこの方法では、映像の一時的な変動が連続的に発生した場合（例えばフラッシュが連続的に発生した場合など）や、動きのあるシーンにおいて映像の一時的な変動が発生した場合に、正しいカット点と過剰に検出されたカット点との区別が非常に困難である。

以下、本明細書で用いる特許文献のリストを記載する。
特開平５−３７８５３号公報（段落００１１−００１６）特開２０００−３６９６６号公報（段落００２８−００３４）特開２００３−１９６６６２号公報（段落００３４−００４１）特開２００２−１３３４２０号公報（段落００２１−００３１）特開平６−２３７４１４号公報（段落００１７−００１８）特開２００２−２８１５０５号公報（段落００１９−００２５）特開平１１−２５２５０９号公報（段落００２６−００２８）特開２００２−１０１３３７号公報（段落００３１−００３４）特開平１１−２５２５０９号公報（段落００２３−００２４）

本発明の目的は、動きのあるシーンにおいても、また映像の一時的な変動が発生した場合にも過剰にカット点を検出することがなく、動画像のカット点を高精度に検出する動画像のカット点検出装置および方法を提供することにある。

本発明による動画像のカット点検出装置は、入力される動画像を構成する各フレームの特徴量を抽出するフレーム特徴量抽出手段と、各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、フレーム特徴量抽出手段によって抽出された現フレームよりも過去の所定数のフレーム間の特徴量の差分を用いて算出する予測手段と、フレーム特徴量抽出手段によって抽出された現フレーム以降の各フレームの特徴量と、予測手段によって算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する予測誤差算出手段と、予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、各予測誤差が判定基準を満たす場合に、現フレームがカット点であると判定するカット点判定手段とを有し、カット点判定手段は、予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差を、現フレームからのフレーム数ごとに異なる閾値と比較し、各予測誤差がいずれも閾値よりも大きい場合に、現フレームをカット点と判定する。
本発明による他の、動画像のカット点検出装置は、入力された動画像を構成する各フレームの特徴量を抽出するフレーム特徴量抽出手段と、各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、フレーム特徴量抽出手段によって抽出された現フレームよりも過去の所定数のフレームの特徴量の変化を用いて、動きのあるシーンにおける特徴量の変化に追随するように算出する予測手段と、フレーム特徴量抽出手段によって抽出された現フレーム以降の各フレームの特徴量と、予測手段によって算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する予測誤差算出手段と、予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、各予測誤差がいずれも所定の判定基準を満たす場合に、現フレームがカット点であると判定するカット点判定手段とを有し、カット点判定手段は、予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差を、現フレームからのフレーム数ごとに異なる閾値と比較し、各予測誤差がいずれも閾値よりも大きい場合に、現フレームをカット点と判定する。

現フレームよりも過去のフレーム群の特徴量から現フレーム以降の各フレームの特徴量の予測値、すなわち、現フレームよりも過去の複数のフレームの特徴量から、それら特徴量の推移を考慮して現フレーム以降の各フレームの特徴量の予測値を算出する。算出された特徴量の予測値と実際の特徴量の予測誤差に基づいてカット点の判定を行う。したがって、動きのあるシーンにおける特徴量の変化に追随できる（すなわち動きのあるシーンにおけるフレーム間の特徴量の差を吸収できる）。そのため、動きのあるシーンにおいて過剰にカット点を検出することがなく、高精度に動画像のカット点を検出することができる。

また、現フレーム以降の複数のフレームの予測誤差に基づいて現フレームがカット点であるか否かを判定することによって、現フレーム、または現フレームを含む現フレーム以降のいくつかのフレームにおいて映像の一時的な変動による特徴量の大きな変化が発生した場合でも、誤って現フレームをカット点と判定しない。そのため、フラッシュや映像の瞬時的な乱れなど、映像の一時的な変動が発生した場合にも過剰にカット点を検出することがなく、高精度に動画像のカット点を検出することができる。

閾値は、入力として与えられるあらかじめ観測された予測誤差の確率分布と、入力として与えられる棄却率から、予測誤差の確率分布において棄却率を実現する閾値を決定し、決定された閾値を出力する閾値決定手段によって与えられてもよい。この構成によれば、所望の棄却率を指定することができる。

特徴量は、フレーム画像の明度情報、色情報、分散値情報、エッジ情報、テクスチャ情報、形状情報、動き情報、国際標準規格ＩＳＯ／ＩＥＣ１５９３８−３に規定されているＤｏｍｉｎａｎｔＣｏｌｏｒ、ＣｏｌｏｒＬａｙｏｕｔ、ＳｃａｌａｂｌｅＣｏｌｏｒ、ＣｏｌｏｒＳｔｒｕｃｔｕｒｅ、ＥｄｇｅＨｉｓｔｏｇｒａｍ、ＨｏｍｏｇｅｎｅｏｕｓＴｅｘｔｕｒｅ、ＴｅｘｔｕｒｅＢｒｏｗｓｉｎｇ、ＣｏｎｔｏｕｒＳｈａｐｅ、Ｓｈａｐｅ３Ｄ、ＣａｍｅｒａＭｏｔｉｏｎ、ＭｏｔｉｏｎＡｃｔｉｖｉｔｙのうち１つ以上の特徴量であるか、フレーム画像から抽出した様々な特徴量に対して主成分分析を行って得られた特徴量であってもよい。

予測手段は、自己回帰モデルに基づく線形予測法によって特徴量の予測値を算出してもよい。

予測手段は、カルマンフィルタによって特徴量の予測値を算出してもよい。

予測誤差算出手段は、特徴量と特徴量の予測値との間のユークリッド距離を、予測誤差として算出してもよい。

予測誤差算出手段は、特徴量と特徴量の予測値との各次元ごとの差分値である予測誤差ベクトルを求め、あらかじめ学習によって与えられる予測誤差ベクトルの平均ベクトルに対する、求められた予測誤差ベクトルのマハラノビス距離を、予測誤差として算出してもよい。

図１は従来例の動画像カット点検出装置のブロック図である。図２は本発明の第１の実施の形態による動画像カット点検出装置のブロック図である。図３は本発明の第１の実施の形態による動画像カット点検出装置の動作を示す流れ図である。図４は本発明の第２の実施の形態による動画像カット点検出装置のブロック図である。

(第１の実施の形態)
図１を参照すると、本発明の第１の実施の形態による動画像カット点検出装置はフレーム特徴量抽出部２１と予測部２２と予測誤差算出部２３とカット点判定部２４とを有している。

フレーム特徴量抽出部２１は、入力として与えられた動画像の各フレームから特徴量を抽出する。特徴量は、画像処理によって抽出可能な複数種類の特徴量の情報およびフレームに付随する情報としてあらかじめ所定の形式で記述されている複数種類の特徴量の情報のうち少なくとも一つの情報である。ここで、画像処理によって抽出可能な各フレームの特徴量とは、当該フレームのみを画像処理することによって得られる特徴量でもよいし、当該フレームの近傍のフレームを含めた複数のフレームを画像処理することによって得られる特徴量（例えば、当該フレームと隣接フレームから求められる動きベクトル）であってもよく任意である。また、特徴量の次元数も任意である。

フレーム特徴量抽出部２１が抽出する特徴量の例として、フレーム画像の明度情報、色情報、分散値情報、ヒストグラム情報、エッジ情報、テクスチャ情報、形状情報、動き情報などがあるが、これらに限ったものではない。また、国際標準規格ＩＳＯ／ＩＥＣ１５９３８−３に規定されているＤｏｍｉｎａｎｔＣｏｌｏｒ、ＣｏｌｏｒＬａｙｏｕｔ、ＳｃａｌａｂｌｅＣｏｌｏｒ、ＣｏｌｏｒＳｔｒｕｃｔｕｒｅ、ＥｄｇｅＨｉｓｔｏｇｒａｍ、ＨｏｍｏｇｅｎｅｏｕｓＴｅｘｔｕｒｅ、ＴｅｘｔｕｒｅＢｒｏｗｓｉｎｇ、ＣｏｎｔｏｕｒＳｈａｐｅ、Ｓｈａｐｅ３Ｄ、ＣａｍｅｒａＭｏｔｉｏｎ、ＭｏｔｉｏｎＡｃｔｉｖｉｔｙなどの特徴量を用いてもよい。また、これらの特徴量を２つ以上組み合わせたものを、フレーム特徴量抽出部２１で抽出する特徴量としてもよい。

特徴量は画像全体から抽出したものでもよい。あるいは、画像を複数の小領域に分割し、各小領域からそれぞれ特徴量を抽出し、それらの集合体をフレーム特徴量抽出部２１で抽出する特徴量としてもよい。

また、抽出された様々な特徴量に対して主成分分析を行って得られた主成分特徴量、すなわち抽出された元の特徴量を、主成分分析によって得られた固有空間に射影して得られた特徴量を、フレーム特徴量抽出部２１で抽出する特徴量としてもよい。具体的には、フレーム特徴量抽出部２１は、抽出した複数種類の特徴量の情報のうち、主成分分析によって相関関係のあるいくつかの特徴量の情報を合成して少数個の総合特性値に集約し、少数個の総合特性値をカット点判定のための主成分特徴量としてもよい。

予測部２２は、フレーム特徴量抽出部２１から現フレームよりも過去のフレーム群（すなわち複数のフレーム）の特徴量を受け取り、受け取った特徴量を用いて、現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を算出する。

すなわち、現フレームのフレーム番号をＮと表し、特徴量の予測値を算出する際に使用する現フレームＮよりも過去のフレームを、フレームＮ−１からフレームＮ−Ｍまでのフレームとし（ただしＭは２以上の任意の整数）、特徴量の
予測値を求める現フレームＮ以降のフレームを、現フレームＮからフレームＮ＋Ｔまでのフレームとすると（ただしＴは０以上の任意の整数）、予測部２２は、フレーム特徴量抽出部２１から、フレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの特徴量を受け取り、それらフレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの特徴量を用いて、現フレームＮからフレームＮ＋Ｔまでの特徴量の予測値を算出する。

このように、現フレームよりも過去の複数のフレームの特徴量から現フレーム以降の各フレームの特徴量の予測値を算出することによって、過去のフレーム群における特徴量の推移（動き）を考慮して高精度な予測値を算出することができる。

ここで、Ｔ＝０、すなわち特徴量の予測値を求めるフレームを現フレームＮのみ、としてもよい。

また、フレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの特徴量を用いて、フレームＮからフレームＮ＋Ｔまでの特徴量の予測値を算出する際の予測方法（予測関数）は任意である。

予測方法の例としては、自己回帰モデルに基づく線形予測法が挙げられる。この方法では、フレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの各特徴量を、学習によってあらかじめ得られた自己回帰係数を用いて重み付けし、その和を求めることによって、予測値を算出する。例えば、それぞれの自己回帰係数をＡ１、Ａ２、Ａ３、・・・、ＡＭと表すと、現フレームＮの特徴量の予測値は以下の式のように算出することができる。

フレームＮの特徴量の予測値＝Ａ１×フレームＮ−１の特徴量＋Ａ２×フレームＮ−２の特徴量＋Ａ３×フレームＮ−３の特徴量＋・・・＋ＡＭ×フレームＮ−Ｍの特徴量
また、予測方法にカルマンフィルタを用いてもよい。

予測誤差算出部２３は、フレーム特徴量抽出部２１から、現フレームＮからフレームＮ＋Ｔまでの特徴量を受け取り、予測部２２から、現フレームＮからフレームＮ＋Ｔまでの特徴量の予測値を受け取り、それぞれのフレームの特徴量とその予測値とを比較して、現フレームＮからフレームＮ＋Ｔまでの予測誤差を算出する。

ここで、予測誤差とは、予測部２２から入力される特徴量の予測値が、フレーム特徴量抽出部１から入力される実際の特徴量の値からどの程度はずれているかを数値化した値である。

予測誤差は、フレーム特徴量抽出部２１から入力される実際の特徴量と、予測部２２から入力される特徴量の予測値との間の距離を算出することで求めることができる。

例えば、フレーム特徴量抽出部２１から入力される実際の特徴量と、予測部２２から入力される特徴量の予測値との間のユークリッド距離を予測誤差としてもよい。また、フレーム特徴量抽出部２１から入力される実際の特徴量と、予測部２２から入力される特徴量の予測値との各次元ごとの差分値である予測誤差ベクトルを求め、求めた予測誤差ベクトルの、あらかじめ学習によって与えられる予測誤差ベクトルの平均ベクトルに対するマハラノビス距離を予測誤差としてもよい。

カット点判定部２４は、予測誤差算出部２３から、現フレームＮからフレームＮ＋Ｔまでの予測誤差を受け取り、それぞれの予測誤差を、入力として与えられる閾値と比較し、現フレームＮからフレームＮ＋Ｔまでの予測誤差のそれぞれが閾値よりも大きい場合に、現フレームＮをカット点と判定する。現フレームがカット点であると判定した場合、カット点判定部２４は、現フレームのフレーム番号をカット点検出結果として出力する。

ここで、閾値は、現フレームＮからのフレーム数ごとに異なる値として与えられてもよい。例えば、現フレームから遠くなるに従って、閾値を大きくしてもよい。このようにして、予測誤差が発生する確率に応じて異なる閾値を設定することができる。

次に、本実施の形態による動画像カット点検出装置の動作を、図３を参照して説明する。

なお、本説明では、カット判定の対象である現フレームのフレーム番号をＮと表す。また、特徴量の予測値を算出する際に使用する現フレームＮよりも過去のフレームをフレームＮ−Ｍまでのフレームとし（ただし、Ｍは２以上の任意の整数の定数）、特徴量の予測値を求める現フレームＮ以降のフレームを、フレームＮ＋Ｔまでのフレームとする（ただし、Ｔは０以上の任意の整数の定数）。

まず、ステップ１０１に、現フレームＮのフレーム番号を、特徴量の予測値の算出に必要なフレーム数を考慮して、Ｎ＝動画像の開始フレーム番号＋Ｍと定める。

次に、ステップ１０２に、Ｎ＋Ｔが動画像の終了フレーム番号を超えたかどうか判定し、超えた場合は処理を終了する。

ステップ１０２において、Ｎ＋Ｔが動画像の終了フレーム番号を超えない場合には、フレーム特徴量抽出部２１は、ステップ１０３に、新規ショットにおける初期処理として、フレームＮ−ＭからフレームＮ＋Ｔ−１までの各フレームから特徴量を抽出する。

初期処理が終了すると、フレーム特徴量抽出部２１は、ステップ１０４に、最新フレームであるフレームＮ＋Ｔから特徴量を抽出する。

ステップ１０５に、予測部２２は、フレーム特徴量抽出部２１から、フレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの特徴量を受け取り、それらフレームＮ−１、フレームＮ−２、・・・、フレームＮ−Ｍの特徴量を用いて、現フレームＮからフレームＮ＋Ｔまでの特徴量の予測値を算出する。

ステップ１０６に、予測誤差算出部２３は、フレーム特徴量抽出部２１から、現フレームＮからフレームＮ＋Ｔまでの特徴量を受け取るとともに、予測部２２から、現フレームＮからフレームＮ＋Ｔまでの特徴量の予測値を受け取り、それぞれのフレームの特徴量とその予測値とを比較して、現フレームＮからフレームＮ＋Ｔまでの予測誤差を算出する。

ステップ１０７に、カット点判定部２４は、予測誤差算出部２３から、現フレームＮからフレームＮ＋Ｔまでの予測誤差を受け取り、それぞれの予測誤差を、入力として与えられた閾値と比較し、現フレームＮからフレームＮ＋Ｔまでの予測誤差のそれぞれが閾値よりも大きいか否かを判定する。現フレームＮからフレームＮ＋Ｔまでの予測誤差のそれぞれがいずれも閾値よりも大きい場合は、カット点判定部２４は、ステップ１０８に、現フレームＮをカット点と判定し、そのフレーム番号であるＮをカット点検出結果として出力する。

ステップ１０８の処理が終了すると、カット点判定部２４は、ステップ１０９に、カット点と検出されたフレームの後のショットから再度カット点検出の処理を行うために、現フレームＮをＮ＝Ｎ＋１＋Ｍと更新し、ステップ１０２以降の処理を再度実行する。

ステップ１０７において、現フレームＮからフレームＮ＋Ｔまでの予測誤差のいずれかが閾値よりも小さい場合、カット点判定部２４は、ステップ１１０に、現フレームＮはカット点ではないと判定し、現フレームＮを次のフレームに更新する。

ステップ１１１に、Ｎ＋Ｔが動画像の終了フレーム番号を超えたかどうか判定し、超えた場合は処理を終了する。ステップ１１１において、Ｎ＋Ｔが動画像の終了フレーム番号を超えない場合は、ステップ１０４以降の処理を実行する。

以上に説明したように、本実施の形態は、動画像において動きのあるシーンにおいても、カット点を過剰に検出することがなく、高精度に動画像のカット点を検出することができ、また、動画像においてフラッシュや映像の瞬時的な乱れなど、映像の一時的な変動が発生した場合にも、カット点を過剰に検出することがなく、高精度に動画像のカット点を検出することができるという利点がある。

（第２の実施の形態）
図４に示すように、本発明の第２の実施の形態による動画像カット点検出装置は、閾値決定部２５をさらに有する点が、図２に示された本発明の第１の実施の形態による動画像カット点検出装置とは異なる。

閾値決定部２５には、入力として、あらかじめ観測された予測誤差の確率分布（予測誤差確率分布）と、任意に設定される棄却率とが与えられる。ここで、予測誤差確率分布とは、カット点を含まない（すなわち同一のショットの）動画像において予測誤差算出部２３が出力する予測誤差が発生する確率分布を、あらかじめ観測したものである。また、棄却率とは、確率分布に従って発生する予測誤差を棄却する割合である。閾値決定部２５は、入力として与えられた予測誤差の確率分布において、閾値よりも大きな予測誤差が発生する確率が棄却率に一致するような閾値を決定し、決定された閾値をカット点判定部２４へ供給する。予測誤差をＥ（Ｅ≧０）、予測誤差の確率分布をＰ（Ｅ）、棄却率をＲ（０≦Ｒ≦１）、閾値をＴｈと表すと、

を満たすようなＴｈが、求める閾値となる。

なお、本実施の形態の動画像カット点検出装置のその他の構成および動作は、第１の実施の形態と同じであるため、その説明は省略する。

このように、本実施の形態による動画像カット点検出装置は、第１の実施の形態による動画像カット点検出装置の利点に加えて、所望の棄却率を指定することができるという利点がある。

なお、本発明の動画像カット点検出装置は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。

Claims

動画像における映像区間の切替点であるカット点を検出する装置であって、
入力された動画像を構成する各フレームの特徴量を抽出するフレーム特徴量抽出手段と、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、前記フレーム特徴量抽出手段によって抽出された現フレームよりも過去の所定数のフレーム間の特徴量の差分を用いて算出する予測手段と、
前記フレーム特徴量抽出手段によって抽出された現フレーム以降の各フレームの特徴量と、前記予測手段によって算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する予測誤差算出手段と、
前記予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定するカット点判定手段と
を有し、
前記カット点判定手段は、前記予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
動画像のカット点検出装置。
動画像における映像区間の切替点であるカット点を検出する装置であって、
入力された動画像を構成する各フレームの特徴量を抽出するフレーム特徴量抽出手段と、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、前記フレーム特徴量抽出手段によって抽出された現フレームよりも過去の所定数のフレームの特徴量の変化を用いて、動きのあるシーンにおける特徴量の変化に追随するように算出する予測手段と、
前記フレーム特徴量抽出手段によって抽出された現フレーム以降の各フレームの特徴量と、前記予測手段によって算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する予測誤差算出手段と、
前記予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定するカット点判定手段と
を有し、
前記カット点判定手段は、前記予測誤差算出手段によって算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
動画像のカット点検出装置。
カット点を含まない動画像において予測誤差が発生する確率分布と、該確率分布に従って発生する予測誤差を棄却する割合である棄却率とにもとづいて、前記確率分布において前記棄却率を実現する閾値を決定し、決定された閾値を前記カット点判定手段に出力する閾値決定手段をさらに有する、請求項１または請求項２記載の動画像のカット点検出装置。
前記特徴量は、画像処理によって抽出可能な複数種類の特徴量の情報およびフレームに付随する情報としてあらかじめ所定の形式で記述されている複数種類の特徴量の情報のうちの少なくとも一つの情報である、請求項１から請求項３のいずれかに記載の動画像のカット点検出装置。
前記フレーム特徴量抽出手段は、抽出した複数種類の特徴量の情報のうち、主成分分析によって相関関係のあるいくつかの特徴量の情報を合成して少数個の総合特性値に集約し、少数個の総合特性値をカット点判定のための主成分特徴量とする、請求項１から請求項３のうちいずれかに記載の動画像のカット点検出装置。
前記予測手段は、自己回帰モデルに基づく線形予測法によって特徴量の予測値を算出する、請求項１から請求項５のいずれかに記載の動画像のカット点検出装置。
前記予測手段は、カルマンフィルタによって特徴量の予測値を算出する、請求項１から請求項５のいずれかに記載の動画像のカット点検出装置。
前記予測誤差算出手段は、特徴量と特徴量の予測値の間のユークリッド距離を予測誤差として算出する、請求項１から請求項７のうちいずれかに記載の動画像のカット点検出装置。
前記予測誤差算出手段は、特徴量と特徴量の予測値との各次元ごとの差分値である予測誤差ベクトルを求め、あらかじめ学習によって与えられる予測誤差ベクトルの平均ベクトルに対する、求められた予測誤差ベクトルのマハラノビス距離を予測誤差として算出する、請求項１から請求項７のいずれかに記載の動画像のカット点検出装置。
動画像における映像区間の切替点であるカット点を検出する方法であって、
入力される動画像を構成する各フレームの特徴量を抽出するステップと、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、抽出された現フレームよりも過去の所定数のフレーム間の特徴量の差分を用いて算出するステップと、
前記抽出された現フレーム以降の各フレームの特徴量と、前記算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出するステップと、
前記算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定するステップと
を有し、
前記カット点であると判定するステップは、算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
動画像のカット点検出方法。
動画像における映像区間の切替点であるカット点を検出する方法であって、
入力される動画像を構成する各フレームの特徴量を抽出するステップと、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、抽出された現フレームよりも過去の所定数のフレームの特徴量の変化を用いて、動きのあるシーンにおける特徴量の変化に追随するように算出するステップと、
前記抽出された現フレーム以降の各フレームの特徴量と、前記算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出するステップと、
前記算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定するステップと
を有し、
前記カット点であると判定するステップは、算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
動画像のカット点検出方法。
コンピュータに、動画像における映像区間の切替点であるカット点を検出させるプログラムであって、
入力される動画像を構成する各フレームの特徴量を抽出する手順と、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、前記抽出された現フレームよりも過去の所定数のフレーム間の特徴量の差分を用いて算出する手順と、
前記抽出された現フレーム以降の各フレームの特徴量と、前記算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する手順と、
前記算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定する手順と
をコンピュータに実行させ、
前記カット点であると判定する手順は、算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
プログラム。
コンピュータに、動画像における映像区間の切替点であるカット点を検出させるプログラムであって、
入力される動画像を構成する各フレームの特徴量を抽出する手順と、
各フレームについて順番に判定対象のフレームを選択し、現在の判定対象のフレームである現フレームを含めた現フレーム以降の各フレームの特徴量の予測値を、前記抽出された現フレームよりも過去の所定数のフレームの特徴量の変化を用いて、動きのあるシーンにおける特徴量の変化に追随するように算出する手順と、
前記抽出された現フレーム以降の各フレームの特徴量と、前記算出された現フレーム以降の、対応するフレームの特徴量の予測値とを比較して、現フレーム以降の各フレームについて特徴量と予測値との予測誤差を算出する手順と、
前記算出された現フレーム以降の各フレームの予測誤差が所定の判定基準を満たすか否かを判定し、前記各予測誤差がいずれも前記所定の判定基準を満たす場合に、現フレームがカット点であると判定する手順と
をコンピュータに実行させ、
前記カット点であると判定する手順は、算出された現フレーム以降の各フレームの予測誤差を、前記現フレームからのフレーム数ごとに異なる閾値と比較し、前記各予測誤差がいずれも前記閾値よりも大きい場合に、現フレームをカット点と判定する、
プログラム。