JP4546762B2 - 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム - Google Patents

映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム Download PDF

Info

Publication number
JP4546762B2
JP4546762B2 JP2004149902A JP2004149902A JP4546762B2 JP 4546762 B2 JP4546762 B2 JP 4546762B2 JP 2004149902 A JP2004149902 A JP 2004149902A JP 2004149902 A JP2004149902 A JP 2004149902A JP 4546762 B2 JP4546762 B2 JP 4546762B2
Authority
JP
Japan
Prior art keywords
scene
video
image
event
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004149902A
Other languages
English (en)
Other versions
JP2005332206A (ja
Inventor
貴裕 望月
眞 蓼沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004149902A priority Critical patent/JP4546762B2/ja
Publication of JP2005332206A publication Critical patent/JP2005332206A/ja
Application granted granted Critical
Publication of JP4546762B2 publication Critical patent/JP4546762B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、映像内で発生するイベントを判別する映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラムに関する。
近年、放送番組等の映像から、その映像内で発生するイベント(事象)を判別するイベント判別技術が種々提案されている。例えば、第一のイベント判別技術として、画面の特定の位置に表示される文字情報が変更されることを検出することで、映像のイベントの発生を検出するとともに、当該イベントの種類の判別を行う技術が開示されている(特許文献1参照)。この技術では、野球中継の映像において、「イニング」、「得点」、「アウト数」等の試合の進行状況を示す文字情報が画面の特定の位置に表示されることを利用し、その文字情報の変化を検出することで、イニングの変わり目、得点の取得時等のイベントを判別している。
また、例えば、第二のイベント判別技術として、スポーツ中継映像におけるイベントを、インターネットを介して配信される中継データ(得点情報等)によって判別する技術が開示されている(特許文献2参照)。この技術では、野球中継の映像を逐次記録し、インターネットを介して配信される得点情報によって得点シーンを認識した段階で、一定時間(例えば10分)遡って、記録されている映像を再生する。このように、第二のイベント判別技術では、映像に連動した中継データに基づいて、野球中継のイベントとなる得点シーンの判別を行っている。
特開2000−132563号公報(段落0048〜0049、図5) 特開2003−174609号公報(段落0014〜0026、図1〜図4)
前記した第一のイベント判別技術では、映像上の固有の文字情報に基づいて、イベントの判別を行うため、文字情報が画面上に提示されなければ、イベントの判別を行うことができないという問題がある。
また、前記した第二のイベント判別技術では、インターネット等から映像に連動した情報(中継データ)を取得することで、当該映像で発生するイベントの判別を行うため、映像以外の情報を取得する手段が必要となり、装置構成が複雑になってしまうという問題がある。さらに、第二のイベント判別技術では、リアルタイムで放送される映像においては、それに対応する中継データを取得することで、イベントを判別することができるが、録画等によって蓄積されている映像からは、イベントを判別することができないという問題もある。
このように、前記した第一及び第二のイベント判別技術では、映像に付加された情報(文字情報、中継データ)に基づいて、映像内のイベントの判別を行うため、その付加された情報が取得できない状況では、イベントの判別を行うことができない。そこで、映像のシーンそのものから、イベントを判別することが可能な技術開発への要求が高まっている。
本発明は、以上のような課題を解決するためになされたものであり、付加情報を用いることなく、映像の各シーンから当該映像内で発生するイベントを判別する映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラムを提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の映像イベント判別用学習データ生成装置は、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成する映像イベント判別用学習データ生成装置であって、シーン分割手段と、節点追跡手段と、節点分類手段と、クラスタ画像特徴量生成手段と、シーン特徴量生成手段と、特徴量分類手段と、シーン数値化手段と、シーン映像再生手段と、イベント設定手段とを備える構成とした。
かかる構成によれば、映像イベント判別用学習データ生成装置は、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別用学習データ生成装置は、節点追跡手段によって、シーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する。そして、映像イベント判別用学習データ生成装置は、節点分類手段によって、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする。
さらに、映像イベント判別用学習データ生成装置は、クラスタ画像特徴量生成手段によって、シーンの先頭フレームから最終フレームまでにおいて、節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成する。そして、映像イベント判別用学習データ生成装置は、シーン特徴量生成手段によって、クラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、シーンの先頭フレームからの最終フレームまでの矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成する。
さらに、映像イベント判別用学習データ生成装置は、特徴量分類手段によって、映像特徴量を類似する映像特徴量毎にクラスタリングし、同一のクラスタに含まれる映像特徴量の平均値を当該クラスタを代表する映像特徴量とし、当該映像特徴量とクラスタの値であるクラスタ値とを対応付けた特徴量分類データベースを生成する。
そして、映像イベント判別用学習データ生成装置は、シーン数値化手段によって、シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、特徴量分類手段によって分類された映像特徴量のクラスタ値とを対応付ける。これによって、どのシーンが、どのクラスタ値で表されるかが対応付けられることになる。
そして、映像イベント判別用学習データ生成装置は、シーン映像再生手段によって、シーン数値化手段で対応付けられたシーン毎のフレーム画像番号に基づいて、シーンを再生する。そして、映像イベント判別用学習データ生成装置は、イベント設定手段によって、再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、イベント識別情報と、複数のシーンに対応する映像特徴量のクラスタ値のデータ列であるシーン数値化列とを対応付ける。このように、イベント設定手段は、イベントの種類(イベント識別情報)と、シーン数値化列とを対応付けて、映像イベント判別装置で使用するイベントデータベースを生成する。
また、請求項2に記載の映像イベント判別用学習データ生成装置は、請求項1に記載の映像イベント判別用学習データ生成装置において、基準画像記憶手段を備え、さらに、シーン分割手段がイベント開始検出手段を備える構成とした。
かかる構成によれば、映像イベント判別用学習データ生成装置は、イベントの開始を示す基準の画像(基準画像)を基準画像記憶手段に予め記憶しておく。そして、シーン分割手段におけるイベント開始検出手段が、入力された映像のフレーム画像で、基準画像に類似するフレーム画像を、イベントの開始として検出する。これによって、シーンの切り替わり以外に、判別したいイベントが開始されるフレーム画像をシーンの開始とする。
この基準画像としては、例えば、野球中継映像において、バッターが打席に立った以降の動作をイベントとして判別したい場合、バッターが打席に立ったときの画像とする。この基準画像を基準画像記憶手段に記憶しておくことで、イベント開始検出手段は、同一シーンにおいて、バッターが打席に立った場面から、別シーンになったと判定することができる。
さらに、請求項3に記載の映像イベント判別用学習データ生成プログラムは、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成するために、コンピュータを、シーン分割手段、節点追跡手段、節点分類手段、クラスタ画像特徴量生成手段、シーン特徴量生成手段、特徴量分類手段、シーン数値化手段、シーン映像再生手段、イベント設定手段として機能させる構成とした。
かかる構成によれば、映像イベント判別用学習データ生成プログラムは、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別用学習データ生成プログラムは、節点追跡手段によって、シーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する。そして、映像イベント判別用学習データ生成プログラムは、節点分類手段によって、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする。
さらに、映像イベント判別用学習データ生成プログラムは、クラスタ画像特徴量生成手段によって、シーンの先頭フレームから最終フレームまでにおいて、節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成する。そして、映像イベント判別用学習データ生成プログラムは、シーン特徴量生成手段によって、クラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、シーンの先頭フレームからの最終フレームまでの矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成する。
さらに、映像イベント判別用学習データ生成プログラムは、特徴量分類手段によって、映像特徴量を類似する映像特徴量毎にクラスタリングし、同一のクラスタに含まれる映像特徴量の平均値を当該クラスタを代表する映像特徴量とし、当該映像特徴量とクラスタの値であるクラスタ値とを対応付けた特徴量分類データベースを生成する。
そして、映像イベント判別用学習データ生成プログラムは、シーン数値化手段によって、シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、特徴量分類手段によって分類された映像特徴量のクラスタ値とを対応付ける。これによって、どのシーンが、どのクラスタ値で表されるかが対応付けられることになる。
そして、映像イベント判別用学習データ生成プログラムは、シーン映像再生手段によって、シーン数値化手段で対応付けられたシーン毎のフレーム画像番号に基づいて、シーンを再生する。そして、映像イベント判別用学習データ生成プログラムは、イベント設定手段によって、再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、イベント識別情報と、複数のシーンに対応する映像特徴量のクラスタ値のデータ列であるシーン数値化列とを対応付ける。このように、イベント設定手段は、イベントの種類(イベント識別情報)と、シーン数値化列とを対応付けて、映像イベント判別装置で使用するイベントデータベースを生成する。
また、請求項4に記載の映像イベント判別装置は、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置であって、特徴量分類データベース記憶手段と、イベントデータベース記憶手段と、シーン分割手段と、節点追跡手段と、節点分類手段と、クラスタ画像特徴量生成手段と、シーン特徴量生成手段と、特徴量数値化手段と、イベント特定手段とを備える構成とした。
かかる構成によれば、映像イベント判別装置は、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別装置は、節点追跡手段によって、シーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する。そして、映像イベント判別装置は、節点分類手段によって、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする。
さらに、映像イベント判別装置は、クラスタ画像特徴量生成手段によって、シーンの先頭フレームから最終フレームまでにおいて、節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成する。そして、映像イベント判別装置は、シーン特徴量生成手段によって、クラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、シーンの先頭フレームからの最終フレームまでの矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成する。
そして、映像イベント判別装置は、特徴量数値化手段によって、特徴量分類データベース記憶手段に記憶されている請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成された特徴量分類データベースを参照して、シーン特徴量生成手段で生成された映像特徴量を、当該映像特徴量に近似する特徴量分類データベースの映像特徴量に対応したクラスタ値に変換する。
また、映像イベント判別装置は、イベント特定手段によって、イベントデータベース記憶手段に記憶されている請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成されたイベントデータベースを参照して、特徴量数値化手段で変換されたクラスタ値のデータ列に対応するイベントの種類を特定する。
また、請求項5に記載の映像イベント判別装置は、請求項4に記載の映像イベント判別装置において、基準画像記憶手段を備え、さらに、シーン分割手段がイベント開始検出手段を備える構成とした。
かかる構成によれば、映像イベント判別装置は、イベントの開始を示す基準の画像(基準画像)を基準画像記憶手段に予め記憶しておく。そして、シーン分割手段におけるイベント開始検出手段が、入力された映像のフレーム画像で、基準画像に類似するフレーム画像を、イベントの開始として検出する。これによって、シーンの切り替わり以外に、判別したいイベントが開始されるフレーム画像をシーンの開始とする。
また、請求項6に記載の映像イベント判別プログラムは、入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別するために、コンピュータを、シーン分割手段、節点追跡手段、節点分類手段、クラスタ画像特徴量生成手段、シーン特徴量生成手段、特徴量数値化手段、イベント特定手段として機能させる構成とした。
かかる構成によれば、映像イベント判別プログラムは、シーン分割手段によって、入力された映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、映像をシーン毎に分割する。そして、映像イベント判別プログラムは、節点追跡手段によって、シーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する。そして、映像イベント判別プログラムは、節点分類手段によって、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする。
さらに、映像イベント判別プログラムは、クラスタ画像特徴量生成手段によって、シーンの先頭フレームから最終フレームまでにおいて、節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成する。そして、映像イベント判別プログラムは、シーン特徴量生成手段によって、クラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、シーンの先頭フレームからの最終フレームまでの矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成する。
さらに、映像イベント判別プログラムは、特徴量数値化手段によって、特徴量分類データベース記憶手段に記憶されている請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成された特徴量分類データベースを参照して、シーン特徴量生成手段で生成された映像特徴量を、当該映像特徴量に近似する特徴量分類データベースの映像特徴量に対応したクラスタ値に変換する。
また、映像イベント判別プログラムは、イベント特定手段によって、イベントデータベース記憶手段に記憶されている請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成されたイベントデータベースを参照して、特徴量数値化手段で変換されたクラスタ値のデータ列に対応するイベントの種類を特定する。
請求項1又は請求項3に記載の発明によれば、映像から、シーン毎の映像特徴量を抽出し、その映像特徴量を分類(クラスタリング)することで、特徴量分類データベースを生成することができる。また、本発明によれば、複数のシーンで構成されるイベントの種類を、シーン毎の数値データのデータ列を連結したデータ列に対応付けたイベントデータベースを生成することができる。この特徴量分類データベース及びイベントデータベースを使用することで、映像イベント判別装置は、映像をクラスタリングされた数値データのデータ列で表現することが可能になり、そのデータ列に基づいて、イベントを判別することが可能になる。
請求項2に記載の発明によれば、イベントの開始を示す基準画像に類似したフレーム画像が入力された段階で、映像のシーンの切り替わりとして、シーンの分割を行うことが可能になる。すなわち、本発明は、入力される映像において、イベントが発生するシーンの先頭フレーム画像を特定することができる。そのため、確実にイベントが開始されるフレーム画像を先頭とした映像の特徴量によって、数値列データが生成されることになり、映像イベント判別装置において、イベントの判別の精度を高めることができる。
請求項4又は請求項6に記載の発明によれば、映像から、シーン毎の特徴量を抽出し、その特徴量を分類したクラスを示す数値データによって当該映像を数値データのデータ列として表し、予め数値データのデータ列と映像内のイベントとを対応付けたイベントデータベースを参照することで、映像内で発生するイベントの種類を判別することが可能になる。また、本発明は、映像の特徴を抽出した簡易化した数値データのデータ列によって、映像内で発生するイベントの種類を判別するため、高速にイベントを判別することができ、映像以外の情報(文字情報等の付加情報)を用いる必要もない。これによって、本発明は、リアルタイム映像であっても、蓄積された映像であっても、イベントを判別することができる。
請求項5に記載の発明によれば、入力映像として、イベントの開始を示す基準画像に類似したフレーム画像が入力された段階で、映像のシーンの切り替わりとして、シーンの分割を行うことが可能になる。すなわち、本発明は、入力される映像において、イベントが発生するシーンの先頭フレーム画像を特定することができる。そのため、本発明は、確実にイベントが開始されるフレーム画像を先頭とした映像の特徴量に対応した、数値データのデータ列が生成されることになり、イベントの判別の精度を高めることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[映像イベント判別手法の概要]
まず、図1を参照して、本発明に係る映像イベント判別装置において、映像から映像内で発生するイベントを判別する手法について、その概要を説明する。図1は、映像イベント判別手法の概要を説明するための説明図である。ここでイベントとは、映像内における、ある意味を持った一連のシーンのことをいい、例えば、野球中継映像内において、「ホームラン」、「二塁打」等が発生したシーンを指す。図1では、野球中継映像からイベントとして「二塁打」を判別する例を示す。
ここで映像Vは、カメラの構図が切り替わるシーンとして、シーンV1〜V4で構成され、シーンV1は「ピッチャーが投球するシーン」、V2は「バッターが打ったボールが外野に飛んだシーン」、V3は「走者が1塁ベースを回ったシーン」、V4は「走者が二塁ベース上で止まったシーン」をそれぞれ示している。
そして、映像イベント判別手法は、各シーンV1〜V4から映像特徴量Vcを抽出する。なお、ここでは、映像特徴量Vcは、映像Vをシーン毎に簡略化した矩形領域の情報として示している。例えば、シーンV1は、7つの矩形領域(矩形1〜矩形7)の情報に簡略化している。
そして、映像イベント判別手法は、予め類似する映像特徴量Vcをクラス分け(クラスタリング)した特徴量分類データベース10aに基づいて、シーン毎の映像特徴量Vcをクラスタ番号であるクラスタCmn(1≦Cmn≦N)として数値化する。さらに、映像イベント判別手法は、予め映像イベントの種類(識別情報)と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aに基づいて、連続する複数のシーンがどのイベントであるのかを判別する。なお、ここでは、イベントが「二塁打」であることを示している。
このように、映像イベント判別手法は、映像を、映像特徴量に基づいて簡易化した数値データのデータ列で表現し、そのデータ列に基づいて、映像内で発生するイベント(映像イベント)を判別する。
なお、ここでは、映像のイベントとして、野球中継映像内で発生する事象(二塁打)を例示しているが、本発明は、野球中継映像のイベントに限定されるものではない。本発明は、事象によってカメラワークや構図が決まった映像であれば、その事象を判別することができる。例えば、料理番組映像等で、作業工程に対して、カメラワークや構図が決まっている場合、「キャベツを切っているシーン」、「魚を焼いているシーン」等を判別することが可能である。
図1に示したように、映像イベント判別手法は、予め学習されている学習データ(特徴量分類データベース10a及びイベントデータベース11a)を参照し、映像イベントの判別を行うため、ここでは、最初に、学習データを生成する学習データ生成装置について説明し、続けて、図1に示した映像イベント判別手法を実現する映像イベント判別装置について、順次説明を行うこととする。
[学習データ生成装置の構成]
最初に、図2を参照して、本発明に係る学習データ生成装置(映像イベント判別用学習データ生成装置)の構成について説明する。図2は、学習データ生成装置の構成を示すブロック図である。
図2に示すように、学習データ生成装置1は、外部から入力される映像から、類似する映像特徴量をクラス分けした特徴量分類データベース10aと、映像イベントの種類と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aとを学習データとして生成するものである。
ここでは、学習データ生成装置1は、特徴量分類DB記憶手段10と、イベントDB記憶手段11と、シーン分割手段12と、基準画像記憶手段13と、特徴量抽出手段14と、映像特徴量記憶手段15と、特徴量分類手段16と、シーン数値化手段17と、シーン分類DB記憶手段18と、シーン映像再生手段19と、イベント設定手段20とを備えている。
特徴量分類DB(データベース)記憶手段10は、シーン毎の映像特徴量を類似する映像特徴量毎にクラス分け(クラスタリング)した特徴量分類データベース10aを記憶するものであって、ハードディスク等の一般的な記憶手段である。
イベントDB(データベース)記憶手段11は、イベントの種類と、複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aを記憶するものであって、ハードディスク等の一般的な記憶手段である。
なお、特徴量分類データベース10a及びイベントデータベース11aは、学習データ生成装置1内で生成されるものである。
シーン分割手段12は、外部から映像を入力し、その映像をシーン毎に分割するものである。このシーン分割手段12は、映像の画面構成が大きく切り替わる点(シーンチェンジ)を検出して、その切り替わり点毎に映像を分割する。なお、このシーンチェンジの検出は、既存の手法によって行うことができる。例えば、シーン分割手段12は、映像を構成する時系列に連続するフレーム画像から、それぞれの色特徴による数値ベクトル(例えば、RGBの各平均値等)を計算し、前後のフレーム画像における数値ベクトルの差分の絶対値和が予め定めた閾値よりも大きい場合は、フレーム画像間に連続性がないと判定しシーンチェンジが発生したものとみなす。
このシーン分割手段12は、映像を分割したシーン毎にフレーム画像を逐次特徴量抽出手段14に出力する。なお、シーン分割手段12は、後記するシーン数値化手段17で、1つのシーンの数値列データが生成された段階で、次のシーンを検出(分割)するものとする。さらに、ここでは、シーン分割手段12は、イベント開始検出手段12aを備えている。
イベント開始検出手段12aは、入力された映像から、シーンの切り替わりの開始点(切り替わり画像)を検出するものである。このイベント開始検出手段12aは、フレーム画像と、基準画像記憶手段13に記憶されている基準画像13aとを比較することで、基準画像13aと類似するフレーム画像が入力されたことを検出し、基準画像13aに類似するフレーム画像を、シーンの切り替わりの開始点とみなすこととする。なお、この類似の判定は、例えば、基準画像13aとフレーム画像との差分の絶対値和と予め定めた閾値とを比較することにより行う。
この基準画像13aを、例えば、イベントの開始となる画像とすることで、シーン分割手段12は、イベントが発生する先頭フレーム画像から、確実にシーンを分割することが可能になる。
基準画像記憶手段13は、イベントの開始となる基準画像13aを記憶しておくものであって、ハードディスク等の一般的な記憶手段である。例えば、野球中継の映像からイベントを判別するための学習データを生成する場合、基準画像13aを、バッターが打席に立ったときの画像や、ピッチャーが投球を行ったときの画像とすることで、シーン分割手段12において、野球における種々のイベント(例えば、ホームラン、三振等)の開始を検出することができる。
特徴量抽出手段14は、シーン分割手段12で分割されたシーン毎に、そのシーンを構成するフレーム画像から映像特徴量を抽出するものである。この映像特徴量としては、一般的な映像の特徴量を用いることができる。例えば、シーンを構成する全フレーム画像におけるRGBの各平均値の数値ベクトルである。なお、この特徴量抽出手段14は、シーンにおける全フレーム画像を対象とするのではなく、予め定めたサンプリング間隔で、フレーム画像を選択し、その選択されたフレーム画像から映像特徴量を抽出することとしてもよい。
なお、ここで抽出された映像特徴量は、映像特徴量記憶手段15に記憶される。また、特徴量抽出手段14は、映像特徴量を映像特徴量記憶手段15に記憶した段階で、映像特徴量を抽出した旨を特徴量分類手段16に通知する。
本実施の形態においては、特徴量抽出手段14は、映像特徴量を、本願出願人が出願した「映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム」(特願2003−73548)の技術を用いて、シーンの映像特徴量を、大まかな矩形領域と、その矩形領域の画像特徴量及び動きとで表現することとする。そのため、ここでは、特徴量抽出手段14は、節点追跡手段14aと、節点分類手段14bと、クラスタ画像特徴量生成手段14cと、シーン特徴量生成手段14dとを備えている。
節点追跡手段14aは、シーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる点(節点)を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡するものである。
ここで、図7を参照(適宜図2参照)して、節点追跡手段14aにおける節点の追跡について説明する。図7は、節点追跡手段における節点の追跡を視覚化した図で、(a)は、フレーム画像に節点を設置した状態を示す図、(b)は、フレーム画像上において節点を追跡した状態を示す図である。
図7(a)に示すように、節点追跡手段14aは、シーンの先頭のフレーム画像に横Npx個、縦Npy個(Npx及びNpyは予め設定)で格子状に節点PTを設定する。そして、節点追跡手段14aは、各節点PTを中心とした近傍領域(近傍領域画像:Rfv画素×Rfv画素の正方形領域)から画像特徴量を計算し、各節点PTに対応付けておく。この画像特徴量は、画像処理の分野で一般的な特徴量を用いればよく、例えば、RGBの各色成分の平均値、画像をエッジ化したときのエッジ量の分布、画像の複雑さを示すフラクタル次元等を用いることができる。
なお、図7(a)では、説明の都合上、フレーム画像上に節点PTを図示しているが、この節点PTはフレーム画像上の格子状の点に対応した位置を示しているだけである。
そして、図7(b)に示すように、節点追跡手段14aは、前フレ−ム画像における節点PT(図中●印)の近傍領域の画像特徴量が、現フレ−ム画像で、予め定めた閾値以下で最も差が小さくなる位置PTB(図中×印)に節点を移動させる。これによって、画像特徴量が近似する領域が、シーン全体にわたって追跡されることになる。
図2に戻って説明を続ける。
節点分類手段14bは、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と、近傍領域の画像特徴量とに基づいて、分類(クラスタリング)するものである。この節点分類手段14bは、各節点における近傍領域の画像特徴量が近似する節点を同一のクラス(クラスタ)として分類する。ただし、画像特徴量のみでは、図8(a)に示すように、位置が離れた節点を同一のクラスタCL1として分類してしまうため、節点分類手段14bは、図8(b)に示すように、同一クラスタのいずれの節点からも、予め定めた距離以上離れている節点を、別のクラスタ(CL1及びCL2)として切り離して分類する。
クラスタ画像特徴量生成手段14cは、節点追跡手段14aで追跡された各節点と、節点分類手段14bで分類された同一のクラスタの節点が、節点追跡手段14aでシーンの先頭フレーム画像から最終フレーム画像まで追跡された段階で、当該クラスタの画像特徴量(クラスタ画像特徴量)を生成するものである。このクラスタ画像特徴量は、例えば、同一クラスタ内におけるシーンの先頭フレーム画像から最終フレーム画像まで各節点の画像特徴量の平均値とする。なお、節点の近接領域画像の中で、画像特徴量の平均値に最も近似する画像を、クラスタの代表テクスチャ画像とし、画像特徴量の1つとして用いることとしてもよい。
シーン特徴量生成手段14dは、シーン全体におけるクラスタ毎の画像特徴量を、そのシーンの特徴量(映像特徴量)として生成するものである。このシーン特徴量生成手段14dは、クラスタの領域を示す矩形領域の座標情報と、クラスタ画像特徴量生成手段14cで生成されたクラスタ画像特徴量と、クラスタの動きとを、シーン特徴量として生成する。なお、クラスタの領域を示す矩形領域は、シーン全体における同一クラスタに含まれる節点の座標を含んだ最大領域を示す。また、クラスタの動きは、シーンの先頭フレーム画像から最終フレームまでのクラスタの位置重心の動きベクトルを示す。
ここで、図9に特徴量抽出手段14が生成した映像特徴量のデータの一例を示す。図9に示すように、シーン毎に、シーンの先頭フレーム番号Ns、最終フレーム番号Ne、矩形領域の座標情報{(x0,y0)、(x1、y1)、(x2、y2)、(x3、y3)}、画像特徴量{(f(0)、f(1)、f(2)、…、f(N−1)}、及び、動きベクトルのx及びy成分{vx、vy}でクラスタ1個分の情報となる。
これによって、特徴量抽出手段14(図2)は、図10に示すように、映像Vのシーンを複数の矩形領域R(R1、R2、R3)で簡易化し、その矩形領域Rの座標情報(位置、大きさ)、画像特徴量、動きベクトルとして、映像特徴量を抽出する。
図2に戻って説明を続ける。
映像特徴量記憶手段15は、特徴量抽出手段14で抽出されたシーン毎の映像特徴量15aを記憶しておくものであって、ハードディスク等の記憶手段である。この映像特徴量記憶手段15は、映像特徴量15aを一時的に記憶しておくバッファとして機能し、後記するシーン数値化手段17によって、入力された映像における全てのシーンの数値列データが生成された段階で、削除される。
特徴量分類手段16は、特徴量抽出手段14で抽出され、映像特徴量記憶手段15に記憶された映像特徴量15aを、類似する映像特徴量毎に分類(クラスタリング)し、映像特徴量15aをその分類されたクラス(クラスタ)の値(クラスタ値)に対応付けるものである。この特徴量分類手段16は、特徴量抽出手段14から映像特徴量15aを抽出した旨を通知された段階で、映像特徴量記憶手段15に記憶されている複数の映像特徴量15aを、差が予め定めた値(閾値)以下となるものを1つのクラスタとする。また、特徴量分類手段16は、同一のクラスタに含まれる映像特徴量の平均値を、そのクラスタを代表する映像特徴量(代表映像特徴量)とし、クラスタ値と対応付けた特徴量分類データベース10aを生成し、特徴量分類DB記憶手段10に記憶する。
なお、特徴量分類手段16は、映像特徴量15aが、複数の特徴量(例えば、図9に示したような座標情報、画像特徴量、動きベクトル)からなる特徴ベクトルである場合は、個々の特徴量毎に平均値を算出し、代表映像特徴量とする。
また、特徴量分類データベース10aは、図11の特徴量分類データベースの構造図の例に示すように、クラスタ値C(C1、C2、…)と、代表映像特徴量CV(CV1、CV2、…)とを1対1で対応付けたデータベースである。
シーン数値化手段17は、映像のシーンを、当該シーンの映像特徴量に基づいて、特徴量分類手段16で分類されたクラスタ値に変換することで、シーンを数値(クラスタ値)に対応付けるものである。ここでは、シーンを複数の矩形領域で表しているため、シーン数値化手段17は、シーンを複数の数値(クラスタ値)のデータ列に変換する。なお、シーン数値化手段17は、数値化されたデータを、各シーンのフレーム番号に対応付けることで、シーン分類データベース18aを生成し、シーン分類DB記憶手段18に記憶する。
このシーン分類データベース18aは、図12のシーン分類データベースの構造図の例に示すように、シーンを特定する連続番号であるシーン番号Snに、フレーム番号Fn(先頭番号Fs−最終番号Fe)と、1つ以上のクラスタ値Cとを対応付けたデータベースである。
シーン分類DB(データベース)記憶手段18は、シーン数値化手段17で生成されるシーン分類データベース18aを記憶するものであって、ハードディスク等の記憶手段である。このシーン分類DB記憶手段18に記憶されているシーン分類データベース18aは、後記するシーン映像再生手段19及びイベント設定手段20によって参照される。
シーン映像再生手段19は、シーン分類データベース18aを参照することで、シーン毎の映像を再生するものである。このシーン映像再生手段19は、図12に示したシーン分類データベース18aのシーン番号Snの順番に、対応するフレーム番号Fnの画像を順次再生し、図示していない表示装置にシーン再生映像を表示することで、当該学習データ生成装置1を操作する操作者に対して、シーン毎の映像を提示する。
なお、シーン映像再生手段19は、映像の全時間軸における指定位置を指定可能なスライドバーを表示装置の画面上に表示させ、図示していないマウス等の入力手段によって、操作者が適宜、スライドバーを操作することで、対応するシーンを再生し、映像内で発生するイベントを再生映像として確認することとしてもよい。
イベント設定手段20は、操作者から図示していない入力手段を介して、複数の連続シーンをイベントとして指示されることで、イベントの種類と、複数のシーンを数値列データで表したシーン数値化列とを対応付けるものである。なお、イベントを識別するための識別情報(イベント名等)は、図示していない入力手段から入力されるものとする。また、そのイベントに対応するシーンは、直接シーン番号を入力されるか、前記したスライドバーの位置によって、イベント設定手段20が、シーン分類データベース18aからシーン番号を検索するものとする。
これによって、イベント設定手段20は、イベントの種類とシーン(シーン番号)との対応付けが可能となる。そこで、イベント設定手段20は、シーン分類データベース18aのシーン番号に対応付けられているクラスタ値のデータ列を複数のシーン分連結したシーン数値化列を、イベント識別情報(イベント名等)と対応付けることで、イベントデータベース11aを生成し、イベントDB記憶手段11に記憶する。
このイベントデータベース11aは、図13のイベントデータベースの構成図の例に示すように、イベント識別情報Ekに、シーン数値化列Sdとを対応付けたデータベースである。図13の例では、「ホームラン」というイベントの種類(イベント識別情報Ek)に、図12で示したシーン番号Sn1のクラスタ値(C11、C12、C13、…)、シーン番号Sn2のクラスタ値(C21、C22、C23、…)、…が対応付けられていることを示している。
以上説明したように、学習データ生成装置1は、入力される映像から、イベント(映像イベント)を判別するための学習データとなる、類似する映像特徴量をクラス分けした特徴量分類データベース10aと、映像イベントの種類と連続する複数のシーンを数値データのデータ列で表したシーン数値化列とを対応付けたイベントデータベース11aとを生成することができる。
なお、学習データ生成装置1は、シーン分割手段12におけるイベント開始検出手段12a及び基準画像記憶手段13の各構成を省くことも可能である。しかし、イベント開始検出手段12a及び基準画像記憶手段13を備えた方が、イベントの先頭から数値データが生成され、イベントを適切に数値データのデータ列に変換することができるため好ましい。
なお、学習データ生成装置1は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(映像イベント判別用学習データ生成プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[学習データ生成装置の動作]
次に、図3及び図4を参照して、本発明に係る学習データ生成装置(映像イベント判別用学習データ生成装置)の動作について説明する。ここでは、学習データ生成装置の動作を、特徴量分類データベースを生成する動作と、イベントデータベースを生成する動作とに分けて説明する。図3は、学習データ生成装置が特徴量分類データベースを生成する動作を示すフローチャートである。図4は、学習データ生成装置がイベントデータベースを生成する動作を示すフローチャートである。
(特徴量分類データベース生成動作)
最初に、図3を参照(適宜図2参照)して、学習データ生成装置1が、特徴量分類データベース10aを生成する動作について説明する。
まず、学習データ生成装置1は、シーン分割手段12によって、映像をフレーム画像単位で入力する(ステップS1)。そして、学習データ生成装置1は、イベント開始検出手段12aによって、入力された原フレーム画像と、基準画像記憶手段13に記憶されている基準画像13aとが類似するかどうかを判定する(ステップS2)。
ここで、原フレーム画像と基準画像13aとが類似していない場合(ステップS2でNo)、シーン分割手段12は、原フレーム画像を時間方向で前に入力された前フレーム画像と比較することで、フレーム画像間の連続性を判定する(ステップS3)。そして、シーン分割手段12は、フレーム画像に連続性があると判断した場合(ステップS3でYes)、フレーム画像を図示していない記憶手段に記憶しておき、ステップS1に戻って、次のフレーム画像を入力する。
そして、原フレーム画像と基準画像13aとが類似している場合(ステップS2でYes)又はフレーム画像に連続性がない場合(ステップS3でNo)は、原フレーム画像において、シーンが切り替わっている(シーンチェンジ)とみなし、原フレーム画像をシーンの切り替わり画像に設定する(ステップS4)。
ここで、シーン分割手段12は、原フレーム画像が、最初の切り替わり画像であるかどうかを判定し(ステップS5)、最初の切り替わり画像である場合(ステップS5でYes)は、原フレーム画像を図示していない記憶手段に記憶しておき、ステップS1に戻って、次のフレーム画像を入力する。
そして、原フレーム画像が、最初の切り替わり画像でない場合(ステップS5でNo)は、学習データ生成装置1は、特徴量抽出手段14によって、直前のシーンの切り替わり画像から、直前のフレーム画像までのシーンから映像特徴量を抽出する(ステップS6)。なお、この学習データ生成装置1では、節点追跡手段14aが、シーンの先頭のフレーム画像に予め定めた節点を、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に追跡する。また、節点分類手段14bが、フレーム画像毎に、フレーム画像内の節点を、その節点の位置と、近傍領域の画像特徴量とに基づいて、分類(クラスタリング)する。そして、クラスタ画像特徴量生成手段14cが、節点追跡手段14aで追跡された各節点と、節点分類手段14bで分類された同一のクラスタの節点が、節点追跡手段14aでシーンの先頭フレーム画像から最終フレーム画像まで追跡された段階で、当該クラスタの画像特徴量(クラスタ画像特徴量)を生成する。そして、シーン特徴量生成手段14dが、シーン全体におけるクラスタ毎の画像特徴量を、そのシーンの特徴量(映像特徴量)として生成する。
続けて、学習データ生成装置1は、特徴量分類手段16によって、ステップS6で抽出した映像特徴量を、類似する映像特徴量毎に分類(クラスタリング)し、映像特徴量をその分類されたクラス(クラスタ)の値(クラスタ値)に対応付け、特徴量分類データベース10aを生成する(ステップS7)。
そして、学習データ生成装置1は、入力された映像が終了したかどうかを判定し(ステップS8)、終了していない場合(ステップS8でNo)は、ステップS1に戻って動作を続ける。また、映像が終了した場合(ステップS8でYes)は、動作を終了する。
なお、図示していないが、ステップS1において、映像を入力できなくなった段階で、ステップS6に進むこととする。これによって、映像の最終シーンの映像特徴量が抽出されることになる。
以上説明したように、学習データ生成装置1は、入力された映像から、シーン毎の映像特徴量をクラスタリングした特徴量分類データベース10aを生成することができる。
(イベントデータベース生成動作)
次に、図4を参照(適宜図2参照)して、学習データ生成装置1が、イベントデータベース11aを生成する動作について説明する。なお、図4におけるステップS11からステップS16までの動作は、図3で説明したステップS1からステップS6までの動作と同じ動作であるため説明を省略し、ステップS17以降の動作について説明する。
学習データ生成装置1は、ステップS16における映像特徴量の抽出後、シーン数値化手段17によって、シーン番号に、フレーム番号(先頭番号−最終番号)と、複数の数値(クラスタ値)のデータ列とを対応付けたシーン分類データベース18aを生成する(ステップS17)。
そして、学習データ生成装置1は、入力された映像が終了したかどうかを判定し(ステップS18)、終了していない場合(ステップS18でNo)は、ステップS11に戻って動作を続ける。
一方、映像が終了した場合(ステップS18でYes)、学習データ生成装置1は、シーン映像再生手段19によって、シーン毎の映像を再生する(ステップS19)。そして、学習データ生成装置1は、イベント設定手段20によって、操作者から図示していない入力手段を介して、複数の連続シーンをイベントとして指示されることで、イベントの種類を複数のシーンのシーン数値化列に対応付け、イベントデータベース11aを生成する(ステップS20)。
そして、学習データ生成装置1は、操作者からイベントの対応付けに対する終了指示が入力されるかどうかを判定し(ステップS21)、終了が指示された段階(ステップS21でYes)で動作を終了し、指示されない間(ステップS21でNo)は、ステップS19に戻って動作を続ける。
以上説明したように、学習データ生成装置1は、入力された映像から、複数のシーンが連続したイベントに対して、映像特徴量のクラスタ値のデータ列を対応付けたイベントデータベース11aを生成することができる。
[映像イベント判別装置の構成]
次に、図5を参照して、本発明に係る映像イベント判別装置の構成について説明する。図5は、映像イベント判別装置の構成を示すブロック図である。
図5に示すように、映像イベント判別装置2は、外部から入力される映像から、イベントの種類を判別するものである。ここでは、映像イベント判別装置2は、特徴量分類DB記憶手段10と、イベントDB記憶手段11と、シーン分割手段12と、基準画像記憶手段13と、特徴量抽出手段14と、映像特徴量記憶手段15と、特徴量数値化手段21と、イベント特定手段22とを備えている。
ここで、特徴量数値化手段21及びイベント特定手段22以外の構成は、図2で説明した学習データ生成装置1の構成と同一であるので、同一の符号を付して説明を省略する。また、学習データ生成装置1(図2)において、イベント開始検出手段12a及び基準画像記憶手段13が構成から省かれている場合は、映像イベント判別装置2においても構成から省くこととする。
なお、特徴量分類DB記憶手段10に記憶されている特徴量分類データベース10a(図11参照)、及び、イベントDB記憶手段11に記憶されているイベントデータベース11a(図13参照)は、学習データとして学習データ生成装置1で予め生成されたものである。
特徴量数値化手段21は、特徴量抽出手段14で抽出された映像特徴量を、特徴量分類データベース10aに基づいて、当該映像特徴量を分類した数値(クラスタ値)に変換するものである。この特徴量数値化手段21は、特徴量抽出手段14から映像特徴量を抽出した旨を通知された段階で、映像特徴量記憶手段15に記憶された映像特徴量15aと、図11に示した特徴量分類データベース10aの代表映像特徴量CVとのデータ距離が最も近いクラスタ値Cを、当該映像特徴量15aのクラスタ値とする。ここで変換されたクラスタ値は、イベント特定手段22に出力される。
イベント特定手段22は、イベントデータベース11aに基づいて、特徴量数値化手段21から逐次出力されるクラスタ値のデータ列が、どのイベントに対応するデータ列であるのかを特定するものである。このイベント特定手段22は、入力されたクラスタ値のデータ列が、図13に示したイベントデータベース11aのシーン数値化列Sdと等しくなるイベント識別情報Ek(例えば、「ホームラン」等のイベント名)を、その連続したシーンのイベントと特定し、その特定結果(判別イベント)を出力する。
なお、ここでは、特徴量抽出手段14が、シーンの映像特徴量を特徴量数値化手段21に出力する際に、イベント特定手段22に対して、シーンの先頭フレーム番号及び最終フレーム番号を通知することとする。これによって、イベント特定手段22が、連続シーンの先頭シーンの先頭フレーム番号と、最終シーンの最終フレーム番号とを、判別イベントに付加することで、イベント全体の先頭フレーム番号と、最終フレーム番号とを、同時に出力することが可能になる。
以上説明したように、映像イベント判別装置2は、入力される映像から、イベント(映像イベント)を判別することができる。この映像イベントの判別は、映像特徴量を分類した数値列によって行うため、従来行うことができなかった、映像のシーンそのものからイベントを自動で判別することができる。
なお、映像イベント判別装置2は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(映像イベント判別プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[映像イベント判別装置の動作]
次に、図6を参照(適宜図5参照)して、本発明に係る映像イベント判別装置の動作について説明する。図6は、映像イベント判別装置の動作(イベント判別動作)を示すフローチャートである。なお、ステップS31〜ステップS36は、図3で説明した学習データ生成装置1(図2)の動作におけるステップS1〜ステップS6と同じ動作であるため説明を省略し、ステップS37以降の動作について説明する。
ステップS36後、映像イベント判別装置2は、特徴量数値化手段21が、学習データである特徴量分類データベース10aを参照することで、特徴量抽出手段14で抽出された映像特徴量を、当該映像特徴量を分類したクラスタ値に変換する(ステップS37)。
そして、映像イベント判別装置2は、イベント特定手段22が、イベントデータベース11aを参照することで、ステップS37で逐次変換されたクラスタ値のデータ列が、どのイベントに対応するデータ列であるかを特定し(ステップS38)、当該イベントのイベント名、先頭フレーム番号及び最終フレーム番号を判別イベントとして出力する(ステップS39)。
そして、映像イベント判別装置2は、入力された映像が終了したかどうかを判定し(ステップS40)、終了していない場合(ステップS40でNo)は、ステップS31に戻って動作を続ける。また、映像が終了した場合(ステップS40でYes)は、動作(イベント判別動作)を終了する。
以上の動作によって、映像イベント判別装置2は、学習データ(特徴量分類データベース10a及びイベントデータベース11a)に基づいて、映像から、イベント(映像イベント)を判別することができる。
本発明に係る映像イベント判別手法の概要を説明するための説明図である。 本発明に係る映像イベント判別用学習データ生成装置の構成を示すブロック図である。 本発明に係る学習データ生成装置が特徴量分類データベースを生成する動作を示すフローチャートである。 本発明に係る学習データ生成装置がイベントデータベースを生成する動作を示すフローチャートである。 本発明に係る映像イベント判別装置の構成の構成を示すブロック図である。 本発明に係る映像イベント判別装置の動作を示すフローチャートである。 節点追跡手段における節点の追跡を視覚化した図で、(a)は、フレーム画像に節点を設置した状態を示す図、(b)は、フレーム画像上において節点を追跡した状態を示す図である。 節点を同一のクラス(クラスタ)として分類する概念を示した概念図である。 特徴量抽出手段が生成する映像特徴量のデータの一例を示す図である。 映像のシーンを複数の矩形領域で簡易化する概念を示した概念図である。 特徴量分類データベースの構造の例を示す構造図である。 シーン分類データベースの構造の例を示す構造図である。 イベントデータベースの構造の例を示す構造図である。
符号の説明
1 学習データ生成装置(映像イベント判別用学習データ生成装置)
2 映像イベント判別装置
10 特徴量分類DB(データベース)記憶手段
10a 特徴量分類データベース
11 イベントDB(データベース)記憶手段
11a イベントデータベース
12 シーン分割手段
12a イベント開始検出手段
13 基準画像記憶手段
13a 基準画像
14 特徴量抽出手段
15 映像特徴量記憶手段
16 特徴量分類手段
17 シーン数値化手段
18 シーン分類DB(データベース)記憶手段
18a シーン分類データベース
19 シーン映像再生手段
20 イベント設定手段
21 特徴量数値化手段
22 イベント特定手段

Claims (6)

  1. 入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成する映像イベント判別用学習データ生成装置であって、
    入力された前記映像をシーン毎に分割するシーン分割手段と、
    このシーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する節点追跡手段と、
    前記フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする節点分類手段と、
    前記シーンの先頭フレームから最終フレームまでにおいて、前記節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する前記各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成するクラスタ画像特徴量生成手段と、
    このクラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、前記シーンの先頭フレームからの最終フレームまでの前記矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成するシーン特徴量生成手段と、
    前記映像特徴量を類似する映像特徴量毎にクラスタリングし、同一のクラスタに含まれる映像特徴量の平均値を当該クラスタを代表する映像特徴量とし、当該映像特徴量と前記クラスタの値であるクラスタ値とを対応付けた前記特徴量分類データベースを生成する特徴量分類手段と、
    前記シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、前記特徴量分類手段によって分類された前記映像特徴量のクラスタ値とを対応付けるシーン数値化手段と、
    このシーン数値化手段で対応付けられた前記シーン毎のフレーム画像番号に基づいて、前記シーンを再生するシーン映像再生手段と、
    このシーン映像再生手段で再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、前記イベント識別情報と、前記複数のシーンに対応する前記映像特徴量のクラスタ値のデータ列であるシーン数値化列とを対応付けた前記イベントデータベースを生成するイベント設定手段と、
    を備えていることを特徴とする映像イベント判別用学習データ生成装置。
  2. 前記映像内で発生するイベントの開始となる基準画像を予め記憶した基準画像記憶手段を備え、
    さらに、前記シーン分割手段が、前記フレーム画像と前記基準画像とを比較することで、前記映像内におけるイベントの開始を、前記シーンの切り替わりの開始点として検出するイベント開始検出手段を備えていることを特徴とする請求項に記載の映像イベント判別用学習データ生成装置。
  3. 入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置で使用する学習データである特徴量分類データベース及びイベントデータベースを生成するために、コンピュータを、
    入力された前記映像をシーン毎に分割するシーン分割手段、
    このシーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する節点追跡手段、
    前記フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする節点分類手段、
    前記シーンの先頭フレームから最終フレームまでにおいて、前記節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する前記各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成するクラスタ画像特徴量生成手段、
    このクラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、前記シーンの先頭フレームからの最終フレームまでの前記矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成するシーン特徴量生成手段、
    前記映像特徴量を類似する映像特徴量毎にクラスタリングし、同一のクラスタに含まれる映像特徴量の平均値を当該クラスタを代表する映像特徴量とし、当該映像特徴量と前記クラスタの値であるクラスタ値とを対応付けた前記特徴量分類データベースを生成する特徴量分類手段、
    前記シーン毎に、当該シーンに含まれるフレーム画像を識別するためのフレーム画像番号と、前記特徴量分類手段によって分類された前記映像特徴量のクラスタ値とを対応付けるシーン数値化手段、
    このシーン数値化手段で対応付けられた前記シーン毎のフレーム画像番号に基づいて、前記シーンを再生するシーン映像再生手段、
    このシーン映像再生手段で再生された連続する複数のシーンに対して、イベントの種類を示すイベント識別情報を入力されることで、前記イベント識別情報と、前記複数のシーンに対応する前記映像特徴量のクラスタ値のデータ列であるシーン数値化列とを対応付けたイベントデータベースを生成するイベント設定手段、
    として機能させることを特徴とする映像イベント判別用学習データ生成プログラム。
  4. 入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別する映像イベント判別装置であって、
    請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成された特徴量分類データベースを記憶した特徴量分類データベース記憶手段と、
    請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成されたイベントデータベースを記憶したイベントデータベース記憶手段と、
    入力された前記映像をシーン毎に分割するシーン分割手段と、
    このシーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する節点追跡手段と、
    前記フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする節点分類手段と、
    前記シーンの先頭フレームから最終フレームまでにおいて、前記節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する前記各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成するクラスタ画像特徴量生成手段と、
    このクラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、前記シーンの先頭フレームからの最終フレームまでの前記矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成するシーン特徴量生成手段と、
    前記特徴量分類データベース記憶手段に記憶されている特徴量分類データベースを参照して、前記シーン特徴量生成手段で生成された映像特徴量を、当該映像特徴量に近似する前記特徴量分類データベースの映像特徴量に対応したクラスタ値に変換する特徴量数値化手段と、
    前記イベントデータベース記憶手段に記憶されているイベントデータベースを参照して、前記特徴量数値化手段で変換されたクラスタ値のデータ列に対応するイベントの種類を特定するイベント特定手段と、
    を備えていることを特徴とする映像イベント判別装置。
  5. 前記映像内で発生するイベントの開始となる基準画像を予め記憶した基準画像記憶手段を備え、
    さらに、前記シーン分割手段が、前記フレーム画像と前記基準画像とを比較することで、前記映像内におけるイベントの開始を、前記シーンの切り替わりの開始点として検出するイベント開始検出手段を備えていることを特徴とする請求項に記載の映像イベント判別装置。
  6. 入力された映像の各シーンにおける映像特徴量に基づいて、前記映像内で発生するイベントの種類を判別するために、コンピュータを、
    入力された前記映像をシーン毎に分割するシーン分割手段、
    このシーン分割手段で分割されたシーンの先頭のフレーム画像に予め定めた間隔で格子状に、フレーム画像の特徴を抽出するための基準となる節点を設定し、その節点の近傍画像領域の特徴量に基づいて、フレーム画像毎に節点を追跡する節点追跡手段、
    前記フレーム画像毎に、フレーム画像内の節点を、その節点の位置と近傍領域の画像特徴量とに基づいてクラスタリングする節点分類手段、
    前記シーンの先頭フレームから最終フレームまでにおいて、前記節点分類手段で同一のクラスタに分類された節点の近傍画像領域に対応する前記各フレーム画像の画像特徴量の中で、当該クラスタ内の画像特徴量の平均値に最も近似する画像特徴量を、当該クラスタを代表する画像特徴量として生成するクラスタ画像特徴量生成手段、
    このクラス画像特徴量生成手段で生成されたクラスタを代表する画像特徴量と、当該クラスの領域を示す矩形領域の座標情報と、前記シーンの先頭フレームからの最終フレームまでの前記矩形領域の位置重心の動きベクトルである動き情報とを当該シーンにおける映像特徴量として生成するシーン特徴量生成手段と、
    請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成された特徴量分類データベースを参照して、前記シーン特徴量生成手段で生成された映像特徴量を、当該映像特徴量に近似する前記特徴量分類データベースの映像特徴量に対応したクラスタ値に変換する特徴量数値化手段、
    請求項1又は請求項2に記載の映像イベント判別用学習データ生成装置で生成されたイベントデータベースを参照して、前記特徴量数値化手段で変換されたクラスタ値のデータ列に対応するイベントの種類を特定するイベント特定手段、
    として機能させることを特徴とする映像イベント判別プログラム。
JP2004149902A 2004-05-20 2004-05-20 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム Expired - Fee Related JP4546762B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004149902A JP4546762B2 (ja) 2004-05-20 2004-05-20 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004149902A JP4546762B2 (ja) 2004-05-20 2004-05-20 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2005332206A JP2005332206A (ja) 2005-12-02
JP4546762B2 true JP4546762B2 (ja) 2010-09-15

Family

ID=35486825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004149902A Expired - Fee Related JP4546762B2 (ja) 2004-05-20 2004-05-20 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4546762B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4749139B2 (ja) * 2005-12-05 2011-08-17 株式会社日立製作所 危険映像検出方法、映像相違検出方法及び装置
JP4254802B2 (ja) * 2006-05-11 2009-04-15 ソニー株式会社 画像処理装置および方法、プログラム並びに記録媒体
JP4985293B2 (ja) 2007-10-04 2012-07-25 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP5312807B2 (ja) 2008-01-08 2013-10-09 オリンパス株式会社 画像処理装置および画像処理プログラム
JP4995770B2 (ja) * 2008-05-21 2012-08-08 日本電信電話株式会社 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
US8340357B2 (en) 2008-10-27 2012-12-25 Panasonic Corporation Moving object detection method and moving object detection apparatus
CN102077250B (zh) 2009-01-09 2014-04-16 松下电器产业株式会社 移动体检测方法及移动体检测装置
JP5598159B2 (ja) * 2010-08-23 2014-10-01 株式会社ニコン 画像処理装置、撮像システム、画像処理方法、およびプログラム
JP5716464B2 (ja) * 2011-03-07 2015-05-13 富士通株式会社 画像処理プログラムおよび画像処理方法並びに画像処理装置
KR102120453B1 (ko) * 2018-04-30 2020-06-08 연세대학교 산학협력단 영상 특징의 미분 및 지도 학습을 이용하여 비디오의 장면 상황 정보를 생성하는 방법 및 장치
CN113613065B (zh) * 2021-08-02 2022-09-09 北京百度网讯科技有限公司 视频编辑方法、装置、电子设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243236A (ja) * 2000-02-28 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 映像特徴抽出方法、映像特徴抽出装置、映像検索方法、映像検索装置、およびそのプログラムを記録した記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3340532B2 (ja) * 1993-10-20 2002-11-05 株式会社日立製作所 ビデオの検索方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243236A (ja) * 2000-02-28 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 映像特徴抽出方法、映像特徴抽出装置、映像検索方法、映像検索装置、およびそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2005332206A (ja) 2005-12-02

Similar Documents

Publication Publication Date Title
Zhu et al. Event tactic analysis based on broadcast sports video
D’Orazio et al. A review of vision-based systems for soccer video analysis
US8488682B2 (en) System and method for extracting text captions from video and generating video summaries
US5923365A (en) Sports event video manipulating system for highlighting movement
JP4227241B2 (ja) 画像処理装置及び方法
JP4886707B2 (ja) オブジェクト軌道識別装置、オブジェクト軌道識別方法、及びオブジェクト軌道識別プログラム
JP4546762B2 (ja) 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム
JP2008048279A (ja) 映像再生装置、方法およびプログラム
JP2009064445A (ja) 画像処理装置及び方法
JP2008284166A (ja) 投球球種識別装置、識別器生成装置、投球球種識別プログラム及び識別器生成プログラム
CN101807393A (zh) Ktv***及其实现方法、电视机
JP6649231B2 (ja) 検索装置、検索方法およびプログラム
JP2007200249A (ja) 映像検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2019101892A (ja) オブジェクト追跡装置及びそのプログラム
US8300894B2 (en) Method for decomposition and rendering of video content and user interface for operating the method thereof
US7590286B2 (en) Image recognition apparatus and program for recognizing the substance of an image, particularly in a motion picture environment
JP6853528B2 (ja) 映像処理プログラム、映像処理方法、及び映像処理装置
JP6394184B2 (ja) 判定プログラム、方法、及び装置
JP6464616B2 (ja) 情報処理プログラム、方法、及び装置
KR102299459B1 (ko) 중계 영상을 활용한 야구 경기 분석 장치 및 방법과 요약 비디오 생성 방법
CN110969133B (zh) 一种乒乓球比赛视频的智能数据采集方法
JP3379453B2 (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
US7436983B2 (en) Image recognition apparatus and image recognition program
JP4177689B2 (ja) 映像特徴情報生成装置
JP2010081531A (ja) 映像処理装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100702

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4546762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140709

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees