JP3906854B2 - 動画像の特徴場面検出方法及び装置 - Google Patents

動画像の特徴場面検出方法及び装置 Download PDF

Info

Publication number
JP3906854B2
JP3906854B2 JP2004199996A JP2004199996A JP3906854B2 JP 3906854 B2 JP3906854 B2 JP 3906854B2 JP 2004199996 A JP2004199996 A JP 2004199996A JP 2004199996 A JP2004199996 A JP 2004199996A JP 3906854 B2 JP3906854 B2 JP 3906854B2
Authority
JP
Japan
Prior art keywords
event
moving image
program
type
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004199996A
Other languages
English (en)
Other versions
JP2004295923A (ja
Inventor
晃朗 長坂
孝文 宮武
武洋 藤田
勝美 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004199996A priority Critical patent/JP3906854B2/ja
Publication of JP2004295923A publication Critical patent/JP2004295923A/ja
Application granted granted Critical
Publication of JP3906854B2 publication Critical patent/JP3906854B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は,ビデオや映画等の動画像を短時間で概要把握を行うための早見する方法及び装置に係り,特にビデオテープやビデオディスクに格納された動画像からカット(1台のカメラで撮影された途切れのない動画像区間)間のデゾルブ(連続するカットA,Bがあるとき,そのカットの変わり目において,Aがフェードアウトすると同時にBがフェードインする特殊映像効果)を検出することによって動画像を代表する場面を特定する動画像の特徴場面検出方法及び装置に関する。
近年,通常のテレビ放送に加えて,衛星放送やケーブルテレビなどが普及しつつあり,放送の多チャンネル化が進行している。今後,情報ハイウエイと称される広帯域の通信基盤が整備されれば,放送の配信が容易になり,現状よりもさらに多くの放送業者が参入して,多チャンネル化が加速されると考えられる。こうした大量に放送される情報の中から,視聴者個人個人にとって有用な情報と無用な情報とを区別し,選択することは非常に手間と時間のかかる作業である。そのため,映像内容を手早く把握するための要約情報(ダイジェスト)を効率よく作成する技術の研究が進められている。ダイジェストを作成するにあたって最も基本的かつ不可欠な処理は,映像中から重要な場面を選び出すことである。もし,映像中の場面場面の重要度を計算機で自動的に判定できれば,ダイジェストの作成は非常に簡単になる。例えば,特開平4-294694号では,野球中継において,映像中の移動物体の移動結果と,ある特定のイベントとの対応(ランナーの本塁位置への移動と,得点があったこととの対応等)に着目して,重要度の高い場面を選択する方法が示されている。
特開平4−294694号公報
しかしながら,移動物体の動き解析は,現状の画像認識の技術水準では精度や処理速度が十分でなく,それによって得られた動きパターンと,特定のイベントとの対応が必ずしも対応するとは限らないという問題点がある。また,正しくイベントが検出できた場合でも,その前後のどの範囲までを重要な場面として切り出せばよいのかを自動判定させることは極めて困難である。さらに,ダイジェスト自体,映像全体を視聴するのに比べれば格段に短い時間ながら,やはり一定の時間をかけて視聴する必要性は残っており,もっと簡潔に概要把握できるような技術が求められている。
本発明の目的は,映像中の重要な場面かどうかの判定とその範囲の特定とを簡便かつ高速に行うための方法を提供することにある。また,映像がどんな分野(ニュース,スポーツ中継等)に属するかを判定して分類し,ユーザの映像選択の一助となる情報として提供することにある。
放送映像については,多くの場合,放送局側で重要な場面を強調するような各種の映像効果が施されている。この性質はスポーツ中継の場合に特に顕著であり,例えば,得点が入った場合にはリプレイを放映するといった特徴がある。リプレイ映像は視点の異なるカメラで撮像された映像が使われることが多く,単純に全く同じ映像かどうかでリプレイ映像か否かを判定することはできないが,そうしたリプレイ映像に切り替わるときには,デゾルブやワイプといった特殊映像効果が用いられ,通常の放送から一時的に外れることを視聴者が明確に分かるような工夫がされている。さらにまた通常の放送に戻るときにも同様の映像効果が利用される。したがって,こうした特殊映像効果を検出することにより,重要な場面を選び出すことが可能になる。
そこで,対象となる動画像をフレーム単位で時系列に処理装置に入力し,該処理装置では,フレーム中の各画素の色もしくは輝度が,連続する複数枚のフレーム群にまたがって,該フレーム群の最初のフレームの色もしくは輝度の値から,最後のフレームの色もしくは輝度の値に向けて単調に近づく傾向で推移しているかどうかを調べ,該条件を満たす画素の数から画面全体としての変化を表す評価値を計算し,該評価値が予め定めた許容範囲外となった時点で,該連続する複数枚のフレームにまたがる区間に,デゾルブ等の特殊映像効果による場面の変わり目があったと判定し,該区間もしくはその近傍を動画像中の特徴的な点であると判定する。
また,対象となる動画像をフレーム単位で時系列に処理装置に入力し,または対象となる音声を時系列に処理装置に入力し,該処理装置では,カット変化や色調を含む複数の種類の画像特徴量の変化を検出する手段と,必要に応じて話者変化を含む音声特徴量の変化を検出する手段を設け,該検出手段により,変化が発生したこと,もしくは複数の変化が同時または特定の順番で発生したことからなる特徴量に基づき,番組の種類を判別する。
本発明によれば,重要な場面とその範囲を同時に得ることができ,ダイジェスト映像が自動で作成できる効果がある。一般にリプレイされる場面は重要な場面であることが多いが、本発明では、デゾルブを含む特殊映像効果の区間を検出することによって、放送中のリプレイ場面を精度よく検出できる。
さらにまた,カット変化や色調を含む複数の種類の画像特徴量の変化が同時または特定の順番で発生したことからなる特徴量に基づき,番組の種類を判別する手段によって,映像の種類が自動的に判定されるので,視聴者にとって興味のない種類の映像であれば,ダイジェスト映像を見るまでもなく却下でき,効率的な映像選択ができる効果がある。また,この映像の種類の判定においては,簡単な画像や音声の変化とその組み合わせから判定を行うので,処理が高速に行える。
放送でリプレイされる場面は,専門家が重要であると判定した部分であり,そうしたリプレイ場面を検出できれば,ダイジェスト作成が極めて容易になる。本発明によれば,デゾルブを含む特殊映像効果による場面の変わり目が検出できるため,そうした特殊効果に相前後して流される重要な場面を精度よく抽出できる。また同時に,その場面の範囲も得ることができる。
さらに,カット変化や色調を含む複数の種類の画像特徴量の変化が同時または特定の順番で発生したことからなる特徴量に基づき,番組の種類を判別する手段によって,映像の種類が自動的に判定されるので,視聴者にとって興味のない種類の映像であれば,ダイジェスト映像を見るまでもなく却下でき,効率的な映像選択ができる。また,この映像の種類の判定においては,簡単な画像や音声の変化とその組み合わせから判定を行うので,処理が高速に行える。
以下,本発明の1実施例を詳細に説明する。
図1は,本発明を実現するためのシステム構成の概略ブロック図の一例である。1はCRT等のディスプレイ装置であり,コンピュータ4の出力画面を表示する。コンピュータ4に対する命令は,キーボードやポインティングデバイス等の入力装置5を使って行うことができる。10の動画像再生装置は,地上波放送や衛星放送,ケーブルテレビなどの放送番組を受信するためのチュナー装置,もしくは光ディスクやビデオテープ等に記録された動画像を再生するための装置である。動画像再生装置から出力される映像信号は,逐次,3のA/D変換器によってデジタル画像データに変換され,コンピュータに送られる。コンピュータ内部では,デジタル画像データは,インタフェース8を介してメモリ9に入り,メモリ9に格納されたプログラムに従って,CPU7によって処理される。10が扱う動画像の各フレームに,動画像の先頭から順に番号(フレーム番号)が割り付けられている場合には,フレーム番号を制御線2によって動画像再生装置に送ることで,当該場面の動画像を呼び出して再生することができる。また,処理の必要に応じて,各種情報を6の外部情報記憶装置に蓄積することができる。メモリ9には,以下に説明する処理によって作成される各種のデータが格納され,必要に応じて参照される。
以下では,重要場面の選別にあたって,特殊映像効果によるカット変化の一つであるデゾルブを検出する方法について詳細に説明する。
図2は,図1で示したシステム上で実行される,動画像のデゾルブ検出プログラムのフローチャートの一例である。プログラムはメモリ9に格納され,CPU7は,まず最初に初期化処理として,プログラムの実行に必要な各種の変数を初期値に設定する(200)。次に,過去のフレーム画像の各画素の輝度値を収めるm個の二次元配列B(x, y)の各要素に0を代入する(202)。フレーム画像のサイズがw×hのとき,xは0からw-1,yは0からh-1までの値をとる。処理204では,動画像再生装置10が出力するフレーム画像の取り込みを行う(204)。処理206は,評価値が入る変数evalを0にし,ループカウンタに初期値0を代入する。そして,以下の208〜228の処理をフレーム画像中の全画素について行う。
208から228の処理では,デゾルブに特有の性質の検出を行っている。ここで,デゾルブは,図3に示すように,カットの変わり目の前後でBのように,前後のカットのフレーム画像AとCとが混じりあう区間を持つカット変化である。BにおけるAとCの混合比率は,デゾルブ開始時のAが100%,Cが0%の状態から,時間をかけて比率が逆転してゆき,最終的にAが0%,Cが100%になった時点でデゾルブが完了する。濃淡画像の場合,Aの輝度値をBa,Bの輝度値をBb,Cの輝度値をBc,Cの混合割合をα(0≦α≦1)としたとき,Bb = Ba × (1 - α) + Bc × αの式で近似することができる。この式を変形すると,Bb = (Bc - Ba) × α + Baになり,混合割合αが0から単調に増加するデゾルブの場合,Bbの値もBaからBcまで単調に増加もしくは減少する。したがって,過去mフレーム分について常に画素の輝度値をバッファに蓄えておき,そのmフレーム長の区間で輝度値が単調に増加もしくは減少しているかどうかを調べることでデゾルブの検出を行うことができる。mの値は,8から15程度に設定すると,実験的に良好な結果が得られる。
まず処理208では,過去のフレームの輝度値を記憶している二次元配列Bのm番目の配列Bmに,座標(x, y)で表される画素の輝度値を代入する。そして,ループカウンタiに1を代入し,変数numに0を代入する。次に,1番目の配列に記憶された輝度値B1(x, y)とm番目の配列Bm(x, y)の値を比較し(212),続けて,i番目の配列に記憶された輝度値Bi(x, y)がその次の配列Bi+1(x, y)の値よりも大きいかどうかを比較する(214,216)。B1(x, y)がBm(x, y)より大きいときには,Bi(x, y)がBi+1(x, y)より大きい場合にnumの値を1つ増やす。
逆に,B1(x, y)がBm(x, y)より小さいときには,Bi(x, y)がBi+1(x, y)より小さい場合にnumの値を1つ増やす(218)。続く処理220では,Bi(x, y)にBi+1(x, y)の値を代入することで,m個の配列Bを順番に1つずつシフトするようにし,常に最新のフレームから数えてmフレーム分の輝度値がバッファとして格納されているようにする。処理222では,ループカウンタiを1つ増やし,iがmより大きくなるまで,処理212の時点でB1(x, y)がBm(x, y)より大きかったときには処理214,そうでないときには処理216に戻って処理を繰り返す(224)。numが閾値th1よりも大きいときには(226),座標(x, y)の画素については,十分単調に増加もしくは減少しているとしてevalの値を1つ増やす(228)。自然動画像はノイズ等により不規則な変動があるのが常であり,また,デゾルブの速度も,人間がデゾルブ操作を行う場合にはムラが生じて一定ではなくなるので,単調性の判定に閾値を設けることでマージンを持たせる。上記処理をフレーム画像中の全画素について行うべく,208に戻って繰り返す(230〜236)。これによって,デゾルブの特徴を満たす画素の数がevalに入る。
最後に,evalが閾値th2を超えているかどうかを調べ(238),超えていればデゾルブがあるとして,デゾルブ検出処理(240)を実行する。最後に,処理204に戻り,映像の終わりまで204からの処理を繰り返す。
上記の方法では,ズームやパンといったカメラの動きがある場合にも,evalが高めに出る。カメラが動けば,それに応じて,フレーム画像中の各画素の輝度も変化し,そうした変化の中には,輝度が単調増加もしくは単調減少している画素も少なからず存在するからである。そのため,デゾルブとカメラの動きとの区別がつきにくいケースもある。そこで,以下では,デゾルブがもっと明確にわかるようなデゾルブ検出方法について説明する。
一般に,デゾルブの時間は,1秒(NTSC方式の映像の場合で30フレーム)以上になるものが多い。したがって,デゾルブがかかっている区間では,m=8のときで22フレーム,m=15のときでも15フレーム以上の時間,evalの値が高い状態が続く。一方,カメラの動きの場合は,デゾルブのときほど値は高くない上,必ずしも連続して高い状態が続くとは限らない。したがって,過去nフレーム分についてevalの値の総和sumをとったとき,デゾルブのときのsumの値とカメラの動きのときのsumとでは顕著な違いが現れる。図4は,上記の考え方を加えたデゾルブ検出方法である。
まず最初に初期化処理として,プログラムの実行に必要な各種の変数を初期値に設定する(400)。次に,過去のフレーム画像の各画素の輝度値を収めるm個の二次元配列B(x, y)の各要素に0を代入するとともに,過去nフレーム分のevalの値を記憶するn個の変数E1〜Enを全て0にする(402)。フレーム画像のサイズがw×hのとき,xは0からw-1,yは0からh-1までの値をとる。処理404では,動画像再生装置10が出力するフレーム画像の取り込みを行う(404)。以下,図2で示した206から236までの処理を実行してevalを得る(406)。そして,Enにevalの値を代入する。E1からEnまでの総和をsumに求めるとともに,EjにEj+1の値を次々と代入しながらシフトし,常に最新のeval値がE1〜Enに格納されているようにする(408〜412)。最後に,sumが閾値th3よりも大きいかどうかを判定し(414),大きければ,デゾルブ検出処理240を行い,そうでなければ何もせずに処理404まで戻って繰り返す。
デゾルブ検出処理240では,デゾルブで挟まれた場面を重要な場面として選択する。図2および図4のデゾルブ検出方法を実行すると,図5のような評価値の時間推移を表すグラフを得ることができる。評価値は,デゾルブ区間において,一瞬だけ大きな値を示すのではなく,急速に増加して急速に減少する三角形状の変化を示す特徴がある。そして,三角形の底辺を成す2頂点が,デゾルブの開始点と終了点にほぼ対応している。ダイジェストを作成するときには,デゾルブのような特殊映像効果がかかった部分が先頭や末尾に残っていると見苦しいので,デゾルブの終わった点から,次のデゾルブが始まる手前までの区間507を切り出すようにする。そのため,上記のデゾルブ検出方法でデゾルブか否かの判定に用いる第1の閾値500に加えて,それより低い第2の閾値502を用いる。
そして,重要場面の開始点としてのデゾルブが検出された場合には,評価値が第1の閾値を超えた点504以降ではじめて第2の閾値を下回った点506を重要場面の開始点とする。このとき,余裕をとって開始点を遅らせても構わない。また,重要場面の終了点としてデゾルブが検出された場合には,評価値が第1の閾値を超えた点510から過去に遡って見たときに初めて第2の閾値を下回った点508を重要場面の終了点とする。このとき,開始点と同様に,余裕をとって終了点を早めの時間にとってもよい。検出されたデゾルブが重要場面の開始点を示すのか,終了点を示すのかの判定には,デゾルブ間の時間が利用できる。通常の放送が続いてれば,デゾルブはないのでデゾルブ間の時間間隔が長くなり,重要場面ならば,比較的間隔は短い。こうして得られた重要場面を順番に再生することで,ダイジェストができる。
上記の実施例においては,輝度の単調な変化を調べたが,色の同様の変化を利用することもできる。色は1次元情報である輝度と異なり,3次元の情報である。従って,単純に値の増加減少をもとに単調変化を調べることはできない。ここで,A色からB色への単調な変化とは,2つの色を3次元の色空間にマッピングしたとき,A色からの距離を徐々に増しつつ,B色との距離を徐々に縮める傾向としてとらえることができる。したがって,図2における過去のフレームの輝度値を記憶する二次元配列Bの替わりに,色を記憶する二次元配列B’を用い,そのB’中の各色がB’1との色差が増加すると同時にB’mとの色差が減少する形で並んでいることを判定すれば,あとは輝度の場合と同様の手法を用いることができる。
上記のようなデゾルブ等の特殊映像効果を使ったシーンを重要場面とみなせるのは,現実としてスポーツ中継等の一部の番組に限定される。また,スポーツ番組中でも合間に挿入されるコマーシャル中には特殊映像効果が頻繁に登場するため,単純にデゾルブに挟まれた区間という条件では過剰に検出しすぎることも多い。もちろん,多めに検出する分には,元の映像よりも十分に短い映像になっていれば,実用上問題はない。しかし,より精度高く重要場面を抽出できれば,概要把握にかかる時間がさらに節約できる。そこで,ダイジェストを作成する対象の映像がどのような種類の映像かを区別する手段を設け,重要場面の選択に活用する。
図6と図7は,それぞれニュース番組とスポーツ番組において発生するイベントを時間軸に沿って図示したものである。ここでは,イベントとして,画像や音声の特徴が大きく変化する点を考える。図中では,1)構図,2)色調,3)話者,4)字幕,5)デゾルブ,6)リプレイ,7)スロー再生,の7項目を例に挙げた。こうしたイベントの現れ方や組み合わせには番組の種類によって特徴があり,その特徴をもとに番組の分類を行うことができる。例えば,ニュース番組においては,キャスターが全面に登場するカットが時間を空けて複数回現れるので,同じ構図の画像,より具体的には中心付近に顔の色である肌色が大きな面積を占めている画像が複数回現れる特徴がある。また,そのときの話者は同一人物である場合が多いとか,番組全体として字幕が頻繁に現れるという特徴もある。
一方,スポーツ中継の場合,固定位置に設置された複数のカメラを切り替えながら放送が行われることが多く,同じか極めて類似した構図の画像が頻繁に現れる。特に野球やサッカーの場合には,色調は芝生の色である緑がメインとなる。また,リプレイやスロー再生が頻繁に使われるという特徴がある。さらに,CMの場合には,音の途切れが少ない,BGMが頻繁に使われる,色調が鮮やか,カットが多く,その時間長も短い,などの特徴がある。このように,映像中における複数のイベントの組み合わせパターンから,その映像の種類をある程度推測することができる。そして,ここで挙げたイベントは,画像認識・音声認識の技術を要する中では比較的簡単に求められ,その信頼性が高いものばかりである。すなわち,ストーリー等の映像の意味内容に関する認識は必要としない。
図8は,映像の種類を見分けるシステムのブロック図の一例である。入力映像は,画像信号と音声信号のそれぞれについて,画像取り込み部800及び音声取り込み部802でデジタイズされる。デジタイズされたデータは,イベント検出部804に送られ,804中の種類別に設けられた専用検出部806〜820によって,イベント検出の処理が行われる。検出されたイベントは,イベント別カウンタ部822によって,イベントの種類別にカウントされる。また,同時生起カウンタ部824は,複数のイベントが同時に,もしくは規定の順番に現れた場合にのみ,そのイベントの組み合わせに対応するカウンタを1増やす。これらのカウンタで得られた各種イベントの出現頻度分布は,比較部828によって,どの種類の番組におけるイベントの出現頻度分布に近いか比較照合される。
次に,図8中の各ブロックについて詳細に説明する。
イベント検出部804のうち,カット点検出部806は,カットの変わり目を検出する。その手法については,例えば,発明者らによる,情報処理学会論文誌 Vol.33, No.4, 「カラービデオ映像における自動索引付け法と物体探索法」や特開平4−111181号等で示された方法等が利用できる。イベント別カウンタ部822では,カット点の数がカウントされる。
同一構図検出部806は,予め定めた時間以内の過去に遡って,同じ構図もしくは類似した構図の絵が現れているかどうかを検出する。これにはテンプレートマッチングに代表される画像比較手法が使える。具体的には,比較する2枚のフレーム画像の同じ座標位置にある画素の1つ1つについて,輝度差もしくは色差を求めて全画面分の総和をとり,これを画像間の相異度とする。この相異度が定めた閾値より小さければ,同一もしくは類似性が高いと判定できる。ここで,映像中のフレーム画像全てについて,同一構図か否かを検出するのは処理時間がかかり,また,連続するフレーム画像間では画像の類似性が高い動画像の特徴を考慮すると無駄でもある。そこで,カット点検出に連動させて,カット点の画像だけを調べる対象とする。イベント別カウンタ部では,同一構図を持つフレームの数がカウントされる。
色調検出部810は,予め定めた時間以内の過去に遡って,同一の色調もしくは類似した色調の絵が現れているかどうかを検出する。これには,例えば,フレーム画面全体についての色度数分布が利用できる。これは構図に無関係な,どの色がどれだけ使われているかを表した特徴量である。具体的には,比較する2枚のフレーム画像のそれぞれについて,画像を表現する画素の色を64色程度に分別し,それら各色がそれぞれフレーム画像中にどれだけ存在するかをカウントする。そして,得られた度数分布の各度数の差分の絶対値の総和をもって色調の相異度とする。この相異度が定めた閾値より小さければ,同一もしくは類似性が高いと判定できる。色調に関しても構図と同様の理由で,カット点の画像についてのみ対象とすると効率がよい。イベント別カウンタ部では,同一色調を持つフレームの数がカウントされる。また,色調検出部は,途中で求めた度数分布を利用して,どの色が最も多く使われているかを調べるようにしてもよい。具体的には,イベント別カウンタ部中に,赤・青・緑等の色別にカウンタを用意し,赤系の色が多ければ赤のカウンタを増やし,緑が多ければ,緑のカウンタを増やすようにする。
字幕検出部812は,映像中に字幕が現れているかどうかを検出する。その手法については,例えば,発明者らによる,特願平5-330507等で示された方法等が利用できる。イベント別カウンタ部822では,字幕の出現数がカウントされる。
デゾルブ検出部814は,映像中のデゾルブ等の特殊効果を検出する。その手法については,本発明の前半で説明した通りである。イベント別カウンタ部822では,デゾルブの出現数がカウントされる。
リプレイ検出部816は,予め定めた時間以内の過去に遡って,全く同一の映像が現れているかどうかを検出する。これは同一構図検出部808と同様にテンプレートマッチング等によってフレーム画像の比較をすることで行える。しかし,比較する動画像間の各フレームごとにテンプレートマッチングを行っていたのでは処理時間がかかりすぎるので,各フレームを数文字分程度のコードに変換し,そのコード列の照合をもって動画像の照合とする。1枚のフレームに対応するコード単体では情報量が極めて小さいが,動画像は多くのフレームから構成されるので,1つの動画像が含むコードの数も多く,動画像中におけるコードの一連のシーケンスは,一片の動画像を特定するに足る十分な情報量を持つ。こうした考え方に立脚した動画像の照合方法は,発明者らによる,特開平7−114567号に示されている。
スロー再生検出部818は,スロー再生の映像を検出する。スロー再生は,フレーム画像を標準再生時よりも長めの間隔(1/2スローで2倍,1/4スローで4倍)で連続表示することで実現されるため,スロー再生の映像の場合,画像取り込み部800でデジタイズされる画像は,全く同じ画像が複数枚続くという特徴がある(1/2スローで2枚,1/4スローで4枚)。そこで,スロー再生かどうかの判定には,連続する2枚のフレームを調べ,そのテンプレートマッチングによって画像相異度を調べる。そして,一定時間分の相異度の推移を調べ,相異度が特定の周期で大きい値と小さい値を繰り返しているようならば,スロー再生であると判定する。例えば,1/2スローの場合には,2枚ずつ同じ画像が続くので,相異度は,小さい値と大きい値を交互に繰り返す。1/4の場合には,小さい値が3回続いて大きい値が1回というように繰り返す。但し,動画像の場合,スロー再生でなくても,連続する2枚のフレーム画像は類似しているので,相異度の大小の判定は閾値を低めにして行う必要がある。イベント別カウンタ部822では,スロー再生の出現数がカウントされる。
同一話者検出部820では,予め定めた時間以内の過去に遡って,同一の話者が話したことがあったかどうかを検出する。例えば,音声の自己相関を求め,最も大きな値をとる周波数が一致しているかどうかで調べることができる。イベント別カウンタ部822では,同一話者の発話数がカウントされる。
同時生起カウンタ部824は,上記のイベントのうちの幾つかが同時もしくは特定の順番で現れた場合にカウントを行う。カウンタは,検出するイベントの組み合わせの数だけ用意される。例えば,同じ構図のときに,同じ話者が話しているケースでは,構図イベントと話者イベントの同時発生に対応するカウンタが1増やされる。同様に,デゾルブがあって,その直後にスロー再生が検出された場合には,デゾルブイベントとスロー再生イベントの連続発生に対応するカウンタが1増える。
比較部828では,時計826を参照し,時刻t1からt2までの一定時間における映像中のイベントの出現頻度の傾向が,どのような種類の番組のものに近いかを比較する。比較に先立ち,まずニュース番組,スポーツ番組などそれぞれの種類別に典型的なイベントを調べておき,番組を特徴づける重要なイベントであるほど高くなるように値を与えてランク付けを行って,番組ごとにイベント別のランク一覧表を作成する。比較にあたっては,各イベントの出現頻度値を正規化した値に,このランク一覧表で記述された値を掛けて重み付けを行い,そうして得られた各イベントごとの値の総和が閾値を超えた場合,そのランク一覧に対応する種類の番組であると判定する。
このようにして得られたイベントを,図6もしくは図7のような,一方を時間軸とする表形式で,図1のディスプレイ1上に一覧表示することができる。この一覧表示によって,計算機が自動で判定できなかった場合でも,ユーザはこうした情報を1つの手がかりにして,他から入手した情報,経験や知識等を合わせて利用することによって,番組の種類を推測できる可能性がある。また,計算機に教えていない種類の番組が新たに入力された場合,この一覧表示の中から,重要なイベント,もしくはイベントの組み合わせを選んで登録するようにしてもよい。これは,図1で示したマウス等のポインティングデバイス5を使って,一覧表上の各イベントの変化点や区間の表示部分をクリックするなどのダイレクトかつビジュアルな操作で行うようにすればユーザにとって非常に便利になる。
尚、本発明はPC/WSを用いて実現できる他、TV、VTRなどの一機能としても適用可能である。
本発明の実施例を実現するためのシステムブロック図である。 デゾルブの検出を行うプログラムのフローチャートである。 デゾルブの概念を表す図である。 デゾルブの検出を行うもう1つのプログラムのフローチャートである。 デゾルブ検出を行うプログラムを実行したときの評価値の時間推移を表すグラフである。 ニュース番組の典型的なイベントチャートである。 スポーツ中継の典型的なイベントチャートである。 映像の分類を行うシステムのブロック図である。
符号の説明
1…ディスプレイ,2…制御信号線,3…A/D変換器,4…コンピュータ,5…入力装置,6…外部情報記憶装置,7…CPU,8…接続インタフェース,9…メモリ,10…動画像再生装置,11…キーボード。

Claims (5)

  1. 入力受付手段が、番組を構成する動画像をフレーム単位で時系列に入力を受け、
    処理装置は、
    検出部において、入力を受けた前記動画像のカット変化及び複数の特殊効果を含むイベントの存在と、上記検出されたイベント毎の発生タイミング及び発生順序を検出し、
    カウンタ部において、前記検出されたイベントをイベントの種類別にカウントし、さらに前記検出されたイベント毎の発生タイミング及び発生順序をカウントし、
    比較部において、記憶部に記憶された番組の種類毎のイベント特徴と、上記カウントされたイベント及びその発生タイミング及び発生順序を比較して上記入力された番組の種類を判別することを特徴とする動画像の分類方法。
  2. 入力受付手段が、上記動画像に加えて音声の時系列入力を受け、
    前記処理装置は、入力を受けた上記音声から話者変化を含む音声特徴量の変化を上記イベントとして検出することを特徴とする請求項1記載の動画像の分類方法。
  3. 前記処理装置で検出されたイベントの変化点ならびにその変化区間を、時間軸を1つの軸とする表形式で表示手段に一覧表示することを特徴とする請求項1又は2に記載の動画像の分類方法。
  4. 請求項1に記載の動画像の分類方法において、前記比較部は、前記カウントされたイベント及びその発生タイミング及び発生順序から、前記動画像の一定時間におけるイベントの出現頻度の傾向を抽出し、前記番組の種類ごとのイベント特徴と比較して、前記入力された番組の種類を判別をすることを特徴とする動画像の分類方法。
  5. 請求項4に記載の動画像の分類方法において、前記記憶部は、番組の種類毎にイベント別の重要度をつけておき、前記比較部は、前記カウントされたイベントに対して重み付けを行って、前記番組の種類毎のイベント特徴と、前記カウントされたイベント及びその発生タイミング及び発生順序とを比較して、上記入力された番組の種類を判別することを特徴とする動画像の分類方法。
JP2004199996A 2004-07-07 2004-07-07 動画像の特徴場面検出方法及び装置 Expired - Fee Related JP3906854B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004199996A JP3906854B2 (ja) 2004-07-07 2004-07-07 動画像の特徴場面検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004199996A JP3906854B2 (ja) 2004-07-07 2004-07-07 動画像の特徴場面検出方法及び装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP21040995A Division JP3728775B2 (ja) 1995-08-18 1995-08-18 動画像の特徴場面検出方法及び装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006316461A Division JP4007406B2 (ja) 2006-11-24 2006-11-24 動画像の特徴場面検出方法

Publications (2)

Publication Number Publication Date
JP2004295923A JP2004295923A (ja) 2004-10-21
JP3906854B2 true JP3906854B2 (ja) 2007-04-18

Family

ID=33411397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004199996A Expired - Fee Related JP3906854B2 (ja) 2004-07-07 2004-07-07 動画像の特徴場面検出方法及び装置

Country Status (1)

Country Link
JP (1) JP3906854B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1914994A1 (en) * 2006-10-17 2008-04-23 Mitsubishi Electric Information Technology Centre Europe B.V. Detection of gradual transitions in video sequences
JP5181325B2 (ja) 2007-08-08 2013-04-10 国立大学法人電気通信大学 カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法
WO2014208575A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム

Also Published As

Publication number Publication date
JP2004295923A (ja) 2004-10-21

Similar Documents

Publication Publication Date Title
US6157744A (en) Method and apparatus for detecting a point of change in a moving image
US7694320B1 (en) Summary frames in video
JP3728775B2 (ja) 動画像の特徴場面検出方法及び装置
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
US8214368B2 (en) Device, method, and computer-readable recording medium for notifying content scene appearance
JP3534368B2 (ja) 動画像処理方法及び動画像処理装置
JPH10112835A (ja) 映像要約方法および映像表示方法
US7778470B2 (en) Moving picture processor, method, and computer program product to generate metashots
WO2004014061A2 (en) Automatic soccer video analysis and summarization
US7184593B2 (en) Method and apparatus for detecting local features of video, and recording medium storing the method
EP1638321A1 (en) Method of viewing audiovisual documents on a receiver, and receiver therefore
KR20040077708A (ko) 멀티미디어 콘텐트를 링크하기 위한 다-양식 스토리세그먼트화 방법 및 장치
US20050264703A1 (en) Moving image processing apparatus and method
KR20030026529A (ko) 키프레임 기반 비디오 요약 시스템
WO2006126391A1 (ja) コンテンツ処理装置及びコンテンツ処理方法、並びにコンピュータ・プログラム
JPWO2006016590A1 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP2008147838A (ja) 画像処理装置、画像処理方法、およびプログラム
US20090102973A1 (en) Video split device
US20100259688A1 (en) method of determining a starting point of a semantic unit in an audiovisual signal
KR20070120403A (ko) 영상 편집장치 및 방법
WO2010125757A1 (ja) 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
JP2000023062A (ja) ダイジェスト作成システム
US20040019899A1 (en) Method of and system for signal detection
JP3906854B2 (ja) 動画像の特徴場面検出方法及び装置
JP4007406B2 (ja) 動画像の特徴場面検出方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100126

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees