JPH10257436A - 動画像の自動階層構造化方法及びこれを用いたブラウジング方法 - Google Patents

動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Info

Publication number
JPH10257436A
JPH10257436A JP5534097A JP5534097A JPH10257436A JP H10257436 A JPH10257436 A JP H10257436A JP 5534097 A JP5534097 A JP 5534097A JP 5534097 A JP5534097 A JP 5534097A JP H10257436 A JPH10257436 A JP H10257436A
Authority
JP
Japan
Prior art keywords
shots
moving image
picture
shot
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5534097A
Other languages
English (en)
Inventor
Atsushi Matsushita
温 松下
Kenichi Okada
謙一 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP5534097A priority Critical patent/JPH10257436A/ja
Publication of JPH10257436A publication Critical patent/JPH10257436A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 【課題】 この発明は、符号化した動画像を自動階層構
造化し、この動画像とその解析データを基にしてビデオ
ブラウザを得ることを目的としたものである。 【解決手段】 動画像を符号化し、該符号化された動画
像を各ショットに分割し、ついで分割されたショット毎
の類似度を用い、ショットを統合してシーンを抽出処理
することを特徴とした動画像の自動階層構造化方法。動
画像を符号化し、該符号化された動画像を各ショットに
分割し、ついで分割されたショット毎の類似度を用い、
ショットを統合してシーンを抽出処理して動画像を自動
階層構造化し、この階層構造化されたデータを用いて動
画像全体の内容把握、所望のシーンまたはショットの検
出を容易にすることを特徴とした動画像のブラウジング
方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、符号化した動画
像を自動階層構造化し、この動画像とその解析データを
基にしてビデオブラウザを得ることを目的とした動画像
の自動階層構造化方法及びこれを用いたブラウジング方
法に関する。
【0002】
【従来の技術】現在動画像情報は、ビデオの単純再生の
域を脱していない。即ち動画像はフレーム単位でとらえ
られており、撮影時に符号を付した場合には、その符号
によって抽出することができると共に、再生時間をファ
クターとして所望のフレームを検出又は再生するなど特
別な関係が明らかな場合に限り、当該フレームを抽出す
ることができている。
【0003】
【発明により解決すべき課題】然し乍ら何等の符号を付
することなく、与えられる動画像情報から所望のフレー
ムを抽出することは極めて困難であり、時間的制約があ
れば、抽出不可能となる。例えば一般に1フレームは3
0分の1秒であるから、1分間に1800フレーム、1
時間に108000フレームとなる。
【0004】そこで前記従来の一般動画像情報から任意
のフレームを短時間で抽出することができない問題点が
あった。
【0005】
【課題を解決する為の手段】然るにこの発明は、符号化
された動画像を各ショットに分割し、ショット毎の類似
度を用いてショットを統合し、シーンを抽出することに
より自動階層構造化し、このデータを用いて動画像のブ
ラウジングツールを作成することによって前記従来の問
題点を解決したのである。
【0006】即ちこの発明は、符号化された動画像を各
ショットに分割し、ついで分割されたショット毎の類似
度を用い、ショットを統合してシーンを抽出処理するこ
とを特徴とした動画像の自動階層構造化方法であり、動
画像の符号化は、MPEGによるものとすることを特徴
としたものである。また符号化された動画像からショッ
トを検出する際に、MPEGの特徴を利用して高速に処
理することを特徴としたものであり、ショット同士の類
似度の算出に際し、代表フレームを抽出することを特徴
としたものである。次にショット間の類似度をファジィ
推論により求めることを特徴としたものであり、シーン
の抽出処理は、定義されたショット間の結合度により求
めることを特徴としたものである。更に他の発明は、符
号化された動画像を各ショットに分割し、ついで分割さ
れたショット毎の類似度を用い、ショットを統合してシ
ーンを抽出処理して動画像を自動階層構造化し、この階
層構造化されたデータを用いて動画像全体の内容把握、
所望のシーンまたはショットの検出を容易にすることを
特徴とした動画像のブラウジング方法である。
【0007】前記における符号化はMPEG1の圧縮ア
ルゴリズムによる。ここにMPEG1の正式名称は「C
oding of moving pictures
and associated audio for
digital storage media at
up to about 1.5 Mbit/s」であ
る。
【0008】前記ハイブリッド符号化は、DCTと量子
化、動き補償フレーム間予測及びエントロピー符号化に
より行うが、前記個々の方法は公知の方法であるから詳
細な説明は省略する。
【0009】次にMPEG1符号化、復号システムを図
1について説明する。ビデオ入力は、前処理を経てビデ
オ符号化器に入り、ついでシステム多重化を経て、蓄積
メディアに入りついでシステム多重分離した後、ビデオ
復号器に入り前処理してビデオ出力となる。
【0010】前記MPEG1ビデオ符号化器は図2の入
力画像がデータに処理される。またMPEG1ビデオ復
号器は、図3のように入力バッファが表示バッファに処
理される。
【0011】前述したように、MPEG1はCD−RO
Mなどの蓄積メディアに用いることが目的である。蓄積
メディアでは、早送り、巻戻し、途中からの再生、逆転
再生などのトリックモードが必要とされる。このような
トリックモードを実現するため、MPEG1ではグルー
プオブピクチャー(Group of Picture
s、以下GOPという)構造が取られている。
【0012】MPEG1では、符号化された画像データ
は、前後の画面データをもとにして作られているため
に、1画面だけで完結した情報にはならない。このため
に、何枚かの画面データをひとまとまりにしたGOPを
単位として、ランダムアクセスを可能にしている。つま
り、GOPの中に少なくとも1枚は、前後画面の情報を
利用せず1枚だけで閉じた画面データ(Iピクチャ)を
必ず含むようにすることで、このデータを元にGOP内
の他の画面データの再生が可能となる。なお、1つのG
OPは、通常15枚程度のピクチャをグループ化するこ
とが多い(図4)。
【0013】MPEG1では、過去再生画像からの順方
向予測と未来再生画像からの逆方向予測の両方を行って
いる。これを双方向予測という。
【0014】双方向予測を実現するため、MPEG1で
は、Iピクチャ、Pピクチャ、Bピクチャの3つのタイ
プの画像を規定している。
【0015】これらの他に、Dピクチャ(DC符号化画
像)が規定されている。これは、フレーム内の情報のみ
で符号化され、DCT係数の内のDC成分のみで構成さ
れており、他の3種類のピクチャタイプと同じシーケン
スに共存することはない。
【0016】MPEG1では、双方向予測を行うBピク
チャが導入されることによって、予測効率が大きく向上
し、高圧縮時の画質向上に役立っている。
【0017】画像データは、図6に示すように、シーケ
ンス、GOP、ピクチャ、スライス、マクロブロック
(MB)、ブロックの6層の階層構造から成っている。
【0018】前記シーケンス層とは、一続きの映像を表
現するビットストリームは、シーケンスヘッダで始ま
り、その後に1個または数個のGOPが続き、最後に1
個のシーケンスエンドコードで終了する。どのGOPの
直前にもシーケンスヘッダを置くことができるが、一続
きの映像中のシーケンスヘッダでは量子化マトリクス以
外のデータ要素は全て最初のシーケンスヘッダと同じで
ある必要がある。
【0019】これによってシーケンス途中へのランダム
アクセスが可能になる。
【0020】またGOP層とはGOPをひとつ含む。
【0021】次にピクチャ層とはIピクチャ、Pピクチ
ャ、Bピクチャ、Dピクチャのいずれかを1枚含む。
【0022】またスライス層とは、スライスは、画像の
左上から始まってラスタスキャン順に右下に続く一連の
任意個のマクロブロックの集まりである。スライス間に
は重なりやすき間を持たせることはできないが、スライ
スの位置は画面ごとで異なってもよい。スライスのデー
タの先頭には同期信号が割り当てられるため、復号時に
データの読みだし誤差があっても次のスライスで同期を
回復できる利点がある。またスライスのデータの復号は
そのスライスだけ独立して行えるため、復号の高速化の
ためにスライス単位に並列処理が可能である。
【0023】次にマクロブロック層とは、マクロブロッ
クは16画素×16ラインの輝度成分と、画像中で空間
位置が対応する8画素×8ラインの2つの色差成分で構
成されている。ひとつのマクロブロックは4個の輝度ブ
ロックと2個の色差ブロックからなる。マクロブロック
中でのブロック順序と配置は図6のとおりである。この
マクロブロックを単位に動き補償およびフレーム間予測
は行われる。
【0024】更にブロック層とは、8画素×8ラインか
らなる輝度成分または色差成分で構成されるDCT処理
単位である。
【0025】
【発明の実施の形態】この発明は、符号化された動画像
を各ショットに分割し、ショット毎の類似度を用いてシ
ョットを統合し、シーンを抽出するようにした動画像の
自動階層構造化の方法である。
【0026】また前記階層構造化されたデータを用いて
動画像の全体の内容を把握し、また所望のシーン、ショ
ット又はフレームの検索を容易にした動画像のブラウジ
ング方法である。
【0027】前記この発明により、動画像の内容を把握
したり、所望の場面を検索することが極めて容易となっ
た。
【0028】
【実施例】この発明の実施例を図面に基づいて説明す
る。
【0029】まず、物理的な特徴量によって抽出が可能
であり、検出が比較的容易な、ショットへと動画像を分
割する。そして、分割されたショット間の類似度によっ
て、ショットを統合することでシーンの抽出を行う。こ
の際、ショットという動画像のままでは扱いにくいた
め、ショット中から代表フレームをいくつか選び出す
(図7)。
【0030】一般に、動画像はデータ量が多いため、そ
の処理量は膨大なものとなる。さらに、符号化された動
画像の場合、復号化が必要となるため、さらに処理量は
増大する。
【0031】この発明では、MPEG1動画像を完全に
復号化することなく、必要最小限の情報のみを復号化す
ることで、高速な処理を可能としているので、フレーム
間予測やDC成分の復号化による簡略画像の取得といっ
たMPEG1の符号化アルゴリズムの特性を利用して処
理量を軽減している。そこでMPEG動画像中のIピク
チャの簡略復号化とフレームの比較の方法について述
べ、その後流れに沿って各処理の詳細を説明する。
【0032】動画像は多数の静止画像(フレーム)によ
って構成されている。したがって、動画像の解析には各
フレームの画像情報は必要不可欠である。しかし、MP
EG1動画像の復号化は、比較的処理量が多く、高速な
処理を実現することは難しい。
【0033】そこで、すべてのフレームではなくIピク
チャだけを復号化し、さらに、完全な復号化ではなく、
簡易復号化によって原フレームの縮小画像を得る。この
簡易復号化は、DCT係数のDC成分を復号化すると元
のブロックの平均色が得られることを利用する。つま
り、各ブロックのDCT係数のうちDC成分だけを復号
化し、得られた平均色で各ブロックを代表させた画像を
作るのである(図8)。
【0034】このようにして得られた画像をDC画像と
呼ぶこととする。各ブロックの大きさは8×8であるか
ら、DC画像は縦横それぞれ原画像の1/8の大きさと
なる。
【0035】BピクチャおよびPピクチャの復号には、
自分自身だけでなく、動きベクトル情報および参照先の
ピクチャなど直接使わない情報の復号が必要となるが、
Iピクチャはフレーム内で閉じた符号化がなされている
ので、そうした情報の復号化の必要はない。また、Iピ
クチャ中のイントラ(Intra)マクロブロックのD
C成分は、計算量の多いIDCTを行うことなく下式
(1)によって復号化することができる。したがって、
DC画像は非常に高速に得ることができる。
【0036】
【数1】
【0037】ここで、Y、Cbk′、Crk′は各ブ
ロック(k′はブロック番号)の平均色の輝度およ
び色差成分、DY、DCbk′、DCrは各ブロック
のDC成分である。
【0038】実際に、約30分のMPEG1動画像(G
OPは図5のタイプのもの)について、全てのフレーム
を復号した場合と、IピクチャのDC画像だけを復号し
た場合の処理時間を表1に示す。全てのフレームを復号
する場合に比べ、約1/20の処理時間で復号できるこ
とがわかる。
【0039】
【表1】
【0040】また、図9に、DC画像の例と、その原画
像を示す。
【0041】フレーム間の比較に用いる類似度は、画素
値の比較と色ヒストグラムの比較に大別される。色ヒス
トグラムによる比較はカメラや被写体の動きに影響を受
けにくいために、類似度として用いるには都合が良い
が、半面、空間的な情報を全く含まないために全く違う
画像が同じ色ヒストグラムを持つ場合が問題となる。色
ヒストグラムによる比較に空間的な情報を持たせようと
する試みはいくつかなされているが、いずれもある程度
複雑な処理を必要とする。
【0042】この発明では、色ヒストグラムによる距離
として式(2)のDhistareaを、画素値による距離とし
て式(3)のDpixsumを用い、このふたつの値を組み合
わせて類似度を算出することで処理の単純さを損なわず
に空間的な情報を加味した類似度を求める。
【0043】
【数2】
【0044】
【数3】
【0045】ここで、ふたつの値から類似度を算出する
手法として、簡略化ファジィ推論を用いる。ファジィ推
論を用いる事で、色ヒストグラムによる距離および画素
値による距離と、画像の類似度の関係を厳密に定式化す
る事なく記述できる。また、簡略化ファジィ推論による
推論は単純で、高速に実行できる。
【0046】このとき用いるファジィルールは以下式
(4)の通りである。
【0047】
【数4】
【0048】ここで、iはルール番号、Iはルール数、
i は後件部を表す実数値であり、[0、1]の値をと
る。また、Aa 、Bb はそれぞれその特徴値のメンバシ
ップ関数であり、各特徴値ごとに図10のような“sm
all”、“medium”、“large”の3つの
メンバシップ関数を設定する。
【0049】このルールに対する適合度を式(5)によ
り求め、次に式(6)で最終的な推論結果、すなわち画
像間の類似度sを求める。なお、sは[0、1]の値を
取る。
【0050】
【数5】
【0051】
【数6】
【0052】ショットの検出はショットの間のカット点
の検出を行う。
【0053】カット点の検出とは、フレーム間の相関の
低い点を検出する作業に他ならないが、この発明では、
フレームの特徴量を直接比較して相関を調べるのではな
く、MPEG1の符号化の様子から相関を調べ、カット
点を検出する。つまり、MPEG1において、フレーム
間の相関から予測によって圧縮が行われていることを利
用し、逆に、予測の行われ方を調べることでフレーム間
の相関を調べるのである。
【0054】新たにフレームの特徴量を調べることな
く、MPEG1の符号化情報を利用することで、計算量
が少なくて済み、また、すべての情報を復号化する必要
がないため、高速な処理が可能である。
【0055】処理手順としては、まず、Bピクチャにお
ける参照の様子からカット点を検出し、さらにPピクチ
ャでの参照、Iピクチャの変化を調べて確認を行う。図
11のようなN=15、M=3のGOPを例に説明す
る。
【0056】Bピクチャでは、前後両方のIまたはPピ
クチャから参照を行なっている。即ちBピクチャ中に
は、一般的に(IMB)、(FMB)、(BMB)、
(BiMB)の4種類のマクロブロックMBが存在し、
それぞれ、参照を全く行わないIMBか、順方向FM
B、逆方向BMB、双方向InMBの参照を行ってい
る。このときの参照の様子は図12のようになる。
【0057】ショットの中、すなわちフレーム間の相関
が高い場合には、過去および未来への参照の数はほぼ等
しいが、参照するフレームとの間にカット点が存在する
と、過去または未来へ依存が大きく偏り、マクロブロッ
クの構成に偏りが生じる。このときの様子を図12
(b)(c)(d)に示す。ただし、図12は極端な場
合であり、実際にはカット点を越えた参照が完全になく
なる訳ではない。
【0058】このことからわかるように、Bピクチャの
マクロブロックタイプの構成から、Bピクチャの前後フ
レームへの参照の様子を判断することができる。これを
Bピクチャの依存度relatとして式(7)のように
定義する。
【0059】
【数7】
【0060】ただし、NF 、NB 、NBiはそれぞれBピ
クチャに含まれるFMB、BMB、BiMBの数であ
る。
【0061】relatは、NF とNB の差が大きく、
またNBiが少ない程、その絶対値が大きくなり、参照の
偏りが大きいことを示す。
【0062】さて、図11のようなGOPにおいて、ふ
たつのPピクチャ(またはIピクチャ)とそれに挟まれ
たふたつのBピクチャに注目し(例えばf7 、f8 、f
9 、f10)、これをP1 2 3 4 と表すことにする
と、全てのカット点は必ずP1 |B2 3 4 、P1
2 |B3 4 、P1 2 3 |P4 のいずれかの形で現
れる(|はカット点を表す)。これらはそれぞれ図12
の(b)(c)(d)に対応する。このとき、どの場合
でも、図12からわかるとおり、B1 、B2 の両方に参
照の偏りが生じ、依存度の絶対値が大きくなる。
【0063】そこで、次式(8)を満たせば、P1 |B
2 3 4 、P1 2 |B3 4 、P1 2 3 |P4
のいずれかの形でカット点が存在すると判断する。
【0064】
【数8】
【0065】次に、P1 |B2 3 4 、P1 2 |B
3 4 、P1 2 3 |P4 のどのパターンかを判断
し、正確なカット点を決定する。式7からもわかるとお
り、relatは、過去からの参照が多いと正、未来か
らの参照が多いと負の値を取る。これを利用して、式
(9)のようにカット点を決めることができる。
【0066】
【数9】
【0067】以上のようにして、Bピクチャの参照情報
からカット点を検出することができる。
【0068】Bピクチャの参照による検出だけでは、ノ
イズや、カメラの前を物体が横切るなど瞬間的な画面の
変動がある際に、誤検出が発生することがある。これ
は、Bピクチャと参照先のピクチャとの距離が短いため
と考えられる。そこで、Bピクチャだけではなく、より
遠いピクチャを参照するPピクチャの参照情報を利用し
て結果の確認を行う。
【0069】Pピクチャは、参照しているIまたはPピ
クチャとの間にカット点が存在すると、参照がほとんど
できなくなるため、IMBの数が増加するはずである。
そこで、次式(10)を満たす場合は、間にあるBピク
チャから求めたカット点は誤検出であるとみなし、これ
を除去する。
【0070】
【数10】
【0071】ただし、NI はPピクチャに含まれるIM
Bの数、NはPピクチャ中の全MBの数である。
【0072】Pピクチャよりさらに離れたIピクチャど
うしの比較を使った確認を行う。
【0073】また、図11のタイプのGOPの場合、f
3 のIピクチャの前にある2つのBピクチャ(f1 、f
2 )によるカット点に対しては、Pピクチャを利用する
結果の確認は行うことができない。f3 のIピクチャは
参照を行わないからである。この部分で起こる誤検出の
検出のためにもこのIピクチャによる結果の確認が必要
となる。
【0074】Iピクチャ(f3 )とひとつ前のGOPに
おけるIピクチャ、それぞれのDC画像に対する色ヒス
トグラム距離Dhistarea(式(2))を調べ、次式(1
1)を満す場合は間にあるBピクチャから求めたカット
点は誤検出であるとみなし、これを除去する。
【0075】
【数11】
【0076】次にショットの代表フレームの選出につい
て説明する。ここに代表フレームとはショットは動画全
体に比べれば短い単位ではあるが、例えば5秒間のショ
ットでは150枚(30fpsの場合)のフレームの集合
であり、このままでは、比較、表示、特徴値の検出など
の処理がしにくい。そこで、一般に、ショットを扱う際
には、ショットの中からそのショットを代表するフレー
ムを選び出し、この代表フレームによって比較、表示な
どの処理を行う。
【0077】この発明においては、ショットを統合しシ
ーンを抽出する際に、ショット間の類似度を求めるため
に用いる。また、解析された動画構造をユーザに提示す
る際にショットの内容を簡単に示すためにも用いられ
る。したがって、ショットの内容を最もよく表している
フレームを選ぶことが必要となる。
【0078】ショットを扱っている従来の研究では、こ
の代表フレームとして、機械的にショットの先頭のフレ
ームあるいは中央のフレームを用いているものが多い。
しかし、そのようにして選ばれたフレームはショットの
内容をよく表すとは言い難い。そこでこの発明では、シ
ョットに含まれるフレームの平均に最も近いフレームを
代表フレームとして選ぶこととする。
【0079】また、ショットはほぼ動きがない場合だけ
ではなく、 (1)ひとつのショットの途中でカメラの動き(パン・
ズームなど)があるもの。 (2)カメラあるいは画像中のオブジェクトが動き続け
ているもの。 (3)動きが非常に激しいもの。 などの場合がある。このようなショットではひとつのフ
レームでショット全体を代表させるのは難しく、有用な
情報を落とす危険がある。そこで、このようなショット
は、複数の代表フレームによって表すこととする。
【0080】さらに、複数の代表フレームを選出するこ
とによって、カット点の検出ミスによる影響を少なくす
ることができる。つまり、カット点の検出ミスにより、
本来複数であるショットがひとつにまとまってしまった
場合、代表フレームをひとつだけ選出すると、本来、た
だひとつのショットの情報だけしか使われないことにな
る。これに対し、内容に基づいて複数選出すれば、それ
ぞれのショットの情報を捨てることなく、シーン抽出の
際に生かせることになるわけである。
【0081】必要最小限の代表フレームを選び出すた
め、まず、ショット中のフレームのクラスタリングを行
う。この結果できた各クラスタからそれぞれもっとも平
均に近いフレームを選び出し、これをショットの代表フ
レームとする。
【0082】ただし、ショット内のすべてのフレームを
代表フレームの候補とすると、ショットが長くなったと
きに処理量が増大する恐れがある。そこで、候補として
Iピクチャだけを用いる。これにより、選出のための処
理量だけでなく、原動画像からの復号化のための処理量
も削減することができる。また、MPEG1において一
般に、符号化効率を上げるためにI、P、Bピクチャの
量子化特性を変えることが多いため、Iピクチャが最も
品質がよい場合が多いことも都合がよい。
【0083】さらに、Iピクチャを完全に復号化するの
ではなく、前記で述べたDC画像を用い、復号時の処理
量削減を計る。
【0084】具体的な処理手順は以下のようになる(図
13)。なお、Iピクチャがひとつも含まれないショッ
トの場合、つまり非常に短いショットの場合はショット
中で一番初めに現れるPピクチャを、それも存在しない
場合はBピクチャを代表フレームとする。非常に短いシ
ョットの場合、ショット中での変化はほとんどないとい
えるから、このような機械的な処理で十分である。
【0085】(1)ショットに含まれるIピクチャを簡
易復号化し、DC画像を取り出す。
【0086】(2)ショット中、動きが少ない部分のD
C画像を初期クラスタとする。動きが少ないかどうか
は、BおよびPピクチャに含まれるIMBの数を調べる
ことによって行う(式(12))。
【0087】
【数12】
【0088】(3)前記初期クラスタをもとにクラスタ
リングを行い、ショット中のIピクチャをいくつかのク
ラスタへと分類する。クラスタリングは群平均法を使っ
て行い、要素間の距離としてはDhistarea(式(2))
を用いる。クラスタリングは、クラスタ間の距離のうち
最小のものが閾値を越えるまで行う。
【0089】(4)クラスタリング終了後、各クラスタ
からそれぞれひとつずつ代表フレームを選び出す。ま
ず、クラスタ内のIピクチャのDC画像を平均して、平
均DC画像をつくる(式(13))。
【0090】
【数13】
【0091】(5)平均DC画像との距離Dpixsum(式
(3))が一番小さいDC画像DCkをもつIピクチャ
k を代表フレームとする。
【0092】以上のようにしてショットの代表フレーム
が選出される。
【0093】実際の処理では、IピクチャのDC画像
や、PおよびBピクチャのマクロブロック情報を効率的
に得るために、代表フレームの選出はカット点の検出と
並行して行われる。
【0094】たとえば会話のシーンなどでは、話者を交
互に撮る場合が多いため、同じようなショットの繰り返
しになる。このように、ひとつのシーンのなかには、似
ているショットがいくつか含まれることが多い。この性
質に着目してショットを統合し、シーンを抽出する。
【0095】ショット間の類似度は、それぞれのショッ
トの代表フレーム間の類似度s(式(6))を用いる。
ただし、ひとつのショットが複数の代表フレームを持つ
場合もあるため、すべての代表フレームの組み合わせに
ついての類似度を調べ、そのうちの最大値をショットの
類似度とする(図14)。
【0096】ショット間の類似度からシーンを抽出する
最も簡単な方法は、図15のように、似ている(類似度
が非情に高い)ショットが存在すれば、その間をすべて
同じシーンとみなす方法である。
【0097】しかし、このようにすれば、 (1)似ているか、似ていないかの閾値の設定が結果に
大きく影響する (2)類似度が非常に高いショットの組はないが、中程
度の類似度のショットの組が多数ある、といった場合で
も同じシーンとみなすことができず、柔軟性に欠ける といった問題点がある。
【0098】そこで、ショットshotとショットs
hotn+1が連続している(すなわち、同じシーンに
属する)度合を表す結合度connectn,n+1
式(14)のように定義し、この結合度を用いてシーン
の抽出を行う。
【0099】
【数14】
【0100】ここで、Nは比較するショットの範囲を表
す。sijはshotとshotの類似度である。
【0101】このように、結合度connect
n,n+1はショットshotとショットshot
n+1だけでなく、その付近のすべてのショット間の類
似度sijから求められる。例えば、図16において、
connect3,4はショットshotとショット
shotの類似度s34だけでなく、ショットsho
とショットshotの類似度s25も使って求め
られる。なぜなら、たとえショットshotとショッ
トshotがまったく類似していなくても、ショット
shotとショットshotが類似していれば、シ
ョットshotとショットshotは同じシーンに
属すると考えられるからである。
【0102】ただし、時間的に遠く離れているショット
同士は、同じシーンに属する可能性が小さく、むしろ違
うシーンに属するにもかかわらずたまたま類似度が高い
ショットが存在する可能性があり、このような原因によ
る未検出をできるだけ防ぐため、比較するショットの範
囲はNに制限する。
【0103】式(13)によって得られる結合度con
nectn,n+1の変化は、例えば図17のようにな
る。
【0104】このような結合度の変化から、シーンチェ
ンジを決定しシーンを抽出する。ここでは、変化のピー
クと谷の差が閾値thresholdSCENE より大きい
とき、その谷となる結合度をもつカット点をシーンチェ
ンジ点とする。
【0105】
【発明の効果】この発明によれば、与えられた動画像を
ハイブリッド符号化し、これを階層的構造へ分割し、分
割されたショット間の類似度によりショットを統合して
シーンを抽出するので、シーンの抽出が、迅速、正確に
行われる効果がある。然してシーンからショット又はフ
レームを抽出するのは比較的容易であるから、結局動画
像からシーン、ショット又はカットを短時間に、かつ正
確に抽出し得る効果がある。
【0106】前記処理は総て現在使用されているハード
に、適切なソフトを組み込むことにより自動化できるの
で、適切な入力指示により、所望のシーン、ショット又
はカットを自動的に提供できる効果がある。
【0107】実験の結果によれば、表2の動画像を用い
たカットの検出結果は表3の通りである。
【0108】
【表2】
【0109】
【表3】
【0110】またカット点検出の処理時間は表4の通り
である。
【0111】
【表4】
【0112】更に単純なアルゴリズムによるカット点検
出の処理時間は表5の通りである。
【0113】
【表5】
【0114】次にカット点検出の結果得られたショット
を用いて、シーン抽出を行った。結合度の変化を図1
8、19、20に示す。
【0115】図18、19、20の結合度からシーン抽
出を行った結果が表6である。なお、シーンチェンジ点
検出の閾値は、thresholdSCENE =0.3とし
た。
【0116】表6から、いずれの動画像についてもシー
ンチェンジ点のうち75%以上を検出できており、高速
性や本手法が意味解析や知識を使っていないことを考慮
すると十分実用的であるといえる。なお、検出数の内1
/4から1/3程度は、実際のシーンチェンジ点から1
ショット分前または後ろにずれて検出されている。これ
は、シーンチェンジ点に隣接するショットに関して、そ
の本来属するべきシーンのなかにそのショットへの類似
度が高いショットが存在しない場合は結合度が低くなっ
てしまうというアルゴリズム上の欠点による。
【0117】
【表6】
【0118】構造解析処理全体の処理時間は表7のよう
になっており、十分な高速性を保っていることがわか
る。
【0119】
【表7】
【図面の簡単な説明】
【図1】この発明のMPEG1符号化・復号システム。
【図2】同じくMPEG1ビデオ符号化器のブロック
図。
【図3】同じくMPEG1ビデオ復号器の図。
【図4】同じくGOPの例示図。
【図5】同じく原画像およびストリーム上の画面の並び
を示す図。
【図6】同じくMPEG1の階層構成図。
【図7】同じく構造解析処理の流れ図。
【図8】同じくDC画像の生成図。
【図9】同じくDC画像の例示図。
【図10】同じく類似度を求めるファジィ推論に用いる
メンバシップ関数の形状図。
【図11】同じくGOPの例示図。
【図12】(a)同じく通常の参照図。 (b)同じく過去のPピクチャとの間にカット点がある
場合を示す図。 (c)Bピクチャの間にカット点がある場合を示す図。 (d)同じく未来のPピクチャとの間にカット点がある
場合の図。
【図13】同じく代表フレームの選出アルゴリズムを示
す流れ図であって、 (a)DC画像を取り出す図。 (b)初期クラスタを決定する図。 (c)クラスタリングの図。 (d)クラスタ中のDC画像から平均画像を作る図。 (e)平均画像に最も近いものを代表フレームとする
図。
【図14】同じくショット間の類似度を示す図。
【図15】同じく単純なシーン抽出の図。
【図16】同じくN=3のときの結合度を示す図。
【図17】同じく結合度connectn,n+1の変
化の例示図。
【図18】同じく動画像Aの結合度の変化を示す例示
図。
【図19】同じく動画像Bの結合度の変化を示す例示
図。
【図20】同じく動画像Cの結合度の変化を示す図。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 符号化された動画像を各ショットに分割
    し、ついで分割されたショット毎の類似度を用い、ショ
    ットを統合してシーンを抽出処理することを特徴とした
    動画像の自動階層構造化方法。
  2. 【請求項2】 動画像の符号化は、MPEGによるもの
    とすることを特徴とした請求項1記載の動画像の自動階
    層構造化方法。
  3. 【請求項3】 符号化された動画像からショットを検出
    する際に、MPEGの特徴を利用して高速に処理するこ
    とを特徴とした請求項1記載の動画像の自動階層構造化
    方法。
  4. 【請求項4】 ショット同士の類似度の算出に際し、代
    表フレームを抽出することを特徴とした請求項1記載の
    動画像の自動階層構造化方法。
  5. 【請求項5】 ショット間の類似度をファジィ推論によ
    り求めることを特徴とした請求項1記載の動画像の自動
    階層構造化方法。
  6. 【請求項6】 シーンの抽出処理は、定義されたショッ
    ト間の結合度により求めることを特徴とした請求項1記
    載の動画像の自動階層構造化方法。
  7. 【請求項7】 符号化された動画像を各ショットに分割
    し、ついで分割されたショット毎の類似度を用い、ショ
    ットを統合してシーンを抽出処理して動画像を自動階層
    構造化し、この階層構造化されたデータを用いて動画像
    全体の内容把握、所望のシーンまたはショットの検出を
    容易にすることを特徴とした動画像のブラウジング方
    法。
JP5534097A 1997-03-10 1997-03-10 動画像の自動階層構造化方法及びこれを用いたブラウジング方法 Pending JPH10257436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5534097A JPH10257436A (ja) 1997-03-10 1997-03-10 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5534097A JPH10257436A (ja) 1997-03-10 1997-03-10 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Publications (1)

Publication Number Publication Date
JPH10257436A true JPH10257436A (ja) 1998-09-25

Family

ID=12995791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5534097A Pending JPH10257436A (ja) 1997-03-10 1997-03-10 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Country Status (1)

Country Link
JP (1) JPH10257436A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069420A (ja) * 1998-08-26 2000-03-03 Sharp Corp 映像処理装置
WO2000045603A1 (fr) * 1999-01-29 2000-08-03 Sony Corporation Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux
WO2000045604A1 (en) * 1999-01-29 2000-08-03 Sony Corporation Signal processing method and video/voice processing device
WO2000048397A1 (fr) * 1999-02-15 2000-08-17 Sony Corporation Procede de traitement de signal et dispositif de traitement video/audio
WO2001080567A1 (en) * 2000-04-14 2001-10-25 Sony Corporation Decoder and decoding method, recorded medium, and program
JP2001313956A (ja) * 2000-03-07 2001-11-09 Lg Electronics Inc Mpeg圧縮ビデオ環境における階層的混合型ショット変換検出方法
WO2006028156A1 (ja) * 2004-09-10 2006-03-16 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
WO2006035883A1 (ja) * 2004-09-30 2006-04-06 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
WO2007102511A1 (ja) * 2006-03-09 2007-09-13 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JP2007249588A (ja) * 2006-03-15 2007-09-27 Omron Corp 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP2008077424A (ja) * 2006-09-21 2008-04-03 Toshiba Corp 作業分析システム及び方法
JP2009044423A (ja) * 2007-08-08 2009-02-26 Univ Of Electro-Communications シーン検出システム及びシーン検出方法
JP2009232473A (ja) * 2009-06-02 2009-10-08 Kddi Corp 動画像データのシーン分割装置
US7715402B2 (en) 2002-07-24 2010-05-11 Thomson Licensing Method and device for processing digital data
JP4536940B2 (ja) * 2001-01-26 2010-09-01 キヤノン株式会社 画像処理装置、画像処理方法、記憶媒体、及びコンピュータプログラム
EP2273387A1 (en) 2000-10-20 2011-01-12 Sharp Kabushiki Kaisha Dynamic image content search information managing apparatus
EP2273388A1 (en) 2000-10-20 2011-01-12 Sharp Kabushiki Kaisha Dynamic image content search information managing apparatus
US7912297B2 (en) * 2001-09-27 2011-03-22 Samsung Electronics Co., Ltd. Method of indexing image hierarchically and apparatus therefor
JP2011221807A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
JP2011221806A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
WO2023249034A1 (ja) * 2022-06-23 2023-12-28 ダイキン工業株式会社 画像処理方法、コンピュータプログラム及び画像処理装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069420A (ja) * 1998-08-26 2000-03-03 Sharp Corp 映像処理装置
US6744922B1 (en) 1999-01-29 2004-06-01 Sony Corporation Signal processing method and video/voice processing device
WO2000045603A1 (fr) * 1999-01-29 2000-08-03 Sony Corporation Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux
WO2000045604A1 (en) * 1999-01-29 2000-08-03 Sony Corporation Signal processing method and video/voice processing device
US6928233B1 (en) 1999-01-29 2005-08-09 Sony Corporation Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
WO2000048397A1 (fr) * 1999-02-15 2000-08-17 Sony Corporation Procede de traitement de signal et dispositif de traitement video/audio
US6710822B1 (en) 1999-02-15 2004-03-23 Sony Corporation Signal processing method and image-voice processing apparatus for measuring similarities between signals
JP2001313956A (ja) * 2000-03-07 2001-11-09 Lg Electronics Inc Mpeg圧縮ビデオ環境における階層的混合型ショット変換検出方法
US7027509B2 (en) 2000-03-07 2006-04-11 Lg Electronics Inc. Hierarchical hybrid shot change detection method for MPEG-compressed video
WO2001080567A1 (en) * 2000-04-14 2001-10-25 Sony Corporation Decoder and decoding method, recorded medium, and program
EP2273388A1 (en) 2000-10-20 2011-01-12 Sharp Kabushiki Kaisha Dynamic image content search information managing apparatus
EP2273387A1 (en) 2000-10-20 2011-01-12 Sharp Kabushiki Kaisha Dynamic image content search information managing apparatus
JP4536940B2 (ja) * 2001-01-26 2010-09-01 キヤノン株式会社 画像処理装置、画像処理方法、記憶媒体、及びコンピュータプログラム
US7912297B2 (en) * 2001-09-27 2011-03-22 Samsung Electronics Co., Ltd. Method of indexing image hierarchically and apparatus therefor
US7715402B2 (en) 2002-07-24 2010-05-11 Thomson Licensing Method and device for processing digital data
US7792373B2 (en) 2004-09-10 2010-09-07 Pioneer Corporation Image processing apparatus, image processing method, and image processing program
WO2006028156A1 (ja) * 2004-09-10 2006-03-16 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JPWO2006035883A1 (ja) * 2004-09-30 2008-07-31 パイオニア株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2006035883A1 (ja) * 2004-09-30 2006-04-06 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JP4520994B2 (ja) * 2004-09-30 2010-08-11 パイオニア株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2007102511A1 (ja) * 2006-03-09 2007-09-13 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JP4866417B2 (ja) * 2006-03-09 2012-02-01 パイオニア株式会社 画像処理装置、画像処理方法、および画像処理プログラム
US8139877B2 (en) 2006-03-09 2012-03-20 Pioneer Corporation Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
JP2007249588A (ja) * 2006-03-15 2007-09-27 Omron Corp 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP4725377B2 (ja) * 2006-03-15 2011-07-13 オムロン株式会社 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
US8848985B2 (en) 2006-03-15 2014-09-30 Omron Corporation Face-image registration device, face-image registration method, face-image registration program, and storage medium
JP2008077424A (ja) * 2006-09-21 2008-04-03 Toshiba Corp 作業分析システム及び方法
JP2009044423A (ja) * 2007-08-08 2009-02-26 Univ Of Electro-Communications シーン検出システム及びシーン検出方法
JP2009232473A (ja) * 2009-06-02 2009-10-08 Kddi Corp 動画像データのシーン分割装置
JP2011221807A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
JP2011221806A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法、並びにプログラム
WO2023249034A1 (ja) * 2022-06-23 2023-12-28 ダイキン工業株式会社 画像処理方法、コンピュータプログラム及び画像処理装置

Similar Documents

Publication Publication Date Title
Meng et al. Scene change detection in an MPEG-compressed video sequence
JPH10257436A (ja) 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
US7046731B2 (en) Extracting key frames from a video sequence
JP4267327B2 (ja) 動き記述子を用いてビデオを要約化する方法
JP3719933B2 (ja) 階層的ディジタル動画要約及び閲覧方法、並びにその装置
JP4942883B2 (ja) 動き記述子およびカラー記述子を用いてビデオを要約化する方法
US7054367B2 (en) Edge detection based on variable-length codes of block coded video
US7469010B2 (en) Extracting key frames from a video sequence
US7272183B2 (en) Image processing device, method and storage medium thereof
JP3738939B2 (ja) 動画像のカット点検出装置
US7248782B2 (en) Image retrieving apparatus, image retrieving method and recording medium for recording program to implement the image retrieving method
Liu et al. Scene decomposition of MPEG-compressed video
EP1022667A2 (en) Methods of feature extraction of video sequences
JP2001313956A (ja) Mpeg圧縮ビデオ環境における階層的混合型ショット変換検出方法
JP4520994B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2008278466A (ja) 画像処理装置およびそれを搭載した撮像装置、画像処理方法
Nasreen et al. Key frame extraction from videos-A survey
US20030095602A1 (en) Unusual event detection using motion activity descriptors
US20060228048A1 (en) Context aware video conversion method and playback system
JP2003061038A (ja) 映像コンテンツ編集支援装置および映像コンテンツ編集支援方法
Smeaton et al. An evaluation of alternative techniques for automatic detection of shot boundaries in digital video
JP2869398B2 (ja) カット点検出方法及び装置
JPH10112863A (ja) 動き被写体情報抽出方法及び装置
JP2003061112A (ja) カメラワーク検出装置およびカメラワーク検出方法
JPH10112864A (ja) カメラワーク算出方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060606