JPH10257436A

JPH10257436A - 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Info

Publication number: JPH10257436A
Application number: JP5534097A
Authority: JP
Inventors: Atsushi Matsushita; 温松下; Kenichi Okada; 謙一岡田
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-03-10
Filing date: 1997-03-10
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】この発明は、符号化した動画像を自動階層構
造化し、この動画像とその解析データを基にしてビデオ
ブラウザを得ることを目的としたものである。【解決手段】動画像を符号化し、該符号化された動画
像を各ショットに分割し、ついで分割されたショット毎
の類似度を用い、ショットを統合してシーンを抽出処理
することを特徴とした動画像の自動階層構造化方法。動
画像を符号化し、該符号化された動画像を各ショットに
分割し、ついで分割されたショット毎の類似度を用い、
ショットを統合してシーンを抽出処理して動画像を自動
階層構造化し、この階層構造化されたデータを用いて動
画像全体の内容把握、所望のシーンまたはショットの検
出を容易にすることを特徴とした動画像のブラウジング
方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、符号化した動画
像を自動階層構造化し、この動画像とその解析データを
基にしてビデオブラウザを得ることを目的とした動画像
の自動階層構造化方法及びこれを用いたブラウジング方
法に関する。

【０００２】

【従来の技術】現在動画像情報は、ビデオの単純再生の
域を脱していない。即ち動画像はフレーム単位でとらえ
られており、撮影時に符号を付した場合には、その符号
によって抽出することができると共に、再生時間をファ
クターとして所望のフレームを検出又は再生するなど特
別な関係が明らかな場合に限り、当該フレームを抽出す
ることができている。

【０００３】

【発明により解決すべき課題】然し乍ら何等の符号を付
することなく、与えられる動画像情報から所望のフレー
ムを抽出することは極めて困難であり、時間的制約があ
れば、抽出不可能となる。例えば一般に１フレームは３
０分の１秒であるから、１分間に１８００フレーム、１
時間に１０８０００フレームとなる。

【０００４】そこで前記従来の一般動画像情報から任意
のフレームを短時間で抽出することができない問題点が
あった。

【０００５】

【課題を解決する為の手段】然るにこの発明は、符号化
された動画像を各ショットに分割し、ショット毎の類似
度を用いてショットを統合し、シーンを抽出することに
より自動階層構造化し、このデータを用いて動画像のブ
ラウジングツールを作成することによって前記従来の問
題点を解決したのである。

【０００６】即ちこの発明は、符号化された動画像を各
ショットに分割し、ついで分割されたショット毎の類似
度を用い、ショットを統合してシーンを抽出処理するこ
とを特徴とした動画像の自動階層構造化方法であり、動
画像の符号化は、ＭＰＥＧによるものとすることを特徴
としたものである。また符号化された動画像からショッ
トを検出する際に、ＭＰＥＧの特徴を利用して高速に処
理することを特徴としたものであり、ショット同士の類
似度の算出に際し、代表フレームを抽出することを特徴
としたものである。次にショット間の類似度をファジィ
推論により求めることを特徴としたものであり、シーン
の抽出処理は、定義されたショット間の結合度により求
めることを特徴としたものである。更に他の発明は、符
号化された動画像を各ショットに分割し、ついで分割さ
れたショット毎の類似度を用い、ショットを統合してシ
ーンを抽出処理して動画像を自動階層構造化し、この階
層構造化されたデータを用いて動画像全体の内容把握、
所望のシーンまたはショットの検出を容易にすることを
特徴とした動画像のブラウジング方法である。

【０００７】前記における符号化はＭＰＥＧ１の圧縮ア
ルゴリズムによる。ここにＭＰＥＧ１の正式名称は「Ｃ
ｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓ
ａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｆｏｒ
ｄｉｇｉｔａｌｓｔｏｒａｇｅｍｅｄｉａａｔ
ｕｐｔｏａｂｏｕｔ１．５Ｍｂｉｔ／ｓ」であ
る。

【０００８】前記ハイブリッド符号化は、ＤＣＴと量子
化、動き補償フレーム間予測及びエントロピー符号化に
より行うが、前記個々の方法は公知の方法であるから詳
細な説明は省略する。

【０００９】次にＭＰＥＧ１符号化、復号システムを図
１について説明する。ビデオ入力は、前処理を経てビデ
オ符号化器に入り、ついでシステム多重化を経て、蓄積
メディアに入りついでシステム多重分離した後、ビデオ
復号器に入り前処理してビデオ出力となる。

【００１０】前記ＭＰＥＧ１ビデオ符号化器は図２の入
力画像がデータに処理される。またＭＰＥＧ１ビデオ復
号器は、図３のように入力バッファが表示バッファに処
理される。

【００１１】前述したように、ＭＰＥＧ１はＣＤ−ＲＯ
Ｍなどの蓄積メディアに用いることが目的である。蓄積
メディアでは、早送り、巻戻し、途中からの再生、逆転
再生などのトリックモードが必要とされる。このような
トリックモードを実現するため、ＭＰＥＧ１ではグルー
プオブピクチャー（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ
ｓ、以下ＧＯＰという）構造が取られている。

【００１２】ＭＰＥＧ１では、符号化された画像データ
は、前後の画面データをもとにして作られているため
に、１画面だけで完結した情報にはならない。このため
に、何枚かの画面データをひとまとまりにしたＧＯＰを
単位として、ランダムアクセスを可能にしている。つま
り、ＧＯＰの中に少なくとも１枚は、前後画面の情報を
利用せず１枚だけで閉じた画面データ（Ｉピクチャ）を
必ず含むようにすることで、このデータを元にＧＯＰ内
の他の画面データの再生が可能となる。なお、１つのＧ
ＯＰは、通常１５枚程度のピクチャをグループ化するこ
とが多い（図４）。

【００１３】ＭＰＥＧ１では、過去再生画像からの順方
向予測と未来再生画像からの逆方向予測の両方を行って
いる。これを双方向予測という。

【００１４】双方向予測を実現するため、ＭＰＥＧ１で
は、Ｉピクチャ、Ｐピクチャ、Ｂピクチャの３つのタイ
プの画像を規定している。

【００１５】これらの他に、Ｄピクチャ（ＤＣ符号化画
像）が規定されている。これは、フレーム内の情報のみ
で符号化され、ＤＣＴ係数の内のＤＣ成分のみで構成さ
れており、他の３種類のピクチャタイプと同じシーケン
スに共存することはない。

【００１６】ＭＰＥＧ１では、双方向予測を行うＢピク
チャが導入されることによって、予測効率が大きく向上
し、高圧縮時の画質向上に役立っている。

【００１７】画像データは、図６に示すように、シーケ
ンス、ＧＯＰ、ピクチャ、スライス、マクロブロック
（ＭＢ）、ブロックの６層の階層構造から成っている。

【００１８】前記シーケンス層とは、一続きの映像を表
現するビットストリームは、シーケンスヘッダで始ま
り、その後に１個または数個のＧＯＰが続き、最後に１
個のシーケンスエンドコードで終了する。どのＧＯＰの
直前にもシーケンスヘッダを置くことができるが、一続
きの映像中のシーケンスヘッダでは量子化マトリクス以
外のデータ要素は全て最初のシーケンスヘッダと同じで
ある必要がある。

【００１９】これによってシーケンス途中へのランダム
アクセスが可能になる。

【００２０】またＧＯＰ層とはＧＯＰをひとつ含む。

【００２１】次にピクチャ層とはＩピクチャ、Ｐピクチ
ャ、Ｂピクチャ、Ｄピクチャのいずれかを１枚含む。

【００２２】またスライス層とは、スライスは、画像の
左上から始まってラスタスキャン順に右下に続く一連の
任意個のマクロブロックの集まりである。スライス間に
は重なりやすき間を持たせることはできないが、スライ
スの位置は画面ごとで異なってもよい。スライスのデー
タの先頭には同期信号が割り当てられるため、復号時に
データの読みだし誤差があっても次のスライスで同期を
回復できる利点がある。またスライスのデータの復号は
そのスライスだけ独立して行えるため、復号の高速化の
ためにスライス単位に並列処理が可能である。

【００２３】次にマクロブロック層とは、マクロブロッ
クは１６画素×１６ラインの輝度成分と、画像中で空間
位置が対応する８画素×８ラインの２つの色差成分で構
成されている。ひとつのマクロブロックは４個の輝度ブ
ロックと２個の色差ブロックからなる。マクロブロック
中でのブロック順序と配置は図６のとおりである。この
マクロブロックを単位に動き補償およびフレーム間予測
は行われる。

【００２４】更にブロック層とは、８画素×８ラインか
らなる輝度成分または色差成分で構成されるＤＣＴ処理
単位である。

【００２５】

【発明の実施の形態】この発明は、符号化された動画像
を各ショットに分割し、ショット毎の類似度を用いてシ
ョットを統合し、シーンを抽出するようにした動画像の
自動階層構造化の方法である。

【００２６】また前記階層構造化されたデータを用いて
動画像の全体の内容を把握し、また所望のシーン、ショ
ット又はフレームの検索を容易にした動画像のブラウジ
ング方法である。

【００２７】前記この発明により、動画像の内容を把握
したり、所望の場面を検索することが極めて容易となっ
た。

【００２８】

【実施例】この発明の実施例を図面に基づいて説明す
る。

【００２９】まず、物理的な特徴量によって抽出が可能
であり、検出が比較的容易な、ショットへと動画像を分
割する。そして、分割されたショット間の類似度によっ
て、ショットを統合することでシーンの抽出を行う。こ
の際、ショットという動画像のままでは扱いにくいた
め、ショット中から代表フレームをいくつか選び出す
（図７）。

【００３０】一般に、動画像はデータ量が多いため、そ
の処理量は膨大なものとなる。さらに、符号化された動
画像の場合、復号化が必要となるため、さらに処理量は
増大する。

【００３１】この発明では、ＭＰＥＧ１動画像を完全に
復号化することなく、必要最小限の情報のみを復号化す
ることで、高速な処理を可能としているので、フレーム
間予測やＤＣ成分の復号化による簡略画像の取得といっ
たＭＰＥＧ１の符号化アルゴリズムの特性を利用して処
理量を軽減している。そこでＭＰＥＧ動画像中のＩピク
チャの簡略復号化とフレームの比較の方法について述
べ、その後流れに沿って各処理の詳細を説明する。

【００３２】動画像は多数の静止画像（フレーム）によ
って構成されている。したがって、動画像の解析には各
フレームの画像情報は必要不可欠である。しかし、ＭＰ
ＥＧ１動画像の復号化は、比較的処理量が多く、高速な
処理を実現することは難しい。

【００３３】そこで、すべてのフレームではなくＩピク
チャだけを復号化し、さらに、完全な復号化ではなく、
簡易復号化によって原フレームの縮小画像を得る。この
簡易復号化は、ＤＣＴ係数のＤＣ成分を復号化すると元
のブロックの平均色が得られることを利用する。つま
り、各ブロックのＤＣＴ係数のうちＤＣ成分だけを復号
化し、得られた平均色で各ブロックを代表させた画像を
作るのである（図８）。

【００３４】このようにして得られた画像をＤＣ画像と
呼ぶこととする。各ブロックの大きさは８×８であるか
ら、ＤＣ画像は縦横それぞれ原画像の１／８の大きさと
なる。

【００３５】ＢピクチャおよびＰピクチャの復号には、
自分自身だけでなく、動きベクトル情報および参照先の
ピクチャなど直接使わない情報の復号が必要となるが、
Ｉピクチャはフレーム内で閉じた符号化がなされている
ので、そうした情報の復号化の必要はない。また、Ｉピ
クチャ中のイントラ（Ｉｎｔｒａ）マクロブロックのＤ
Ｃ成分は、計算量の多いＩＤＣＴを行うことなく下式
（１）によって復号化することができる。したがって、
ＤＣ画像は非常に高速に得ることができる。

【００３６】

【数１】

【００３７】ここで、Ｙ_ｋ、Ｃｂ_ｋ′、Ｃｒ_ｋ′は各ブ
ロック（_ｋ、_ｋ′はブロック番号）の平均色の輝度およ
び色差成分、ＤＹ_ｋ、ＤＣｂ_ｋ′、ＤＣｒは各ブロック
のＤＣ成分である。

【００３８】実際に、約３０分のＭＰＥＧ１動画像（Ｇ
ＯＰは図５のタイプのもの）について、全てのフレーム
を復号した場合と、ＩピクチャのＤＣ画像だけを復号し
た場合の処理時間を表１に示す。全てのフレームを復号
する場合に比べ、約１／２０の処理時間で復号できるこ
とがわかる。

【００３９】

【表１】

【００４０】また、図９に、ＤＣ画像の例と、その原画
像を示す。

【００４１】フレーム間の比較に用いる類似度は、画素
値の比較と色ヒストグラムの比較に大別される。色ヒス
トグラムによる比較はカメラや被写体の動きに影響を受
けにくいために、類似度として用いるには都合が良い
が、半面、空間的な情報を全く含まないために全く違う
画像が同じ色ヒストグラムを持つ場合が問題となる。色
ヒストグラムによる比較に空間的な情報を持たせようと
する試みはいくつかなされているが、いずれもある程度
複雑な処理を必要とする。

【００４２】この発明では、色ヒストグラムによる距離
として式（２）のＤ_histareaを、画素値による距離とし
て式（３）のＤ_pixsumを用い、このふたつの値を組み合
わせて類似度を算出することで処理の単純さを損なわず
に空間的な情報を加味した類似度を求める。

【００４３】

【数２】

【００４４】

【数３】

【００４５】ここで、ふたつの値から類似度を算出する
手法として、簡略化ファジィ推論を用いる。ファジィ推
論を用いる事で、色ヒストグラムによる距離および画素
値による距離と、画像の類似度の関係を厳密に定式化す
る事なく記述できる。また、簡略化ファジィ推論による
推論は単純で、高速に実行できる。

【００４６】このとき用いるファジィルールは以下式
（４）の通りである。

【００４７】

【数４】

【００４８】ここで、ｉはルール番号、Ｉはルール数、
ｃ_iは後件部を表す実数値であり、［０、１］の値をと
る。また、Ａ_a、Ｂ_bはそれぞれその特徴値のメンバシ
ップ関数であり、各特徴値ごとに図１０のような“ｓｍ
ａｌｌ”、“ｍｅｄｉｕｍ”、“ｌａｒｇｅ”の３つの
メンバシップ関数を設定する。

【００４９】このルールに対する適合度を式（５）によ
り求め、次に式（６）で最終的な推論結果、すなわち画
像間の類似度ｓを求める。なお、ｓは［０、１］の値を
取る。

【００５０】

【数５】

【００５１】

【数６】

【００５２】ショットの検出はショットの間のカット点
の検出を行う。

【００５３】カット点の検出とは、フレーム間の相関の
低い点を検出する作業に他ならないが、この発明では、
フレームの特徴量を直接比較して相関を調べるのではな
く、ＭＰＥＧ１の符号化の様子から相関を調べ、カット
点を検出する。つまり、ＭＰＥＧ１において、フレーム
間の相関から予測によって圧縮が行われていることを利
用し、逆に、予測の行われ方を調べることでフレーム間
の相関を調べるのである。

【００５４】新たにフレームの特徴量を調べることな
く、ＭＰＥＧ１の符号化情報を利用することで、計算量
が少なくて済み、また、すべての情報を復号化する必要
がないため、高速な処理が可能である。

【００５５】処理手順としては、まず、Ｂピクチャにお
ける参照の様子からカット点を検出し、さらにＰピクチ
ャでの参照、Ｉピクチャの変化を調べて確認を行う。図
１１のようなＮ＝１５、Ｍ＝３のＧＯＰを例に説明す
る。

【００５６】Ｂピクチャでは、前後両方のＩまたはＰピ
クチャから参照を行なっている。即ちＢピクチャ中に
は、一般的に（ＩＭＢ）、（ＦＭＢ）、（ＢＭＢ）、
（ＢｉＭＢ）の４種類のマクロブロックＭＢが存在し、
それぞれ、参照を全く行わないＩＭＢか、順方向ＦＭ
Ｂ、逆方向ＢＭＢ、双方向ＩｎＭＢの参照を行ってい
る。このときの参照の様子は図１２のようになる。

【００５７】ショットの中、すなわちフレーム間の相関
が高い場合には、過去および未来への参照の数はほぼ等
しいが、参照するフレームとの間にカット点が存在する
と、過去または未来へ依存が大きく偏り、マクロブロッ
クの構成に偏りが生じる。このときの様子を図１２
（ｂ）（ｃ）（ｄ）に示す。ただし、図１２は極端な場
合であり、実際にはカット点を越えた参照が完全になく
なる訳ではない。

【００５８】このことからわかるように、Ｂピクチャの
マクロブロックタイプの構成から、Ｂピクチャの前後フ
レームへの参照の様子を判断することができる。これを
Ｂピクチャの依存度ｒｅｌａｔとして式（７）のように
定義する。

【００５９】

【数７】

【００６０】ただし、Ｎ_F、Ｎ_B、Ｎ_BiはそれぞれＢピ
クチャに含まれるＦＭＢ、ＢＭＢ、ＢｉＭＢの数であ
る。

【００６１】ｒｅｌａｔは、Ｎ_FとＮ_Bの差が大きく、
またＮ_Biが少ない程、その絶対値が大きくなり、参照の
偏りが大きいことを示す。

【００６２】さて、図１１のようなＧＯＰにおいて、ふ
たつのＰピクチャ（またはＩピクチャ）とそれに挟まれ
たふたつのＢピクチャに注目し（例えばｆ₇、ｆ₈、ｆ
₉、ｆ₁₀）、これをＰ₁Ｂ₂Ｂ₃Ｐ₄と表すことにする
と、全てのカット点は必ずＰ₁｜Ｂ₂Ｂ₃Ｐ₄、Ｐ₁Ｂ
₂｜Ｂ₃Ｐ₄、Ｐ₁Ｂ₂Ｂ₃｜Ｐ₄のいずれかの形で現
れる（｜はカット点を表す）。これらはそれぞれ図１２
の（ｂ）（ｃ）（ｄ）に対応する。このとき、どの場合
でも、図１２からわかるとおり、Ｂ₁、Ｂ₂の両方に参
照の偏りが生じ、依存度の絶対値が大きくなる。

【００６３】そこで、次式（８）を満たせば、Ｐ₁｜Ｂ
₂Ｂ₃Ｐ₄、Ｐ₁Ｂ₂｜Ｂ₃Ｐ₄、Ｐ₁Ｂ₂Ｂ₃｜Ｐ₄
のいずれかの形でカット点が存在すると判断する。

【００６４】

【数８】

【００６５】次に、Ｐ₁｜Ｂ₂Ｂ₃Ｐ₄、Ｐ₁Ｂ₂｜Ｂ
₃Ｐ₄、Ｐ₁Ｂ₂Ｂ₃｜Ｐ₄のどのパターンかを判断
し、正確なカット点を決定する。式７からもわかるとお
り、ｒｅｌａｔは、過去からの参照が多いと正、未来か
らの参照が多いと負の値を取る。これを利用して、式
（９）のようにカット点を決めることができる。

【００６６】

【数９】

【００６７】以上のようにして、Ｂピクチャの参照情報
からカット点を検出することができる。

【００６８】Ｂピクチャの参照による検出だけでは、ノ
イズや、カメラの前を物体が横切るなど瞬間的な画面の
変動がある際に、誤検出が発生することがある。これ
は、Ｂピクチャと参照先のピクチャとの距離が短いため
と考えられる。そこで、Ｂピクチャだけではなく、より
遠いピクチャを参照するＰピクチャの参照情報を利用し
て結果の確認を行う。

【００６９】Ｐピクチャは、参照しているＩまたはＰピ
クチャとの間にカット点が存在すると、参照がほとんど
できなくなるため、ＩＭＢの数が増加するはずである。
そこで、次式（１０）を満たす場合は、間にあるＢピク
チャから求めたカット点は誤検出であるとみなし、これ
を除去する。

【００７０】

【数１０】

【００７１】ただし、Ｎ_IはＰピクチャに含まれるＩＭ
Ｂの数、ＮはＰピクチャ中の全ＭＢの数である。

【００７２】Ｐピクチャよりさらに離れたＩピクチャど
うしの比較を使った確認を行う。

【００７３】また、図１１のタイプのＧＯＰの場合、ｆ
₃のＩピクチャの前にある２つのＢピクチャ（ｆ₁、ｆ
₂）によるカット点に対しては、Ｐピクチャを利用する
結果の確認は行うことができない。ｆ₃のＩピクチャは
参照を行わないからである。この部分で起こる誤検出の
検出のためにもこのＩピクチャによる結果の確認が必要
となる。

【００７４】Ｉピクチャ（ｆ₃）とひとつ前のＧＯＰに
おけるＩピクチャ、それぞれのＤＣ画像に対する色ヒス
トグラム距離Ｄ_histarea（式（２））を調べ、次式（１
１）を満す場合は間にあるＢピクチャから求めたカット
点は誤検出であるとみなし、これを除去する。

【００７５】

【数１１】

【００７６】次にショットの代表フレームの選出につい
て説明する。ここに代表フレームとはショットは動画全
体に比べれば短い単位ではあるが、例えば５秒間のショ
ットでは１５０枚（３０ｆ_psの場合）のフレームの集合
であり、このままでは、比較、表示、特徴値の検出など
の処理がしにくい。そこで、一般に、ショットを扱う際
には、ショットの中からそのショットを代表するフレー
ムを選び出し、この代表フレームによって比較、表示な
どの処理を行う。

【００７７】この発明においては、ショットを統合しシ
ーンを抽出する際に、ショット間の類似度を求めるため
に用いる。また、解析された動画構造をユーザに提示す
る際にショットの内容を簡単に示すためにも用いられ
る。したがって、ショットの内容を最もよく表している
フレームを選ぶことが必要となる。

【００７８】ショットを扱っている従来の研究では、こ
の代表フレームとして、機械的にショットの先頭のフレ
ームあるいは中央のフレームを用いているものが多い。
しかし、そのようにして選ばれたフレームはショットの
内容をよく表すとは言い難い。そこでこの発明では、シ
ョットに含まれるフレームの平均に最も近いフレームを
代表フレームとして選ぶこととする。

【００７９】また、ショットはほぼ動きがない場合だけ
ではなく、（１）ひとつのショットの途中でカメラの動き（パン・
ズームなど）があるもの。（２）カメラあるいは画像中のオブジェクトが動き続け
ているもの。（３）動きが非常に激しいもの。などの場合がある。このようなショットではひとつのフ
レームでショット全体を代表させるのは難しく、有用な
情報を落とす危険がある。そこで、このようなショット
は、複数の代表フレームによって表すこととする。

【００８０】さらに、複数の代表フレームを選出するこ
とによって、カット点の検出ミスによる影響を少なくす
ることができる。つまり、カット点の検出ミスにより、
本来複数であるショットがひとつにまとまってしまった
場合、代表フレームをひとつだけ選出すると、本来、た
だひとつのショットの情報だけしか使われないことにな
る。これに対し、内容に基づいて複数選出すれば、それ
ぞれのショットの情報を捨てることなく、シーン抽出の
際に生かせることになるわけである。

【００８１】必要最小限の代表フレームを選び出すた
め、まず、ショット中のフレームのクラスタリングを行
う。この結果できた各クラスタからそれぞれもっとも平
均に近いフレームを選び出し、これをショットの代表フ
レームとする。

【００８２】ただし、ショット内のすべてのフレームを
代表フレームの候補とすると、ショットが長くなったと
きに処理量が増大する恐れがある。そこで、候補として
Ｉピクチャだけを用いる。これにより、選出のための処
理量だけでなく、原動画像からの復号化のための処理量
も削減することができる。また、ＭＰＥＧ１において一
般に、符号化効率を上げるためにＩ、Ｐ、Ｂピクチャの
量子化特性を変えることが多いため、Ｉピクチャが最も
品質がよい場合が多いことも都合がよい。

【００８３】さらに、Ｉピクチャを完全に復号化するの
ではなく、前記で述べたＤＣ画像を用い、復号時の処理
量削減を計る。

【００８４】具体的な処理手順は以下のようになる（図
１３）。なお、Ｉピクチャがひとつも含まれないショッ
トの場合、つまり非常に短いショットの場合はショット
中で一番初めに現れるＰピクチャを、それも存在しない
場合はＢピクチャを代表フレームとする。非常に短いシ
ョットの場合、ショット中での変化はほとんどないとい
えるから、このような機械的な処理で十分である。

【００８５】（１）ショットに含まれるＩピクチャを簡
易復号化し、ＤＣ画像を取り出す。

【００８６】（２）ショット中、動きが少ない部分のＤ
Ｃ画像を初期クラスタとする。動きが少ないかどうか
は、ＢおよびＰピクチャに含まれるＩＭＢの数を調べる
ことによって行う（式（１２））。

【００８７】

【数１２】

【００８８】（３）前記初期クラスタをもとにクラスタ
リングを行い、ショット中のＩピクチャをいくつかのク
ラスタへと分類する。クラスタリングは群平均法を使っ
て行い、要素間の距離としてはＤ_histarea（式（２））
を用いる。クラスタリングは、クラスタ間の距離のうち
最小のものが閾値を越えるまで行う。

【００８９】（４）クラスタリング終了後、各クラスタ
からそれぞれひとつずつ代表フレームを選び出す。ま
ず、クラスタ内のＩピクチャのＤＣ画像を平均して、平
均ＤＣ画像をつくる（式（１３））。

【００９０】

【数１３】

【００９１】（５）平均ＤＣ画像との距離Ｄ_pixsum（式
（３））が一番小さいＤＣ画像ＤＣ_kをもつＩピクチャ
Ｉ_kを代表フレームとする。

【００９２】以上のようにしてショットの代表フレーム
が選出される。

【００９３】実際の処理では、ＩピクチャのＤＣ画像
や、ＰおよびＢピクチャのマクロブロック情報を効率的
に得るために、代表フレームの選出はカット点の検出と
並行して行われる。

【００９４】たとえば会話のシーンなどでは、話者を交
互に撮る場合が多いため、同じようなショットの繰り返
しになる。このように、ひとつのシーンのなかには、似
ているショットがいくつか含まれることが多い。この性
質に着目してショットを統合し、シーンを抽出する。

【００９５】ショット間の類似度は、それぞれのショッ
トの代表フレーム間の類似度ｓ（式（６））を用いる。
ただし、ひとつのショットが複数の代表フレームを持つ
場合もあるため、すべての代表フレームの組み合わせに
ついての類似度を調べ、そのうちの最大値をショットの
類似度とする（図１４）。

【００９６】ショット間の類似度からシーンを抽出する
最も簡単な方法は、図１５のように、似ている（類似度
が非情に高い）ショットが存在すれば、その間をすべて
同じシーンとみなす方法である。

【００９７】しかし、このようにすれば、（１）似ているか、似ていないかの閾値の設定が結果に
大きく影響する（２）類似度が非常に高いショットの組はないが、中程
度の類似度のショットの組が多数ある、といった場合で
も同じシーンとみなすことができず、柔軟性に欠けるといった問題点がある。

【００９８】そこで、ショットｓｈｏｔ_ｎとショットｓ
ｈｏｔ_ｎ＋１が連続している（すなわち、同じシーンに
属する）度合を表す結合度ｃｏｎｎｅｃｔ_{ｎ，ｎ＋１}を
式（１４）のように定義し、この結合度を用いてシーン
の抽出を行う。

【００９９】

【数１４】

【０１００】ここで、Ｎは比較するショットの範囲を表
す。ｓ_ｉｊはｓｈｏｔ_ｉとｓｈｏｔ_ｊの類似度である。

【０１０１】このように、結合度ｃｏｎｎｅｃｔ
_{ｎ，ｎ＋１}はショットｓｈｏｔ_ｎとショットｓｈｏｔ
_ｎ＋１だけでなく、その付近のすべてのショット間の類
似度ｓ_ｉｊから求められる。例えば、図１６において、
ｃｏｎｎｅｃｔ_３，４はショットｓｈｏｔ_３とショット
ｓｈｏｔ_４の類似度ｓ_３４だけでなく、ショットｓｈｏ
ｔ_２とショットｓｈｏｔ_５の類似度ｓ_２５も使って求め
られる。なぜなら、たとえショットｓｈｏｔ_３とショッ
トｓｈｏｔ_４がまったく類似していなくても、ショット
ｓｈｏｔ_２とショットｓｈｏｔ_５が類似していれば、シ
ョットｓｈｏｔ_３とショットｓｈｏｔ_４は同じシーンに
属すると考えられるからである。

【０１０２】ただし、時間的に遠く離れているショット
同士は、同じシーンに属する可能性が小さく、むしろ違
うシーンに属するにもかかわらずたまたま類似度が高い
ショットが存在する可能性があり、このような原因によ
る未検出をできるだけ防ぐため、比較するショットの範
囲はＮに制限する。

【０１０３】式（１３）によって得られる結合度ｃｏｎ
ｎｅｃｔ_{ｎ，ｎ＋１}の変化は、例えば図１７のようにな
る。

【０１０４】このような結合度の変化から、シーンチェ
ンジを決定しシーンを抽出する。ここでは、変化のピー
クと谷の差が閾値ｔｈｒｅｓｈｏｌｄ_SCENEより大きい
とき、その谷となる結合度をもつカット点をシーンチェ
ンジ点とする。

【０１０５】

【発明の効果】この発明によれば、与えられた動画像を
ハイブリッド符号化し、これを階層的構造へ分割し、分
割されたショット間の類似度によりショットを統合して
シーンを抽出するので、シーンの抽出が、迅速、正確に
行われる効果がある。然してシーンからショット又はフ
レームを抽出するのは比較的容易であるから、結局動画
像からシーン、ショット又はカットを短時間に、かつ正
確に抽出し得る効果がある。

【０１０６】前記処理は総て現在使用されているハード
に、適切なソフトを組み込むことにより自動化できるの
で、適切な入力指示により、所望のシーン、ショット又
はカットを自動的に提供できる効果がある。

【０１０７】実験の結果によれば、表２の動画像を用い
たカットの検出結果は表３の通りである。

【０１０８】

【表２】

【０１０９】

【表３】

【０１１０】またカット点検出の処理時間は表４の通り
である。

【０１１１】

【表４】

【０１１２】更に単純なアルゴリズムによるカット点検
出の処理時間は表５の通りである。

【０１１３】

【表５】

【０１１４】次にカット点検出の結果得られたショット
を用いて、シーン抽出を行った。結合度の変化を図１
８、１９、２０に示す。

【０１１５】図１８、１９、２０の結合度からシーン抽
出を行った結果が表６である。なお、シーンチェンジ点
検出の閾値は、ｔｈｒｅｓｈｏｌｄ_SCENE＝０．３とし
た。

【０１１６】表６から、いずれの動画像についてもシー
ンチェンジ点のうち７５％以上を検出できており、高速
性や本手法が意味解析や知識を使っていないことを考慮
すると十分実用的であるといえる。なお、検出数の内１
／４から１／３程度は、実際のシーンチェンジ点から１
ショット分前または後ろにずれて検出されている。これ
は、シーンチェンジ点に隣接するショットに関して、そ
の本来属するべきシーンのなかにそのショットへの類似
度が高いショットが存在しない場合は結合度が低くなっ
てしまうというアルゴリズム上の欠点による。

【０１１７】

【表６】

【０１１８】構造解析処理全体の処理時間は表７のよう
になっており、十分な高速性を保っていることがわか
る。

【０１１９】

【表７】

【図面の簡単な説明】

【図１】この発明のＭＰＥＧ１符号化・復号システム。

【図２】同じくＭＰＥＧ１ビデオ符号化器のブロック
図。

【図３】同じくＭＰＥＧ１ビデオ復号器の図。

【図４】同じくＧＯＰの例示図。

【図５】同じく原画像およびストリーム上の画面の並び
を示す図。

【図６】同じくＭＰＥＧ１の階層構成図。

【図７】同じく構造解析処理の流れ図。

【図８】同じくＤＣ画像の生成図。

【図９】同じくＤＣ画像の例示図。

【図１０】同じく類似度を求めるファジィ推論に用いる
メンバシップ関数の形状図。

【図１１】同じくＧＯＰの例示図。

【図１２】（ａ）同じく通常の参照図。（ｂ）同じく過去のＰピクチャとの間にカット点がある
場合を示す図。（ｃ）Ｂピクチャの間にカット点がある場合を示す図。（ｄ）同じく未来のＰピクチャとの間にカット点がある
場合の図。

【図１３】同じく代表フレームの選出アルゴリズムを示
す流れ図であって、（ａ）ＤＣ画像を取り出す図。（ｂ）初期クラスタを決定する図。（ｃ）クラスタリングの図。（ｄ）クラスタ中のＤＣ画像から平均画像を作る図。（ｅ）平均画像に最も近いものを代表フレームとする
図。

【図１４】同じくショット間の類似度を示す図。

【図１５】同じく単純なシーン抽出の図。

【図１６】同じくＮ＝３のときの結合度を示す図。

【図１７】同じく結合度ｃｏｎｎｅｃｔ_{ｎ，ｎ＋１}の変
化の例示図。

【図１８】同じく動画像Ａの結合度の変化を示す例示
図。

【図１９】同じく動画像Ｂの結合度の変化を示す例示
図。

【図２０】同じく動画像Ｃの結合度の変化を示す図。

Claims

【特許請求の範囲】

【請求項１】符号化された動画像を各ショットに分割
し、ついで分割されたショット毎の類似度を用い、ショ
ットを統合してシーンを抽出処理することを特徴とした
動画像の自動階層構造化方法。
【請求項２】動画像の符号化は、ＭＰＥＧによるもの
とすることを特徴とした請求項１記載の動画像の自動階
層構造化方法。
【請求項３】符号化された動画像からショットを検出
する際に、ＭＰＥＧの特徴を利用して高速に処理するこ
とを特徴とした請求項１記載の動画像の自動階層構造化
方法。
【請求項４】ショット同士の類似度の算出に際し、代
表フレームを抽出することを特徴とした請求項１記載の
動画像の自動階層構造化方法。
【請求項５】ショット間の類似度をファジィ推論によ
り求めることを特徴とした請求項１記載の動画像の自動
階層構造化方法。
【請求項６】シーンの抽出処理は、定義されたショッ
ト間の結合度により求めることを特徴とした請求項１記
載の動画像の自動階層構造化方法。
【請求項７】符号化された動画像を各ショットに分割
し、ついで分割されたショット毎の類似度を用い、ショ
ットを統合してシーンを抽出処理して動画像を自動階層
構造化し、この階層構造化されたデータを用いて動画像
全体の内容把握、所望のシーンまたはショットの検出を
容易にすることを特徴とした動画像のブラウジング方
法。