JP4719889B2 - カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム - Google Patents

カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム Download PDF

Info

Publication number
JP4719889B2
JP4719889B2 JP2006211746A JP2006211746A JP4719889B2 JP 4719889 B2 JP4719889 B2 JP 4719889B2 JP 2006211746 A JP2006211746 A JP 2006211746A JP 2006211746 A JP2006211746 A JP 2006211746A JP 4719889 B2 JP4719889 B2 JP 4719889B2
Authority
JP
Japan
Prior art keywords
mbt
shot
cut point
frame
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006211746A
Other languages
English (en)
Other versions
JP2008042364A (ja
Inventor
啓義 森田
文宏 井上
康生 政木
浩乃 坪田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Funai Electric Co Ltd
Original Assignee
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Funai Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by THE UNIVERSITY OF ELECTRO-COMUNICATINS, Funai Electric Co Ltd filed Critical THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority to JP2006211746A priority Critical patent/JP4719889B2/ja
Priority to US11/702,433 priority patent/US8442385B2/en
Publication of JP2008042364A publication Critical patent/JP2008042364A/ja
Application granted granted Critical
Publication of JP4719889B2 publication Critical patent/JP4719889B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、動画圧縮データのカット点を検出するカット点検出システム、及び、このカット点検出システムにより区分されるショットの内容を識別するショット識別システム、カット点検出方法、並びにカット点検出プログラムに関するものである。
近年、地上ディジタル放送やインターネット放送の一般家庭への普及がはじまるとともに、コンピュータ技術、特に、ストレージ技術の急速な発展にともない、数年前では考えられなかったテラバイト級の記憶装置が搭載されたHDDレコーダが市販されるようになってきた。
このような状況においては、多くの番組(コンテンツ)をあらかじめ録画しておき、見たいときに見るといった従来の楽しみ方だけでなく、膨大な数のコンテンツの中から、見たい場面(シーン)だけを自動的に検索したり、あるいは、スポーツ番組のように長時間の番組から見どころのシーンだけを集めたハイライトシーンを自動的に作成するといった、高機能な編集機能をもったマルチメディアデータベースへの関心が高まってきている。
このようなマルチメディアデータベースを実現するための一つの基礎技術として、一本のビデオコンテンツをシーンごとに分割して、再構成する作業が必要になる。すなわち、シーンが変化したデータ位置を特定し、各シーンをその内容に基づいて分類する作業、つまり映像インデキシングを自動的に行う方法が必要となってくる。
従来、この種の発明には、例えば、特許文献1に記載されたMPEG圧縮ビデオ環境における階層的混合型ショット変換検出方法がある。
この発明では、先ず、カラーヒストグラムに基づいたショット検出アルゴリズムを適用してIフレーム間の全域的なカラー分布の差を利用してシーン候補区間を検出する。次いで、前記検出された各候補区間内のPフレームを付加的に復号する。次いで、隣接したI/P、P/PまたはP/Iフレーム間の全域的カラーヒストグラムの差を利用して縮小されたショット変換候補区間を求める。次いで、前記ショット変換候補区間に対し、区間内の各Bフレームをマクロブロックレベルで復号して、イントラ符号化ブロックの分布特性、各Bフレームの参照タイプ、及び参照パターンを求め、それらを利用して瞬時カット点を検出する。
また、他の従来技術として、非特許文献1に記載されたカット点検出方法では、先ず、IフレームのDC画像情報を用いてカット点を含むGOP(Group Of Picture)を検出する(非特許文献1:3.1.1 I法参照)。
続いて、前記した処理によりカット点を含むと判断されたGOPに対して、MBT(Macro Block Type)の分布を用いてフレーム単位でカット点位置を検出し(非特許文献1:3.1.2MBT法参照)、その検出の際の未検出を減らすために、前記GOP中の各Bフレーム対(Bi,Bi+1)に対して、
Δ=|fi−bi|+|fi+1−bi+1
(fi,fi+1:順方向予測MBTの数、bi,bi+1:逆方向予測MBTの数)
を計算し、最大値ΔmaxをとるBフレーム対を求め、他のフレームのとる値とΔmaxの比が一定のしきい値TΔ以下であるとき、カット点が発生したと判断している。
そして、この従来技術によれば、前記のような段階的な処理により、90%以上の高い検出率で瞬時カット点を検出することに成功している。
しかしながら、前者の従来技術では、候補区間の検出、該候補区間におけるカット点の検出という段階的な検出処理が必要な上、Pフレームを復号する処理や、Bフレームをマクロブロックレベルで復号する処理等、複数回の復号処理を要するため、その処理に時間がかかる。
また、後者の従来技術においても、DC画像を用いたGOP単位での粗い検出、Bフレームのマクロブロックタイプの特徴を用いた検出という段階的な検出処理を要する上、検出精度を向上するためには上記のような比較的処理時間のかかる演算処理を要するため、処理の簡素化や全体的な処理時間の高速化等、改善の余地がある。
また、前者および後者の何れにおいても、カット点を検出した後に、そのカット点により区分されるショットが、どのような内容の映像であるのかを識別するまでには至っていなかった。
特開2001−313956号公報 "マクロブロックタイプを用いたMPEG2圧縮動画像のカット点検出"、情報処理学会論文誌:コンピュータビジョンとイメージメディア、Vol.46、No.SIG15(CVIM12)、pp.51-58、2005年10月
本発明は上記従来事情に鑑みてなされたものであり、その課題とする処は、動画圧縮データからカット点を高速且つ高精度に検出でき、更には、その検出されたカット点により区分されるショットの内容を高速且つ高精度に識別することができるカット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラムを提供することにある。
上記課題を解決するために発明のカット点検出システムは、MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出する手段と、この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成する手段と、このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別する手段とを含むことを特徴とする。
発明によれば、先ず、動画圧縮データからフレーム毎にMBT情報が抽出される。そして、その抽出されたMBT情報から特定のMBTが含まれる頻度が求められ、その頻度的特徴が所定のMBT記号によって表される。すなわち、MBT記号は、フレーム毎のMBT情報における特定のMBTの頻度的特徴に応じて、フレーム毎に付与される記号である。
そして、このMBT記号は、フレーム順に並べられることで、複数のMBT記号からなるMBT記号列を構成する。
次に、前記MBT記号列中におけるMBT記号の配列的特徴から動画像のカット点が判別される。
なお、上記動画圧縮データは、MBT情報(マクロブロックタイプ情報)を含む動画圧縮データであればよく、この動画圧縮データの具体例には、MPEGデータや、H261データ等を含む。
また、上記MBT記号は、例えば、「0」や「1」、「2」、「A」、「X」等、任意に選択された記号とすればよい。
また、本発明の別のカット点検出システムでは、上記MBT記号には、順方向予測符号化のマクロブロック数の頻度が最大であることを示す第一MBT記号と、逆方向予測符号化のマクロブロック数の頻度が最大であることを示す第二MBT記号とが含まれ、上記MBT記号列中における前記第一MBT記号と前記第二MBT記号の配列的特徴から、動画像のカット点を判別するようにしたことを特徴とする。
また、本発明の別のカット点検出システムでは、上記第一MBT記号は、順方向予測符号化のマクロブロック数の頻度が最大であり、且つ、逆方向予測符号化のマクロブロック数とイントラ符号化のマクロブロック数との合計が所定の閾値よりも小さいことを示すものであることを特徴とする。
また、本発明の別のカット点検出システムでは、上記第二MBT記号は、逆方向予測符号化のマクロブロック数の頻度が最大であり、且つ、順方向予測符号化のマクロブロック数とイントラ符号化のマクロブロック数との合計が所定の閾値よりも小さいことを示すものであることを特徴とする。
また、本発明の別のカット点検出システムでは、上記MBT記号列中において二つの上記第一MBT記号が隣り合う場合に、これらの内の先頭のMBT記号に対応するフレームの直前を、カット点とすることを特徴とする。
また、本発明の別のカット点検出システムでは、上記MBT記号列中において二つの上記第二MBT記号が隣り合う場合に、これらの内の末尾のMBT記号に対応するフレームの直後を、カット点とすることを特徴とする。
また、本発明の更に別のカット点検出システムでは、上記MBT記号列中において上記第一MBT記号と上記第二MBT記号とがフレーム順に隣り合う場合に、これら二つのMBT記号に対応する二つのフレームの間を、カット点とすることを特徴とする。
また、発明のショット識別システムでは、上記カット点検出システムにより検出された二つのカット点間を識別対象となるショットとする手段と、前記識別対象となるショットについて上記カット点検出システムにより作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別する手段とを含むことを特徴とする。
また、第の発明のショット識別システムでは、上記推定モデルは、あらかじめ識別したいショットであるイベントショットが含まれる動画圧縮データから特定のイベントショットを選定し、この特定のイベントショット毎に上記MBT記号列を作成し、このMBT記号列を学習対象MBT記号列としてイベントショット毎に学習させるようにしたものを用いることを特徴とする。
また、第の発明のショット識別システムでは、上記推定モデルが隠れマルコフモデルであることを特徴とする。
また、第の発明のショット識別方法では、コンピュータが、MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出するステップと、コンピュータが、この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成するステップと、コンピュータが前記MBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別するステップと、を含むカット点検出方法と、前記カット点検出方法により検出された二つのカット点間を識別対象となるショットとするステップと、前記識別対象となるショットについて前記カット点検出方法により作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別するステップと、を含むことを特徴とする。
また、第の発明のカット点検出プログラムでは、MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出する手段と、この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成する手段と、このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別する手段と、前記カット点を判別する手段により検出された二つのカット点間を識別対象となるショットとする手段と、前記識別対象となるショットについて前記カット点を判別手段により作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別する手段として、コンピュータを機能させることを特徴とする。
本発明は、以上説明したように構成されているので、以下に記載されるような作用効果を奏する。
本発明によれば、動画圧縮データから復号処理を行うことなく直接的にMBT情報が抽出され、このMBT情報に含まれる特定のMBTの頻度的特徴に基づきMBT記号列が作成され、そして、このMBT記号列中におけるMBT記号の配列的特徴からカット点が判別される。
したがって、DC画像情報を用いた処理や、動画圧縮データを復号する処理、非特許文献2に記載された演算処理等を必要とせず、比較的簡単な処理だけでもって、カット点を高速且つ高精度に検出することができる。
更に、カット点検出の際に用いたMBT記号列を用いて、前記カット点により区分されたショットの内容を高速且つ高精度に識別することが可能になる。
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明に係わるカット点検出システムおよびショット識別システムの構成を示すブロック図であり、本発明の特徴を明確にするために、一般的なMPEG復号器の構成を同ブロック図に併せて記載している。
図1に示すように、DVDやハードディスク等の記録媒体に記憶された動画圧縮データは、バッファ1を経由して復号器2へ入力される。その一方で、本発明に係わるカット点検出システムおよびショット識別システム3は、復号前の同動画圧縮データからMBT情報(マクロブロックタイプ情報)を抽出する。
これらの構成は、例えば、コンピュータやDVDレコーダ等の装置、および該装置を機能させるためのプログラムや電子回路等として実現される。
復号器2は、可変長復号化、逆量子化、逆離散コサイン変換(IDCT)等の周知の復号処理により動画圧縮データを復号化する装置であり、この復号器2によって復号化された動画像はディスプレイ等の表示装置に表示される。
動画圧縮データは、本実施の形態の一例によれば、MPEG2データを用いている。
カット点検出システムおよびショット識別システム3は、動画像圧縮データから直接MBT情報を抽出し、そのMBT情報からMBT記号列を作成し、このMBT記号列を用いて、カット点の検出およびショットの識別を行う。
ここで、野球映像を例にして、カット点およびショットについて説明すれば、図2に示すように、動画像は、例えばホームラン等のハイライトシーンやデッドボールやフォアボール等のアクシデントが起きたシーン等、複数の連続するシーンからなる。
各シーンは、ストーリー上意味のある連続した場面のことをいい、連続する複数のショットにより構成される。ショットとは、通常1台のカメラが捉えた時間的かつ空間的に連続した場面を意味し、各ショットは連続する複数のフレームからなる。
また、カット点とは、ショットとショットの境界点、つまりカメラの切り替わりにより生じた映像の切り替わり点のことを指す。すなわち、各ショットは、カット点とカット点の間に位置することになる。
一般的に、カット点には、映像が急激に変化する瞬時カット点(ハードカット点とも呼称される)や、ディゾルブカット点、ワイプカット点、その他の特殊なカット点等があるが、本実施の形態で扱うカット点は瞬時カット点である。
また、本実施の形態で識別対象となる映像は、前記シーンではなく、前記ショットである。
各ショットを構成している複数のフレームは、図3に示す再生順のデータであるが、符号化されるときに順番が入れ替えられることで、同図3に示すビットストリーム順のデータとなる。
更に、このビットストリーム順のデータは、復号化されるときに順番が入れ替えられることで、元の順番(前記再生順と同じ順番)に戻され、同図3に示す出力順のデータとなる。
本実施の形態では、前記再生順または出力順のことを、フレーム順と称する。
また、本実施の形態で扱う動画圧縮データは、15枚の圧縮された画像フレームから一つのGOP(group of picture)を構成し、この1GOPの中に、連続する2枚のBフレームを周期的に含む一般的なMPEG2データである。
前記各フレームは、図4に示すように、略マス目状に配置された多数のMB(macro block)からなる。各MBには、MBT(macro block type)という属性が与えられている。このMBTは、MB毎に対応するコードとして動画圧縮データのマクロブロック層に書き込まれている。
MBTは、各MBがどのような符号化方式により符号化されたかを示す情報であり、このMBTの種類には、イントラ符号化MBT(mbIntra)、順方向予測符号化MBT(mbForward)、逆方向予測符号化MBT(mbBack)、双方向予測符号化MBT(mbInter)、その他の符号化MBT(mbOther)等がある。
本実施の形態では、MPEG2方式の動画圧縮データからフレーム毎に前記MBTを抽出し、これら抽出された複数のMBTを、フレーム毎にMBT情報として扱っている。
次に、瞬時カット点が発生する位置のパターンについて説明する。
瞬時カット点が発生する位置は、一対の連続したBフレーム(Bi,Bi+1)に注目すると、以下の(i),(ii),(iii)の場合に分類される。
(i) Biの直前にカット点が存在する場合
(ii) BiとBi+1の間にカット点が存在する場合
(iii) Bi+1の直後にカット点が存在する場合
以下に、それぞれの場合が生じたとき,Bフレームの符号化にどのような影響があるのかについて説明する。
(i)の場合には、図5(a)に示すように、Bi,Bi+1はIを参照しても類似した値を得ることができないため、類似したP に対して参照を行う。そのためBi,Bi+1共に逆方向予測を行うMBの数が多くなる。
(ii)の場合には、図5(b)に示すように、画像の類似性からBiはIに対しての参照を行い、Bi+1はPに対して参照を行う。そのためBiはIに対しての順方向予測符号化を行ったMBの数が多く、Bi+1 はPに対しての逆方向予測符号化を行ったMBの数が多くなる。
(iii)の場合には、画像の類似性からBi,Bi+1共にIに対して参照を行う。そのためBi,Bi+1 ともに、Iに対しての順方向予測化を行ったMBの数が多くなる。
以上は特にBフレームのみのMBT情報に注目しているが、PフレームのMBTも、イントラ符号化MBTか順方向予測符号化MBTを選択できることになっており、その変動はやはり映像の動きに依存している。Pフレームは基本的には順方向予測符号化されたMBからなるが、図6に示すように直前にカット点が存在したり、あるいはあまりにも激しい動きのシーンであったりした場合には、過去のIフレーム、またはPフレームを参照することができず、Pフレームにイントラ符号化されたMBが発生することになる。
また、MBの符号化方式は基本的には、イントラ符号化方式、順方向予測符号化方式、逆方向予測符号化方式、双方向予測符号化方式の4通りであるが、MPEG2では、これらの符号化方式によらないMBであって情報を何も必要としないMBが存在する。このようなMBにはコードが用意されており、読み飛ばされることになるのでスキップトマクロブロックと呼ばれる。そして、このスキップトマクロブロックは、一つ前のMBとDCT係数が同じになるので、特に動きが少ない場合にPフレームに発生する。
以上の傾向はフレーム毎のMBT情報に反映されており、このことは、本願発明者が、一般的な市販のMPEG2エンコーダにより符号化された動画圧縮データを用いて、実験的に確認している。
以上のことに基づき、本実施の形態のカット点検出システムおよびショット識別システム3では、フレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成し、このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別している。
より具体的に説明すれば、先ず、各フレームのMBT情報について、イントラ符号化MBT(mbIntra)の数、順方向予測符号化MBT(mbForward)の数、逆方向予測符号化MBT(mbBack)の数、双方向予測符号化MBT(mbInter)の数、その他の符号化MBT(mbOther)の数が、それぞれ求められる。
次に、フレーム毎のMBT情報の頻度的特徴として、Bフレームであって、順方向予測符号化MBTの頻度が最大であり、且つ、逆方向予測符号化MBTとイントラ符号化MBTの数の合計が所定の閾値tよりも小さい場合には、その頻度的特徴を、予め設定された第一MBT記号により表す。この第一MBT記号は、図7の表に示す一例によれば、数字の「0」という記号としている。
すなわち、前記条件を満たすフレームに対し、第一MBT記号である「0」という記号が付与される。
同様に、フレーム毎のMBT情報の頻度的特徴として、Bフレームであって、逆方向予測符号化MBTの頻度が最大であり、且つ、順方向予測符号化MBTとイントラ符号化MBTの数の合計が所定の閾値tよりも小さい場合には、その頻度的特徴を第二MBT記号により表す。この第二MBT記号は、図7の表に示す一例によれば、数字の「2」という記号としている。
すなわち、前記条件を満たすフレームに対し、第一MBT記号である「2」という記号が付与される。
その他、図7の表に例示するように、Bフレームであって、順方向予測符号化MBTの頻度が最大であり、且つ、逆方向予測符号化MBTとイントラ符号化MBTの数の合計が所定の閾値t以上である場合には、そのフレームに対し「1」という記号が付与される。
また、Bフレームであって、逆方向予測符号化MBTの頻度が最大であり、且つ、順方向予測符号化MBTとイントラ符号化MBTの数の合計が所定の閾値t以上である場合には、そのフレームに対し「3」という記号が付与される。
また、Bフレームであって、イントラ符号化MBTの頻度が最大であり、且つ、順方向予測符号化MBTと逆方向予測符号化MBTの数の合計が所定の閾値tよりも小さい場合には、そのフレームに対し「4」という記号が付与される。
また、Bフレームであって、イントラ符号化MBTの頻度が最大であり、且つ、順方向予測符号化MBTと逆方向予測符号化MBTの数の合計が所定の閾値t以上である場合には、そのフレームに対し「5」という記号が付与される。
また、Pフレームであって、且つ、その他の符号化MBTの数が所定の閾値s以上である場合には、そのフレームに対し「6」という記号が付与される。
また、Pフレームであって、且つ、イントラ符号化MBTの数が所定の閾値s以上である場合には、そのフレームに対し「7」という記号が付与される。
また、上記記号「6」,「7」以外のPフレームには、「8」という記号が付与される。
なお、Iフレームは他のフレームを参照しない静的なフレームであり、カット点検出およびショット識別のために直接的に寄与するフレームでないので、前記記号を付与していないが、必要に応じて、このIフレームに例えば「9」等の記号を付与するようにしてもよい。
上記のように閾値tという制約を与えるのは、カット点の誤検出減らすためであり、この閾値tは実験的に適宜な値に決められている。
また、閾値sは後述するショット識別の際に、その識別率を向上するためのものであり、この閾値sも実験的に適宜な値に決められている。
そして、上記のようにして作成されたMBT記号は、図8に例示するように、フレーム順に対応するように並べられることで、一連のMBT記号列を構成する。
したがって、このMBT記号列において、各MBT記号は、対応するフレームにおける特定のMBTの頻度的特徴を表していることになる。
次に、本実施の形態のカット点検出システムおよびショット識別システム3は、図8(a)に示すように、上記MBT記号列中におけるMBT記号の配列的特徴として、二つの上記第一MBT記号(具体的には記号「0」)が隣り合う場合には、これらの内の先頭のMBT記号に対応するフレームの直前を、瞬時カット点とする。
また、図8(b)に示すように、上記第一MBT記号(具体的には「0」)と上記第二MBT記号(具体的には「2」)とがフレーム順に隣り合う場合には、これら二つのMBT記号に対応する二つのフレームの間を、瞬時カット点とする。
また、図8(c)に示すように、二つの上記第二MBT記号(具体的には記号「2」)が隣り合う場合には、これらの内の末尾のMBT記号に対応するフレームの直後を、瞬時カット点とする。
次に、カット点検出システムおよびショット識別システム3は、上記のようにしてMBT記号列を用いて検出された二つのカット点間を、識別対象となるショットとし、このショットについて、上記のようにして作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別する。
この推定モデルは、あらかじめ識別したいショットであるイベントが含まれる動画圧縮データから特定のイベントを選定し、この特定のイベント毎に上記MBT記号列を作成し、このMBT記号列を学習対象MBT記号列としてイベント毎に学習させるようにしたものが用いられる。
本実施の形態の好ましい一例によれば、上記推定モデルとして隠れマルコフモデル(HMM)を用いている。このHMMは、不確定な時系列のデータをモデル化するための有効な統計手法である。以下に、このHMMについて詳細に説明する。
(HMMの要素)
観測系列を
O=(o,o,・・・,o
とした場合、離散シンボル確率事象のHMMはパラメータとして状態遷移確率、シンボル出力確率、初期状態確率を持ち、次のように表現される。
1.N:モデルの状態数
使用したモデルはすべての状態から他のあらゆる状態に遷移できるように連結されているものとした(すなわち、エルゴディック(ergodic) モデル)。各状態は{1,2,・・・}とラベルを付与し、時刻tの状態をqと表す。
2.M:各状態における観測シンボル数、つまりシンボルの種類のことであり、本実施の形態においてはMBT記号列に与える記号の種類にあたる。個々のシンボルをV={v,v,・・・,v}とおく。
3.A={aij}:状態遷移確率行列,aijは状態iから状態jへの遷移確率である。ここで、
4.B={b(k)}:観測シンボル確率分布、ここで、
これは状態j,(j=1,2,・・・,N)におけるシンボル分布を定義する。
5.π={π}:初期状態確率分布、ここで
上記から、HMMを完全に記述するためには、N,Mの2つのモデルパラメータ、観測シンボル、そしてA,B,πの3つの確率尺度の集合が必要となる。ここでは簡単のため、モデルのパラメータ集合全体を示すために、次の簡単な表記を用いる。
このパラメータ集合を使ってOに対する確率、P(O|λ) を定義することができる。
(モデルを用いての認識)
本実施の形態では、HMMを用いる際、対象とするイベント(ショット単位)の種類の数だけのHMMを用意し、認識したいデータに対して、それぞれのHMMからそのデータが出力される確率の計算を行うことで、認識を行う。つまり、各イベントの種類の数だけ{λ12,・・・,λn}を用意し、それぞれに対して,P(O|λi)を計算し、その最大のものをもってデータの属するイベントとする。基本的には、P(O|λi)は可能な状態遷移に対する確率を加え合わせたものであるが、通常、計算量が多くなり過ぎるので効率良く計算することが重要になる。このための方法としてforwardアルゴリズムと呼ばれるものを説明する。これは認識の過程だけではなく、パラメータ推定の際にも用いる。
(Forward Algorithm)
前向き変数α(i)を以下のように定義する。
これは、モデルλが与えられたときに、部分的な観測系列o・・・oを時刻tまでに出力し、時刻tに状態iに存在する確率である.αt(i)は以下のように帰納的に計算できる。
1) 初期化:
2) 帰納:
3) 終了:
初期化ステップでは、前向き確率を、状態iと初期観測事象oの同時確率として初期化する。帰納ステップは図9のようになっており、この図は時刻tで到達可能なN個の状態i,(1≦i≦N)から、時刻t+1で状態jにいかに到達できるかを示している。
αt(i)は、o・・・oが観測され、時刻tで状態iを経た後に時刻t+1で状態jに到達する同時事象の確率である。この積を時刻tにおける可能なN個の全ての状態i,(1≦i≦N)で総和した結果は、時刻t以前の部分的な観測事象のすべてを考慮して時刻t+1で状態jに存在する確率である。一旦、これが計算され、jが決まれば、状態jの観測事象ot+1を考慮することにより、つまり、確率bj(ot+1)を総和した結果に掛け合わせることにより、αt+1(j)が得られる。数7に示す式の計算は、時刻tのすべての状態j,(1≦j≦N)に対して実行され、さらにt=1,2,・・・T−1に対して繰り返される。
最後に、目的である確率P(O|λ)は、終了ステップによって、前向き確率の終端の確率αT(i)を総和して求められる。なぜなら定義から
であるから、P(O|λ)は単なるαT(i)の総和になるのである。
(学習)
HMMを実際に用いる場合、モデルパラメータ(A,B,π)をいかに決定するかが問題となる。観測系列の確率を最大化するモデルパラメータ集合を、解析的に直接求める方法は知られていない。しかし、Baum-Welch法という尤度P(O|λ)が局所的に最大になるモデルパラメータλ=(A,B,π)を求める方法が知られており(Lawrence Rabiner,Biing-Hwang Juang 共著”Fundamentals of Speech Recognition”,1993 参照)。本実施の形態でもこれを用いることにした。ここではBaum-welch法について説明するが、そのために必要なアルゴリズムとして、Backward Algorithm アルゴリズムについて説明する。
(Backward Algorithm)
Forward Algorithmと同様にして、以下に定義する後ろ向き変数を考えることができる。
これは、モデルλと時刻tにおける状態iが与えられたとき、時刻t+1から終端までの部分的な観測系列の確率である。βt(i)も以下のように帰納的に計算できる。
1) 初期化:
2) 帰納:
初期化ステップでは、βT(i)がすべてのiに対して1になるように定義する。図10は以下の事柄を示す。時刻tに状態iに存在し、時刻t+1以降の観測系列を考慮するためには、時刻t+1において到達可能なすべての状態jと、iからjへの遷移(aij項)、状態jの観測事象ot+1(bj(ot+1) 項)、状態j以降の部分観測系列(βt+1(j)項)を考慮しなければならない。上記で求めた前向き変数とこの後ろ向き変数を用いてHMMパラメータの再推定手法(Baum-Welch 法)について説明する。
(Baum-Welch Algorithm)
初めに、モデルと観測系列が与えられたとき、時刻tに状態iに存在し、時刻t+1に状態jに存在する確率ξt(i,j)を定義する。すなわち、
数13に示す式の条件を満足するパスを図11に示す。前向き、後ろ向き変数の定義から、ξt(i,j)は次のように書ける。
また、モデルと観測系列全体が与えられたときに、時刻tで状態iに存在する確率γt(i)を次のように定義する。
P(O,qt=i|λ)は前向き変数と後ろ向き変数を使って表すと、αt(i)βt(i)となるので、γt(i)は次のように書ける。
これより、γt(i)はξt(i,j)をjについて総和したものとして関係づけられる。つまり
γt(i)を時刻tについて和をとれば、状態iを訪れた回数の期待値とみなせる値を得ることができる。その総和から時刻t=Tを除いたものは等価的に状態iから遷移する回数の期待値になる。同様にξt(i,j)のtについての(t=1からt=T−1までの)総和は状態iから状態jへ遷移する回数の期待値となる。つまり、
上記の式および、事象の発生回数を数える概念を用いて、HMMのパラメータの再推定手法を示すことができる。π,A,Bの適切な再推定式は次のようになる。
仮に現在のモデルをλ=(A,B,π)として、これを数20〜22に示す式の右辺を計算するために用いるとする。そして数20〜22に示す式の左辺によって決定される再推定モデルを、以下の数23に示す式のように定義する。
Baumら(Lawrence Rabiner,Biing-Hwang Juang 共著”Fundamentals of Speech Recognition”,1993 参照)はモデルバーλ(バーは論理否定記号付記号を意味する。)がモデルλよりも以下の数24に示す式の意味で、よりもっともらしいことを証明した。つまり、観測系列が生成された可能性がより高い新しいモデルバーλを手に入れることができた。
上記の手法に基づいて、バーλをλに入れ替えて繰り返し使いながら再推定計算を繰り返せば,Oがそのモデルから観測されたという確率を、ある限界点に達するまで高めることができる。この再推定手法の最終結果は、HMMの最尤推定値になる。本実施の形態ではこの再推定手法(Forward Algorithm・Backward Algorithm・Baum-Welch Algorithm)のプログラムをJava(登録商標)で作成し、学習・認識の実験を行った。ただし、実際にこの再推定の計算をこの通りに行うと、例えば前向き変数αt(i)の各項は指数的に0に向かい始める。よって基本的にはあらゆる計算機の精度を越えてしまうので、この計算を実現するためには、スケーリングという処理を行う必要がある。
次に、上記隠れマルコフモデル(HMM)によりショットを識別する際の具体的手順について説明する。
(イベントショットの学習)
先ず、識別したいショットである特定のイベントショットが含まれる動画圧縮データについて、上述したMBT記号列が作成される。
前記特定のイベントショットには、例えば、動画圧縮データが野球映像である場合において、投球ショットや、ファールフライのショット、フライアウトのショット、バッターのアップのショット、プレイヤーのアップのショット等が挙げられる。
そして、同動画圧縮データが、カット点によりショット単位に分割される。
なお、この際のカット点は、上述したようにMBT記号列を用いて検出すればよいが、他の周知技術により検出するようにしてもよい。
次に、ショット単位に分割された各映像を目視確認することにより、正解となるイベントショットがMBT記号列中におけるどの範囲に対応するかを調べる。
そして、正解となるイベントショットに対応するMBT記号列に対し正解ラベルを付与することで、このMBT記号列が学習対象MBT記号列とされる。
そして、各学習対象MBT記号列に対して、上述したBaum-Welchアルゴリズムを用いて、HMMのモデルパラメータを推定する。これでイベント毎の推定モデルであるHMMが構築される。
以上は、ショット識別のための前段階として手動で行われる前処理である。
以下に、カット点検出システムおよびショット識別システム3が自動的に行うショット識別処理について、図12に基づき詳細に説明する。
(イベントショットの識別)
既に説明したように、カット点検出システムおよびショット識別システム3は、識別対象となるショットが含まれる動画像圧縮データ10から、フレーム毎にMBT情報を抽出し、このMBT情報に基づき、図7に示す表の条件に応じて各フレームに所定の記号を付与することで、MBT記号列11を作成する。そして、MBT記号列11における第一MBT記号(「0」)と第二MBT記号(「2」)の配列的特徴からカット点を検出し、検出された二つのカット点間に位置する複数のフレームを、識別対象のショット13とする。
次に、カット点検出システムおよびショット識別システム3は、上記カット点により分割された全てのショット13について、そのショット13毎のMBT記号列11aに対して、識別処理を行う。
詳細に説明すれば、各ショット13に対応するMBT記号列11aについて、各イベントショット毎に用意されている推定モデル14(具体的にはHMM)から出力される確率を計算し、最も出力確率が大きい推定モデル14から出力されたものとする。このようにして、各ショット13がどのイベントショットに属するかが識別される。
なお、上記実施の形態によれば推定モデルとしてHMM(隠れマルコフモデル)を用いた一例を示したが、他例としては、学習型の他のアルゴリズム(例えば、遺伝アルゴリズムやニュートラルネットワーク等)を用いることも可能である。
(瞬時カット点検出実験)
次に、上記構成のカット点検出システムおよびショット識別システム3を用いて、実際の野球映像のMPEG2データからカット点を検出する実験を行った結果について説明する。
まず使用したMPEG2データ、そしてカット点検出の評価方法について説明する。
(使用映像)
使用した映像はMPEGキャプチャーボックスを市販のPCに取り付け、DVDレコーダから入力した映像データからMPEG2動画像データを作成した。
動画像は、解像度640×480、ビットレートは平均5.5Mbps、最大8MbpsのVBR(Variable Bit Rate,可変速度)。
プロファイルとレベルは、MP@ML,GOPはIBBPBBPBBPBBPBBIBB・・・というPフレームの後にBフレームが2枚続くN=2の構成をしている。1つのGOPは基本的にはIフレーム1枚、Pフレーム4枚,Bフレーム10枚の計15枚だが、それ以外のランダムGOPも存在し、その場合のランダムGOPは15枚未満の3の倍数で構成される。そして1GOPの時間間隔は0.5秒である。
(瞬時カット点検出評価方法)
まず,瞬時カット点検出の結果を以下の式を用いて評価する。
・CSC(Correct Scene Change): 既知正解カット点数
・CD(Correct Detection): 正しく検出されたカット点数
・FD(False Detection): 誤検出したカット点数
・CD+FD: カット点として検出した数
これらを用いて,検出率, 誤検出率, 検出性能を以下のように定義する。

・RCD(Rate of Correct Detection): 検出率
RCD = 100(CD/CSC) (4.1)
検出率はどれくらい正しいカット点を検出できたかを調べるために用いる.

・RFD(Rate of False Detection): 誤検出率
RFD = 100{FD/(CD + FD)} (4.2)
誤検出率は検出したカット点の中でどれくらい誤検出を含んでいるかを調べるために用いる。

・DP(Detection Performance): 検出性能
DP = 100{(CD - FD)/CSC} (4.3)
検出性能は検出率と誤検出率を統合的に判断するために用いる。カット点検出では検出率だけ良くても誤検出率が高ければ実用的ではない。そのため両方の検出率を共に評価できる指標としてDPを設定する。実験においてはDP の値が高くなるものを最も良いものとする。
カット点の検出率などを出すため既知正解カット点をあらかじめ見つけておかなくてはならない。これは実際の映像を見ていきながら目で見て確認し、手作業で正解カット点にラベルを与えていった。
なお、カット点検出や後の隠れマルコフモデル構築のためのBaum-WelchプログラムはJAVA(登録商標)にて作成した。JAVA(登録商標)の言語仕様は型チェックが厳密であること、入出力エラーのハンドリングに優れていることなどからデバックが容易であるという利点を持つ。さらにJAVA(登録商標)はマルチプラットフォームを目指したプログラミング言語であるためOSによる依存が非常に少ない。様々なOSが普及している世の中でこのように1つの共通のソースコードで様々な環境で使えるという点からJAVA(登録商標)を使用した。
(瞬時カット点検出実験の評価)
以下の野球映像(MPEG2データ)で実験を行う。
また、Bフレームに対してMBT記号列を作成する際、図7に示す表の閾値tはt=350とした。
(検出結果)
それぞれの野球映像における提案法の検出結果を以下に示す。
(1)野球1
(2)野球2
(3)野球3
(考察)
<検出率>
野球1,野球2,野球3すべてにおいて、97%以上という非常に高い結果を得る事ができた。<誤検出率>
誤検出もまた、すべての場合において3%未満と非常に低く抑えられていることがわかる。また誤検出となったところも、カメラが選手を撮影している時に別の選手が一瞬横切った場合などに発生した場合が多く、やむを得ない誤検出であった。
<検出性能>
検出性能は野球3において94.3%と若干低くなっているが、それでも十分実用的であるといえる。従来技術として非特許文献2で行っているカット点検出実験においては、スポーツ映像に対してこの検出性能が92.31%であり、従来技術と比べてもより簡単な処理であるうえ、優れた結果であることがわかる。
(ショット識別実験)
次に、上記構成のカット点検出システムおよびショット識別システム3を用いて、実際の野球映像のMPEG2データに対して、ショットの識別を行う実験を行った結果について説明する。
実行環境や使用した動画像については、上述した実施例1に記載した実験と同様である。また、瞬時カット点検出評価方法と同様、ここでは投球ショット検出評価方法を以下のように定める。
(ショット識別評価方法)
ショットの識別によって投球ショットがどれだけ正しく認識することができたかを以下の式を用いて評価する。
・CS(Correct Shot): 既知正解投球ショット
・CR(Correct recognition): 正しく認識された投球ショット数
・FR(False recognition): 誤認識した投球ショット数
・CR+FR: ショット数として認識した数
これらを用いて、認識率,誤認識率,認識性能を以下のように定義する。
・RCR(Rate of Correct recognition): 認識率
RCR = 100(CR/CS) (4.4)
認識率はどれくらい正しい投球ショットを認識できたかを調べるために用いる。

・RFR(Rate of False recognition): 誤認識率
RFR = 100{FR/(CR + FR)} (4.5)
誤認識率は認識した投球ショットの中でどれくらい誤認識を含んでいるかを調べるために用いる。

・RP(recognition Performance): 認識性能
RP = 100{(CR - FR)/CS} (4.6)
認識性能は認識率と誤認識率を統合的に判断するために用いる。カット点と同様,投球ショットでは認識率だけ良くても誤認識率が高ければ実用的ではない。そのため両方の認識率を共に評価できる指標としてRPを設定する。実験においてはRPの値が高くなるものを最も良いものとする。
投球ショットの認識率などを出すため既知正解投球ショットをあらかじめ見つけておかなくてはならない。また、認識実験の結果として、投球ショットの誤認識あるいは認識されなかった場合、そのショットがどのようなショットであるか、確かめる必要がある。そこで投球だけでなく、映像を見ながら全てのショットに対して手作業で正解ラベルを振った。
(イベントショットに対するHMMの構築)
まず、イベントショットの推定モデルであるHMMを構築する必要がある。HMMの種類は、投球ショット、ファールフライのショット、フライアウトのショット、バッターのアップのショット、プレイヤーのアップのショットの5種類とする。
学習段階としては、各イベントショットの正解ショットを野球1(表1参照)から3カ所ずつ探し、正解ショットのMBT記号列を学習対象MBT記号列とした。この学習対象MBT記号列を上記Baum-Welchアルゴリズムを用いて、HMMを構成するモデルパラメータを推定した。
今回使用したHMMは状態数N = 4 ですべての状態から他のあらゆる状態に遷移できるように連結されているものとした。また観測シンボルには図7に示すMBT記号からなるMBT記号列を用いるため、観測シンボル数M = 9 となる。またその際の閾値t,sはそれぞれt=350,s=150 とした。以下に各イベントショットのモデルパラメータを示す。モデルは各イベントショット毎に3つずつ構築した。
また,各パラメータは、π = {πi}:初期状態確率,A = {aij}:状態遷移確率,B = {bj(k)}:観測シンボル確率である。
・投球ショット
・ファールフライのショット
・フライアウトのショット
・バッターのアップのショット
・プレイヤーのアップのショット
(ショット識別の評価)
各イベントショットのHMMを用意したうえで、表1に示す野球1および野球2の映像(MPEG2 データ)で実験を行った。
実施例1に示す実験結果から瞬時カット点の検出結果は非常によいことがわかったので、カット点の検出からショットの識別までを一連の流れで行った。つまり、瞬時カット点検出法からショット単位に分割されたMBT記号列に対してそのまま、数25〜29のように構築した各HMMから出力した確率を計算した。各イベント毎に3つのHMM を用意したので、計15回計算を行った。計算した結果、最も出力確率が高いモデルからそのショットは出力されたことにした。
識別したショットの中でも、特に投球ショットに対して、そして、あらかじめラベルを振っておいた既知正解投球ショットに対して、上記の処理から出た結果を評価方法に基づき以下に示す。
(認識結果)
(1)野球1
(2)野球2
(考察)
<認識率>
野球1,野球2の両方とも83%以上という高い認識率を得る事ができた。このことから、MBT記号列は投球ショットにおいてある法則にのっとって遷移していたということや、映像の内容理解の手助けになること等がわかる。
<誤認識率>
上記実験では誤認識を避けるためにバッターアップあるいはプレイヤーアップのHMMを用意した。これらのHMMからの出力確率と比較することで誤認識を下げることができた。
<認識性能>
認識性能は75.5%,80.0%となっており、マクロブロックタイプのみを用いた結果であることを考慮すると、従来の複雑な画像処理を行う認識に比べて、良好な結果であるといえる。
なお、上述した実施の形態、および実施例1,2によれば、カット点検出およびショット識別の対象となる動画圧縮データの一例として野球映像を用いるようにしているが、例えば、サッカーの映像や、相撲の映像、メロドラマ等、野球映像以外の動画圧縮データを用いることも可能である。
本発明に係わるカット点検出システムおよびショット識別システムの一例を示すブロック図である。 一般的な動画像の構造を示す概念図である。 動画像圧縮データについて、再生順、ビットストリーム順、出力順の関係を説明する概念図である。 フレームの構造を示す概念図であり、併せてMBTの種類を示している。 カット点が発生する位置とBフレームが参照するフレームとの関係を示す概念図である。 カット点が発生する位置とPフレームが参照するフレームとの関係を示す概念図である。 MBT記号と該MBT記号を与える条件との関係を示す表である。 MBT記号列とカット点との関係を示す概念図である。 前向き変数αt+1(j)の計算を示す概念図である。 後ろ向き変数βt(j)の計算を示す概念図である。 時刻tに状態i,t+1に状態jに存在する確率を計算する流れを示す概念図である。 ショット識別処理の流れを示す概念図である。
符号の説明
2:復号器
3:カット点検出システムおよびショット識別システム
10:動画像圧縮データ
11,11a:MBT記号列
14:推定モデル(HMM)

Claims (5)

  1. MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出する手段と、
    この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成する手段と、
    このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別する手段とを含むカット点検出システムと、
    前記カット点検出システムにより検出された二つのカット点間を識別対象となるショットとする手段と、
    前記識別対象となるショットについて前記カット点検出システムにより作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別する手段とを含むことを特徴とするショット識別システム。
  2. 上記推定モデルは、あらかじめ識別したいショットであるイベントショットが含まれる動画圧縮データから特定のイベントショットを選定し、この特定のイベントショット毎に上記MBT記号列を作成し、このMBT記号列を学習対象MBT記号列としてイベントショット毎に学習させるようにしたものを用いることを特徴とする請求項記載のショット識別システム。
  3. 上記推定モデルが隠れマルコフモデルであることを特徴とする請求項又は記載のショット識別システム。
  4. コンピュータが、MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出するステップと、
    コンピュータが、この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成するステップと、
    コンピュータが前記MBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別するステップと、を含むカット点検出方法と、
    前記カット点検出方法により検出された二つのカット点間を識別対象となるショットとするステップと、
    前記識別対象となるショットについて前記カット点検出方法により作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別するステップと、を含むことを特徴とするショット識別方法。
  5. MBT情報を含む動画圧縮データからフレーム毎にMBT情報を抽出する手段と、
    この抽出されたフレーム毎のMBT情報から特定のMBTが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成する手段と、
    このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別する手段と
    記カット点を判別する手段により検出された二つのカット点間を識別対象となるショットとする手段と、
    前記識別対象となるショットについて前記カット点を判別手段により作成したMBT記号列を用いて推定モデルによりその確率が最大となるものを選定して識別する手段として、コンピュータを機能させるためのショット識別プログラム。
JP2006211746A 2006-08-03 2006-08-03 カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム Active JP4719889B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006211746A JP4719889B2 (ja) 2006-08-03 2006-08-03 カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム
US11/702,433 US8442385B2 (en) 2006-08-03 2007-02-05 Cut point detection system and short recognition system using the same, cut point detection method and cut point detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006211746A JP4719889B2 (ja) 2006-08-03 2006-08-03 カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム

Publications (2)

Publication Number Publication Date
JP2008042364A JP2008042364A (ja) 2008-02-21
JP4719889B2 true JP4719889B2 (ja) 2011-07-06

Family

ID=39050896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006211746A Active JP4719889B2 (ja) 2006-08-03 2006-08-03 カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム

Country Status (2)

Country Link
US (1) US8442385B2 (ja)
JP (1) JP4719889B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779312B2 (en) * 2015-01-30 2017-10-03 Honda Motor Co., Ltd. Environment recognition system
CN107071450B (zh) * 2016-02-10 2021-07-27 同济大学 数据压缩的编码、解码方法及装置
US10997492B2 (en) * 2017-01-20 2021-05-04 Nvidia Corporation Automated methods for conversions to a lower precision data format

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004180299A (ja) * 2002-11-25 2004-06-24 Ulead Systems Inc ビデオクリップ(videoclip)のショットチェンジ検出(shotchangedetection)方法
JP2005505165A (ja) * 2001-09-26 2005-02-17 トムソン ライセンシング ソシエテ アノニム ビデオ・ビットストリーム内でのシーンカット検出

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261648A (ja) * 1996-03-21 1997-10-03 Fujitsu Ltd シーンチェンジ検出装置
JP3738939B2 (ja) * 1998-03-05 2006-01-25 Kddi株式会社 動画像のカット点検出装置
KR100698106B1 (ko) 2000-03-07 2007-03-26 엘지전자 주식회사 엠펙(mpeg)압축 비디오 환경에서 계층적 혼합형장면 변화 검출 방법
JP4082664B2 (ja) * 2002-09-20 2008-04-30 Kddi株式会社 映像検索装置
KR100794797B1 (ko) * 2002-10-14 2008-01-21 삼성전자주식회사 디지털 a/v 데이터의 기록/재생 장치 및 그 제어방법
US7327784B2 (en) * 2003-02-24 2008-02-05 Vixs Systems, Inc. Method and system for transcoding video data
GB2407226B (en) * 2003-10-18 2008-01-23 Hewlett Packard Development Co Image processing scheme

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005505165A (ja) * 2001-09-26 2005-02-17 トムソン ライセンシング ソシエテ アノニム ビデオ・ビットストリーム内でのシーンカット検出
JP2004180299A (ja) * 2002-11-25 2004-06-24 Ulead Systems Inc ビデオクリップ(videoclip)のショットチェンジ検出(shotchangedetection)方法

Also Published As

Publication number Publication date
JP2008042364A (ja) 2008-02-21
US8442385B2 (en) 2013-05-14
US20080037949A1 (en) 2008-02-14

Similar Documents

Publication Publication Date Title
Liu et al. Deep learning in latent space for video prediction and compression
Sitara et al. Digital video tampering detection: An overview of passive techniques
US9317751B2 (en) Video processing system with video to text description generation, search system and methods for use therewith
US7046731B2 (en) Extracting key frames from a video sequence
Liu et al. Key frame extraction from MPEG video stream
JP5573131B2 (ja) 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
JP2000217117A (ja) 圧縮形式でのデジタル画像表現ビデオデ―タの処理方法
KR102177900B1 (ko) 비디오에 있어서의 키포인트 궤적을 처리하는 방법
Nasreen et al. Key frame extraction from videos-A survey
Hong et al. Detection of frame deletion in HEVC-Coded video in the compressed domain
JP4719889B2 (ja) カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム
JP5181325B2 (ja) カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法
JP4734047B2 (ja) ビデオドキュメントを圧縮するためのプロセス及び装置
US20130094692A1 (en) Video watermarking method resistant to temporal desynchronization attacks
US20090153744A1 (en) Scene detection system and scene detection method
JP4773511B2 (ja) データ処理方法およびデータ処理システム
Wu et al. HEVC double compression detection with non-aligned GOP structures based on a fusion feature with optical flow and prediction units
KR100683501B1 (ko) 신경망 기법을 이용한 뉴스 비디오의 앵커 화면 추출 장치및 그 방법
Kiani et al. An Effective Slow‐Motion Detection Approach for Compressed Soccer Videos
KR20200052400A (ko) 개선된 영상 분류 시스템 및 방법
Youssef Detection of Double and Triple Compression in Videos for Digital Forensics Using Machine Learning
Rascioni et al. An optimized dynamic scene change detection algorithm for H. 264/AVC encoded video sequences
De Santo et al. A multi-expert system for shot change detection in MPEG movies
CN113965744A (zh) 基于运动矢量残差的hevc视频双压缩取证方法及***
Wang et al. A fast algorithm for MPEG video segmentation based on macroblock

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090318

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110310

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350