JP4301078B2 - 映像のインデクシング方法及びプログラム - Google Patents

映像のインデクシング方法及びプログラム Download PDF

Info

Publication number
JP4301078B2
JP4301078B2 JP2004148237A JP2004148237A JP4301078B2 JP 4301078 B2 JP4301078 B2 JP 4301078B2 JP 2004148237 A JP2004148237 A JP 2004148237A JP 2004148237 A JP2004148237 A JP 2004148237A JP 4301078 B2 JP4301078 B2 JP 4301078B2
Authority
JP
Japan
Prior art keywords
video
face
section
time
start time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004148237A
Other languages
English (en)
Other versions
JP2005333262A (ja
Inventor
幸紀 南田
聡 嶌田
正志 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004148237A priority Critical patent/JP4301078B2/ja
Publication of JP2005333262A publication Critical patent/JP2005333262A/ja
Application granted granted Critical
Publication of JP4301078B2 publication Critical patent/JP4301078B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、映像のインデクシング方法及びプログラムに係り、特に、映像から話題の開始点を検出するための映像のインデクシング方法及びプログラムに関する。
近年、映像の内容を記述するデータ、いわゆるメタデータの重要性が認識されてきている。メタデータは、付帯情報などとも呼ばれる。映像のメタデータには、例えば、映像の標題や、制作者名、権利保有者名などの書誌的情報、ショット、シーン、話題などの構造的情報、映像の意図や解説、価値といった意味的情報、映像の色合いや模様などの画像処理技術的観点による特徴、音声的特徴など、様々なものがある。前映像のメタデータの国際標準規格も制定されている(ISO/IEC 15938 いわゆるMPEG-7)。
メタデータの中でも、映像の構造に関するメタデータは、視聴者が便利に映像を視聴するために役立つ。映像の構造とは、何らかの基準によって定義された映像区間とここでは定義する。映像の構造には、ショット、シーン、話題区間(トピック)などがある。話題区間は、一つの話題に関して述べている区間のことである。映像区間は、区間の開始位置と終了位置の組、あるいは、開始位置と区間の長さの組、あるいは開始位置のみによって表される。映像が構造化されていれば、利用者は映像を最初から見ることなく、複数存在する映像区間の中から好きなものだけを選んで見ることができるようになる。例えば、ニュース番組では、視聴者が関心のある話題だけを選んで視聴し、関心のない話題はスキップするという視聴の仕方が可能となる。従って、映像の構造に関するメタデータは、視聴者が映像を鑑賞するために大きな利便性をもたらすものといえる。
映像製作者や放送事業者など様々な業者は、自社の所有する映像にメタデータを付与することにより、膨大な映像を管理したり、顧客への映像提供サービスに利用する試みを検討しているところである。
なお、映像の構造を抽出することを、映像の構造化、映像の構造解析、映像の索引付け、映像のインデクシング、などと呼ぶこともある。
映像の構造の中でショットについては、その境界点であるところのカット点において映像が断絶しているのであるから、映像中の隣接するフレーム画像の類似性を評価し、類似性が著しく小さい点をカット点とみなすことにより、機械的に映像をショットに分割することが可能であり、そのための方法の研究もなされている(例えば、非特許文献1参照)。
一方、シーンや話題区間については、映像中のシーンの境界点や話題の境界点に明瞭なしるしが表れているわけではないため、映像を解析することによって機械的にシーンや話題を分割することは困難な課題とされている。
シーンや話題区間を分割する方法として、ニュース番組に、その番組のキャスターがスタジオで原稿を読み上げている場面(キャスタショット)が頻繁に出現すること、話題の開始点は類似の構図のキャスタショットであること、話題の開始点で字幕(テロップ)が出現することに着目し、顔検出と、唇の動き検出と、ショットの分類と、テロップの検出とを組み合わせて機械的に話題の開始点を検出するものがある(例えば、非特許文献2参照)。
また、ニュース番組においてニュース項目のテロップが他のテロップより比較的表示時間が長いという特徴や、フレーム対してセンタリングされているという特徴などがあることを利用し、そのような特徴を持つテロップを検出することで、話題の開始点を検出するという方法も提案されている(例えば、非特許文献3参照)。
谷口行信、外村佳伸、浜田洋「映像ショット切替え検出法とその映像アクセスインタフェースへの応用」信学論(D-II), Vol. J79-D-II, no.4, pp.538-546, 1996 井出一郎、山本晃司、浜田玲子、田中英彦「ショット分類に基づく映像への自動索引付け手法」信学論(D-II), Vol.J-82-D-II, No. 4, pp.1543-1551, 1999 加藤晴久、柳原広昌、中島康之「ニュース索引のためのMPEGからのテロップ検出に関する研究」情報処理学会研究報告, No.35, pp. 31-36
映像の構造の中でも、話題区間は、視聴者が便利に映像を視聴するために重要である。それは、ニュース番組や対談番組、情報提供番組などで、視聴者が関心のある話題だけを選んで視聴し、関心の無い話題はスキップするという視聴の仕方が可能となるからである。話題そのものを理解しながら、話題の境界点を見つけるという方法が確実であるが、人が映像を見て内容を理解しながら話題を区切るという方法では、人的コストがかかるという問題がある。かといって、機械によって映像の意味内容を理解させるのは現在の技術水準では難しい。そこで、映像の意味内容を理解することなく、話題境界点に表れる、認識しやすい特徴を組み合わせて話題区間を検出する方法が研究されており、前述の非特許文献2や非特許文献3に示される方法などが提案されている。
しかしながら、非特許文献2の方法は、類似のキャスタショットで話題が開始されることを仮定しており、話題の開始点の構図が異なると、話題の検出ができないという問題がある。例えば、同一番組中で、キャスタが1人映っている構図で話題が開始される場合と、キャスタが2人映っている構造で話題が開始される場合とがあると、このような問題が生じるであろう。
また、前述の非特許文献3の方法は、話題の境界点に出現するテロップに共通の特徴があるとの仮定に基づいており、この特徴が、全ての番組で統一されているならばうまく機能すると思われるが、実際には、番組によって話題の境界点に表示するテロップの位置や表示時間にはばらつきがあり、テロップが出ない場合も考えられるため、誤りが混入する可能性は否めない。
非特許文献2,3のどちらの例でも、ニュース映像を制作する際に、話題の境界点における構図やテロップの表示の仕方になにがしかのルールが存在するという仮定に基づいており、このルールが個々の話題や番組によって当てはまらない場合に問題が生じると考えられる。従って、この種の話題区間を検出する方法では、話題境界点において存在すると仮定するところの映像制作のルールの普遍性が、話題区間検出方法の精度の優劣に大きく影響すると考えられる。
本発明は、上記の点に鑑みなされたもので、話題境界点に表れる特徴を組み合わせて話題区間を検出する方法において、話題境界点に表れる特徴として、普遍性の高い特徴を利用する映像のインデクシング方法及びプログラムを提供することを目的とする。
我々は、日常の生活の中で、ニュース番組を見たり講演会を聴講したりしている際、発言の意味内容を必ずしも明確に理解していなくとも、話題の境界点がなんとなくわかるという経験をしている。これは、発言者の言葉以外から、視聴者が何らかのメッセージを受け取っているためであると考えられる。実は、人々がコミュニケーションをとる際に、言語以外の身振り手振り、話し振り、視線、沈黙などに、言語と同様かそれ以上に豊富なメッセージがのせられてやり取りされているといわれており、このことは、20世紀中ごろから注目され、非言語コミュニケーション学として研究されている。
そこで、非言語コミュニケーションの考え方に基づけば、ニュース番組において話題の境界点で、そこが話題の境界点であることを示す信号が発せられているはずであると考え、その信号がどのように表れているかを調査した。
調査では、複数のニュース番組を観察し、次のような特徴を見出した。
(1)話題を開始する前には比較的長い沈黙がある。
(2)話題を開始する少し前から話し始めてしばらくの間継続的に顔が存在する。
(3)上記の(2)の顔は継続的に正面顔であるか、または、最初はうつむき顔で、後に顔を上げて正面顔になる。
(4)上記(3)の正面顔が正面顔である間と、うつむき顔がうつむき顔である間は、顔の動きが小さい。
これにより、上記の(1)〜(4)の特徴が、話題の開始点と密接に係わる特徴であると判断し、これらの特徴を有する点を話題の開始点と見做せるという仮説を立てた。
話題の開始点でこのような特徴が現れる理由を推察すれば、キャスターや番組制作者は、少しの間の沈黙をおいて、相手と視線を合わせることにより、相手の注意を引くことができるということを経験的に知っており、意識的にせよ、無意識的にせよ、ニュースを話し始める際にこのようなことを行うようルール化しているからであると考えられる。逆にニュースの途中の別段強調する必要のない場面では、そのようなことは行わないよう計らっていると考えられる。例えば、話の途中で正面を向いたまま不必要に長く沈黙することは行わない。キャスターや制作者がこのような映像を作るのは、非言語コミュニケーションにおけるルールが映像制作に応用され、番組制作上のルールとして表れているものであると考えられる。この非言語コミュニケーションにおけるルールは、少なくともそのコミュニケーションを行っている人々(この場合は日本人)の間では普遍的であると期待される。また、以上の知見は、ニュース番組に限らず、出演者が視聴者に語りかけて情報を伝達しようとするスタイルの番組については普遍的にあてはまると期待される。
上記の仮説の正当性を検証するため、複数のニュース番組について机上で検討し、形式ばったスタイルのニュース番組(例えば、NHKの定時ニュース等)で再現率9割程度、適合率9割程度、形式ばならいスタイルのニュース番組(例えば、民放のキャスターが複数いるニュース番組等)でも再現率6割程度、適合率8割程度の精度が期待できるという見通しを得た。
本発明は、上記の考察に基づいた発明である。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し(ステップ1)、
第2の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し(ステップ2)、
発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し(ステップ3)、
発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に(ステップ4)、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加する(ステップ5)。
本発明(請求項2)は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
第2の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所要の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加する。
また、本発明(請求項3)は、請求項1において、顔の動きの大きさを評価するために、
顔の部品の画像上の位置の時系列を求め、
位置の時系列の分散を求め、
分散を顔の動きの大きさを表す尺度として用いる。
また、本発明(請求項4)は、請求項2において、顔の動きを評価するために、
顔の特定の部品の画像上の位置の時系列を求め、
位置の時系列を、その動きの変化の激しい部位にて前後に分け、
位置の時系列の前部に限って該位置の時系列の分散vaを求め、
位置の時系列の後部に限って該位置の時系列の分散vbを求め、
分散vaとvbとを顔の動きの大きさを表す尺度として用いる。
また、本発明(請求項5)は、請求項1または2において、無発話区間を検出する際に、
音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を無発話区間とし、
無発話区間以外を発話がなされている区間と見做す。
また、本発明(請求項6)は、請求項1または、2において、
請求項1記載の5つの条件を満たした上で、あるいは、請求項2に記載の7つの条件を満たした上で、
映像区間[t−Tb,t+Ta]において、
顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点tを前記第4の記憶手段の前記映像の索引に追加する。
本発明(請求項7)は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシングプログラムであって、
上記の請求項1乃至6記載の映像のインデクシング方法の実現に用いられる処理をコンピュータに実行させる。
本発明に示す方法で、映像の区間の開始点を取得し、情報提供番組映像をインデクシングすれば、話題の開始点のインデックスが得られる。本発明に示す方法は、番組毎の制作ルールに左右されず、番組毎にルールを調整する必要から開放されるという効果がある。このインデックスを用いることにより、映像を話題毎に取捨選択し視聴できるようになるなど、映像の取り扱いに大きな利便性がもたらされる。
以下、図面と共に本発明の実施の形態を説明する。
以下では、映像番組の映像をディジタル化したものを入力とし、話題の開始点を検出する処理を例として説明する。
図2は、本発明の一実施の形態におけるシステムの構成である。
同図に示すシステムは、記憶装置101と、情報処理装置102から構成される。
記憶装置101は、入力となる映像のディジタルデータを格納するためと、話題の開始点の検出結果を格納するために用いられる。
情報処理装置102は、映像のディジタルデータを解析し、話題開始点の検出する処理を行う。
図3は、本発明の一実施の形態における話題開始点検出処理を行うための記憶装置と情報処理装置の具体的な構成を示す。
記憶装置101は、映像を規格可読形式で格納した映像ファイル201、映像中の無発話区間を表すデータを格納した無発話区間記憶部203、映像中の顔の特徴を表す特徴ベクトルの時系列データを格納した顔特徴ベクトル系列記憶部205、話題開始時刻を記憶する話題開始時刻記憶部207から構成される。
無発話区間記憶部203は、映像中の無発話区間を表すデータとして、無発話区間開始時刻fと、当該無発話区間に続く発話区間の開始時刻tの組からなる。
顔特徴ベクトル系列記憶部205は、特徴ベクトルの時系列データにおいて、記号Piはiの特徴ベクトル系列を表すものとし、系列Piのフレームjに対応する特徴ベクトルを記号P*ijで表すものとする(図3においては、ベクトル記号)。本実施の形態では、顔の特徴として、左目の画面上の座標と、両目の間隔と、顔のカメラに対する横首振り変位を用いるものとして説明する。この場合、特徴ベクトルP*ijは4次元ベクトルとなる。
情報処理装置102は、無発話区間検出処理部202、顔・特徴検出・追跡処理部204、特徴ベクトル系列評価処理部206から構成される。
無発話区間検出処理部202は、読込んだ映像ファイル201を解析し、映像中の無発話区間を検出し、無発話区間(f,t)を無発話区間記憶部203に出力する。
顔検出・追跡処理部204は、映像ファイル201を解析して顔を検出し追跡し、顔特徴ベクトル系列を顔特徴ベクトル系列記憶部205に出力する。解析する映像区間は無発話区間記憶部203に格納された、無発話区間に応じて決定する。当該解析映像区間に顔が複数個検出された場合には、顔座標系列も複数個出力される。
特徴ベクトル系列評価処理部206は、顔特徴ベクトル系列記憶部205の顔特徴ベクトル系列を解析し、話題が開始されているか否かを判定し、話題が開始されていると判定された場合には、話題開始時刻を話題開始時刻記憶部207に出力する。
なお、映像においては、時刻とフレーム番号は互いに変換可能である。日本で広く用いられているNTSC規格では、フレームレートは、29.97[フレーム/秒]であり、映像の先頭時刻を0[秒]、映像の先頭フレームを0[フレーム]とすると、
t=(1/29.97)f
なる関係が成立する(Tの単位は秒、fの単位はフレーム)。以降の説明では、時刻を表すためにフレーム番号を用いる。
図4と図5は、本実施の形態における処理のフローチャートである。
以下、図4、図5のフローチャートに基づき話題による映像のインデクシング処理を説明する。
ステップ301) まず、変数fに0を代入する。
ステップ302) フレームfから映像の末尾の方向へ、発話がなされている位置を探索する。発話がなされているか否かを判定する方法は種々あるが、本実施の形態では、次のように判定する。時間長がwフレームであるブロックを1ブロックとし、1ブロック内の音声信号の振幅の絶対値の最大値をaとする。連続するq個のブロックについてaの値を平均し、平均値aを求める。このaの値がAより小さければ、当該連続するq個のブロックの区間は無発話区間であると見做し、そうでなければ発話がなされていると見做す。但し、w,q,Aの値は、実施者が定める定数とする。この方法は、厳密には発話の有無を判定しているのではなく、音の大小を判定しているにすぎないのであるが、音の大小だけでもBGMや雑音がない場合には、発話の有無の判定方法として代用できる。
フレームfの位置における発話の有無は、フレームfからフレームf+wq−1までの区間の音声信号を調べ、判定するものとする。
上記の方法を用いて、フレームf,フレームf+1,フレームf+2,…と、映像の末尾に向けて1フレーム毎に順次発話の有無を判定し、発話有りと判定されたフレームが見つかったら該フレーム番号をrとし、フラグFを「真」にセットし、ステップ303に移行する。
なお、発話がなされているか否かを判定する方法は、必ずしも上記の方法による必要はなく、音声信号の振幅の絶対値が所与の値より大きいか否かで判定してもよいし、または、文献「南憲一、他“音情報を用いた映像インデクシングとその応用”信学論(D-II), vol. J81-D-II, no. 3, pp. 529-537, 1998」に示されている方法で、人の音声の有無を判定しても良いし、他の方法を用いてもよい。
ステップ303) フラグFを調べ、発話がなされている位置rが見つかったか否かを判定し、見つかっていれば(フラグFが「真」であれば)ステップ304に移行し、そうでなければ(フラグFが「偽」であれば)、処理を終了する。
ステップ304) フレームfから発話開始位置rまでの時間長r−fを検査し、r−fが所与の値Tより大きければ、フレームfの近傍についてより詳細に検査するためにステップ305に移行し、そうでなければフレームfに関する検査を中断し、ステップ322に移行する。
ステップ305) 無発話区間(f,t)をセットする。ステップ305に処理がわたったということは、時間長T以上の無発話区間について、フレームrにて発話が開始されたということである。t=rとし、区間(f,t)は、フレームfからフレームtまでの映像区間を表すものとする。
ステップ306) フレームtで顔検出を行う。画像の中から顔を検出する方法としては、種々の方法が開示されている。例えば、文献「Oliver jesorsky, Klaus J. Kirchberg and Robert W. Frischholz, “Robust Face Detection Using the Hausdorff Distance,” in Proc. Third international Conference on Audio- and Video-based Biometric person Authentication, Springer, Lecture Notes in Computer Science, LNCS-2091, pp.90-95, 2001」に示される方法がある。
また、Visionics corporation社のFaceIt(登録商標)など、顔検出及び認識のための市販ソフトウェアも存在する。また、顔の姿勢を得る方法として、例えば、文献「間瀬、渡部、末永、“ヘッドリーダ:画像による頭部動作の実時間検出”、信学論、vol. J74-D-II, no.3, pp. 398-406, 1991」に示される方法がある。これらの技術か、その他の顔検出方法を用いて、フレームtの画像から顔を検出する。顔を検出した結果、顔の位置と姿勢が得られるものとする。顔の位置と姿勢を表すために、本実施の形態では、顔の左目の位置(x,y)と、両目の間隔gと、カメラ正面方向から横首振りの変位を表すθの組を特徴ベクトルとし、顔の位置と姿勢を特徴ベクトルp*=(x,y,g,θ)で表すことにする。顔の位置と姿勢を表す特徴ベクトルはこれに限らず他の構成をとっても構わない。例えば、鼻の位置と顔の首振り角(ピッチ、ロール、ヨー角)の組にて表してもよい。あるいは、姿勢を無視して、左目の位置のみで表してもよい。
ステップ307) 上記のステップ306で検出されたフレームtの顔の数をMとする。
ステップ308) 変数iを0とする。
ステップ309) フレームtから時間を遡る方向にフレームfまで顔iを追跡する。この追跡は次のように行う。今、フレームjにおいて顔iが検出されており、その位置を(xij,yij)とする。フレームj−1において顔検出を行い、位置(xij,yij)の近傍で検出された顔の中で位置(xij,yij)に最も近い物を、顔iのフレームj−1における追跡結果とする。位置(xij,yij)の近傍に顔が検出されない場合は追跡を中断する。位置が近傍か否かは、位置の差(距離)が所与の値より小さいか否かで判定する。
顔を追跡する方法としては、テンプレートマッチングを用いる方法を適用してもよい。テンプレートマッチングを用いる方法は、次のような方法である。フレームjの位置(xij,yij)の周辺をテンプレートとし、フレームj−1の位置(xij,yij)の近傍でテンプレートマッチングを行い、一致度が所与の値以上であっても最も一致度が高い位置を顔iのフレームj−1における追跡結果とし、顔の姿勢を得る。一致度が所与の値以上であるマッチングが得られない場合は追跡を中断する。
このようにしてフレームtから遡り、フレームfに到達するか、中断されるまで追跡を行う。
ステップ310) 顔iの特徴ベクトル系列の起点biをセットする。ステップ309で、顔iの追跡が行えた最も若番のフレーム番号をbiとする。その結果、顔iの特徴ベクトル系列
p*ibi,…,p*it
が得られる。
ステップ311) フレームtから時間順方向にフレームt+Kまで顔iを追跡する。この追跡は、追跡する方向が逆である以外は、ステップ309と同様にして行える。フレームtから、フレームt+Kに到達するか、中断されるまで追跡を行う。なお、Kは実施者が定める定数である。
本実施例では、K=30とする。
ステップ312) 顔iの特徴ベクトル系列の終点eiをセットする。ステップ311で、顔iの追跡が行えた最も老番のフレーム番号をeiとする。その結果、顔iの特徴ベクトル系列
p*it,…,p*iei
が得られる。
ステップ313) ステップ309からステップ312までの結果を合わせて、顔iの特徴ベクトル系列Piをセットする。
Pi={p*ibi,…,p*it,…,p*iei
ステップ314) 変数iにi+1を代入する。
ステップ315) 変数iの値と、顔の数Mを比較し、i<Mであればステップ309に戻り、次の顔の特徴ベクトル系列を求める。そうでなければ、ステップ316へ移行し、顔特徴ベクトル系列の検査を行う。
ステップ316) 変数iに0を代入する。
ステップ317) 顔iの追跡された区間が、所与の基準より長いか否かを検査する。顔iの特徴ベクトル系列Piの起点のフレーム番号をbi、終点のフレーム番号をeiとし、bi≧t−Tbかつ、ei≦t+Taであればステップ318に移行する。そうでなければ、顔iに関する検査を中断し、ステップ326に移行する。なお、Ta,Tbは、実施者の定める正の定数とする。本実施の形態では、Ta=30,Tb=9とする。定数Taは、顔が発話を始めてからある程度長く顔が表示され続けるという条件を判定するための定数であり、定数Tbは、発話を始める前にある程度長く顔が表示し続けるという条件を判定するための定数である。
この後の手順では、区間[t−Tb,t+Ta]に着目するため、Piからt−Tbを始点とし、t+Taを終点とする部分列を構成し、これを記号P#iで表す。
P#i={p*i,t−Tb,…,p*i,t+Ta
ステップ318) 特徴ベクトル系列Piを分割し、部分系列P’i,P”iを求める。この処理は、キャスターが顔を上げてカメラを見て話し始めるような動作をする際に、系列Piを、顔を上げる前の系列P’iと、顔を上げた後で系列P”iに分けることを目的とするものである。そのためには、動きの大きい部分を境界にして、その前後に分けるとよい。例えば、
Figure 0004301078
の値が最大となるようなk(t−Tb+1<k<t+Ta−1)を探し
P’i={p*i,t−Tb,…,p*i,k−1},
P”i={p*i,k,…,p*i,t+Ta
とする。あるいは、P’iとP”iの動きの大きさの和が最小になるようなkを探して分割してもよいし、他の方法で分割してもよい。
ステップ319) 特徴ベクトル系列P#i,P’i,P”iの動きの大きさv、v’、v”と、分割部の動きd*を求める。
特徴ベクトル系列の動きの大きさは、xとyの分散の和を顔の大きさで正規化したものと定義する。顔の大きさで正規化するために、本実施の形態では、両目の間隔gで割ることにする。特徴ベクトル系列Pの動きの大きさV(P)を次式で定義する。
Figure 0004301078
ここで、
Figure 0004301078
は、対象とする系列Pの要素αの平均値を表し、nは対象とする系列Pの長さを表すものとする。そして、特徴ベクトル系列の動きの大きさ
v=V(P#i),v’=V(P’i),v”=V(P”i)
を計算する。なお、特徴ベクトルの系列の動きの大きさは、上記の定義に限らず、他の方法で計ってもよい。
分割部の動きd*は、ステップ318の定義に沿って、本実施の形態では、
d*=(xik−xi,k−1,yik−yi,k−1)
とする。
ステップ320) ステップ319で求めた量が、所定の条件を満たすか検査する。
所定の条件の第1は、系列P#iにおいて顔iの動きの大きさvが所与の基準vより小さく、かつ、系列P#iにおいて顔の横首振り変位θが所与のθより小さいというものである。
所定の条件の第2は、系列P’iにおいて顔iの動きの大きさが所与の基準v0より小さく、かつ、系列P”iにおいて顔iの動きの大きさが所与の基準vより小さく、かつ、系列P#iにおいて顔の横首振り変位θが所与の値θより小さく、かつ、分割部の動きd*の所定の条件を満たすというものである。
上記分割部の動きd*が満たすべき所定の条件とは、d*の向きtan−1d*がだいたい上向き(tan−1d*と上方向との角度の差が所与の値ψ以下)であるというものである。
上記の条件1を式で表すと次の通りである。
Figure 0004301078
上記の条件2を式で表すと次の通りである。
Figure 0004301078
上記の条件1か、もしくは条件2を満たすとき、フレームtにおいて話題が開始されているとみなし、ステップ321へ移行する。そうでなければ、顔iに関する検査を終了し、ステップ326へ移行する。
ステップ321) 話題開始位置sを出力し、記憶装置101の話題開始時刻記憶部207に格納する。話題開始位置は、フレーム番号tで表す(s=t)。
ステップ322) fにrの値を代入する。
ステップ323) フレームf(もともとはrの値であった)から映像の末尾の方向へ、無発話区間開始位置r’を探索する。探索の方法は、探索対象が無発話区間であることを除けば、ステップ302と同様の方法で行うことができる。ステップ302では、
Figure 0004301078
の値がAより小さければ発話区間が見つかったと見做すが、ステップ323では、
Figure 0004301078
の値がAより大きければ無発話区間が見つかったと見做すようにすればよい。フレームf、フレームf+1、フレームf+2,…と、映像の末尾に向けて1フレーム毎に順次発話の有無を判定し、無発話区間と判定されたフレームが見つかったら、該フレーム番号をr’とし、フラグFを「真」にセットし、ステップ324へ移行する。無発話区間が見つかることなく映像の末尾まで到達したら、無発話区間開始位置r’が見つかったことを表すためにフラグFを「偽」にセットし、ステップ324に移行する。
ステップ324) フラグFを調べ、発話がなされている位置r’が見つかったか否かを判定し、見つかっていれば(フラグFが「真」であれば)ステップ325へ移行し、そうでなければ(フラグFが「偽」であれば)、処理を終了する。
ステップ325) 変数fにr’の値を代入する。
ステップ326) 変数iにi+1の値を代入する。
ステップ327) 変数iの値と値Mとを比較し、i<Mであれば次の顔について検査するため、ステップ317へ戻る。そうでなければ、当該発話区間は話題開始位置ではないと見做して検査を終了してステップ322へ移行する。
以上の処理が終了すると、記憶装置101の話題開始時刻記憶部207には、話題開始位置を表すフレーム番号sのリストが出力されている。
図6は、本発明の理解を補助するための図である。
同図中のフレーム501は、映像中のフレームtの近傍のフレームを抜粋したものを表している。フレームt−Tbからフレームt+Taまで顔が存在している様子を示している。同図中の音声信号502は、フレームtの近傍の音声信号を表したものであり、フレームtより前は発話がなく、フレームtで発話が開始されたという状況を模式的に表している。
なお、本発明の実施の形態は、上記の実施の形態に限られるものではなく、同等の作用を持つならば適宜細部を変更しても構わないのは当然のことである。
例えば、上記の実施の形態では、映像を解析する際、逐次的に発話区間と顔検出を繰り返す形態としているが、先に映像全体の発話区間と無発話区間を決定し、その後映像全体について顔検出を行うような形態でも構わない。また、処理プログラムの複雑化をさけるために、あるいは、処理量を削減するために、顔の横首振り変位θを求める処理を省略し、θに関する条件判定を省略しても構わない。
また、上記の実施の形態で説明した一連の処理をプログラムとして構築し、情報処理装置(コンピュータ)にインストールし、CPU等の制御手段により実行する、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを情報処理装置(コンピュータ)に接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、映像のインデクシング技術に適用可能である。
本発明の原理を説明するための図である。 本発明の一実施の形態におけるシステム構成図である。 本発明の一実施の形態における話題開始点検出処理を行うための情報処理装置と記憶装置の具体的な構成図である。 本発明の一実施の形態における処理のフローチャート(その1)である。 本発明の一実施の形態における処理のフローチャート(その2)である。 本発明の理解を補助するための図である。
符号の説明
101 記憶装置
102 情報処理装置
201 映像ファイル
202 無発話区間検出処理部
203 無発話区間記憶部
204 顔特徴検出追跡処理部
205 顔特徴ベクトル系列記憶部
206 特徴ベクトル系列評価処理部
207 話題開始時刻記憶部
501 フレーム
502 音声信号

Claims (7)

  1. 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
    第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
    前記第2の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
    前記発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し、
    前記発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
    かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
    かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
    かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Ta後まで存在しているという条件を満たし、
    かつ、映像の区間[t−Tb,t+Ta]において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に、
    該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加することを特徴とする映像のインデクシング方法。
  2. 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
    第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
    前記第2の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
    前記発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
    かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
    かつ、該顔が該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
    かつ、該顔が、該発話開始時点tより、少なくとも所要の時間Ta後まで存在しているという条件を満たし、
    かつ、映像の区間[t−Tb,t+Ta]において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
    かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
    かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
    該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加することを特徴とする映像のインデクシング方法。
  3. 前記顔の動きの大きさを評価するために、
    顔の部品の画像上の位置の時系列を求め、
    前記位置の時系列の分散を求め、
    前記分散を顔の動きの大きさを表す尺度として用いる、請求項1記載の映像のインデクシング方法。
  4. 前記顔の動きを評価するために、
    前記顔の特定の部品の画像上の位置の時系列を求め、
    前記位置の時系列を、の動きの変化の激しい部位にて前後に分け、
    前記位置の時系列の前部に限って該位置の時系列の分散vaを求め、
    前記位置の時系列の後部に限って該位置の時系列の分散vbを求め、
    前記分散vaとvbとを顔の動きの大きさを表す尺度として用いる、請求項2記載の映像のインデクシング方法。
  5. 前記無発話区間を検出する際に、
    音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を前記無発話区間とし、
    前記無発話区間以外を発話がなされている区間と見做す、請求項1または、2記載の映像のインデクシング方法。
  6. 請求項1記載の5つの条件を満たした上で、あるいは、請求項2に記載の7つの条件を満たした上で、
    前記映像区間[t−Tb,t+Ta]において、
    顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点tを前記第4の記憶手段の前記映像の索引に追加する、請求項1または、2記載の映像のインデクシング方法。
  7. 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシングプログラムであって、
    請求項1乃至6記載の映像のインデクシング方法を実現させるための処理をコンピュータに実行させることを特徴とする映像のインデクシングプログラム。
JP2004148237A 2004-05-18 2004-05-18 映像のインデクシング方法及びプログラム Expired - Fee Related JP4301078B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004148237A JP4301078B2 (ja) 2004-05-18 2004-05-18 映像のインデクシング方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004148237A JP4301078B2 (ja) 2004-05-18 2004-05-18 映像のインデクシング方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005333262A JP2005333262A (ja) 2005-12-02
JP4301078B2 true JP4301078B2 (ja) 2009-07-22

Family

ID=35487633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004148237A Expired - Fee Related JP4301078B2 (ja) 2004-05-18 2004-05-18 映像のインデクシング方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4301078B2 (ja)

Also Published As

Publication number Publication date
JP2005333262A (ja) 2005-12-02

Similar Documents

Publication Publication Date Title
US7298930B1 (en) Multimodal access of meeting recordings
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
RU2494566C2 (ru) Устройство и способ управления отображением
Lee et al. Portable meeting recorder
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
US8804999B2 (en) Video recommendation system and method thereof
US10134440B2 (en) Video summarization using audio and visual cues
US6404925B1 (en) Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6751354B2 (en) Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US7945142B2 (en) Audio/visual editing tool
JP4831623B2 (ja) 動画像の顔インデックス作成装置およびその顔画像追跡方法
US20120057775A1 (en) Information processing device, information processing method, and program
US20160358628A1 (en) Hierarchical segmentation and quality measurement for video editing
KR20140114238A (ko) 오디오와 결합된 이미지 표시 방법
Hoover et al. Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers
TW200921454A (en) Method and apparatus for video digest generation
WO2000016243A1 (en) Method of face indexing for efficient browsing and searching ofp eople in video
Jou et al. Structured exploration of who, what, when, and where in heterogeneous multimedia news sources
US20110235859A1 (en) Signal processor
JP2019186689A (ja) 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体
Heng et al. How to assess the quality of compressed surveillance videos using face recognition
Hoover et al. Using audio-visual information to understand speaker activity: Tracking active speakers on and off screen
JP4301078B2 (ja) 映像のインデクシング方法及びプログラム
CN115665508A (zh) 视频摘要生成的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140501

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees