JP4301078B2

JP4301078B2 - 映像のインデクシング方法及びプログラム

Info

Publication number: JP4301078B2
Application number: JP2004148237A
Authority: JP
Inventors: 幸紀南田; 聡嶌田; 正志森本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-18
Filing date: 2004-05-18
Publication date: 2009-07-22
Anticipated expiration: 2024-05-18
Also published as: JP2005333262A

Description

本発明は、映像のインデクシング方法及びプログラムに係り、特に、映像から話題の開始点を検出するための映像のインデクシング方法及びプログラムに関する。

近年、映像の内容を記述するデータ、いわゆるメタデータの重要性が認識されてきている。メタデータは、付帯情報などとも呼ばれる。映像のメタデータには、例えば、映像の標題や、制作者名、権利保有者名などの書誌的情報、ショット、シーン、話題などの構造的情報、映像の意図や解説、価値といった意味的情報、映像の色合いや模様などの画像処理技術的観点による特徴、音声的特徴など、様々なものがある。前映像のメタデータの国際標準規格も制定されている（ISO/IEC 15938 いわゆるMPEG-7）。

メタデータの中でも、映像の構造に関するメタデータは、視聴者が便利に映像を視聴するために役立つ。映像の構造とは、何らかの基準によって定義された映像区間とここでは定義する。映像の構造には、ショット、シーン、話題区間（トピック）などがある。話題区間は、一つの話題に関して述べている区間のことである。映像区間は、区間の開始位置と終了位置の組、あるいは、開始位置と区間の長さの組、あるいは開始位置のみによって表される。映像が構造化されていれば、利用者は映像を最初から見ることなく、複数存在する映像区間の中から好きなものだけを選んで見ることができるようになる。例えば、ニュース番組では、視聴者が関心のある話題だけを選んで視聴し、関心のない話題はスキップするという視聴の仕方が可能となる。従って、映像の構造に関するメタデータは、視聴者が映像を鑑賞するために大きな利便性をもたらすものといえる。

映像製作者や放送事業者など様々な業者は、自社の所有する映像にメタデータを付与することにより、膨大な映像を管理したり、顧客への映像提供サービスに利用する試みを検討しているところである。

なお、映像の構造を抽出することを、映像の構造化、映像の構造解析、映像の索引付け、映像のインデクシング、などと呼ぶこともある。

映像の構造の中でショットについては、その境界点であるところのカット点において映像が断絶しているのであるから、映像中の隣接するフレーム画像の類似性を評価し、類似性が著しく小さい点をカット点とみなすことにより、機械的に映像をショットに分割することが可能であり、そのための方法の研究もなされている（例えば、非特許文献１参照）。

一方、シーンや話題区間については、映像中のシーンの境界点や話題の境界点に明瞭なしるしが表れているわけではないため、映像を解析することによって機械的にシーンや話題を分割することは困難な課題とされている。

シーンや話題区間を分割する方法として、ニュース番組に、その番組のキャスターがスタジオで原稿を読み上げている場面（キャスタショット）が頻繁に出現すること、話題の開始点は類似の構図のキャスタショットであること、話題の開始点で字幕（テロップ）が出現することに着目し、顔検出と、唇の動き検出と、ショットの分類と、テロップの検出とを組み合わせて機械的に話題の開始点を検出するものがある（例えば、非特許文献２参照）。

また、ニュース番組においてニュース項目のテロップが他のテロップより比較的表示時間が長いという特徴や、フレーム対してセンタリングされているという特徴などがあることを利用し、そのような特徴を持つテロップを検出することで、話題の開始点を検出するという方法も提案されている（例えば、非特許文献３参照）。
谷口行信、外村佳伸、浜田洋「映像ショット切替え検出法とその映像アクセスインタフェースへの応用」信学論（D-II）, Vol. J79-D-II, no.4, pp.538-546, 1996 井出一郎、山本晃司、浜田玲子、田中英彦「ショット分類に基づく映像への自動索引付け手法」信学論(D-II), Vol．J-82-D-II, No. 4, pp.1543-1551, 1999 加藤晴久、柳原広昌、中島康之「ニュース索引のためのMPEGからのテロップ検出に関する研究」情報処理学会研究報告, No.35, pp. 31-36

映像の構造の中でも、話題区間は、視聴者が便利に映像を視聴するために重要である。それは、ニュース番組や対談番組、情報提供番組などで、視聴者が関心のある話題だけを選んで視聴し、関心の無い話題はスキップするという視聴の仕方が可能となるからである。話題そのものを理解しながら、話題の境界点を見つけるという方法が確実であるが、人が映像を見て内容を理解しながら話題を区切るという方法では、人的コストがかかるという問題がある。かといって、機械によって映像の意味内容を理解させるのは現在の技術水準では難しい。そこで、映像の意味内容を理解することなく、話題境界点に表れる、認識しやすい特徴を組み合わせて話題区間を検出する方法が研究されており、前述の非特許文献２や非特許文献３に示される方法などが提案されている。

しかしながら、非特許文献２の方法は、類似のキャスタショットで話題が開始されることを仮定しており、話題の開始点の構図が異なると、話題の検出ができないという問題がある。例えば、同一番組中で、キャスタが１人映っている構図で話題が開始される場合と、キャスタが２人映っている構造で話題が開始される場合とがあると、このような問題が生じるであろう。

また、前述の非特許文献３の方法は、話題の境界点に出現するテロップに共通の特徴があるとの仮定に基づいており、この特徴が、全ての番組で統一されているならばうまく機能すると思われるが、実際には、番組によって話題の境界点に表示するテロップの位置や表示時間にはばらつきがあり、テロップが出ない場合も考えられるため、誤りが混入する可能性は否めない。

非特許文献２，３のどちらの例でも、ニュース映像を制作する際に、話題の境界点における構図やテロップの表示の仕方になにがしかのルールが存在するという仮定に基づいており、このルールが個々の話題や番組によって当てはまらない場合に問題が生じると考えられる。従って、この種の話題区間を検出する方法では、話題境界点において存在すると仮定するところの映像制作のルールの普遍性が、話題区間検出方法の精度の優劣に大きく影響すると考えられる。

本発明は、上記の点に鑑みなされたもので、話題境界点に表れる特徴を組み合わせて話題区間を検出する方法において、話題境界点に表れる特徴として、普遍性の高い特徴を利用する映像のインデクシング方法及びプログラムを提供することを目的とする。

我々は、日常の生活の中で、ニュース番組を見たり講演会を聴講したりしている際、発言の意味内容を必ずしも明確に理解していなくとも、話題の境界点がなんとなくわかるという経験をしている。これは、発言者の言葉以外から、視聴者が何らかのメッセージを受け取っているためであると考えられる。実は、人々がコミュニケーションをとる際に、言語以外の身振り手振り、話し振り、視線、沈黙などに、言語と同様かそれ以上に豊富なメッセージがのせられてやり取りされているといわれており、このことは、２０世紀中ごろから注目され、非言語コミュニケーション学として研究されている。

そこで、非言語コミュニケーションの考え方に基づけば、ニュース番組において話題の境界点で、そこが話題の境界点であることを示す信号が発せられているはずであると考え、その信号がどのように表れているかを調査した。

調査では、複数のニュース番組を観察し、次のような特徴を見出した。

（１）話題を開始する前には比較的長い沈黙がある。

（２）話題を開始する少し前から話し始めてしばらくの間継続的に顔が存在する。

（３）上記の（２）の顔は継続的に正面顔であるか、または、最初はうつむき顔で、後に顔を上げて正面顔になる。

（４）上記（３）の正面顔が正面顔である間と、うつむき顔がうつむき顔である間は、顔の動きが小さい。

これにより、上記の（１）〜（４）の特徴が、話題の開始点と密接に係わる特徴であると判断し、これらの特徴を有する点を話題の開始点と見做せるという仮説を立てた。

話題の開始点でこのような特徴が現れる理由を推察すれば、キャスターや番組制作者は、少しの間の沈黙をおいて、相手と視線を合わせることにより、相手の注意を引くことができるということを経験的に知っており、意識的にせよ、無意識的にせよ、ニュースを話し始める際にこのようなことを行うようルール化しているからであると考えられる。逆にニュースの途中の別段強調する必要のない場面では、そのようなことは行わないよう計らっていると考えられる。例えば、話の途中で正面を向いたまま不必要に長く沈黙することは行わない。キャスターや制作者がこのような映像を作るのは、非言語コミュニケーションにおけるルールが映像制作に応用され、番組制作上のルールとして表れているものであると考えられる。この非言語コミュニケーションにおけるルールは、少なくともそのコミュニケーションを行っている人々（この場合は日本人）の間では普遍的であると期待される。また、以上の知見は、ニュース番組に限らず、出演者が視聴者に語りかけて情報を伝達しようとするスタイルの番組については普遍的にあてはまると期待される。

上記の仮説の正当性を検証するため、複数のニュース番組について机上で検討し、形式ばったスタイルのニュース番組（例えば、NHKの定時ニュース等）で再現率９割程度、適合率９割程度、形式ばならいスタイルのニュース番組（例えば、民放のキャスターが複数いるニュース番組等）でも再現率６割程度、適合率８割程度の精度が期待できるという見通しを得た。

本発明は、上記の考察に基づいた発明である。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第１の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点ｔを検出し、第２の記憶手段に格納し（ステップ１）、
第２の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点ｔの前後で映像中に映っている人物の顔の特徴情報を検出して、第３の記憶手段に格納し（ステップ２）、
発話開始時点ｔの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し（ステップ３）、
発話開始時点ｔの直前の無発話区間の時間長が所与の時間長Ｔ０よりも長いという条件を満たし、
かつ、該発話開始時点ｔの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所与の時間Ｔｂ前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所与の時間Ｔａ後まで存在しているという条件を満たし、
かつ、映像の区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に（ステップ４）、
該発話開始時点ｔを、映像の索引を格納する第４の記憶手段に追加する（ステップ５）。

本発明（請求項２）は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第１の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点ｔを検出し、第２の記憶手段に格納し、
第２の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点ｔの前後で映像中に映っている人物の顔の特徴情報を検出して、第３の記憶手段に格納し、
発話開始時点ｔの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点ｔの直前の無発話区間の時間長が所与の時間長Ｔ０よりも長いという条件を満たし、
かつ、該発話開始時点ｔの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が該発話開始時点ｔより、少なくとも所与の時間Ｔｂ前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所要の時間Ｔａ後まで存在しているという条件を満たし、
かつ、映像の区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
該発話開始時点ｔを、映像の索引を格納する第４の記憶手段に追加する。

また、本発明（請求項３）は、請求項１において、顔の動きの大きさを評価するために、
顔の部品の画像上の位置の時系列を求め、
位置の時系列の分散を求め、
分散を顔の動きの大きさを表す尺度として用いる。

また、本発明（請求項４）は、請求項２において、顔の動きを評価するために、
顔の特定の部品の画像上の位置の時系列を求め、
位置の時系列を、その動きの変化の激しい部位にて前後に分け、
位置の時系列の前部に限って該位置の時系列の分散ｖaを求め、
位置の時系列の後部に限って該位置の時系列の分散ｖbを求め、
分散ｖaとｖbとを顔の動きの大きさを表す尺度として用いる。

また、本発明（請求項５）は、請求項１または２において、無発話区間を検出する際に、
音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を無発話区間とし、
無発話区間以外を発話がなされている区間と見做す。

また、本発明（請求項６）は、請求項１または、２において、
請求項１記載の５つの条件を満たした上で、あるいは、請求項２に記載の７つの条件を満たした上で、
映像区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、
顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点ｔを前記第４の記憶手段の前記映像の索引に追加する。

本発明（請求項７）は、映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシングプログラムであって、
上記の請求項１乃至６記載の映像のインデクシング方法の実現に用いられる処理をコンピュータに実行させる。

本発明に示す方法で、映像の区間の開始点を取得し、情報提供番組映像をインデクシングすれば、話題の開始点のインデックスが得られる。本発明に示す方法は、番組毎の制作ルールに左右されず、番組毎にルールを調整する必要から開放されるという効果がある。このインデックスを用いることにより、映像を話題毎に取捨選択し視聴できるようになるなど、映像の取り扱いに大きな利便性がもたらされる。

以下、図面と共に本発明の実施の形態を説明する。

以下では、映像番組の映像をディジタル化したものを入力とし、話題の開始点を検出する処理を例として説明する。

図２は、本発明の一実施の形態におけるシステムの構成である。

同図に示すシステムは、記憶装置１０１と、情報処理装置１０２から構成される。

記憶装置１０１は、入力となる映像のディジタルデータを格納するためと、話題の開始点の検出結果を格納するために用いられる。

情報処理装置１０２は、映像のディジタルデータを解析し、話題開始点の検出する処理を行う。

図３は、本発明の一実施の形態における話題開始点検出処理を行うための記憶装置と情報処理装置の具体的な構成を示す。

記憶装置１０１は、映像を規格可読形式で格納した映像ファイル２０１、映像中の無発話区間を表すデータを格納した無発話区間記憶部２０３、映像中の顔の特徴を表す特徴ベクトルの時系列データを格納した顔特徴ベクトル系列記憶部２０５、話題開始時刻を記憶する話題開始時刻記憶部２０７から構成される。

無発話区間記憶部２０３は、映像中の無発話区間を表すデータとして、無発話区間開始時刻ｆと、当該無発話区間に続く発話区間の開始時刻ｔの組からなる。

顔特徴ベクトル系列記憶部２０５は、特徴ベクトルの時系列データにおいて、記号Piはiの特徴ベクトル系列を表すものとし、系列Piのフレームjに対応する特徴ベクトルを記号P*ijで表すものとする（図３においては、ベクトル記号）。本実施の形態では、顔の特徴として、左目の画面上の座標と、両目の間隔と、顔のカメラに対する横首振り変位を用いるものとして説明する。この場合、特徴ベクトルP*ijは４次元ベクトルとなる。

情報処理装置１０２は、無発話区間検出処理部２０２、顔・特徴検出・追跡処理部２０４、特徴ベクトル系列評価処理部２０６から構成される。

無発話区間検出処理部２０２は、読込んだ映像ファイル２０１を解析し、映像中の無発話区間を検出し、無発話区間（f，ｔ）を無発話区間記憶部２０３に出力する。

顔検出・追跡処理部２０４は、映像ファイル２０１を解析して顔を検出し追跡し、顔特徴ベクトル系列を顔特徴ベクトル系列記憶部２０５に出力する。解析する映像区間は無発話区間記憶部２０３に格納された、無発話区間に応じて決定する。当該解析映像区間に顔が複数個検出された場合には、顔座標系列も複数個出力される。

特徴ベクトル系列評価処理部２０６は、顔特徴ベクトル系列記憶部２０５の顔特徴ベクトル系列を解析し、話題が開始されているか否かを判定し、話題が開始されていると判定された場合には、話題開始時刻を話題開始時刻記憶部２０７に出力する。

なお、映像においては、時刻とフレーム番号は互いに変換可能である。日本で広く用いられているＮＴＳＣ規格では、フレームレートは、２９．９７［フレーム／秒］であり、映像の先頭時刻を０［秒］、映像の先頭フレームを０［フレーム］とすると、
ｔ＝（１／２９．９７）ｆ
なる関係が成立する（Ｔの単位は秒、ｆの単位はフレーム）。以降の説明では、時刻を表すためにフレーム番号を用いる。

図４と図５は、本実施の形態における処理のフローチャートである。

以下、図４、図５のフローチャートに基づき話題による映像のインデクシング処理を説明する。

ステップ３０１）まず、変数ｆに０を代入する。

ステップ３０２）フレームｆから映像の末尾の方向へ、発話がなされている位置を探索する。発話がなされているか否かを判定する方法は種々あるが、本実施の形態では、次のように判定する。時間長がｗフレームであるブロックを１ブロックとし、１ブロック内の音声信号の振幅の絶対値の最大値をａとする。連続するｑ個のブロックについてａの値を平均し、平均値ａ⁻を求める。このａ⁻の値がＡより小さければ、当該連続するｑ個のブロックの区間は無発話区間であると見做し、そうでなければ発話がなされていると見做す。但し、ｗ，ｑ，Ａの値は、実施者が定める定数とする。この方法は、厳密には発話の有無を判定しているのではなく、音の大小を判定しているにすぎないのであるが、音の大小だけでもＢＧＭや雑音がない場合には、発話の有無の判定方法として代用できる。

フレームｆの位置における発話の有無は、フレームｆからフレームｆ＋ｗｑ−１までの区間の音声信号を調べ、判定するものとする。

上記の方法を用いて、フレームｆ，フレームｆ＋１，フレームｆ＋２，…と、映像の末尾に向けて１フレーム毎に順次発話の有無を判定し、発話有りと判定されたフレームが見つかったら該フレーム番号をｒとし、フラグＦを「真」にセットし、ステップ３０３に移行する。

なお、発話がなされているか否かを判定する方法は、必ずしも上記の方法による必要はなく、音声信号の振幅の絶対値が所与の値より大きいか否かで判定してもよいし、または、文献「南憲一、他“音情報を用いた映像インデクシングとその応用”信学論(D-II), vol. J81-D-II, no. 3, pp. 529-537, 1998」に示されている方法で、人の音声の有無を判定しても良いし、他の方法を用いてもよい。

ステップ３０３）フラグＦを調べ、発話がなされている位置ｒが見つかったか否かを判定し、見つかっていれば(フラグＦが「真」であれば)ステップ３０４に移行し、そうでなければ（フラグＦが「偽」であれば）、処理を終了する。

ステップ３０４）フレームｆから発話開始位置ｒまでの時間長ｒ−ｆを検査し、ｒ−ｆが所与の値Ｔ_０より大きければ、フレームｆの近傍についてより詳細に検査するためにステップ３０５に移行し、そうでなければフレームｆに関する検査を中断し、ステップ３２２に移行する。

ステップ３０５）無発話区間(ｆ，ｔ)をセットする。ステップ３０５に処理がわたったということは、時間長Ｔ_０以上の無発話区間について、フレームｒにて発話が開始されたということである。ｔ＝ｒとし、区間（ｆ，ｔ）は、フレームｆからフレームｔまでの映像区間を表すものとする。

ステップ３０６）フレームｔで顔検出を行う。画像の中から顔を検出する方法としては、種々の方法が開示されている。例えば、文献「Oliver jesorsky, Klaus J. Kirchberg and Robert W. Frischholz, “Robust Face Detection Using the Hausdorff Distance,” in Proc. Third international Conference on Audio- and Video-based Biometric person Authentication, Springer, Lecture Notes in Computer Science, LNCS-2091, pp.90-95, 2001」に示される方法がある。

また、Visionics corporation社のFaceIt(登録商標)など、顔検出及び認識のための市販ソフトウェアも存在する。また、顔の姿勢を得る方法として、例えば、文献「間瀬、渡部、末永、“ヘッドリーダ：画像による頭部動作の実時間検出”、信学論、vol. J74-D-II, no.3, pp. 398-406, 1991」に示される方法がある。これらの技術か、その他の顔検出方法を用いて、フレームｔの画像から顔を検出する。顔を検出した結果、顔の位置と姿勢が得られるものとする。顔の位置と姿勢を表すために、本実施の形態では、顔の左目の位置（ｘ，ｙ）と、両目の間隔ｇと、カメラ正面方向から横首振りの変位を表すθの組を特徴ベクトルとし、顔の位置と姿勢を特徴ベクトルｐ*＝（ｘ，ｙ，ｇ，θ）で表すことにする。顔の位置と姿勢を表す特徴ベクトルはこれに限らず他の構成をとっても構わない。例えば、鼻の位置と顔の首振り角(ピッチ、ロール、ヨー角)の組にて表してもよい。あるいは、姿勢を無視して、左目の位置のみで表してもよい。

ステップ３０７）上記のステップ３０６で検出されたフレームｔの顔の数をＭとする。

ステップ３０８）変数ｉを０とする。

ステップ３０９）フレームｔから時間を遡る方向にフレームｆまで顔ｉを追跡する。この追跡は次のように行う。今、フレームｊにおいて顔ｉが検出されており、その位置を（ｘij,ｙij）とする。フレームｊ−１において顔検出を行い、位置（ｘij,ｙij）の近傍で検出された顔の中で位置（ｘij,ｙij）に最も近い物を、顔ｉのフレームｊ−１における追跡結果とする。位置（ｘij,ｙij）の近傍に顔が検出されない場合は追跡を中断する。位置が近傍か否かは、位置の差(距離)が所与の値より小さいか否かで判定する。

顔を追跡する方法としては、テンプレートマッチングを用いる方法を適用してもよい。テンプレートマッチングを用いる方法は、次のような方法である。フレームｊの位置（ｘij，ｙij）の周辺をテンプレートとし、フレームｊ−１の位置（ｘij，ｙij）の近傍でテンプレートマッチングを行い、一致度が所与の値以上であっても最も一致度が高い位置を顔ｉのフレームｊ−１における追跡結果とし、顔の姿勢を得る。一致度が所与の値以上であるマッチングが得られない場合は追跡を中断する。

このようにしてフレームｔから遡り、フレームｆに到達するか、中断されるまで追跡を行う。

ステップ３１０）顔ｉの特徴ベクトル系列の起点ｂiをセットする。ステップ３０９で、顔ｉの追跡が行えた最も若番のフレーム番号をｂiとする。その結果、顔ｉの特徴ベクトル系列
ｐ*ib_i，…，ｐ*it
が得られる。

ステップ３１１）フレームｔから時間順方向にフレームｔ＋Ｋまで顔ｉを追跡する。この追跡は、追跡する方向が逆である以外は、ステップ３０９と同様にして行える。フレームｔから、フレームｔ＋Ｋに到達するか、中断されるまで追跡を行う。なお、Ｋは実施者が定める定数である。

本実施例では、Ｋ＝３０とする。

ステップ３１２）顔ｉの特徴ベクトル系列の終点ｅiをセットする。ステップ３１１で、顔ｉの追跡が行えた最も老番のフレーム番号をｅiとする。その結果、顔ｉの特徴ベクトル系列
ｐ*it，…，ｐ*ie_i
が得られる。

ステップ３１３）ステップ３０９からステップ３１２までの結果を合わせて、顔ｉの特徴ベクトル系列Ｐiをセットする。

Ｐi＝｛ｐ*ib_i，…，ｐ*it，…，ｐ*ie_i｝
ステップ３１４）変数ｉにｉ＋１を代入する。

ステップ３１５）変数ｉの値と、顔の数Ｍを比較し、ｉ＜Ｍであればステップ３０９に戻り、次の顔の特徴ベクトル系列を求める。そうでなければ、ステップ３１６へ移行し、顔特徴ベクトル系列の検査を行う。

ステップ３１６）変数ｉに０を代入する。

ステップ３１７）顔ｉの追跡された区間が、所与の基準より長いか否かを検査する。顔ｉの特徴ベクトル系列Ｐiの起点のフレーム番号をｂi、終点のフレーム番号をｅiとし、ｂi≧ｔ−Ｔbかつ、ｅi≦ｔ＋Ｔaであればステップ３１８に移行する。そうでなければ、顔ｉに関する検査を中断し、ステップ３２６に移行する。なお、Ｔa，Ｔbは、実施者の定める正の定数とする。本実施の形態では、Ｔa＝３０，Ｔb＝９とする。定数Ｔaは、顔が発話を始めてからある程度長く顔が表示され続けるという条件を判定するための定数であり、定数Ｔｂは、発話を始める前にある程度長く顔が表示し続けるという条件を判定するための定数である。

この後の手順では、区間［ｔ−Ｔb，ｔ＋Ｔa］に着目するため、Ｐiからｔ−Ｔbを始点とし、ｔ＋Ｔaを終点とする部分列を構成し、これを記号Ｐ#iで表す。

Ｐ#i＝｛ｐ*_{ｉ，ｔ−Ｔｂ}，…，ｐ*_{ｉ，ｔ＋Ｔａ}｝
ステップ３１８）特徴ベクトル系列Ｐiを分割し、部分系列Ｐ’i，Ｐ”iを求める。この処理は、キャスターが顔を上げてカメラを見て話し始めるような動作をする際に、系列Ｐiを、顔を上げる前の系列Ｐ’iと、顔を上げた後で系列Ｐ”iに分けることを目的とするものである。そのためには、動きの大きい部分を境界にして、その前後に分けるとよい。例えば、

の値が最大となるようなｋ(ｔ−Ｔb＋１＜ｋ＜ｔ＋Ｔa−１)を探し
Ｐ’i＝｛ｐ*_{ｉ，ｔ−Ｔｂ}，…，ｐ*_{ｉ，ｋ−１}｝，
Ｐ”i＝｛ｐ*_ｉ，ｋ，…，ｐ*_{ｉ，ｔ＋Ｔa}｝
とする。あるいは、Ｐ’iとＰ”iの動きの大きさの和が最小になるようなｋを探して分割してもよいし、他の方法で分割してもよい。

ステップ３１９）特徴ベクトル系列Ｐ#i，Ｐ’i，Ｐ”iの動きの大きさｖ、ｖ’、ｖ”と、分割部の動きｄ*を求める。

特徴ベクトル系列の動きの大きさは、ｘとｙの分散の和を顔の大きさで正規化したものと定義する。顔の大きさで正規化するために、本実施の形態では、両目の間隔ｇで割ることにする。特徴ベクトル系列Ｐの動きの大きさＶ（Ｐ）を次式で定義する。

ここで、

は、対象とする系列Ｐの要素αの平均値を表し、ｎは対象とする系列Ｐの長さを表すものとする。そして、特徴ベクトル系列の動きの大きさ
ｖ＝Ｖ（Ｐ#i），ｖ’＝Ｖ（Ｐ’i），ｖ”＝Ｖ（Ｐ”i）
を計算する。なお、特徴ベクトルの系列の動きの大きさは、上記の定義に限らず、他の方法で計ってもよい。

分割部の動きｄ*は、ステップ３１８の定義に沿って、本実施の形態では、
ｄ*＝(ｘ_ｉｋ−ｘ_{ｉ，ｋ−１}，ｙ_ｉｋ−ｙ_{ｉ，ｋ−１})
とする。

ステップ３２０）ステップ３１９で求めた量が、所定の条件を満たすか検査する。

所定の条件の第１は、系列Ｐ#iにおいて顔ｉの動きの大きさｖが所与の基準ｖ_０より小さく、かつ、系列Ｐ#iにおいて顔の横首振り変位θが所与のθ_０より小さいというものである。

所定の条件の第２は、系列Ｐ’iにおいて顔ｉの動きの大きさが所与の基準ｖ０より小さく、かつ、系列Ｐ”iにおいて顔ｉの動きの大きさが所与の基準ｖ_０より小さく、かつ、系列Ｐ#iにおいて顔の横首振り変位θが所与の値θ_０より小さく、かつ、分割部の動きｄ*の所定の条件を満たすというものである。

上記分割部の動きｄ*が満たすべき所定の条件とは、ｄ*の向きtan^−１d*がだいたい上向き（tan^−１d*と上方向との角度の差が所与の値ψ_０以下）であるというものである。

上記の条件１を式で表すと次の通りである。

上記の条件２を式で表すと次の通りである。

上記の条件１か、もしくは条件２を満たすとき、フレームｔにおいて話題が開始されているとみなし、ステップ３２１へ移行する。そうでなければ、顔ｉに関する検査を終了し、ステップ３２６へ移行する。

ステップ３２１）話題開始位置ｓを出力し、記憶装置１０１の話題開始時刻記憶部２０７に格納する。話題開始位置は、フレーム番号ｔで表す（ｓ＝ｔ）。

ステップ３２２）ｆにｒの値を代入する。

ステップ３２３）フレームｆ（もともとはｒの値であった）から映像の末尾の方向へ、無発話区間開始位置ｒ’を探索する。探索の方法は、探索対象が無発話区間であることを除けば、ステップ３０２と同様の方法で行うことができる。ステップ３０２では、

の値がＡより小さければ発話区間が見つかったと見做すが、ステップ３２３では、

の値がＡより大きければ無発話区間が見つかったと見做すようにすればよい。フレームｆ、フレームｆ＋１、フレームｆ＋２，…と、映像の末尾に向けて１フレーム毎に順次発話の有無を判定し、無発話区間と判定されたフレームが見つかったら、該フレーム番号をｒ’とし、フラグＦを「真」にセットし、ステップ３２４へ移行する。無発話区間が見つかることなく映像の末尾まで到達したら、無発話区間開始位置ｒ’が見つかったことを表すためにフラグＦを「偽」にセットし、ステップ３２４に移行する。

ステップ３２４）フラグＦを調べ、発話がなされている位置ｒ’が見つかったか否かを判定し、見つかっていれば（フラグＦが「真」であれば）ステップ３２５へ移行し、そうでなければ（フラグＦが「偽」であれば）、処理を終了する。

ステップ３２５）変数ｆにｒ’の値を代入する。

ステップ３２６）変数ｉにｉ＋１の値を代入する。

ステップ３２７）変数ｉの値と値Ｍとを比較し、ｉ＜Ｍであれば次の顔について検査するため、ステップ３１７へ戻る。そうでなければ、当該発話区間は話題開始位置ではないと見做して検査を終了してステップ３２２へ移行する。

以上の処理が終了すると、記憶装置１０１の話題開始時刻記憶部２０７には、話題開始位置を表すフレーム番号ｓのリストが出力されている。

図６は、本発明の理解を補助するための図である。

同図中のフレーム５０１は、映像中のフレームｔの近傍のフレームを抜粋したものを表している。フレームｔ−Ｔbからフレームｔ＋Ｔaまで顔が存在している様子を示している。同図中の音声信号５０２は、フレームｔの近傍の音声信号を表したものであり、フレームｔより前は発話がなく、フレームｔで発話が開始されたという状況を模式的に表している。

なお、本発明の実施の形態は、上記の実施の形態に限られるものではなく、同等の作用を持つならば適宜細部を変更しても構わないのは当然のことである。

例えば、上記の実施の形態では、映像を解析する際、逐次的に発話区間と顔検出を繰り返す形態としているが、先に映像全体の発話区間と無発話区間を決定し、その後映像全体について顔検出を行うような形態でも構わない。また、処理プログラムの複雑化をさけるために、あるいは、処理量を削減するために、顔の横首振り変位θを求める処理を省略し、θに関する条件判定を省略しても構わない。

また、上記の実施の形態で説明した一連の処理をプログラムとして構築し、情報処理装置（コンピュータ）にインストールし、ＣＰＵ等の制御手段により実行する、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムを情報処理装置（コンピュータ）に接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、映像のインデクシング技術に適用可能である。

本発明の原理を説明するための図である。本発明の一実施の形態におけるシステム構成図である。本発明の一実施の形態における話題開始点検出処理を行うための情報処理装置と記憶装置の具体的な構成図である。本発明の一実施の形態における処理のフローチャート（その１）である。本発明の一実施の形態における処理のフローチャート（その２）である。本発明の理解を補助するための図である。

符号の説明

１０１記憶装置
１０２情報処理装置
２０１映像ファイル
２０２無発話区間検出処理部
２０３無発話区間記憶部
２０４顔特徴検出追跡処理部
２０５顔特徴ベクトル系列記憶部
２０６特徴ベクトル系列評価処理部
２０７話題開始時刻記憶部
５０１フレーム
５０２音声信号

Claims

映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第１の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点ｔを検出し、第２の記憶手段に格納し、
前記第２の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点ｔの前後で映像中に映っている人物の顔の特徴情報を検出して、第３の記憶手段に格納し、
前記発話開始時点ｔの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し、
前記発話開始時点ｔの直前の無発話区間の時間長が所与の時間長Ｔ０よりも長いという条件を満たし、
かつ、該発話開始時点ｔの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所与の時間Ｔｂ前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所与の時間Ｔａ後まで存在しているという条件を満たし、
かつ、映像の区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に、
該発話開始時点ｔを、映像の索引を格納する第４の記憶手段に追加することを特徴とする映像のインデクシング方法。
映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第１の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点ｔを検出し、第２の記憶手段に格納し、
前記第２の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点ｔの前後で映像中に映っている人物の顔の特徴情報を検出して、第３の記憶手段に格納し、
前記発話開始時点ｔの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点ｔの直前の無発話区間の時間長が所与の時間長Ｔ０よりも長いという条件を満たし、
かつ、該発話開始時点ｔの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が該発話開始時点ｔより、少なくとも所与の時間Ｔｂ前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点ｔより、少なくとも所要の時間Ｔａ後まで存在しているという条件を満たし、
かつ、映像の区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
該発話開始時点ｔを、映像の索引を格納する第４の記憶手段に追加することを特徴とする映像のインデクシング方法。
前記顔の動きの大きさを評価するために、
顔の部品の画像上の位置の時系列を求め、
前記位置の時系列の分散を求め、
前記分散を顔の動きの大きさを表す尺度として用いる、請求項１記載の映像のインデクシング方法。
前記顔の動きを評価するために、
前記顔の特定の部品の画像上の位置の時系列を求め、
前記位置の時系列を、その動きの変化の激しい部位にて前後に分け、
前記位置の時系列の前部に限って該位置の時系列の分散ｖａを求め、
前記位置の時系列の後部に限って該位置の時系列の分散ｖｂを求め、
前記分散ｖａとｖｂとを顔の動きの大きさを表す尺度として用いる、請求項２記載の映像のインデクシング方法。
前記無発話区間を検出する際に、
音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を前記無発話区間とし、
前記無発話区間以外を発話がなされている区間と見做す、請求項１または、２記載の映像のインデクシング方法。
請求項１記載の５つの条件を満たした上で、あるいは、請求項２に記載の７つの条件を満たした上で、
前記映像区間［ｔ−Ｔｂ，ｔ＋Ｔａ］において、
顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点ｔを前記第４の記憶手段の前記映像の索引に追加する、請求項１または、２記載の映像のインデクシング方法。
映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシングプログラムであって、
請求項１乃至６記載の映像のインデクシング方法を実現させるための処理をコンピュータに実行させることを特徴とする映像のインデクシングプログラム。