JP2004515982A

JP2004515982A - テレビ会議及び他の適用においてイベントを予測する方法及び装置

Info

Publication number: JP2004515982A
Application number: JP2002548983A
Authority: JP
Inventors: ギュッタ，スリニヴァス; ジェイストルビー，ヒューゴ; コルメナレツ，アントニオ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-12-05
Filing date: 2001-12-03
Publication date: 2004-05-27
Also published as: EP1260099A1; CN1422494A; US6894714B2; US20020101505A1; WO2002047386A1

Abstract

聴覚的及び視覚的なキューによりイベントを予測する方法及び装置である。例えばテレビ会議の参加者が自分が話す前に示す挙動といったイベントに一般的に関連付けられる１以上の（ｉ）抑揚パターン、声の高さ、強さ等の聴覚的キュー、（ｉｉ）目線、顔のポーズ、体の姿勢、手振り、顔の表情等の視覚的キュー、又は、（ｉｉｉ）上述のキューの組合せを識別するためにオーディオ及びビデオ情報を処理する。このように本発明によればビデオ処理システムが次の話者のアイデンティティ等のイベントを予測しうる。予測話者識別部は学習モードで１以上の所定の視覚的又は聴覚的キューが存在する又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念に関して各参加者の特徴プロファイルを学習するよう動作し、予測モードで特徴プロファイル中の学習された特徴をオーディオ及びビデオ情報と比較し次の話者を予測するよう動作する。

Description

【０００１】
［発明の分野］
本発明は、概してビデオ信号処理の分野に係り、更に特定的にはテレビ会議等のオーディオ・ビジュアル・プレゼンテーションにおいて次の話者といったイベントを予測する技術に関連する。
【０００２】
［発明の背景］
テレビ会議システムは、遠隔地のユーザが聴覚的及び視覚的に互いにコミュニケーションをとることを可能とするためにますます使用されるようになっている。従って、テレビ会議システムは、遠隔地のユーザが物理的に同じ場所にいない場合であっても、遠隔地のユーザが同じ部屋にいるかのようにコミュニケーションをとることを可能とし、ユーザが視覚的なジェスチャーや顔の表情で話を強調することを可能とする。結果として得られる出力ビデオ信号中で特定の会議参加者を追跡することは、テレビ会議システムの重要な面である。
【０００３】
テレビ会議システムは、現在の話者を追跡するために、パン・チルト・ズーム（ＰＴＺ）カメラを使用することが多い。ＰＴＺカメラは、システムが追跡を行うためにカメラを配置し光学的にズームすることを可能とする。最初は、テレビ会議システムのＰＴＺカメラのための制御システムは、現在の話者に合わされた焦点を維持するために操作者がカメラに対して手動調整を行うことを必要とした。しかしながら、テレビ会議システムのユーザは、ＰＴＺカメラの制御が完全に自動化されねばならないハンズフリー操作をますます必要とするようになっている。
【０００４】
オーディオ及びビデオ情報に基づいて人物を自動的に検出するために多数の技術が提言又は提案されてきた。オーディオロケータは、典型的には、マイクロホンのアレイから得られるオーディオ情報を処理し、話者の位置を決定する。特に、相対的なマイクロホンの位置が知られているとき、音源の位置は周知の三角測量技術を用いて単一の源からの音波の推定される伝搬時間差から決定されうる。同様に、ビデオロケータは、典型的には、テレビ会議中の話者の頭や肩といったビデオ画像中の１以上の関心対象の位置を見つける。画像中の画像の位置を検出するために、例えばここに参照として組み入れられる”ＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ：ＦｒｏｍＴｈｅｏｒｙｔｏＡｐｐｌｉｃａｔｉｏｎｓ” （ＮＡＴＯＡＳＩＳｅｒｉｅｓ，ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，ＮｅｗＹｏｒｋ，Ｈ．Ｗｅｃｈｓｌｅｒｅｔａｌ．，ｅｄｉｔｏｒｓ，１９９８）に記載のような、多数の周知の技術が利用可能である。
【０００５】
テレビ会議システムにおいて話者を追跡するための従来の技術は多くの適用のために満足のいくものであるが、もし克服されればかかるテレビ会議システムの有用性や性能を大きく広げうる多数の制限を受けている。特に、従来のテレビ会議システムは一般的に本質的に反応的である。従って、イベントが既に生じた後にのみイベントに対して注意が向けられる。例えば、いったん新しい人物が話し始めると、カメラが新しい話者に焦点を合わせるまでに幾らかの遅延があり、遠隔地のユーザが同じ部屋にいて自然な面と向かっての対話を経験しているという感覚を受けることが妨げられる。
【０００６】
面と向かっての対話の場合、人が話し始めようとするとき、又は、人が他の話者の次の順番であるときに、人間は多くの合図を示すことが観察されている。例えば、Ｓ．ＤｕｎｃａｎａｎｄＮｉｅｄｅｒｅｈｅ， ”ＯｎＳｉｇｎａｌｉｎｇＴｈａｔＩｔ’ｓＹｏｕｒＴｕｒｎｔｏＳｐｅａｋ，” Ｊ．ＥｘｐｅｒｉｍｅｎｔａｌＳｏｃｉａｌＰｓｙｃｈｏｌｏｇｙ，Ｖｏｌ．２３，（２），ｐｐ．２３４−２４７（１９７２）及びＳ．ＤｕｎｃａｎａｎｄＤ．Ｗ．Ｆｉｓｋｅ，Ｆａｃｅ−ｔｏＦａｃｅＩｎｔｅｒａｃｔｉｏｎ，ＬａｗｒｅｎｃｅＥｒｌｂａｕｍＰｕｂｌｉｓｈｅｒｓ，Ｈｉｌｌｓｄａｌｅ，ＮｅｗＪｅｒｓｅｙ，（１９７７）を参照のこと。例えば、人が他の話者の次の順番であるとき、次の順番の話者が身を乗り出したり、目線を現在の話者に向けたり、腕で身振りをしたりするといった微妙なキューが観察されている。
【０００７】
従って、人間と機械の間の自然な言語のコミュニケーションを確立しよう試みるとき、研究者たちは、人が異なる種類の感じられる情報（キュー）を文脈的な情報及び以前に捕捉された知識と組み合わせる能力は高度な水準であることを認識した。ビデオ処理システムにおいてかかるキューを適用するイベントを予測するための改善された技術が必要とされる。更に、次の話者又は他のイベントを予測するために、顔の表情、目線、体の姿勢といった幾つかのキューを分析する方法及び装置が必要とされる。更に、次に順番がまわる話者を予測するための多数のキューを統合する話者検出システムが必要とされる。更に、各参加者についてその参加者が話し始める前にどのキューが示されるかを識別するための特徴プロファイルを使用し話者を検出する方法及び装置が必要とされる。
【０００８】
［発明の概要］
概して、ビデオ処理システムにおいてイベントを予測する方法及び装置が開示される。特に、本発明は、特定のイベントが生じようとする前に一般的に人によって示される１つ以上の（ｉ）抑揚パターン、声の高さ、及び、声の強さといった聴覚的なキュー、（ｉｉ）目線、顔のポーズ、体の姿勢、手振り、及び、顔の表情といった視覚的なキュー、（ｉｉｉ）上述のキューの組み合わせを識別するためにオーディオ又はビデオ情報（又は両方）を処理する。例えば、テレビ会議の参加者は、例えば自分が話す前又は現在の話者が話を終えようとしているときに、或る聴覚的又は視覚的なキューを示す。このようにして、本発明は、ビデオ処理システムが次の話者が誰であるのかというアイデンティティといったイベントを予測することを可能とする。
【０００９】
適応位置ロケータは、公知の方法で人物の位置を決定するためにオーディオ及びビデオ情報を処理する。更に、本発明は、１以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測する予測話者識別部を提供する。予測話者識別部は、１以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するために、オーディオ及びビジュアル信号と顔認識分析の結果とを受け取り処理する。予測話者識別部によって発生される話者予測は、カメラを合焦し、予測される話者の画像を得るために使用される。
【００１０】
予測話者識別部は、学習モードでは、１以上の所定の視覚的又は聴覚的なキューが存在するとき又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念に関して、各参加者の特徴プロファイルを学習するよう動作する。その後、予測話者識別部は、予測モードでは、特徴プロファイル中に具現化された学習された特徴をオーディオ及びビデオ情報と比較し、それにより次の話者を予測するよう動作する。
【００１１】
本発明のより完全な理解、並びに、本発明の更なる特徴及び利点は、以下の詳細な説明及び図面を参照することによって得られるであろう。
【００１２】
［発明の詳細な説明］
図１は、本発明によるビデオ処理システム１０を示す図である。本発明は、例えばビデオ会議の参加者が話し始める前又は話し終える前といった所与のイベントの前に人によって一般的に示される１つ以上の（ｉ）抑揚パターン、声の高さ、及び、声の強さといった聴覚的なキュー、（ｉｉ）目線、顔のポーズ、体の姿勢、手振り、及び、顔の表情といった視覚的なキュー、（ｉｉｉ）上述のキューの組み合わせを識別するためにオーディオ及びビデオ情報を処理する。ここでは本発明は話者の変更を検出するためのビデオ会議システムの文脈について説明するが、本発明は、以下の開示に基づいて当業者によって明らかとなるように、人間によって示される関連付けられる聴覚的又は視覚的なキューを有する任意のイベントを検出するために適用されうる。
【００１３】
図１に示されるように、システム１０は、プロセッサ１２、メモリ１４、入力出力Ｉ／Ｏ装置１５、及び、図３を参照して以下詳述する適応位置ロケータ３００を含み、これら全てはシステムバス１７を通じて通信するよう接続される。システム１０は更に、図示されるように適応位置ロケータ３００に結合されるパン・チルト・ズーム（ＰＴＺ）カメラ１８を含む。１以上の追加的な広角カメラ（図１には図示せず）もまた、各参加者２２−１乃至２２−Ｎの視覚的なキューを捕捉するために、図３を参照して以下詳述するようにシステム１０に含まれてもよい。例えば、カメラは、前に乗り出している人物を検出するために参加者２２−Ｎの斜めからの視野を得るよう配置されうる。
【００１４】
例示的な実施例では、ＰＴＺカメラ１８は、テーブル２０が会議参加者２２−１乃至２２−Ｎを受け入れるテレビ会議適用において使用される。動作上、ＰＴＺカメラ１８は、プロセッサ１２から受信される命令に従って適応位置ロケータ３００によって命令されるように、この例としての適用では特定の参加者２２−ｋに対応する関心対象を追跡する。更に、図１に示されるように、ビデオ処理システム１０は、公知の方法でオーディオ情報を捕捉するためのマイクロホンのアレイ１６を含む。
【００１５】
本発明はテレビ会議適用の文脈について説明されているが、ビデオ処理システム１０は次の話者が誰であるのかについてのアイデンティティを予測することが要求される他の適用に使用されうることが理解されるべきである。更に、本発明は、他のタイプのテレビ会議適用、例えば、議会のような座席の配置や円形又は矩形のテーブル配置を含む適用にも使用されうる。更に一般的には、システム１０の部分２４は、ここに開示される適応位置ロケータ３００によって与えられる改善された追跡機能から利益を受ける任意の適用に使用されうる。従ってシステム１０の部分２６は、例えば他のテレビ会議配置、又は、１以上の話者がシステム１０の部分２４を用いて追跡される他の任意の配置で置き換えられうる。また、本発明は、ＰＴＺカメラ以外の画像捕捉装置と共に使用されうることが明らかとなろう。従って、本願では「カメラ」という用語は、本願で開示される適応位置ロケータ３００と共に使用されうる任意のタイプの画像捕捉装置を含むものであることが意図される。
【００１６】
尚、システム１０の要素又は要素群は、本発明の部分を除き従来通りであるデスクトップコンピュータ又はポータブルコンピュータの対応する要素、並びに、これらの及び他の処理装置の部分又は組み合わせを表わしうる。更に、本発明の他の実施例では、プロセッサ１２の機能のうちの幾つか又は全て、又は、ＰＴＺカメラ１８及び追加的な広角カメラ（図１には図示せず）、又は、システム１０の他の要素は、単一の装置へ組み合わされうる。例えば、ＰＴＺカメラ１８及び追加的な広角カメラの両方の機能は単一のカメラに統合されえ、広角画像から画像処理技術を用いて所望のクローズ・アップ画像が取得されうる。
【００１７】
更に、システム１０の１以上の要素は、コンピュータ、テレビジョン、セットトップボックス、又は他の処理装置に組み入れられる特定用途向け集積回路（ＡＳＩＣ）又は回路カードとして実施されうる。本願では「プロセッサ」という用語は、マイクロプロセッサ、中央処理装置、マイクロコントローラ、又は、所与のデータ処理装置において使用されうる任意の他のデータ処理要素を含むことが意図される。更に、メモリ１４は、電子メモリ、光ディスク又は磁気ディスク式のメモリ、テープ式のメモリ、並びに、上述及び他の種類の記憶装置の組合せ又は部分を表わしうる。
【００１８】
［適応位置追跡用語］
図２は、図１の適応位置ロケータ３００によって実施されるトラック・アンド・ズーム特徴を示す機能ブロック図である。図２に示すように、トラック・アンド・ズーム特徴は、検出・追跡動作３２と、光学ズーム動作３４とを含む。これらの動作について、システム１０の部分２６の典型的なテレビ会議適用のために発生される画像に対応する画像４０、４２、及び４４を参照して説明する。動作３２及び３４は、メモリ１４に格納される、又は、ローカルな又は遠隔の記憶装置からＩ／Ｏ装置１５を介してアクセス可能な１以上のソフトウエアプログラムを用いてプロセッサ１２及び適応位置ロケータ３００によってシステム１０中で実施されうる。
【００１９】
動作上、ＰＴＺカメラ１８は、テレビ会議の参加者２２−ｋといった関心対象と、関心対象の隣の他の参加者２２−ｋ＋１といった追加的な対象とを含む画像４０を生成する。画像４０は、周知の従来の検出及び追跡技術を用いて関心対象２２−ｋを検出及び追跡する検出・追跡動作３２へのビデオ入力として供給される。
【００２０】
例えば、テレビ会議適用では、関心対象２２−ｋは、現在の話者に対応しうる。この場合、検出・追跡動作３２は、図３を参照して以下詳述するように、どの会議参加者が現在の話者であるかを決定するために、オーディオにより位置を探す技術を用いて関心対象２２−ｋを検出及び追跡しうる。更なる変形例では、現在の話者は、例えば、動き検出を用いること、身振りをすること、頭を振ること、特定の動き方をすること、又は、特定の話し方をすることを用いて識別されうる。検出・追跡動作３２の出力は、画像４２中に斜線部として示される特定の関心対象２２−ｋを識別する情報を含む。
【００２１】
図２の光学ズーム動作３４は、所望の出力画質が達成されることを確実とする十分な量のズームを与えると共に、関心対象の幾らかの量の動きを可能とする。光学ズーム動作３４は、関心対象２２−ｋをフレーミングするパン・チルト動作を有するフレーミング部分と、それに続く、指定された停止規準が満たされるまで続けられるズーム動作を有するズーム部とを含む。一般的に、使用されうる停止規準には多くの異なる種類がある。一定停止規準アプローチでは、光学ズームは関心対象が画像の一定の割合を占めるまで続く。例えば、テレビ会議システムでは、光学ズームは、現在の話者の頭が画像の垂直寸法の約２５％乃至３５％を占めるまで続けられうる。もちろん、使用される特定の割合は、追跡適用に依存して変化する。特定の適用に適した特定の割合は、当業者によって単純に決定されうる。
【００２２】
図２に示すように、光学ズーム動作３４の結果は、関心対象２２−ｋが画像中で略中央に配置され、上述の規準に基づいて決定されるように画像中の所望の割合を占める光学的にズームされた画像４４である。画像４４は、システム１０によって、例えばメモリ１４に記憶されるか、ユーザに提示されうる。
【００２３】
［適応位置ロケータ］
図３は、図１のシステム１０において実施される適応位置ロケータ３００を示す機能ブロック図である。一般的に、適応位置ロケータ３００は、話者の位置を決定するためにオーディオ及びビデオ情報を処理する。適当な適応位置ロケータ３００のより詳細な説明のために、例えば、本願の譲受人に譲渡された”ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＡｄａｐｔｉｖｅＰｏｓｉｔｉｏｎＤｅｔｅｒｍｉｎａｔｉｏｎｉｎＶｉｄｅｏＣｏｎｆｅｒｅｎｃｉｎｇａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓ”なる名称の２０００年５月３日出願の米国特許出願第０９／５６４，０１６号を参照のこと。
【００２４】
更に、本発明によれば、適応位置ロケータ３００は、１以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するための、図４を参照して以下詳述する予測話者識別部４００を含む。最初に、システム起動中、広角カメラ３０５及びマイクロホンアレイ１６が作動する。広角カメラ３０５及びマイクロホンアレイ１６によって発生される信号は、いつ信号が発生されたかを適応位置ロケータ３００が決定することを可能とするよう段階３１５において任意にタイムスタンプが付されうる。図３に示すように、広角カメラ３０５によって発生されるタイムスタンプが付された信号は顔認識モジュール３２０へ渡される。顔認識モジュール３２０は、所与の関心領域（ウィンドウ）が顔としてラベル付けされうるか否かを確かめる顔検出部を含む。顔認識モジュール３２０は、与えられた顔に対して固有の識別子を割り当てる。
【００２５】
広角カメラ３０５によって発生される画像と、顔認識の結果及びそれらの位置は、フレームバッファ３２５に記憶される。しかしながら、例えば、話者と広角カメラ３０５との間の距離によって、顔認識モジュール３２０が所与の顔に対して固有の識別子を割り当てることができない場合、フレームバッファ３２５の中には顔検出情報と画像中の検出された顔の対応する位置のみが記録される。参加者が来ている衣服の色といった追加的な情報もまたバッファ３２５に記録されうる。衣服の色は、例えば、顔認識モジュール３２０が所与の顔に対して固有の識別子を割り当てることができないが、顔認識は成功し、最初の参加者が部屋を去った後に他の参加者が同じ場所に座ったときに特に有用である。
【００２６】
顔認識モジュール３２０は、例えば、夫々が本願の譲受人に譲渡されここに参照として組み入れられる”ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＤｅｔｅｃｔｉｎｇＭｏｖｉｎｇＯｂｊｅｃｔｓＩｎＶｉｄｅｏＣｏｎｆｅｒｅｎｃｉｎｇａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓ”なる名称の１９９９年１１月２４日出願の米国特許出願第０９／４４９，２５０号、及び、”ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＴｒａｃｋｉｎｇＭｏｖｉｎｇＯｂｊｅｃｔｓＵｓｉｎｇＣｏｍｂｉｎｅｄＶｉｄｅｏａｎｄＡｕｄｉｏＩｎｆｏｒｍａｔｉｏｎｉｎＶｉｄｅｏＣｏｎｆｅｒｅｎｃｉｎｇａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓ”なる名称の２０００年４月１３日出願の米国特許出願第０９／５４８，７３４号に記載のビデオにより位置を探すシステムを用いて実施されうる。図２を参照して上述したように、ビデオシステムは、顔が表示のための正しいアスペクト比で表示されるよう顔の上に合焦（ズーム）しようとする。
【００２７】
同様に、図３に示すように、マイクロホンアレイ１６によって発生されるタイムスタンプが付された信号は、話者識別モジュール３３０及びオーディオロケータ３６０へ渡される。マイクロホンアレイ１６によって発生されるオーディオ信号は、話者識別の結果と共に、フレームバッファ３２５に記憶される。更に、オーディオロケータ３６０は、空間変換モジュール３７０へ渡される雑音源に関連するパン（水平）及びチルト（垂直）角度を識別する方向情報を得る。オーディオロケータ３１０は、例えば、夫々本発明の譲受人に譲渡されここに参照として組み入れられる”ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＴｒａｃｋｉｎｇＭｏｖｉｎｇＯｂｊｅｃｔｓＵｓｉｎｇＣｏｍｂｉｎｅｄＶｉｄｅｏａｎｄＡｕｄｉｏＩｎｆｏｒｍａｔｉｏｎｉｎＶｉｄｅｏＣｏｎｆｅｒｅｎｃｉｎｇａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓ”なる名称の２０００年４月１３日出願の米国特許出願第０９／５４８，７３４号、及び、”ＩｍｐｒｏｖｅｄＳｉｇｎａｌＬｏｃａｌｉｚａｔｉｏｎＡｒｒａｎｇｅｍｅｎｔ”なる名称の１９９９年１１月８日出願の米国特許出願第０９／４３６，１９３号に記載のオーディオにより位置を探すシステムを用いて具現化されうる。
【００２８】
オーディオ及びビデオ信号は、意味のあるイベントに対応するデータの収集を可能とするために、例えば２秒間といった所定の間隔に亘って蓄積される。この所定の間隔の間に生ずるビデオフレームは、動きを検出するために動き検出部３５０によって互いに比較される。例えば、参加者が自分の手を動かしているとき、この動きは、動き検出部３５０において連続するビデオフレームを比較することによって検出され、手の動きの識別された位置は空間変換モジュール３７０へ渡される。
【００２９】
動き検出部モジュール５３０は、かなりの量の動きを有するフレーム部分のみを識別するために任意に動き経験則（ｈｅｕｒｉｓｔｉｃｓ）３４０を使用しうる。動き検出部モジュール３５０は、このようにこのフィルタリングされた情報のみを空間変換モジュール３７０へ渡す。例えば、頭を回したことを検出するために、対応する動き経験則は、応答をトリガする前にどれだけの変化が必要であるかを示しうる。概して、動き経験則３４０は、他の雑音又は話者の動きに関わらず、カメラ１８を現在の話者に焦点を当てたままにしようとする。換言すれば、動き経験則３４０は、動き検出部３５０によって発生される誤ったイベントを識別し抑制しようとする。動き経験則３４０で実施されうる種々の技法については、例えば、ここに参照として組み入れられるＲａｍｅｓｈＪａｉｎｅｔａｌ．， ”ＭａｃｈｉｎｅＶｉｓｉｏｎ”，ＭｃＧｒａｗ−Ｈｉｌｌ，ＮｅｗＹｏｒｋ（１９９５）を参照のこと。
【００３０】
このように、空間変換モジュール３７０は、動き検出部モジュール３５０から位置情報を、オーディオロケータ３６０から方向情報を受け取る。次に、空間変換モジュール３７０は、公知の方法でＰＴＺカメラ１８を合焦させるために使用されうる境界ボックスの計算のために位置及び方向情報をマップする。
【００３１】
［聴覚的及び視覚的なキューの処理］
図３に示すように、ＰＴＺカメラ１８によって生成されるビデオ画像、並びに、フレームバッファ３２５及び話者識別モジュール３３０の内容は、図４を参照して以下詳述する予測話者識別部４００に与えられる。特に、フレームバッファ３２５の内容は、広角カメラ３０５によって発生される広角画像及び対応する顔認識結果、並びに、マイクロホンアレイ１６によって発生されるオーディオ信号及び対応する話者識別結果を含む。このように、予測話者識別部４００は広角画像及びオーディオ信号から発言していない各参加者２２−Ｎの視覚的及び聴覚的なキューを識別しうる。
【００３２】
概して、適応位置ロケータ３００は、上述のように話者の位置を決定するためにオーディオ及びビデオ情報を処理する。図３に示すように、適応位置ロケータ３００は、次の話者のアイデンティティを予測するために本発明によって、図４を参照して以下説明する予測話者識別部４００と対話する。図３に示すように、予測話者識別部４００は、フレームバッファ３２５、ＰＴＺカメラ１８、及び話者識別モジュール３３０からオーディオ及びビデオ情報を受信する。予測話者識別部４００は、１以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するために、受信されたオーディオ及びビデオ情報を処理する。予測話者識別部４００によって発生される話者予測は、図３に示すようにＰＴＺカメラ１８を合焦させるために使用される。
【００３３】
図４は、図１のシステム１０において実施される予測話者識別部４００を示す機能ブロック図である。図４に示すように、予測話者識別部４００は、視覚キュー識別部４１０及びオーディオキュー識別部４２０を含む。ある参加者が画像中に現れると、参加者が話す前に示されることが多い１以上の視覚的なキュー、例えば、顔のポーズ（頭の方向）、視線（目の方向）、顔の表情、手振り、体の姿勢等を識別するために、ビデオ信号は視覚キュー識別部４１０によって処理される。同様に、参加者が話す前に示されることが多い１以上の所定のオーディオキュー、例えば抑揚パターン、声の高さ、声の大きさ、話者の評価、話者の識別、及び音声認識等を識別するために、オーディオ信号はオーディオキュー識別部４２０によって処理される。次の話者のアイデンティティを推測するために使用されうる特定の聴覚的及び視覚的なキューの処理については、以下の「視覚的及び聴覚的なキュー」と題された部分において詳述する。
【００３４】
「学習モード」
予測話者識別部４００は、１以上の所定の視覚的又は聴覚的なキューが存在するとき又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念について各参加者の以下図５を参照して詳述する特徴プロファイル５００を学習するために学習モードで学習モジュール４５０を使用する。
【００３５】
以下、図５を参照して説明するように、各参加者に関連する視覚的及び聴覚的なキューは、属性値のレコードとして特徴プロファイル５００に格納されうる。更に、例えば話者の識別、顔認識、又は他の情報から得ることができる参加者のアイデンティティもまた属性値と共に特徴プロファイル５００に記録される。
【００３６】
レコード中の各属性値は、多数の離散した又は記号的な値を取りうる。例えば、ジェスチャーモジュールでは、ある参加者は、例えば発言してもよいとの許可を得るために指を上げるといった特定の一組のジェスチャーをはっきりと表現することによって次の発言の順番を得ようとする可能性を示しうる。特定のジェスチャー、並びに、他のキューモジュールについての属性値は、参加者が話す前に示すジェスチャーの種類、ポーズ、並びに、他の聴覚的及び視覚的なキューを確かめるために多数のビデオ会議セッションを分析することによって決定される。
【００３７】
参加者が「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される（及び／又は示されない）所定の視覚的又は聴覚的なキューを特徴付けるために、学習モジュール４５０は、例えばここに参照として組み入れられるＪ．Ｒ．Ｑｕｉｎｌａｎ， ”ＬｅａｒｎｉｎｇＥｆｆｉｃｉｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎＰｒｏｃｅｄｕｒｅｓａｎｄｔｈｅｉｒＡｐｐｌｉｃａｔｉｏｎｔｏＣｈｅｓｓＥｎｄＧａｍｅｓ，” Ｒ．Ｓ．Ｍｉｃｈａｌｓｋｉｅｔａｌ．，Ｅｄｉｔｏｒｓ，ｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＡｎＡｒｔｉｆｉｃｉａｌＡｐｐｒｏａｃｈ，Ｖｏｌ．１，ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓＩｎｃ．，ＰａｌｏＡｌｔｏ，Ｃａｌｉｆｏｒｎｉａ（１９８３）、又は、Ｊ．Ｒ．Ｑｕｉｎｌａｎ， ”ＰｒｏｂａｂｌｉｓｔｉｃＤｅｃｉｓｉｏｎＴｒｅｅｓ，” Ｙ．ＫｏｄｒａｔｏｆｆａｎｄＲ．Ｓ．Ｍｉｃｈａｌｓｋｉ，Ｅｄｉｔｏｒｓ，ｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＡｎＡｒｔｉｆｉｃｉａｌＡｐｐｒｏａｃｈ，Ｖｏｌ．３，ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓＩｎｃ．，ＰａｌｏＡｌｔｏ，Ｃａｌｉｆｏｒｎｉａ（１９９０）に記載されるような決定木（ＤＴ）を使用しうる。他のアプローチでは、参加者が「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される（及び／又は示されない）所定の視覚的又は聴覚的なキューを特徴付けるために、隠れマルコフモデル（ＨＭＭ）が使用されうる。
【００３８】
一般的に、決定木は学習セット上に構築され、節と葉を有し、節は行われるべき何らかのテストに対応し、葉はクラス（即ち「これから話すであろう」又は「これから話さないであろう」に対応する）。木が有しうる節の数は、データの複雑さに依存する。最悪の場合は、節の数は最大でも可能な属性値の数に等しくなりうる。例えば、木の根から葉への１つの部分経路は、規則へ分解されたときは、以下の形式、

を取りうる。この例は、図５の特徴プロファイル５００中にも現れる。尚、上述のブール表現において文字「？」は「気にしていない」条件又はワイルドカードを示す。
【００３９】
「予測モード」
同様に、予測話者識別部４００は、次の話者を予測するために特徴プロファイル５００中に具現化された学習された特徴を適用するために予測モードで新話者予測部４７０を使用する。
【００４０】
いったん、十分な時間に亘って学習が達成され、決定木が構築されると、決定木は、次の話者が誰になるのかを確かめるためにどのモジュールからのどの種類の特徴が十分であるのかを確かめるために予測モードで構文解析される。このように、予測モード中、新話者予測部４７０によって使用される決定木はＰＴＺカメラ１８に命令を与え、誰が次の話者になるのかという結論を得るためにどのモジュールが使用されるべきであるかを決定する。
【００４１】
尚、セッション中に誰が次の話者になるのかという予測は、データマイニング／知識発見問題として考えられる。このような領域では、データから見分けられる何らかのパターンがあるか否かを見つけることが目的となる。従って、本願で確立しようとする特定のパターンは、参加者が会話に参加する可能性の見込みに対して何らかのキューを示すか否かである。決定木は、データに内在する同時出現（ｓｉｍｕｌｔａｎｅｏｕｓｏｃｃｕｒｒｅｎｃｅｓ）と、明示的に学習された結果出現（ｃｏｎｓｅｃｕｔｉｖｅｏｃｃｕｒｒｅｎｃｅｓ）との間の因果関係を学習するために使用される。例えば、以下のタイプの規則が学習されうる：参加者が身を乗り出し指を上げ、規則における他の連言詞が知られていないときは、参加者は話そうとしているところでありうる（結果出現）。
【００４２】
発言の順番を検出するために、連続的なウィンドウについての決定木が（顔認識／話者認識／オーディオにより位置を見つける方法を通じて確かめられる）異なる参加者に対する分類を与えると、システムは異なる話者が話し始めたと想定する。ある挙動が次の話者を示唆する「キュー」を構成するのに十分であると示すために使用されうる正確な閾値は、経験的に決定されうる。
【００４３】
上述のように、図４の予測話者識別部４００は、「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される又は示されない１以上の所定の視覚的又は聴覚的なキューを特徴付けるために、図５に示す特徴プロファイルを用いる。図５は、特徴プロファイル５００の可能な実施を記述する例としての表である。図５に示すように、特徴プロファイル５００は、規則へ分解された時は夫々が決定木の根から葉への異なる経路に関連付けられるレコード５０５−５１５といった多数のレコードを含む。各決定木経路に対して、特徴プロファイル５００は経路を定義するフィールド５５０−５６５中の属性値対と、フィールド５７０の対応する概念分類とを識別する。
【００４４】
従って、特徴プロファイル５００中のある規則が、新しい参加者が発言の順番になろうとしていることを示唆するとき、予測話者識別部４００は、参加者が話し始めたとたんにカメラ１８が予測される話者に焦点を合わせることができるようカメラ１８に対して予測ＰＴＺ値を与えうる。１つの実施では、予測される話者を追跡するために第２のＰＴＺカメラが使用されえ、対応する画像は話者が話し始めるときにシステム１０の出力として選択されうる。
【００４５】
［視覚的及び聴覚的なキュー］
上述のように、視覚キュー識別部４１０は、ジェスチャー、顔のポーズ、視線、顔の表情、手振り、体の姿勢、及び、可能であれば感情といった参加者が話す前に示すことが多い１以上の所定の視覚的なキューを識別する。例えば、視線情報は、人物の注意の点、即ち、人がどこを見ているのか、人が何に注意を払っているのかを識別するために重要な役割を果たす。視線方向は、２つの因子、即ち、頭の向き及び目の向きによって決定される。頭の向きは視線の全体的な方向を決め、目の向きは正確な視線方向を決め、頭の向きによって制限される。従って、人が話そうとしているとき、視線は一般的には現在の話者に向けられる。
【００４６】
同様に、以下の各属性・値対は、人が話し始める可能性が高いことを示唆する視覚的なキューに対応する。
【００４７】
【表１】

顔の表情：
顔の表情は、例えば、ここに参照として組み入れられる”ＦａｃｉａｌＡｎａｌｙｓｉｓｆｒｏｍＣｏｎｔｉｎｕｏｕｓＶｉｄｅｏｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｔｏＨｕｍａｎ−ＣｏｍｐｕｔｅｒＩｎｔｅｒｆａｃｅ，” Ｐｈ．Ｄ．Ｄｉｓｓｅｒｔａｔｉｏｎ，ＵｎｉｖｅｒｓｉｔｙｏｆＩｌｌｉｎｏｉｓａｔＵｒｂａｎａ−Ｃｈａｍｐａｉｇｎ（１９９９）；又は、ＡｎｔｏｎｉｏＣｏｌｍｅｎａｒｅｚｅｔａｌ．， ”ＡＰｒｏｂａｂｌｉｓｔｉｃＦｒａｍｅｗｏｒｋｆｏｒＥｍｂｅｄｄｅｄＦａｃｅａｎｄＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＲｅｃｏｇｎｉｔｉｏｎ，” Ｐｒｏｃ．ｏｆｔｈｅＩｎｔ’ｌＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．Ｉ，５９２−９７，ＦｏｒｔＣｏｌｌｉｎｓ，Ｃｏｌｏｒａｄｏ（１９９９）に記載される技術によって得ることができる。顔の表情の強さは、例えば、本願の譲受人に譲渡されここに参照として組み入れられる”ＥｓｔｉｍａｔｉｏｎｏｆＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＩｎｔｅｎｓｉｔｙＵｓｉｎｇａＢｉ−ＤｉｒｅｃｔｉｏｎａｌＳｔａｒＴｏｐｏｌｏｇｙＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ”なる名称の２０００年１１月３日出願の米国特許出願第０９／７０５，６６６号に記載される。
【００４８】
頭のポーズ／顔のポーズ：
頭又は顔のポーズは、例えば、ここに参照として組み入れられるＥｇｏｒＥｌａｇｉｎｅｔａｌ．， ”ＡｕｔｏｍａｔｉｃＰｏｓｅＥｓｔｉｍａｔｉｏｎＳｙｓｔｅｍｆｏｒＦａｃｅｓｂａｓｅｄｏｎＢｕｎｃｈＧｒａｐｈＭａｔｃｈｉｎｇＴｅｃｈｎｏｌｏｇｙ”，Ｐｒｏｃ．ｏｆｔｈｅ３ｄｉｎｔ’ｌＣｏｎｆ．ｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．Ｉ，１３６−１４１，Ｎａｒａ，Ｊａｐａｎ（Ａｐｒｉｌ１４−１６１９９８）に記載の技術によって得ることができる。
【００４９】
視線：
視線は、顔のポーズと共に、ここに参照として組み入れられるＪｏｃｈｅｎＨｅｉｎｚｍａｎｎａｎｄＡｌｅｘａｎｄｅｒＺｅｌｉｎｓｋｙ， ”３−ＤＦａｃｉａｌＰｏｓｅａｎｄＧａｚｅＰｏｉｎｔＥｓｔｉｍａｔｉｏｎｕｓｉｎｇａＲｏｂｕｓｔＲｅａｌ−ＴｉｍｅＴｒａｃｋｉｎｇＰａｒａｄｉｇｍ”，Ｐｒｏｃ．ｏｆｔｈｅ３ｄｉｎｔ’ｌＣｏｎｆ．ｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．Ｉ，１４２−１４７，Ｎａｒａ，Ｊａｐａｎ（Ａｐｒｉｌ１４−１６１９９８）に記載の技術によって得ることができる。
【００５０】
手振り：
手振りは、例えば、ここに参照として組み入れられるＭｉｎｇ−ＨｓｕａｎＹａｎｇａｎｄＮａｒｅｎｄｒａＡｈｕｊａ， ”ＲｅｃｏｇｎｉｚｉｎｇＨａｎｄＧｅｓｔｕｒｅＵｓｉｎｇＭｏｔｉｏｎＴｒａｊｅｃｔｏｒｉｅｓ”，ｉｎＰｒｏｃ．ｏｆｔｈｅＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．Ｉ，４６６−４７２，ＦｏｒｔＣｏｌｌｉｎｓ，Ｃｏｌｏｒａｄｏ（Ｊｕｎｅ２３−２５，１９９９）に記載の技術によって得ることができる。
【００５１】
体の姿勢：
体の姿勢は、例えば、ここに参照として組み入れられるＲｏｍｅｒＲｏｓａｌｅｓａｎｄＳｔａｎＳｃｌａｒｏｆｆ， ”ＩｎｆｅｒｒｉｎｇＢｏｄｙＰｏｓｅｗｉｔｈｏｕｔＴｒａｃｋｉｎｇＢｏｄｙＰａｒｔｓ”，ｉｎＰｒｏｃ．ｏｆｔｈｅＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｖｏｌ．２，７２１−７２７，ＨｉｌｔｏｎＨｅａｄＩｓｌａｎｄ，ＳｏｕｔｈＣａｒｏｌｉｎａ（Ｊｕｎｅ１３−１５，２０００）に記載の技術によって得ることができる。
【００５２】
同様に、オーディオキュー識別部４２０は、声でない音声、例えばうなり声や咳払いといった話者が代わる前に参加者によって示されることの多い１以上の所定のオーディオキューを識別する。オーディオキューは、例えば、ここに参照として組み入れられるＦｒａｎｋＤｅｌｌａｅｒｔｅｔａｌ．， ”ＲｅｃｏｇｎｉｚｉｎｇＥｍｏｔｉｏｎｉｎＳｐｅｅｃｈ”，ｉｎＰｒｏｃ．ｏｆＩｎｔ’ｌＣｏｎｆ．ｏｎＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（１９９６）の教示によって識別されうる。いったんオーディオキューの源が識別されると、誰が話しているのかを識別するために話者の識別が使用されうる。更に、話者の予測を更に改善させるために音声認識技術が使用されうる。例えば、人物Ａが話しており、人物Ａがまだ話しているときに人物Ｂが「あなたの考え方には賛成しません」と言うことによって話し始める場合を想定する。ここで、音声認識システムがこのような言い回しを既に学習していれば、システムがこのような言い回しを認識するとき人物Ｂが次の話者でありうることを意味しうる。
【００５３】
話者の感情の状態は、話しの速さ、声の高さ、声の大きさ、抑揚、及び、強さといった聴覚的及び韻律的な特徴から推定されうる。話者の感情の状態は、話者が自分の会話を終わらせようとしていることを示唆する場合が多い。話者の感情の状態は、例えば、ここに参照として組み入れられるＦｒａｎｋＤｅｌｌａｅｒｔｅｔａｌ．， ”ＲｅｃｏｇｎｉｚｉｎｇＥｍｏｔｉｏｎｉｎＳｐｅｅｃｈ”，ｉｎＰｒｏｃ．ｏｆＩｎｔ’ｌＣｏｎｆ．ｏｎＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（１９９６）に記載の教示に従って識別されうる。
【００５４】
上述のように、本発明は人によって示される関連付けられる聴覚的又は視覚的なキューを有する任意のイベントを検出するために使用されうる。上述において完全に説明したような話者の変化の検出に加え、追加的な例示的なイベント及び対応するキューは、以下のものを含む。
【００５５】
【表２】

このように、本発明は、多くのイベントを予測し、それに応じて適当なアクションを取るために使用されうる。例えば、本発明は運転者が眠ってしまおうとするか否かを検出し、検出されたときは適当なアクションを取りうるよう自動車で使用されうる。更なる変形例では、本発明はテレビを見ている人が眠ってしまうかを検出し、番組の残る部分の録画を開始しテレビ、照明、及び他の電気機器を消すための適当なアクションをとるために使用されうる。
【００５６】
本願で図示し説明した実施例及び変形例は、本発明の原理を例として示すためだけのものであり、当業者によれば本発明の範囲及び精神から逸脱することなく種々の変更が実施されうることが理解されるべきである。
【図面の簡単な説明】
【図１】
本発明の実施例によるビデオ処理システムを示すブロック図である。
【図２】
図１のシステムにおいて実施される適応追跡ビデオ処理動作を示す機能ブロック図である。
【図３】
図１の適応位置ロケータを示す機能ブロック図である。
【図４】
処理の観点から図３の予測話者識別部を説明するフローチャートである。
【図５】
図４の典型的な特徴プロファイルを示す表である。

Claims

オーディオ及びビデオ情報のうちの少なくとも１つを用いてイベントを予測する方法であって、
決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立する段階と、
上記キューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理する段階とを含む方法。
上記複数のキューは、人が話す前に一般的に人によって示される挙動を同定する少なくとも１つのキューを含む、請求項１記載の方法。
上記複数のキューは、人が話を終えようとするときに一般的に人によって示される挙動を同定する少なくとも１つの聴覚的なキューを含む、請求項１記載の方法。
上記同定されたキューに関連付けられる上記人の画像を得る段階を更に含む、請求項１記載の方法。
上記複数のキューのうちの１つ以上のために閾値を確立する少なくとも一人の人のためのプロファイルを維持する段階を更に含む、請求項１記載の方法。
オーディオ及びビデオ情報のうちの少なくとも１つを処理するビデオ処理システムにおいて話者を追跡する方法であって、
人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理する段階と、
上記同定されたキューに関連する上記人の画像を得る段階とを含む方法。
少なくとも１つのカメラは、上記キューに関連付けられる人に関連付けられるパン、チルト、及びズームの値に従って合焦される、請求項６記載の方法。
上記複数のキューは、人が話す前に一般的に人によって示される挙動を同定する少なくとも１つの聴覚的なキューを含む、請求項６記載の方法。
オーディオ及びビデオ情報のうちの少なくとも１つを用いてイベントを予測するシステムであって、
コンピュータ読み取り可能なコードを格納するメモリと、
上記メモリに動作上結合されるプロセッサとを含み、上記プロセッサは、
決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立し、
上記キューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理するよう構成されるシステム。
オーディオ及びビデオ情報のうちの少なくとも１つを処理するビデオ処理システムにおいて話者を追跡するシステムであって、
コンピュータ読み取り可能なコードを格納するメモリと、
上記メモリに動作上結合されるプロセッサとを含み、上記プロセッサは、
人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理し、
上記同定されたキューに関連する上記人の画像を得るよう構成されるシステム。
オーディオ及びビデオ情報のうちの少なくとも１つを用いてイベントを予測する製品であって、
その上に具現化されたコンピュータ読み取り可能なコード手段を有するコンピュータ読み取り可能な媒体を含み、
上記コンピュータ読み取り可能な媒体は、
決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立する段階と、
上記キューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理する段階とを含む製品。
オーディオ及びビデオ情報のうちの少なくとも１つを処理するビデオ処理システムにおいて話者を追跡する製品であって、
その上に具現化されたコンピュータ読み取り可能なコード手段を有するコンピュータ読み取り可能な媒体を含み、
上記コンピュータ読み取り可能な媒体は、
人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの１つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも１つを処理する段階と、
上記同定されたキューに関連する上記人の画像を得る段階とを含む製品。