JP2004515982A - テレビ会議及び他の適用においてイベントを予測する方法及び装置 - Google Patents

テレビ会議及び他の適用においてイベントを予測する方法及び装置 Download PDF

Info

Publication number
JP2004515982A
JP2004515982A JP2002548983A JP2002548983A JP2004515982A JP 2004515982 A JP2004515982 A JP 2004515982A JP 2002548983 A JP2002548983 A JP 2002548983A JP 2002548983 A JP2002548983 A JP 2002548983A JP 2004515982 A JP2004515982 A JP 2004515982A
Authority
JP
Japan
Prior art keywords
audio
person
cues
speaker
video information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002548983A
Other languages
English (en)
Inventor
ギュッタ,スリニヴァス
ジェイ ストルビー,ヒューゴ
コルメナレツ,アントニオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004515982A publication Critical patent/JP2004515982A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

聴覚的及び視覚的なキューによりイベントを予測する方法及び装置である。例えばテレビ会議の参加者が自分が話す前に示す挙動といったイベントに一般的に関連付けられる1以上の(i)抑揚パターン、声の高さ、強さ等の聴覚的キュー、(ii)目線、顔のポーズ、体の姿勢、手振り、顔の表情等の視覚的キュー、又は、(iii)上述のキューの組合せを識別するためにオーディオ及びビデオ情報を処理する。このように本発明によればビデオ処理システムが次の話者のアイデンティティ等のイベントを予測しうる。予測話者識別部は学習モードで1以上の所定の視覚的又は聴覚的キューが存在する又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念に関して各参加者の特徴プロファイルを学習するよう動作し、予測モードで特徴プロファイル中の学習された特徴をオーディオ及びビデオ情報と比較し次の話者を予測するよう動作する。

Description

【0001】
[発明の分野]
本発明は、概してビデオ信号処理の分野に係り、更に特定的にはテレビ会議等のオーディオ・ビジュアル・プレゼンテーションにおいて次の話者といったイベントを予測する技術に関連する。
【0002】
[発明の背景]
テレビ会議システムは、遠隔地のユーザが聴覚的及び視覚的に互いにコミュニケーションをとることを可能とするためにますます使用されるようになっている。従って、テレビ会議システムは、遠隔地のユーザが物理的に同じ場所にいない場合であっても、遠隔地のユーザが同じ部屋にいるかのようにコミュニケーションをとることを可能とし、ユーザが視覚的なジェスチャーや顔の表情で話を強調することを可能とする。結果として得られる出力ビデオ信号中で特定の会議参加者を追跡することは、テレビ会議システムの重要な面である。
【0003】
テレビ会議システムは、現在の話者を追跡するために、パン・チルト・ズーム(PTZ)カメラを使用することが多い。PTZカメラは、システムが追跡を行うためにカメラを配置し光学的にズームすることを可能とする。最初は、テレビ会議システムのPTZカメラのための制御システムは、現在の話者に合わされた焦点を維持するために操作者がカメラに対して手動調整を行うことを必要とした。しかしながら、テレビ会議システムのユーザは、PTZカメラの制御が完全に自動化されねばならないハンズフリー操作をますます必要とするようになっている。
【0004】
オーディオ及びビデオ情報に基づいて人物を自動的に検出するために多数の技術が提言又は提案されてきた。オーディオロケータは、典型的には、マイクロホンのアレイから得られるオーディオ情報を処理し、話者の位置を決定する。特に、相対的なマイクロホンの位置が知られているとき、音源の位置は周知の三角測量技術を用いて単一の源からの音波の推定される伝搬時間差から決定されうる。同様に、ビデオロケータは、典型的には、テレビ会議中の話者の頭や肩といったビデオ画像中の1以上の関心対象の位置を見つける。画像中の画像の位置を検出するために、例えばここに参照として組み入れられる”Face Recognition: From Theory to Applications” (NATO ASI Series, Springer Verlag, New York, H. Wechsler et al., editors, 1998)に記載のような、多数の周知の技術が利用可能である。
【0005】
テレビ会議システムにおいて話者を追跡するための従来の技術は多くの適用のために満足のいくものであるが、もし克服されればかかるテレビ会議システムの有用性や性能を大きく広げうる多数の制限を受けている。特に、従来のテレビ会議システムは一般的に本質的に反応的である。従って、イベントが既に生じた後にのみイベントに対して注意が向けられる。例えば、いったん新しい人物が話し始めると、カメラが新しい話者に焦点を合わせるまでに幾らかの遅延があり、遠隔地のユーザが同じ部屋にいて自然な面と向かっての対話を経験しているという感覚を受けることが妨げられる。
【0006】
面と向かっての対話の場合、人が話し始めようとするとき、又は、人が他の話者の次の順番であるときに、人間は多くの合図を示すことが観察されている。例えば、S. Duncan and Niederehe, ”On Signaling That It’s Your Turn to Speak,” J. Experimental Social Psychology, Vol. 23,(2), pp. 234−247 (1972)及びS. Duncan and D.W. Fiske, Face−to Face Interaction, Lawrence Erlbaum Publishers, Hillsdale, New Jersey, (1977)を参照のこと。例えば、人が他の話者の次の順番であるとき、次の順番の話者が身を乗り出したり、目線を現在の話者に向けたり、腕で身振りをしたりするといった微妙なキューが観察されている。
【0007】
従って、人間と機械の間の自然な言語のコミュニケーションを確立しよう試みるとき、研究者たちは、人が異なる種類の感じられる情報(キュー)を文脈的な情報及び以前に捕捉された知識と組み合わせる能力は高度な水準であることを認識した。ビデオ処理システムにおいてかかるキューを適用するイベントを予測するための改善された技術が必要とされる。更に、次の話者又は他のイベントを予測するために、顔の表情、目線、体の姿勢といった幾つかのキューを分析する方法及び装置が必要とされる。更に、次に順番がまわる話者を予測するための多数のキューを統合する話者検出システムが必要とされる。更に、各参加者についてその参加者が話し始める前にどのキューが示されるかを識別するための特徴プロファイルを使用し話者を検出する方法及び装置が必要とされる。
【0008】
[発明の概要]
概して、ビデオ処理システムにおいてイベントを予測する方法及び装置が開示される。特に、本発明は、特定のイベントが生じようとする前に一般的に人によって示される1つ以上の(i)抑揚パターン、声の高さ、及び、声の強さといった聴覚的なキュー、(ii)目線、顔のポーズ、体の姿勢、手振り、及び、顔の表情といった視覚的なキュー、(iii)上述のキューの組み合わせを識別するためにオーディオ又はビデオ情報(又は両方)を処理する。例えば、テレビ会議の参加者は、例えば自分が話す前又は現在の話者が話を終えようとしているときに、或る聴覚的又は視覚的なキューを示す。このようにして、本発明は、ビデオ処理システムが次の話者が誰であるのかというアイデンティティといったイベントを予測することを可能とする。
【0009】
適応位置ロケータは、公知の方法で人物の位置を決定するためにオーディオ及びビデオ情報を処理する。更に、本発明は、1以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測する予測話者識別部を提供する。予測話者識別部は、1以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するために、オーディオ及びビジュアル信号と顔認識分析の結果とを受け取り処理する。予測話者識別部によって発生される話者予測は、カメラを合焦し、予測される話者の画像を得るために使用される。
【0010】
予測話者識別部は、学習モードでは、1以上の所定の視覚的又は聴覚的なキューが存在するとき又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念に関して、各参加者の特徴プロファイルを学習するよう動作する。その後、予測話者識別部は、予測モードでは、特徴プロファイル中に具現化された学習された特徴をオーディオ及びビデオ情報と比較し、それにより次の話者を予測するよう動作する。
【0011】
本発明のより完全な理解、並びに、本発明の更なる特徴及び利点は、以下の詳細な説明及び図面を参照することによって得られるであろう。
【0012】
[発明の詳細な説明]
図1は、本発明によるビデオ処理システム10を示す図である。本発明は、例えばビデオ会議の参加者が話し始める前又は話し終える前といった所与のイベントの前に人によって一般的に示される1つ以上の(i)抑揚パターン、声の高さ、及び、声の強さといった聴覚的なキュー、(ii)目線、顔のポーズ、体の姿勢、手振り、及び、顔の表情といった視覚的なキュー、(iii)上述のキューの組み合わせを識別するためにオーディオ及びビデオ情報を処理する。ここでは本発明は話者の変更を検出するためのビデオ会議システムの文脈について説明するが、本発明は、以下の開示に基づいて当業者によって明らかとなるように、人間によって示される関連付けられる聴覚的又は視覚的なキューを有する任意のイベントを検出するために適用されうる。
【0013】
図1に示されるように、システム10は、プロセッサ12、メモリ14、入力出力I/O装置15、及び、図3を参照して以下詳述する適応位置ロケータ300を含み、これら全てはシステムバス17を通じて通信するよう接続される。システム10は更に、図示されるように適応位置ロケータ300に結合されるパン・チルト・ズーム(PTZ)カメラ18を含む。1以上の追加的な広角カメラ(図1には図示せず)もまた、各参加者22−1乃至22−Nの視覚的なキューを捕捉するために、図3を参照して以下詳述するようにシステム10に含まれてもよい。例えば、カメラは、前に乗り出している人物を検出するために参加者22−Nの斜めからの視野を得るよう配置されうる。
【0014】
例示的な実施例では、PTZカメラ18は、テーブル20が会議参加者22−1乃至22−Nを受け入れるテレビ会議適用において使用される。動作上、PTZカメラ18は、プロセッサ12から受信される命令に従って適応位置ロケータ300によって命令されるように、この例としての適用では特定の参加者22−kに対応する関心対象を追跡する。更に、図1に示されるように、ビデオ処理システム10は、公知の方法でオーディオ情報を捕捉するためのマイクロホンのアレイ16を含む。
【0015】
本発明はテレビ会議適用の文脈について説明されているが、ビデオ処理システム10は次の話者が誰であるのかについてのアイデンティティを予測することが要求される他の適用に使用されうることが理解されるべきである。更に、本発明は、他のタイプのテレビ会議適用、例えば、議会のような座席の配置や円形又は矩形のテーブル配置を含む適用にも使用されうる。更に一般的には、システム10の部分24は、ここに開示される適応位置ロケータ300によって与えられる改善された追跡機能から利益を受ける任意の適用に使用されうる。従ってシステム10の部分26は、例えば他のテレビ会議配置、又は、1以上の話者がシステム10の部分24を用いて追跡される他の任意の配置で置き換えられうる。また、本発明は、PTZカメラ以外の画像捕捉装置と共に使用されうることが明らかとなろう。従って、本願では「カメラ」という用語は、本願で開示される適応位置ロケータ300と共に使用されうる任意のタイプの画像捕捉装置を含むものであることが意図される。
【0016】
尚、システム10の要素又は要素群は、本発明の部分を除き従来通りであるデスクトップコンピュータ又はポータブルコンピュータの対応する要素、並びに、これらの及び他の処理装置の部分又は組み合わせを表わしうる。更に、本発明の他の実施例では、プロセッサ12の機能のうちの幾つか又は全て、又は、PTZカメラ18及び追加的な広角カメラ(図1には図示せず)、又は、システム10の他の要素は、単一の装置へ組み合わされうる。例えば、PTZカメラ18及び追加的な広角カメラの両方の機能は単一のカメラに統合されえ、広角画像から画像処理技術を用いて所望のクローズ・アップ画像が取得されうる。
【0017】
更に、システム10の1以上の要素は、コンピュータ、テレビジョン、セットトップボックス、又は他の処理装置に組み入れられる特定用途向け集積回路(ASIC)又は回路カードとして実施されうる。本願では「プロセッサ」という用語は、マイクロプロセッサ、中央処理装置、マイクロコントローラ、又は、所与のデータ処理装置において使用されうる任意の他のデータ処理要素を含むことが意図される。更に、メモリ14は、電子メモリ、光ディスク又は磁気ディスク式のメモリ、テープ式のメモリ、並びに、上述及び他の種類の記憶装置の組合せ又は部分を表わしうる。
【0018】
[適応位置追跡用語]
図2は、図1の適応位置ロケータ300によって実施されるトラック・アンド・ズーム特徴を示す機能ブロック図である。図2に示すように、トラック・アンド・ズーム特徴は、検出・追跡動作32と、光学ズーム動作34とを含む。これらの動作について、システム10の部分26の典型的なテレビ会議適用のために発生される画像に対応する画像40、42、及び44を参照して説明する。動作32及び34は、メモリ14に格納される、又は、ローカルな又は遠隔の記憶装置からI/O装置15を介してアクセス可能な1以上のソフトウエアプログラムを用いてプロセッサ12及び適応位置ロケータ300によってシステム10中で実施されうる。
【0019】
動作上、PTZカメラ18は、テレビ会議の参加者22−kといった関心対象と、関心対象の隣の他の参加者22−k+1といった追加的な対象とを含む画像40を生成する。画像40は、周知の従来の検出及び追跡技術を用いて関心対象22−kを検出及び追跡する検出・追跡動作32へのビデオ入力として供給される。
【0020】
例えば、テレビ会議適用では、関心対象22−kは、現在の話者に対応しうる。この場合、検出・追跡動作32は、図3を参照して以下詳述するように、どの会議参加者が現在の話者であるかを決定するために、オーディオにより位置を探す技術を用いて関心対象22−kを検出及び追跡しうる。更なる変形例では、現在の話者は、例えば、動き検出を用いること、身振りをすること、頭を振ること、特定の動き方をすること、又は、特定の話し方をすることを用いて識別されうる。検出・追跡動作32の出力は、画像42中に斜線部として示される特定の関心対象22−kを識別する情報を含む。
【0021】
図2の光学ズーム動作34は、所望の出力画質が達成されることを確実とする十分な量のズームを与えると共に、関心対象の幾らかの量の動きを可能とする。光学ズーム動作34は、関心対象22−kをフレーミングするパン・チルト動作を有するフレーミング部分と、それに続く、指定された停止規準が満たされるまで続けられるズーム動作を有するズーム部とを含む。一般的に、使用されうる停止規準には多くの異なる種類がある。一定停止規準アプローチでは、光学ズームは関心対象が画像の一定の割合を占めるまで続く。例えば、テレビ会議システムでは、光学ズームは、現在の話者の頭が画像の垂直寸法の約25%乃至35%を占めるまで続けられうる。もちろん、使用される特定の割合は、追跡適用に依存して変化する。特定の適用に適した特定の割合は、当業者によって単純に決定されうる。
【0022】
図2に示すように、光学ズーム動作34の結果は、関心対象22−kが画像中で略中央に配置され、上述の規準に基づいて決定されるように画像中の所望の割合を占める光学的にズームされた画像44である。画像44は、システム10によって、例えばメモリ14に記憶されるか、ユーザに提示されうる。
【0023】
[適応位置ロケータ]
図3は、図1のシステム10において実施される適応位置ロケータ300を示す機能ブロック図である。一般的に、適応位置ロケータ300は、話者の位置を決定するためにオーディオ及びビデオ情報を処理する。適当な適応位置ロケータ300のより詳細な説明のために、例えば、本願の譲受人に譲渡された”Method and Apparatus for Adaptive Position Determination in Video Conferencing and Other Applications”なる名称の2000年5月3日出願の米国特許出願第09/564,016号を参照のこと。
【0024】
更に、本発明によれば、適応位置ロケータ300は、1以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するための、図4を参照して以下詳述する予測話者識別部400を含む。最初に、システム起動中、広角カメラ305及びマイクロホンアレイ16が作動する。広角カメラ305及びマイクロホンアレイ16によって発生される信号は、いつ信号が発生されたかを適応位置ロケータ300が決定することを可能とするよう段階315において任意にタイムスタンプが付されうる。図3に示すように、広角カメラ305によって発生されるタイムスタンプが付された信号は顔認識モジュール320へ渡される。顔認識モジュール320は、所与の関心領域(ウィンドウ)が顔としてラベル付けされうるか否かを確かめる顔検出部を含む。顔認識モジュール320は、与えられた顔に対して固有の識別子を割り当てる。
【0025】
広角カメラ305によって発生される画像と、顔認識の結果及びそれらの位置は、フレームバッファ325に記憶される。しかしながら、例えば、話者と広角カメラ305との間の距離によって、顔認識モジュール320が所与の顔に対して固有の識別子を割り当てることができない場合、フレームバッファ325の中には顔検出情報と画像中の検出された顔の対応する位置のみが記録される。参加者が来ている衣服の色といった追加的な情報もまたバッファ325に記録されうる。衣服の色は、例えば、顔認識モジュール320が所与の顔に対して固有の識別子を割り当てることができないが、顔認識は成功し、最初の参加者が部屋を去った後に他の参加者が同じ場所に座ったときに特に有用である。
【0026】
顔認識モジュール320は、例えば、夫々が本願の譲受人に譲渡されここに参照として組み入れられる”Method and Apparatus for Detecting Moving Objects In Video Conferencing and Other Applications”なる名称の1999年11月24日出願の米国特許出願第09/449,250号、及び、”Method and Apparatus for Tracking Moving Objects Using Combined Video and Audio Information in Video Conferencing and Other Applications”なる名称の2000年4月13日出願の米国特許出願第09/548,734号に記載のビデオにより位置を探すシステムを用いて実施されうる。図2を参照して上述したように、ビデオシステムは、顔が表示のための正しいアスペクト比で表示されるよう顔の上に合焦(ズーム)しようとする。
【0027】
同様に、図3に示すように、マイクロホンアレイ16によって発生されるタイムスタンプが付された信号は、話者識別モジュール330及びオーディオロケータ360へ渡される。マイクロホンアレイ16によって発生されるオーディオ信号は、話者識別の結果と共に、フレームバッファ325に記憶される。更に、オーディオロケータ360は、空間変換モジュール370へ渡される雑音源に関連するパン(水平)及びチルト(垂直)角度を識別する方向情報を得る。オーディオロケータ310は、例えば、夫々本発明の譲受人に譲渡されここに参照として組み入れられる”Method and Apparatus for Tracking Moving Objects Using Combined Video and Audio Information in Video Conferencing and Other Applications”なる名称の2000年4月13日出願の米国特許出願第09/548,734号、及び、”Improved Signal Localization Arrangement”なる名称の1999年11月8日出願の米国特許出願第09/436,193号に記載のオーディオにより位置を探すシステムを用いて具現化されうる。
【0028】
オーディオ及びビデオ信号は、意味のあるイベントに対応するデータの収集を可能とするために、例えば2秒間といった所定の間隔に亘って蓄積される。この所定の間隔の間に生ずるビデオフレームは、動きを検出するために動き検出部350によって互いに比較される。例えば、参加者が自分の手を動かしているとき、この動きは、動き検出部350において連続するビデオフレームを比較することによって検出され、手の動きの識別された位置は空間変換モジュール370へ渡される。
【0029】
動き検出部モジュール530は、かなりの量の動きを有するフレーム部分のみを識別するために任意に動き経験則(heuristics)340を使用しうる。動き検出部モジュール350は、このようにこのフィルタリングされた情報のみを空間変換モジュール370へ渡す。例えば、頭を回したことを検出するために、対応する動き経験則は、応答をトリガする前にどれだけの変化が必要であるかを示しうる。概して、動き経験則340は、他の雑音又は話者の動きに関わらず、カメラ18を現在の話者に焦点を当てたままにしようとする。換言すれば、動き経験則340は、動き検出部350によって発生される誤ったイベントを識別し抑制しようとする。動き経験則340で実施されうる種々の技法については、例えば、ここに参照として組み入れられるRamesh Jain et al., ”Machine Vision”, McGraw−Hill, New York (1995)を参照のこと。
【0030】
このように、空間変換モジュール370は、動き検出部モジュール350から位置情報を、オーディオロケータ360から方向情報を受け取る。次に、空間変換モジュール370は、公知の方法でPTZカメラ18を合焦させるために使用されうる境界ボックスの計算のために位置及び方向情報をマップする。
【0031】
[聴覚的及び視覚的なキューの処理]
図3に示すように、PTZカメラ18によって生成されるビデオ画像、並びに、フレームバッファ325及び話者識別モジュール330の内容は、図4を参照して以下詳述する予測話者識別部400に与えられる。特に、フレームバッファ325の内容は、広角カメラ305によって発生される広角画像及び対応する顔認識結果、並びに、マイクロホンアレイ16によって発生されるオーディオ信号及び対応する話者識別結果を含む。このように、予測話者識別部400は広角画像及びオーディオ信号から発言していない各参加者22−Nの視覚的及び聴覚的なキューを識別しうる。
【0032】
概して、適応位置ロケータ300は、上述のように話者の位置を決定するためにオーディオ及びビデオ情報を処理する。図3に示すように、適応位置ロケータ300は、次の話者のアイデンティティを予測するために本発明によって、図4を参照して以下説明する予測話者識別部400と対話する。図3に示すように、予測話者識別部400は、フレームバッファ325、PTZカメラ18、及び話者識別モジュール330からオーディオ及びビデオ情報を受信する。予測話者識別部400は、1以上の聴覚的及び視覚的なキューを識別し、それにより次の話者を予測するために、受信されたオーディオ及びビデオ情報を処理する。予測話者識別部400によって発生される話者予測は、図3に示すようにPTZカメラ18を合焦させるために使用される。
【0033】
図4は、図1のシステム10において実施される予測話者識別部400を示す機能ブロック図である。図4に示すように、予測話者識別部400は、視覚キュー識別部410及びオーディオキュー識別部420を含む。ある参加者が画像中に現れると、参加者が話す前に示されることが多い1以上の視覚的なキュー、例えば、顔のポーズ(頭の方向)、視線(目の方向)、顔の表情、手振り、体の姿勢等を識別するために、ビデオ信号は視覚キュー識別部410によって処理される。同様に、参加者が話す前に示されることが多い1以上の所定のオーディオキュー、例えば抑揚パターン、声の高さ、声の大きさ、話者の評価、話者の識別、及び音声認識等を識別するために、オーディオ信号はオーディオキュー識別部420によって処理される。次の話者のアイデンティティを推測するために使用されうる特定の聴覚的及び視覚的なキューの処理については、以下の「視覚的及び聴覚的なキュー」と題された部分において詳述する。
【0034】
「学習モード」
予測話者識別部400は、1以上の所定の視覚的又は聴覚的なキューが存在するとき又は存在しないときに参加者が「これから話すであろう」又は「これから話さないであろう」という概念について各参加者の以下図5を参照して詳述する特徴プロファイル500を学習するために学習モードで学習モジュール450を使用する。
【0035】
以下、図5を参照して説明するように、各参加者に関連する視覚的及び聴覚的なキューは、属性値のレコードとして特徴プロファイル500に格納されうる。更に、例えば話者の識別、顔認識、又は他の情報から得ることができる参加者のアイデンティティもまた属性値と共に特徴プロファイル500に記録される。
【0036】
レコード中の各属性値は、多数の離散した又は記号的な値を取りうる。例えば、ジェスチャーモジュールでは、ある参加者は、例えば発言してもよいとの許可を得るために指を上げるといった特定の一組のジェスチャーをはっきりと表現することによって次の発言の順番を得ようとする可能性を示しうる。特定のジェスチャー、並びに、他のキューモジュールについての属性値は、参加者が話す前に示すジェスチャーの種類、ポーズ、並びに、他の聴覚的及び視覚的なキューを確かめるために多数のビデオ会議セッションを分析することによって決定される。
【0037】
参加者が「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される(及び/又は示されない)所定の視覚的又は聴覚的なキューを特徴付けるために、学習モジュール450は、例えばここに参照として組み入れられるJ.R.Quinlan, ”Learning Efficient Classification Procedures and their Application to Chess End Games,” R.S. Michalski et al., Editors, in Machine Learning: An Artificial Approach, Vol. 1, Morgan Kaufmann Publishers Inc., Palo Alto, California (1983)、又は、J.R.Quinlan, ”Probablistic Decision Trees,” Y. Kodratoff and R.S. Michalski, Editors, in Machine Learning: An Artificial Approach, Vol. 3, Morgan Kaufmann Publishers Inc., Palo Alto, California (1990)に記載されるような決定木(DT)を使用しうる。他のアプローチでは、参加者が「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される(及び/又は示されない)所定の視覚的又は聴覚的なキューを特徴付けるために、隠れマルコフモデル(HMM)が使用されうる。
【0038】
一般的に、決定木は学習セット上に構築され、節と葉を有し、節は行われるべき何らかのテストに対応し、葉はクラス(即ち「これから話すであろう」又は「これから話さないであろう」に対応する)。木が有しうる節の数は、データの複雑さに依存する。最悪の場合は、節の数は最大でも可能な属性値の数に等しくなりうる。例えば、木の根から葉への1つの部分経路は、規則へ分解されたときは、以下の形式、
Figure 2004515982
を取りうる。この例は、図5の特徴プロファイル500中にも現れる。尚、上述のブール表現において文字「?」は「気にしていない」条件又はワイルドカードを示す。
【0039】
「予測モード」
同様に、予測話者識別部400は、次の話者を予測するために特徴プロファイル500中に具現化された学習された特徴を適用するために予測モードで新話者予測部470を使用する。
【0040】
いったん、十分な時間に亘って学習が達成され、決定木が構築されると、決定木は、次の話者が誰になるのかを確かめるためにどのモジュールからのどの種類の特徴が十分であるのかを確かめるために予測モードで構文解析される。このように、予測モード中、新話者予測部470によって使用される決定木はPTZカメラ18に命令を与え、誰が次の話者になるのかという結論を得るためにどのモジュールが使用されるべきであるかを決定する。
【0041】
尚、セッション中に誰が次の話者になるのかという予測は、データマイニング/知識発見問題として考えられる。このような領域では、データから見分けられる何らかのパターンがあるか否かを見つけることが目的となる。従って、本願で確立しようとする特定のパターンは、参加者が会話に参加する可能性の見込みに対して何らかのキューを示すか否かである。決定木は、データに内在する同時出現(simultaneous occurrences)と、明示的に学習された結果出現(consecutive occurrences)との間の因果関係を学習するために使用される。例えば、以下のタイプの規則が学習されうる:参加者が身を乗り出し指を上げ、規則における他の連言詞が知られていないときは、参加者は話そうとしているところでありうる(結果出現)。
【0042】
発言の順番を検出するために、連続的なウィンドウについての決定木が(顔認識/話者認識/オーディオにより位置を見つける方法を通じて確かめられる)異なる参加者に対する分類を与えると、システムは異なる話者が話し始めたと想定する。ある挙動が次の話者を示唆する「キュー」を構成するのに十分であると示すために使用されうる正確な閾値は、経験的に決定されうる。
【0043】
上述のように、図4の予測話者識別部400は、「これから話すであろう」又は「これから話さないであろう」という可能性があるときに参加者によって一般的に示される又は示されない1以上の所定の視覚的又は聴覚的なキューを特徴付けるために、図5に示す特徴プロファイルを用いる。図5は、特徴プロファイル500の可能な実施を記述する例としての表である。図5に示すように、特徴プロファイル500は、規則へ分解された時は夫々が決定木の根から葉への異なる経路に関連付けられるレコード505−515といった多数のレコードを含む。各決定木経路に対して、特徴プロファイル500は経路を定義するフィールド550−565中の属性値対と、フィールド570の対応する概念分類とを識別する。
【0044】
従って、特徴プロファイル500中のある規則が、新しい参加者が発言の順番になろうとしていることを示唆するとき、予測話者識別部400は、参加者が話し始めたとたんにカメラ18が予測される話者に焦点を合わせることができるようカメラ18に対して予測PTZ値を与えうる。1つの実施では、予測される話者を追跡するために第2のPTZカメラが使用されえ、対応する画像は話者が話し始めるときにシステム10の出力として選択されうる。
【0045】
[視覚的及び聴覚的なキュー]
上述のように、視覚キュー識別部410は、ジェスチャー、顔のポーズ、視線、顔の表情、手振り、体の姿勢、及び、可能であれば感情といった参加者が話す前に示すことが多い1以上の所定の視覚的なキューを識別する。例えば、視線情報は、人物の注意の点、即ち、人がどこを見ているのか、人が何に注意を払っているのかを識別するために重要な役割を果たす。視線方向は、2つの因子、即ち、頭の向き及び目の向きによって決定される。頭の向きは視線の全体的な方向を決め、目の向きは正確な視線方向を決め、頭の向きによって制限される。従って、人が話そうとしているとき、視線は一般的には現在の話者に向けられる。
【0046】
同様に、以下の各属性・値対は、人が話し始める可能性が高いことを示唆する視覚的なキューに対応する。
【0047】
【表1】
Figure 2004515982
顔の表情:
顔の表情は、例えば、ここに参照として組み入れられる”Facial Analysis from Continuous Video with Application to Human−Computer Interface,” Ph. D. Dissertation, University of Illinois at Urbana−Champaign (1999);又は、Antonio Colmenarez et al., ”A Probablistic Framework for Embedded Face and Facial Expression Recognition,” Proc. of the Int’l Conf. on Computer Vision and Pattern Recognition, Vol. I, 592−97, Fort Collins, Colorado (1999)に記載される技術によって得ることができる。顔の表情の強さは、例えば、本願の譲受人に譲渡されここに参照として組み入れられる”Estimation of Facial Expression Intensity Using a Bi−Directional Star Topology Hidden Markov Model”なる名称の2000年11月3日出願の米国特許出願第09/705,666号に記載される。
【0048】
頭のポーズ/顔のポーズ:
頭又は顔のポーズは、例えば、ここに参照として組み入れられるEgor Elagin et al., ”Automatic Pose Estimation System for Faces based on Bunch Graph Matching Technology”, Proc. of the 3d int’l Conf. on Automatic Face and Gesture Recognition, Vol. I, 136−141, Nara, Japan (April 14−16 1998)に記載の技術によって得ることができる。
【0049】
視線:
視線は、顔のポーズと共に、ここに参照として組み入れられるJochen Heinzmann and Alexander Zelinsky, ”3−D Facial Pose and Gaze Point Estimation using a Robust Real−Time Tracking Paradigm”, Proc. of the 3d int’l Conf. on Automatic Face and Gesture Recognition, Vol. I, 142−147, Nara, Japan (April 14−16 1998) に記載の技術によって得ることができる。
【0050】
手振り:
手振りは、例えば、ここに参照として組み入れられるMing−Hsuan Yang and Narendra Ahuja, ”Recognizing Hand Gesture Using Motion Trajectories”, in Proc. of the IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Vol. I, 466−472, Fort Collins, Colorado (June 23−25, 1999)に記載の技術によって得ることができる。
【0051】
体の姿勢:
体の姿勢は、例えば、ここに参照として組み入れられるRomer Rosales and Stan Sclaroff, ”Inferring Body Pose without Tracking Body Parts”, in Proc. of the IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Vol. 2, 721−727, Hilton Head Island, South Carolina (June 13−15, 2000) に記載の技術によって得ることができる。
【0052】
同様に、オーディオキュー識別部420は、声でない音声、例えばうなり声や咳払いといった話者が代わる前に参加者によって示されることの多い1以上の所定のオーディオキューを識別する。オーディオキューは、例えば、ここに参照として組み入れられるFrank Dellaert et al., ”Recognizing Emotion in Speech”, in Proc. of Int’l Conf. on Speech and Language Processing (1996)の教示によって識別されうる。いったんオーディオキューの源が識別されると、誰が話しているのかを識別するために話者の識別が使用されうる。更に、話者の予測を更に改善させるために音声認識技術が使用されうる。例えば、人物Aが話しており、人物Aがまだ話しているときに人物Bが「あなたの考え方には賛成しません」と言うことによって話し始める場合を想定する。ここで、音声認識システムがこのような言い回しを既に学習していれば、システムがこのような言い回しを認識するとき人物Bが次の話者でありうることを意味しうる。
【0053】
話者の感情の状態は、話しの速さ、声の高さ、声の大きさ、抑揚、及び、強さといった聴覚的及び韻律的な特徴から推定されうる。話者の感情の状態は、話者が自分の会話を終わらせようとしていることを示唆する場合が多い。話者の感情の状態は、例えば、ここに参照として組み入れられるFrank Dellaert et al., ”Recognizing Emotion in Speech”, in Proc. of Int’l Conf. on Speech and Language Processing (1996)に記載の教示に従って識別されうる。
【0054】
上述のように、本発明は人によって示される関連付けられる聴覚的又は視覚的なキューを有する任意のイベントを検出するために使用されうる。上述において完全に説明したような話者の変化の検出に加え、追加的な例示的なイベント及び対応するキューは、以下のものを含む。
【0055】
【表2】
Figure 2004515982
このように、本発明は、多くのイベントを予測し、それに応じて適当なアクションを取るために使用されうる。例えば、本発明は運転者が眠ってしまおうとするか否かを検出し、検出されたときは適当なアクションを取りうるよう自動車で使用されうる。更なる変形例では、本発明はテレビを見ている人が眠ってしまうかを検出し、番組の残る部分の録画を開始しテレビ、照明、及び他の電気機器を消すための適当なアクションをとるために使用されうる。
【0056】
本願で図示し説明した実施例及び変形例は、本発明の原理を例として示すためだけのものであり、当業者によれば本発明の範囲及び精神から逸脱することなく種々の変更が実施されうることが理解されるべきである。
【図面の簡単な説明】
【図1】
本発明の実施例によるビデオ処理システムを示すブロック図である。
【図2】
図1のシステムにおいて実施される適応追跡ビデオ処理動作を示す機能ブロック図である。
【図3】
図1の適応位置ロケータを示す機能ブロック図である。
【図4】
処理の観点から図3の予測話者識別部を説明するフローチャートである。
【図5】
図4の典型的な特徴プロファイルを示す表である。

Claims (12)

  1. オーディオ及びビデオ情報のうちの少なくとも1つを用いてイベントを予測する方法であって、
    決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立する段階と、
    上記キューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理する段階とを含む方法。
  2. 上記複数のキューは、人が話す前に一般的に人によって示される挙動を同定する少なくとも1つのキューを含む、請求項1記載の方法。
  3. 上記複数のキューは、人が話を終えようとするときに一般的に人によって示される挙動を同定する少なくとも1つの聴覚的なキューを含む、請求項1記載の方法。
  4. 上記同定されたキューに関連付けられる上記人の画像を得る段階を更に含む、請求項1記載の方法。
  5. 上記複数のキューのうちの1つ以上のために閾値を確立する少なくとも一人の人のためのプロファイルを維持する段階を更に含む、請求項1記載の方法。
  6. オーディオ及びビデオ情報のうちの少なくとも1つを処理するビデオ処理システムにおいて話者を追跡する方法であって、
    人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理する段階と、
    上記同定されたキューに関連する上記人の画像を得る段階とを含む方法。
  7. 少なくとも1つのカメラは、上記キューに関連付けられる人に関連付けられるパン、チルト、及びズームの値に従って合焦される、請求項6記載の方法。
  8. 上記複数のキューは、人が話す前に一般的に人によって示される挙動を同定する少なくとも1つの聴覚的なキューを含む、請求項6記載の方法。
  9. オーディオ及びビデオ情報のうちの少なくとも1つを用いてイベントを予測するシステムであって、
    コンピュータ読み取り可能なコードを格納するメモリと、
    上記メモリに動作上結合されるプロセッサとを含み、上記プロセッサは、
    決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立し、
    上記キューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理するよう構成されるシステム。
  10. オーディオ及びビデオ情報のうちの少なくとも1つを処理するビデオ処理システムにおいて話者を追跡するシステムであって、
    コンピュータ読み取り可能なコードを格納するメモリと、
    上記メモリに動作上結合されるプロセッサとを含み、上記プロセッサは、
    人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理し、
    上記同定されたキューに関連する上記人の画像を得るよう構成されるシステム。
  11. オーディオ及びビデオ情報のうちの少なくとも1つを用いてイベントを予測する製品であって、
    その上に具現化されたコンピュータ読み取り可能なコード手段を有するコンピュータ読み取り可能な媒体を含み、
    上記コンピュータ読み取り可能な媒体は、
    決められたイベントであることを示唆する挙動特徴を定義する複数のキューを確立する段階と、
    上記キューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理する段階とを含む製品。
  12. オーディオ及びビデオ情報のうちの少なくとも1つを処理するビデオ処理システムにおいて話者を追跡する製品であって、
    その上に具現化されたコンピュータ読み取り可能なコード手段を有するコンピュータ読み取り可能な媒体を含み、
    上記コンピュータ読み取り可能な媒体は、
    人が話し始めようとしていることを示唆する挙動特徴を定義する複数のキューのうちの1つを同定するために上記オーディオ及びビデオ情報のうちの少なくとも1つを処理する段階と、
    上記同定されたキューに関連する上記人の画像を得る段階とを含む製品。
JP2002548983A 2000-12-05 2001-12-03 テレビ会議及び他の適用においてイベントを予測する方法及び装置 Withdrawn JP2004515982A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/730,204 US6894714B2 (en) 2000-12-05 2000-12-05 Method and apparatus for predicting events in video conferencing and other applications
PCT/EP2001/014275 WO2002047386A1 (en) 2000-12-05 2001-12-03 Method and apparatus for predicting events in video conferencing and other applications

Publications (1)

Publication Number Publication Date
JP2004515982A true JP2004515982A (ja) 2004-05-27

Family

ID=24934375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002548983A Withdrawn JP2004515982A (ja) 2000-12-05 2001-12-03 テレビ会議及び他の適用においてイベントを予測する方法及び装置

Country Status (5)

Country Link
US (1) US6894714B2 (ja)
EP (1) EP1260099A1 (ja)
JP (1) JP2004515982A (ja)
CN (1) CN1422494A (ja)
WO (1) WO2002047386A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2011520387A (ja) * 2008-05-06 2011-07-14 マイクロソフト コーポレーション マルチメディア会議イベントのメディアコンテンツを管理する技術
JP2012525625A (ja) * 2009-04-30 2012-10-22 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
JP2015513704A (ja) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド ユーザ専用自動発話認識
JP2016092601A (ja) * 2014-11-05 2016-05-23 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2016111426A (ja) * 2014-12-03 2016-06-20 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349005B2 (en) * 2001-06-14 2008-03-25 Microsoft Corporation Automated video production system and method using expert video production rules for online publishing of lectures
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
DE10129662A1 (de) * 2001-06-20 2003-01-09 Philips Corp Intellectual Pty Kommunikationssystem mit Systemkomponenten zur Feststellung der Urheberschaft eines Kommunikationsbeitrages
US20030048353A1 (en) * 2001-08-07 2003-03-13 Michael Kenoyer System and method for high resolution videoconferencing
US8218829B2 (en) * 2001-08-20 2012-07-10 Polycom, Inc. System and method for using biometrics technology in conferencing
US7728870B2 (en) * 2001-09-06 2010-06-01 Nice Systems Ltd Advanced quality management and recording solutions for walk-in environments
US6873714B2 (en) * 2002-02-19 2005-03-29 Delphi Technologies, Inc. Auto calibration and personalization of eye tracking system using larger field of view imager with higher resolution
US6982748B2 (en) * 2002-02-25 2006-01-03 Koninklijke Philips Electronics N.V. Automatically switched camera system with indicator for notifying the next subject of the camera system
US20030220971A1 (en) * 2002-05-23 2003-11-27 International Business Machines Corporation Method and apparatus for video conferencing with audio redirection within a 360 degree view
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US20040189801A1 (en) * 2003-03-28 2004-09-30 Chao-Hung Chang Active video surveillance system and active video surveillance method therefore
GB2400667B (en) * 2003-04-15 2006-05-31 Hewlett Packard Development Co Attention detection
JP2005124160A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 会議支援システム、情報表示装置、プログラム、及び制御方法
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
US7607097B2 (en) * 2003-09-25 2009-10-20 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
US20050080849A1 (en) * 2003-10-09 2005-04-14 Wee Susie J. Management system for rich media environments
US20050131744A1 (en) * 2003-12-10 2005-06-16 International Business Machines Corporation Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression
US20050131697A1 (en) * 2003-12-10 2005-06-16 International Business Machines Corporation Speech improving apparatus, system and method
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US20070183618A1 (en) * 2004-02-10 2007-08-09 Masamitsu Ishii Moving object equipped with ultra-directional speaker
JP2005277445A (ja) * 2004-03-22 2005-10-06 Fuji Xerox Co Ltd 会議映像処理装置、会議映像処理方法およびプログラム
US7512883B2 (en) * 2004-06-30 2009-03-31 Microsoft Corporation Portable solution for automatic camera management
US7623156B2 (en) * 2004-07-16 2009-11-24 Polycom, Inc. Natural pan tilt zoom camera motion to preset camera positions
US20060047515A1 (en) * 2004-08-25 2006-03-02 Brenda Connors Analyzing human movement patterns
JP4770178B2 (ja) * 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
US7812855B2 (en) * 2005-02-18 2010-10-12 Honeywell International Inc. Glassbreak noise detector and video positioning locator
US7986335B2 (en) * 2005-05-02 2011-07-26 Lifesize Communications, Inc. Set top box videoconferencing system
US20070165106A1 (en) * 2005-05-02 2007-07-19 Groves Randall D Distributed Videoconferencing Processing
EP1739966A1 (en) * 2005-06-30 2007-01-03 Pixartis SA System for videoconferencing
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
US7936885B2 (en) * 2005-12-06 2011-05-03 At&T Intellectual Property I, Lp Audio/video reproducing systems, methods and computer program products that modify audio/video electrical signals in response to specific sounds/images
NO326770B1 (no) * 2006-05-26 2009-02-16 Tandberg Telecom As Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon
US8154578B2 (en) * 2007-05-31 2012-04-10 Eastman Kodak Company Multi-camera residential communication system
US8063929B2 (en) * 2007-05-31 2011-11-22 Eastman Kodak Company Managing scene transitions for video communication
US8159519B2 (en) * 2007-05-31 2012-04-17 Eastman Kodak Company Personal controls for personal video communications
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
US8154583B2 (en) * 2007-05-31 2012-04-10 Eastman Kodak Company Eye gazing imaging for video communications
AU2008202703B2 (en) * 2007-06-20 2012-03-08 Mcomms Design Pty Ltd Apparatus and method for providing multimedia content
US8208005B2 (en) * 2007-07-31 2012-06-26 Hewlett-Packard Development Company, L.P. System and method of determining the identity of a caller in a videoconferencing system
JP4896838B2 (ja) * 2007-08-31 2012-03-14 カシオ計算機株式会社 撮像装置、画像検出装置及びプログラム
CN101874404B (zh) * 2007-09-24 2013-09-18 高通股份有限公司 用于语音和视频通信的增强接口
KR101617192B1 (ko) * 2007-09-26 2016-05-18 에이큐 미디어 인크 오디오-비주얼 내비게이션 및 통신
CN101350906B (zh) * 2008-09-04 2012-06-27 北京中星微电子有限公司 图像矫正方法和图像矫正装置
US20100169792A1 (en) * 2008-12-29 2010-07-01 Seif Ascar Web and visual content interaction analytics
US20100208078A1 (en) * 2009-02-17 2010-08-19 Cisco Technology, Inc. Horizontal gaze estimation for video conferencing
US8477174B2 (en) * 2009-02-27 2013-07-02 Avaya Inc. Automatic video switching for multimedia conferencing
EP2228987B8 (fr) * 2009-03-12 2021-08-04 Orange Système d'interprétation d'un mouvement d'un interlocuteur, procédé et programme d'ordinateur correspondant.
US8274544B2 (en) * 2009-03-23 2012-09-25 Eastman Kodak Company Automated videography systems
US8237771B2 (en) * 2009-03-26 2012-08-07 Eastman Kodak Company Automated videography based communications
US8253774B2 (en) 2009-03-30 2012-08-28 Microsoft Corporation Ambulatory presence features
US20100257462A1 (en) * 2009-04-01 2010-10-07 Avaya Inc Interpretation of gestures to provide visual queues
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CA2765116C (en) * 2009-06-23 2020-06-16 Nokia Corporation Method and apparatus for processing audio signals
US9277021B2 (en) * 2009-08-21 2016-03-01 Avaya Inc. Sending a user associated telecommunication address
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
AU2011201881B2 (en) * 2010-05-18 2015-02-12 Polycom, Inc. Voice tracking camera with speaker indentification
US8395653B2 (en) 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
US8248448B2 (en) 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
US8842161B2 (en) 2010-05-18 2014-09-23 Polycom, Inc. Videoconferencing system having adjunct camera for auto-framing and tracking
US9723260B2 (en) * 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US8462191B2 (en) 2010-12-06 2013-06-11 Cisco Technology, Inc. Automatic suppression of images of a video feed in a video call or videoconferencing system
US8693713B2 (en) 2010-12-17 2014-04-08 Microsoft Corporation Virtual audio environment for multidimensional conferencing
US8698872B2 (en) * 2011-03-02 2014-04-15 At&T Intellectual Property I, Lp System and method for notification of events of interest during a video conference
US9247203B2 (en) 2011-04-11 2016-01-26 Intel Corporation Object of interest based image processing
KR101786944B1 (ko) * 2011-05-12 2017-10-18 삼성전자 주식회사 화자 표시 방법 및 이를 구현하는 영상 통화 단말기
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
WO2013014872A1 (ja) * 2011-07-25 2013-01-31 パナソニック株式会社 画像変換装置、カメラ、映像システム、画像変換方法およびプログラムを記録した記録媒体
US9160965B2 (en) 2011-08-01 2015-10-13 Thomson Licensing Telepresence communications system and method
US10122970B2 (en) 2011-09-13 2018-11-06 Polycom, Inc. System and methods for automatic call initiation based on biometric data
CN103096017B (zh) * 2011-10-31 2016-07-06 鸿富锦精密工业(深圳)有限公司 计算机操控权控制方法及***
US10924582B2 (en) 2012-03-09 2021-02-16 Interdigital Madison Patent Holdings Distributed control of synchronized content
JP5982917B2 (ja) * 2012-03-22 2016-08-31 株式会社リコー 情報処理装置、操作権限付与プログラム及び投影システム
US9264660B1 (en) * 2012-03-30 2016-02-16 Google Inc. Presenter control during a video conference
GB2501145A (en) * 2012-04-12 2013-10-16 Supercell Oy Rendering and modifying objects on a graphical user interface
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
JP5974649B2 (ja) * 2012-06-08 2016-08-23 株式会社リコー 情報処理装置、会議システム、プログラム
TWI504251B (zh) * 2012-07-04 2015-10-11 Vivotek Inc 攝像裝置在對焦時的提示聲音之處理方法
CN103677582A (zh) * 2012-09-18 2014-03-26 联想(北京)有限公司 一种控制电子设备的方法及一种电子设备
US9148625B2 (en) * 2012-09-21 2015-09-29 Cisco Technology, Inc. Transition control in a videoconference
US20140085443A1 (en) * 2012-09-26 2014-03-27 Nokia Corporation Method and apparatus for associating event information with captured media
GB2509323B (en) 2012-12-28 2015-01-07 Glide Talk Ltd Reduced latency server-mediated audio-video communication
US9478233B2 (en) 2013-03-14 2016-10-25 Polycom, Inc. Speech fragment detection for management of interaction in a remote conference
WO2014168616A1 (en) 2013-04-10 2014-10-16 Thomson Licensing Tiering and manipulation of peer's heads in a telepresence system
CN105493422A (zh) 2013-06-20 2016-04-13 汤姆逊许可公司 用于辅助内容的分布式播放的同步的***和方法
US20150085060A1 (en) 2013-09-20 2015-03-26 Microsoft Corporation User experience for conferencing with a touch screen display
US9363476B2 (en) 2013-09-20 2016-06-07 Microsoft Technology Licensing, Llc Configuration of a touch screen display with conferencing
US20150146078A1 (en) * 2013-11-27 2015-05-28 Cisco Technology, Inc. Shift camera focus based on speaker position
CN103780837B (zh) * 2014-01-02 2018-02-09 中安消技术有限公司 一种运动检测和定位拍摄的方法及其装置
US9215411B2 (en) * 2014-02-03 2015-12-15 Google Inc. Enhancing video conferences
US10466657B2 (en) 2014-04-03 2019-11-05 Honda Motor Co., Ltd. Systems and methods for global adaptation of an implicit gesture control system
US9342797B2 (en) 2014-04-03 2016-05-17 Honda Motor Co., Ltd. Systems and methods for the detection of implicit gestures
US10409382B2 (en) 2014-04-03 2019-09-10 Honda Motor Co., Ltd. Smart tutorial for gesture control system
KR102193029B1 (ko) * 2014-05-09 2020-12-18 삼성전자주식회사 디스플레이 장치 및 그의 화상 통화 수행 방법
US9883140B2 (en) * 2014-05-19 2018-01-30 Apple Inc. Using the location of a near-end user in a video stream to adjust audio settings of a far-end system
US9386272B2 (en) 2014-06-27 2016-07-05 Intel Corporation Technologies for audiovisual communication using interestingness algorithms
US9445048B1 (en) 2014-07-29 2016-09-13 Google Inc. Gesture-initiated actions in videoconferences
CA2874715C (en) * 2014-12-15 2022-03-15 Ibm Canada Limited - Ibm Canada Limitee Dynamic video and sound adjustment in a video conference
US9456181B2 (en) * 2015-02-04 2016-09-27 Citrix Systems, Inc. Smart selection of video feeds during an online meeting
US10244175B2 (en) * 2015-03-09 2019-03-26 Apple Inc. Automatic cropping of video content
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
CN106488170B (zh) * 2015-08-28 2020-01-10 华为技术有限公司 视频通讯的方法和***
US10949656B2 (en) * 2015-09-29 2021-03-16 Sony Corporation Information processing apparatus and information processing method
CN106921842B (zh) * 2015-12-28 2019-10-01 南宁富桂精密工业有限公司 录影播放***及方法
US10771508B2 (en) 2016-01-19 2020-09-08 Nadejda Sarmova Systems and methods for establishing a virtual shared experience for media playback
US9743042B1 (en) * 2016-02-19 2017-08-22 Microsoft Technology Licensing, Llc Communication event
US10887628B1 (en) 2016-04-27 2021-01-05 United Services Automobile Services (USAA) Systems and methods for adaptive livestreaming
US10454877B2 (en) 2016-04-29 2019-10-22 Cisco Technology, Inc. Interoperability between data plane learning endpoints and control plane learning endpoints in overlay networks
US10091070B2 (en) 2016-06-01 2018-10-02 Cisco Technology, Inc. System and method of using a machine learning algorithm to meet SLA requirements
US9965683B2 (en) * 2016-09-16 2018-05-08 Accenture Global Solutions Limited Automatically detecting an event and determining whether the event is a particular type of event
US10321096B2 (en) * 2016-10-05 2019-06-11 Avaya Inc. Embedding content of interest in video conferencing
US10963813B2 (en) 2017-04-28 2021-03-30 Cisco Technology, Inc. Data sovereignty compliant machine learning
US10477148B2 (en) * 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
US10187579B1 (en) 2017-06-30 2019-01-22 Polycom, Inc. People detection method for auto-framing and tracking in a video conference
US10608901B2 (en) 2017-07-12 2020-03-31 Cisco Technology, Inc. System and method for applying machine learning algorithms to compute health scores for workload scheduling
US10091348B1 (en) 2017-07-25 2018-10-02 Cisco Technology, Inc. Predictive model for voice/video over IP calls
US10699148B2 (en) * 2017-08-21 2020-06-30 Lifesize, Inc. Dynamic calibration of detection system for active areas of interest within video data
US10805521B2 (en) 2017-09-05 2020-10-13 Facebook, Inc. Modifying capture of video data by an image capture device based on video data previously captured by the image capture device
US10868955B2 (en) * 2017-09-05 2020-12-15 Facebook, Inc. Modifying capture of video data by an image capture device based on video data previously captured by the image capture device
US10666857B2 (en) 2017-09-05 2020-05-26 Facebook, Inc. Modifying capture of video data by an image capture device based on video data previously captured by the image capture device
US11785180B2 (en) 2017-09-11 2023-10-10 Reelay Meetings, Inc. Management and analysis of related concurrent communication sessions
US11122240B2 (en) 2017-09-11 2021-09-14 Michael H Peters Enhanced video conference management
US10382722B1 (en) 2017-09-11 2019-08-13 Michael H. Peters Enhanced video conference management
US11290686B2 (en) 2017-09-11 2022-03-29 Michael H Peters Architecture for scalable video conference management
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
US10417502B2 (en) * 2017-12-15 2019-09-17 Accenture Global Solutions Limited Capturing series of events in monitoring systems
WO2019139101A1 (ja) * 2018-01-12 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US20190230310A1 (en) * 2018-01-24 2019-07-25 Microsoft Technology Licensing, Llc Intelligent content population in a communication system
JP2019139387A (ja) * 2018-02-07 2019-08-22 日本電信電話株式会社 推定装置、推定方法、およびプログラム
KR102453084B1 (ko) * 2018-04-17 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108881765A (zh) * 2018-05-25 2018-11-23 讯飞幻境(北京)科技有限公司 轻量录播方法、装置及***
CN110536097A (zh) * 2018-05-25 2019-12-03 中兴通讯股份有限公司 一种视频控制方法、视频会议终端和多点控制单元mcu
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN109031201A (zh) * 2018-06-01 2018-12-18 深圳市鹰硕技术有限公司 基于行为识别的语音定位方法以及装置
US10867067B2 (en) 2018-06-07 2020-12-15 Cisco Technology, Inc. Hybrid cognitive system for AI/ML data privacy
US10623657B2 (en) * 2018-06-12 2020-04-14 Cisco Technology, Inc. Audio assisted auto exposure
US10446170B1 (en) 2018-06-19 2019-10-15 Cisco Technology, Inc. Noise mitigation using machine learning
US10681313B1 (en) * 2018-09-28 2020-06-09 Ambarella International Lp Home monitoring camera featuring intelligent personal audio assistant, smart zoom and face recognition features
US10904347B2 (en) 2019-03-12 2021-01-26 International Business Machines Corporation Indicating in an electronic communication session a concentration level score of a user participating in the electronic communication session
US20220398864A1 (en) * 2019-09-24 2022-12-15 Polycom Communications Technology (Beijing) Co., Ltd. Zoom based on gesture detection
US11109152B2 (en) * 2019-10-28 2021-08-31 Ambarella International Lp Optimize the audio capture during conference call in cars
US11417318B2 (en) * 2020-02-21 2022-08-16 BetterUp, Inc. Computationally reacting to a multiparty conversation
US11521620B2 (en) * 2020-02-21 2022-12-06 BetterUp, Inc. Synthesizing higher order conversation features for a multiparty conversation
US20210327423A1 (en) * 2020-04-15 2021-10-21 Centurylink Intellectual Property Llc Method and system for monitoring content of a communication session over a network
CN111833876A (zh) * 2020-07-14 2020-10-27 科大讯飞股份有限公司 会议发言控制方法、***、电子设备及存储介质
US11563783B2 (en) * 2020-08-14 2023-01-24 Cisco Technology, Inc. Distance-based framing for an online conference session
CN111986703B (zh) * 2020-08-20 2023-05-26 随锐科技集团股份有限公司 视频会议方法及***、计算机可读存储介质
WO2022146169A1 (en) * 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation
CN113053376A (zh) * 2021-03-17 2021-06-29 财团法人车辆研究测试中心 语音辨识装置
US11626109B2 (en) * 2021-04-22 2023-04-11 Automotive Research & Testing Center Voice recognition with noise supression function based on sound source direction and location
CN113347381B (zh) * 2021-05-24 2022-09-02 随锐科技集团股份有限公司 预测不雅举止轨迹的方法及***
US11937016B2 (en) 2021-05-26 2024-03-19 International Business Machines Corporation System and method for real-time, event-driven video conference analytics
EP4123505A1 (en) * 2021-07-22 2023-01-25 Plantronics, Inc. Face detection guided sound source localization pan angle post processing for smart camera talker tracking and framing
WO2023053005A1 (en) * 2021-09-30 2023-04-06 Gentex Corporation Intelligent video conference cropping based on audio and vision
EP4167586A1 (de) * 2021-10-14 2023-04-19 COCOSOFT Systems GmbH Verfahren zur steuerung einer kamera eines gerichtssaal-mediensystems
US12028399B2 (en) 2022-01-31 2024-07-02 Zoom Video Communications, Inc. Motion-based frame rate adjustment for network-connected conference participants
US11563790B1 (en) * 2022-01-31 2023-01-24 Zoom Video Communications, Inc. Motion-based frame rate adjustment for in-person conference participants
US20230283740A1 (en) * 2022-03-03 2023-09-07 International Business Machines Corporation Front-end clipping using visual cues
US11915483B1 (en) * 2022-09-23 2024-02-27 Zoom Video Communications, Inc. Applying a configuration for altering functionality of a component during a video conference

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0771279B2 (ja) 1988-08-17 1995-07-31 富士通株式会社 テレビ会議用画像処理装置
JPH06131437A (ja) 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
US5347306A (en) * 1993-12-17 1994-09-13 Mitsubishi Electric Research Laboratories, Inc. Animated electronic meeting place
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
JPH08163522A (ja) * 1994-11-30 1996-06-21 Canon Inc テレビ会議システムおよび端末装置
US5959667A (en) * 1996-05-09 1999-09-28 Vtel Corporation Voice activated camera preset selection system and method of operation
WO1997043857A1 (de) 1996-05-10 1997-11-20 Siemens Aktiengesellschaft Verfahren zur automatischen zuordnung eines sprachsignals eines teilnehmers einer videokonferenz zu seinem bild
US6275258B1 (en) * 1996-12-17 2001-08-14 Nicholas Chim Voice responsive image tracking system
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US6005610A (en) * 1998-01-23 1999-12-21 Lucent Technologies Inc. Audio-visual object localization and tracking system and method therefor
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6392694B1 (en) * 1998-11-03 2002-05-21 Telcordia Technologies, Inc. Method and apparatus for an automatic camera selection system
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US6850265B1 (en) 2000-04-13 2005-02-01 Koninklijke Philips Electronics N.V. Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011520387A (ja) * 2008-05-06 2011-07-14 マイクロソフト コーポレーション マルチメディア会議イベントのメディアコンテンツを管理する技術
JP2012525625A (ja) * 2009-04-30 2012-10-22 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2015513704A (ja) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド ユーザ専用自動発話認識
US10789950B2 (en) 2012-03-16 2020-09-29 Nuance Communications, Inc. User dedicated automatic speech recognition
JP2016092601A (ja) * 2014-11-05 2016-05-23 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2016111426A (ja) * 2014-12-03 2016-06-20 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Also Published As

Publication number Publication date
EP1260099A1 (en) 2002-11-27
CN1422494A (zh) 2003-06-04
US6894714B2 (en) 2005-05-17
US20020101505A1 (en) 2002-08-01
WO2002047386A1 (en) 2002-06-13

Similar Documents

Publication Publication Date Title
US6894714B2 (en) Method and apparatus for predicting events in video conferencing and other applications
US11676369B2 (en) Context based target framing in a teleconferencing environment
US6850265B1 (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US6766035B1 (en) Method and apparatus for adaptive position determination video conferencing and other applications
JP4474013B2 (ja) 情報処理装置
JP4697907B2 (ja) 画像処理装置及び方法
KR20070029794A (ko) 유저와 시스템 사이에 통신을 하기 위한 방법 및 시스템
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
Bernardin et al. Audio-visual multi-person tracking and identification for smart environments
JP4490076B2 (ja) 物体追跡方法、物体追跡装置、プログラム、および、記録媒体
US7984010B2 (en) Action agenda determining apparatus
JP2002312796A (ja) 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
US20220327732A1 (en) Information processing apparatus, information processing method, and program
McCowan et al. Towards computer understanding of human interactions
KR100711950B1 (ko) 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹
Zhang et al. Boosting-based multimodal speaker detection for distributed meetings
Bernardin et al. Multimodal identity tracking in a smartroom
Takemae et al. Automatic video editing system using stereo-based head tracking for multiparty conversation
Al-Hames et al. Automatic multi-modal meeting camera selection for video-conferences and meeting browsers
WO2024062971A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Potamianos et al. Audio-visual ASR from multiple views inside smart rooms
Strubbe et al. UI for a videoconference camera
Korchagin et al. Multimodal cue detection engine for orchestrated entertainment
KR20220090940A (ko) 스토리 기반 영상매체의 등장인물 시선 추적을 통한 화자-청자 인식 및 시선 상호작용 분석 시스템 및 방법
JP4301078B2 (ja) 映像のインデクシング方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041201

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070111