JP5195106B2

JP5195106B2 - 画像修正方法、画像修正システム、及び画像修正プログラム

Info

Publication number: JP5195106B2
Application number: JP2008182393A
Authority: JP
Inventors: ケー．フォルドペルニッラ; ゴロブチンスキージーン; ジェイ．バックメアリベス
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-09-24
Filing date: 2008-07-14
Publication date: 2013-05-08
Anticipated expiration: 2028-07-14
Also published as: US8243116B2; JP2009077380A; US20090079816A1

Description

本発明は、主に、テレビ会議及び他のコンピュータを介するコミュニケーションに関し、特に、テレビ会議セッションにおいて、ユーザの非言語的動作（non-verbal behavior）を社会的に適切であるように修正することに関する。

近年、テレビ会議や他の形式のコンピュータを介するコミュニケーションが、様々な組織、企業、及び一般消費者の間で、ますます普及しつつある。テレビ会議は、異なる場所に居るユーザ同士の間で映像及び音声の双方向伝送を行うことに加え、ファイルや文書をリアルタイムで共有すること、電子ホワイトボードを提供すること、参加者を仮想三次元アバター（分身を表す三次元グラフィック）として表すこと、ビジネス会議や一般的な会話を行うこと、その他の様々な作業を実施することにも使用される。これらすべての機能性は、社会の相当な部分において、ビジネス、テクノロジー（技術）、教育、及び一般的な生活の質に大きな影響を与えている。

テレビ会議や同様の技術は、また、地理的地域、文化、及び言語が異なる人々の間にコミュニケーションの道筋を開くことにも大きな役割を果たしている。しかしながら、これに伴って、会議参加者の間のオンラインでの動作に関して、他のコミュニケーション媒体ではこれまで存在していなかった、様々な問題や懸念が多数発生している。例えば、テレビ会議用のソフトウェアは、典型的には、参加者の映像伝送信号を搬送するため、ユーザの非言語的動作が意味を持つようになっている。そのような非言語的動作の適切性は、文化が違えば大きく異なり、ある文化では適切であると見られることが、別の文化では不適切であると見られることが多い。

ビジネス会議では、参加者の非言語的動作の適切性が非常に重要になる可能性がある。例えば、非言語的動作は、人々の間で信頼を築くのに、驚くほど重要な役割を果たす。適切なタイミングでの適度の凝視（gaze）、適切なジェスチャ、及び顔の表情は、信頼を表すことが可能であり、取引の成否を決定する可能性がある。一般人が異文化の適切な非言語的動作を学ぶことは可能であるが、特定の様式化された動作（挨拶など）の域を越えて適切性を維持することは、非常に困難である場合がある。更に、参加する可能性がある総ての会議における各文化の習慣及び伝統を学ぶことを参加者に求めることは、非常に困難である場合が多く、様々なトレーニングシステムが必要になる可能性があり、多くの場合はまったく好ましくないことであろう。

凝視又はジェスチャを用いる場合の関連技術は、主に、集約された情報を、会話の状態に関連付けられた凝視又はジェスチャモデルの形式で使用することに、焦点が置かれてきた。これらのモデルは、後で、完全に自動化されたアバターが、会話における自然動作を模倣するための凝視出力又はジェスチャ出力を生成するために使用される。

例えば、Colburnら、「The Role of Eye Gaze in Avatar Mediated Conversational Interfaces」（Microsoft Research Report、81.2000.2000.）、Garauら、「The Impact on Eye Gaze on Communication Using Humanoid Avatars」（In Proceedings of Conference on Human Factors in Computing Systems、Seattle、WA（2001年）、ACM Press、309-316頁）、及びGarauら、「The Impact of Avatar Realism and Eye Gaze Control on Perceived Quality of Communication in a Shared Immersive Virtual Environment」（In Proceedings of Conference on Human Factors in Computing Systems、Fort Lauderdale、FL（2003年）、ACM Press、259-266頁）を参照されたい。

テレビ会議用の目入力（eye input）も、誰が誰を見ているかを決定するなど、参加者の凝視認識性（gaze awareness）を高めるために使用されてきた。この設定における凝視入力（gaze input）又は凝視についての認識は、テレビ会議設備の物理的な設営における、ビデオ画像とカメラ位置との間のずれに起因する視差（parallax）を克服することに用いられる。システムによっては、ビデオ画像の、目のまわりの領域を修正して視差を補償する。また、システムによっては、ユーザの凝視についての情報を使用して、画像の順番（rotation）又は参加者のビデオディスプレイの順番を変更して、会話中に誰が誰を見ているかを示す。

例えば、Gemmelら、「Gaze Awareness for Video Conferencing: A Software Approach」（IEEE Multimedia (October-December)、2000年（26-35頁））、Jeraldら、「Eye Gaze Correction for Video Conferencing」（In Proceedings of Symposium on Eye Tracking Research & Applications（2002年）ACM Press、77-81頁）、Taylorら、「Gaze Communication Using Semantically Consistent Spaces」（In Proceedings of Conference on Human-Factors in Computing Systems（The Hague、Netherlands、2000年）、ACM Press、400-407頁）、

Vertegaal, R.、「The GAZE Groupware System: Mediating Joint Attention in Multiparty Communication and Collaboration」（In Proceedings of Conference on Human Factors in Computing Systems（CHF'99）（Pittsburgh、PA、USA、1999年）、ACM Press、294-301頁）、Vertegaalら、「Eye Gaze Patterns in Conversations: There is More to Conversational Agents Than meets the Eyes」（In Proceedings of Conference on Human Factors in Computing Systems CHI、（Seattle、WA、USA、2001年）、ACM Press、301-309頁）、及びVertegaalら、「Conveying Eye Contact in Group Video Conferencing Using Eye-Controlled Camera Direction」（In Proceedings of Conference on Human Factors in Computing Systems（Fort Lauderdale、Florida、USA、2003年）、ACM Press、521-528頁）を参照されたい。

ユーザを仮想又は三次元のアバターとして表す、いくつかの会議システムが示されている。そのようなシステムでは、そのようなアバターの身体的且つ非言語的なジェスチャ及び凝視のイラストは、どの特定のユーザ又は文化にも合わせられていないのが普通であり、見る側の誤解を招くことが多い。いくつかの文化的パラメータを使用するシステムであっても、そのようなパラメータは、完全に自動化されたアバターに限定されるのが普通である。例えば、いくつかのシステムは、文化固有の又は文化に依存するジェスチャを、完全に自動化されたアバターで生成している。

例えば、Johnsonら、「Tactical Language Training System: Supporting the Rapid Acquisition of Foreign Language and Cultural Skills」（In Proceedings of InSTIL/ICALL2004-NLP and Speech Technologies in Advanced Language Learning Systems−Venice（2004年）、19頁）、及びKimら、「Generation of Arm-gesture and Facial Expression for Intelligent Avatar Communications on the Internet」（2002年）を参照されたい）。

また、手の動きを有するアバターを制御する、別のいくつかのシステムも示されている。一般に、これらの手の動きは自然なジェスチャではなく、むしろ手はマウス又は他の入力方法の代用として使用される。例えば、Barrientos, F.、「Continuous control of avatar gesture」（Proceedings of the 2000 ACM workshops on Multimedia、ACM Press、Los Angeles、California、U.S.、2000年、5-8）を参照されたい。更に、そのようなアバター制御は、前述のように、動作を文化固有のパラメータに合わせるという要求に応えていない。

前述のすべてを鑑みると、会議参加者の自然動作をより文化的に適切な動作に修正して再マッピングすること、仮想環境のアバターの外観をアバターを見る側の文化的期待に適応させること、意図的な制御文法ではなく、自然に発生する動作により、文化的に適切なコミュニケーションを達成すること、を可能にするシステムが求められている。出願人らは、本出願の対象を考案するに当たり、当該技術分野に存在するこれら及びその他の問題並びに懸念を認識している。

BARRIENTOS, FRANCESCA,"Continuous Control of Avatar Gesture,"Proceedings of the 2000 ACM Workshops on Multimedia, ACM Press, Los Angeles, CA, USA, pages 5-8 (2000).

BUSSO, CARLOS, et al.,"Analysis of Emotion Recognition Using Facial Expressions, Speech and Multimodal Information," Proceedings of the 6th International Conference on Multimodal Interfaces, ICMI'04, ACM Press, State College, PA, USA, pages 205-211 (2004).

COLBURN, R. ALEX, et al.,"The Role of Eye Gaze in Avatar Mediated Conversational Interfaces," Microsoft Research Report 81, 10 pages (2000).

DUBNOV. SHLOMO, et al.,"Media Flow Experience Using Influential Feature Analysis," 4 pages.

GARAU, MARIA, et al.,"The Impact of Avatar Realism and Eye Gaze Control on Perceived Quality of Communication in a Shared Immersive Virtual Environment,"Proceedings of Conference on Human Factors in Computing Systems, CHl 2001, Fort Lauderdale, FL, USA ACM Press, pages 259-266 (2003).

GARAU, MARIA, et al.,"The Impact on Eye Gaze on Communication Using Humanoid Avatars," Proceedings of Conference on Human Factors in Computing Systems, CHI 2003, Seattle, WA, USA, ACM Press, pages 309-316 (2001).

GEMMELL, JIM, et al.,"Gaze Awareness for Video-Conferencing: A Software Approach,"IEEE Multimedia, pages 26-35 (October-December 20OO).

JERALD, JASON, et al.,"Eye Gaze Correction for Videoconferencing,"Proceedings of Symposium on Eye Tracking Research & Applications, ACM Press, pages 77-81 (2002).

JOHNSON, W. LEWIS, et al.,"Tactical Language Training System: Supporting the Rapid Acquisition of Foreign Language and Cultural Skills,"Proceedings of the Proceedings of inSTIL/ICALL2003-NLP and Speech Technologies in Advanced Language Learning Systems, Venice, Italy, 4 pages (2004).

KIM, SAN WOON, et al.,"Generation of Arm-Gesture and Facial Expression for Intelligent Avatar Communications on the Internet,"6 pages (2002).

MCCARTHY, ANJANIE, et al.,"Cultural Display Rules Drive Eye Gaze During Thinking,"Journal of Cross-Cultural Psychology, Vol.37, No.6, pages 171-722 (November 2006).

NGUYEN, DAVID, et al.,"MultiView: Spatially Faithful Group Video Conferencing,"Proceedings of Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Portland, OR, USA, ACM Press, pages 799-808 (2005).

SCHNEIDERMAN, HENRY, et al.,"A Statistical Model for 3D Object Detection Applied to Faces and Cars,"Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 6 pages (2000).

SEBE, NICU, et al.,"Emotion Recognition Based on Joint Visual and Audio Cues," Proceedings of the 18th International Conference on Pattern Recognition(ICPR'06), pages 1136-1139 (2006).

TAYLOR, MICHAEL J., et al.,"Gaze Communication Using Semantically Consistent Spaces,"Proceedings of Conference on Human Factors in Computing Systems, CHI 2000, The Hague, The Netherlands, ACM Press, pages 400-407 (2000).

TSALAKANIDOU, FILARETl, et al.,"Face Localization and Authentication Using Color and Depth Images,"IEEE Transactions on Image Processing, Vol.14. No.2, pages 152-168 (February 2005).

VERTEGAAL, ROEL, et al.,"Eye Gaze Patterns in Conversations: There is More to Conversational Agents than Meets the Eyes,"Proceedings of Conference on Human-Factors in Computing Systems, CHI 2001, Seattle, WA, USA, ACM Press, pages 301-309 (2001).

VERTEGAAL, ROEL, et al.,"The GAZE Groupware System: Mediating Joint Attention in Multiparty Communication and Collaboration,"Proceedings of Conference on Human-Factors in Computing Systems, CHI 1999, Pittsburgh, PA, USA,ACM Press, pages 294-301 (l999).

ZENG, ZHIHONG, et al.,"Audio-Visual Emotion Recognition in Adult Attachment Interview,"Proceedings of the 8th International Conference on Multimodal Interfaces, ICMI'06, ACM Press, Banff, Alberta, Canada, pages 139-145 (2006).

本発明の目的は、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法、画像修正システム、及び画像修正プログラムを提供することにある。

上記目的を達成するために、請求項１に記載の発明における画像修正方法は、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法であって、コンピュータを介する前記コミュニケーションにおける少なくとも１人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取り、前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施し、前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定し、前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正することを含む。

請求項１２に記載の発明における画像修正システムは、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正システムであって、コンピュータを介する前記コミュニケーションにおける参加者の自然非言語的動作セグメントを含むビデオ画像データを収集するカメラと、前記自然非言語的動作セグメントを含むビデオ画像データを受け取り、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記ビデオ画像データのデータ解析を実施して、前記自然非言語的動作セグメントの文化的適切度を決定し、前記自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、代替動作を決定し、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更することによってビデオ出力ストリームを修正する、コンピューティングデバイスと、を備える。

請求項２２に記載の発明における画像修正プログラムは、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する機能を実施するためにコンピュータによって実行可能な命令を含む画像修正プログラムであって、前記機能は、コンピュータを媒介とする前記コミュニケーションにおける少なくとも１人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取るステップと、前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施するステップと、前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定するステップと、前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正するステップと、を含む。

本発明によれば、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正することができる、という効果がある。

本発明の好ましい実施形態を、添付図面に基づき、詳細に説明する。
添付図面の各図には、本発明が、限定ではなく例示として示されており、添付図面では、類似の参照符号は類似の要素を表している。本開示における実施形態の参照は、必ずしも同じ実施形態の参照ではなく、そのような参照は少なくとも１つであることを意味する。具体的な実施形態について説明するが、この説明は例示のみを目的としてなされることを理解されたい。当業者であれば、本発明の範囲及び趣旨から逸脱することなく、他の要素や構成を用いることが可能であることを理解されよう。

以下の説明では、本発明を十分に説明するために、多数の具体的な細部が示される。しかしながら、これらの具体的な細部がなくても本発明を実践することが可能であることは、当業者であれば自明であろう。他の例では、本発明が不明瞭にならないように、よく知られている特徴については、細部までは説明されていない。

各部品が論理的に分かれているように描かれた図があるが、そのような描き方は、例示を目的としたものに過ぎない。描かれた部品が結合されたり、別々のソフトウェア、ファームウェア、及び／又はハードウェア部品に分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかに拘らず、同一コンピューティングデバイスで実行されることも、１つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることが可能であることも、当業者であれば自明であろう。

実施形態に従って、テレビ会議ユーザの非言語的動作を社会的に適切であるように修正するシステム及び方法を説明する。一実施形態では、システムは、複数のユーザ又は会議参加者にサービスを提供するテレビ会議システムを備える。テレビ会議システムは、ソフトウェアシステム又はハードウェアシステムの両方を含むことが可能である。好ましくは、インターネットへの接続を確立することが可能なサーバコンピューティングデバイス又はクライアントコンピューティングデバイスに導入されたソフトウェアアプリケーションとして実装されることが可能である。各種実施形態では、システムは更に、デジタルカメラやビデオカメラのような画像取り込みデバイスを含む。

会議システムは、他の会議参加者に向けて送信及び／又は表示する、ユーザ動作のビデオ画像データを記録するために使用されることが可能である。各種実施形態では、ユーザの自然非言語的動作の文化的適切度を調べるために、取り込まれたビデオ画像データに対してデータ解析を実施することが可能である。この解析は、文化モデルに基づくことが可能であり、ユーザの非言語的動作のうちの凝視、ジェスチャ、タイミング、強調、及び感情の各データの任意の組み合わせを解析することが可能である。代替実施形態では、言語的動作を、文化モデルに従って解析することも可能である。動作が不適切と考えられる場合は、ユーザの代替動作（テレビ会議の状況に、よりふさわしい動作）を決定するために、文化モデルデータも使用されることが可能である。

動作が不適切である場合は、その参加者の自然動作を、代替のより適切な動作と一致するように再マッピングすることにより、視覚出力ストリームを修正することが可能である。この修正は、様々の異なる方法で実施可能である。例えば、会議システムは、他の会議参加者に向けてデータを表示又は送信する前に、画像取り込みデバイスに記録されたユーザの凝視及び／又はジェスチャを変更することが可能である。一実施形態では、システムは、ユーザの目部分の校正された画像データを保存することが可能である。このデータは、ビデオ画像データの目画像部分を、代替動作に従って修整するために抽出され、使用されることが可能である。

例えば、システムが、文化モデルに従って、ユーザが見上げるより下方を凝視する方が適切であろうと判断した場合は、ユーザのビデオ画像の目部分を、ユーザの目が下方を凝視する、予め記録された校正済み画像に置き換えることが可能である。別の実施形態では、システムは、不適切な動作を検出した場合は、ただちに、ユーザの画面を、プレゼンテーション（文書、チャート、グラフなど）の共有画面に切り替えることが可能である。システムが仮想ディスプレイ・アバターを使用して参加者を表すような、更に別の実施形態では、システムは、表示されるアバターの外観及び動作を、より適切な動作に一致するように合成することが可能である。

一定時間が経過した後、修正された画面をユーザの通常の（即ち、未修正の）ビデオに戻すことが可能である。未修正のビデオに戻す適切なタイミングは、画面を修正するタイミングを決定する場合と同様に、決定されることが可能である。例えば、ユーザの非言語的動作が再び文化的に適切になったことが検出された場合に、未修正の表示を復元することが可能である。一実施形態では、センスが良く快適なテレビ会議を体験できるように、アルゴリズムは、代替の視覚的素材をどの位長く表示しているか、も考慮することが可能である。各種実施形態では、ユーザは、未修正動作に戻すまでの時間を、構成可能な属性又はパラメータとして指定することを許可されることも可能である。

前述の機能を実施する、テレビ会議システムの動的能力により、ユーザの自然動作を、より文化的又は社会的に適切な動作に再マッピングすることが可能である。更に、仮想環境アバターの外観及び動作を、アバターを見る側の文化的期待に応えられるように調整することが可能である。これらすべての機能性が、より柔軟且つ快適なテレビ会議体験を提供し、ビジネス会議、討論、又はトレーニングセッションのための、より円滑な文化的移行を可能にする。

しかしながら、本明細書に記載の方法論（methodology）は、テレビ会議に限定されるものではなく、他の様々な用途に用いられることが可能であることに注意されたい。例えば、社会的障害を有する人々のトレーニングを行うシステムや、人々が新しい文化に適合することを学習することを支援するシステムも、本開示で示される実施形態及び手法を含むことが可能である。そのようなトレーニングシステムの１つでは、様々なトレーニングシナリオの間に人の凝視を解析することが可能であり、トレーニング対象者の凝視が社会的に容認できないものになったときに、トレーニング対象者にフィードバックを与えて、適正な凝視動作を意識させることが可能である。外国語学習者向けの、同様のアプリケーション及びシステムも可能である。

重要であり且つ測定がまずまず容易である非言語的動作の１つが「凝視」である。人は、会話の相手が興味を持っているかどうか、退屈しているかどうか、考え込んでいるかどうか、或いは、議論の主題を理解しているかどうかを、凝視動作を追跡することによって判断することが可能である。凝視はまた、会話における順番取りの調整に用いられることも可能である。例えば、参照により本明細書に組み込まれる、Argyleら、「Gaze and Mutual Gaze」（Cambridge University Press、Cambridge、1976年）を参照されたい。

コミュニケーションにおける凝視の役割が、対面会議が一般的であること、及びテレビ会議が対面会議の一般的な補完になりうることの、１つの理由であると考えられる。しかしながら、会話の参加者が異なる文化を有する場合、凝視関連動作は、不要な混乱を招く可能性がある。これは、会話において凝視を律する規則が、文化に依存している場合が多いためである。例えば、西洋のバックグラウンドを有する人は、考え込んでいるときに上を見るが、日本人は下を見る傾向がある。例えば、参照により本明細書に組み込まれる、McCarthyら、「Cultural Display Rules Drive Eye Gaze During Thinking」（Journal of Cross-Cultural Psychology、37 (6). 2006年、77-81頁）を参照されたい。他の凝視における文化的差異として、話し手又は聴き手に向けられる凝視の長さ、話しているときに聴き手の方を見る適切なタイミング、適切な視線方向などがある。

多くの場合、テレビ会議の参加者は、自分の凝視動作が適切かどうかを知ることが難しいと感じるであろう。そのような不確かさの１つの理由は、カメラと遠隔参加者の画像との間の「ずれ（offset）」である可能性がある。この「ずれ」により、参加者は、自分の目の凝視が、遠隔参加者（remote party）のディスプレイ画面ではどこを向いているように映っているかを正確に知ることが困難である可能性がある。更に、遠隔参加者のビデオ画像は注意を引きやすい。同じ部屋にいる参加者は、すべての参加者が同じ部屋にいる場合より、遠隔参加者により多くの注意を向ける。例えば、テレビを視聴するような凝視動作である。

各種実施形態では、テレビ会議呼び出しにおいて参加者の凝視を追跡することが可能である。この情報を、音声データがあれば音声データと共に用いて、テレビ会議において文化的に適切になるように凝視を修正することが可能である。例えば、一実施形態では、日本人と西洋人が会話する場合に、日本人参加者に向けて表示される西洋人の凝視が、標準的な礼儀正しい日本人の凝視動作をまねるように修正され、西洋人は、西洋文化的に適切な様式の日本人参加者を見る。

動作の修正のためには、様々な方法論が実施されることが可能である。一実施形態では、システムが参加者の画面の外に追加資料（例えば、共有プレゼンテーション、文書、図など）を含む場合、システムは、会議における遠隔参加者の動作が文化的に不適切になったときに、その参加者の画面を追加資料の画面（例えば、共有プレゼンテーションの画面）に自動的に切り替えることが可能である。実施形態によっては、この手法は、参照により本明細書に組み込まれる、Nguyenらの「Multiview: spatially faithful group video conferencing」（In Proceedings of the SIGCHI conference on Human factors in computing systems（Portland、Oregon、USA、2005年）、ACM Press、799-808頁）に示されているような、個人別テレビ会議ディスプレイの場合に、好ましい可能性がある。

別の実施形態では、会議システムは、二次元又は三次元環境で仮想アバターを利用することが可能である。本開示で用いられているように、アバターは、（例えば、共有の仮想環境における）ユーザの何らかの視覚的表現である。アバターは、当該技術分野では一般的に公知であり、インターネットフォーラム、インスタントメッセージングシステム、ビデオゲームなどのコンテキスト（文脈）の中でよく使用されている。アバターの外観及び／又は動作を具体的に選択することは、本発明にとって本質的ではなく、本発明の実施形態では、どのような外観及び動作でも利用可能である。

アバター及びその動作を、システムの文化モデルデータに従って、より文化的に適切になるように、ディスプレイ上で合成することが可能である。例えば、アバターの凝視を、特定の文化の習慣に従って、より適切になるように操作することが可能である。凝視の方向は、頭の位置と緊密に関連付けられることが可能なので、凝視を使用して、アバターの頭の動きを制御することも可能である。この特徴を用いることにより、ユーザの必要作業量を最小にして、アバターの動きをより自然にすることが可能である。

参加者の実際のビデオの代わりにアバター及び三次元仮想環境を使用することの可能な利点の１つは、ジェスチャのような、より複雑な非言語的動作を、文化的に適切になるように合成することが、容易に可能であることである。例えば、西洋人の参加者が日本人の参加者との会議に参加したときに、その西洋人のアバターを、笑うときに口を覆うように表示することが可能である。この動作は、西洋の文化では普通ではないが、日本では適切である。そのようなジェスチャを実行するようにユーザの実際のビデオ表示を修正することは、技術的に多少複雑になる可能性がある。しかし、アバターのジェスチャを合成することは、比較的簡単であり、アバターの動き及び表示に典型的に必要である以上に、追加のトレーニング及びプログラミングを必要としない。同様に、実質的な身体の動きを伴う他のジェスチャは、ユーザのビデオを直接操作する代わりにアバターを使用すれば、より簡単に合成できる。

しかしながら、アバターの使用は、本発明のすべての実施形態で必須というわけではないこと、会議参加者の実際のビデオに対して容易に操作できる非言語的動作もあることに、注意することが重要である。一例として、各ユーザが上、下、横などを凝視しているビデオセグメントを事前記録することにより、システムをユーザごとに校正することが可能である。これらのユーザの目の事前記録されたセグメントは、後で、ユーザの通常の動作が不適切であると考えられた場合に、そのユーザの通常の動作を再マッピングするために、会議システムにより使用され得る。ビデオのそのような小さな部分は、テレビ会議全体と有意に干渉することなく、重ね継ぎ（splice）及び操作（manipulate）されることが可能であるため、ユーザの凝視を修正することは、多くの状況の役に立つことが可能である。

システムは、動作を再マッピングすることの外に、凝視及びジェスチャ以外の動作の提案をユーザに対して行うことが可能である。例えば、西洋人ユーザに対し、会議のコンテキスト（状況）に関して、例えば、日本人の丁寧な動作及び儀礼、名刺交換、紹介の順番、座る場所等、「提案」や「コメント」を提供することが可能である。

図１は、各種実施形態のコンテキストにおける種々のデバイス及び部品の例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び／又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかに拘らず、同一コンピューティングデバイスで実行されることも、１つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。

図示されているように、システムは、種々のコンピューティングデバイス及び画像取り込みデバイスと共に、異なる文化圏（第２文化圏１０６、第３文化圏１０８、第１文化圏１１０）に居て、ビデオ会議のためにネットワーク接続１１２で接続されたユーザ（１００、１０２、１０４）を包含することが可能である。コンピューティングデバイスとしては、パーソナルコンピュータ（ＰＣ）、ラップトップ、メインフレーム、携帯情報端末（ＰＤＡ）、携帯電話、及び他の処理能力を有するデバイスを含み得る。画像取り込みデバイスとしては、デジタルカメラ、アナログカメラ、ビデオ記録機器、及び他の静止画写真又は動画像を取り込めるデバイスを含み得る。

実施形態によっては、目追跡装置、モーションセンサ、データグローブ、音声取り込みデバイスなどの追加ハードウェアを利用することが可能である。接続１１２は、２つ以上のコンピューティングデバイスの間で確立された任意の通信リンクであってよく、ローカルエリアネットワーク（ＬＡＮ）、インターネットのようなワイドエリアネットワーク（ＷＡＮ）、無線接続（無線周波数、マイクロ波、又は赤外線による接続を含む）、携帯電話通信、及び他の電子通信があり、これらに限定されない。

図２は、各種実施形態による、ローカルテレビ会議システムの例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び／又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかにかかわらず、同一コンピューティングデバイスで実行されることも、１つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。

図示されているように、テレビ会議システム２００は、画像取り込みデバイス２０２からビデオ入力データを受け取ることが可能である。一実施形態では、システムは、映像／音声から文化的適切度を解析する解析モジュール（解析部）２１４を含む。解析部２１４は、画像取り込みデバイス２０２からデータを受け取る。解析部２１４は、そのデータに対する文化的適切度の解析を実施するために、ビデオに取り込まれたユーザの動作のうちの凝視、ジェスチャ、タイミング、強調、感情、及び他の文化関連態様を解析する。解析部２１４は、ユーザ動作の解析に、文化モデルデータ２１０、非言語的動作履歴、及び状態データ２１２を利用することが可能である。なお、モジュールという用語は、本明細書で用いられているように、コンパイル済みソフトウェアアプリケーション、アプレット、プログラミングオブジェクト（クラスや関数など）、及び他の、本明細書で説明される機能性を実施できる構成体を含むことが可能であり、これらに限定されない。

一実施形態では、会議システム２００は更に、ユーザの非言語的動作が文化的に不適切であると判断された場合にその動作を修正するために、解析部２１４と連係して動作する出力修正モジュール（出力修正部）２１６を含む。出力修正部２１６は、動作の修正に、文化モデルデータ２１０、ビデオサンプル及び校正データ２０８を使用することが可能である。

各種実施形態では、動作の修正は、ビデオ出力デバイス２０４及び外部ネットワーク（インターネット接続２０６経由）の少なくとも一方への出力ストリームを修正することからなることが可能である。修正は、アバターの表示を合成すること、ビデオセグメントを操作すること、ディスプレイの画面を変更すること、及び他の形式のユーザ動作を編集することを包含する。

図３は、各種実施形態による、アバター表示を利用する会議システムの例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び／又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかにかかわらず、同一コンピューティングデバイスで実行されることも、１つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。

図示されているように、文化の異なる２人の会議参加者（ユーザ）３１０及び３１２が、クライアントコンピュータ３０２、３０４にログインしていてもよい。遠隔ウエブサーバ３００が、それらのユーザに対応するアバター表示３１４によるテレビ会議を可能にする機能性を提供することが可能である。各ユーザは、テレビ会議において、視覚的にはそれぞれのアバターとして表されることが可能であり、アバターはユーザの好みに応じてカスタマイズ可能である。一実施形態では、システムが、ユーザの自然動作及びジェスチャを用いてアバター表示を制御することが可能である。例えば、ユーザ３１０が話すとすると、システムは、対応して表示されるアバターの唇を動かして、どのユーザが話しているかを示すことが可能である。同様に、ユーザが手を挙げるか、頭を動かすか、他の何らかの動作を実行した場合は、それぞれに対して、アバターの動きを合成して表示することが可能である。

遠隔ウエブサーバ３００は、更に、文化的／社会的な動作解析３０６及び仮想アバター修正３０８の機能性を提供することが可能である。従って、ユーザの特定のジェスチャが不適切であると考えられた場合、システムは、その動作を無視するか、その状況によりふさわしいであろう代替の動作をアバターに対して合成することが可能である。特定の実施形態では、これは参加者自身によりカスタマイズできるようにすることが可能である。例えば、多くのユーザは「あくび」のジェスチャを会議ディスプレイから除外したいと思うであろう。多くの文化では「あくび」は倦怠又は退屈を表すからである。このジェスチャをユーザごとにカスタマイズ可能なパラメータとして設定することが可能である。

図３は遠隔ウエブサーバ３００を示しているが、この部品は、本発明のすべての実施形態に必須というわけではないことに注意されたい。多くの状況では、クライアントコンピューティングデバイス３０２、３０４は、中間エンティティ（intermediate entity）を介在させずに互いに直接通信していてもよい。或いは、代替としてより多くの遠隔部品が実装されてもよい。更に、簡単化のために２人のユーザだけが図示されているが、会議システムは、任意の所与の会議において、２人以上のユーザを扱うことが可能であることが一般的に好ましい。

図４（Ａ）は、各種実施形態によるプロセスの一般的概要のフローチャートである。この図は、例示目的の特定のシーケンス（手順）における機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々なやり方での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。

ステップ４００に示されるように、このプロセスは、一般に、非言語的動作を表すデータを取得して、その動作を特定することから始まることが可能である。各種実施形態では、この方法の第１のステップは、非言語的動作を識別することが可能なデータを取得することである。凝視の実施形態では、目追跡装置又はビデオ画像からデータを取得することが可能である。ジェスチャの実施形態では、ビデオ信号、又は他の、人の動きを取り込む手段（例えば、データグローブや加速度センサ）からデータを取得することが可能である。データグローブは、当該技術分野では一般的に公知であり、仮想環境用入力デバイスとして使用されることが可能である。データグローブは、ユーザのジェスチャを認識するソフトウェアを伴うことが多く、手話の認識のような用途や各種娯楽用途のために実装されている。

任意で、遠隔参加者に関して、映像と共に音声も収集されることが可能である。どの参加者が話しているかを特定するうえで、音声が有用になりうる場合がある。しかしながら、代替として、この情報は、ビデオ信号から抽出されることが可能である。適切な動作は、人が話しているか、聴いているかに応じて、また、参加者の相対的な社会的地位に応じて、異なることが多い。更に、笑いや他の集団行動は、音声信号から識別されることが可能である。例えば、強調する際の断固とした音声ストレスや、なだめることを意図した、落ち着かせるようなトーン等の感情的内容、音声解析から抽出することが可能である。こうした解析は、適切な凝視又は動作表現からあいまいさを除くことに役立ちうる。この件の詳細については、参照により本明細書に組み込まれる、以下の文献を参照されたい。

Bussoら、「Analysis of emotion recognition using facial expressions, speech and multimodal information」（Proceedings of the 6th international conference on Multimodal interfaces、ACM Press、State College、PA、USA、2004年、205-211頁）。

Dubnovら、「Media Flow Experience using Influential Feature Analysis」（http ://music.ucsd.edu/~sdubnov/Research/MediaFlowExperience.v3.pdf。

Sebeら、「Emotion Recognition based on Joint Visual and Audio Cues」（In Proceedings of 18th International Conference on Pattern Recognition（ICPR'06）（2006年）1136-1139頁）。

Zengら、「Audio-visual emotion recognition in adult attachment interview」（Proceedings of the 8th International conference on Multimodal interfaces、ACM Press、Banff、Alberta、Canada、（2006年）139-145頁）。

各種実施形態では、ビデオ信号は、ジェスチャの特定に使用される。ジェスチャは、所定の体系に従って分類されることが可能である。これは、マニュアルトレーニングの有無にかかわらず、なされることが可能である。これに対し、凝視は、ビデオ信号から、又は目追跡装置からデータを取り出すことによって、識別されることが可能である。この方法とは関係なく、凝視位置は、遠隔参加者に与えられる際に、計算されて、遠隔参加者の画像にマッピングされる。このマッピング（mapping:あらかじめ用意された画像データを貼り付けること）により、アルゴリズムは、凝視位置を特定することが可能である。

ステップ４０２では、動作の文化的適切度を計算することが可能である。この計算を実行する際には、まず、様々なチャネルからの情報を融合して、現在の動作を表す状態を形成することが可能である。最近の履歴を含めた、現在の状態の文化的適切度は、文化モデルに基づいて計算される。文化モデルは、文化によって異なる。各種実施形態では、文化モデルは、シンプルなデータ又はソフトウェアアプリケーションを備えることが可能である。例えば、文化モデルは、テレビ会議システムに保存されるテキスト文書又は拡張マークアップ言語（ＸＭＬ）文書の形態をとることが可能である。

例えば、ネイティブの英語話者（英国人及び北米人）の凝視動作の１つの文化モデルでは、相互凝視（即ち、２人の参加者（話し手と聴き手）が同時に互いを見ること）の長さは、総会話時間の４０パーセントを超えてはならない、又は３０パーセント未満でなければならない、と言われている。相互凝視の継続時間は、１秒前後でなければならず、２秒を超えてはならない。聴いている側が話し手を見なければならない時間は、話している時間の６０〜７０パーセント前後である。話している側が聴き手を見なければならない時間は、話している時間の３０〜５０パーセント前後である。話している時間の長さは、話し手の様々な場所からの音声チャネルを監視することにより、確定されることが可能である。会話の相手をちらりと見る適切な時間長は、２〜３秒である。この文化モデルは、例示目的で提示されたものに過ぎず、本実施形態の範囲内で多数の異なるモデルが実装可能であることに注意されたい。

更に、そらされた凝視の方向も、文化モデルに含まれることが可能である。ネイティブの英語話者は、視線を上又は横にそらすことが多く、下にそらすことは多くないはずである。短い間下を見ることは、それが頻繁すぎず、長すぎなければ（１秒を超えなければ）、適切である。下以外に視線をそらす長さは、３秒までの範囲で様々であってよい。

人の自然な凝視動作もまた、人それぞれであり、文化モデルは、このことを考慮に入れることが可能であるため、最終結果は自然であるように感じられ、完全に予測可能というわけではない。異なる文化に対する、より厳密な文化モデルは、テレビ会議又は他の、コンピュータを媒介とする状況における人の相互作用を観察することにより、実現可能である。非言語的動作の適切度は、媒体によっても異なる可能性がある。

ステップ４０４では、動作状態が不適切であると判断された場合に、出力を変更する信号が、次のモジュールに送られることが可能である。このモジュールのタスクは、出力ストリームがローカルビデオディスプレイへのストリームであっても、遠隔参加者に向けられた送信信号であっても、出力ストリームを修正することである。一実施形態では、出力ストリームを修正することへの第１のステップは、代替動作を決定することである。繰り返すが、文化モデル及び最近の履歴／状態は、ここで役割を果たすことが可能である。代替動作は、文化だけではなく会議の状況（コンテキスト）の中にも好ましく適合しなければならない。

各種実施形態では、ステップ４０４で示された出力ストリームを変更するための可能なアプローチがいくつかある。これらのアプローチは、個々の設定に応じて異なる可能性がある。例えば、前述のように、三次元環境では、アバターのすべての態様が、必要に応じて、プログラムにより調整されることが可能である。一連のコマンドを設計して、十分な長さの時間だけ、文化的に適切な動作を表示させることが可能である。テレビ会議では、ジェスチャや広範囲の顔の表情のように、大きな身体の動きほど、制御するのが困難になる可能性がある。参加者の視線方向（eye gaze）のような、少ない数の重要な表情を用いて、ビデオストリームを修正することが可能である。

目追跡装置の校正時に、参加者の目が様々な方向を向くシーケンスを収集することが可能である。この校正は、セットアップ及びテレビ会議呼び出し受け取りの「手順（procedure）」と統合されることが可能である。或いは、あらかじめトレーニングされた、顔の検出及び認識アルゴリズムを使用して参加者を認識することに基づくことが可能である。これらのシーケンスから、目の周囲の領域を抽出して、ビデオストリームの修正のために再利用することが可能である。顔の検出及び認識の詳細については、参照により本明細書に組み込まれる、以下の文献を参照されたい。

Schneidermanら、「A Statistical Model for 3D Object Detection Applied to Faces and Cars」（In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition（2000年））。

Tsalakanidouら、「Face localization and authentication using color and depth images」（IEEE Transactions on Image Processing 14(2)、（2005年）152-168頁）。

実施形態によっては、より単純な代替は、参加者の動作が不適切になったときに、単純に、参加者の画面を、何らかの共有資料（パワーポイントスライドなど）の画面にシフトすることである。同時に、オフスクリーンディスプレイ（off-screen display）又は他のインジケータ（機器の動作状態を表す表示器）を使用して、参加者の動作がより適切になるように、動作を修正する方法を参加者に提案することが可能である。

ステップ４０６では、一定時間後に、画面を通常の未修正の画面に戻すことが可能である。この画面に戻す適切なタイミングは、この画面を修正するタイミングを決定する場合と同様に、決定されることが可能である。しかしながら、ビデオストリームに代替の可視資料が表示されている場合、システムは、その代替の可視資料がどれだけの時間にわたって表示されていたかについても考慮しなければならない。

ステップ４０８では、必要に応じてプロセスをステップ４００から繰り返すことが可能である。この図に示された各ステップの機能を実行するために、会議システムの適切なモジュールが、プログラマ／開発者によってプログラムされることが可能である。ここで示された方法論を実施することにより、より円滑で、より文化的に適切なテレビ会議体験が、ユーザにとって可能になる。

図４（Ｂ）は、本明細書に記載の方法による実施形態のプロセスのフローチャートである。この図は、例示目的の特定のシーケンスにおける機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々な方法での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。

ステップ４１０に示されるように、この方法は、デジタルカメラからビデオ画像データを受け取ることから始まることが可能である。ビデオ画像データは、少なくとも１人の会議参加者の自然非言語的動作のセグメントを含むことが可能である。このビデオ画像データは、会議システムのユーザ間を伝送される。

ステップ４１２では、動作セグメントの文化的適切度を決定するために、ビデオ画像データのデータ解析を実施することが可能である。一実施形態では、データ解析は、自然非言語的動作セグメントのうちの凝視、ジェスチャ、タイミング、強調、及び感情の任意の１つ又は複数を、文化モデルに従って解析することを含む。各種実施形態では、この解析は更に、会話及びユーザの動作の、現在の状態並びに以前の履歴を考慮する。各種実施形態では、この解析は、コンピューティングデバイスに配備されたソフトウェアモジュールによって実施される。

参加者の非言語的動作は、文化モデルに鑑みて不適切と考えられる場合がある。従って、ステップ４１４では、参加者の自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、ただちに、代替動作を決定することが可能である。一実施形態では、代替動作も、文化モデル及び／又は実施されているセッションの履歴及び状態に従って計算される。

ステップ４１６では、参加者の自然非言語的動作セグメントを、決定された代替動作と一致するように再マッピングすることによって、出力ストリームを修正することが可能である。再マッピングは、ユーザの非言語的動作セグメントのうちの凝視及びジェスチャの任意の組み合わせを変更することを含むことが可能である。修正は、ユーザのアバターの外観の変更、又は実際のビデオ信号の直接操作を含むことが可能である。

図５は、本明細書に記載の実施形態による、凝視を修正するプロセスの論理フローチャートを示す図である。この図は、例示目的の特定のシーケンスにおける機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々な方法での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。

図示されたプロセスは、テレビ会議システムが凝視サンプル５００及びビデオ画像データを受け取ることから始まることが可能である。各種実施形態では、ビデオ画像データは、ユニバーサルシリアルバス（ＵＳＢ）インターフェースを介するなどして、コンピューティングデバイスと通信しているデジタルカメラから取得されることが可能である。凝視サンプルは、あらかじめメモリ内に記録及び保存されることが可能であり、ユーザの実際のビデオ画像を修正することが決定された場合に、修正を行うために使用されることが可能である。

ステップ５０４では、ビデオ画像内の凝視位置を計算することが可能である。一実施形態では、目追跡ソフトウェア又は装置を使用して、このタスクを達成することが可能である。位置が特定されたら、システムは、ユーザの凝視の文化的適切度５０６の計算に進むことが可能である。一実施形態では、文化的解析は、凝視位置履歴データ５１８及び文化モデル５２０を考慮に入れることが可能である。例えば、特定の文化モデルに従って、下方凝視は、指定時間長を超えてはならないことが決定される場合がある。システムは、凝視位置の履歴と計算された現在の凝視位置とを比較することにより、文化モデルを踏まえてユーザの動作の適切度を計算することが可能である。各種の代替実施形態では、ステップ５１０に示されるように、ユーザから収集された音声に対して、タイミング、強調、及び感情の解析が実施されることも可能である。

ステップ５０８で凝視位置が適切と考えられた場合、システムは、ステップ５２２に示されるように、ユーザの代替動作を決定することが可能である。代替動作が計算されたら、それに従って、ステップ５２６に示されるように、出力ストリームを修正することが可能である。一実施形態では、文化モデルデータ５２４を使用し、選択された文化的に適切な凝視サンプルをビデオ信号に重ね継ぎするなどして、ストリームを修正することが可能である。ビデオが修正されたら、システムは、ステップ５１６に示されるように、アイドル状態を維持しながら、新しいビデオ入力データ（サンプル）を待つ。

凝視位置が不適切であると考えられた場合、システムは、ステップ５１２で、現在のビデオストリームが修正されているかどうかを確認することが可能である。ストリームが修正されている場合、システムは、未修正バージョンのビデオに戻すことが可能である（ステップ５１４）。これは、ユーザの動作がもはや不適切と見なされていないためである。ストリームが修正されていない場合、さらなる動作は不要であり、システムは、次の入力まで待機することが可能である。各種実施形態では、図５に示されたプロセスは、テレビ会議が開催されている間、連続的に且つ繰り返し、実行されることが可能である。代替として、ユーザの凝視を評価して修正するプロセスは、必要なときにユーザによって有効化／無効化（enabled/disabled）されることが可能である。

前述の、本発明の各種実施形態は、本明細書に記載の任意の特徴を実施するように、汎用又は専用のコンピューティングプロセッサ／デバイスをプログラムするために使用されることが可能な命令が格納された記憶媒体であるコンピュータプログラム製品を含む。この記憶媒体は、任意のタイプの物理媒体（フロッピー（登録商標）ディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、光磁気ディスク、ホログラフィックストレージ、ＲＯＭ、ＲＡＭ、ＰＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュメモリデバイス、磁気又は光カード、ナノシステム（分子メモリＩＣを含む）を含む）、紙又は紙ベースの媒体、及び、命令及び／又は情報の格納に好適な任意のタイプの媒体又はデバイスのうちの１つ又は複数を含むことが可能であり、これらに限定されない。

各種実施形態は、全体又は一部が１つ又は複数のパブリック及び／又はプライベートネットワークを介して送信されることが可能なコンピュータプログラム製品を含み、この送信は、１つ又は複数のプロセッサが本発明に記載の任意の特徴を実施するために使用可能な命令を含む。各種実施形態では、この送信は、一連の複数及び個別の送信を含むことが可能である。

コンピュータ可読媒体に格納された１つ又は複数のものというかたちで、本開示は、汎用／専用のコンピュータ及び／又はプロセッサのハードウェアを制御し、かつ、これらのコンピュータ及び／又はプロセッサと、人間のユーザ又は本発明の結果を利用する他の機構との対話を可能にする、ソフトウェアを含む。そのようなソフトウェアとしては、デバイスドライバ、オペレーティングシステム、実行環境／コンテナ、ユーザインターフェース、ユーザアプリケーションなどがあり、これらに限定されない。

本発明の実施形態の先述の説明は、例示及び説明を目的として行われたものである。網羅的であることも、本発明を、開示された厳密な形式に限定することも、意図されていない。当業者であれば、様々な修正形態及び変形形態は自明であろう。各実施形態は、本発明の原理とその実践的応用とを最もよく説明し、それによって当業者が本発明を理解することを可能にするために選択及び説明されている。本発明の範囲は、添付の特許請求項及びそれらの均等物によって定義されるものとする。

各種実施形態のコンテキストにおける種々のデバイス及び部品の例を示す図である。各種実施形態による、ローカルテレビ会議システムの例を示す図である。各種実施形態による、アバター表示を利用する会議システムの例を示す図である。各種実施形態によるプロセスの一般的概要のフローチャートである。本明細書に記載の方法による実施形態のプロセスのフローチャートである。本明細書に記載の実施形態による、凝視を修正するプロセスの論理フローチャートを示す図である。

符号の説明

１００、１０２、１０４ユーザ（参加者）
１０６第２の文化圏
１０８第３の文化圏
１１０第１の文化圏
１１２接続（ネットワーク／インターネット／無線テレビ会議接続）
２００テレビ会議システム
２０２画像取り込みデバイス
２０４ビデオ出力デバイス
２０６外部ネットワーク／インターネット接続
２０８ビデオサンプル及び校正データ
２１０文化モデルデータ
２１２非言語的動作履歴及び状態データ
２１４映像／音声による文化的適切度、タイミング、強調、感情、解析モジュール（解析部）
２１６出力修正モジュール（出力修正部）
３００遠隔ウエブサーバ
３０２クライアントコンピュータ（クライアントコンピューティングデバイス）
３０６文化的／社会的な動作解析
３０８仮想アバターの修正
３１０、３１２ユーザ
３１４アバターを使用するテレビ会議ディスプレイストリーム（アバター表示）
５００凝視サンプル
５０２ビデオ画像
５１８凝視位置履歴
５２０、５２４文化モデル

Claims

コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法であって、
コンピュータを介する前記コミュニケーションにおける少なくとも１人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取り、
前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施し、
前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定し、
前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正する、
ことを含む画像修正方法。
前記ビデオ画像データを受け取ることは、
目追跡機構を用いて前記参加者の前記凝視動作を追跡することを更に含む、請求項１に記載の画像修正方法。
前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
前記代替動作に従って、前記コンピュータによって表示される、デジタル仮想環境アバターを修正することを更に含む、請求項１に記載の画像修正方法。
前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
前記コミュニケーションにおける前記参加者の自然動作が文化的に不適切であることが検出された場合に、前記参加者の画面を、共有資料の画面に切り替えることを更に含む、請求項１に記載の画像修正方法。
前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
前記代替動作に従って、１つ又は複数のあらかじめ記録されたビデオセグメントを抽出し、前記不適切なビデオ画像データの一部を修正することを更に含む、請求項１に記載の画像修正方法。
前記参加者の新しい自然非言語的動作セグメントが文化的に適切になったことを、前記文化モデルに基づいて確認し、
前記ビデオ出力ストリームを未修正状態に戻すことを更に含む、請求項１に記載の画像修正方法。
前記複数の参加者が遠隔参加者を含む場合に、前記代替動作に従って適応された前記ビデオ画像データを含む、前記修正されたビデオ出力ストリームを、遠隔参加者に送信することを更に含む、請求項１に記載の画像修正方法。
前記ビデオ画像データの前記データ解析を実施することは、
音声入力セグメントのうちのタイミング、強調、及び感情のデータの少なくとも１つを解析することを含む音声解析を実施することを更に含む、請求項１に記載の画像修正方法。
前記ビデオ画像データの前記データ解析を実施することは、
前記参加者の以前の動作セグメントを解析することによって凝視位置履歴を予測することを更に含む、請求項１に記載の画像修正方法。
前記ビデオ画像データの前記データ解析を実施することは、
前記参加者の、可能性のある未来の動作を、前記以前の動作セグメントに基づいて推定することを更に含む、請求項９に記載の画像修正方法。
前記複数の参加者が遠隔参加者を含む場合に、前記カメラと前記遠隔参加者の前記画像との間のずれを補償するために、前記画像を調整することを更に含む、請求項１に記載の画像修正方法。
コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正システムであって、
コンピュータを介する前記コミュニケーションにおける参加者の自然非言語的動作セグメントを含むビデオ画像データを収集するカメラと、
前記自然非言語的動作セグメントを含むビデオ画像データを受け取り、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記ビデオ画像データのデータ解析を実施して、前記自然非言語的動作セグメントの文化的適切度を決定し、前記自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、代替動作を決定し、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更することによってビデオ出力ストリームを修正する、コンピューティングデバイスと、
を備える画像修正システム。
コンピュータを介する前記コミュニケーションにおける前記参加者の前記凝視動作を追跡する目追跡機構を更に備える、請求項１２に記載の画像修正システム。
前記ビデオ出力ストリームを修正することは、
前記代替動作に従って、前記コンピューティングデバイスによって表示される、デジタル仮想環境アバターを修正することを更に含む、請求項１２に記載の画像修正システム。
前記ビデオ出力ストリームを修正することは、
前記コミュニケーションにおける前記参加者の自然動作が文化的に不適切であることが検出された場合に、前記参加者の画面を、共有資料の画面に切り替えることを更に含む、請求項１２に記載の画像修正システム。
前記ビデオ出力ストリームを修正することは、
前記代替動作に従って、１つ又は複数のあらかじめ記録されたビデオセグメントを抽出し、前記不適切なビデオ画像データの一部を修正することを更に含む、請求項１２に記載の画像修正システム。
前記コンピューティングデバイスは、前記参加者の新しい自然非言語的動作セグメントが文化的に適切になったことを、前記文化モデルに基づいて確認し、前記ビデオ出力ストリームを未修正状態に戻す、請求項１２に記載の画像修正システム。
前記コンピューティングデバイスと電子通信をしている第２のコンピューティングデバイスを更に備え、前記コンピューティングデバイスは、前記修正された出力ストリームを、前記第２のコンピューティングデバイス上の遠隔参加者に送信し、前記修正された出力ストリームは、前記代替動作に従って適応された前記ビデオ画像データを含む、請求項１２に記載の画像修正システム。
前記ビデオ画像データの前記データ解析を実施することは、
音声入力セグメントのうちのタイミング、強調、及び感情のデータの少なくとも１つを解析することを含む音声解析を実施することを更に含む、請求項１２に記載の画像修正システム。
前記ビデオ画像データの前記データ解析を実施することは、
前記参加者の以前の動作セグメントを解析することによって凝視位置履歴を予測することを更に含む、請求項１２に記載の画像修正システム。
前記ビデオ画像データの前記データ解析を実施することは、
前記参加者の、可能性のある未来の動作を、前記以前の動作セグメントに基づいて推定することを更に含む、請求項２０に記載の画像修正システム。
コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する機能を実施するためにコンピュータによって実行可能な命令を含む画像修正プログラムであって、
前記機能は、
コンピュータを媒介とする前記コミュニケーションにおける少なくとも１人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取るステップと、
前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施するステップと、
前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定するステップと、
前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正するステップと、
を含む画像修正プログラム。