JP5195106B2 - 画像修正方法、画像修正システム、及び画像修正プログラム - Google Patents

画像修正方法、画像修正システム、及び画像修正プログラム Download PDF

Info

Publication number
JP5195106B2
JP5195106B2 JP2008182393A JP2008182393A JP5195106B2 JP 5195106 B2 JP5195106 B2 JP 5195106B2 JP 2008182393 A JP2008182393 A JP 2008182393A JP 2008182393 A JP2008182393 A JP 2008182393A JP 5195106 B2 JP5195106 B2 JP 5195106B2
Authority
JP
Japan
Prior art keywords
video
participant
image data
natural non
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008182393A
Other languages
English (en)
Other versions
JP2009077380A (ja
Inventor
ケー.フォルド ペルニッラ
ゴロブチンスキー ジーン
ジェイ.バック メアリベス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2009077380A publication Critical patent/JP2009077380A/ja
Application granted granted Critical
Publication of JP5195106B2 publication Critical patent/JP5195106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Processing Or Creating Images (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、主に、テレビ会議及び他のコンピュータを介するコミュニケーションに関し、特に、テレビ会議セッションにおいて、ユーザの非言語的動作(non-verbal behavior)を社会的に適切であるように修正することに関する。
近年、テレビ会議や他の形式のコンピュータを介するコミュニケーションが、様々な組織、企業、及び一般消費者の間で、ますます普及しつつある。テレビ会議は、異なる場所に居るユーザ同士の間で映像及び音声の双方向伝送を行うことに加え、ファイルや文書をリアルタイムで共有すること、電子ホワイトボードを提供すること、参加者を仮想三次元アバター(分身を表す三次元グラフィック)として表すこと、ビジネス会議や一般的な会話を行うこと、その他の様々な作業を実施することにも使用される。これらすべての機能性は、社会の相当な部分において、ビジネス、テクノロジー(技術)、教育、及び一般的な生活の質に大きな影響を与えている。
テレビ会議や同様の技術は、また、地理的地域、文化、及び言語が異なる人々の間にコミュニケーションの道筋を開くことにも大きな役割を果たしている。しかしながら、これに伴って、会議参加者の間のオンラインでの動作に関して、他のコミュニケーション媒体ではこれまで存在していなかった、様々な問題や懸念が多数発生している。例えば、テレビ会議用のソフトウェアは、典型的には、参加者の映像伝送信号を搬送するため、ユーザの非言語的動作が意味を持つようになっている。そのような非言語的動作の適切性は、文化が違えば大きく異なり、ある文化では適切であると見られることが、別の文化では不適切であると見られることが多い。
ビジネス会議では、参加者の非言語的動作の適切性が非常に重要になる可能性がある。例えば、非言語的動作は、人々の間で信頼を築くのに、驚くほど重要な役割を果たす。適切なタイミングでの適度の凝視(gaze)、適切なジェスチャ、及び顔の表情は、信頼を表すことが可能であり、取引の成否を決定する可能性がある。一般人が異文化の適切な非言語的動作を学ぶことは可能であるが、特定の様式化された動作(挨拶など)の域を越えて適切性を維持することは、非常に困難である場合がある。更に、参加する可能性がある総ての会議における各文化の習慣及び伝統を学ぶことを参加者に求めることは、非常に困難である場合が多く、様々なトレーニングシステムが必要になる可能性があり、多くの場合はまったく好ましくないことであろう。
凝視又はジェスチャを用いる場合の関連技術は、主に、集約された情報を、会話の状態に関連付けられた凝視又はジェスチャモデルの形式で使用することに、焦点が置かれてきた。これらのモデルは、後で、完全に自動化されたアバターが、会話における自然動作を模倣するための凝視出力又はジェスチャ出力を生成するために使用される。
例えば、Colburnら、「The Role of Eye Gaze in Avatar Mediated Conversational Interfaces」(Microsoft Research Report、81.2000.2000.)、Garauら、「The Impact on Eye Gaze on Communication Using Humanoid Avatars」(In Proceedings of Conference on Human Factors in Computing Systems、Seattle、WA(2001年)、ACM Press、309-316頁)、及びGarauら、「The Impact of Avatar Realism and Eye Gaze Control on Perceived Quality of Communication in a Shared Immersive Virtual Environment」(In Proceedings of Conference on Human Factors in Computing Systems、Fort Lauderdale、FL(2003年)、ACM Press、259-266頁)を参照されたい。
テレビ会議用の目入力(eye input)も、誰が誰を見ているかを決定するなど、参加者の凝視認識性(gaze awareness)を高めるために使用されてきた。この設定における凝視入力(gaze input)又は凝視についての認識は、テレビ会議設備の物理的な設営における、ビデオ画像とカメラ位置との間のずれに起因する視差(parallax)を克服することに用いられる。システムによっては、ビデオ画像の、目のまわりの領域を修正して視差を補償する。また、システムによっては、ユーザの凝視についての情報を使用して、画像の順番(rotation)又は参加者のビデオディスプレイの順番を変更して、会話中に誰が誰を見ているかを示す。
例えば、Gemmelら、「Gaze Awareness for Video Conferencing: A Software Approach」(IEEE Multimedia (October-December)、2000年(26-35頁))、Jeraldら、「Eye Gaze Correction for Video Conferencing」(In Proceedings of Symposium on Eye Tracking Research & Applications(2002年)ACM Press、77-81頁)、Taylorら、「Gaze Communication Using Semantically Consistent Spaces」(In Proceedings of Conference on Human-Factors in Computing Systems(The Hague、Netherlands、2000年)、ACM Press、400-407頁)、
Vertegaal, R.、「The GAZE Groupware System: Mediating Joint Attention in Multiparty Communication and Collaboration」(In Proceedings of Conference on Human Factors in Computing Systems(CHF'99)(Pittsburgh、PA、USA、1999年)、ACM Press、294-301頁)、Vertegaalら、「Eye Gaze Patterns in Conversations: There is More to Conversational Agents Than meets the Eyes」(In Proceedings of Conference on Human Factors in Computing Systems CHI、(Seattle、WA、USA、2001年)、ACM Press、301-309頁)、及びVertegaalら、「Conveying Eye Contact in Group Video Conferencing Using Eye-Controlled Camera Direction」(In Proceedings of Conference on Human Factors in Computing Systems(Fort Lauderdale、Florida、USA、2003年)、ACM Press、521-528頁)を参照されたい。
ユーザを仮想又は三次元のアバターとして表す、いくつかの会議システムが示されている。そのようなシステムでは、そのようなアバターの身体的且つ非言語的なジェスチャ及び凝視のイラストは、どの特定のユーザ又は文化にも合わせられていないのが普通であり、見る側の誤解を招くことが多い。いくつかの文化的パラメータを使用するシステムであっても、そのようなパラメータは、完全に自動化されたアバターに限定されるのが普通である。例えば、いくつかのシステムは、文化固有の又は文化に依存するジェスチャを、完全に自動化されたアバターで生成している。
例えば、Johnsonら、「Tactical Language Training System: Supporting the Rapid Acquisition of Foreign Language and Cultural Skills」(In Proceedings of InSTIL/ICALL2004-NLP and Speech Technologies in Advanced Language Learning Systems−Venice(2004年)、19頁)、及びKimら、「Generation of Arm-gesture and Facial Expression for Intelligent Avatar Communications on the Internet」(2002年)を参照されたい)。
また、手の動きを有するアバターを制御する、別のいくつかのシステムも示されている。一般に、これらの手の動きは自然なジェスチャではなく、むしろ手はマウス又は他の入力方法の代用として使用される。例えば、Barrientos, F.、「Continuous control of avatar gesture」(Proceedings of the 2000 ACM workshops on Multimedia、ACM Press、Los Angeles、California、U.S.、2000年、5-8)を参照されたい。更に、そのようなアバター制御は、前述のように、動作を文化固有のパラメータに合わせるという要求に応えていない。
前述のすべてを鑑みると、会議参加者の自然動作をより文化的に適切な動作に修正して再マッピングすること、仮想環境のアバターの外観をアバターを見る側の文化的期待に適応させること、意図的な制御文法ではなく、自然に発生する動作により、文化的に適切なコミュニケーションを達成すること、を可能にするシステムが求められている。出願人らは、本出願の対象を考案するに当たり、当該技術分野に存在するこれら及びその他の問題並びに懸念を認識している。
BARRIENTOS, FRANCESCA,"Continuous Control of Avatar Gesture,"Proceedings of the 2000 ACM Workshops on Multimedia, ACM Press, Los Angeles, CA, USA, pages 5-8 (2000).
BUSSO, CARLOS, et al.,"Analysis of Emotion Recognition Using Facial Expressions, Speech and Multimodal Information," Proceedings of the 6th International Conference on Multimodal Interfaces, ICMI'04, ACM Press, State College, PA, USA, pages 205-211 (2004).
COLBURN, R. ALEX, et al.,"The Role of Eye Gaze in Avatar Mediated Conversational Interfaces," Microsoft Research Report 81, 10 pages (2000).
GARAU, MARIA, et al.,"The Impact of Avatar Realism and Eye Gaze Control on Perceived Quality of Communication in a Shared Immersive Virtual Environment,"Proceedings of Conference on Human Factors in Computing Systems, CHl 2001, Fort Lauderdale, FL, USA ACM Press, pages 259-266 (2003).
GARAU, MARIA, et al.,"The Impact on Eye Gaze on Communication Using Humanoid Avatars," Proceedings of Conference on Human Factors in Computing Systems, CHI 2003, Seattle, WA, USA, ACM Press, pages 309-316 (2001).
GEMMELL, JIM, et al.,"Gaze Awareness for Video-Conferencing: A Software Approach,"IEEE Multimedia, pages 26-35 (October-December 20OO).
JERALD, JASON, et al.,"Eye Gaze Correction for Videoconferencing,"Proceedings of Symposium on Eye Tracking Research & Applications, ACM Press, pages 77-81 (2002).
JOHNSON, W. LEWIS, et al.,"Tactical Language Training System: Supporting the Rapid Acquisition of Foreign Language and Cultural Skills,"Proceedings of the Proceedings of inSTIL/ICALL2003-NLP and Speech Technologies in Advanced Language Learning Systems, Venice, Italy, 4 pages (2004).
MCCARTHY, ANJANIE, et al.,"Cultural Display Rules Drive Eye Gaze During Thinking,"Journal of Cross-Cultural Psychology, Vol.37, No.6, pages 171-722 (November 2006).
NGUYEN, DAVID, et al.,"MultiView: Spatially Faithful Group Video Conferencing,"Proceedings of Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Portland, OR, USA, ACM Press, pages 799-808 (2005).
SCHNEIDERMAN, HENRY, et al.,"A Statistical Model for 3D Object Detection Applied to Faces and Cars,"Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 6 pages (2000).
SEBE, NICU, et al.,"Emotion Recognition Based on Joint Visual and Audio Cues," Proceedings of the 18th International Conference on Pattern Recognition(ICPR'06), pages 1136-1139 (2006).
TAYLOR, MICHAEL J., et al.,"Gaze Communication Using Semantically Consistent Spaces,"Proceedings of Conference on Human Factors in Computing Systems, CHI 2000, The Hague, The Netherlands, ACM Press, pages 400-407 (2000).
TSALAKANIDOU, FILARETl, et al.,"Face Localization and Authentication Using Color and Depth Images,"IEEE Transactions on Image Processing, Vol.14. No.2, pages 152-168 (February 2005).
VERTEGAAL, ROEL, et al.,"Eye Gaze Patterns in Conversations: There is More to Conversational Agents than Meets the Eyes,"Proceedings of Conference on Human-Factors in Computing Systems, CHI 2001, Seattle, WA, USA, ACM Press, pages 301-309 (2001).
VERTEGAAL, ROEL, et al.,"The GAZE Groupware System: Mediating Joint Attention in Multiparty Communication and Collaboration,"Proceedings of Conference on Human-Factors in Computing Systems, CHI 1999, Pittsburgh, PA, USA,ACM Press, pages 294-301 (l999).
ZENG, ZHIHONG, et al.,"Audio-Visual Emotion Recognition in Adult Attachment Interview,"Proceedings of the 8th International Conference on Multimodal Interfaces, ICMI'06, ACM Press, Banff, Alberta, Canada, pages 139-145 (2006).
本発明の目的は、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法、画像修正システム、及び画像修正プログラムを提供することにある。
上記目的を達成するために、請求項1に記載の発明における画像修正方法は、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法であって、コンピュータを介する前記コミュニケーションにおける少なくとも1人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取り、前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施し、前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定し、前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正することを含む。
請求項12に記載の発明における画像修正システムは、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正システムであって、コンピュータを介する前記コミュニケーションにおける参加者の自然非言語的動作セグメントを含むビデオ画像データを収集するカメラと、前記自然非言語的動作セグメントを含むビデオ画像データを受け取り、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記ビデオ画像データのデータ解析を実施して、前記自然非言語的動作セグメントの文化的適切度を決定し、前記自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、代替動作を決定し、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更することによってビデオ出力ストリームを修正する、コンピューティングデバイスと、を備える。
請求項22に記載の発明における画像修正プログラムは、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する機能を実施するためにコンピュータによって実行可能な命令を含む画像修正プログラムであって、前記機能は、コンピュータを媒介とする前記コミュニケーションにおける少なくとも1人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取るステップと、前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施するステップと、前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定するステップと、前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正するステップと、を含む。
本発明によれば、コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正することができる、という効果がある。
本発明の好ましい実施形態を、添付図面に基づき、詳細に説明する。
添付図面の各図には、本発明が、限定ではなく例示として示されており、添付図面では、類似の参照符号は類似の要素を表している。本開示における実施形態の参照は、必ずしも同じ実施形態の参照ではなく、そのような参照は少なくとも1つであることを意味する。具体的な実施形態について説明するが、この説明は例示のみを目的としてなされることを理解されたい。当業者であれば、本発明の範囲及び趣旨から逸脱することなく、他の要素や構成を用いることが可能であることを理解されよう。
以下の説明では、本発明を十分に説明するために、多数の具体的な細部が示される。しかしながら、これらの具体的な細部がなくても本発明を実践することが可能であることは、当業者であれば自明であろう。他の例では、本発明が不明瞭にならないように、よく知られている特徴については、細部までは説明されていない。
各部品が論理的に分かれているように描かれた図があるが、そのような描き方は、例示を目的としたものに過ぎない。描かれた部品が結合されたり、別々のソフトウェア、ファームウェア、及び/又はハードウェア部品に分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかに拘らず、同一コンピューティングデバイスで実行されることも、1つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることが可能であることも、当業者であれば自明であろう。
実施形態に従って、テレビ会議ユーザの非言語的動作を社会的に適切であるように修正するシステム及び方法を説明する。一実施形態では、システムは、複数のユーザ又は会議参加者にサービスを提供するテレビ会議システムを備える。テレビ会議システムは、ソフトウェアシステム又はハードウェアシステムの両方を含むことが可能である。好ましくは、インターネットへの接続を確立することが可能なサーバコンピューティングデバイス又はクライアントコンピューティングデバイスに導入されたソフトウェアアプリケーションとして実装されることが可能である。各種実施形態では、システムは更に、デジタルカメラやビデオカメラのような画像取り込みデバイスを含む。
会議システムは、他の会議参加者に向けて送信及び/又は表示する、ユーザ動作のビデオ画像データを記録するために使用されることが可能である。各種実施形態では、ユーザの自然非言語的動作の文化的適切度を調べるために、取り込まれたビデオ画像データに対してデータ解析を実施することが可能である。この解析は、文化モデルに基づくことが可能であり、ユーザの非言語的動作のうちの凝視、ジェスチャ、タイミング、強調、及び感情の各データの任意の組み合わせを解析することが可能である。代替実施形態では、言語的動作を、文化モデルに従って解析することも可能である。動作が不適切と考えられる場合は、ユーザの代替動作(テレビ会議の状況に、よりふさわしい動作)を決定するために、文化モデルデータも使用されることが可能である。
動作が不適切である場合は、その参加者の自然動作を、代替のより適切な動作と一致するように再マッピングすることにより、視覚出力ストリームを修正することが可能である。この修正は、様々の異なる方法で実施可能である。例えば、会議システムは、他の会議参加者に向けてデータを表示又は送信する前に、画像取り込みデバイスに記録されたユーザの凝視及び/又はジェスチャを変更することが可能である。一実施形態では、システムは、ユーザの目部分の校正された画像データを保存することが可能である。このデータは、ビデオ画像データの目画像部分を、代替動作に従って修整するために抽出され、使用されることが可能である。
例えば、システムが、文化モデルに従って、ユーザが見上げるより下方を凝視する方が適切であろうと判断した場合は、ユーザのビデオ画像の目部分を、ユーザの目が下方を凝視する、予め記録された校正済み画像に置き換えることが可能である。別の実施形態では、システムは、不適切な動作を検出した場合は、ただちに、ユーザの画面を、プレゼンテーション(文書、チャート、グラフなど)の共有画面に切り替えることが可能である。システムが仮想ディスプレイ・アバターを使用して参加者を表すような、更に別の実施形態では、システムは、表示されるアバターの外観及び動作を、より適切な動作に一致するように合成することが可能である。
一定時間が経過した後、修正された画面をユーザの通常の(即ち、未修正の)ビデオに戻すことが可能である。未修正のビデオに戻す適切なタイミングは、画面を修正するタイミングを決定する場合と同様に、決定されることが可能である。例えば、ユーザの非言語的動作が再び文化的に適切になったことが検出された場合に、未修正の表示を復元することが可能である。一実施形態では、センスが良く快適なテレビ会議を体験できるように、アルゴリズムは、代替の視覚的素材をどの位長く表示しているか、も考慮することが可能である。各種実施形態では、ユーザは、未修正動作に戻すまでの時間を、構成可能な属性又はパラメータとして指定することを許可されることも可能である。
前述の機能を実施する、テレビ会議システムの動的能力により、ユーザの自然動作を、より文化的又は社会的に適切な動作に再マッピングすることが可能である。更に、仮想環境アバターの外観及び動作を、アバターを見る側の文化的期待に応えられるように調整することが可能である。これらすべての機能性が、より柔軟且つ快適なテレビ会議体験を提供し、ビジネス会議、討論、又はトレーニングセッションのための、より円滑な文化的移行を可能にする。
しかしながら、本明細書に記載の方法論(methodology)は、テレビ会議に限定されるものではなく、他の様々な用途に用いられることが可能であることに注意されたい。例えば、社会的障害を有する人々のトレーニングを行うシステムや、人々が新しい文化に適合することを学習することを支援するシステムも、本開示で示される実施形態及び手法を含むことが可能である。そのようなトレーニングシステムの1つでは、様々なトレーニングシナリオの間に人の凝視を解析することが可能であり、トレーニング対象者の凝視が社会的に容認できないものになったときに、トレーニング対象者にフィードバックを与えて、適正な凝視動作を意識させることが可能である。外国語学習者向けの、同様のアプリケーション及びシステムも可能である。
重要であり且つ測定がまずまず容易である非言語的動作の1つが「凝視」である。人は、会話の相手が興味を持っているかどうか、退屈しているかどうか、考え込んでいるかどうか、或いは、議論の主題を理解しているかどうかを、凝視動作を追跡することによって判断することが可能である。凝視はまた、会話における順番取りの調整に用いられることも可能である。例えば、参照により本明細書に組み込まれる、Argyleら、「Gaze and Mutual Gaze」(Cambridge University Press、Cambridge、1976年)を参照されたい。
コミュニケーションにおける凝視の役割が、対面会議が一般的であること、及びテレビ会議が対面会議の一般的な補完になりうることの、1つの理由であると考えられる。しかしながら、会話の参加者が異なる文化を有する場合、凝視関連動作は、不要な混乱を招く可能性がある。これは、会話において凝視を律する規則が、文化に依存している場合が多いためである。例えば、西洋のバックグラウンドを有する人は、考え込んでいるときに上を見るが、日本人は下を見る傾向がある。例えば、参照により本明細書に組み込まれる、McCarthyら、「Cultural Display Rules Drive Eye Gaze During Thinking」(Journal of Cross-Cultural Psychology、37 (6). 2006年、77-81頁)を参照されたい。他の凝視における文化的差異として、話し手又は聴き手に向けられる凝視の長さ、話しているときに聴き手の方を見る適切なタイミング、適切な視線方向などがある。
多くの場合、テレビ会議の参加者は、自分の凝視動作が適切かどうかを知ることが難しいと感じるであろう。そのような不確かさの1つの理由は、カメラと遠隔参加者の画像との間の「ずれ(offset)」である可能性がある。この「ずれ」により、参加者は、自分の目の凝視が、遠隔参加者(remote party)のディスプレイ画面ではどこを向いているように映っているかを正確に知ることが困難である可能性がある。更に、遠隔参加者のビデオ画像は注意を引きやすい。同じ部屋にいる参加者は、すべての参加者が同じ部屋にいる場合より、遠隔参加者により多くの注意を向ける。例えば、テレビを視聴するような凝視動作である。
各種実施形態では、テレビ会議呼び出しにおいて参加者の凝視を追跡することが可能である。この情報を、音声データがあれば音声データと共に用いて、テレビ会議において文化的に適切になるように凝視を修正することが可能である。例えば、一実施形態では、日本人と西洋人が会話する場合に、日本人参加者に向けて表示される西洋人の凝視が、標準的な礼儀正しい日本人の凝視動作をまねるように修正され、西洋人は、西洋文化的に適切な様式の日本人参加者を見る。
動作の修正のためには、様々な方法論が実施されることが可能である。一実施形態では、システムが参加者の画面の外に追加資料(例えば、共有プレゼンテーション、文書、図など)を含む場合、システムは、会議における遠隔参加者の動作が文化的に不適切になったときに、その参加者の画面を追加資料の画面(例えば、共有プレゼンテーションの画面)に自動的に切り替えることが可能である。実施形態によっては、この手法は、参照により本明細書に組み込まれる、Nguyenらの「Multiview: spatially faithful group video conferencing」(In Proceedings of the SIGCHI conference on Human factors in computing systems(Portland、Oregon、USA、2005年)、ACM Press、799-808頁)に示されているような、個人別テレビ会議ディスプレイの場合に、好ましい可能性がある。
別の実施形態では、会議システムは、二次元又は三次元環境で仮想アバターを利用することが可能である。本開示で用いられているように、アバターは、(例えば、共有の仮想環境における)ユーザの何らかの視覚的表現である。アバターは、当該技術分野では一般的に公知であり、インターネットフォーラム、インスタントメッセージングシステム、ビデオゲームなどのコンテキスト(文脈)の中でよく使用されている。アバターの外観及び/又は動作を具体的に選択することは、本発明にとって本質的ではなく、本発明の実施形態では、どのような外観及び動作でも利用可能である。
アバター及びその動作を、システムの文化モデルデータに従って、より文化的に適切になるように、ディスプレイ上で合成することが可能である。例えば、アバターの凝視を、特定の文化の習慣に従って、より適切になるように操作することが可能である。凝視の方向は、頭の位置と緊密に関連付けられることが可能なので、凝視を使用して、アバターの頭の動きを制御することも可能である。この特徴を用いることにより、ユーザの必要作業量を最小にして、アバターの動きをより自然にすることが可能である。
参加者の実際のビデオの代わりにアバター及び三次元仮想環境を使用することの可能な利点の1つは、ジェスチャのような、より複雑な非言語的動作を、文化的に適切になるように合成することが、容易に可能であることである。例えば、西洋人の参加者が日本人の参加者との会議に参加したときに、その西洋人のアバターを、笑うときに口を覆うように表示することが可能である。この動作は、西洋の文化では普通ではないが、日本では適切である。そのようなジェスチャを実行するようにユーザの実際のビデオ表示を修正することは、技術的に多少複雑になる可能性がある。しかし、アバターのジェスチャを合成することは、比較的簡単であり、アバターの動き及び表示に典型的に必要である以上に、追加のトレーニング及びプログラミングを必要としない。同様に、実質的な身体の動きを伴う他のジェスチャは、ユーザのビデオを直接操作する代わりにアバターを使用すれば、より簡単に合成できる。
しかしながら、アバターの使用は、本発明のすべての実施形態で必須というわけではないこと、会議参加者の実際のビデオに対して容易に操作できる非言語的動作もあることに、注意することが重要である。一例として、各ユーザが上、下、横などを凝視しているビデオセグメントを事前記録することにより、システムをユーザごとに校正することが可能である。これらのユーザの目の事前記録されたセグメントは、後で、ユーザの通常の動作が不適切であると考えられた場合に、そのユーザの通常の動作を再マッピングするために、会議システムにより使用され得る。ビデオのそのような小さな部分は、テレビ会議全体と有意に干渉することなく、重ね継ぎ(splice)及び操作(manipulate)されることが可能であるため、ユーザの凝視を修正することは、多くの状況の役に立つことが可能である。
システムは、動作を再マッピングすることの外に、凝視及びジェスチャ以外の動作の提案をユーザに対して行うことが可能である。例えば、西洋人ユーザに対し、会議のコンテキスト(状況)に関して、例えば、日本人の丁寧な動作及び儀礼、名刺交換、紹介の順番、座る場所等、「提案」や「コメント」を提供することが可能である。
図1は、各種実施形態のコンテキストにおける種々のデバイス及び部品の例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び/又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかに拘らず、同一コンピューティングデバイスで実行されることも、1つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。
図示されているように、システムは、種々のコンピューティングデバイス及び画像取り込みデバイスと共に、異なる文化圏(第2文化圏106、第3文化圏108、第1文化圏110)に居て、ビデオ会議のためにネットワーク接続112で接続されたユーザ(100、102、104)を包含することが可能である。コンピューティングデバイスとしては、パーソナルコンピュータ(PC)、ラップトップ、メインフレーム、携帯情報端末(PDA)、携帯電話、及び他の処理能力を有するデバイスを含み得る。画像取り込みデバイスとしては、デジタルカメラ、アナログカメラ、ビデオ記録機器、及び他の静止画写真又は動画像を取り込めるデバイスを含み得る。
実施形態によっては、目追跡装置、モーションセンサ、データグローブ、音声取り込みデバイスなどの追加ハードウェアを利用することが可能である。接続112は、2つ以上のコンピューティングデバイスの間で確立された任意の通信リンクであってよく、ローカルエリアネットワーク(LAN)、インターネットのようなワイドエリアネットワーク(WAN)、無線接続(無線周波数、マイクロ波、又は赤外線による接続を含む)、携帯電話通信、及び他の電子通信があり、これらに限定されない。
図2は、各種実施形態による、ローカルテレビ会議システムの例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び/又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかにかかわらず、同一コンピューティングデバイスで実行されることも、1つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。
図示されているように、テレビ会議システム200は、画像取り込みデバイス202からビデオ入力データを受け取ることが可能である。一実施形態では、システムは、映像/音声から文化的適切度を解析する解析モジュール(解析部)214を含む。解析部214は、画像取り込みデバイス202からデータを受け取る。解析部214は、そのデータに対する文化的適切度の解析を実施するために、ビデオに取り込まれたユーザの動作のうちの凝視、ジェスチャ、タイミング、強調、感情、及び他の文化関連態様を解析する。解析部214は、ユーザ動作の解析に、文化モデルデータ210、非言語的動作履歴、及び状態データ212を利用することが可能である。なお、モジュールという用語は、本明細書で用いられているように、コンパイル済みソフトウェアアプリケーション、アプレット、プログラミングオブジェクト(クラスや関数など)、及び他の、本明細書で説明される機能性を実施できる構成体を含むことが可能であり、これらに限定されない。
一実施形態では、会議システム200は更に、ユーザの非言語的動作が文化的に不適切であると判断された場合にその動作を修正するために、解析部214と連係して動作する出力修正モジュール(出力修正部)216を含む。出力修正部216は、動作の修正に、文化モデルデータ210、ビデオサンプル及び校正データ208を使用することが可能である。
各種実施形態では、動作の修正は、ビデオ出力デバイス204及び外部ネットワーク(インターネット接続206経由)の少なくとも一方への出力ストリームを修正することからなることが可能である。修正は、アバターの表示を合成すること、ビデオセグメントを操作すること、ディスプレイの画面を変更すること、及び他の形式のユーザ動作を編集することを包含する。
図3は、各種実施形態による、アバター表示を利用する会議システムの例を示す図である。この図は、各部品が論理的に分かれているように描かれているが、そのような描き方は、例示を目的としたものに過ぎない。この図に描かれた部品が任意に結合されたり、別々のソフトウェア、ファームウェア、及び/又はハードウェアに分割されたりすることが可能であることは、当業者であれば自明であろう。更に、そのような部品は、それらがどのように結合又は分割されているかにかかわらず、同一コンピューティングデバイスで実行されることも、1つ又は複数のネットワーク又は他の好適な通信媒体で接続された、様々なコンピューティングデバイスに分散されることも可能であることも、当業者であれば自明であろう。
図示されているように、文化の異なる2人の会議参加者(ユーザ)310及び312が、クライアントコンピュータ302、304にログインしていてもよい。遠隔ウエブサーバ300が、それらのユーザに対応するアバター表示314によるテレビ会議を可能にする機能性を提供することが可能である。各ユーザは、テレビ会議において、視覚的にはそれぞれのアバターとして表されることが可能であり、アバターはユーザの好みに応じてカスタマイズ可能である。一実施形態では、システムが、ユーザの自然動作及びジェスチャを用いてアバター表示を制御することが可能である。例えば、ユーザ310が話すとすると、システムは、対応して表示されるアバターの唇を動かして、どのユーザが話しているかを示すことが可能である。同様に、ユーザが手を挙げるか、頭を動かすか、他の何らかの動作を実行した場合は、それぞれに対して、アバターの動きを合成して表示することが可能である。
遠隔ウエブサーバ300は、更に、文化的/社会的な動作解析306及び仮想アバター修正308の機能性を提供することが可能である。従って、ユーザの特定のジェスチャが不適切であると考えられた場合、システムは、その動作を無視するか、その状況によりふさわしいであろう代替の動作をアバターに対して合成することが可能である。特定の実施形態では、これは参加者自身によりカスタマイズできるようにすることが可能である。例えば、多くのユーザは「あくび」のジェスチャを会議ディスプレイから除外したいと思うであろう。多くの文化では「あくび」は倦怠又は退屈を表すからである。このジェスチャをユーザごとにカスタマイズ可能なパラメータとして設定することが可能である。
図3は遠隔ウエブサーバ300を示しているが、この部品は、本発明のすべての実施形態に必須というわけではないことに注意されたい。多くの状況では、クライアントコンピューティングデバイス302、304は、中間エンティティ(intermediate entity)を介在させずに互いに直接通信していてもよい。或いは、代替としてより多くの遠隔部品が実装されてもよい。更に、簡単化のために2人のユーザだけが図示されているが、会議システムは、任意の所与の会議において、2人以上のユーザを扱うことが可能であることが一般的に好ましい。
図4(A)は、各種実施形態によるプロセスの一般的概要のフローチャートである。この図は、例示目的の特定のシーケンス(手順)における機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々なやり方での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。
ステップ400に示されるように、このプロセスは、一般に、非言語的動作を表すデータを取得して、その動作を特定することから始まることが可能である。各種実施形態では、この方法の第1のステップは、非言語的動作を識別することが可能なデータを取得することである。凝視の実施形態では、目追跡装置又はビデオ画像からデータを取得することが可能である。ジェスチャの実施形態では、ビデオ信号、又は他の、人の動きを取り込む手段(例えば、データグローブや加速度センサ)からデータを取得することが可能である。データグローブは、当該技術分野では一般的に公知であり、仮想環境用入力デバイスとして使用されることが可能である。データグローブは、ユーザのジェスチャを認識するソフトウェアを伴うことが多く、手話の認識のような用途や各種娯楽用途のために実装されている。
任意で、遠隔参加者に関して、映像と共に音声も収集されることが可能である。どの参加者が話しているかを特定するうえで、音声が有用になりうる場合がある。しかしながら、代替として、この情報は、ビデオ信号から抽出されることが可能である。適切な動作は、人が話しているか、聴いているかに応じて、また、参加者の相対的な社会的地位に応じて、異なることが多い。更に、笑いや他の集団行動は、音声信号から識別されることが可能である。例えば、強調する際の断固とした音声ストレスや、なだめることを意図した、落ち着かせるようなトーン等の感情的内容、音声解析から抽出することが可能である。こうした解析は、適切な凝視又は動作表現からあいまいさを除くことに役立ちうる。この件の詳細については、参照により本明細書に組み込まれる、以下の文献を参照されたい。
Bussoら、「Analysis of emotion recognition using facial expressions, speech and multimodal information」(Proceedings of the 6th international conference on Multimodal interfaces、ACM Press、State College、PA、USA、2004年、205-211頁)。
Dubnovら、「Media Flow Experience using Influential Feature Analysis」(http ://music.ucsd.edu/~sdubnov/Research/MediaFlowExperience.v3.pdf。
Sebeら、「Emotion Recognition based on Joint Visual and Audio Cues」(In Proceedings of 18th International Conference on Pattern Recognition(ICPR'06)(2006年)1136-1139頁)。
Zengら、「Audio-visual emotion recognition in adult attachment interview」(Proceedings of the 8th International conference on Multimodal interfaces、ACM Press、Banff、Alberta、Canada、(2006年)139-145頁)。
各種実施形態では、ビデオ信号は、ジェスチャの特定に使用される。ジェスチャは、所定の体系に従って分類されることが可能である。これは、マニュアルトレーニングの有無にかかわらず、なされることが可能である。これに対し、凝視は、ビデオ信号から、又は目追跡装置からデータを取り出すことによって、識別されることが可能である。この方法とは関係なく、凝視位置は、遠隔参加者に与えられる際に、計算されて、遠隔参加者の画像にマッピングされる。このマッピング(mapping:あらかじめ用意された画像データを貼り付けること)により、アルゴリズムは、凝視位置を特定することが可能である。
ステップ402では、動作の文化的適切度を計算することが可能である。この計算を実行する際には、まず、様々なチャネルからの情報を融合して、現在の動作を表す状態を形成することが可能である。最近の履歴を含めた、現在の状態の文化的適切度は、文化モデルに基づいて計算される。文化モデルは、文化によって異なる。各種実施形態では、文化モデルは、シンプルなデータ又はソフトウェアアプリケーションを備えることが可能である。例えば、文化モデルは、テレビ会議システムに保存されるテキスト文書又は拡張マークアップ言語(XML)文書の形態をとることが可能である。
例えば、ネイティブの英語話者(英国人及び北米人)の凝視動作の1つの文化モデルでは、相互凝視(即ち、2人の参加者(話し手と聴き手)が同時に互いを見ること)の長さは、総会話時間の40パーセントを超えてはならない、又は30パーセント未満でなければならない、と言われている。相互凝視の継続時間は、1秒前後でなければならず、2秒を超えてはならない。聴いている側が話し手を見なければならない時間は、話している時間の60〜70パーセント前後である。話している側が聴き手を見なければならない時間は、話している時間の30〜50パーセント前後である。話している時間の長さは、話し手の様々な場所からの音声チャネルを監視することにより、確定されることが可能である。会話の相手をちらりと見る適切な時間長は、2〜3秒である。この文化モデルは、例示目的で提示されたものに過ぎず、本実施形態の範囲内で多数の異なるモデルが実装可能であることに注意されたい。
更に、そらされた凝視の方向も、文化モデルに含まれることが可能である。ネイティブの英語話者は、視線を上又は横にそらすことが多く、下にそらすことは多くないはずである。短い間下を見ることは、それが頻繁すぎず、長すぎなければ(1秒を超えなければ)、適切である。下以外に視線をそらす長さは、3秒までの範囲で様々であってよい。
人の自然な凝視動作もまた、人それぞれであり、文化モデルは、このことを考慮に入れることが可能であるため、最終結果は自然であるように感じられ、完全に予測可能というわけではない。異なる文化に対する、より厳密な文化モデルは、テレビ会議又は他の、コンピュータを媒介とする状況における人の相互作用を観察することにより、実現可能である。非言語的動作の適切度は、媒体によっても異なる可能性がある。
ステップ404では、動作状態が不適切であると判断された場合に、出力を変更する信号が、次のモジュールに送られることが可能である。このモジュールのタスクは、出力ストリームがローカルビデオディスプレイへのストリームであっても、遠隔参加者に向けられた送信信号であっても、出力ストリームを修正することである。一実施形態では、出力ストリームを修正することへの第1のステップは、代替動作を決定することである。繰り返すが、文化モデル及び最近の履歴/状態は、ここで役割を果たすことが可能である。代替動作は、文化だけではなく会議の状況(コンテキスト)の中にも好ましく適合しなければならない。
各種実施形態では、ステップ404で示された出力ストリームを変更するための可能なアプローチがいくつかある。これらのアプローチは、個々の設定に応じて異なる可能性がある。例えば、前述のように、三次元環境では、アバターのすべての態様が、必要に応じて、プログラムにより調整されることが可能である。一連のコマンドを設計して、十分な長さの時間だけ、文化的に適切な動作を表示させることが可能である。テレビ会議では、ジェスチャや広範囲の顔の表情のように、大きな身体の動きほど、制御するのが困難になる可能性がある。参加者の視線方向(eye gaze)のような、少ない数の重要な表情を用いて、ビデオストリームを修正することが可能である。
目追跡装置の校正時に、参加者の目が様々な方向を向くシーケンスを収集することが可能である。この校正は、セットアップ及びテレビ会議呼び出し受け取りの「手順(procedure)」と統合されることが可能である。或いは、あらかじめトレーニングされた、顔の検出及び認識アルゴリズムを使用して参加者を認識することに基づくことが可能である。これらのシーケンスから、目の周囲の領域を抽出して、ビデオストリームの修正のために再利用することが可能である。顔の検出及び認識の詳細については、参照により本明細書に組み込まれる、以下の文献を参照されたい。
Schneidermanら、「A Statistical Model for 3D Object Detection Applied to Faces and Cars」(In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(2000年))。
Tsalakanidouら、「Face localization and authentication using color and depth images」(IEEE Transactions on Image Processing 14(2)、(2005年)152-168頁)。
実施形態によっては、より単純な代替は、参加者の動作が不適切になったときに、単純に、参加者の画面を、何らかの共有資料(パワーポイントスライドなど)の画面にシフトすることである。同時に、オフスクリーンディスプレイ(off-screen display)又は他のインジケータ(機器の動作状態を表す表示器)を使用して、参加者の動作がより適切になるように、動作を修正する方法を参加者に提案することが可能である。
ステップ406では、一定時間後に、画面を通常の未修正の画面に戻すことが可能である。この画面に戻す適切なタイミングは、この画面を修正するタイミングを決定する場合と同様に、決定されることが可能である。しかしながら、ビデオストリームに代替の可視資料が表示されている場合、システムは、その代替の可視資料がどれだけの時間にわたって表示されていたかについても考慮しなければならない。
ステップ408では、必要に応じてプロセスをステップ400から繰り返すことが可能である。この図に示された各ステップの機能を実行するために、会議システムの適切なモジュールが、プログラマ/開発者によってプログラムされることが可能である。ここで示された方法論を実施することにより、より円滑で、より文化的に適切なテレビ会議体験が、ユーザにとって可能になる。
図4(B)は、本明細書に記載の方法による実施形態のプロセスのフローチャートである。この図は、例示目的の特定のシーケンスにおける機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々な方法での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。
ステップ410に示されるように、この方法は、デジタルカメラからビデオ画像データを受け取ることから始まることが可能である。ビデオ画像データは、少なくとも1人の会議参加者の自然非言語的動作のセグメントを含むことが可能である。このビデオ画像データは、会議システムのユーザ間を伝送される。
ステップ412では、動作セグメントの文化的適切度を決定するために、ビデオ画像データのデータ解析を実施することが可能である。一実施形態では、データ解析は、自然非言語的動作セグメントのうちの凝視、ジェスチャ、タイミング、強調、及び感情の任意の1つ又は複数を、文化モデルに従って解析することを含む。各種実施形態では、この解析は更に、会話及びユーザの動作の、現在の状態並びに以前の履歴を考慮する。各種実施形態では、この解析は、コンピューティングデバイスに配備されたソフトウェアモジュールによって実施される。
参加者の非言語的動作は、文化モデルに鑑みて不適切と考えられる場合がある。従って、ステップ414では、参加者の自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、ただちに、代替動作を決定することが可能である。一実施形態では、代替動作も、文化モデル及び/又は実施されているセッションの履歴及び状態に従って計算される。
ステップ416では、参加者の自然非言語的動作セグメントを、決定された代替動作と一致するように再マッピングすることによって、出力ストリームを修正することが可能である。再マッピングは、ユーザの非言語的動作セグメントのうちの凝視及びジェスチャの任意の組み合わせを変更することを含むことが可能である。修正は、ユーザのアバターの外観の変更、又は実際のビデオ信号の直接操作を含むことが可能である。
図5は、本明細書に記載の実施形態による、凝視を修正するプロセスの論理フローチャートを示す図である。この図は、例示目的の特定のシーケンスにおける機能ステップを示しているが、このプロセスは、この特定の順序又はステップには必ずしも限定されない。この図に示された各種ステップの変更、再配置、並列実行、又は様々な方法での適応が可能であることは、当業者であれば理解されよう。更に、本発明の趣旨及び範囲から逸脱することなく、特定のステップ又はステップのシーケンスを、このプロセスに追加したり、このプロセスから省略したりすることが可能であることを理解されたい。
図示されたプロセスは、テレビ会議システムが凝視サンプル500及びビデオ画像データを受け取ることから始まることが可能である。各種実施形態では、ビデオ画像データは、ユニバーサルシリアルバス(USB)インターフェースを介するなどして、コンピューティングデバイスと通信しているデジタルカメラから取得されることが可能である。凝視サンプルは、あらかじめメモリ内に記録及び保存されることが可能であり、ユーザの実際のビデオ画像を修正することが決定された場合に、修正を行うために使用されることが可能である。
ステップ504では、ビデオ画像内の凝視位置を計算することが可能である。一実施形態では、目追跡ソフトウェア又は装置を使用して、このタスクを達成することが可能である。位置が特定されたら、システムは、ユーザの凝視の文化的適切度506の計算に進むことが可能である。一実施形態では、文化的解析は、凝視位置履歴データ518及び文化モデル520を考慮に入れることが可能である。例えば、特定の文化モデルに従って、下方凝視は、指定時間長を超えてはならないことが決定される場合がある。システムは、凝視位置の履歴と計算された現在の凝視位置とを比較することにより、文化モデルを踏まえてユーザの動作の適切度を計算することが可能である。各種の代替実施形態では、ステップ510に示されるように、ユーザから収集された音声に対して、タイミング、強調、及び感情の解析が実施されることも可能である。
ステップ508で凝視位置が適切と考えられた場合、システムは、ステップ522に示されるように、ユーザの代替動作を決定することが可能である。代替動作が計算されたら、それに従って、ステップ526に示されるように、出力ストリームを修正することが可能である。一実施形態では、文化モデルデータ524を使用し、選択された文化的に適切な凝視サンプルをビデオ信号に重ね継ぎするなどして、ストリームを修正することが可能である。ビデオが修正されたら、システムは、ステップ516に示されるように、アイドル状態を維持しながら、新しいビデオ入力データ(サンプル)を待つ。
凝視位置が不適切であると考えられた場合、システムは、ステップ512で、現在のビデオストリームが修正されているかどうかを確認することが可能である。ストリームが修正されている場合、システムは、未修正バージョンのビデオに戻すことが可能である(ステップ514)。これは、ユーザの動作がもはや不適切と見なされていないためである。ストリームが修正されていない場合、さらなる動作は不要であり、システムは、次の入力まで待機することが可能である。各種実施形態では、図5に示されたプロセスは、テレビ会議が開催されている間、連続的に且つ繰り返し、実行されることが可能である。代替として、ユーザの凝視を評価して修正するプロセスは、必要なときにユーザによって有効化/無効化(enabled/disabled)されることが可能である。
前述の、本発明の各種実施形態は、本明細書に記載の任意の特徴を実施するように、汎用又は専用のコンピューティングプロセッサ/デバイスをプログラムするために使用されることが可能な命令が格納された記憶媒体であるコンピュータプログラム製品を含む。この記憶媒体は、任意のタイプの物理媒体(フロッピー(登録商標)ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、光磁気ディスク、ホログラフィックストレージ、ROM、RAM、PRAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気又は光カード、ナノシステム(分子メモリICを含む)を含む)、紙又は紙ベースの媒体、及び、命令及び/又は情報の格納に好適な任意のタイプの媒体又はデバイスのうちの1つ又は複数を含むことが可能であり、これらに限定されない。
各種実施形態は、全体又は一部が1つ又は複数のパブリック及び/又はプライベートネットワークを介して送信されることが可能なコンピュータプログラム製品を含み、この送信は、1つ又は複数のプロセッサが本発明に記載の任意の特徴を実施するために使用可能な命令を含む。各種実施形態では、この送信は、一連の複数及び個別の送信を含むことが可能である。
コンピュータ可読媒体に格納された1つ又は複数のものというかたちで、本開示は、汎用/専用のコンピュータ及び/又はプロセッサのハードウェアを制御し、かつ、これらのコンピュータ及び/又はプロセッサと、人間のユーザ又は本発明の結果を利用する他の機構との対話を可能にする、ソフトウェアを含む。そのようなソフトウェアとしては、デバイスドライバ、オペレーティングシステム、実行環境/コンテナ、ユーザインターフェース、ユーザアプリケーションなどがあり、これらに限定されない。
本発明の実施形態の先述の説明は、例示及び説明を目的として行われたものである。網羅的であることも、本発明を、開示された厳密な形式に限定することも、意図されていない。当業者であれば、様々な修正形態及び変形形態は自明であろう。各実施形態は、本発明の原理とその実践的応用とを最もよく説明し、それによって当業者が本発明を理解することを可能にするために選択及び説明されている。本発明の範囲は、添付の特許請求項及びそれらの均等物によって定義されるものとする。
各種実施形態のコンテキストにおける種々のデバイス及び部品の例を示す図である。 各種実施形態による、ローカルテレビ会議システムの例を示す図である。 各種実施形態による、アバター表示を利用する会議システムの例を示す図である。 各種実施形態によるプロセスの一般的概要のフローチャートである。 本明細書に記載の方法による実施形態のプロセスのフローチャートである。 本明細書に記載の実施形態による、凝視を修正するプロセスの論理フローチャートを示す図である。
符号の説明
100、102、104 ユーザ(参加者)
106 第2の文化圏
108 第3の文化圏
110 第1の文化圏
112 接続(ネットワーク/インターネット/無線テレビ会議接続)
200 テレビ会議システム
202 画像取り込みデバイス
204 ビデオ出力デバイス
206 外部ネットワーク/インターネット接続
208 ビデオサンプル及び校正データ
210 文化モデルデータ
212 非言語的動作履歴及び状態データ
214 映像/音声による文化的適切度、タイミング、強調、感情、解析モジュール(解析部)
216 出力修正モジュール(出力修正部)
300 遠隔ウエブサーバ
302 クライアントコンピュータ(クライアントコンピューティングデバイス)
306 文化的/社会的な動作解析
308 仮想アバターの修正
310、312 ユーザ
314 アバターを使用するテレビ会議ディスプレイストリーム(アバター表示)
500 凝視サンプル
502 ビデオ画像
518 凝視位置履歴
520、524 文化モデル

Claims (22)

  1. コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正方法であって、
    コンピュータを介する前記コミュニケーションにおける少なくとも1人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取り、
    前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施し、
    前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定し、
    前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正する、
    ことを含む画像修正方法。
  2. 前記ビデオ画像データを受け取ることは、
    目追跡機構を用いて前記参加者の前記凝視動作を追跡することを更に含む、請求項1に記載の画像修正方法。
  3. 前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
    前記代替動作に従って、前記コンピュータによって表示される、デジタル仮想環境アバターを修正することを更に含む、請求項1に記載の画像修正方法。
  4. 前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
    前記コミュニケーションにおける前記参加者の自然動作が文化的に不適切であることが検出された場合に、前記参加者の画面を、共有資料の画面に切り替えることを更に含む、請求項1に記載の画像修正方法。
  5. 前記自然非言語的動作セグメントを再マッピングすることによって前記ビデオ出力ストリームを修正することは、
    前記代替動作に従って、1つ又は複数のあらかじめ記録されたビデオセグメントを抽出し、前記不適切なビデオ画像データの一部を修正することを更に含む、請求項1に記載の画像修正方法。
  6. 前記参加者の新しい自然非言語的動作セグメントが文化的に適切になったことを、前記文化モデルに基づいて確認し、
    前記ビデオ出力ストリームを未修正状態に戻すことを更に含む、請求項1に記載の画像修正方法。
  7. 前記複数の参加者が遠隔参加者を含む場合に、前記代替動作に従って適応された前記ビデオ画像データを含む、前記修正されたビデオ出力ストリームを、遠隔参加者に送信することを更に含む、請求項1に記載の画像修正方法。
  8. 前記ビデオ画像データの前記データ解析を実施することは、
    音声入力セグメントのうちのタイミング、強調、及び感情のデータの少なくとも1つを解析することを含む音声解析を実施することを更に含む、請求項1に記載の画像修正方法。
  9. 前記ビデオ画像データの前記データ解析を実施することは、
    前記参加者の以前の動作セグメントを解析することによって凝視位置履歴を予測することを更に含む、請求項1に記載の画像修正方法。
  10. 前記ビデオ画像データの前記データ解析を実施することは、
    前記参加者の、可能性のある未来の動作を、前記以前の動作セグメントに基づいて推定することを更に含む、請求項9に記載の画像修正方法。
  11. 前記複数の参加者が遠隔参加者を含む場合に、前記カメラと前記遠隔参加者の前記画像との間のずれを補償するために、前記画像を調整することを更に含む、請求項1に記載の像修正方法。
  12. コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する画像修正システムであって、
    コンピュータを介する前記コミュニケーションにおける参加者の自然非言語的動作セグメントを含むビデオ画像データを収集するカメラと、
    前記自然非言語的動作セグメントを含むビデオ画像データを受け取り、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記ビデオ画像データのデータ解析を実施して、前記自然非言語的動作セグメントの文化的適切度を決定し、前記自然非言語的動作セグメントが文化的に不適切であることが検出された場合は、代替動作を決定し、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更することによってビデオ出力ストリームを修正する、コンピューティングデバイスと、
    を備える画像修正システム。
  13. コンピュータを介する前記コミュニケーションにおける前記参加者の前記凝視動作を追跡する目追跡機構を更に備える、請求項12に記載の画像修正システム。
  14. 前記ビデオ出力ストリームを修正することは、
    前記代替動作に従って、前記コンピューティングデバイスによって表示される、デジタル仮想環境アバターを修正することを更に含む、請求項12に記載の画像修正システム。
  15. 前記ビデオ出力ストリームを修正することは、
    前記コミュニケーションにおける前記参加者の自然動作が文化的に不適切であることが検出された場合に、前記参加者の画面を、共有資料の画面に切り替えることを更に含む、請求項12に記載の画像修正システム。
  16. 前記ビデオ出力ストリームを修正することは、
    前記代替動作に従って、1つ又は複数のあらかじめ記録されたビデオセグメントを抽出し、前記不適切なビデオ画像データの一部を修正することを更に含む、請求項12に記載の画像修正システム。
  17. 前記コンピューティングデバイスは、前記参加者の新しい自然非言語的動作セグメントが文化的に適切になったことを、前記文化モデルに基づいて確認し、前記ビデオ出力ストリームを未修正状態に戻す、請求項12に記載の画像修正システム。
  18. 前記コンピューティングデバイスと電子通信をしている第2のコンピューティングデバイスを更に備え、前記コンピューティングデバイスは、前記修正された出力ストリームを、前記第2のコンピューティングデバイス上の遠隔参加者に送信し、前記修正された出力ストリームは、前記代替動作に従って適応された前記ビデオ画像データを含む、請求項12に記載の画像修正システム。
  19. 前記ビデオ画像データの前記データ解析を実施することは、
    音声入力セグメントのうちのタイミング、強調、及び感情のデータの少なくとも1つを解析することを含む音声解析を実施することを更に含む、請求項12に記載の画像修正システム。
  20. 前記ビデオ画像データの前記データ解析を実施することは、
    前記参加者の以前の動作セグメントを解析することによって凝視位置履歴を予測することを更に含む、請求項12に記載の画像修正システム。
  21. 前記ビデオ画像データの前記データ解析を実施することは、
    前記参加者の、可能性のある未来の動作を、前記以前の動作セグメントに基づいて推定することを更に含む、請求項20に記載の画像修正システム。
  22. コンピュータを介するコミュニケーションに参加する複数の参加者の非言語動作が相互に対して社会的に適切となるように、コンピュータ上の表示画像を修正する機能を実施するためにコンピュータによって実行可能な命令を含む画像修正プログラムであって、
    前記機能は、
    コンピュータを媒介とする前記コミュニケーションにおける少なくとも1人の参加者の自然非言語的動作セグメントを含むビデオ画像データをカメラから受け取るステップと、
    前記自然非言語的動作セグメントの文化的適切度を決定するために、前記自然非言語的動作セグメントを含むビデオ画像データに基づいて、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を、文化モデルに従って解析することを含む、前記ビデオ画像データのデータ解析を実施するステップと、
    前記データ解析により、前記参加者の前記自然非言語的動作セグメントが、文化的に不適切であることが検出された場合は、前記文化モデルに従って予測された代替動作を決定するステップと、
    前記参加者の前記自然非言語的動作セグメントを、前記決定された代替動作に一致するように再マッピングすることによって、前記自然非言語的動作セグメントのうちの凝視及びジェスチャの少なくとも一方を変更して、ビデオ出力ストリームを修正するステップと、
    を含む画像修正プログラム。
JP2008182393A 2007-09-24 2008-07-14 画像修正方法、画像修正システム、及び画像修正プログラム Active JP5195106B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/860,350 2007-09-24
US11/860,350 US8243116B2 (en) 2007-09-24 2007-09-24 Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications

Publications (2)

Publication Number Publication Date
JP2009077380A JP2009077380A (ja) 2009-04-09
JP5195106B2 true JP5195106B2 (ja) 2013-05-08

Family

ID=40471159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008182393A Active JP5195106B2 (ja) 2007-09-24 2008-07-14 画像修正方法、画像修正システム、及び画像修正プログラム

Country Status (2)

Country Link
US (1) US8243116B2 (ja)
JP (1) JP5195106B2 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2009868B1 (en) * 2007-06-29 2016-09-07 Alcatel Lucent Method and system for improving the appearance of a person on the RTP stream coming from a media terminal
US8407605B2 (en) 2009-04-03 2013-03-26 Social Communications Company Application sharing
US8397168B2 (en) * 2008-04-05 2013-03-12 Social Communications Company Interfacing with a spatial virtual communication environment
US7769806B2 (en) 2007-10-24 2010-08-03 Social Communications Company Automated real-time data stream switching in a shared virtual area communication environment
US8419545B2 (en) * 2007-11-28 2013-04-16 Ailive, Inc. Method and system for controlling movements of objects in a videogame
US20090164917A1 (en) * 2007-12-19 2009-06-25 Kelly Kevin M System and method for remote delivery of healthcare and treatment services
US20090164919A1 (en) 2007-12-24 2009-06-25 Cary Lee Bates Generating data for managing encounters in a virtual world environment
US8099668B2 (en) * 2008-01-07 2012-01-17 International Business Machines Corporation Predator and abuse identification and prevention in a virtual environment
US8713450B2 (en) * 2008-01-08 2014-04-29 International Business Machines Corporation Detecting patterns of abuse in a virtual environment
US8312511B2 (en) * 2008-03-12 2012-11-13 International Business Machines Corporation Methods, apparatus and articles of manufacture for imposing security measures in a virtual environment based on user profile information
KR101527993B1 (ko) 2008-04-05 2015-06-10 소우셜 커뮤니케이션즈 컴퍼니 가상 환경과의 인터페이스 방법
WO2009158653A1 (en) * 2008-06-27 2009-12-30 Intuitive Automata, Inc. Apparatus and method for assisting in achieving desired behavior patterns
US20100054526A1 (en) * 2008-09-03 2010-03-04 Dean Eckles Method, apparatus and computer program product for providing gaze information
US20100060713A1 (en) * 2008-09-10 2010-03-11 Eastman Kodak Company System and Method for Enhancing Noverbal Aspects of Communication
US20100083139A1 (en) * 2008-09-26 2010-04-01 International Business Machines Corporation Virtual universe avatar companion
US8396004B2 (en) * 2008-11-10 2013-03-12 At&T Intellectual Property Ii, L.P. Video share model-based video fixing
US9319357B2 (en) 2009-01-15 2016-04-19 Social Communications Company Context based virtual area creation
US9853922B2 (en) 2012-02-24 2017-12-26 Sococo, Inc. Virtual area communications
US9300612B2 (en) * 2009-01-15 2016-03-29 International Business Machines Corporation Managing interactions in a virtual world environment
US8600731B2 (en) * 2009-02-04 2013-12-03 Microsoft Corporation Universal translator
US20100257462A1 (en) * 2009-04-01 2010-10-07 Avaya Inc Interpretation of gestures to provide visual queues
US20100253689A1 (en) * 2009-04-07 2010-10-07 Avaya Inc. Providing descriptions of non-verbal communications to video telephony participants who are not video-enabled
WO2010120303A2 (en) * 2009-04-16 2010-10-21 Hewlett-Packard Development Company, L.P. Managing shared content in virtual collaboration systems
US20100287031A1 (en) * 2009-05-07 2010-11-11 Mckenna Charles Method, Apparatus, System, and Computer Program for Selecting Replacement User Devices
US8145594B2 (en) * 2009-05-29 2012-03-27 Microsoft Corporation Localized gesture aggregation
US8452599B2 (en) * 2009-06-10 2013-05-28 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for extracting messages
CN101930284B (zh) * 2009-06-23 2014-04-09 腾讯科技(深圳)有限公司 一种实现视频和虚拟网络场景交互的方法、装置和***
US8615713B2 (en) * 2009-06-26 2013-12-24 Xerox Corporation Managing document interactions in collaborative document environments of virtual worlds
US9393488B2 (en) * 2009-09-03 2016-07-19 International Business Machines Corporation Dynamically depicting interactions in a virtual world based on varied user rights
KR20120081127A (ko) * 2009-09-11 2012-07-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지 처리 시스템
US8347217B2 (en) * 2009-12-02 2013-01-01 International Business Machines Corporation Customized rule application as function of avatar data
US20120327091A1 (en) * 2010-03-08 2012-12-27 Nokia Corporation Gestural Messages in Social Phonebook
US8626847B2 (en) * 2010-04-30 2014-01-07 American Teleconferencing Services, Ltd. Transferring a conference session between client devices
US9141875B2 (en) * 2010-05-26 2015-09-22 Ramot At Tel-Aviv University Ltd. Method and system for correcting gaze offset
US9245177B2 (en) * 2010-06-02 2016-01-26 Microsoft Technology Licensing, Llc Limiting avatar gesture display
US8775530B2 (en) 2010-08-25 2014-07-08 International Business Machines Corporation Communication management method and system
US20110181684A1 (en) * 2011-02-07 2011-07-28 InnovatioNet Method of remote video communication and system of synthesis analysis and protection of user video images
US9007421B2 (en) * 2011-06-21 2015-04-14 Mitel Networks Corporation Conference call user interface and methods thereof
WO2013003914A1 (en) * 2011-07-07 2013-01-10 Smart Services Crc Pty Limited A system and method for managing multimedia data
US9338396B2 (en) * 2011-09-09 2016-05-10 Cisco Technology, Inc. System and method for affinity based switching
WO2013067365A1 (en) * 2011-11-04 2013-05-10 Fidelus Technologies, Llc. Apparatus, system, and method for digital communications driven by behavior profiles of participants
US20130121658A1 (en) * 2011-11-14 2013-05-16 Gold Post Technologies Remote Device for Monitoring Probationers.
JP5898981B2 (ja) * 2012-02-02 2016-04-06 株式会社コナミデジタルエンタテインメント メッセージ送信システム、制御方法およびプログラム
WO2013181026A1 (en) 2012-06-02 2013-12-05 Social Communications Company Interfacing with a spatial virtual communications environment
EP2693746B1 (en) * 2012-08-03 2015-09-30 Alcatel Lucent Method and apparatus for enabling visual mute of a participant during video conferencing
US9734730B2 (en) 2013-01-31 2017-08-15 Sri International Multi-modal modeling of temporal interaction sequences
JP6044306B2 (ja) * 2012-12-03 2016-12-14 株式会社リコー 情報処理装置、情報処理システム及びプログラム
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US9953304B2 (en) * 2012-12-30 2018-04-24 Buzd, Llc Situational and global context aware calendar, communications, and relationship management
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9251405B2 (en) 2013-06-20 2016-02-02 Elwha Llc Systems and methods for enhancement of facial expressions
JP6175969B2 (ja) * 2013-08-09 2017-08-09 株式会社リコー 情報処理装置、情報処理システム及びプログラム
FR3011426A1 (fr) * 2013-09-30 2015-04-03 Orange Procede et dispositif de transmission d'au moins une partie d'un signal lors d'une session de visioconference
US9258524B2 (en) 2013-09-30 2016-02-09 International Business Machines Corporation Streaming playback within a live video conference
DE102014004069A1 (de) 2014-03-20 2015-09-24 Unify Gmbh & Co. Kg Verfahren, Softwareprodukt und Vorrichtung zur Steuerung einer Konferenz
US9204098B1 (en) 2014-06-30 2015-12-01 International Business Machines Corporation Dynamic character substitution for web conferencing based on sentiment
US9277180B2 (en) 2014-06-30 2016-03-01 International Business Machines Corporation Dynamic facial feature substitution for video conferencing
US9646198B2 (en) 2014-08-08 2017-05-09 International Business Machines Corporation Sentiment analysis in a video conference
US9648061B2 (en) 2014-08-08 2017-05-09 International Business Machines Corporation Sentiment analysis in a video conference
US20160110044A1 (en) * 2014-10-20 2016-04-21 Microsoft Corporation Profile-driven avatar sessions
US9269374B1 (en) * 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
WO2016085498A1 (en) 2014-11-26 2016-06-02 Hewlett-Packard Development Company, L.P. Virtual representation of a user portion
US9232190B1 (en) 2015-04-01 2016-01-05 Ringcentral, Inc. Systems and methods for managing multimedia conference calls
JP6702322B2 (ja) * 2015-06-30 2020-06-03 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9865281B2 (en) * 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
US20170090582A1 (en) * 2015-09-24 2017-03-30 Intel Corporation Facilitating dynamic and intelligent geographical interpretation of human expressions and gestures
JP6569452B2 (ja) * 2015-10-08 2019-09-04 富士通株式会社 画像生成システム、画像生成プログラム及び画像生成方法
US9807341B2 (en) 2016-02-19 2017-10-31 Microsoft Technology Licensing, Llc Communication event
CN105791692B (zh) 2016-03-14 2020-04-07 腾讯科技(深圳)有限公司 一种信息处理方法、终端及存储介质
US9760838B1 (en) 2016-03-15 2017-09-12 Mattersight Corporation Trend identification and behavioral analytics system and methods
US9883144B2 (en) * 2016-05-12 2018-01-30 Fuji Xerox Co., Ltd. System and method for replacing user media streams with animated avatars in live videoconferences
US20180342095A1 (en) * 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters
GB201710840D0 (en) * 2017-07-05 2017-08-16 Jones Maria Francisca Virtual meeting participant response indication method and system
US10956831B2 (en) 2017-11-13 2021-03-23 International Business Machines Corporation Detecting interaction during meetings
JP6981214B2 (ja) * 2017-12-05 2021-12-15 富士通株式会社 画像生成プログラム、画像生成装置及び画像生成方法
US20190354189A1 (en) * 2018-05-18 2019-11-21 High Fidelity, Inc. Use of gestures to generate reputation scores within virtual reality environments
US10924566B2 (en) 2018-05-18 2021-02-16 High Fidelity, Inc. Use of corroboration to generate reputation scores within virtual reality environments
CN108831218B (zh) * 2018-06-15 2020-12-11 邹浩澜 基于虚拟现实的远程教学***
US10616532B1 (en) 2018-09-27 2020-04-07 International Business Machines Corporation Behavioral influence system in socially collaborative tools
US10498973B1 (en) 2018-10-26 2019-12-03 At&T Intellectual Property I, L.P. Physical object-based visual workspace configuration system
US11222199B2 (en) * 2018-12-05 2022-01-11 International Business Machines Corporation Automatically suggesting behavioral adjustments during video conferences
US10834456B2 (en) * 2019-03-28 2020-11-10 International Business Machines Corporation Intelligent masking of non-verbal cues during a video communication
CN113508369A (zh) * 2019-04-01 2021-10-15 住友电气工业株式会社 交流支持***、交流支持方法、交流支持程序以及图像控制程序
JP7185072B2 (ja) * 2019-04-05 2022-12-06 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ビデオチャット中に感情の修正を提供する方法およびシステム
EP4089605A4 (en) 2020-01-10 2023-07-12 Sumitomo Electric Industries, Ltd. COMMUNICATION SUPPORT SYSTEM AND COMMUNICATION SUPPORT PROGRAM
US11632258B1 (en) * 2020-04-12 2023-04-18 All Turtles Corporation Recognizing and mitigating displays of unacceptable and unhealthy behavior by participants of online video meetings
US11516431B2 (en) 2020-07-30 2022-11-29 Microsoft Technology Licensing, Llc Meeting privacy protection system
US11095857B1 (en) * 2020-10-20 2021-08-17 Katmai Tech Holdings LLC Presenter mode in a three-dimensional virtual conference space, and applications thereof
US11223800B1 (en) 2020-11-03 2022-01-11 International Business Machines Corporation Selective reaction obfuscation
US11294474B1 (en) * 2021-02-05 2022-04-05 Lenovo (Singapore) Pte. Ltd. Controlling video data content using computer vision
EP4170609A1 (en) * 2021-10-21 2023-04-26 Koninklijke Philips N.V. Automated filter selection for altering a stream
CN116489299A (zh) * 2022-01-13 2023-07-25 祖玛视频通讯公司 视频通信平台中的化身生成
US20220334638A1 (en) * 2022-07-01 2022-10-20 Intel Corporation Systems, apparatus, articles of manufacture, and methods for eye gaze correction in camera image streams
WO2024111843A1 (ko) * 2022-11-23 2024-05-30 삼성전자주식회사 가상 환경 내 시각적 객체를 표현하기 위한 전자 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4307499A (en) * 1998-05-03 1999-11-23 John Karl Myers Videophone with enhanced user defined imaging system

Also Published As

Publication number Publication date
US8243116B2 (en) 2012-08-14
JP2009077380A (ja) 2009-04-09
US20090079816A1 (en) 2009-03-26

Similar Documents

Publication Publication Date Title
JP5195106B2 (ja) 画像修正方法、画像修正システム、及び画像修正プログラム
US7409639B2 (en) Intelligent collaborative media
US10917613B1 (en) Virtual object placement in augmented reality environments
Satar Meaning-making in online language learner interactions via desktop videoconferencing
Steptoe et al. Eye-tracking for avatar eye-gaze and interactional analysis in immersive collaborative virtual environments
US10834456B2 (en) Intelligent masking of non-verbal cues during a video communication
Tanaka et al. Physical embodiment can produce robot operator’s pseudo presence
JP2022534708A (ja) 動的に反応する仮想キャラクターのためのマルチモーダルモデル
CN113170076A (zh) 用于通信会话的序列事件的动态策展
Skowronek et al. Quality of experience in telemeetings and videoconferencing: a comprehensive survey
Rui Xia Ang et al. “In this online environment, we're limited”: Exploring Inclusive Video Conferencing Design for Signers
Xu et al. Attention from afar: simulating the gazes of remote participants in hybrid meetings
CN116018789A (zh) 在线学习中用于对学生注意力进行基于上下文的评估的方法、***和介质
Chen Conveying conversational cues through video
US11689688B2 (en) Digital overlay
CN116210217A (zh) 用于视频会议的方法和装置
US20240114106A1 (en) Machine learning driven teleprompter
Sindoni “Of course I’m married!” Communicative Strategies and Transcription-Related Issues in Video-Mediated Interactions
Sindoni Multimodality and Translanguaging in Video Interactions
Syeda et al. Photo Alive! Application and method for intergenerational social communication
Wojtanowski et al. “Alexa, Can You See Me?” Making Individual Personal Assistants for the Home Accessible to Deaf Consumers
Tanaka et al. Appearance, motion, and embodiment: unpacking avatars by fine‐grained communication analysis
US11902690B2 (en) Machine learning driven teleprompter
Fox Tree et al. Conversational fluency and attitudes towards robot pilots in telepresence robot-mediated interactions
Begole Responsive media: media experiences in the age of thinking machines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5195106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350