JP2016192687A

JP2016192687A - 映像表示システム及び映像表示方法

Info

Publication number: JP2016192687A
Application number: JP2015071763A
Authority: JP
Inventors: 康夫高橋; Yasuo Takahashi; 吏中野; Tsukasa Nakano; 貴司折目; Takashi Orime; 雄一郎竹内; Yuichiro Takeuchi; 暦本　純一; Junichi Rekimoto; 純一暦本; 宮島　靖; Yasushi Miyajima; 靖宮島
Original assignee: Sony Corp; Daiwa House Industry Co Ltd
Current assignee: Sony Corp; Daiwa House Industry Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-10
Also published as: WO2016159165A1

Abstract

【課題】カメラによって撮像したユーザの映像中に欠損部分があったとしても、当該欠損部分が表示映像に及ぼす影響を緩和させる。
【解決手段】第一のユーザが使用する第一ユニットと、第二のユーザが使用する第二ユニットと、を有する映像表示システムにおいて、第一ユニットが備えるカメラが第一のユーザの映像を撮像し、第二ユニットの表示画面に映像を表示する。第一ユニット及び第二ユニットのうちのいずれか一方では、第一のユーザの身体中、カメラの撮像範囲外にあって撮像されなかった欠損部分を特定し、カメラの撮像映像と他の映像とを合成して合成映像を生成する。他の映像は、上記欠損部分の仮想映像、及び、合成映像において第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成されている。そして、合成映像は、表示画面中、身体に対する上記欠損部分の相対位置に応じた領域に他の映像が表示されるように構成されている。
【選択図】図９

Description

本発明は、映像表示システム及び映像表示方法に係り、一方のユーザ側に設けられた表示画面に他方のユーザの映像を表示するために用いられる映像表示システム及び映像表示方法に関する。

互いに離れた空間に居るユーザ同士が通信技術を利用してお互いの映像を見ながら対話すること、及び、それを実現するための映像表示システムは、既に知られている。同システムでは、一方のユーザの映像を撮影したときの映像データが送信され、他方のユーザ側で当該映像データを受信して展開する。これにより、一方のユーザの映像が他方のユーザ側の表示画面に表示されるようになる。

また、近年では、一方のユーザから受信した映像データが示す映像を再構築し、再構築後の映像を表示する技術が開発されている。例えば、特許文献１には、元の映像から主要被写体の映像と背景の映像とをそれぞれ抽出し、各抽出映像を編集した後に合成することで新たな映像を取得することが開示されている。ここで、抽出映像の編集とは、欠損部分の補完、具体的には背景の映像中、被写体の映像と重なっていた部分を補完して完全な映像とすることである。

また、再構築に関する他の例としては、特許文献２が挙げられる。特許文献２には、連続撮像した映像の中から所定の部分映像（例えば、被写体である人物が正常に映っている映像）を切り出し、切り出した部分映像に対して補正等を施すことが開示されている。これにより、被写体である人物が映っている映像のみを表示することが可能となり、換言すると、被写体である人物が常に表示画面に表示されるようになる。

特開２０１２−１３３５９３号公報特開２０１２−２７３３９号公報

ところで、上述の映像表示システムにより実現される対話において、その臨場感を向上させる方法としては、対話相手の映像（具体的には全身映像）を等身大で表示することが考えられる。一方、カメラのような撮像装置によって対話相手の映像を撮像する場合、当該対話相手が撮像装置に対して比較的近い位置に立っていると、いわゆる見切れ（フレームアウト）が生じてしまい、身体の一部分が撮影されなくなってしまう。かかる状況で撮像された対話相手の映像を等身大で表示しようとすると、対話相手の身体中、見切れによって欠損している部分が表示画面に現れてしまう。この結果、対話の臨場感が損なわれてしまうことになる。

一方、上述した映像の再構築（すなわち、特許文献１及び２に記載の技術）については、撮像装置の撮像範囲内でのみ有効であり、当該撮像範囲から外れることに起因して生じる映像の部分的欠損を補う場合には利用し難いものである。また、複数の撮像装置を用いて各撮像装置の撮像範囲外にある映像を他の撮像装置によって賄えば、映像の部分的欠損を補うことは可能である。ただし、撮像装置を複数使用する分、システム構築コストが嵩んでしまう。

そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、ユーザの映像を撮像する際に当該ユーザの身体の一部分が撮像装置の撮像範囲外にあったとしても臨場感のある対話を実現することが可能な映像表示システム及び映像表示方法を提供することである。

前記課題は、本発明の映像表示システムによれば、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。

上記の構成では、第一のユーザの身体の一部分が撮像範囲外にある状態で撮像部が第一のユーザの映像を撮像した際には、その一部分を特定し、撮像部が撮像した映像と他の映像とを合成して合成映像を生成する。ここで、他の映像は、撮像されなかった一部分の仮想映像、及び、第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成されている。そして、合成映像が表示画面に表示されると、当該表示画面中、身体に対する欠損部分（撮像範囲外にある部分）の相対位置に応じた領域に上記他の映像が表示されるようになる。このように本発明の映像表示装置によれば、撮像されなかった欠損部分の映像が仮想映像によって補完されるようになるため、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能となる。

また、上記の映像表示システムにおいて、前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定すると、好適である。
上記の構成によれば、骨格情報に基づいて欠損部分を特定するため、欠損部分をより的確に特定することが可能となる。

また、上記の映像表示システムにおいて、移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成すると、より好適である。
上記の構成によれば、移動動作によって第一のユーザの脚部が撮像部の撮像範囲外に至るようになった後、欠損した脚部の映像が、移動動作中の脚部の仮想映像（すなわち、移動動作中の脚部の動きを再現した映像）によって補完される。これにより、移動動作中に見切れが生じた場合にも適切に対応することが可能となる。

また、上記の映像表示システムにおいて、前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すと、更に好適である。
上記の構成において、画面形成用機器は、表示画面を形成していない間、第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことになっている。これにより、対話が行われていない期間中、画面形成用機器が目立ち難くなる結果、その存在が気付かれ難くなる。一方、表示画面が形成されて第一のユーザの映像が表示されるようになると、第二のユーザは、あたかも第一のユーザとガラス越しに話をしている視覚的効果を得るようになる。この結果、本発明の映像表示システムによって実現される対話の臨場感が一層向上することになる。

また、上記の映像表示システムにおいて、前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整すると、尚好適である。
上記の構成では、第一のユーザの映像が等身大で表示されるようになる。これにより、本発明の映像表示システムによって実現される対話の臨場感が益々向上することになる。

また、上記の映像表示システムにおいて、前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、好適である。
特に、前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、一段と好適である。
上記の構成では、第一のユーザが表示画面の形成面に手を置いたとき、当該手が撮像部の撮像範囲外にあったとしても、当該手の映像を補完して表示することが可能である。これにより、第二のユーザは、表示画面に表示された第一のユーザの手と自身の手とを合わせる動作（手合せ動作）を行うことが可能となる。この結果、本発明の映像表示システムによる対話の演出的効果が高められる。

また、前述の課題は、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。
上記の方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能である。

本発明の映像表示システム及び映像表示方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、一台の撮像部（例えば、カメラ）によって第一のユーザの映像を撮像する場合に、当該第一のユーザの身体の一部分が撮像部の撮像範囲外にあったとしても、その欠損部分によって対話の臨場感が損なわれるのを抑制することが可能になる。

本発明の一実施形態に係る映像表示システムの構成を示した図である。ユーザが居る部屋内におけるシステム構成機器の配置を示した図である。図３の（Ａ）及び（Ｂ）は、本発明の画面形成用機器の一例を示した図である。図４の（Ａ）及び（Ｂ）は、撮像部とユーザとの距離に応じて表示映像が変化する様子を示した図である。欠損部分を補完した合成映像についての説明図である。各ユーザが保有するホームサーバの構成を機能面から示した図である。骨格情報を取得する手順についての説明図である。欠損部分の特定、及び、補完映像の生成に関する説明図である。映像表示処理の流れを示した図である。図１０の（Ａ）及び（Ｂ）は、欠損部分の映像を補完する処理の流れを示した図である。ユーザ同士が手合せ動作を行っている様子を示した図である。図１２の（Ａ）、（Ｂ）及び（Ｃ）は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図である。図１３の（Ａ）及び（Ｂ）は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。第一変形例に係る映像表示処理の流れを示した図である。第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。第一変形例に係る映像表示処理の流れを示した図である。

以下、本発明の一実施形態（以下、本実施形態）について、図面を参照しながら説明する。本実施形態に係る映像表示システム（以下、本システムＳ）は、互いに離れた部屋に居るユーザ同士が互いの姿（映像）を見ながら対話するために用いられる。より具体的に説明すると、本システムＳがもたらす視覚効果により、各ユーザは、あたかも対話相手と会って話をしているような感覚を有するようになる。

なお、本実施形態において、本システムＳは、各ユーザが各自の自宅に居るときに利用されることになっている。つまり、本システムＳは、各ユーザが自宅に居ながらにして対話相手と対話するために利用される。ただし、これに限定されるものではなく、本システムＳは、ユーザが自宅以外の場所（例えば、集会所や商業施設等）に居るときに用いられてもよい。また、同じ建物内で互いに離れている部屋にいるユーザ同士が対話するために本システムＳを用いることとしてもよい。

以降、本システムＳについて分かり易くし説明するために、二人のユーザが本システムＳを利用して対話するケースを例に挙げて説明することとし、一方のユーザをＡさん、他方のユーザをＢさんとする。また、以下では、Ｂさん側の視点、すなわち、Ａさんの映像を見る立場から本システムＳの構成等を説明することとする。つまり、Ａさんが「第一のユーザ」に相当し、Ｂさんが「第二のユーザ」に相当する。ただし、「第一のユーザ」及び「第二のユーザ」は、映像を見る者及び見られる者の関係に応じて切り替わる相対的な概念である。したがって、例えば、Ａさん側の視点であれば、Ｂさんが「第一のユーザ」に相当し、Ａさんが「第二のユーザ」に相当することとなる。

＜＜本システムの基本構成＞＞
先ず、本システムＳの基本構成について説明する。本システムＳは、二人のユーザ（すなわち、Ａさん及びＢさん）がお互いの映像を見ながら対話をするために用いられ、より具体的には、各ユーザに対して対話相手の等身大の映像を表示し、対話相手の音声を再生するものである。このような視聴覚的効果を得るために、各ユーザは、通信ユニット１００を保有している。つまり、本システムＳは、各ユーザが保有する通信ユニット１００によって構成されている。ここで、Ａさんが保有する通信ユニット１００は、「第一ユニット」に相当し、Ｂさんが保有する通信ユニット１００は、「第二ユニット」に相当する。

次に、図１を参照しながら、通信ユニット１００の構成について説明する。図１は、本システムＳの構成、より具体的には各通信ユニット１００の構成を示した図である。

各通信ユニット１００は、ホームサーバ１、撮影部としてのカメラ２、集音部としてのマイク３、赤外線センサ４、画面形成用機器としての画面端末５、及び、スピーカ６を主要構成機器として有する。これらの機器のうち、カメラ２、マイク３、赤外線センサ４、画面端末５及びスピーカ６は、各ユーザの自宅における所定の部屋（例えば、対話相手と対話する際に居る部屋）内に配置されている。

ホームサーバ１は、所謂ホームゲートウェイを構成するサーバコンピュータからなり、ＣＰＵ、ＲＯＭやＲＡＭ等のメモリ、通信用インタフェース及びハードディスクドライブを有する。また、ホームサーバ１には、ＡさんとＢさんとが本システムＳを通じて行う対話（対面対話）に必要なデータ処理を実行するためのプログラム（以下、対話用プログラム）がインストールされている。

また、ホームサーバ１は、インターネット等の外部通信ネットワークＧＮを介して通信機器と通信可能な状態で接続されている。つまり、Ａさんが保有する通信ユニット１００に属するホームサーバ１は、外部通信ネットワークＧＮを介して、Ｂさんが保有する通信ユニット１００に属するホームサーバ１と通信し、両サーバ間で各種データの送受信を行う。なお、ホームサーバ１が送受信するデータは、ＡさんとＢさんとが本システムＳを通じて行う対話（対面対話）に必要なデータであり、例えば、各ユーザの映像を示す映像データや音声を示す音声データである。

カメラ２は、公知のネットワークカメラであり、撮像範囲内にある被写体の映像を撮像し、その映像信号をホームサーバ１（厳密には、カメラ２が所属する通信ユニット１００と同一のユニットに属するホームサーバ１）に対して出力する。カメラ２の設置台数については、特に制限されるものではないが、本実施形態ではコスト面を考慮し、各通信ユニット１００においてカメラ２を１台のみ備えることとした。なお、本実施形態において、カメラ２が有するレンズは、画面端末５が備える表示画面の形成面に面している。ここで、形成面を構成する画面端末５のパネル（厳密には、タッチパネル５ａ）は、透明なガラスによって構成されている。したがって、カメラ２は、図２に示すように、パネル越しで当該パネルの前に位置する被写体の映像を撮像することになる。図２は、通信ユニット１００の各構成機器について、ユーザが居る部屋内での配置位置を示した図である。

マイク３は、マイク３が設置された部屋内の音声を集音し、その音声信号をホームサーバ１（厳密には、マイク３が所属する通信ユニット１００と同一のユニットに属するホームサーバ１）に対して出力する。なお、本実施形態においてマイク３は、図２に示すように画面端末５の直上位置に設置されている。

赤外線センサ４は、赤外線方式にて計測対象物の深度を計測するためのセンサである。具体的に説明すると、赤外線センサ４は、計測対象物に向けて発光部４ａから赤外線を照射し、その反射光を受光部４ｂにて受光することにより深度を計測する。ここで、深度とは、受光部４ｂから計測対象物までの距離（すなわち、奥行き）のことである。なお、本実施形態において、赤外線センサ４の発光部４ａ及び受光部４ｂは、画面端末５が備える表示画面の形成面に面している。また、前述したように、形成面を構成する画面端末５のパネルは、透明なガラスによって構成されている。これにより、赤外線センサ４は、図２に示すように、パネル越しで当該パネルの前に位置する計測対象物の深度を計測する。

スピーカ６は、ホームサーバ１が音声データを展開することで再生される音声（再生音）を発するものであり、公知のスピーカによって構成されている。なお、本実施形態において、スピーカ６は、図２に示すように、画面端末５の横幅方向において当該画面端末５を挟む位置に複数（図２では４個）設置されている。

画面端末５は、ホームサーバ１が映像データを展開することで再生される映像の表示画面を形成するものである。具体的に説明すると、画面端末５は、透明なガラスによって構成されたパネルを有し、当該パネルの前面に表示画面を構成する。つまり、パネルの前面は、表示画面の形成面に相当する。なお、本実施形態において、上記のパネルは、タッチパネル５ａとなっており、ユーザが行う操作（タッチ操作）を受け付ける。

さらに、上記のパネルは、人の全身映像を表示するのに十分なサイズを有している。そして、本システムＳによる対面対話では、上記のパネルの前面に形成された表示画面に、対話相手の全身映像が等身大のサイズで表示されることになっている。これにより、表示画面を見ているＢさんは、あたかもＡさんと会っている感覚、特に、ガラス越しで対面している感覚を感じるようになる。

さらにまた、本実施形態に係る画面端末５は、通常時には部屋内に配置された姿見として機能し、対面対話時にのみ表示画面を形成するものとなっている。以下、図３の（Ａ）及び（Ｂ）を参照しながら画面端末５の構成について詳しく説明する。図３の（Ａ）及び（Ｂ）は、画面端末５の構成例を示した図であり、（Ａ）が通常時（非対話時）の状態を、（Ｂ）が対面対話時の状態をそれぞれ示している。

画面端末５が有するタッチパネル５ａは、部屋内に配置された姿見の一部分、具体的には鏡面部分を構成する。そして、上記のタッチパネル５ａは、図３の（Ａ）に示すように、対話が行われていない期間、すなわち通常時には表示画面を形成せずに鏡面部分としての外観を呈している。一方、対面対話が開始されると、上記のタッチパネル５ａは、その前面に表示画面を形成する。これにより、タッチパネル５ａの前面には、図３の（Ｂ）に示すように対話相手の映像が表示されるようになる。

ちなみに、表示画面のオンオフの切り替えは、ホームサーバ１が赤外線センサ４の計測結果に応じて行うことになっている。より詳しく説明すると、ユーザが画面端末５の正面位置に立っている間、ホームサーバ１は、赤外線センサ４が計測した深度に基づいてユーザの位置、厳密にはタッチパネル５ａの前面からの距離を特定する。

そして、ユーザとタッチパネル５ａとの間の距離が所定の距離よりも小さくなると、ホームサーバ１は、画面端末５を制御してタッチパネル５ａの前面に表示画面を形成させる。この結果、それまで姿見として機能していたタッチパネル５ａが映像表示用のスクリーンとして機能するようになる。反対に、ユーザとタッチパネル５ａとの間の距離が所定の距離以上となると、ホームサーバ１が画面端末５を制御し、それまで形成されていた表示画面を消すようになる。これにより、タッチパネル５ａは、再び姿見として機能するようになる。

以上のように、本システムＳでは、映像表示用のスクリーンとなる画面端末５が通常時には姿見として兼用されることになっている。これにより、通常時（非対話時）には表示画面の存在が気付かれ難くなる。その一方で、対面対話時には、表示画面が形成されて対話相手の映像が表示される。これにより、表示画面を見ているユーザは、あたかも対話相手とガラス越しに話をしているような視覚的効果を感じる。この結果、より臨場感のある対話（対面対話）が実現されるようになる。

なお、映像表示スクリーンと姿見とを兼用する構成については、例えば国際公開第２００９／１２２７１６号に記載された構成のように公知の構成が利用可能である。また、画面端末５については、姿見として兼用される構成に限定されるものではない。画面端末５については、対話相手の映像（全身映像）を表示するのに十分なサイズを有しているものであればよく、例えば、部屋に設置された扉（ガラス戸）や窓（ガラス窓）として兼用されるものであってもよい。なお、画面端末５については、扉、窓若しくは姿見として兼用されるものに限定されず、起動中には表示画面を常時形成する通常の機器であってもよい。

＜＜欠損部分の発生に対する本システムＳでの対処方法＞＞
本システムＳによる対面対話では、Ａさん側のカメラ２がＡさんの映像を撮像し、Ａさん側のマイク３がＡさんの音声を取得する。そして、Ａさん側のホームサーバ１が映像データや音声データをＢさん側のホームサーバ１に向けて送信する。Ｂさん側のホームサーバ１は、ネットワーク経由で上記の映像データ及び音声データを受信すると、これらを展開する。これにより、Ｂさん側の画面端末５が形成する表示画面にはＡさんの映像が表示されるようになり、Ｂさん側のスピーカ６がＡさんの音声（厳密には、Ａさんが居る部屋で集音された音声の再生音）を発するようになる。

ところで、Ａさん側のカメラ２が撮像したＡさんの映像をＢさん側の表示画面にて表示する際、その表示映像は、カメラ２とＡさんとの距離に応じて異なってくる。以下、図４の（Ａ）及び（Ｂ）を参照しながら説明する。図４は、カメラ２とユーザとの距離に応じて表示映像が変化する様子を示した図であり、同図の（Ａ）は、カメラ２とＡさんとの位置関係を示しており、（Ｂ）は、Ｂさん側の表示画面に表示されるＡさんの映像を示している。なお、図４の（Ａ）中、記号ａ、ｂ、ｃにて示される位置にＡさんが立っているとき、Ｂさん側の表示画面には図４の（Ｂ）中、記号ａ、ｂ、ｃにて示される映像のうち、同じ記号の映像が表示されることになる。

Ａさんがカメラ２に近付き、Ａさんとカメラ２との距離が所定の距離より小さくなると（具体的にはＡさんが図４の（Ａ）中、記号ｃの位置よりもカメラ２に近付いたとき）、図４の（Ａ）及び（Ｂ）に示すように、Ａさんの身体の一部分がカメラ２の撮像範囲から外れて見切れるようになる。そして、Ａさんがカメラ２に近付くほど、図４の（Ａ）及び（Ｂ）に示すようにＡさんの身体において撮像範囲外に位置する部分、すなわち、欠損部分が広がっていく。なお、本実施形態では、Ａさんがカメラ２に近付くと、上下方向において下方から欠損部分が広がっていく。その一方で、Ａさんがカメラ２に近付いたとしても、Ａさんの頭部及び肩部は撮像範囲内に常に入っており、また、Ａさんの身体が横幅方向に見切れることもない。

そして、撮像時にＡさんの身体の一部分が撮像されないと、Ｂさん側の表示画面においても当該欠損部分の映像を欠いた状態でＡさんの映像が表示されるようになる。このような事態は、Ａさんの映像を見ているＢさんに違和感を与え、互いの映像を見ながら行う対話（対面対話）の臨場感を著しく損なうことになってしまう。

これに対して、本システムＳでは、欠損部分が生じた場合に当該欠損部分を補完する映像（補完映像）を用い、実際に撮像した映像と補完映像とを合成した映像（合成映像）を表示することとしている。図５を参照しながら説明すると、本システムＳでは、先ず、実際に撮像した映像を基に欠損部分を特定する。欠損部分を特定した後には、欠損部分と同じ部分を現した仮想映像を取得する。次に、図５に示すように、実際に撮像した映像、及び欠損部分の仮想映像のそれぞれに対してサイズ変換を施す。このサイズ変換は、その後に表示される合成映像としてのＡさんの全身映像を実際のＡさんの身長と一致するサイズ（すなわち、等身大サイズ）にて表示するための映像処理である。

そして、サイズ変換後の映像同士を合成することにより合成映像が生成される。このような手順によって生成された合成映像がＢさん側の表示画面で表示されると、欠損部分が補完映像によって補完されているため、Ａさんの全身映像が表示映像として表示されるようになる。

以上に説明した欠損部分の補完により、本システムＳでは、欠損部分の発生によって対面対話の臨場感が損なわれてしまうのを、効果的に防止することが可能となる。かかる効果は、本実施形態のように各通信ユニット１００においてカメラ２が１台のみ備えられている構成において特に有効である。より詳しく説明すると、カメラ２の設置台数が１台のみである場合、当該カメラ２の撮像範囲外にある部分（すなわち、欠損部分）の撮像を他のカメラによって補うことができない。その一方で、上述したように仮想映像を用いて欠損部分を補完すれば、１台のカメラ２であっても対応可能である。この結果、臨場感のある対面対話を実現する映像表示システムとして、より安価なシステムを提供することが可能である。
以降の説明では、本システムＳに関して、欠損部分の補完を含む映像表示処理に関する構成、及び、映像表示処理の流れについて詳述することとする。

＜＜ホームサーバの機能について＞＞
次に、ホームサーバ１の機能、特に、映像表示処理に関する機能について説明する。なお、Ａさん側のホームサーバ１及びＢさん側のホームサーバ１の双方は、同様の機能を有しており、対面対話の実施にあたり双方向通信して同様のデータ処理を実行することになっている。このため、以下では、一方のホームサーバ１（例えば、Ａさん側のホームサーバ１）の機能のみを説明することとする。

ホームサーバ１は、同装置のＣＰＵが対話用プログラムを実行することでホームサーバ１としての機能を発揮し、具体的には、対面対話に関する一連のデータ処理を実行する。ここで、ホームサーバ１の構成をその機能面から説明すると、ホームサーバ１には、図６に示すように、映像取得部１１、人物映像抽出部１２、映像記憶部１３、骨格情報取得部１４、骨格情報記憶部１５、特定部１６、補完映像生成部１７、合成映像生成部１８、映像データ送信部１９、映像データ受信部２０、映像表示部２１が備えられている。図６は、ホームサーバ１の構成を機能面から示した図である。

上記のデータ処理部は、それぞれ、ホームサーバ１のハードウェア機器（具体的には、ＣＰＵ、メモリ、通信用インタフェース及びハードディスクドライブ等）がソフトウェアとしての対話用プログラムと協働することによって実現される。以下、各データ処理部について個別に説明する。

映像取得部１１は、映像信号をカメラ２から取得する。ここで、映像取得部１１が取得する映像信号は、カメラ２が実際に撮像した映像（以下、実映像）を示すものである。したがって、カメラ２の撮像範囲内にユーザが居る場合、映像取得部１１は、当該ユーザの映像を含む実映像の映像信号を取得することになる。

人物映像抽出部１２は、映像取得部１１が取得した映像信号が示す実映像のうち、人物映像を抽出する。ここで、人物映像とは、実映像中、人物と認識される部分の映像のことである。本実施形態では、実映像をそのまま利用せず、人物映像と背景映像とを分離することとしている。これは、人物映像と背景映像とを分離することで双方の映像を個別に利用（例えば編集加工等）することが可能となり、人物映像と背景映像とを自由に組み合わせることにより最終的な表示映像（合成映像）のバリエーションも増えることになる。なお、実映像の中から人物映像を抽出する方法については特に限定されるものではないが、一例としては、実映像の深度データに基づいて人物映像を特定する方法が挙げられる。実映像の深度データとは、実映像の各フレーム画像を画素単位で区画し、画素別に赤外線センサ４の計測結果、すなわち深度を規定したものである。そして、実映像の深度データによれば、後述する図７に示すように、人物映像に属する画素（図７中、白抜きの画素）と背景映像に属する画素（図７中、黒抜きの画素）とでは明らかに深度値が異なる。このような性質を利用して、実映像の中から人物映像を抽出することが可能である。

映像記憶部１３は、各種映像を記憶する。映像記憶部１３が記憶する映像としては、図６に示すように、全身映像、テンプレート映像、背景映像である。全身映像は、人物映像抽出部１２が抽出した人物映像が全身映像に該当するときの当該人物映像である。つまり、人物映像抽出部１２が抽出した人物映像が全身映像に該当したとき、映像記憶部１３は、当該人物映像を全身映像として記憶する。背景映像は、映像取得部１１が取得した映像信号が示す実映像中に人物映像が含まれていなかったときの当該実映像である。つまり、映像取得部１１が取得した映像信号が示す実映像中に人物映像が含まれていなかったとき、映像記憶部１３は、当該実映像を背景映像として記憶する。テンプレート映像は、欠損部分の補完に利用される映像として予め記憶されている映像であり、例えば、人の身体各部（手、足、腰等）の映像として標準的な映像である。このテンプレート映像は、全身映像が無い場合（映像記憶部１３に記憶されていない場合）に利用される。

骨格情報取得部１４は、人物映像抽出部１２が実映像から抽出した人物映像から、当該人物の骨格情報を取得する。ここで、骨格情報とは、人物の身体中、頭部と頭部以外の部分（具体的には、肩、肘、手首、上半身中心、腰、膝、足首）との位置関係を示すものである。なお、本実施形態では、骨格情報として、図７に図示した人物の骨格に関する簡易的なモデル（骨格モデル）を取得する。図７は、骨格情報としての骨格モデルを取得する手順についての説明図である。
ちなみに、骨格モデルは、上述した実映像の深度データに基づいて取得される。深度データに基づいて骨格モデルを取得する方法については、公知の方法が利用可能であり、例えば、特開２０１４−１５５６９３号公報や特開２０１３−１１６３１１号公報に記載された発明において採用されている方法と同様の方法を利用してもよい。

骨格情報記憶部１５は、骨格モデルを記憶する。ここで、骨格情報記憶部１５が記憶する骨格モデルとしては、骨格情報取得部１４によって取得された骨格モデル、標準的な体格を有する人の骨格モデルとして事前に取得されたもの（以下、サンプルモデル）が挙げられる。また、本実施形態において、骨格情報記憶部１５が記憶する骨格モデルには、全身像の骨格モデル（以下、全身モデル）及び移動動作中の骨格モデル（以下、移動モデル）が含まれる。ただし、これに限定されるものではなく、所定の動作を行っているときの骨格モデルや所定の姿勢にあるときの骨格モデルが含まれていてもよい。

特定部１６は、実映像中の人物映像において欠損部分（すなわち、撮影時にカメラ２の撮像範囲外に位置していた部分）があるか否かを判定し、さらに、欠損部分があると判定したときには当該欠損部分を特定する。ここで、欠損部分の特定は、骨格情報取得部１４が実映像中の人物映像から取得した骨格モデル（以下、今回の骨格モデル）と、骨格情報記憶部１５に記憶された全身モデルとに基づいて行われる。図８を参照しながら具体的に説明すると、今回の骨格モデルと全身モデルとを対比することにより今回の骨格モデル中、欠損している部分、すなわち、欠損部分を特定する。図８は、欠損部分の特定、及び、補完映像の生成に関する説明図である。

また、本実施形態において、特定部１６は、欠損部分を特定する際に当該欠損部分の状態を特定し、具体的には、欠損部分の状態が静止状態であるか動作状態であるかを特定する。ここで、動作状態とは、カメラ２を横切る方向に移動している状態、及び、カメラ２に対して接近又は離間している状態を意味している。なお、欠損部分の状態の特定については、カメラ２が撮影するユーザの身体中、欠損部分以外の実映像及び当該実映像の深度データに基づいて行われる。

補完映像生成部１７は、特定部１６により特定された欠損部分を補完する仮想映像（以下、補完映像）を生成する。補完映像は、図８に示すように、特定部１６により特定された欠損部分（厳密には、今回の骨格モデル中、欠損している部分）に基づき、映像記憶部１３に記憶された全身映像やテンプレート映像を加工することで生成される。具体的に説明すると、例えば、全身映像から補完映像を生成する場合には、映像記憶部１３から読み出した全身映像中、特定部１６により特定された欠損部分（厳密には、今回の骨格モデル中、欠損している部分）に相当する部分の映像を切り出し、さらに、切り出した当該映像を上記欠損部分の位置や配向に合わせて編集する。また、テンプレート映像から補完映像を生成する場合には、欠損部分に対応するテンプレート映像を映像記憶部１３から読み出し、読み出したテンプレート映像を上記欠損部分の位置や配向に合わせて編集する。

なお、補完映像は、特定部１６が特定した欠損部分に基づいて生成される。一方、特定部１６による欠損部分の特定は、全身モデルと今回の骨格モデルとを用いて行われる。ここで、全身モデルは、欠損部分に相当する部分が撮像範囲内にあるとき、すなわち、全身が撮像範囲内に収まっているときにカメラ２が撮像した映像から取得される。ゆえに、補完映像は、欠損部分が撮像範囲内にあるときにカメラ２が撮像した映像に基づいて生成された映像（仮想映像）であると言える。

また、特定部１６により特定された欠損部分の状態が動作状態であった場合、補完映像生成部１７は、当該動作状態を反映して欠損部分の補完映像を生成する。具体的に説明すると、カメラ２を横切る方向に移動する移動動作（以下、横移動動作）を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ２が撮像したとき、補完映像生成部１７は、横移動動作中の脚部の補完映像を生成する。同様に、カメラ２に対して接近又は離間する移動動作（以下、奥行移動動作）を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ２が撮像したとき、補完映像生成部１７は、奥行移動動作中の脚部の補完映像を生成する。

合成映像生成部１８は、合成映像を生成する。合成映像とは、人物映像と背景映像とを合成した映像である。つまり、合成映像生成部１８は、分離されていた人物映像と背景映像とを組み合わせ、背景付きの人物映像を合成映像として生成する。また、合成映像生成部１８は、合成映像を生成するに際し、対話相手側の表示画面に表示されるユーザの身長と当該ユーザの実際の身長とが一致するように、人物映像の表示サイズを調整する。具体的に説明すると、骨格情報取得部１４が実映像中の人物映像から取得した骨格モデル（今回の骨格モデル）と、骨格情報記憶部１５に記憶された全身モデルと、当該全身モデルの素となった実映像の深度データと、を用いて映像表示サイズの調整を行う。より詳しく説明すると、上記の全身モデル及びその素となった実映像の深度データからユーザの身長を割り出す一方で、今回の骨格モデルと全身モデルとの比率を算出する。その後、割り出したユーザの身長と算出したモデル間の比率とに基づいて映像表示サイズを調整する。

さらに、実映像中の人物映像に欠損部分がある場合（すなわち、ユーザの身体の一部分が撮像範囲外にある状態でカメラ２が映像を撮像した場合）、合成映像生成部１８は、実映像中の人物映像と、補完映像生成部１７により生成された補完映像（他の映像に相当）とを合成し、欠損部分が補完された人物映像を生成する。これにより、欠損部分が補完された人物映像を含む合成映像が対話相手側の表示画面にて表示されると、当該表示画面中、人物映像中の補完部分（すなわち、欠損部分があった部分）の相対位置に応じた領域に補完映像が表示されるようになる。換言すると、合成映像生成部１８は、上記の合成映像が表示された表示画面においてユーザの身体に対する欠損部分の相対位置に応じた領域に補完映像が表示されるように、合成映像を生成する。

映像データ送信部１９は、合成映像生成部１８が生成した合成映像を示す映像データを、対話相手側のホームサーバ１へ送信する。映像データ受信部２０は、対話相手側のホームサーバ１が送信した映像データを、外部通信ネットワークＧＮを経由して受信する。映像表示部２１は、映像データ受信部２０が受信した映像データを展開し、当該映像データが示す映像（すなわち、対話相手側のホームサーバ１にて合成された合成映像）を画面端末５の表示画面に表示する。

＜＜映像表示処理の流れについて＞＞
次に、本システムＳを用いた対面対話のうち、映像表示に係るデータ処理、すなわち映像表示処理について詳しく説明する。なお、以下に説明する映像表示処理では、本発明の映像表示方法が適用されている。すなわち、映像表示処理において実施される各ステップは、本発明の映像表示方法を構成する各工程に相当する。

映像表示処理では、先ず、一方のユーザ（例えば、Ａさん）が使用する通信ユニット１００において映像データの生成及び送信が行われ、その後、他方のユーザ（例えば、Ｂさん）が使用する通信ユニット１００において映像データの受信及び展開が行われる。以下では、映像表示処理中、映像データを生成して送信するまでの流れを中心に説明することとする。

映像表示処理は、図９に図示の流れに従って進行する。図９は、映像表示処理の流れを示した図である。具体的に説明すると、先ず、カメラ２がその撮像範囲内にある映像を撮像し、その映像を示す映像信号をホームサーバ１（カメラ２が属する通信ユニット１００と同じ通信ユニット１００に属しているホームサーバ１）に対して出力する（Ｓ００１）。映像信号を受信したホームサーバ１は、映像信号が示す映像（実映像）に対して顔認識処理を適用する（Ｓ００２）。これにより、ホームサーバ１は、カメラ２の撮像範囲内にユーザがいるかを判定する（Ｓ００３）。なお、顔認識処理とは、実映像中に人物映像が含まれているかを判定するための映像解析処理であり、当該処理の具体的内容については、公知であるため、説明を省略することとする。

カメラ２の撮像範囲内にユーザがいると判定した場合、ホームサーバ１は、赤外線センサ４の計測結果から上記実映像の深度データを取得する（Ｓ００４）。また、ホームサーバ１は、上記実映像から人物映像を抽出し、かかる人物映像と前ステップＳ００４で取得した深度データとに基づいて、カメラ２の撮像範囲内にいるユーザの骨格モデルを取得する（Ｓ００５）。さらに、ホームサーバ１は、取得した深度データ及び骨格モデルに基づいて、上記ユーザの等身大サイズ（具体的には、身長等）を計算する（Ｓ００６）。さらにまた、ホームサーバ１は、実映像から抽出した人物映像の映像表示サイズを、前ステップＳ００６にて計算した等身大サイズと一致するように調整する（Ｓ００７）。

そして、ホームサーバ１は、ステップＳ００５にて取得した骨格モデルに基づいて、上記の人物映像が全身映像であるかどうかを判定する（Ｓ００８）。全身映像であると判定した場合、ホームサーバ１は、上記の人物映像をユーザの全身映像として登録（記憶）する（Ｓ００９）。これと同時に、ホームサーバ１は、ステップＳ００５にて取得した骨格モデルを全身モデルとして登録（記憶）すると共に、ステップＳ００６にて計算した等身大サイズを登録（記憶）する（Ｓ００９）。その後、ホームサーバ１は、全身映像である人物映像と背景映像とを合成して合成映像を生成し（Ｓ０１０）、生成した合成映像を示す映像データを対話相手側のホームサーバ１に向けて送信する（Ｓ０１１）。

一方、ステップＳ００８において上記の人物映像が全身映像ではない場合、すなわち、当該人物映像中に欠損部分があると判定した場合には、ホームサーバ１が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、欠損部分は、ユーザがカメラ２に対して接近したときに生じ、通常は脚部が欠損部分に該当する。ただし、ユーザがカメラ２に対して著しく接近した場合には、脚部のみならず上半身の一部（例えば、手部）も欠損部分となり得る。そこで、ホームサーバ１は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する（Ｓ０１２）。そして、手部が含まれていると判定したとき、ホームサーバ１は、手部及び脚部双方の映像を補完する（Ｓ０１３、Ｓ０１４）。反対に、手部が含まれていないと判定したとき、ホームサーバ１は、脚部の映像のみを補完する（Ｓ０１４）。

次に、手部及び脚部の映像を補完する手順について図１０の（Ａ）及び（Ｂ）を参照しながら説明する。図１０は、欠損部分の映像を補完する処理の流れを示した図であり、同図の（Ａ）は、手部の映像を補完する手順を示し、同図の（Ｂ）は、脚部の映像を補完する手順を示している。

先ず、手部が欠損しているときに当該手部の映像を補完する処理について説明する。本処理は、図１０の（Ａ）に示すように、ホームサーバ１が、そのハードディスクドライブに記憶された手のテンプレート映像を読み出すところから始まる（Ｓ０２１）。その後、ホームサーバ１は、手のテンプレート映像の表示サイズを、図９に図示したステップＳ００６で計算した等身大サイズに応じて調整する（Ｓ０２２）。映像表示サイズの調整後、ホームサーバ１は、サイズ調整された手のテンプレート映像と、図９に図示したステップＳ００７にてサイズ調整された人物映像と、を合成する（Ｓ０２３）。これにより、手部の映像が補完された人物映像が生成される。

以上のように手部の映像が補完されることで、ユーザがカメラ２に著しく接近したとしても、当該ユーザの手部（厳密には、補完された手部の映像）を対話相手側の表示画面に表示させることが可能となる。これにより、例えば、一方のユーザであるＡさんがカメラ２に接近して画面端末５における表示画面の形成面（具体的には、タッチパネル５ａの前面）に手部を置くと、当該手部がカメラ２の撮像範囲から外れるにも拘わらず、他方のユーザであるＢさん側の表示画面にはＡさんの手部の映像が表示されるようになる。この結果、Ｂさんは、図１１に示すように表示画面に表示されたＡさんの手部に自分の手を重ねる動作、すなわち、手合せ動作を行うことが可能となる。このように手部の映像を補完することで、ユーザ同士が手合せ動作を行うことも可能となり、本システムＳによる視覚的演出効果が一層高まることとなる。なお、図１１は、ユーザ同士が手合せ動作を行っている様子を示した図である。

次に、脚部が欠損しているときに当該脚部の映像を補完する処理について説明する。本処理は、図１０の（Ｂ）に示すように、ユーザの位置に変化があるか、すなわちユーザの状態が移動動作を行っている状態にあるかをホームサーバ１が判定するところから始まる（Ｓ０３１）。かかる判定は、実映像、及び、図９に図示したステップＳ００４で取得した実映像の深度データに基づいて行われる。そして、ユーザの状態が移動動作を行っている状態にあると判定したとき、ホームサーバ１は、そのハードディスクドライブに記憶された骨格モデルの中から移動モデル、すなわち歩行動作時の骨格モデルを読み出す（Ｓ０３２）。反対に、ユーザの状態が静止状態にあると判定したとき、ホームサーバ１は、移動モデル以外の骨格モデル、すなわち直立時の骨格モデルを読み出す（Ｓ０３３）。

その後、ホームサーバ１は、ハードディスクドライブ内に記憶された映像の中に、過去に取得したユーザの全身映像が有るかどうかを確認する（Ｓ０３４）。そして、ホームサーバ１は、全身映像がある場合には当該全身映像を読み出し（Ｓ０３５）、全身映像が無い場合には脚部のテンプレート映像を読み出す（Ｓ０３６）。

さらに、ホームサーバ１０は、読み出した全身映像又はテンプレート映像を、ステップＳ０３２、Ｓ０３３で読み出した骨格モデルに合わせるように編集（変形）する（Ｓ０３７）。これにより、脚部の補完映像が生成されることになる。そして、ホームサーバ１は、脚部の補完映像の表示サイズを、図９に図示したステップＳ００６で計算した等身大サイズに応じて調整する（Ｓ０３８）。その後、ホームサーバ１は、サイズ調整された脚部の補完映像と、図９に図示したステップＳ００７にてサイズ調整された人物映像と、を合成する（Ｓ０３９）。これにより、脚部の映像が補完された人物映像が生成される。

以上のように脚部の映像が補完されることで、カメラ２とユーザとの距離を問わず、脚部を含むユーザの全身映像を対話相手側の表示画面に表示させることが可能となる。また、撮影中にユーザが移動したとしても、歩行時の骨格モデルを用いて脚部の映像を適切に補完することが可能である。例えば図１２の（Ａ）に示すようにユーザが撮影中にカメラ２に接近する動作を行ったときには、図１２の（Ｂ）に図示した移動動作時（分かり易くは前進歩行時）の骨格モデルの変化パターンを用いて脚部の補完映像を生成する。このとき、ユーザが移動する際の移動速度に応じて骨格モデルの変化パターンの変化速度を調整し、速度調整後の変化パターンに合わせて脚部の補完映像を生成する。これにより、図１２の（Ｃ）に示すように、ユーザの移動動作に追従するように脚部の映像を補完することが可能となる。なお、図１２は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図であり、同図の（Ａ）は、ユーザがカメラ２に接近している様子を示し、同図の（Ｂ）は、歩行時の骨格モデルの変化パターンを示し、同図の（Ｃ）は、ユーザの移動動作に追従するように脚部の映像が補完された人物映像を示している。

＜＜本システムの第一変形例＞＞
上述した実施形態では、欠損部分の補完映像として当該欠損部分の仮想映像を用いることとした。ただし、欠損部分の補完映像としては、欠損部分とは異なる仮想映像を用いることも可能である。例えば、対話相手側の表示画面にて表示される表示映像（換言すると、合成映像）においてユーザの前方に位置する物の仮想映像、すなわち、前景映像を補完映像として用いてもよい。

補完映像として前景映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が前景映像の後方にあるので見えない（換言すると、欠損部分が前景映像によって隠されている）という視覚的効果を得ることになる。

なお、前景映像としては、図１３の（Ａ）に図示のキャラクターや動物又は人を模した前景映像ＦＰ１であってもよく、図１３の（Ｂ）に図示の壁パネル、置物又は構造物を模した前景映像ＦＰ２であってもよい。図１３の（Ａ）及び（Ｂ）は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。

以下、本システムＳの第一変形例として、前景映像にて欠損部分を補完するケースについて説明する。なお、以下では、第一変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。

前景映像にて欠損部分を補完する場合の手順については、図１４に示すように、カメラ２が撮影した映像（実映像）を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、上記の実施形態、すなわち、欠損部分の仮想映像にて補完する場合の手順と同様である（Ｓ０４１〜Ｓ０４８）。図１４は、第一変形例に係る映像表示処理の流れを示した図である。

また、人物映像が全身映像であると判定した場合、ホームサーバ１は、全身映像と背景映像とを合成して合成映像を生成し（Ｓ０４９）、生成した合成映像を示す映像データを対話相手側のホームサーバ１に向けて送信する（Ｓ０５０）。

一方、人物映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ１が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、前述したように、通常は脚部が欠損部分に該当するのであるが、ユーザがカメラ２に対して著しく接近した場合には、脚部のみならず手部も欠損部分となり得る。そこで、ホームサーバ１は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する（Ｓ０５１）。欠損部分に手部が含まれていないとき、すなわち、欠損部分が脚部のみであるとき、ホームサーバ１は、図１５に示す手順にて欠損部分を前景映像にて補完する（Ｓ０５３）。図１５は、第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。

具体的に説明すると、ホームサーバ１は、ハードディスクドライブに記憶された前景映像を読み出し（Ｓ０６１）、当該前景映像の表示サイズを、図１４に図示したステップＳ０４６で計算した等身大サイズに応じて調整する（Ｓ０６２）。その後、ホームサーバ１は、サイズ調整された前景映像と、図１４に図示したステップＳ０４７にてサイズ調整された人物映像と、を合成する（Ｓ０６３）。さらに、ホームサーバ１は、前景映像と人物映像とを合成した映像に、さらに背景映像を合成する（Ｓ０４９）。

以上までに説明した手順により、前景映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ１に向けて送信される（Ｓ０５０）。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分（すなわち、欠損部分があった部分）の相対位置に応じた領域に前景映像が表示されるようになる。

第一変形例に係る映像表示処理の流れについて更に説明すると、図１４に図示のステップＳ０５１において欠損部分に手部が含まれていると判定したとき、ホームサーバ１は、欠損した手部を当該手部の仮想映像にて補完する（Ｓ０５２）。このように第一変形例にでは、欠損部を前景映像にて補完する一方で、欠損部に手部が含まれている場合には当該手部の仮想映像にて補完することとしている。

より詳しく説明すると、第一変形例では、Ａさん側の画面端末５を構成するタッチパネル５ａの前面にＡさんが手部（手のひら）を接触させる動作を行うことによって、Ａさんの手部がＡさん側のカメラ２の撮像範囲から外れると、欠損部分のうち、手部がその仮想映像によって補完され、それ以外の部分が前景映像にて補完されるようになっている。このように第一変形例では、手部を含むＡさんの身体の一部がＡさん側のカメラ２の撮像範囲外にあったとしても、図１６に示すように、手部については前景映像ではなく手部の仮想映像（図中、記号ＶＰにて示す映像）にて補完される形になる。図１６は、第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。

そして、手部が当該手部の仮想映像にて補完されることにより、第一変形例においても、Ｂさんが表示画面に表示されたＡさんの手部に自分の手を重ねる動作、すなわち、手合せ動作が実現可能となる。なお、第一変形例では、手部の映像が欠損しているケースのうち、Ａさんが所定の動作を行っているケース、具体的には手部が画面端末５の前面（厳密には、タッチパネル５ａの前面）に接触しているケースに限り、手部の仮想映像にて補完することになっている。これは、前述した手合せ動作を実現する上で、少なくとも手部が画面端末５の前面に触れている期間中は手部の仮想映像にて補完する必要があるためである。ただし、これに限定されるものではなく、欠損部分を前景映像にて補完するケースにおいて、手部の映像が欠損した際には、ユーザが行っている動作や姿勢に拘わらず手部の仮想映像にて補完してもよい。あるいは、欠損部分に手部が含まれていたとしても、当該手部を含めた欠損部分すべてを前景映像にて補完してもよい。

＜＜本システムの第二変形例＞＞
上述した第一変形例では、前景映像として、図１３の（Ａ）に図示のキャラクターや動物又は人を模した前景映像ＦＰ１、あるいは、図１３の（Ｂ）に図示の壁パネル、置物又は構造物を模した前景映像ＦＰ２を用いることとした。ただし、前景映像については、上記の前景映像ＦＰ１、ＦＰ２以外にも考えられる。例えば、図１７の（Ａ）及び（Ｂ）に示すように実映像を囲う枠の映像（以下、フレーム映像）を前景映像として用いることとしてもよい。図１７の（Ａ）及び（Ｂ）は、フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。

上記のフレーム映像は、ガラス越しで対話相手と対面していると感じているユーザにとって、そのガラスの外枠（例えば、窓枠やドア枠）として認識されるようになる。したがって、補完映像としてフレーム映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が上記の外枠の後方にあるので見えない（換言すると、欠損部分が上記の外枠によって隠されている）という視覚的効果を得ることになる。

なお、フレーム映像としては、図１７の（Ａ）に図示のフレーム映像ＲＰ１、すなわち、実際の窓枠やドア枠のように表示映像の四方を囲むフレーム映像であってもよい。あるいは、図１７の（Ｂ）に図示のフレーム映像ＲＰ２、すなわち、欠損部分のみを隠すフレーム映像であってもよい。

以下、本システムＳの第二変形例として、フレーム映像にて欠損部分を補完するケースについて説明する。なお、以下では、第二変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。

フレーム映像にて欠損部分を補完する場合の手順については、図１８に示すように、カメラ２が撮影した映像（実映像）を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、以上までに説明した実施形態における手順と同様である（Ｓ０７１〜Ｓ０７８）。図１８は、第二変形例に係る映像表示処理の流れを示した図である。

また、人物映像が全身映像であると判定した場合、ホームサーバ１は、全身映像と背景映像とを合成して合成映像を生成し（Ｓ０７９）、生成した合成映像を示す映像データを対話相手側のホームサーバ１に向けて送信する（Ｓ０８０）。一方、実映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ１が欠損部分を特定し、当該欠損部分の映像をフレーム映像にて補完する。具体的に説明すると、ホームサーバ１は、ハードディスクドライブに記憶されたフレーム映像を読み出し（Ｓ０８１）、当該フレーム映像の表示サイズを、ステップＳ０７６で計算した等身大サイズに応じて調整する（Ｓ０８２）。その後、ホームサーバ１は、サイズ調整されたフレーム映像と、ステップＳ０７７にてサイズ調整された人物映像と、を合成する（Ｓ０８３）。さらに、ホームサーバ１は、フレーム映像と人物映像とを合成した映像に、さらに背景映像を合成する（Ｓ０７９）。

以上までに説明した手順により、フレーム映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ１に向けて送信される（Ｓ０８０）。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分（すなわち、欠損部分があった部分）の相対位置に応じた領域にフレーム映像が表示されるようになる。

＜＜その他の実施形態＞＞
上記の実施形態では、本発明の映像表示システム及び映像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。

また、上記の実施形態では、本システムＳを通じて二人のユーザが対話をするケースを例に挙げて説明したが、これに限定されるものではなく、同時に対話することが可能な人数については三人以上であってもよい。

また、上記の実施形態では、欠損した映像の補完（すなわち、実映像と補完映像との合成）が、実映像の映像を撮像したカメラ２と同じ通信ユニット１００に属するホームサーバ１によって行われることとした。分かり易く説明すると、Ａさんの身体の一部の映像が欠損していた場合、当該映像の補完がＡさん側のホームサーバ１によって実施されることとした。ただし、これに限定されるものではなく、上記映像の補完がＢさん側のホームサーバ１によって実施されることとしてもよい。

また、上記の実施形態では、欠損部分の補完形態として、欠損部分の仮想映像にて補完する形態、前景映像にて補完する形態、フレーム映像にて補完する形態のいずれかを採用することとした。ただし、上記３つの形態すべてに対応可能であり、実際に採用する形態をユーザの要望に応じて自在に切り替えることが可能であることとしてもよい。

また、上記の実施形態では、補完映像の基となる映像（例えば、全身映像、テンプレート映像、前景映像及びフレーム映像）をホームサーバ１内、より具体的にはハードディスクドライブに記憶されていることとした。ただし、これに限定されるものではなく、ホームサーバ１とは異なる装置、例えば、外部通信ネットワークＧＮを通じてホームサーバ１と接続された外部サーバに記憶されていて、映像補完時に当該外部サーバから上記映像のデータをダウンロードしてもよい。

１ホームサーバ
２カメラ（撮像部）
３マイク
４赤外線センサ
４ａ発光部
４ｂ受光部
５画面端末
５ａタッチパネル
６スピーカ
１１映像取得部
１２人物映像抽出部
１３映像記憶部
１４骨格情報取得部
１５骨格情報記憶部
１６特定部
１７補完映像生成部
１８合成映像生成部
１９映像データ送信部
２０映像データ受信部
２１映像表示部
１００通信ユニット
ＦＰ１，ＦＰ２前景映像
ＧＮ外部通信ネットワーク
ＲＰ１、ＲＰ２フレーム映像
Ｓ本システム（映像表示システム）

Claims

第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、
前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、
前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、
前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、
前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、
前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、
前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示システム。
前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、
前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定することを特徴とする請求項１に記載の映像表示システム。
移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成することを特徴とする請求項１又は２に記載の映像表示システム。
前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、
該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことを特徴とする請求項１乃至３のいずれか一項に記載の映像表示システム。
前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整することを特徴とする請求項１乃至４のいずれか一項に記載の映像表示システム。
前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項１乃至５のいずれか一項に記載の映像表示システム。
前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、
前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、
前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項６に記載の映像表示システム。
第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、
前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、
前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、
前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、
前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、
前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示方法。