JP2016192687A - 映像表示システム及び映像表示方法 - Google Patents

映像表示システム及び映像表示方法 Download PDF

Info

Publication number
JP2016192687A
JP2016192687A JP2015071763A JP2015071763A JP2016192687A JP 2016192687 A JP2016192687 A JP 2016192687A JP 2015071763 A JP2015071763 A JP 2015071763A JP 2015071763 A JP2015071763 A JP 2015071763A JP 2016192687 A JP2016192687 A JP 2016192687A
Authority
JP
Japan
Prior art keywords
video
unit
user
image
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015071763A
Other languages
English (en)
Inventor
康夫 高橋
Yasuo Takahashi
康夫 高橋
吏 中野
Tsukasa Nakano
吏 中野
貴司 折目
Takashi Orime
貴司 折目
雄一郎 竹内
Yuichiro Takeuchi
雄一郎 竹内
暦本 純一
Junichi Rekimoto
純一 暦本
宮島 靖
Yasushi Miyajima
靖 宮島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Daiwa House Industry Co Ltd
Original Assignee
Sony Corp
Daiwa House Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Daiwa House Industry Co Ltd filed Critical Sony Corp
Priority to JP2015071763A priority Critical patent/JP2016192687A/ja
Priority to PCT/JP2016/060532 priority patent/WO2016159165A1/ja
Publication of JP2016192687A publication Critical patent/JP2016192687A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

【課題】カメラによって撮像したユーザの映像中に欠損部分があったとしても、当該欠損部分が表示映像に及ぼす影響を緩和させる。
【解決手段】第一のユーザが使用する第一ユニットと、第二のユーザが使用する第二ユニットと、を有する映像表示システムにおいて、第一ユニットが備えるカメラが第一のユーザの映像を撮像し、第二ユニットの表示画面に映像を表示する。第一ユニット及び第二ユニットのうちのいずれか一方では、第一のユーザの身体中、カメラの撮像範囲外にあって撮像されなかった欠損部分を特定し、カメラの撮像映像と他の映像とを合成して合成映像を生成する。他の映像は、上記欠損部分の仮想映像、及び、合成映像において第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成されている。そして、合成映像は、表示画面中、身体に対する上記欠損部分の相対位置に応じた領域に他の映像が表示されるように構成されている。
【選択図】図9

Description

本発明は、映像表示システム及び映像表示方法に係り、一方のユーザ側に設けられた表示画面に他方のユーザの映像を表示するために用いられる映像表示システム及び映像表示方法に関する。
互いに離れた空間に居るユーザ同士が通信技術を利用してお互いの映像を見ながら対話すること、及び、それを実現するための映像表示システムは、既に知られている。同システムでは、一方のユーザの映像を撮影したときの映像データが送信され、他方のユーザ側で当該映像データを受信して展開する。これにより、一方のユーザの映像が他方のユーザ側の表示画面に表示されるようになる。
また、近年では、一方のユーザから受信した映像データが示す映像を再構築し、再構築後の映像を表示する技術が開発されている。例えば、特許文献1には、元の映像から主要被写体の映像と背景の映像とをそれぞれ抽出し、各抽出映像を編集した後に合成することで新たな映像を取得することが開示されている。ここで、抽出映像の編集とは、欠損部分の補完、具体的には背景の映像中、被写体の映像と重なっていた部分を補完して完全な映像とすることである。
また、再構築に関する他の例としては、特許文献2が挙げられる。特許文献2には、連続撮像した映像の中から所定の部分映像(例えば、被写体である人物が正常に映っている映像)を切り出し、切り出した部分映像に対して補正等を施すことが開示されている。これにより、被写体である人物が映っている映像のみを表示することが可能となり、換言すると、被写体である人物が常に表示画面に表示されるようになる。
特開2012−133593号公報 特開2012−27339号公報
ところで、上述の映像表示システムにより実現される対話において、その臨場感を向上させる方法としては、対話相手の映像(具体的には全身映像)を等身大で表示することが考えられる。一方、カメラのような撮像装置によって対話相手の映像を撮像する場合、当該対話相手が撮像装置に対して比較的近い位置に立っていると、いわゆる見切れ(フレームアウト)が生じてしまい、身体の一部分が撮影されなくなってしまう。かかる状況で撮像された対話相手の映像を等身大で表示しようとすると、対話相手の身体中、見切れによって欠損している部分が表示画面に現れてしまう。この結果、対話の臨場感が損なわれてしまうことになる。
一方、上述した映像の再構築(すなわち、特許文献1及び2に記載の技術)については、撮像装置の撮像範囲内でのみ有効であり、当該撮像範囲から外れることに起因して生じる映像の部分的欠損を補う場合には利用し難いものである。また、複数の撮像装置を用いて各撮像装置の撮像範囲外にある映像を他の撮像装置によって賄えば、映像の部分的欠損を補うことは可能である。ただし、撮像装置を複数使用する分、システム構築コストが嵩んでしまう。
そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、ユーザの映像を撮像する際に当該ユーザの身体の一部分が撮像装置の撮像範囲外にあったとしても臨場感のある対話を実現することが可能な映像表示システム及び映像表示方法を提供することである。
前記課題は、本発明の映像表示システムによれば、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。
上記の構成では、第一のユーザの身体の一部分が撮像範囲外にある状態で撮像部が第一のユーザの映像を撮像した際には、その一部分を特定し、撮像部が撮像した映像と他の映像とを合成して合成映像を生成する。ここで、他の映像は、撮像されなかった一部分の仮想映像、及び、第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成されている。そして、合成映像が表示画面に表示されると、当該表示画面中、身体に対する欠損部分(撮像範囲外にある部分)の相対位置に応じた領域に上記他の映像が表示されるようになる。このように本発明の映像表示装置によれば、撮像されなかった欠損部分の映像が仮想映像によって補完されるようになるため、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能となる。
また、上記の映像表示システムにおいて、前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定すると、好適である。
上記の構成によれば、骨格情報に基づいて欠損部分を特定するため、欠損部分をより的確に特定することが可能となる。
また、上記の映像表示システムにおいて、移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成すると、より好適である。
上記の構成によれば、移動動作によって第一のユーザの脚部が撮像部の撮像範囲外に至るようになった後、欠損した脚部の映像が、移動動作中の脚部の仮想映像(すなわち、移動動作中の脚部の動きを再現した映像)によって補完される。これにより、移動動作中に見切れが生じた場合にも適切に対応することが可能となる。
また、上記の映像表示システムにおいて、前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すと、更に好適である。
上記の構成において、画面形成用機器は、表示画面を形成していない間、第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことになっている。これにより、対話が行われていない期間中、画面形成用機器が目立ち難くなる結果、その存在が気付かれ難くなる。一方、表示画面が形成されて第一のユーザの映像が表示されるようになると、第二のユーザは、あたかも第一のユーザとガラス越しに話をしている視覚的効果を得るようになる。この結果、本発明の映像表示システムによって実現される対話の臨場感が一層向上することになる。
また、上記の映像表示システムにおいて、前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整すると、尚好適である。
上記の構成では、第一のユーザの映像が等身大で表示されるようになる。これにより、本発明の映像表示システムによって実現される対話の臨場感が益々向上することになる。
また、上記の映像表示システムにおいて、前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、好適である。
特に、前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成すると、一段と好適である。
上記の構成では、第一のユーザが表示画面の形成面に手を置いたとき、当該手が撮像部の撮像範囲外にあったとしても、当該手の映像を補完して表示することが可能である。これにより、第二のユーザは、表示画面に表示された第一のユーザの手と自身の手とを合わせる動作(手合せ動作)を行うことが可能となる。この結果、本発明の映像表示システムによる対話の演出的効果が高められる。
また、前述の課題は、第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することにより解決される。
上記の方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、当該欠損部分によって対話の臨場感が損なわれてしまうのを抑制することが可能である。
本発明の映像表示システム及び映像表示方法によれば、第一のユーザの身体中、撮像部の撮像範囲外にあって撮像されなかった欠損部分の映像が仮想映像によって補完されるようになる。これにより、一台の撮像部(例えば、カメラ)によって第一のユーザの映像を撮像する場合に、当該第一のユーザの身体の一部分が撮像部の撮像範囲外にあったとしても、その欠損部分によって対話の臨場感が損なわれるのを抑制することが可能になる。
本発明の一実施形態に係る映像表示システムの構成を示した図である。 ユーザが居る部屋内におけるシステム構成機器の配置を示した図である。 図3の(A)及び(B)は、本発明の画面形成用機器の一例を示した図である。 図4の(A)及び(B)は、撮像部とユーザとの距離に応じて表示映像が変化する様子を示した図である。 欠損部分を補完した合成映像についての説明図である。 各ユーザが保有するホームサーバの構成を機能面から示した図である。 骨格情報を取得する手順についての説明図である。 欠損部分の特定、及び、補完映像の生成に関する説明図である。 映像表示処理の流れを示した図である。 図10の(A)及び(B)は、欠損部分の映像を補完する処理の流れを示した図である。 ユーザ同士が手合せ動作を行っている様子を示した図である。 図12の(A)、(B)及び(C)は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図である。 図13の(A)及び(B)は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。 第一変形例に係る映像表示処理の流れを示した図である。 第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。 第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。 フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。 第一変形例に係る映像表示処理の流れを示した図である。
以下、本発明の一実施形態(以下、本実施形態)について、図面を参照しながら説明する。本実施形態に係る映像表示システム(以下、本システムS)は、互いに離れた部屋に居るユーザ同士が互いの姿(映像)を見ながら対話するために用いられる。より具体的に説明すると、本システムSがもたらす視覚効果により、各ユーザは、あたかも対話相手と会って話をしているような感覚を有するようになる。
なお、本実施形態において、本システムSは、各ユーザが各自の自宅に居るときに利用されることになっている。つまり、本システムSは、各ユーザが自宅に居ながらにして対話相手と対話するために利用される。ただし、これに限定されるものではなく、本システムSは、ユーザが自宅以外の場所(例えば、集会所や商業施設等)に居るときに用いられてもよい。また、同じ建物内で互いに離れている部屋にいるユーザ同士が対話するために本システムSを用いることとしてもよい。
以降、本システムSについて分かり易くし説明するために、二人のユーザが本システムSを利用して対話するケースを例に挙げて説明することとし、一方のユーザをAさん、他方のユーザをBさんとする。また、以下では、Bさん側の視点、すなわち、Aさんの映像を見る立場から本システムSの構成等を説明することとする。つまり、Aさんが「第一のユーザ」に相当し、Bさんが「第二のユーザ」に相当する。ただし、「第一のユーザ」及び「第二のユーザ」は、映像を見る者及び見られる者の関係に応じて切り替わる相対的な概念である。したがって、例えば、Aさん側の視点であれば、Bさんが「第一のユーザ」に相当し、Aさんが「第二のユーザ」に相当することとなる。
<<本システムの基本構成>>
先ず、本システムSの基本構成について説明する。本システムSは、二人のユーザ(すなわち、Aさん及びBさん)がお互いの映像を見ながら対話をするために用いられ、より具体的には、各ユーザに対して対話相手の等身大の映像を表示し、対話相手の音声を再生するものである。このような視聴覚的効果を得るために、各ユーザは、通信ユニット100を保有している。つまり、本システムSは、各ユーザが保有する通信ユニット100によって構成されている。ここで、Aさんが保有する通信ユニット100は、「第一ユニット」に相当し、Bさんが保有する通信ユニット100は、「第二ユニット」に相当する。
次に、図1を参照しながら、通信ユニット100の構成について説明する。図1は、本システムSの構成、より具体的には各通信ユニット100の構成を示した図である。
各通信ユニット100は、ホームサーバ1、撮影部としてのカメラ2、集音部としてのマイク3、赤外線センサ4、画面形成用機器としての画面端末5、及び、スピーカ6を主要構成機器として有する。これらの機器のうち、カメラ2、マイク3、赤外線センサ4、画面端末5及びスピーカ6は、各ユーザの自宅における所定の部屋(例えば、対話相手と対話する際に居る部屋)内に配置されている。
ホームサーバ1は、所謂ホームゲートウェイを構成するサーバコンピュータからなり、CPU、ROMやRAM等のメモリ、通信用インタフェース及びハードディスクドライブを有する。また、ホームサーバ1には、AさんとBさんとが本システムSを通じて行う対話(対面対話)に必要なデータ処理を実行するためのプログラム(以下、対話用プログラム)がインストールされている。
また、ホームサーバ1は、インターネット等の外部通信ネットワークGNを介して通信機器と通信可能な状態で接続されている。つまり、Aさんが保有する通信ユニット100に属するホームサーバ1は、外部通信ネットワークGNを介して、Bさんが保有する通信ユニット100に属するホームサーバ1と通信し、両サーバ間で各種データの送受信を行う。なお、ホームサーバ1が送受信するデータは、AさんとBさんとが本システムSを通じて行う対話(対面対話)に必要なデータであり、例えば、各ユーザの映像を示す映像データや音声を示す音声データである。
カメラ2は、公知のネットワークカメラであり、撮像範囲内にある被写体の映像を撮像し、その映像信号をホームサーバ1(厳密には、カメラ2が所属する通信ユニット100と同一のユニットに属するホームサーバ1)に対して出力する。カメラ2の設置台数については、特に制限されるものではないが、本実施形態ではコスト面を考慮し、各通信ユニット100においてカメラ2を1台のみ備えることとした。なお、本実施形態において、カメラ2が有するレンズは、画面端末5が備える表示画面の形成面に面している。ここで、形成面を構成する画面端末5のパネル(厳密には、タッチパネル5a)は、透明なガラスによって構成されている。したがって、カメラ2は、図2に示すように、パネル越しで当該パネルの前に位置する被写体の映像を撮像することになる。図2は、通信ユニット100の各構成機器について、ユーザが居る部屋内での配置位置を示した図である。
マイク3は、マイク3が設置された部屋内の音声を集音し、その音声信号をホームサーバ1(厳密には、マイク3が所属する通信ユニット100と同一のユニットに属するホームサーバ1)に対して出力する。なお、本実施形態においてマイク3は、図2に示すように画面端末5の直上位置に設置されている。
赤外線センサ4は、赤外線方式にて計測対象物の深度を計測するためのセンサである。具体的に説明すると、赤外線センサ4は、計測対象物に向けて発光部4aから赤外線を照射し、その反射光を受光部4bにて受光することにより深度を計測する。ここで、深度とは、受光部4bから計測対象物までの距離(すなわち、奥行き)のことである。なお、本実施形態において、赤外線センサ4の発光部4a及び受光部4bは、画面端末5が備える表示画面の形成面に面している。また、前述したように、形成面を構成する画面端末5のパネルは、透明なガラスによって構成されている。これにより、赤外線センサ4は、図2に示すように、パネル越しで当該パネルの前に位置する計測対象物の深度を計測する。
スピーカ6は、ホームサーバ1が音声データを展開することで再生される音声(再生音)を発するものであり、公知のスピーカによって構成されている。なお、本実施形態において、スピーカ6は、図2に示すように、画面端末5の横幅方向において当該画面端末5を挟む位置に複数(図2では4個)設置されている。
画面端末5は、ホームサーバ1が映像データを展開することで再生される映像の表示画面を形成するものである。具体的に説明すると、画面端末5は、透明なガラスによって構成されたパネルを有し、当該パネルの前面に表示画面を構成する。つまり、パネルの前面は、表示画面の形成面に相当する。なお、本実施形態において、上記のパネルは、タッチパネル5aとなっており、ユーザが行う操作(タッチ操作)を受け付ける。
さらに、上記のパネルは、人の全身映像を表示するのに十分なサイズを有している。そして、本システムSによる対面対話では、上記のパネルの前面に形成された表示画面に、対話相手の全身映像が等身大のサイズで表示されることになっている。これにより、表示画面を見ているBさんは、あたかもAさんと会っている感覚、特に、ガラス越しで対面している感覚を感じるようになる。
さらにまた、本実施形態に係る画面端末5は、通常時には部屋内に配置された姿見として機能し、対面対話時にのみ表示画面を形成するものとなっている。以下、図3の(A)及び(B)を参照しながら画面端末5の構成について詳しく説明する。図3の(A)及び(B)は、画面端末5の構成例を示した図であり、(A)が通常時(非対話時)の状態を、(B)が対面対話時の状態をそれぞれ示している。
画面端末5が有するタッチパネル5aは、部屋内に配置された姿見の一部分、具体的には鏡面部分を構成する。そして、上記のタッチパネル5aは、図3の(A)に示すように、対話が行われていない期間、すなわち通常時には表示画面を形成せずに鏡面部分としての外観を呈している。一方、対面対話が開始されると、上記のタッチパネル5aは、その前面に表示画面を形成する。これにより、タッチパネル5aの前面には、図3の(B)に示すように対話相手の映像が表示されるようになる。
ちなみに、表示画面のオンオフの切り替えは、ホームサーバ1が赤外線センサ4の計測結果に応じて行うことになっている。より詳しく説明すると、ユーザが画面端末5の正面位置に立っている間、ホームサーバ1は、赤外線センサ4が計測した深度に基づいてユーザの位置、厳密にはタッチパネル5aの前面からの距離を特定する。
そして、ユーザとタッチパネル5aとの間の距離が所定の距離よりも小さくなると、ホームサーバ1は、画面端末5を制御してタッチパネル5aの前面に表示画面を形成させる。この結果、それまで姿見として機能していたタッチパネル5aが映像表示用のスクリーンとして機能するようになる。反対に、ユーザとタッチパネル5aとの間の距離が所定の距離以上となると、ホームサーバ1が画面端末5を制御し、それまで形成されていた表示画面を消すようになる。これにより、タッチパネル5aは、再び姿見として機能するようになる。
以上のように、本システムSでは、映像表示用のスクリーンとなる画面端末5が通常時には姿見として兼用されることになっている。これにより、通常時(非対話時)には表示画面の存在が気付かれ難くなる。その一方で、対面対話時には、表示画面が形成されて対話相手の映像が表示される。これにより、表示画面を見ているユーザは、あたかも対話相手とガラス越しに話をしているような視覚的効果を感じる。この結果、より臨場感のある対話(対面対話)が実現されるようになる。
なお、映像表示スクリーンと姿見とを兼用する構成については、例えば国際公開第2009/122716号に記載された構成のように公知の構成が利用可能である。また、画面端末5については、姿見として兼用される構成に限定されるものではない。画面端末5については、対話相手の映像(全身映像)を表示するのに十分なサイズを有しているものであればよく、例えば、部屋に設置された扉(ガラス戸)や窓(ガラス窓)として兼用されるものであってもよい。なお、画面端末5については、扉、窓若しくは姿見として兼用されるものに限定されず、起動中には表示画面を常時形成する通常の機器であってもよい。
<<欠損部分の発生に対する本システムSでの対処方法>>
本システムSによる対面対話では、Aさん側のカメラ2がAさんの映像を撮像し、Aさん側のマイク3がAさんの音声を取得する。そして、Aさん側のホームサーバ1が映像データや音声データをBさん側のホームサーバ1に向けて送信する。Bさん側のホームサーバ1は、ネットワーク経由で上記の映像データ及び音声データを受信すると、これらを展開する。これにより、Bさん側の画面端末5が形成する表示画面にはAさんの映像が表示されるようになり、Bさん側のスピーカ6がAさんの音声(厳密には、Aさんが居る部屋で集音された音声の再生音)を発するようになる。
ところで、Aさん側のカメラ2が撮像したAさんの映像をBさん側の表示画面にて表示する際、その表示映像は、カメラ2とAさんとの距離に応じて異なってくる。以下、図4の(A)及び(B)を参照しながら説明する。図4は、カメラ2とユーザとの距離に応じて表示映像が変化する様子を示した図であり、同図の(A)は、カメラ2とAさんとの位置関係を示しており、(B)は、Bさん側の表示画面に表示されるAさんの映像を示している。なお、図4の(A)中、記号a、b、cにて示される位置にAさんが立っているとき、Bさん側の表示画面には図4の(B)中、記号a、b、cにて示される映像のうち、同じ記号の映像が表示されることになる。
Aさんがカメラ2に近付き、Aさんとカメラ2との距離が所定の距離より小さくなると(具体的にはAさんが図4の(A)中、記号cの位置よりもカメラ2に近付いたとき)、図4の(A)及び(B)に示すように、Aさんの身体の一部分がカメラ2の撮像範囲から外れて見切れるようになる。そして、Aさんがカメラ2に近付くほど、図4の(A)及び(B)に示すようにAさんの身体において撮像範囲外に位置する部分、すなわち、欠損部分が広がっていく。なお、本実施形態では、Aさんがカメラ2に近付くと、上下方向において下方から欠損部分が広がっていく。その一方で、Aさんがカメラ2に近付いたとしても、Aさんの頭部及び肩部は撮像範囲内に常に入っており、また、Aさんの身体が横幅方向に見切れることもない。
そして、撮像時にAさんの身体の一部分が撮像されないと、Bさん側の表示画面においても当該欠損部分の映像を欠いた状態でAさんの映像が表示されるようになる。このような事態は、Aさんの映像を見ているBさんに違和感を与え、互いの映像を見ながら行う対話(対面対話)の臨場感を著しく損なうことになってしまう。
これに対して、本システムSでは、欠損部分が生じた場合に当該欠損部分を補完する映像(補完映像)を用い、実際に撮像した映像と補完映像とを合成した映像(合成映像)を表示することとしている。図5を参照しながら説明すると、本システムSでは、先ず、実際に撮像した映像を基に欠損部分を特定する。欠損部分を特定した後には、欠損部分と同じ部分を現した仮想映像を取得する。次に、図5に示すように、実際に撮像した映像、及び欠損部分の仮想映像のそれぞれに対してサイズ変換を施す。このサイズ変換は、その後に表示される合成映像としてのAさんの全身映像を実際のAさんの身長と一致するサイズ(すなわち、等身大サイズ)にて表示するための映像処理である。
そして、サイズ変換後の映像同士を合成することにより合成映像が生成される。このような手順によって生成された合成映像がBさん側の表示画面で表示されると、欠損部分が補完映像によって補完されているため、Aさんの全身映像が表示映像として表示されるようになる。
以上に説明した欠損部分の補完により、本システムSでは、欠損部分の発生によって対面対話の臨場感が損なわれてしまうのを、効果的に防止することが可能となる。かかる効果は、本実施形態のように各通信ユニット100においてカメラ2が1台のみ備えられている構成において特に有効である。より詳しく説明すると、カメラ2の設置台数が1台のみである場合、当該カメラ2の撮像範囲外にある部分(すなわち、欠損部分)の撮像を他のカメラによって補うことができない。その一方で、上述したように仮想映像を用いて欠損部分を補完すれば、1台のカメラ2であっても対応可能である。この結果、臨場感のある対面対話を実現する映像表示システムとして、より安価なシステムを提供することが可能である。
以降の説明では、本システムSに関して、欠損部分の補完を含む映像表示処理に関する構成、及び、映像表示処理の流れについて詳述することとする。
<<ホームサーバの機能について>>
次に、ホームサーバ1の機能、特に、映像表示処理に関する機能について説明する。なお、Aさん側のホームサーバ1及びBさん側のホームサーバ1の双方は、同様の機能を有しており、対面対話の実施にあたり双方向通信して同様のデータ処理を実行することになっている。このため、以下では、一方のホームサーバ1(例えば、Aさん側のホームサーバ1)の機能のみを説明することとする。
ホームサーバ1は、同装置のCPUが対話用プログラムを実行することでホームサーバ1としての機能を発揮し、具体的には、対面対話に関する一連のデータ処理を実行する。ここで、ホームサーバ1の構成をその機能面から説明すると、ホームサーバ1には、図6に示すように、映像取得部11、人物映像抽出部12、映像記憶部13、骨格情報取得部14、骨格情報記憶部15、特定部16、補完映像生成部17、合成映像生成部18、映像データ送信部19、映像データ受信部20、映像表示部21が備えられている。図6は、ホームサーバ1の構成を機能面から示した図である。
上記のデータ処理部は、それぞれ、ホームサーバ1のハードウェア機器(具体的には、CPU、メモリ、通信用インタフェース及びハードディスクドライブ等)がソフトウェアとしての対話用プログラムと協働することによって実現される。以下、各データ処理部について個別に説明する。
映像取得部11は、映像信号をカメラ2から取得する。ここで、映像取得部11が取得する映像信号は、カメラ2が実際に撮像した映像(以下、実映像)を示すものである。したがって、カメラ2の撮像範囲内にユーザが居る場合、映像取得部11は、当該ユーザの映像を含む実映像の映像信号を取得することになる。
人物映像抽出部12は、映像取得部11が取得した映像信号が示す実映像のうち、人物映像を抽出する。ここで、人物映像とは、実映像中、人物と認識される部分の映像のことである。本実施形態では、実映像をそのまま利用せず、人物映像と背景映像とを分離することとしている。これは、人物映像と背景映像とを分離することで双方の映像を個別に利用(例えば編集加工等)することが可能となり、人物映像と背景映像とを自由に組み合わせることにより最終的な表示映像(合成映像)のバリエーションも増えることになる。なお、実映像の中から人物映像を抽出する方法については特に限定されるものではないが、一例としては、実映像の深度データに基づいて人物映像を特定する方法が挙げられる。実映像の深度データとは、実映像の各フレーム画像を画素単位で区画し、画素別に赤外線センサ4の計測結果、すなわち深度を規定したものである。そして、実映像の深度データによれば、後述する図7に示すように、人物映像に属する画素(図7中、白抜きの画素)と背景映像に属する画素(図7中、黒抜きの画素)とでは明らかに深度値が異なる。このような性質を利用して、実映像の中から人物映像を抽出することが可能である。
映像記憶部13は、各種映像を記憶する。映像記憶部13が記憶する映像としては、図6に示すように、全身映像、テンプレート映像、背景映像である。全身映像は、人物映像抽出部12が抽出した人物映像が全身映像に該当するときの当該人物映像である。つまり、人物映像抽出部12が抽出した人物映像が全身映像に該当したとき、映像記憶部13は、当該人物映像を全身映像として記憶する。背景映像は、映像取得部11が取得した映像信号が示す実映像中に人物映像が含まれていなかったときの当該実映像である。つまり、映像取得部11が取得した映像信号が示す実映像中に人物映像が含まれていなかったとき、映像記憶部13は、当該実映像を背景映像として記憶する。テンプレート映像は、欠損部分の補完に利用される映像として予め記憶されている映像であり、例えば、人の身体各部(手、足、腰等)の映像として標準的な映像である。このテンプレート映像は、全身映像が無い場合(映像記憶部13に記憶されていない場合)に利用される。
骨格情報取得部14は、人物映像抽出部12が実映像から抽出した人物映像から、当該人物の骨格情報を取得する。ここで、骨格情報とは、人物の身体中、頭部と頭部以外の部分(具体的には、肩、肘、手首、上半身中心、腰、膝、足首)との位置関係を示すものである。なお、本実施形態では、骨格情報として、図7に図示した人物の骨格に関する簡易的なモデル(骨格モデル)を取得する。図7は、骨格情報としての骨格モデルを取得する手順についての説明図である。
ちなみに、骨格モデルは、上述した実映像の深度データに基づいて取得される。深度データに基づいて骨格モデルを取得する方法については、公知の方法が利用可能であり、例えば、特開2014−155693号公報や特開2013−116311号公報に記載された発明において採用されている方法と同様の方法を利用してもよい。
骨格情報記憶部15は、骨格モデルを記憶する。ここで、骨格情報記憶部15が記憶する骨格モデルとしては、骨格情報取得部14によって取得された骨格モデル、標準的な体格を有する人の骨格モデルとして事前に取得されたもの(以下、サンプルモデル)が挙げられる。また、本実施形態において、骨格情報記憶部15が記憶する骨格モデルには、全身像の骨格モデル(以下、全身モデル)及び移動動作中の骨格モデル(以下、移動モデル)が含まれる。ただし、これに限定されるものではなく、所定の動作を行っているときの骨格モデルや所定の姿勢にあるときの骨格モデルが含まれていてもよい。
特定部16は、実映像中の人物映像において欠損部分(すなわち、撮影時にカメラ2の撮像範囲外に位置していた部分)があるか否かを判定し、さらに、欠損部分があると判定したときには当該欠損部分を特定する。ここで、欠損部分の特定は、骨格情報取得部14が実映像中の人物映像から取得した骨格モデル(以下、今回の骨格モデル)と、骨格情報記憶部15に記憶された全身モデルとに基づいて行われる。図8を参照しながら具体的に説明すると、今回の骨格モデルと全身モデルとを対比することにより今回の骨格モデル中、欠損している部分、すなわち、欠損部分を特定する。図8は、欠損部分の特定、及び、補完映像の生成に関する説明図である。
また、本実施形態において、特定部16は、欠損部分を特定する際に当該欠損部分の状態を特定し、具体的には、欠損部分の状態が静止状態であるか動作状態であるかを特定する。ここで、動作状態とは、カメラ2を横切る方向に移動している状態、及び、カメラ2に対して接近又は離間している状態を意味している。なお、欠損部分の状態の特定については、カメラ2が撮影するユーザの身体中、欠損部分以外の実映像及び当該実映像の深度データに基づいて行われる。
補完映像生成部17は、特定部16により特定された欠損部分を補完する仮想映像(以下、補完映像)を生成する。補完映像は、図8に示すように、特定部16により特定された欠損部分(厳密には、今回の骨格モデル中、欠損している部分)に基づき、映像記憶部13に記憶された全身映像やテンプレート映像を加工することで生成される。具体的に説明すると、例えば、全身映像から補完映像を生成する場合には、映像記憶部13から読み出した全身映像中、特定部16により特定された欠損部分(厳密には、今回の骨格モデル中、欠損している部分)に相当する部分の映像を切り出し、さらに、切り出した当該映像を上記欠損部分の位置や配向に合わせて編集する。また、テンプレート映像から補完映像を生成する場合には、欠損部分に対応するテンプレート映像を映像記憶部13から読み出し、読み出したテンプレート映像を上記欠損部分の位置や配向に合わせて編集する。
なお、補完映像は、特定部16が特定した欠損部分に基づいて生成される。一方、特定部16による欠損部分の特定は、全身モデルと今回の骨格モデルとを用いて行われる。ここで、全身モデルは、欠損部分に相当する部分が撮像範囲内にあるとき、すなわち、全身が撮像範囲内に収まっているときにカメラ2が撮像した映像から取得される。ゆえに、補完映像は、欠損部分が撮像範囲内にあるときにカメラ2が撮像した映像に基づいて生成された映像(仮想映像)であると言える。
また、特定部16により特定された欠損部分の状態が動作状態であった場合、補完映像生成部17は、当該動作状態を反映して欠損部分の補完映像を生成する。具体的に説明すると、カメラ2を横切る方向に移動する移動動作(以下、横移動動作)を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ2が撮像したとき、補完映像生成部17は、横移動動作中の脚部の補完映像を生成する。同様に、カメラ2に対して接近又は離間する移動動作(以下、奥行移動動作)を行っているユーザの映像を、当該ユーザの脚部が撮像範囲外にある状態でカメラ2が撮像したとき、補完映像生成部17は、奥行移動動作中の脚部の補完映像を生成する。
合成映像生成部18は、合成映像を生成する。合成映像とは、人物映像と背景映像とを合成した映像である。つまり、合成映像生成部18は、分離されていた人物映像と背景映像とを組み合わせ、背景付きの人物映像を合成映像として生成する。また、合成映像生成部18は、合成映像を生成するに際し、対話相手側の表示画面に表示されるユーザの身長と当該ユーザの実際の身長とが一致するように、人物映像の表示サイズを調整する。具体的に説明すると、骨格情報取得部14が実映像中の人物映像から取得した骨格モデル(今回の骨格モデル)と、骨格情報記憶部15に記憶された全身モデルと、当該全身モデルの素となった実映像の深度データと、を用いて映像表示サイズの調整を行う。より詳しく説明すると、上記の全身モデル及びその素となった実映像の深度データからユーザの身長を割り出す一方で、今回の骨格モデルと全身モデルとの比率を算出する。その後、割り出したユーザの身長と算出したモデル間の比率とに基づいて映像表示サイズを調整する。
さらに、実映像中の人物映像に欠損部分がある場合(すなわち、ユーザの身体の一部分が撮像範囲外にある状態でカメラ2が映像を撮像した場合)、合成映像生成部18は、実映像中の人物映像と、補完映像生成部17により生成された補完映像(他の映像に相当)とを合成し、欠損部分が補完された人物映像を生成する。これにより、欠損部分が補完された人物映像を含む合成映像が対話相手側の表示画面にて表示されると、当該表示画面中、人物映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域に補完映像が表示されるようになる。換言すると、合成映像生成部18は、上記の合成映像が表示された表示画面においてユーザの身体に対する欠損部分の相対位置に応じた領域に補完映像が表示されるように、合成映像を生成する。
映像データ送信部19は、合成映像生成部18が生成した合成映像を示す映像データを、対話相手側のホームサーバ1へ送信する。映像データ受信部20は、対話相手側のホームサーバ1が送信した映像データを、外部通信ネットワークGNを経由して受信する。映像表示部21は、映像データ受信部20が受信した映像データを展開し、当該映像データが示す映像(すなわち、対話相手側のホームサーバ1にて合成された合成映像)を画面端末5の表示画面に表示する。
<<映像表示処理の流れについて>>
次に、本システムSを用いた対面対話のうち、映像表示に係るデータ処理、すなわち映像表示処理について詳しく説明する。なお、以下に説明する映像表示処理では、本発明の映像表示方法が適用されている。すなわち、映像表示処理において実施される各ステップは、本発明の映像表示方法を構成する各工程に相当する。
映像表示処理では、先ず、一方のユーザ(例えば、Aさん)が使用する通信ユニット100において映像データの生成及び送信が行われ、その後、他方のユーザ(例えば、Bさん)が使用する通信ユニット100において映像データの受信及び展開が行われる。以下では、映像表示処理中、映像データを生成して送信するまでの流れを中心に説明することとする。
映像表示処理は、図9に図示の流れに従って進行する。図9は、映像表示処理の流れを示した図である。具体的に説明すると、先ず、カメラ2がその撮像範囲内にある映像を撮像し、その映像を示す映像信号をホームサーバ1(カメラ2が属する通信ユニット100と同じ通信ユニット100に属しているホームサーバ1)に対して出力する(S001)。映像信号を受信したホームサーバ1は、映像信号が示す映像(実映像)に対して顔認識処理を適用する(S002)。これにより、ホームサーバ1は、カメラ2の撮像範囲内にユーザがいるかを判定する(S003)。なお、顔認識処理とは、実映像中に人物映像が含まれているかを判定するための映像解析処理であり、当該処理の具体的内容については、公知であるため、説明を省略することとする。
カメラ2の撮像範囲内にユーザがいると判定した場合、ホームサーバ1は、赤外線センサ4の計測結果から上記実映像の深度データを取得する(S004)。また、ホームサーバ1は、上記実映像から人物映像を抽出し、かかる人物映像と前ステップS004で取得した深度データとに基づいて、カメラ2の撮像範囲内にいるユーザの骨格モデルを取得する(S005)。さらに、ホームサーバ1は、取得した深度データ及び骨格モデルに基づいて、上記ユーザの等身大サイズ(具体的には、身長等)を計算する(S006)。さらにまた、ホームサーバ1は、実映像から抽出した人物映像の映像表示サイズを、前ステップS006にて計算した等身大サイズと一致するように調整する(S007)。
そして、ホームサーバ1は、ステップS005にて取得した骨格モデルに基づいて、上記の人物映像が全身映像であるかどうかを判定する(S008)。全身映像であると判定した場合、ホームサーバ1は、上記の人物映像をユーザの全身映像として登録(記憶)する(S009)。これと同時に、ホームサーバ1は、ステップS005にて取得した骨格モデルを全身モデルとして登録(記憶)すると共に、ステップS006にて計算した等身大サイズを登録(記憶)する(S009)。その後、ホームサーバ1は、全身映像である人物映像と背景映像とを合成して合成映像を生成し(S010)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S011)。
一方、ステップS008において上記の人物映像が全身映像ではない場合、すなわち、当該人物映像中に欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、欠損部分は、ユーザがカメラ2に対して接近したときに生じ、通常は脚部が欠損部分に該当する。ただし、ユーザがカメラ2に対して著しく接近した場合には、脚部のみならず上半身の一部(例えば、手部)も欠損部分となり得る。そこで、ホームサーバ1は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する(S012)。そして、手部が含まれていると判定したとき、ホームサーバ1は、手部及び脚部双方の映像を補完する(S013、S014)。反対に、手部が含まれていないと判定したとき、ホームサーバ1は、脚部の映像のみを補完する(S014)。
次に、手部及び脚部の映像を補完する手順について図10の(A)及び(B)を参照しながら説明する。図10は、欠損部分の映像を補完する処理の流れを示した図であり、同図の(A)は、手部の映像を補完する手順を示し、同図の(B)は、脚部の映像を補完する手順を示している。
先ず、手部が欠損しているときに当該手部の映像を補完する処理について説明する。本処理は、図10の(A)に示すように、ホームサーバ1が、そのハードディスクドライブに記憶された手のテンプレート映像を読み出すところから始まる(S021)。その後、ホームサーバ1は、手のテンプレート映像の表示サイズを、図9に図示したステップS006で計算した等身大サイズに応じて調整する(S022)。映像表示サイズの調整後、ホームサーバ1は、サイズ調整された手のテンプレート映像と、図9に図示したステップS007にてサイズ調整された人物映像と、を合成する(S023)。これにより、手部の映像が補完された人物映像が生成される。
以上のように手部の映像が補完されることで、ユーザがカメラ2に著しく接近したとしても、当該ユーザの手部(厳密には、補完された手部の映像)を対話相手側の表示画面に表示させることが可能となる。これにより、例えば、一方のユーザであるAさんがカメラ2に接近して画面端末5における表示画面の形成面(具体的には、タッチパネル5aの前面)に手部を置くと、当該手部がカメラ2の撮像範囲から外れるにも拘わらず、他方のユーザであるBさん側の表示画面にはAさんの手部の映像が表示されるようになる。この結果、Bさんは、図11に示すように表示画面に表示されたAさんの手部に自分の手を重ねる動作、すなわち、手合せ動作を行うことが可能となる。このように手部の映像を補完することで、ユーザ同士が手合せ動作を行うことも可能となり、本システムSによる視覚的演出効果が一層高まることとなる。なお、図11は、ユーザ同士が手合せ動作を行っている様子を示した図である。
次に、脚部が欠損しているときに当該脚部の映像を補完する処理について説明する。本処理は、図10の(B)に示すように、ユーザの位置に変化があるか、すなわちユーザの状態が移動動作を行っている状態にあるかをホームサーバ1が判定するところから始まる(S031)。かかる判定は、実映像、及び、図9に図示したステップS004で取得した実映像の深度データに基づいて行われる。そして、ユーザの状態が移動動作を行っている状態にあると判定したとき、ホームサーバ1は、そのハードディスクドライブに記憶された骨格モデルの中から移動モデル、すなわち歩行動作時の骨格モデルを読み出す(S032)。反対に、ユーザの状態が静止状態にあると判定したとき、ホームサーバ1は、移動モデル以外の骨格モデル、すなわち直立時の骨格モデルを読み出す(S033)。
その後、ホームサーバ1は、ハードディスクドライブ内に記憶された映像の中に、過去に取得したユーザの全身映像が有るかどうかを確認する(S034)。そして、ホームサーバ1は、全身映像がある場合には当該全身映像を読み出し(S035)、全身映像が無い場合には脚部のテンプレート映像を読み出す(S036)。
さらに、ホームサーバ10は、読み出した全身映像又はテンプレート映像を、ステップS032、S033で読み出した骨格モデルに合わせるように編集(変形)する(S037)。これにより、脚部の補完映像が生成されることになる。そして、ホームサーバ1は、脚部の補完映像の表示サイズを、図9に図示したステップS006で計算した等身大サイズに応じて調整する(S038)。その後、ホームサーバ1は、サイズ調整された脚部の補完映像と、図9に図示したステップS007にてサイズ調整された人物映像と、を合成する(S039)。これにより、脚部の映像が補完された人物映像が生成される。
以上のように脚部の映像が補完されることで、カメラ2とユーザとの距離を問わず、脚部を含むユーザの全身映像を対話相手側の表示画面に表示させることが可能となる。また、撮影中にユーザが移動したとしても、歩行時の骨格モデルを用いて脚部の映像を適切に補完することが可能である。例えば図12の(A)に示すようにユーザが撮影中にカメラ2に接近する動作を行ったときには、図12の(B)に図示した移動動作時(分かり易くは前進歩行時)の骨格モデルの変化パターンを用いて脚部の補完映像を生成する。このとき、ユーザが移動する際の移動速度に応じて骨格モデルの変化パターンの変化速度を調整し、速度調整後の変化パターンに合わせて脚部の補完映像を生成する。これにより、図12の(C)に示すように、ユーザの移動動作に追従するように脚部の映像を補完することが可能となる。なお、図12は、移動動作によって欠損部分が生じたときに当該欠損部分の映像を補完する手順についての説明図であり、同図の(A)は、ユーザがカメラ2に接近している様子を示し、同図の(B)は、歩行時の骨格モデルの変化パターンを示し、同図の(C)は、ユーザの移動動作に追従するように脚部の映像が補完された人物映像を示している。
<<本システムの第一変形例>>
上述した実施形態では、欠損部分の補完映像として当該欠損部分の仮想映像を用いることとした。ただし、欠損部分の補完映像としては、欠損部分とは異なる仮想映像を用いることも可能である。例えば、対話相手側の表示画面にて表示される表示映像(換言すると、合成映像)においてユーザの前方に位置する物の仮想映像、すなわち、前景映像を補完映像として用いてもよい。
補完映像として前景映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が前景映像の後方にあるので見えない(換言すると、欠損部分が前景映像によって隠されている)という視覚的効果を得ることになる。
なお、前景映像としては、図13の(A)に図示のキャラクターや動物又は人を模した前景映像FP1であってもよく、図13の(B)に図示の壁パネル、置物又は構造物を模した前景映像FP2であってもよい。図13の(A)及び(B)は、前景映像を利用して欠損部分を補完した際の表示映像を示した図である。
以下、本システムSの第一変形例として、前景映像にて欠損部分を補完するケースについて説明する。なお、以下では、第一変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。
前景映像にて欠損部分を補完する場合の手順については、図14に示すように、カメラ2が撮影した映像(実映像)を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、上記の実施形態、すなわち、欠損部分の仮想映像にて補完する場合の手順と同様である(S041〜S048)。図14は、第一変形例に係る映像表示処理の流れを示した図である。
また、人物映像が全身映像であると判定した場合、ホームサーバ1は、全身映像と背景映像とを合成して合成映像を生成し(S049)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S050)。
一方、人物映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像の補完を行う。ここで、前述したように、通常は脚部が欠損部分に該当するのであるが、ユーザがカメラ2に対して著しく接近した場合には、脚部のみならず手部も欠損部分となり得る。そこで、ホームサーバ1は、欠損部分を特定した際、手部が欠損部分に含まれていないかを判定する(S051)。欠損部分に手部が含まれていないとき、すなわち、欠損部分が脚部のみであるとき、ホームサーバ1は、図15に示す手順にて欠損部分を前景映像にて補完する(S053)。図15は、第一変形例において欠損部分を前景映像にて補完する処理の流れを示した図である。
具体的に説明すると、ホームサーバ1は、ハードディスクドライブに記憶された前景映像を読み出し(S061)、当該前景映像の表示サイズを、図14に図示したステップS046で計算した等身大サイズに応じて調整する(S062)。その後、ホームサーバ1は、サイズ調整された前景映像と、図14に図示したステップS047にてサイズ調整された人物映像と、を合成する(S063)。さらに、ホームサーバ1は、前景映像と人物映像とを合成した映像に、さらに背景映像を合成する(S049)。
以上までに説明した手順により、前景映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ1に向けて送信される(S050)。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域に前景映像が表示されるようになる。
第一変形例に係る映像表示処理の流れについて更に説明すると、図14に図示のステップS051において欠損部分に手部が含まれていると判定したとき、ホームサーバ1は、欠損した手部を当該手部の仮想映像にて補完する(S052)。このように第一変形例にでは、欠損部を前景映像にて補完する一方で、欠損部に手部が含まれている場合には当該手部の仮想映像にて補完することとしている。
より詳しく説明すると、第一変形例では、Aさん側の画面端末5を構成するタッチパネル5aの前面にAさんが手部(手のひら)を接触させる動作を行うことによって、Aさんの手部がAさん側のカメラ2の撮像範囲から外れると、欠損部分のうち、手部がその仮想映像によって補完され、それ以外の部分が前景映像にて補完されるようになっている。このように第一変形例では、手部を含むAさんの身体の一部がAさん側のカメラ2の撮像範囲外にあったとしても、図16に示すように、手部については前景映像ではなく手部の仮想映像(図中、記号VPにて示す映像)にて補完される形になる。図16は、第一変形例において手部が欠損した場合に当該欠損部分を補完した際の表示映像を示した図である。
そして、手部が当該手部の仮想映像にて補完されることにより、第一変形例においても、Bさんが表示画面に表示されたAさんの手部に自分の手を重ねる動作、すなわち、手合せ動作が実現可能となる。なお、第一変形例では、手部の映像が欠損しているケースのうち、Aさんが所定の動作を行っているケース、具体的には手部が画面端末5の前面(厳密には、タッチパネル5aの前面)に接触しているケースに限り、手部の仮想映像にて補完することになっている。これは、前述した手合せ動作を実現する上で、少なくとも手部が画面端末5の前面に触れている期間中は手部の仮想映像にて補完する必要があるためである。ただし、これに限定されるものではなく、欠損部分を前景映像にて補完するケースにおいて、手部の映像が欠損した際には、ユーザが行っている動作や姿勢に拘わらず手部の仮想映像にて補完してもよい。あるいは、欠損部分に手部が含まれていたとしても、当該手部を含めた欠損部分すべてを前景映像にて補完してもよい。
<<本システムの第二変形例>>
上述した第一変形例では、前景映像として、図13の(A)に図示のキャラクターや動物又は人を模した前景映像FP1、あるいは、図13の(B)に図示の壁パネル、置物又は構造物を模した前景映像FP2を用いることとした。ただし、前景映像については、上記の前景映像FP1、FP2以外にも考えられる。例えば、図17の(A)及び(B)に示すように実映像を囲う枠の映像(以下、フレーム映像)を前景映像として用いることとしてもよい。図17の(A)及び(B)は、フレーム映像を利用して欠損部分を補完した際の表示映像を示した図である。
上記のフレーム映像は、ガラス越しで対話相手と対面していると感じているユーザにとって、そのガラスの外枠(例えば、窓枠やドア枠)として認識されるようになる。したがって、補完映像としてフレーム映像を用いることにより、表示画面にて表示映像を見ているユーザは、欠損部分が上記の外枠の後方にあるので見えない(換言すると、欠損部分が上記の外枠によって隠されている)という視覚的効果を得ることになる。
なお、フレーム映像としては、図17の(A)に図示のフレーム映像RP1、すなわち、実際の窓枠やドア枠のように表示映像の四方を囲むフレーム映像であってもよい。あるいは、図17の(B)に図示のフレーム映像RP2、すなわち、欠損部分のみを隠すフレーム映像であってもよい。
以下、本システムSの第二変形例として、フレーム映像にて欠損部分を補完するケースについて説明する。なお、以下では、第二変形例に関する内容について、先に説明した映像表示処理とは異なる内容を中心に説明することとする。
フレーム映像にて欠損部分を補完する場合の手順については、図18に示すように、カメラ2が撮影した映像(実映像)を取得するステップからその実映像中の人物映像がユーザの全身映像であるか否かを判定するステップまでは、以上までに説明した実施形態における手順と同様である(S071〜S078)。図18は、第二変形例に係る映像表示処理の流れを示した図である。
また、人物映像が全身映像であると判定した場合、ホームサーバ1は、全身映像と背景映像とを合成して合成映像を生成し(S079)、生成した合成映像を示す映像データを対話相手側のホームサーバ1に向けて送信する(S080)。一方、実映像が全身映像ではない場合、すなわち欠損部分があると判定した場合には、ホームサーバ1が欠損部分を特定し、当該欠損部分の映像をフレーム映像にて補完する。具体的に説明すると、ホームサーバ1は、ハードディスクドライブに記憶されたフレーム映像を読み出し(S081)、当該フレーム映像の表示サイズを、ステップS076で計算した等身大サイズに応じて調整する(S082)。その後、ホームサーバ1は、サイズ調整されたフレーム映像と、ステップS077にてサイズ調整された人物映像と、を合成する(S083)。さらに、ホームサーバ1は、フレーム映像と人物映像とを合成した映像に、さらに背景映像を合成する(S079)。
以上までに説明した手順により、フレーム映像にて欠損部分が補完された映像を示す映像データが生成され、対話相手側のホームサーバ1に向けて送信される(S080)。そして、当該映像データを展開して対話相手側の表示画面に映像を表示させると、当該表示画面中、表示映像中の補完部分(すなわち、欠損部分があった部分)の相対位置に応じた領域にフレーム映像が表示されるようになる。
<<その他の実施形態>>
上記の実施形態では、本発明の映像表示システム及び映像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
また、上記の実施形態では、本システムSを通じて二人のユーザが対話をするケースを例に挙げて説明したが、これに限定されるものではなく、同時に対話することが可能な人数については三人以上であってもよい。
また、上記の実施形態では、欠損した映像の補完(すなわち、実映像と補完映像との合成)が、実映像の映像を撮像したカメラ2と同じ通信ユニット100に属するホームサーバ1によって行われることとした。分かり易く説明すると、Aさんの身体の一部の映像が欠損していた場合、当該映像の補完がAさん側のホームサーバ1によって実施されることとした。ただし、これに限定されるものではなく、上記映像の補完がBさん側のホームサーバ1によって実施されることとしてもよい。
また、上記の実施形態では、欠損部分の補完形態として、欠損部分の仮想映像にて補完する形態、前景映像にて補完する形態、フレーム映像にて補完する形態のいずれかを採用することとした。ただし、上記3つの形態すべてに対応可能であり、実際に採用する形態をユーザの要望に応じて自在に切り替えることが可能であることとしてもよい。
また、上記の実施形態では、補完映像の基となる映像(例えば、全身映像、テンプレート映像、前景映像及びフレーム映像)をホームサーバ1内、より具体的にはハードディスクドライブに記憶されていることとした。ただし、これに限定されるものではなく、ホームサーバ1とは異なる装置、例えば、外部通信ネットワークGNを通じてホームサーバ1と接続された外部サーバに記憶されていて、映像補完時に当該外部サーバから上記映像のデータをダウンロードしてもよい。
1 ホームサーバ
2 カメラ(撮像部)
3 マイク
4 赤外線センサ
4a 発光部
4b 受光部
5 画面端末
5a タッチパネル
6 スピーカ
11 映像取得部
12 人物映像抽出部
13 映像記憶部
14 骨格情報取得部
15 骨格情報記憶部
16 特定部
17 補完映像生成部
18 合成映像生成部
19 映像データ送信部
20 映像データ受信部
21 映像表示部
100 通信ユニット
FP1,FP2 前景映像
GN 外部通信ネットワーク
RP1、RP2 フレーム映像
S 本システム(映像表示システム)

Claims (8)

  1. 第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を有し、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示するために用いられる映像表示システムであって、
    前記第一ユニットは、撮像範囲内にある被写体の映像を撮像する撮像部を備え、
    前記第二ユニットは、前記表示画面に映像を表示する映像表示部を備え、
    前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットは、
    前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部が前記第一のユーザの映像を撮像した際に、前記一部分を特定する特定部と、
    前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像と、他の映像と、を合成して合成映像を生成する合成映像生成部と、を有し、
    前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部が撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
    前記合成映像生成部は、前記映像表示部が前記合成映像を表示した際に前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示システム。
  2. 前記いずれか一方のユニットは、前記第一のユーザの身体中、頭部と頭部以外の部分との位置関係を示す骨格情報を取得する骨格情報取得部を有し、
    前記特定部は、前記一部分が前記撮像範囲外にある状態で前記撮像部が撮像した映像、及び、前記骨格情報に基づいて前記一部分を特定することを特徴とする請求項1に記載の映像表示システム。
  3. 移動動作を行っている前記第一のユーザの映像を、該第一のユーザの脚部が前記撮像範囲外にある状態で前記撮像部が撮像したとき、前記合成映像生成部は、前記移動動作中の前記脚部の仮想映像を前記他の映像として用いて前記合成映像を生成することを特徴とする請求項1又は2に記載の映像表示システム。
  4. 前記第二ユニットは、前記表示画面を形成する画面形成用機器を有し、
    該画面形成用機器は、前記表示画面を形成していない間には、前記第二のユーザが居る部屋に設けられた扉、窓若しくは姿見としての外観を現すことを特徴とする請求項1乃至3のいずれか一項に記載の映像表示システム。
  5. 前記映像表示部は、前記第一のユーザの映像を表示する際に、前記表示画面に表示される前記第一のユーザの身長と前記第一のユーザの実際の身長とが一致するように、前記表示画面に表示する映像の表示サイズを調整することを特徴とする請求項1乃至4のいずれか一項に記載の映像表示システム。
  6. 前記撮像範囲外にある前記一部分が前記第一のユーザの身体中の所定部分であり、かつ、所定動作を行っている前記第一のユーザの映像を前記撮像部が撮像するとき、前記合成映像生成部は、前記所定部分の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項1乃至5のいずれか一項に記載の映像表示システム。
  7. 前記第一ユニット及び前記第二ユニットは、それぞれ、前記撮像部、前記表示画面及び前記映像表示部を備え、
    前記第一ユニットが備える前記撮像部のレンズは、前記表示画面を形成する画面形成用機器中、前記表示画面の形成面に面しており、
    前記第一のユーザが前記形成面に手部を接触させる動作を行っており、かつ、前記第一ユニットが備える前記撮像部の前記撮像範囲外に前記手部があるとき、前記合成映像生成部は、前記手部の仮想映像によって構成された前記他の映像を用いて前記合成映像を生成することを特徴とする請求項6に記載の映像表示システム。
  8. 第一のユーザが使用する第一ユニットと、前記第一のユーザとは異なる空間に居る第二のユーザが使用する第二ユニットと、を用いて、前記第一のユーザの映像を前記第二のユーザ側に設けられた表示画面に表示する映像表示方法であって、
    前記第一ユニットが備える撮像部により、撮像範囲内にある被写体の映像を撮像し、
    前記第二ユニットが備える映像表示部により、前記表示画面に映像を表示し、
    前記被写体である前記第一のユーザの身体の一部分が前記撮像範囲外にある状態で前記撮像部により前記第一のユーザの映像を撮像した際に、前記第一ユニット及び前記第二ユニットのうちのいずれか一方のユニットが備える特定部により、前記一部分を特定し、
    前記いずれか一方のユニットが備える合成映像生成部により、前記一部分が前記撮像範囲外にある状態で前記撮像部により撮像した映像と、他の映像と、を合成して合成映像を生成し、
    前記他の映像は、前記一部分が前記撮像範囲内にあるときに前記撮像部により撮像した映像に基づいて生成された前記一部分の仮想映像、及び、前記合成映像において前記第一のユーザの前方に位置する物の仮想映像のうち、少なくとも一つによって構成され、
    前記合成映像生成部により前記合成映像を生成する際には、前記映像表示部により前記合成映像が表示された前記表示画面中、前記身体に対する前記一部分の相対位置に応じた領域に前記他の映像が表示されるように前記合成映像を生成することを特徴とする映像表示方法。
JP2015071763A 2015-03-31 2015-03-31 映像表示システム及び映像表示方法 Pending JP2016192687A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015071763A JP2016192687A (ja) 2015-03-31 2015-03-31 映像表示システム及び映像表示方法
PCT/JP2016/060532 WO2016159165A1 (ja) 2015-03-31 2016-03-30 映像表示システム及び映像表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015071763A JP2016192687A (ja) 2015-03-31 2015-03-31 映像表示システム及び映像表示方法

Publications (1)

Publication Number Publication Date
JP2016192687A true JP2016192687A (ja) 2016-11-10

Family

ID=57005804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015071763A Pending JP2016192687A (ja) 2015-03-31 2015-03-31 映像表示システム及び映像表示方法

Country Status (2)

Country Link
JP (1) JP2016192687A (ja)
WO (1) WO2016159165A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018225518A1 (ja) * 2017-06-07 2018-12-13 ソニー株式会社 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム
US10965815B2 (en) 2017-01-06 2021-03-30 Sony Corporation Information processing apparatus and information processing method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559870B1 (ja) * 2018-11-30 2019-08-14 株式会社ドワンゴ 動画合成装置、動画合成方法及び動画合成プログラム
JP7287874B2 (ja) 2019-10-04 2023-06-06 エヌ・ティ・ティ・コミュニケーションズ株式会社 推定装置、推定方法、推定プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040083A (ja) * 2004-07-29 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> 鏡型情報提供装置、情報提供方法、およびプログラム
JP2011023886A (ja) * 2009-07-14 2011-02-03 Panasonic Corp テレビ会議装置及び映像表示処理方法
JP2013041338A (ja) * 2011-08-11 2013-02-28 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP5731462B2 (ja) * 2012-10-02 2015-06-10 日本電信電話株式会社 映像コミュニケーションシステム及び映像コミュニケーション方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10965815B2 (en) 2017-01-06 2021-03-30 Sony Corporation Information processing apparatus and information processing method
US11503162B2 (en) 2017-01-06 2022-11-15 Sony Corporation Information processing apparatus and information processing method
WO2018225518A1 (ja) * 2017-06-07 2018-12-13 ソニー株式会社 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム
US11068699B2 (en) 2017-06-07 2021-07-20 Sony Corporation Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication

Also Published As

Publication number Publication date
WO2016159165A1 (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
US10527846B2 (en) Image processing for head mounted display devices
US9424678B1 (en) Method for teleconferencing using 3-D avatar
US9030486B2 (en) System and method for low bandwidth image transmission
JP6496172B2 (ja) 映像表示システム及び映像表示方法
KR20190112712A (ko) 헤드 마운트 디스플레이(hmd)를 이용한 화상회의를 위한 개선된 방법 및 시스템
WO2016159165A1 (ja) 映像表示システム及び映像表示方法
US20170237941A1 (en) Realistic viewing and interaction with remote objects or persons during telepresence videoconferencing
JP5833526B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP2014187559A (ja) 仮想現実提示システム、仮想現実提示方法
WO2016159166A1 (ja) 映像表示システム及び映像表示方法
Reimat et al. Cwipc-sxr: Point cloud dynamic human dataset for social xr
WO2017141584A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2014182597A (ja) 仮想現実提示システム、仮想現実提示装置、仮想現実提示方法
JP5731462B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP6599183B2 (ja) 画像表示システム及び画像表示方法
CN109116987A (zh) 一种基于Kinect手势控制的全息展示***
KR20160136160A (ko) 가상현실 공연시스템 및 공연방법
JP5759439B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP5833525B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP7065708B2 (ja) 録画再生装置及びプログラム
WO2017043661A1 (ja) 画像表示システム及び画像表示方法
JP5898036B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP2001092990A (ja) 3次元仮想空間参加者表示方法、3次元仮想空間表示装置、および3次元仮想空間参加者表示プログラムを記録した記録媒体
JP6182464B2 (ja) 画像表示システム及び画像表示方法
JP2017126861A (ja) 映像表示システム及び映像表示方法