WO2018225518A1

WO2018225518A1 - 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム

Info

Publication number: WO2018225518A1
Application number: PCT/JP2018/019953
Authority: WO
Inventors: 青司木村
Original assignee: ソニー株式会社
Priority date: 2017-06-07
Filing date: 2018-05-24
Publication date: 2018-12-13
Also published as: US11068699B2; US20200151427A1

Abstract

本開示は、よりリアルなテレコミュニケーションを図ることができる画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関する。第１のユーザが写されている画像で、第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、仮想撮影位置から第１のユーザを撮影したように見え、高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、低忠実度画像における高忠実度表示領域に対して、高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを備える。本技術は、例えば、テレコミュニケーションシステムに適用できる。

Description

画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム

　本開示は、画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関し、特に、よりリアルなテレコミュニケーションを図ることができるようにした画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関する。

　従来、遠隔地に居るユーザどうしが対面しているかのように会話することでコミュニケーションを図るテレコミュニケーションシステムが利用されている。一般的に、テレコミュニケーションシステムでは、撮影装置および表示装置の配置位置が制限されているため、ユーザどうしの視線を一致させることができず、例えば、アイコンタクトが成立しないことがあった。

　そこで、特許文献１には、ディスプレイの外側および内側（半透過ディスプレイの場合には、その背後）に配置された複数台のカメラにより、主観的に正面から見た被写体の映像を生成する画像生成方法が開示されている。

　また、特許文献２には、顔の３Ｄモデリングを行い、視線が合うようにモデルの向きを回転させた状態で、顔のテクスチャをマッピングすることで、視線を一致させたような映像を生成するビデオ会議用の画像処理が開示されている。

特開２０１１－１６５０８１号公報特表２０１５－５１３８３３号公報

　しかしながら、上述した特許文献１および２で開示されている技術では、例えば、大型の表示装置を利用する場合に、その表示装置の周辺に配置された撮影装置で被写体を撮影した画像を用いて画像処理を行っても、不自然な画像となってしまうことが想定される。そのため、ユーザどうしの視線が一致するように、よりリアルなテレコミュニケーションを図ることは困難であった。

　本開示は、このような状況に鑑みてなされたものであり、よりリアルなテレコミュニケーションを図ることができるようにするものである。

　本開示の第１の側面の画像処理装置は、第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを備える。

　本開示の第１の側面の画像処理方法またはプログラムは、第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成するステップを含む。

　本開示の第１の側面においては、第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域が高忠実度表示領域として設定され、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像が生成され、前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像が生成され、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像が生成される。

　本開示の第２の側面のテレコミュニケーションシステムは、第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを少なくとも含む第１の画像処理装置を備える第１のユーザ側のテレコミュニケーション装置と、前記第１のユーザの三次元空間上での視点位置に基づいて、前記第１のユーザが写されている前記出力画像から、前記第１のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部を少なくとも含む第２の画像処理装置を備える第２のユーザ側のテレコミュニケーション装置とが、ネットワークを介して接続されて構成される。

　本開示の第２の側面においては、第１のユーザ側のテレコミュニケーション装置が備える第１の画像処理装置では、第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域が高忠実度表示領域として設定され、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像が生成され、前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像が生成され、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像が生成される。一方、第２のユーザ側のテレコミュニケーション装置が備える第２の画像処理装置では、前記第１のユーザの三次元空間上での視点位置に基づいて、前記第１のユーザが写されている前記出力画像から、前記第１のユーザを特定の大きさおよび位置で表示させる表示画像が生成される。

　本開示の第１および第２の側面によれば、よりリアルなテレコミュニケーションを図ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用したテレコミュニケーションシステムの一実施の形態の構成例を示す図である。画像処理部の第１の構成例を示すブロック図である。図２の被写体視点情報設定部の構成例を示すブロック図である。画像上における顔の各パーツの特徴点の一例を示す図である。３枚の撮影画像の対応点について説明する図である。図２の高忠実度表示領域設定部の構成例を示すブロック図である。図２の高忠実度表示領域を指定するマスク画像について説明する図である。図２の高忠実度画像生成部の構成例を示すブロック図である。仮想撮影位置の一例を示す図である。視点補間処理について説明する図である。図２の低忠実度画像生成部の構成例を示すブロック図である。上側に配置される撮影装置により被写体を撮影した人物画像について説明する図である。仮想撮影位置が被写体視点と同じ高さである場合における射影変換について説明する図である。仮想撮影位置が被写体視点よりも高い場合における射影変換について説明する図である。仮想撮影位置が被写体視点よりも低い場合における射影変換について説明する図である。図２の疑似視線一致画像生成部の構成例を示すブロック図である。図２の符号化部の構成例を示すブロック図である。図２の復号部の構成例を示すブロック図である。図２の疑似視線一致画像表示部の構成例を示すブロック図である。ユーザ自身が写された疑似視線一致画像を出力する処理を説明するフローチャートである。相手側のユーザが写された疑似視線一致画像を表示する処理を説明するフローチャートである。画像処理部の第２の構成例を示すブロック図である。画像処理部の第３の構成例を示すブロック図である。固定的に設定される被写体視点情報の一例を示す図である。図２３の高忠実度表示領域設定部の構成例を示すブロック図である。図２３の符号化部の構成例を示すブロック図である。図２３の復号部の構成例を示すブロック図である。図２３の疑似視線一致画像表示部の構成例を示すブロック図である。スケーリング成分を含んだ幾何補正パラメータについて説明する図である。画像処理部の第４の構成例を示すブロック図である。撮影手段制御部によるPTZ制御について説明する。画像処理部の第５の構成例を示すブロック図である。図３２の被写体視点情報設定部の構成例を示すブロック図である。図３２の高忠実度表示領域設定部の構成例を示すブロック図である。顔から眼鏡のリムが存在する部分を避けて設定される高忠実度表示領域について説明する図である。画像処理部の第６の構成例を示すブロック図である。図３６の疑似視線一致画像生成部の構成例を示すブロック図である。高忠実度判定部による判定処理について説明する図である。画像処理部の第７の構成例を示すブロック図である。図３９の低忠実度画像生成パラメータ生成部の構成例を示すブロック図である。図３９の符号化部の構成例を示すブロック図である。図３９の復号部の構成例を示すブロック図である。図３９の低忠実度画像生成部の構成例を示すブロック図である。画像処理部の第８の構成例を示すブロック図である。図４４の疑似視線一致画像生成部の構成例を示すブロック図である。視線一致の妨害となる信号の除去について説明する図である。図４５の妨害信号除去部の構成例を示すブロック図である。低忠実度画像のブレンド比の一例を示す図である。画像処理部の第９の構成例を示すブロック図である。視線の知覚方向のずれについて説明する図である。図４９の高忠実度画像生成部の構成例を示すブロック図である。図４９の疑似視線一致画像表示部の構成例を示すブロック図である。視点補間位置について説明する図である。上方向補正量、左方向補正量、および右方向補正量の一例を示す図である。補正の後における視線の知覚方向ついて説明する図である。画像処理部の第１０の構成例を示すブロック図である。図５６の被写体視点情報設定部の構成例を示すブロック図である。図５６の疑似視線一致画像生成部の構成例を示すブロック図である。図５８のキャッチライト強調部の構成例を示すブロック図である。瞳領域の検出について説明する図である。瞳領域における輝度の発生確率分布の一例を示す図である。キャッチライト強調処理で用いられるパラメータの一例を示す図である。画像処理部の第１１の構成例を示すブロック図である。図６３の疑似視線一致画像表示部の構成例を示すブロック図である。目の視線方向と顔向きとの誤差について説明する図である。上下方向補正量および左右方向補正量の一例を示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜テレコミュニケーションシステムの構成例＞
　図１は、本技術を適用したテレコミュニケーションシステムの一実施の形態の構成例を示す図である。

　図１に示すように、テレコミュニケーションシステム１１は、２台のテレコミュニケーション装置１２ａおよび１２ｂが、例えば、インターネットなどのネットワーク１３を介して接続されて構成される。

　例えば、テレコミュニケーションシステム１１は、テレコミュニケーション装置１２ａのユーザと、テレコミュニケーション装置１２ｂのユーザとが、双方向的なコミュニケーションを図ることができるテレコミュニケーションサービスを提供することができる。なお、以下適宜、テレコミュニケーション装置１２ａを使用してテレコミュニケーションを行うユーザを、ユーザ自身とも称し、そのユーザとテレコミュニケーションを行う相手となるテレコミュニケーション装置１２ｂのユーザを、相手側のユーザとも称する。

　テレコミュニケーション装置１２ａは、複数台の撮影装置２１ａ、表示装置２２ａ、および情報処理装置２３ａを備えて構成され、情報処理装置２３ａは、画像処理部２４ａおよび通信部２５ａを有している。

　図１では、テレコミュニケーション装置１２ａが３台の撮影装置２１ａ－１乃至２１ａ－３を備え、撮影装置２１ａ－１が表示装置２２ａの上側に配置され、撮影装置２１ａ－２が表示装置２２ａの左側に配置され、撮影装置２１ａ－３が表示装置２２ａの右側に配置された構成例が示されている。なお、撮影装置２１ａの台数は、３台に限定されることはなく、２台、または４台以上でもよく、それらの配置も図１に示す例に限定されることはない。また、以下では、３台の撮影装置２１ａ－１乃至２１ａ－３が、表示装置２２ａの前に一人で立っているユーザを被写体とした状態について説明する。

　撮影装置２１ａ－１乃至２１ａ－３は、例えば、CMOS（Complementary Metal Oxide Semiconductor）イメージセンサなどの撮像素子を備え、ユーザを被写体として、それぞれが被写体を撮影して得られる３枚の撮影画像を、情報処理装置２３ａに供給する。なお、以下適宜、撮影装置２１ａ－１乃至２１ａ－３を区別する必要がない場合、単に、撮影装置２１ａと称する。

　表示装置２２ａは、例えば、液晶パネルや有機ＥＬ（Electro Luminescence）パネルなどの表示デバイスを備え、テレコミュニケーション装置１２ｂから送信されてくる画像を、例えば、その画像に写されているテレコミュニケーション装置１２ｂのユーザが等身大となる大きさで表示する。

　情報処理装置２３ａは、例えば、CPU（Central Processing Unit）や、ROM（Read Only Memory）、RAM（Random Access Memory）などを備えるコンピュータにより構成することができる。そして、情報処理装置２３ａが、テレコミュニケーションを実現するアプリケーションを実行することで、画像処理部２４ａにより画像処理が行われ、通信部２５ａにより通信処理が行われる。

　画像処理部２４ａは、表示装置２２ａに表示されている相手側のユーザと視線が一致していると、ユーザ自身に疑似的に認識させるような画像処理を行う。例えば、画像処理部２４ａは、撮影装置２１ａ－１乃至２１ａ－３から供給される３枚の撮影画像を用いて、表示装置２２ａに表示される相手側のユーザの目の位置に設定される仮想的な視点からユーザ自身を写したような画像（以下、疑似視線一致画像と称する）を生成する画像処理を行う。また、画像処理部２４ａは、相手側のユーザが写されている疑似視線一致画像を表示する際に、相手側のユーザが等身大となる大きさおよび位置（目の高さ）で表示されるような画像処理を行って、表示装置２２ａに表示させる。

　通信部２５ａは、ネットワーク１３を介した通信を行うことができる。例えば、通信部２５ａは、画像処理部２４ａから出力される符号化ストリームをテレコミュニケーション装置１２ｂに送信し、テレコミュニケーション装置１２ｂから送信されてくる符号化ストリームを受信して画像処理部２４ａに供給する。

　このように構成されるテレコミュニケーション装置１２ａは、撮影装置２１ａ－１乃至２１ａ－３がユーザ自身を撮影した撮影画像を用いて、表示装置２２ａ上に設定される相手側のユーザの視点からユーザ自身が写されたような疑似視線一致画像を生成することができる。また、テレコミュニケーション装置１２ａは、テレコミュニケーション装置１２ｂから送信されてくる疑似視線一致画像を用いて、相手側のユーザを等身大となる大きさおよび位置で表示することができる。同様に、テレコミュニケーション装置１２ｂは、ユーザ自身が写された疑似視線一致画像を生成し、相手側のユーザが写された疑似視線一致画像を表示することができる。

　従って、テレコミュニケーションシステム１１を利用するユーザどうしは、例えば、等身大で表示される相手の目に視線を向けて、互いの視線が一致しているような状態でテレコミュニケーションを行うことができる。これにより、テレコミュニケーションシステム１１により、互いのユーザは、よりリアルなコミュニケーションを行うことが可能となる。

　なお、テレコミュニケーション装置１２ｂは、テレコミュニケーション装置１２ａと同様に構成されており、以下では、テレコミュニケーション装置１２ａの構成について説明し、テレコミュニケーション装置１２ｂの構成については説明を省略する。また、以下適宜、テレコミュニケーション装置１２ａおよび１２ｂを区別する必要がない場合、テレコミュニケーション装置１２と称し、それぞれを構成する各部も同様に称する。

　＜画像処理部の第１の構成例＞
　図２乃至図１９を参照して、画像処理部２４の第１の構成例について説明する。

　図２は、画像処理部２４の第１の構成例を示すブロック図である。

　図２に示すように、画像処理部２４は、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備えて構成される。

　また、図２に示す画像処理部２４において、破線より上側の配置されているブロックは、ユーザ自身が写された複数枚の画像を用い、相手側のユーザから見て、ユーザ自身の視線が相手側のユーザの目を見ているような疑似視線一致画像を生成する画像処理を施す。一方、図２に示す画像処理部２４において、破線より下側に配置されているブロックは、相手側のユーザが写されている疑似視線一致画像を、ユーザ自身の視点から見て、相手側のユーザの視線がユーザ自身を見ているように表示する画像処理を施す。

　また、画像処理部２４には、図１の撮影装置２１－１乃至２１－３により３つの方向からユーザ自身を撮影した撮影画像や、図示しないデプスセンサにより検出される奥行き方向の距離を示すデプス情報などを示す信号が多重化された入力撮影信号が入力される。この入力撮影信号は、被写体視点情報設定部３１、高忠実度画像生成部３３、および低忠実度画像生成部３４に供給される。

　さらに、画像処理部２４には、ユーザの三次元空間上での視点位置を示す情報である被写体視点情報であって、相手側のユーザの被写体視点情報が符号化されて送信されてきた後に復号されたデコード被写体視点情報が入力される。このデコード被写体視点情報は、高忠実度画像生成部３３、および低忠実度画像生成部３４に供給される。

　被写体視点情報設定部３１は、入力撮影信号から得られる３枚の撮影画像とデプス情報とに基づいて、撮影装置２１による撮影の対象となるユーザ自身の顔を解析する。これにより、被写体視点情報設定部３１は、画像上における顔の各パーツの特徴点を示す座標からなる解析情報を取得し、高忠実度表示領域設定部３２に供給する。さらに、被写体視点情報設定部３１は、入力撮影信号から得られる３枚の撮影画像とデプス情報とに基づいて、ユーザ自身の三次元空間上での視点位置を求め、その視点位置を示す被写体視点情報を取得して符号化部３６に供給する。例えば、被写体視点情報は、相手側の画像処理部２４において、ユーザ自身が写されている疑似視線一致画像から疑似視線一致表示画像を生成する際に利用される。なお、被写体視点情報設定部３１における詳細な処理については、図３乃至図５を参照して説明する。

　高忠実度表示領域設定部３２は、被写体視点情報設定部３１から供給される解析情報に基づいて、疑似視線一致画像においてユーザ自身の顔が写されている領域のうちの、後述する高忠実度画像を表示する領域となる高忠実度表示領域を設定する。そして、高忠実度表示領域設定部３２は、高忠実度表示領域を示す高忠実度表示領域情報を、高忠実度画像生成部３３および低忠実度画像生成部３４に供給する。なお、高忠実度表示領域設定部３２における詳細な処理については、図６および図７を参照して後述する。

　高忠実度画像生成部３３は、デコード被写体視点情報が示す相手側のユーザの視点位置を仮想撮影位置とし、その仮想撮影位置からユーザ自身を撮影したものとして、より忠実度が高い見た目となる高忠実度画像を生成する。例えば、高忠実度画像生成部３３は、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像のうちの、少なくとも一部の撮影画像に対して視点補間技術などを使用することによって、仮想撮影位置からの見た目を非常に高いレベルで再現したような高忠実度画像を生成することができる。このとき、高忠実度画像生成部３３は、高忠実度表示領域設定部３２から供給される高忠実度表示領域情報が示す高忠実度表示領域に限定して、高忠実度画像を生成する。そして、高忠実度画像生成部３３は、生成した高忠実度画像を疑似視線一致画像生成部３５に供給する。なお、高忠実度画像生成部３３における詳細な処理については、図８乃至図１０を参照して後述する。

　低忠実度画像生成部３４は、デコード被写体視点情報が示す相手側のユーザの視点位置を仮想撮影位置とし、その仮想撮影位置からユーザ自身を撮影したものとして、高忠実度画像よりも忠実度が低い低忠実度画像を生成する。例えば、低忠実度画像生成部３４は、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像のうちの、少なくとも一部の画像に対して射影変換を行うことによって、仮想撮影位置からの見た目をある程度のレベルで再現したような低忠実度画像を生成することができる。

　さらに、低忠実度画像生成部３４は、高忠実度表示領域設定部３２から供給される高忠実度表示領域情報が示す高忠実度表示領域に対し、低忠実度画像を生成する際の射影変換による影響を反映させる補正を施す。そして、低忠実度画像生成部３４は、その補正が施された高忠実度表示領域を示す補正高忠実度表示領域情報を、生成した低忠実度画像とともに疑似視線一致画像生成部３５に供給する。なお、低忠実度画像生成部３４における詳細な処理については、図１１乃至図１５を参照して後述する。

　疑似視線一致画像生成部３５は、低忠実度画像生成部３４から供給される低忠実度画像に対し、補正高忠実度表示領域情報が示す補正高忠実度表示領域において、高忠実度画像生成部３３から供給される高忠実度画像を重畳する。これにより、疑似視線一致画像生成部３５は、仮想撮影位置から見て、ユーザ自身の視線が相手側のユーザの目を見ているように、疑似的に、互いの視線が一致するような疑似視線一致画像を生成することができ、その疑似視線一致画像を符号化部３６に供給する。

　符号化部３６は、被写体視点情報設定部３１から供給されるユーザ自身の被写体視点情報、および、疑似視線一致画像生成部３５から供給される疑似視線一致画像を符号化する。これにより、符号化部３６は、被写体視点情報および疑似視線一致画像が符号化された符号化ストリームを生成して、伝送部３７に供給する。

　伝送部３７は、符号化部３６から供給される符号化ストリームを、図１のネットワーク１３を介して伝送される伝送ストリームとして通信部２５に出力し、相手側のテレコミュニケーション装置１２に送信させる。このとき、伝送部３７は、別途、符号化された音声ストリームを、符号化部３６から供給される符号化ストリームとともに多重化し、伝送ストリームとして出力することができる。

　受信部３８は、図１のネットワーク１３を介して相手側のテレコミュニケーション装置１２から伝送されてくる伝送ストリームを受信し、符号化ストリームに戻して復号部３９に供給する。このとき、受信部３８は、受信した伝送ストリームに音声ストリームが多重化されている場合、その伝送ストリームから、音声ストリームと符号化ストリームとを逆多重化して、符号化ストリームを復号部３９に出力する。

　復号部３９は、受信部３８から供給される符号化ストリームを復号して得られるデコード被写体視点情報およびデコード疑似視線一致画像を、疑似視線一致画像表示部４０に供給する。ここで、デコード被写体視点情報は、相手側のユーザの視点位置を示す被写体視点情報であり、デコード疑似視線一致画像は、相手側のユーザが写された疑似視線一致画像である。

　疑似視線一致画像表示部４０は、復号部３９から供給されるデコード被写体視点情報およびデコード疑似視線一致画像に基づいて、例えば、相手側のユーザを等身大となる大きさおよび位置で表示装置２２に表示させるための疑似視線一致表示画像を生成する。そして、疑似視線一致画像表示部４０は、生成した疑似視線一致表示画像を表示装置２２に出力する。

　図３は、図２の被写体視点情報設定部３１の構成例を示すブロック図である。

　図３に示すように、被写体視点情報設定部３１は、顔パーツ検出部５１、目領域対応点検出部５２、視点距離算出部５３、および被写体視点情報生成部５４を備えて構成される。

　顔パーツ検出部５１は、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像に対し、顔パーツ検出（facial landmark detection）を行う。例えば、顔パーツ検出部５１は、非特許文献「"One Millisecond Face Alignment with an Ensemble of Regression Trees" by Vahid Kazemi and Josephine Sullivan, CVPR 2014」などに開示されている技術を用いて顔パーツ検出を行うことができる。これにより、顔パーツ検出部５１は、撮影画像に含まれる顔の各パーツの特徴点を示す座標を求めることができ、これを解析情報として、図２の高忠実度表示領域設定部３２に出力するとともに、目領域対応点検出部５２に供給する。

　ここで、図４には、顔パーツ検出部５１により求められる解析情報の一例が示されている。図４に示されている解析情報では、顔パーツとして検出された目、鼻、口、眉毛、および顔輪郭に対して６８点の特徴点が配置されている。

　目領域対応点検出部５２は、顔パーツ検出部５１から供給される解析情報の中から、目の領域に対して配置されている特徴点を抽出し、それらの特徴点について、撮影装置２１－１乃至２１－３により撮影された３枚の画像間で対応している対応点を検出する。具体的には、目領域対応点検出部５２は、図４に示す目の領域の特徴点（３７番から４８番までの特徴点、または、これらに２８番の特徴点を加えてもよい）の中から、３枚の画像間で同じ番号付けされた特徴点どうしを対応点として検出する。また、目領域対応点検出部５２は、目の領域の全ての特徴点に対して対応点を検出する他、例えば、一部の特徴点に対して対応点を検出してもよい。

　例えば、図５には、目領域対応点検出部５２が、右目に対して配置された特徴点を、対応点として検出している例が示されている。図示するように、撮影装置２１－１により撮影された撮影画像Ｐ１、撮影装置２１－２により撮影された撮影画像Ｐ２、および、撮影装置２１－３により撮影された撮影画像Ｐ３それぞれ間で、右目に対して配置された特徴点が対応点として検出される。

　視点距離算出部５３は、目領域対応点検出部５２により検出された対応点に基づいて、被写体の目までの距離を、視点距離として算出する。例えば、視点距離算出部５３は、必要であれば撮影装置２１を平行化した状態に補正し、三角測量の原理を利用することで、視点距離を求めることができる。また、視点距離算出部５３は、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像のうちの、２枚の撮影画像から検出された対応点だけを用いて視点距離を算出してもよい。なお、視点距離算出部５３は、Plane Sweep手法などを利用して、３枚の撮影画像から検出された対応点すべてを用いて視点距離を算出してもよい。

　被写体視点情報生成部５４は、視点距離算出部５３により算出された視点距離を、ワールド座標系の座標値に変換して、被写体の視点位置を示す被写体視点情報を生成し、その被写体視点情報を出力する。

　図６は、図２の高忠実度表示領域設定部３２の構成例を示すブロック図である。

　図６に示すように、高忠実度表示領域設定部３２は、高忠実度表示マスク生成部６１を備えて構成される。

　高忠実度表示マスク生成部６１には、被写体視点情報設定部３１から出力される解析情報が供給される。高忠実度表示マスク生成部６１は、解析情報に基づいて、疑似視線一致画像生成部３５が生成する疑似視線一致画像において、高忠実度画像生成部３３が生成した高忠実度画像を表示する領域となる高忠実度表示領域を指定するマスク画像を生成する。そして、高忠実度表示マスク生成部６１は、高忠実度表示領域を指定するマスク画像を、高忠実度表示領域情報として出力する。

　例えば、図７のＡに示すように、高忠実度表示マスク生成部６１は、解析情報に含まれている全ての特徴点を内包するような多角形、即ち、すべての顔パーツを覆う多角形を、高忠実度表示領域を示すマスク画像として生成することができる。また、図７のＢに示すように、高忠実度表示マスク生成部６１は、解析情報に含まれている特徴点のうちの、目に配置された特徴点のみに限定し、その目の領域を覆う多角形を、高忠実度表示領域を示すマスク画像として生成してもよい。その他、高忠実度表示マスク生成部６１は、これら以外の他の領域であって、ユーザ自身の目が写された目領域を少なくとも含む所定の領域を、高忠実度表示領域を示すマスク画像としてもよい。なお、マスク画像は、２値からなる画像でもよいし、連続階調を持った画像でもよい。

　図８は、図２の高忠実度画像生成部３３の構成例を示すブロック図である。

　図８に示すように、高忠実度画像生成部３３は、高忠実度表示領域クロップ部７１および視点補間画像生成部７２を備えて構成される。

　高忠実度表示領域クロップ部７１は、高忠実度表示領域情報が示す高忠実度表示領域（マスク画像）に対応する部分を、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像からクロップする。そして、高忠実度表示領域クロップ部７１は、３枚の撮影画像それぞれからクロップした３枚の画像を視点補間画像生成部７２に供給する。

　視点補間画像生成部７２は、まず、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置に従って、相手側のユーザを等身大で表示するときの目の位置を、仮想撮影位置として設定する。例えば、図９には、図１の表示装置２２に等身大で表示される相手側のユーザが破線で示されており、視点補間画像生成部７２は、その相手側のユーザの両目の中間点に仮想撮影位置を設定する。

　視点補間画像生成部７２は、次に、高忠実度表示領域クロップ部７１により高忠実度表示領域としてクロップされた３枚の画像どうしで補間する視点補間処理を施して、仮想撮影位置からユーザ自身を見たような視点補間画像を生成し、高忠実度画像として出力する。

　ここで、図１０に示すように、左右に配置される撮影装置２１－２および２１－３の中間点（Δ印で示す点）と、上側に配置される撮影装置２１－１との中間点（×印で示す点）に、仮想撮影位置が設定されて行われる視点補間処理について説明する。

　このとき、視点補間画像生成部７２は、撮影装置２１－２および２１－３により撮影された２枚の撮影画像からΔ印の位置の水平方向の補間画像である仮想視点中間画像を、２枚の撮影画像からの影響度が半分ずつになるように生成する。そして、視点補間画像生成部７２は、その仮想視点中間画像と、撮影装置２１－１により撮影された撮影画像との影響度が半分ずつになるような垂直方向の補間画像を生成する。このように生成された補間画像が、図１０に示す仮想撮影位置（×印で示す点）から見た視点補間画像、即ち、高忠実度画像となる。

　図１１は、図２の低忠実度画像生成部３４の構成例を示すブロック図である。

　図１１に示すように、低忠実度画像生成部３４は、射影変換パラメータ推定部８１、および射影変換処理部８２を備えて構成される。

　射影変換パラメータ推定部８１は、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置に従って、仮想撮影位置から見た画像に近くなるように射影変換を行うためのパラメータを推定する。そして、射影変換パラメータ推定部８１は、推定したパラメータを示す射影変換パラメータを射影変換処理部８２に供給する。

　射影変換処理部８２は、例えば、撮影装置２１ａ－１により撮影された撮影画像に対して、射影変換パラメータ推定部８１から供給される射影変換パラメータが示すパラメータを用いた射影変換を施すことにより、低忠実度画像を生成する。さらに、射影変換処理部８２は、高忠実度表示領域設定部３２から供給される高忠実度表示領域情報が示す高忠実度表示領域であるマスク画像（図７参照）に対して、低忠実度画像を生成するのに使用したパラメータを用いた射影変換を施す。これにより、射影変換処理部８２は、低忠実度画像に対応するようにマスク画像を補正し、そのマスク画像を補正高忠実度表示領域情報とする。そして、射影変換処理部８２は、低忠実度画像および補正高忠実度表示領域情報を出力する。

　ここで、低忠実度画像生成部３４に入力される入力撮影信号から得られる３枚の撮影画像のうち、表示装置２２の上側に配置される撮影装置２１－１の撮影画像を使用して低忠実度画像を生成する処理について説明する。

　例えば、図１２のＡに示すように、表示装置２２の前に被写体が立った状態において、被写体は、奥行き方向に厚みがない平面の板であるように近似した被写体近似平面とすると、幾何補正は射影変換で実現される。図１２のＢには、撮影装置２１－１により被写体を撮影して得られる人物画像の模式図が示されている。

　まず、図１３を参照して、仮想撮影位置が、被写体視点と同じ高さである場合における射影変換について説明する。この場合、図１３のＡに示すように、撮影装置２１－１および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度ａと同じ角度ａで、被写体近似平面の下側が手前にくるように回転させた状態を投影する射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図１３のＢに示すように、被写体を正面から見た画像に近くなるような低忠実度画像を生成することができる。

　また、図１４を参照して、仮想撮影位置が、被写体視点よりも高い場合における射影変換について説明する。この場合、図１４のＡに示すように、撮影装置２１－１および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度ｂと同じ角度ｂで回転することと等価な射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図１４のＢに示すように、被写体を上から見下ろすような、下から上に向かって広がる低忠実度画像を生成することができる。

　同様に、図１５を参照して、仮想撮影位置が、被写体視点よりも低い場合における射影変換について説明する。この場合、図１５のＡに示すように、撮影装置２１－１および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度ｃと同じ角度ｃで回転することと等価な射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図１５のＢに示すように、被写体を下から見上げるような、上から下に向かって広がる低忠実度画像を生成することができる。

　図１３乃至図１５に示したように、低忠実度画像生成部３４は、相手側のユーザの視点を仮想撮影位置として、相手側のユーザの視点に対応した見え方（正対、見下ろす、見上げる）に近い低忠実度画像を生成することができる。

　図１６は、図２の疑似視線一致画像生成部３５の構成例を示すブロック図である。

　図１６に示すように、疑似視線一致画像生成部３５は、マスク画像フィルタ処理部９１、および高忠実度表示領域ブレンド処理部９２を備えて構成される。

　マスク画像フィルタ処理部９１は、低忠実度画像生成部３４から出力される補正高忠実度表示領域情報が示す高忠実度表示領域（補正されたマスク画像）に対して、モロフォロジーフィルタやローパスフィルタなどのフィルタ処理を施す。これにより、マスク画像フィルタ処理部９１は、マスク画像の境界における値（ブレンド比）が緩やかに変化して、後段のブレンド処理で境界が目立ちにくいようなブレンドマップ画像を生成し、高忠実度表示領域ブレンド処理部９２に供給する。

　高忠実度表示領域ブレンド処理部９２は、マスク画像フィルタ処理部９１から供給されるブレンドマップ画像で設定されるブレンド比に応じて、高忠実度画像および低忠実度画像のアルファブレンド処理を行う。これにより、高忠実度表示領域ブレンド処理部９２は、低忠実度画像に対して、上述した図７に示したような顔の部分を、高忠実度画像で置き換えたような疑似視線一致画像を生成して出力する。

　図１７は、図２の符号化部３６の構成例を示すブロック図である。

　図１７に示すように、符号化部３６は、被写体視点情報符号化部１０１、映像コーデック符号化部１０２、およびストリーム統合部１０３を備えて構成される。

　被写体視点情報符号化部１０１は、デコード側と整合が取れている任意の符号化方法で、被写体視点情報を符号化し、被写体視点情報を符号化することで生成される付加ストリームをストリーム統合部１０３に供給する。具体的には、被写体視点情報符号化部１０１は、LZ（Ziv-Lempel）符号などの一般的な可逆符号化を用いた符号化方法を採用することができる。

　映像コーデック符号化部１０２は、例えば、MPEG（Moving Picture Experts Group）-2や、H.264，HEVC（High Efficiency Video Coding）などのような一般的に用いられている任意の映像コーデックを用いて、疑似視線一致画像を符号化することで、映像ストリームを生成する。そして、映像コーデック符号化部１０２は、生成した映像ストリームをストリーム統合部１０３に供給する。

　ストリーム統合部１０３は、被写体視点情報符号化部１０１から供給される付加ストリームと、映像コーデック符号化部１０２から供給される映像ストリームとを統合し、符号化ストリームとして符号化部３６から出力する。例えば、ストリーム統合部１０３は、被写体視点情報符号化部１０１で生成された付加ストリームを、映像ストリームのユーザ情報を記録できるヘッダ部分に埋め込むような統合方法を採用することができる。

　図１８は、図２の復号部３９の構成例を示すブロック図である。

　図１８に示すように、復号部３９は、ストリーム分離部１１１、被写体視点情報復号部１１２、および映像コーデック復号部１１３を備えて構成される。

　ストリーム分離部１１１は、図２の受信部３８から供給される符号化ストリームを、付加ストリームおよび映像ストリームに分離する。そして、ストリーム分離部１１１は、付加ストリームを被写体視点情報復号部１１２に供給し、映像ストリームを映像コーデック復号部１１３に供給する。

　被写体視点情報復号部１１２は、ストリーム分離部１１１から供給される付加ストリームを、デコード被写体視点情報に復号して出力する。即ち、デコード被写体視点情報は、相手側のユーザの視点位置を示す被写体視点情報が、相手側で符号化されて送信された後、復号されたものである。

　映像コーデック復号部１１３は、ストリーム分離部１１１から供給される映像ストリームを、デコード疑似視線一致画像に復号して出力する。即ち、デコード疑似視線一致画像は、相手側のユーザが写された疑似視線一致画像が、相手側で符号化されて送信された後、復号されたものである。

　図１９は、図２の疑似視線一致画像表示部４０の構成例を示すブロック図である。

　図１９に示すように、疑似視線一致画像表示部４０は、等身大表示幾何補正パラメータ推定部１２１、および等身大表示幾何補正処理部１２２を備えて構成される。

　等身大表示幾何補正パラメータ推定部１２１は、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置（世界座標で定義）に基づいて、表示装置２２上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるような等身大表示幾何補正パラメータを推定する。このとき、等身大表示幾何補正パラメータ推定部１２１は、表示装置２２の解像度および大きさや、デコード疑似視線一致画像の解像度などを考慮して、等身大表示幾何補正パラメータを推定し、等身大表示幾何補正処理部１２２に供給する。

　等身大表示幾何補正処理部１２２は、デコード疑似視線一致画像に対して、等身大表示幾何補正パラメータ推定部１２１から供給される等身大表示幾何補正パラメータを用いた幾何補正を施す。これにより、等身大表示幾何補正処理部１２２は、相手側のユーザが等身大となる大きさおよび位置（目の高さ）で表示装置２２に表示されるような疑似視線一致表示画像を生成する。そして、等身大表示幾何補正処理部１２２は、その疑似視線一致表示画像を、図１の表示装置２２に出力して表示させる。

　以上のように画像処理部２４が備える各ブロックは構成されており、例えば、相手側のユーザが等身大で表示されて行われる双方向コミュニケーションにおいて、相手側のユーザと視線の一致を伴った映像コミュニケーション体験を提供することができる。

　＜画像処理部による画像処理＞
　図２０および図２１に示すフローチャートを参照して、画像処理部２４により行われる画像処理について説明する。

　図２０には、ユーザ自身が写された疑似視線一致画像を出力する画像処理を説明するフローチャートが示されている。

　例えば、テレコミュニケーションが始まって、撮影装置２１により撮影された撮影画像やデプスセンサにより検出されたデプス情報などを示す信号が多重化された入力撮影信号、および、相手側のユーザの三次元空間上での視点位置を示すデコード被写体視点情報が、画像処理部２４に入力されると処理が開始される。

　ステップＳ１１において、被写体視点情報設定部３１は、入力撮影信号から得られる撮影画像およびデプス情報に基づいて、画像上における顔の各パーツの座標を示す解析情報を取得し、高忠実度表示領域設定部３２に供給する。また、被写体視点情報設定部３１は、入力撮影信号から得られる撮影画像およびデプス情報に基づいて、ユーザ自身の三次元空間上での視点位置を示す被写体視点情報を取得し、符号化部３６に供給する。

　ステップＳ１２において、高忠実度表示領域設定部３２は、ステップＳ１１で被写体視点情報設定部３１から供給される解析情報に基づいて、高忠実度画像を表示する高忠実度表示領域を設定する。そして、高忠実度表示領域設定部３２は、その高忠実度表示領域を示す高忠実度表示領域情報を、高忠実度画像生成部３３および低忠実度画像生成部３４に供給する。

　ステップＳ１３において、高忠実度画像生成部３３は、ステップＳ１２で高忠実度表示領域設定部３２が設定した高忠実度表示領域に限定して、相手側のユーザの視点位置を仮想撮影位置として撮影画像に対して視点補間技術などを使用し、高忠実度画像を生成する。そして、高忠実度画像生成部３３は、高忠実度画像を疑似視線一致画像生成部３５に供給する。

　ステップＳ１４において、低忠実度画像生成部３４は、相手側のユーザの視点位置を仮想撮影位置として撮影画像に対する幾何補正を行い、低忠実度画像を生成する。さらに、低忠実度画像生成部３４は、ステップＳ１２で高忠実度表示領域設定部３２により設定された高忠実度表示領域に対し、低忠実度画像を生成する際の幾何補正による影響を反映させる補正を施す。そして、低忠実度画像生成部３４は、低忠実度画像および補正高忠実度表示領域情報を疑似視線一致画像生成部３５に供給する。

　ステップＳ１５において、疑似視線一致画像生成部３５は、ステップＳ１４で低忠実度画像生成部３４から供給される低忠実度画像に対し、補正高忠実度表示領域において、ステップＳ１３で高忠実度画像生成部３３から供給される高忠実度画像を重畳する。これにより、疑似視線一致画像生成部３５は、ユーザ自身が、表示装置２２に表示される相手側のユーザに視線を合わせたときに、相手側のユーザから見て疑似的に一致するような疑似視線一致画像を生成して符号化部３６に供給する。

　ステップＳ１６において、符号化部３６は、ステップＳ１１で被写体視点情報設定部３１から供給されるユーザ自身の被写体視点情報と、ステップＳ１５で疑似視線一致画像生成部３５から供給される疑似視線一致画像とを符号化し、符号化ストリームを伝送部３７に供給する。

　ステップＳ１７において、伝送部３７は、ステップＳ１６で符号化部３６から供給される符号化ストリームを、図１のネットワーク１３を介して伝送される伝送ストリームとして通信部２５に出力する。そして、通信部２５が、伝送ストリームを相手側のテレコミュニケーション装置１２に送信した後、処理はステップＳ１１に戻って、以下、テレコミュニケーションが終了するまで、同様の処理が繰り返して行われる。

　以上のように、画像処理部２４は、ユーザ自身の被写体視点情報を送信するとともに、相手側のユーザから見て、ユーザ自身と疑似的に視線が一致するような疑似視線一致画像を相手側に送信することができる。

　図２１には、相手側のユーザが写された疑似視線一致画像を表示する画像処理を説明するフローチャートが示されている。

　例えば、テレコミュニケーションが始まって、相手側のテレコミュニケーション装置１２から送信されてくる伝送ストリームを通信部２５が受信部３８に供給すると、処理が開始される。

　ステップＳ２１において、受信部３８は、伝送ストリームを受信し、符号化ストリームに戻して復号部３９に供給する。

　ステップＳ２２において、復号部３９は、ステップＳ２１で受信部３８から供給される符号化ストリームを復号し、デコード被写体視点情報およびデコード疑似視線一致画像を取得して、疑似視線一致画像表示部４０に供給する。

　ステップＳ２３において、疑似視線一致画像表示部４０は、ステップＳ２２で復号部３９から供給されるデコード被写体視点情報およびデコード疑似視線一致画像に基づいて、疑似視線一致表示画像を生成し、表示装置２２に出力する。このとき、疑似視線一致画像表示部４０は、相手側のユーザが、相手側の表示装置２２に表示されているユーザ自身に視線を合わせたときに、ユーザ自身から見て疑似的に視線が一致するように表示される疑似視線一致表示画像を生成する。そして、表示装置２２が、疑似視線一致表示画像を表示した後、処理はステップＳ２１に戻って、以下、テレコミュニケーションが終了するまで、同様の処理が繰り返して行われる。

　以上のように、画像処理部２４は、ユーザ自身から見て、相手側のユーザと疑似的に視線が一致するような疑似視線一致表示画像を表示することができる。

　＜画像処理部の第２の構成例＞
　図２２を参照して、画像処理部２４の第２の構成例について説明する。

　図２２は、画像処理部２４の第２の構成例を示すブロック図である。なお、図２２に示す画像処理部２４Ａにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図２２に示すように、画像処理部２４Ａは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ａは、鏡像表示処理部４１を備えて構成される。

　例えば、画像処理部２４Ａは、図２の画像処理部２４と異なり、双方向的なテレコミュニケーションとしての用途ではなく、ユーザ自身を表示する電子ミラーとしての用途を想定した構成となっている。

　このため、画像処理部２４Ａは、図２を参照して上述したデコード被写体視点情報ではなく、ユーザ自身の被写体視点情報が、被写体視点情報設定部３１から高忠実度画像生成部３３および低忠実度画像生成部３４に供給されるように構成される。従って、高忠実度画像生成部３３および低忠実度画像生成部３４は、ユーザ自身の視点位置を仮想撮影位置として、それぞれ高忠実度画像および低忠実度画像を生成する。

　また、画像処理部２４Ａは、被写体視点情報設定部３１から疑似視線一致画像表示部４０に直接的に、ユーザ自身の被写体視点情報が供給され、疑似視線一致画像生成部３５から疑似視線一致画像表示部４０に直接的に疑似視線一致画像が供給されるように構成される。従って、疑似視線一致画像表示部４０は、ユーザ自身の視点位置を考慮して、ユーザ自身を等身大となる大きさおよび位置で表示装置２２に表示させるための疑似視線一致表示画像を生成する。そして、疑似視線一致画像表示部４０は、生成した疑似視線一致表示画像を鏡像表示処理部４１に供給する。

　鏡像表示処理部４１は、電子ミラーとしての用途を想定して、疑似視線一致画像表示部４０から供給される疑似視線一致表示画像を左右反転させる鏡像表示処理を行って、表示装置２２に出力する。これにより、ユーザ自身が鏡を見たように、左右反転したように自分自身が写された疑似視線一致表示画像が、表示装置２２に表示される。

　このように構成される画像処理部２４Ａは、ユーザ自身を等身大で電子ミラー表示する際に、ユーザ自身の視点位置を考慮して、高忠実度画像生成部３３における視点補間処理や、疑似視線一致画像表示部４０における幾何補正を行うことができる。これにより、ユーザ自身は、鏡を見たときのように、自分と視線が一致した顔の表情などを確認することができる。

　また、画像処理部２４Ａにより生成される疑似視線一致表示画像に対し、各種のＡＲ（Augmented Reality）技術を適用して、例えば、着衣の試着や、ヘアスタイルの変更などの仮想的な体験を行わせることができる。このとき、上述したように視線を一致させることで、よりリアリティのあるサービスを提供することができる。

　＜画像処理部の第３の構成例＞
　図２３乃至図２９を参照して、画像処理部２４の第３の構成例について説明する。

　図２３は、画像処理部２４の第３の構成例を示すブロック図である。なお、図２３に示す画像処理部２４Ｂにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図２３に示すように、画像処理部２４Ｂは、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、伝送部３７、および受信部３８を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｂは、被写体視点情報設定部３１Ｂ、高忠実度表示領域設定部３２Ｂ、符号化部３６Ｂ、復号部３９Ｂ、疑似視線一致画像表示部４０Ｂ、高忠実度表示情報設定部４２、および被写体視点情報設定部４３を備えて構成される。

　例えば、図２の画像処理部２４では、三次元計測した相手側のユーザの視点位置を仮想撮影位置として用いていたのに対し、画像処理部２４Ｂでは、簡易的に固定された仮想撮影位置が用いられる。

　このため、被写体視点情報設定部３１Ｂは、図２の被写体視点情報設定部３１と異なって入力映像信号が供給されず、固定的な被写体視点情報を設定して、高忠実度画像生成部３３および低忠実度画像生成部３４に供給するように構成される。そして、高忠実度画像生成部３３および低忠実度画像生成部３４は、固定的な被写体視点情報に基づいて高忠実度画像および低忠実度画像をそれぞれ生成する。また、この固定的な被写体視点情報は、相手側の画像処理部２４Ｂが備える疑似視線一致画像表示部４０Ｂにも出力される。

　例えば、図２４に示すように、被写体視点情報設定部３１Ｂにより設定される固定的な被写体視点情報は、３台の撮影装置２１－１乃至２１－３と表示装置２２との相対的な位置関係を示す情報である。例えば、固定的な被写体視点情報は、テレコミュニケーション装置１２を利用するユーザの身長と、表示装置２２からユーザの立ち位置までの距離との平均的な値から決定することができる。

　また、画像処理部２４Ｂでは、高忠実度表示情報設定部４２が、補正高忠実度表示領域情報のマスク領域の代表位置（例えば、重心位置や目に対応する位置の座標）および面積を、高忠実度表示情報として符号化部３６Ｂに出力する。

　また、画像処理部２４Ｂでは、被写体視点情報設定部４３が、被写体視点情報設定部３１Ｂと同様に、固定的な被写体視点情報を設定して疑似視線一致画像表示部４０Ｂに供給するように構成される。この被写体視点情報は、相手側の画像処理部２４Ｂが備える高忠実度画像生成部３３および低忠実度画像生成部３４にも出力される。

　図２５は、図２３の高忠実度表示領域設定部３２Ｂの構成例を示すブロック図である。高忠実度表示領域設定部３２Ｂは、図２の高忠実度表示領域設定部３２と異なって入力映像信号が供給されるように構成される。

　図２５に示すように、高忠実度表示領域設定部３２Ｂは、高忠実度表示マスク生成部６１を備える点で、図６の高忠実度表示領域設定部３２と共通の構成となっており、さらに顔パーツ検出部６２を備えた構成となっている。

　顔パーツ検出部６２には、入力映像信号が供給される。そして、顔パーツ検出部６２は、図３に示した被写体視点情報設定部３１が備える顔パーツ検出部５１と同様に、撮影画像に含まれる顔の各パーツの特徴点を示す座標を求めることができ、これを解析情報として高忠実度表示マスク生成部６１に供給する。即ち、解析情報は、高忠実度表示領域設定部３２Ｂの内部信号として使用される。

　図２６は、図２３の符号化部３６Ｂの構成例を示すブロック図である。上述したように、符号化部３６Ｂには、高忠実度表示情報設定部４２から高忠実度表示情報が供給される。

　図２６に示すように、符号化部３６Ｂは、映像コーデック符号化部１０２およびストリーム統合部１０３を備える点で、図１７の符号化部３６と共通の構成となっており、さらに高忠実度表示情報符号化部１０４を備えて構成される。

　高忠実度表示情報符号化部１０４は、図２３の高忠実度表示情報設定部４２から供給される高忠実度表示情報を符号化し、付加ストリームとしてストリーム統合部１０３に供給する。従って、ストリーム統合部１０３は、高忠実度表示情報が符号化された付加ストリームと、映像コーデック符号化部１０２から供給される映像ストリームとを統合し、符号化ストリームとして符号化部３６Ｂから出力する。

　図２７は、図２３の復号部３９Ｂの構成例を示すブロック図である。復号部３９Ｂには、符号化部３６Ｂにおいて符号化された符号化ストリームが供給される。

　図２７に示すように、復号部３９Ｂは、ストリーム分離部１１１および映像コーデック復号部１１３を備える点で、図１８の復号部３９と共通の構成となっており、さらに高忠実度表示情報復号部１１４を備えて構成される。

　高忠実度表示情報復号部１１４には、ストリーム分離部１１１において符号化ストリームから分離された付加ストリームが供給される。そして、高忠実度表示情報復号部１１４は、付加ストリームを、デコード高忠実度表示情報に復号して出力する。即ち、デコード高忠実度表示情報は、相手側のユーザの高忠実度表示情報が、相手側で符号化されて送信された後、復号されたものである。

　図２８は、図２３の疑似視線一致画像表示部４０Ｂの構成例を示すブロック図である。疑似視線一致画像表示部４０Ｂには、復号部３９Ｂから出力されるデコード高忠実度表示情報およびデコード疑似視線一致画像が供給されるとともに、被写体視点情報設定部４３から被写体視点情報が供給される。

　図２８に示すように、疑似視線一致画像表示部４０Ｂは、等身大表示幾何補正処理部１２２を備える点で、図１９の疑似視線一致画像表示部４０と共通の構成となっており、さらに等身大表示幾何補正パラメータ推定部１３１を備えて構成される。

　等身大表示幾何補正パラメータ推定部１３１は、図１９の等身大表示幾何補正パラメータ推定部１２１と同様に、表示装置２２上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるような等身大表示幾何補正パラメータを推定する。このとき、ユーザどうしの視線を一致させるためには、ユーザ自身の疑似視線一致表示画像における仮想撮影位置と、相手側のユーザの疑似視線一致表示画像で表示される目（視点）の位置が一致するよう（または、近接した位置）に表示する必要がある。

　そこで、図２９に示すように、固定的な被写体視点情報が示す被写体視点と、デコード高忠実度表示情報が示す位置との差分に応じて平行移動する成分と、デコード高忠実度表示情報が示す面積が等身大となるようなスケーリング成分を含んだ幾何補正パラメータが推定される。

　これにより、等身大表示幾何補正処理部１２２は、等身大表示幾何補正パラメータ推定部１３１から供給される幾何補正パラメータを用いた幾何補正を施して疑似視線一致表示画像を生成し、図１の表示装置２２に出力して表示させる。

　このように構成される画像処理部２４Ｂは、図２の画像処理部２４のように、計測された被写体視点情報が用いられないので、図２の画像処理部２４よりも視線を一致させる度合いが低下することになる。しかしながら、画像処理部２４Ｂは、被写体視点を計測する処理を行う必要がなく、視線を一致させる効果が、キャリブレーション精度などに依存しないというメリットを有する。そのため、画像処理部２４Ｂは、例えば、それぞれのユーザの視点位置の変化が少ない場合には、視線を一致させてテレコミュニケーションを行う効果を保持しつつ、よりロバストな動作を実現することができる。

　＜画像処理部の第４の構成例＞
　図３０および図３１を参照して、画像処理部２４の第４の構成例について説明する。

　図３０は、画像処理部２４の第４の構成例を示すブロック図である。なお、図３０に示す画像処理部２４Ｃにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図３０に示すように、画像処理部２４Ｃは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｃは、撮影手段制御部４４を備えて構成される。即ち、画像処理部２４Ｃは、図２の画像処理部２４に撮影手段制御部４４が新たに追加された構成となっている。

　撮影手段制御部４４には、撮影装置２１から出力される撮影画像が入力され、撮影手段制御部４４は、入力撮影信号を出力することができる。さらに、撮影手段制御部４４は、高忠実度表示領域設定部３２から出力される高忠実度表示領域情報をフィードバックさせることで、撮影装置２１の焦点距離や姿勢などを変化させ、ピッチ、チルト、およびズームの制御（PTZ制御）を行うことができる。

　図３１を参照して、撮影手段制御部４４によるPTZ制御について説明する。

　例えば、図３１に示すように、画像処理部２４Ｃには、撮影装置２１－１により撮影された撮影画像Ｐ１、撮影装置２１－２により撮影された撮影画像Ｐ２、および、撮影装置２１－３により撮影された撮影画像Ｐ３が多重化された入力撮影信号が入力される。そして、高忠実度画像生成部３３は、撮影画像Ｐ２および撮影画像Ｐ３を使用して高忠実度画像を生成し、低忠実度画像生成部３４は、撮影画像Ｐ１を使用して低忠実度画像を生成する。

　例えば、図３１のＡには、初期の撮影状態で撮影された撮影画像Ｐ１乃至撮影画像Ｐ３が示されており、撮影画像Ｐ１乃至撮影画像Ｐ３において、高忠実度表示領域設定部３２において高忠実度表示領域が設定される領域に、ハッチングが施されている。

　そして、撮影手段制御部４４は、撮影画像Ｐ２および撮影画像Ｐ３の全体の面積に対する高忠実度表示領域の割合を求める。そして、撮影手段制御部４４は、撮影画像Ｐ２および撮影画像Ｐ３の全体の面積に対する高忠実度表示領域の割合が所定値以下である場合、その割合が所定値となるように、撮影装置２１－２および撮影装置２１－３に対するPTZ制御を行う。即ち、撮影手段制御部４４は、撮影画像Ｐ２および撮影画像Ｐ３において高忠実度表示領域が狭い場合、高忠実度表示領域が広くなるようにズーム（必要に応じてパンまたはチルト）するような制御を行う。

　これにより、図３１のＢに示すように、ズーム制御が行われた撮影画像Ｐ２’およびＰ３’において、高忠実度表示領域の割合が所定値となるように、それぞれの全体の面積に対して広く写されるような状態となる。

　従って、画像処理部２４Ｃでは、撮影手段制御部４４により高忠実度表示領域がズームされた撮影画像Ｐ２’およびＰ３’が、高忠実度画像生成部３３に供給される。これにより、高忠実度画像生成部３３は、より解像度の高い高忠実度画像を生成することができ、疑似視線一致画像生成部３５は、高忠実度表示領域の解像度を高めた疑似視線一致表示画像を生成することができる。

　このように構成される画像処理部２４Ｃは、高忠実度表示領域の解像度を高めた疑似視線一致表示画像により、より高解像度な高忠実度画像を生成することができ、よりリアルなテレコミュニケーションを図ることができる。

　＜画像処理部の第５の構成例＞
　図３２乃至図３５を参照して、画像処理部２４の第５の構成例について説明する。

　図３２は、画像処理部２４の第５の構成例を示すブロック図である。なお、図３２に示す画像処理部２４Ｄにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図３２に示すように、画像処理部２４Ｄは、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｄは、被写体視点情報設定部３１Ｄおよび高忠実度表示領域設定部３２Ｄを備えて構成される。

　図３３は、図３２の被写体視点情報設定部３１Ｄの構成例を示すブロック図である。

　図３３に示すように、被写体視点情報設定部３１Ｄは、目領域対応点検出部５２、視点距離算出部５３、および被写体視点情報生成部５４を備える点で、図３の被写体視点情報設定部３１と共通の構成となっており、さらに顔パーツ検出部５１Ｄおよび眼鏡着用認識部５５を備えて構成される。

　顔パーツ検出部５１Ｄは、図３の顔パーツ検出部５１と同様に、撮影画像に含まれる顔の各パーツの特徴点を示す座標に加えて、顔パーツを検出した際の信頼度を検出し、その信頼度を含めた解析情報を高忠実度表示領域設定部３２Ｄに出力する。

　眼鏡着用認識部５５は、撮影画像に写されている顔に、眼鏡が着用されているか否かを認識する。そして、眼鏡着用認識部５５は、眼鏡が着用されていると認識した場合には、そのことを示す眼鏡着用情報を高忠実度表示領域設定部３２Ｄに出力する。なお、眼鏡着用認識部５５は、一般的な顔認識技術の属性情報として入手することが可能である。

　図３４は、図３２の高忠実度表示領域設定部３２Ｄの構成例を示すブロック図である。

　図３４に示すように、高忠実度表示領域設定部３２Ｄは、高忠実度表示マスク生成部６１Ｄを備えて構成され、高忠実度表示マスク生成部６１Ｄには、解析情報および眼鏡着用情報が供給される。

　高忠実度表示マスク生成部６１Ｄは、眼鏡着用情報が、眼鏡が着用されていると認識されたことを示す場合、撮影画像に写されている顔から眼鏡のリムが存在する部分を避けて高忠実度表示領域を設定する。例えば、眼鏡のリムが存在する部分は、アーティファクトが発生しやすいと判断されるため、その部分を避けて高忠実度表示領域を設定することで、データの誤りや、信号の歪みなどを避けることができる。

　例えば、図３５のＡに示すように、上述した図７のＡのマスク画像と比べて、眼鏡のリムが存在する部分を避けた領域に高忠実度表示領域が設定される。

　また、高忠実度表示マスク生成部６１Ｄは、解析情報に基づいて、顔の輪郭部分などの顔パーツの信頼度が低いと判定された場合、図３５のＢに示すように、目の領域のみ、高忠実度表示領域を設定してもよい。

　このように構成される画像処理部２４Ｄは、眼鏡着用情報や信頼度などを用いて高忠実度表示領域情報を設定することで、後段の高忠実度画像生成部３３において、アーティファクトが発生する可能性が高い領域を事前に避けて高忠実度画像を生成することができる。これにより、高忠実度画像の忠実度を高めることができ、よりリアルなテレコミュニケーションを図ることができる。

　＜画像処理部の第６の構成例＞
　図３６乃至図３８を参照して、画像処理部２４の第６の構成例について説明する。

　図３６は、画像処理部２４の第６の構成例を示すブロック図である。なお、図３６に示す画像処理部２４Ｅにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図３６に示すように、画像処理部２４Ｅは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｅは、疑似視線一致画像生成部３５Ｅを備えて構成される。

　図３７は、図３６の疑似視線一致画像生成部３５Ｅの構成例を示すブロック図である。

　図３７に示すように、疑似視線一致画像生成部３５Ｅは、マスク画像フィルタ処理部９１、および高忠実度表示領域ブレンド処理部９２を備える点で、図１６の疑似視線一致画像生成部３５と共通の構成となっており、さらに高忠実度判定部９３を備えて構成される。

　高忠実度判定部９３は、低忠実度画像生成部３４から供給される補正高忠実度表示領域情報で示される補正高忠実度表示領域において、高忠実度画像および低忠実度画像の画像データの類似度を判定する。例えば、高忠実度判定部９３は、高忠実度画像および低忠実度画像どうしで顔の各パーツの位置が一致する割合に応じて、画像データの類似度を求めることができる。即ち、高忠実度画像および低忠実度画像どうしで、顔の各パーツの位置が一致する割合が高い場合には画像データの類似度が高くなり、顔の各パーツの位置が一致する割合が低い場合には画像データの類似度が低くなる。

　そして、高忠実度判定部９３は、類似度の高いほど、高忠実度画像のブレンド比が高くなり、類似度の低い領域の高忠実度画像のブレンド比が低くなるようにブレンド比が設定されたブレンド比マップ画像を生成して、マスク画像フィルタ処理部９１に供給する。

　図３８を参照して、高忠実度判定部９３による判定処理について説明する。

　図３８では、低忠実度画像および高忠実度画像において、補正高忠実度表示領域情報で示される補正高忠実度表示領域に、薄いハッチングが施されている。また、ブレンド比のマップ画像において、類似度の高い領域ほど、高忠実度画像のブレンド比を高くし（濃いハッチング）、類似度の低い領域ほど、高忠実度画像のブレンド比を低くする。

　例えば、図３８のＡには、補正高忠実度表示領域において、高忠実度画像と低忠実度画像の画像データの類似度が高い例が示されている。従って、補正高忠実度表示領域の全体において、高忠実度画像のブレンド比が高く設定されるブレンド比マップ画像が生成される。

　一方、図３８のＢには、鼻や口などがずれて合成されてしまい、補正高忠実度表示領域において、高忠実度画像と低忠実度画像の画像データの類似度が低い例が示されている。従って、鼻や口などの領域において類似度が低くなり、その領域における高忠実度画像のブレンド比が低く設定されるブレンド比マップ画像が生成される。

　このように高忠実度判定部９３による判定処理が行われ、類似度に従ったブレンド比マップ画像がマスク画像フィルタ処理部９１に供給される。なお、マスク画像フィルタ処理部９１より後段の処理は、図２の画像処理部２４と同様に行われる。

　このように構成される画像処理部２４Ｅは、視点補間処理で生成された高忠実度画像の品質が悪い場合には、視線を一致させる効果が減少するものの、アーティファクトを発生させずに表示することができる。

　＜画像処理部の第７の構成例＞
　図３９乃至図４３を参照して、画像処理部２４の第７の構成例について説明する。

　図３９は、画像処理部２４の第７の構成例を示すブロック図である。なお、図３９に示す画像処理部２４Ｆにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図３９に示すように、画像処理部２４Ｆは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、伝送部３７、受信部３８、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｆは、符号化部３６Ｆ、復号部３９Ｆ、低忠実度画像生成パラメータ生成部４５、被写体視点情報設定部４６、低忠実度画像生成部４７、および疑似視線一致画像生成部４８を備えて構成される。

　例えば、画像処理部２４Ｆでは、低忠実度画像がCG（Computer Graphics）アバターアニメーションで構成される点で、図２の画像処理部２４と処理が異なるものとなっている。即ち、画像処理部２４Ｆでは、送信側に配置される低忠実度画像生成パラメータ生成部４５により、CGアバターアニメーションによる低忠実度画像を生成するためのパラメータが生成される。そして、画像処理部２４Ｆでは、受信側に配置される低忠実度画像生成部４７により、CGアバターアニメーションによる低忠実度画像が生成される。

　また、画像処理部２４Ｆでは、送信側において、相手側のユーザの視点位置（例えば、図２を参照して説明したデコード被写体視点情報）は、高忠実度画像生成部３３で使用される。一方、低忠実度画像生成部４７は、受信後に配置されているため、図２の低忠実度画像生成部３４とは異なり、被写体視点情報設定部４６で設定されたユーザ自身の視点位置の情報を使用することになる。

　図４０は、図３９の低忠実度画像生成パラメータ生成部４５の構成例を示すブロック図である。

　図４０に示すように、低忠実度画像生成パラメータ生成部４５は、人物スケルトン解析部１４１、人物ボディモデルパラメータ抽出部１４２、人物ボディモデルパラメータ動き推定部１４３、顔モデリングパラメータ抽出部１４４、顔モデルパラメータ動き推定部１４５、およびモデルパラメータ情報統合部１４６を備えて構成される。

　人物スケルトン解析部１４１は、入力映像信号から得られる一部の撮影画像に対し、人物スケルトン情報を生成して、人物ボディモデルパラメータ抽出部１４２に供給する。

　人物ボディモデルパラメータ抽出部１４２は、人物スケルトン解析部１４１から供給される人物スケルトン情報に基づいて、人物メッシュ情報を生成し、人物ボディモデルパラメータ動き推定部１４３およびモデルパラメータ情報統合部１４６に供給する。

　人物ボディモデルパラメータ動き推定部１４３は、被写体の動きに対応しており、人物メッシュ情報の各メッシュの頂点の動き（または、メッシュの幾何変換パラメータ）を示す人物メッシュ動き情報を求め、モデルパラメータ情報統合部１４６に供給する。

　顔モデリングパラメータ抽出部１４４は、入力映像信号から得られる解析情報を用い、解析情報が示す顔パーツ位置に従って、顔メッシュ情報を生成する。

　顔モデルパラメータ動き推定部１４５は、顔の動きに対応しており、顔メッシュ情報の各メッシュの頂点の動き（または、メッシュの幾何変換パラメータ）を示す顔メッシュ動き情報を求め、モデルパラメータ情報統合部１４６に供給する。

　モデルパラメータ情報統合部１４６は、人物メッシュ情報、人物メッシュ動き情報、顔メッシュ情報、および顔メッシュ動き情報を統合し、被写体メッシュ情報として出力する。さらに、モデルパラメータ情報統合部１４６は、被写体メッシュ情報から構成されるメッシュのうち、高忠実度表示領域情報に対応するメッシュに対してラベル付けを行い、高忠実度表示メッシュラベル情報として出力する。

　図４１は、図３９の符号化部３６Ｆの構成例を示すブロック図である。

　図４１に示すように、符号化部３６Ｆは、被写体視点情報符号化部１０１、映像コーデック符号化部１０２、およびストリーム統合部１０３を備える点で、図１７の符号化部３６と共通の構成となっており、さらに被写体メッシュ符号化部１０５および高忠実度表示メッシュラベル符号化部１０６を備えて構成される。

　被写体視点情報符号化部１０１は、被写体視点情報を符号化して、付加ストリームとしてストリーム統合部１０３に供給する。

　映像コーデック符号化部１０２は、上述したような各種のコーデックを用いて高忠実度画像を符号化して、映像ストリームとしてストリーム統合部１０３に供給する。

　被写体メッシュ符号化部１０５は、被写体メッシュ情報を符号化して、被写体メッシュストリームとしてストリーム統合部１０３に供給する。

　高忠実度表示メッシュラベル符号化部１０６は、忠実度表示メッシュラベル情報を符号化して、高忠実度表示メッシュラベルストリームとしてストリーム統合部１０３に供給する。

　ストリーム統合部１０３は、付加ストリーム、映像ストリーム、被写体メッシュストリーム、および高忠実度表示メッシュラベルストリームを統合し、符号化ストリームとして、伝送部３７に出力する。

　図４２は、図３９の復号部３９Ｆの構成例を示すブロック図である。

　図４２に示すように、復号部３９Ｆは、ストリーム分離部１１１、被写体視点情報復号部１１２、および映像コーデック復号部１１３を備える点で、図１８の復号部３９と共通の構成となっており、さらに被写体メッシュ復号部１１５および高忠実度表示メッシュラベル復号部１１６を備えて構成される。

　例えば、復号部３９Ｆでは、ストリーム分離部１１１は、図３９の受信部３８から供給される符号化ストリームを、付加ストリーム、映像ストリーム、被写体メッシュストリーム、および高忠実度表示メッシュラベルストリームに分離する。そして、ストリーム分離部１１１は、被写体メッシュストリームを被写体メッシュ復号部１１５に供給するとともに、高忠実度表示メッシュラベルストリームを高忠実度表示メッシュラベル復号部１１６に供給する。

　被写体メッシュ復号部１１５は、ストリーム分離部１１１から供給される被写体メッシュストリームを、デコード被写体メッシュ情報に復号して出力する。

　高忠実度表示メッシュラベル復号部１１６は、ストリーム分離部１１１から供給される高忠実度表示メッシュラベルストリームを、デコード高忠実度表示メッシュラベル情報に復号して出力する。

　図４３は、図３９の低忠実度画像生成部４７の構成例を示すブロック図である。

　図４３に示すように、低忠実度画像生成部４７は、アニメーションレンダリング部１５１、および、データベース１５２を備えて構成される。そして、低忠実度画像生成部４７は、低忠実度画像としてＣＧアバターアニメーションをレンダリングすることにより生成する。

　アニメーションレンダリング部１５１は、被写体視点情報で示される相手側のユーザの視点から見て、表示装置２２上で等身大に表示されるようにレンダリングを行う。アニメーションレンダリング部１５１は、相手側のユーザを被写体とした被写体メッシュ情報から構成される３Ｄメッシュ構造に、データベース１５２に予め登録されている各種情報（相手側のユーザのテクスチャ情報や、実物大サイズ情報、背景ＣＧ情報、光源情報など）を取得することで、レンダリングを行うことができる。

　さらに、アニメーションレンダリング部１５１は、被写体メッシュ情報に含まれる動き情報によってアニメーション再生を行い、低忠実度画像として出力する。同時に、アニメーションレンダリング部１５１は、デコード高忠実度表示メッシュラベル情報で示される領域に対応するマスク画像を生成し、これを補正高忠実度表示領域情報として出力する。

　なお、疑似視線一致画像生成部４８は、図２の疑似視線一致画像生成部３５が行う処理と同様に、補正高忠実度表示領域情報および低忠実度画像を用いるとともに、高忠実度画像に替えてデコード高忠実度画像を用いて、疑似視線一致画像を生成する。さらに、図２と同様に疑似視線一致画像表示部４０は、疑似視線一致表示画像を生成して表示装置２２に出力する。

　以上のように構成される画像処理部２４Ｆでは、CGアバターアニメーションによる低忠実度画像を生成するためのパラメータを相手側に送信し、相手側から送信されてくるパラメータに基づいて、CGアバターアニメーションによる低忠実度画像を生成することができる。

　上述した各実施の形態の画像処理部２４により、テレコミュニケーション装置１２のユーザどうしは、等身大の映像や実写ベースのアバターアニメーションを用いて、よりリアルなテレコミュニケーションを図ることができる。このとき、例えば、表示装置２２の内側に撮影装置を配置することなく、ユーザの視点位置などを考慮して、互いの視線を一致させるような映像コミュニケーション体験を提供することができる。

　＜画像処理部の第８の構成例＞
　図４４乃至図４８を参照して、画像処理部２４の第８の構成例について説明する。

　図４４は、画像処理部２４の第８の構成例を示すブロック図である。なお、図４４に示す画像処理部２４Ｇにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図４４に示すように、画像処理部２４Ｇは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｇは、疑似視線一致画像生成部３５Ｇを備えて構成される。

　画像処理部２４Ｇでは、被写体視点情報設定部３１から出力される解析情報が疑似視線一致画像生成部３５Ｇにも供給されるように構成されている。

　図４５は、図４４の疑似視線一致画像生成部３５Ｇの構成例を示すブロック図である。

　図４５に示すように、疑似視線一致画像生成部３５Ｇは、マスク画像フィルタ処理部９１、および高忠実度表示領域ブレンド処理部９２を備える点で、図１６の疑似視線一致画像生成部３５と共通の構成となっている。また、疑似視線一致画像生成部３５Ｇは、高忠実度判定部９３を備える点で、図３７の疑似視線一致画像生成部３５Ｅと共通の構成となっており、さらに妨害信号除去部９４を備えて構成される。

　妨害信号除去部９４には、被写体視点情報設定部３１から解析情報が供給され、高忠実度画像生成部３３から高忠実度画像が供給され、低忠実度画像生成部３４から低忠実度画像が供給される。そして、妨害信号除去部９４は、解析情報および低忠実度画像を用いて、高忠実度画像に含まれる視線一致の妨害となる信号を除去し、その妨害となる信号が除去された妨害除去高忠実度画像を高忠実度表示領域ブレンド処理部９２および高忠実度判定部９３に供給する。例えば、妨害信号除去部９４は、高忠実度表示領域ブレンド処理部９２によるアルファブレンド処理が行われる前に、ユーザの両目の近傍の領域における高忠実度画像と低忠実度画像との誤差量に応じて、視線一致を妨害する要素を高忠実度画像から除去する。

　具体的には、図４６に示すように、眼鏡を着用している場合、高忠実度画像生成部３３が高忠実度画像を生成する際に眼鏡のリムが変形することがあり、そのような眼鏡のリムの変形が視線一致の妨害となることが想定される。そこで、妨害信号除去部９４は、解析情報に基づいて、視線一致の妨害となることが想定される領域を特定し、その領域において、低忠実度画像に写されている変形していない眼鏡のリムを用いて、視線一致の妨害となる変形した眼鏡のリムを除去する。

　即ち、図４６の左側に示すような視線が一致していない低忠実度画像、および、眼鏡のリムが変形してしまった高忠実度画像に対し、上述の図３５のＡに示したマスク画像のように、眼鏡のリムが存在する部分を避けたブレンド比マップ画像に基づいてアルファブレンド処理が行われる。このとき、マスク画像フィルタ処理部９１（図１６参照）で平滑化されるため、高忠実度画像の目の領域に近接している歪んだ眼鏡のリムの一部が、視線一致を妨害する要素（妨害信号）となって疑似視線一致画像上で混入することがある。

　そこで、妨害信号除去部９４が、疑似視線一致画像上の妨害信号を除去し、図４６の右側に示すような妨害除去高忠実度画像を出力することで、高忠実度表示領域ブレンド処理部９２は、より視線を一致させることができる疑似視線一致表示画像を生成することができる。ここで、妨害信号除去部９４が、妨害信号を除去する対象となる領域は、図４６において太線の破線で示すように、両目の近傍の領域であって、図４６にグレーのハッチングが施されているように右目および左目それぞれに対応する目領域を除いた領域である。

　図４７は、図４４の妨害信号除去部９４の構成例を示すブロック図である。

　図４７に示すように、妨害信号除去部９４は、妨害信号除去対象領域設定部１６１、目領域設定部１６２、妨害信号除去ブレンド部１６３、および残存妨害信号除去平滑化部１６４を備えて構成される。

　妨害信号除去対象領域設定部１６１は、被写体視点情報設定部３１から供給される解析情報に基づいて、図４６を参照して説明したように両目を内包する領域を妨害信号除去対象領域として特定する。そして、妨害信号除去対象領域設定部１６１は、その妨害信号除去対象領域を妨害信号除去ブレンド部１６３に対して設定する。

　目領域設定部１６２は、被写体視点情報設定部３１から供給される解析情報に基づいて、図４６を参照して説明したように右目および左目それぞれに対応する領域を目領域として特定する。そして、目領域設定部１６２は、その目領域を妨害信号除去ブレンド部１６３および残存妨害信号除去平滑化部１６４に対して設定する。

　妨害信号除去ブレンド部１６３は、妨害信号除去対象領域設定部１６１により設定された妨害信号除去対象領域のうちの、目領域設定部１６２により設定された目領域以外の領域における高忠実度画像と低忠実度画像との誤差量を求める。そして、妨害信号除去ブレンド部１６３は、目領域を除いた妨害信号除去対象領域において、図４８に示すように、求めた誤差量が大きくなるのに伴って値が大きくなるような低忠実度画像のブレンド比を用いて、アルファブレンド処理を行う。

　一方、妨害信号除去ブレンド部１６３は、目領域設定部１６２により設定された目領域については、高忠実度画像をそのまま表示する。即ち、妨害信号除去ブレンド部１６３は、目領域における低忠実度画像のブレンド比を０としてアルファブレンド処理を行う。これにより、妨害信号除去ブレンド部１６３は、高忠実度画像の歪んだ眼鏡のリムの部分が、妨害信号として大部分が除去された妨害信号除去ブレンド画像を生成し、残存妨害信号除去平滑化部１６４に供給する。なお、妨害信号除去ブレンド画像には、図４６の中央に示したように、歪んだ眼鏡のリムの縁が除去されずに線状の妨害信号として残ってしまうことがある。

　残存妨害信号除去平滑化部１６４は、妨害信号除去ブレンド部１６３から供給される妨害信号除去ブレンド画像に残っている妨害信号に対して、例えば、インパルス的な信号を除去するメディアンフィルタなどのエッジ保存型の非線形フィルタによる平滑化処理を施す。これにより、残存妨害信号除去平滑化部１６４は、妨害信号除去ブレンド画像に残存していた妨害信号を全て除去した妨害除去高忠実度画像を生成し、後段の高忠実度表示領域ブレンド処理部９２および高忠実度判定部９３（図４５）に供給する。

　その後、疑似視線一致画像生成部３５Ｇでは、マスク画像フィルタ処理部９１、高忠実度表示領域ブレンド処理部９２、および高忠実度判定部９３において、図３７を参照して上述した疑似視線一致画像生成部３５Ｅと同様の処理が行われる。

　なお、残存妨害信号除去平滑化部１６４おいて、低忠実度画像の眼鏡のリムの部分は、エッジ部分はぼかさないようにするので、最終的に高忠実度表示領域ブレンド処理部９２でアルファブレンド処理された疑似視線一致画像の眼鏡のリム部分の再現性は維持される。このように構成される画像処理部２４Ｇは、目の領域付近でアーティファクトを発生させずに表示することができる。

　＜画像処理部の第９の構成例＞
　図４９乃至図５５を参照して、画像処理部２４の第９の構成例について説明する。

　図４９は、画像処理部２４の第９の構成例を示すブロック図である。なお、図４９に示す画像処理部２４Ｈにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図４９に示すように、画像処理部２４Ｈは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、低忠実度画像生成部３４、疑似視線一致画像生成部３５、伝送部３７、および受信部３８を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｈは、高忠実度画像生成部３３Ｈ、符号化部３６Ｈ、復号部３９Ｈ、および疑似視線一致画像表示部４０Ｈを備えて構成される。

　例えば、図２の画像処理部２４では、相手側のユーザの３次元実空間上での視点位置（世界座標で定義）に基づいて、表示装置２２上で表示される相手側のユーザの顔の大きさや目の位置が、実物大と等価になるように表示していた。これに対し、画像処理部２４Ｈでは、顔の部位による複数の撮影画像を用いた処理特性の違いを考慮して、より視線が合い易くなるような表示を行う。

　これは、顔の向きが異なると、知覚される視線方向は、顔の向きの方にずれて知覚されるという、ウォラストン錯視と称される現象に基づいた表示方法である。なお、ウォラストン錯視については、非特許文献「William Hyde Wollaston , "On the apparent direction of eyes in a portrait." Philosophical Transactions of the Royal Society of London, Vol. 114 (1824), pp. 247-256」において説明されている。

　具体的には、図５０に示すように、実際の姿勢が正面を向いている場合であっても、表示装置２２には、破線で示すような顔の向きとなる低忠実度画像と、点線で示すような目の向きとなる高忠実度画像とが重畳合成された状態で表示される。このため、一点鎖線で示すような視線の知覚方向は、点線で示すような真の目の向きに対し、破線で示すような顔向き方向にずれることになり、そのような方向で視線が知覚されてしまう。

　そこで、高忠実度画像生成部３３Ｈは、図２の高忠実度画像生成部３３と異なり、顔の部位による複数の撮影画像を用いた処理特性の差異に関係している仮想撮影位置情報を符号化部３６Ｈに供給する。

　例えば、図５１に示すように、高忠実度画像生成部３３Ｈは、図８の高忠実度画像生成部３３と同様に、高忠実度表示領域クロップ部７１を備えて構成され、さらに視点補間画像生成部７２Ｈを備えて構成される。視点補間画像生成部７２Ｈは、仮想撮影位置を設定し、この仮想撮影位置を示す仮想撮影位置情報を出力する。

　そして、符号化部３６Ｈは、図２の高忠実度画像生成部３３と同様に、被写体視点情報設定部３１から供給されるユーザ自身の被写体視点情報、および、疑似視線一致画像生成部３５から供給される疑似視線一致画像とともに、新たに仮想撮影位置情報を加えた形で符号化する。これにより、符号化部３６Ｈは、被写体視点情報、疑似視線一致画像、および仮想撮影位置情報が符号化された符号化ストリームを生成して、伝送部３７に供給する。

　一方、復号部３９Ｈでは、受信部３８から供給される符号化ストリームを復号して得られるデコード被写体視点情報およびデコード疑似視線一致画像に加え、新たにデコード仮想撮影位置情報を、疑似視線一致画像表示部４０Ｈに供給する。

　ここで、図５２は、図４９の疑似視線一致画像表示部４０Ｈの構成例を示すブロック図である。

　図５２に示すように、疑似視線一致画像表示部４０Ｈには、復号部３９Ｈから出力されるデコード被写体視点情報およびデコード疑似視線一致画像とともに、デコード仮想撮影位置情報が供給される。さらに、図１９の疑似視線一致画像表示部４０の等身大表示幾何補正パラメータ推定部１２１と等身大表示幾何補正処理部１２２に代わって、視線一致促進表示幾何補正パラメータ推定部１２１Ｈ、および視線一致促進表示幾何補正処理部１２２Ｈを備えて構成される。

　視線一致促進表示幾何補正パラメータ推定部１２１Ｈは、図１９の等身大表示幾何補正パラメータ推定部１２１と同様に、デコード被写体視点情報が示す相手側のユーザの３次元実空間上での視点位置（世界座標で定義）に基づいて、表示装置２２上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるようなパラメータを求めるが、そのパラメータをそのまま使用するのではなく、その状態を基準（以下、基準状態）として補正を加える。

　具体的には、図１９の等身大表示幾何補正パラメータ推定部１２１と同様に、表示装置２２の大きさや、デコード疑似視線一致画像の解像度を考慮するが、視線一致促進表示幾何補正パラメータ推定部１２１Ｈでは、それらに加え、デコード仮想撮影位置情報から求められる、デコード疑似視線一致画像を生成する際に設定された視点補間位置も考慮に入れて、視線一致促進表示幾何補正パラメータ推定部１２１Ｈが基準とした基準状態に対する補正量を決め、視線一致促進表示幾何補正パラメータを設定する。

　ここで、図５３乃至図５５を参照して、視線一致促進表示幾何補正パラメータ推定部１２１Ｈによる補正量の決定方法について説明する。なお、補正量の水平成分は、簡潔のため、左方向の補正と右方向の補正とに分けて考える。

　まず、図５３に示す左側×印を、デコード仮想撮影位置情報から求めたデコード疑似視線一致画像を生成する際に設定された視点補間位置とする。この場合、表示装置２２の上側に設置された撮影装置２１－１の垂直から、撮影装置２１－２および２１－３を結んだ直線までの距離を１．０に正規化すると、図５３に示す左側×印は、垂直方向をｒ_aと（１．０－ｒ_a）とに内分している。ここで、ｒ_aは、０．０から１．０までの数値である（0.0≦ｒ_a≦1.0）。

　一方、水平方向は、撮影装置２１－２および２１－３の中央の位置から、撮影装置２１－２までの距離を１．０に正規化すると、図５３に示す左側×印は、左側をｓ_aと（１．０－ｓ_a）とに内分している。ここで、Ｓ_aは、０．０から１．０までの数値である（0.0≦Ｓ_a≦1.0）。

　この状態で、上方向の補正量は、図５４のＡに示すグラフのように、ｒ_aの値が大きいほど視点補間位置が撮影装置２１－１から離れるように求められる。即ち、撮影装置２１－１の撮影画像をベースとした低忠実度画像の顔の向き（やや下向きに見える）と、３つの撮影装置２１－１乃至２１－３から視点補間位置で忠実に生成された高忠実度画像の目の向き（正面に見えるカメラ目線）の整合性が低くなる。従って、視線がやや下方向にずれて知覚されるので、上方向の補正量を大きくする。

　また、左方向の補正量は、図５４のＢのグラフのように、ｓ_aの値が大きいほど視点補間位置が撮影装置２１－２および２１－３の中央位置から離れるように求められる。即ち、上方向の補正量の設定方法と同様に、低忠実度画像の顔の向き（やや右向きに見える）と高忠実度画像の目の向き（正面に見えるカメラ目線）の整合性が低くなる。従って、視線がやや右方向にずれて知覚されるため、左方向の補正量を大きくする。

　最終的な、図５３に示す右側×印のときの補正量は、２次元ベクトル（ＤＸＬ,ＤＹ）で表現され、そのベクトルの分だけ、シフトした位置に補正して表示する。同様に、図５３に示す右側×印の場合は、図５４のＣのグラフで示すように、水平の補正量が右方向になる以外は、左側×印の場合と同様に２次元ベクトル（ＤＸＲ,ＤＹ）が決定される。

　以上より、視線一致促進表示幾何補正パラメータ推定部１２１Ｈは、このような決定方法で求めた補正量を反映して視線一致促進表示幾何補正パラメータを推定し、視線一致促進表示幾何補正処理部１２２Ｈに供給する。

　視線一致促進表示幾何補正処理部１２２Ｈは、デコード疑似視線一致画像に対して、視線一致促進表示幾何補正パラメータ推定部１２１Ｈから供給される視線一致促進表示幾何補正パラメータを用いた幾何補正を施す。これにより、視線一致促進表示幾何補正処理部１２２Ｈは、相手側のユーザが等身大となる大きさおよび位置（目の高さ）を基準とした状態から、上述した視点補間位置に基づいて、視線がより合いやすくなるように表示装置２２に表示されるような疑似視線一致表示画像を生成する。そして、視線一致促進表示幾何補正処理部１２２Ｈは、その疑似視線一致表示画像を、図１の表示装置２２に出力して表示させる。

　以上のように画像処理部２４Ｈが備える各ブロックは構成されており、例えば、相手側のユーザが表示されて行われる双方向コミュニケーションにおいて、図５５に示すように、実物大表示に対し、表示位置を補正することで、相手側のユーザと、より視線が合いやすくなった映像コミュニケーション体験を提供することができる。

　＜画像処理部の第１０の構成例＞
　図５６乃至図６２を参照して、画像処理部２４の第１０の構成例について説明する。

　図５６は、画像処理部２４の第１０の構成例を示すブロック図である。なお、図５６に示す画像処理部２４Ｊにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図５６に示すように、画像処理部２４Ｊは、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、符号化部３６、伝送部３７、受信部３８、復号部３９、および疑似視線一致画像表示部４０を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４Ｊは、被写体視点情報設定部３１Ｊ、および疑似視線一致画像生成部３５Ｊを備えて構成される。

　図５７は、図５６の被写体視点情報設定部３１Ｊの構成例を示すブロック図である。

　図５７に示すように、被写体視点情報設定部３１Ｊは、顔パーツ検出部５１、目領域対応点検出部５２、視点距離算出部５３、および被写体視点情報生成部５４を備える点で、図３の被写体視点情報設定部３１と共通の構成となっており、さらに視線方向検出部５６を備えて構成される。

　視線方向検出部５６には、入力撮影信号が供給されるとともに、顔パーツ検出部５１から解析情報が供給される。そして、視線方向検出部５６は、撮影装置２１－１乃至２１－３により撮影された３枚の撮影画像うち、少なくとも１枚の画像と、顔パーツ検出部５１で出力される顔の各パーツの特徴点の座標を示す解析情報とに基づいて、両目の瞳の視線方向を検出する。例えば、視線方向検出部５６は、非特許文献「"Rendering of Eyes for Eye-Shape Registration and Gaze Estimation" by Erroll Wood, et al. ICCV2015」などに開示されている技術を用いて視線方向を検出することができる。そして、視線方向検出部５６は、その検出結果を視線方向情報として疑似視線一致画像生成部３５Ｊに供給し、解析情報とともに視線方向情報が、被写体視点情報設定部３１Ｊから出力される。

　図５８は、図５６の疑似視線一致画像生成部３５Ｊの構成例を示すブロック図である。

　図５８に示すように、疑似視線一致画像生成部３５Ｊは、マスク画像フィルタ処理部９１、高忠実度表示領域ブレンド処理部９２、高忠実度判定部９３、および妨害信号除去部９４を備える点で、図４５の疑似視線一致画像生成部３５Ｇと共通の構成となっており、さらにキャッチライト強調部９５を備えて構成される。

　キャッチライト強調部９５には、被写体視点情報設定部３１から解析情報および視線方向情報が供給されるとともに、妨害信号除去部９４から妨害除去高忠実度画像が供給される。そして、キャッチライト強調部９５は、高忠実度表示領域ブレンド処理部９２によるアルファブレンド処理が行われる前に、予め、解析情報および視線方向を用いて妨害除去高忠実度画像中の瞳の映っているキャッチライトの部分を強調する。

　図５９は、図５８のキャッチライト強調部９５の構成例を示すブロック図である。

　図５９に示すように、キャッチライト強調部９５は、瞳領域検出部１７１、キャッチライト顕著性判定部１７２、およびキャッチライト強調処理部１７３を備えて構成される。ここで、図６０および図６１も参照して、キャッチライト強調部９５において行われる処理について説明する。

　瞳領域検出部１７１は、被写体視点情報設定部３１から供給された解析情報の目の顔パーツから、図６０に示すように、瞳（瞳孔＋虹彩）の境界に近接する４つの特徴点を結ぶ矩形領域を瞳領域情報として出力する。

　キャッチライト顕著性判定部１７２は、妨害信号除去部９４から供給された高忠実度妨害除去画像に対し、瞳領域検出部１７１から供給される瞳領域情報が示す矩形領域でキャッチライトが目立っている状態であるかを判定する。

　具体的には、キャッチライト顕著性判定部１７２は、まず、瞳領域情報が示す矩形領域の輝度信号に対し、図６１に示すような輝度の発生確率分布（ヒストグラム）を求める。図６１のＡには、より明るいキャッチライトが発生しているときの発生確率の一例が示されており、図６１のＢには、より暗いキャッチライトが発生しているときの発生確率の一例が示されている。続いて、キャッチライト顕著性判定部１７２は、キャッチライト顕著度ＣＬＳを、発生確率のＰｔｈを超えた中で最も高い輝度値Ｌｍａｘを、予め設定した高輝度を判定する閾値Ｌｔｈで除算すること（ＣＬＳ＝Ｌｍａｘ／Ｌｔｈ）により求める。但し、求められたキャッチライト顕著度ＣＬＳが１．０より大きい場合（ＣＬＳ＞１．０）、キャッチライト顕著性判定部１７２は、キャッチライト顕著度ＣＬＳを１．０とする。そして、キャッチライト顕著性判定部１７２は、このようにして求めたキャッチライト顕著度ＣＬＳをキャッチライト強調処理部１７３に供給する。

　キャッチライト強調処理部１７３には、キャッチライト顕著度ＣＬＳおよび視線方向情報が供給される。そして、キャッチライト強調処理部１７３は、キャッチライト顕著度ＣＬＳから、図６２のＡに示すような特性でキャッチライト不明瞭度Ｃｌｒに変換する。また、キャッチライト強調処理部１７３は、視線方向情報から視線方向の正面からのずれの大きさを正面視線誤差ＧＥとして求め、図６２のＢに示すような特性で正面視線度Ｆｇｒに変換する。

　そして、キャッチライト強調処理部１７３は、キャッチライト不明瞭度Ｃｌｒおよび正面視線度Ｆｇｒを用いて、妨害除去高忠実度画像の強調処理を行う。例えば、キャッチライト強調処理部１７３は、キャッチライト強調度Ｃｌｅを、キャッチライト不明瞭度Ｃｌｒおよび正面視線度Ｆｇｒを乗算すること（Ｃｌｅ＝Ｆｇｒ×Ｃｌｒ）により求める。これにより、図６２のＣに示すように、視線方向が正面に近くかつ、キャッチライトが不明瞭な状態なときほど、強調処理を強めて、キャッチライトを目立つようにすることができる。なお、キャッチライト強調処理部１７３の強調処理は、アンシャープマスクや、超解像、コントラスト強調、色強調などを用いることができる。

　このように構成される画像処理部２４Ｊは、照明環境が悪い状態においても、キャッチライトの手がかりにより、視線一致効果を高めることができる。

　＜画像処理部の第１１の構成例＞
　図６３乃至図６６を参照して、画像処理部２４の第１１の構成例について説明する。

　図６３は、画像処理部２４の第１１の構成例を示すブロック図である。なお、図６３に示す画像処理部２４Ｋにおいて、図２の画像処理部２４と共通する構成については同一の符号を付し、その詳細な説明は省略する。

　図６３に示すように、画像処理部２４Ｋは、被写体視点情報設定部３１、高忠実度表示領域設定部３２、高忠実度画像生成部３３、低忠実度画像生成部３４、疑似視線一致画像生成部３５、符号化部３６、伝送部３７、受信部３８、および復号部３９を備える点で、図２の画像処理部２４と共通する構成となっている。さらに、画像処理部２４は、疑似視線一致画像表示部４０Ｋを備えて構成される。

　例えば、画像処理部２４Ｋでは、表示装置２２上で表示される相手側のユーザの顔の大きさや目の位置を、実物大と等価な表示を基準として、顔の部位による複数の撮影画像を用いた処理特性の違いを考慮して、ウォラストン錯視に基づいた補正により、視線がより合いやすいように表示を行う点については、図４９を参照して上述した画像処理部２４Ｈと同様である。しかし、画像処理部２４Ｋでは、仮想撮影位置情報が付加情報として伝送されないように構成されており、顔の部位による複数の撮影画像を用いた処理特性の差異を、疑似視線一致画像表示部４０Ｋで検出する。

　図６４は、図６３の疑似視線一致画像表示部４０Ｋの構成例を示すブロック図である。

　図６４に示すように、疑似視線一致画像表示部４０Ｋには、図１９の疑似視線一致画像表示部４０と同様に、復号部３９から出力されるデコード被写体視点情報およびデコード疑似視線一致画像が供給される。また、疑似視線一致画像表示部４０Ｋは、図５２の疑似視線一致画像表示部４０Ｈと同様に、視線一致促進表示幾何補正処理部１２２Ｋを備えて構成される。さらに、疑似視線一致画像表示部４０Ｋは、視線一致促進表示幾何補正パラメータ推定部１２１Ｋ、顔パーツ検出部５１Ｋ、視線方向検出部１３２、および顔向き検出部１３３を備えて構成される。

　顔パーツ検出部５１Ｋは、図３に示した被写体視点情報設定部３１が備える顔パーツ検出部５１と同様に、デコード疑似視線一致画像に含まれる顔の各パーツの特徴点を示す座標を求める。

　視線方向検出部１３２は、上述した図５７の視線方向検出部５６と同様に、前段の顔パーツ検出部５１Ｋで検出された解析情報とデコード疑似視線一致画像から両目の視線方向を検出する。

　顔向き検出部１３３は、前段の顔パーツ検出部５１Ｋで検出された、目以外の解析情報を用いて、デコード疑似視線一致画像中の顔向きの検出を行う。例えば、顔向き検出部１３３は、非特許文献「"OpenFace: an open source facial behavior analysis toolkit" by Tadas Baltru?aitis, et al. in IEEE Winter Conference on Applications of Computer Vision, 2016」などに開示されている技術を用いて顔向きの検出を行う。また、これらの検出した方向は、図６５に示すような３次元空間軸上のベクトルの角度（roll, pitch, yaw）として表される。なお、本実施の形態において、顔向きとは、頭部の向きも含むものとする。

　視線一致促進表示幾何補正パラメータ推定部１２１Ｋには、視線方向検出部１３２により検出された両目の視線方向を示す視線方向情報と、顔向き検出部１３３により検出された顔向きを示す顔向き情報が供給される。そして、視線一致促進表示幾何補正パラメータ推定部１２１Ｋは、図６５に示すように、両目の視線方向と顔向きとの誤差に基づいて、視線一致促進表示幾何補正パラメータを推定する。

　具体的には、図６５に示すように、目の視線方向を示す３次元ベクトルと、顔向きを示す３次元ベクトルとが検出結果として得られたとする。この場合、これらの２つの３次元ベクトルの角度の誤差（ＲｏｌｌＤｉｆｆ，　ＰｉｔｃｈＤｉｆｆ，ＹａｗＤｉｆｆ）の３つの成分で表現されるとき、ピッチ誤差ＰｉｔｃｈＤｉｆｆの値に応じて、図６６のＡに示す特性に従って、上下方向の補正量を設定する。同様に、ヨー誤差ＹａｗＤｉｆｆの値に応じて、図６６のＢに示す特性に従って、左右方向の補正量を設定する。

　そして、最終的な二次元画像上の補正量は、２次元ベクトル（Hshift, Vshift）で表現され、そのベクトルの分だけ、シフトした位置に補正して表示する。以上より、視線一致促進表示幾何補正パラメータ推定部１２１Ｋは、上記の決定方法で求めた補正量を反映して視線一致促進表示幾何補正パラメータを推定し、視線一致促進表示幾何補正処理部１２２Ｋに供給する。

　なお、視線一致促進表示幾何補正処理部１２２Ｋは、上述の図５２を参照して説明した視線一致促進表示幾何補正処理部１２２Ｈと同様の動作を行う。即ち、視線一致促進表示幾何補正処理部１２２Ｋは、相手側のユーザが等身大となる大きさおよび位置（目の高さ）を基準とした状態から、上述した角度の誤差に基づいた補正量で、視線がより合いやすくなるように補正して表示装置２２に表示されるような疑似視線一致表示画像を生成する。

　以上のように画像処理部２４Ｋが備える各ブロックは構成されており、図４９の画像処理部２４Ｈと同様に、実物大表示に対し、表示位置を補正することで、付加情報を増やすことなく、相手側のユーザと、より視線が合いやすくなった映像コミュニケーション体験を提供することができる。

　＜コンピュータのハードウエアの構成例＞
　なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

　また、上述した一連の処理（画像処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

　図６７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

　そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
　を備える画像処理装置。
（２）
　前記第２のユーザの三次元空間上での視点位置に従って、前記第２のユーザが写されている前記出力画像から、前記第２のユーザを特定の大きさおよび位置で前記表示装置に表示させる表示画像を生成する表示画像生成部
　をさらに備える上記（１）に記載の画像処理装置。
（３）
　前記表示画像生成部は、前記第２のユーザの三次元空間上での視点位置、前記第２のユーザが写されている前記出力画像の解像度、および、前記表示装置の解像度および大きさに基づいたパラメータを用いた幾何補正を行い、前記第２のユーザが、実物と略同一の大きさで表示されるように前記表示画像を生成する
　上記（２）に記載の画像処理装置。
（４）
　前記第１のユーザを被写体とした複数枚の前記撮影画像に写されている前記第１のユーザの顔を解析して、それらの撮影画像上における前記顔の各パーツの特徴点を示す座標を求め、それらの座標に基づいて、前記第１のユーザの視点位置を示す被写体視点情報を取得する被写体視点情報設定部
　をさらに備え、
　前記被写体視点情報は、前記第１のユーザとテレコミュニケーションを行う相手となる前記第２のユーザ側において、前記第１のユーザが写されている前記出力画像から前記表示画像を生成する際に利用される
　上記（２）または（３）に記載の画像処理装置。
（５）
　前記高忠実度表示領域設定部は、前記被写体視点情報設定部が求めた前記特徴点を示す座標からなる解析情報を用いて、前記高忠実度表示領域を指定するマスク画像を生成する
　上記（４）に記載の画像処理装置。
（６）
　前記高忠実度画像生成部は、前記第１のユーザが撮影された複数枚の前記撮影画像から、前記高忠実度表示領域に対応する部分をクロップし、それらのクロップされた複数枚の画像に対して前記仮想撮影位置に従った視点補間処理を行うことにより、前記高忠実度画像を生成する
　上記（１）から（５）までのいずれかに記載の画像処理装置。
（７）
　前記低忠実度画像生成部は、前記第１のユーザが撮影された前記撮影画像に対して、前記第２のユーザの視点位置に従って前記仮想撮影位置から見た画像に近くなるように推定される射影変換パラメータを用いた射影変換処理を施すことにより、前記低忠実度画像を生成する
　上記（１）から（６）までのいずれかに記載の画像処理装置。
（８）
　前記低忠実度画像生成部は、前記高忠実度表示領域を指定するマスク画像に対して、前記射影変換パラメータを用いた射影変換処理を施すことで、前記低忠実度画像に対する射影変換の影響を反映させる補正を行う
　上記（７）に記載の画像処理装置。
（９）
　前記画像重畳部は、前記高忠実度表示領域を指定するマスク画像に対してフィルタ処理を施したブレンドマップ画像を生成し、前記ブレンドマップ画像で設定されるブレンド比に応じて、前記高忠実度画像および前記低忠実度画像をブレンドするアルファブレンド処理を行うことで、前記出力画像を生成する
　上記（１）から（８）までのいずれかに記載の画像処理装置。
（１０）
　前記第１のユーザの視点位置を示す被写体視点情報と、前記第１のユーザが写されている前記出力画像とを符号化して符号化ストリームを生成する符号化部と、
　前記符号化ストリームを、ネットワークを介して伝送される伝送ストリームとして出力する伝送部と
　をさらに備える上記（４）に記載の画像処理装置。
（１１）
　前記第２のユーザの視点位置を示す被写体視点情報と、前記第２のユーザが写されている前記出力画像とが符号化されて、ネットワークを介して伝送されてくる伝送ストリームを受信し、符号化ストリームに戻す受信部と、
　前記符号化ストリームを復号し、前記第２のユーザの視点位置を示す被写体視点情報と、前記第２のユーザが写されている前記出力画像とを前記表示画像生成部に供給する復号部と
　をさらに備える上記（２）から（１０）までのいずれかに記載の画像処理装置。
（１２）
　前記第１のユーザと前記第２のユーザとは同一の人物であり、
　前記高忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記高忠実度画像を生成するとともに、前記低忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記低忠実度画像を生成し、
　前記出力画像を左右反転させる鏡像表示処理を行う鏡像表示処理部
　をさらに備える上記（１）から（１１）までのいずれかに記載の画像処理装置。
（１３）
　前記高忠実度画像生成部および前記低忠実度画像生成部は、固定的な視点情報に基づいて前記高忠実度画像および前記低忠実度画像をそれぞれ生成し、
　前記マスク画像の代表位置および面積を、高忠実度表示情報として出力する高忠実度表示情報設定部
　をさらに備える上記（８）に記載の画像処理装置。
（１４）
　前記高忠実度画像生成部が前記高忠実度画像を生成するのに用いる前記撮影画像として、前記第１のユーザをズーム撮影し、前記低忠実度画像生成部が前記低忠実度画像を生成するのに用いる前記撮影画像として、前記第１のユーザを広角撮影するように、複数台の前記撮影装置に対する制御を行う撮影制御部
　をさらに備える上記（１）から（１２）までのいずれかに記載の画像処理装置。
（１５）
　前記高忠実度表示領域設定部は、前記第１のユーザが眼鏡を着用していると認識された場合、前記画像に写されている顔から眼鏡のリムの存在部分を避けて、前記高忠実度表示領域を設定する
　上記（１）から（１２）までのいずれかに記載の画像処理装置。
（１６）
　前記画像重畳部は、前記高忠実度画像と前記低忠実度画像との類似度に基づいて、類似度の高いほど、前記高忠実度画像のブレンド比が高くなるようなブレンド比マップ画像を生成し、そのブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする
　上記（９）に記載の画像処理装置。
（１７）
　前記低忠実度画像として、前記第２のユーザが写された画像から生成されるパラメータに基づいて、CG（Computer Graphics）アバタ画像を生成するアニメーションレンダリング部
　をさらに備える上記（１）から（１２）までのいずれかに記載の画像処理装置。
（１８）
　前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、前記第１のユーザの目の近傍の領域における前記高忠実度画像と前記低忠実度画像との誤差量に応じて、視線一致を妨害する要素を前記高忠実度画像から除去する除去部を有する
　上記（１６）に記載の画像処理装置。
（１９）
　前記第１のユーザを被写体とした少なくとも１枚の前記撮影画像と、前記第１のユーザの顔の各パーツの特徴点を示す座標からなる解析情報とに基づいて、前記第１のユーザの視線方向を検出する視線方向検出部を有する被写体視点情報設定部をさらに備え、
　前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、予め、前記解析情報および前記視線方向を用いて前記高忠実度画像の瞳領域のキャッチライトを強調するキャッチライト強調部を有する
　上記（１６）に記載の画像処理装置。
（２０）
　前記表示画像生成部は、前記第２のユーザが、実物と略同一の大きさで表示されるように生成した前記表示画像を、前記高忠実度画像を生成する際に設定された視点補間位置に基づいて、前記第１のユーザが前記第２のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
　上記（２）に記載の画像処理装置。
（２１）
　前記表示画像生成部は、前記第２のユーザが、実物と略同一の大きさで表示される前記表示画像を生成する際に、前記出力画像中の前記第２のユーザの視線方向を示す３次元ベクトルと、前記出力画像中の前記第２のユーザの顔向きを示す３次元ベクトルとの角度の誤差に基づいて、前記第１のユーザが前記第２のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
　上記（２）に記載の画像処理装置。
（２２）
　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
　ステップを含む画像処理方法。
（２３）
　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
　ステップを含む画像処理をコンピュータに実行させるプログラム。
（２４）
　　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
　　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
　　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
　　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
　を少なくとも含む第１の画像処理装置を備える第１のユーザ側のテレコミュニケーション装置と、
　　前記第１のユーザの三次元空間上での視点位置に基づいて、前記第１のユーザが写されている前記出力画像から、前記第１のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部
　を少なくとも含む第２の画像処理装置を備える第２のユーザ側のテレコミュニケーション装置と
　が、ネットワークを介して接続されるテレコミュニケーションシステム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　テレコミュニケーションシステム，　１２　テレコミュニケーション装置，　１３　ネットワーク，　２１　撮影装置，　２２　表示装置，　２３　情報処理装置，　２４　画像処理部，　２５　通信部，　３１　被写体視点情報設定部，　３２　高忠実度表示領域設定部，　３３　高忠実度画像生成部，　３４　低忠実度画像生成部，　３５　疑似視線一致画像生成部，　３６　符号化部，　３７　伝送部，　３８　受信部，　３９　復号部，　４０　疑似視線一致画像表示部

Claims

　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
　を備える画像処理装置。
　前記第２のユーザの三次元空間上での視点位置に従って、前記第２のユーザが写されている前記出力画像から、前記第２のユーザを特定の大きさおよび位置で前記表示装置に表示させる表示画像を生成する表示画像生成部
　をさらに備える請求項１に記載の画像処理装置。
　前記表示画像生成部は、前記第２のユーザの三次元空間上での視点位置、前記第２のユーザが写されている前記出力画像の解像度、および、前記表示装置の解像度および大きさに基づいたパラメータを用いた幾何補正を行い、前記第２のユーザが、実物と略同一の大きさで表示されるように前記表示画像を生成する
　請求項２に記載の画像処理装置。
　前記第１のユーザを被写体とした複数枚の前記撮影画像に写されている前記第１のユーザの顔を解析して、それらの撮影画像上における前記顔の各パーツの特徴点を示す座標を求め、それらの座標に基づいて、前記第１のユーザの視点位置を示す被写体視点情報を取得する被写体視点情報設定部
　をさらに備え、
　前記被写体視点情報は、前記第１のユーザとテレコミュニケーションを行う相手となる前記第２のユーザ側において、前記第１のユーザが写されている前記出力画像から前記表示画像を生成する際に利用される
　請求項２に記載の画像処理装置。
　前記高忠実度表示領域設定部は、前記被写体視点情報設定部が求めた前記特徴点を示す座標からなる解析情報を用いて、前記高忠実度表示領域を指定するマスク画像を生成する
　請求項４に記載の画像処理装置。
　前記高忠実度画像生成部は、前記第１のユーザが撮影された複数枚の前記撮影画像から、前記高忠実度表示領域に対応する部分をクロップし、それらのクロップされた複数枚の画像に対して前記仮想撮影位置に従った視点補間処理を行うことにより、前記高忠実度画像を生成する
　請求項１に記載の画像処理装置。
　前記低忠実度画像生成部は、前記第１のユーザが撮影された前記撮影画像に対して、前記第２のユーザの視点位置に従って前記仮想撮影位置から見た画像に近くなるように推定される射影変換パラメータを用いた射影変換処理を施すことにより、前記低忠実度画像を生成する
　請求項１に記載の画像処理装置。
　前記低忠実度画像生成部は、前記高忠実度表示領域を指定するマスク画像に対して、前記射影変換パラメータを用いた射影変換処理を施すことで、前記低忠実度画像に対する射影変換の影響を反映させる補正を行う
　請求項７に記載の画像処理装置。
　前記画像重畳部は、前記高忠実度表示領域を指定するマスク画像に対してフィルタ処理を施したブレンドマップ画像を生成し、前記ブレンドマップ画像で設定されるブレンド比に応じて、前記高忠実度画像および前記低忠実度画像をブレンドするアルファブレンド処理を行うことで、前記出力画像を生成する
　請求項１に記載の画像処理装置。
　前記第１のユーザの視点位置を示す被写体視点情報と、前記第１のユーザが写されている前記出力画像とを符号化して符号化ストリームを生成する符号化部と、
　前記符号化ストリームを、ネットワークを介して伝送される伝送ストリームとして出力する伝送部と
　をさらに備える請求項４に記載の画像処理装置。
　前記第２のユーザの視点位置を示す被写体視点情報と、前記第２のユーザが写されている前記出力画像とが符号化されて、ネットワークを介して伝送されてくる伝送ストリームを受信し、符号化ストリームに戻す受信部と、
　前記符号化ストリームを復号し、前記第２のユーザの視点位置を示す被写体視点情報と、前記第２のユーザが写されている前記出力画像とを前記表示画像生成部に供給する復号部と
　をさらに備える請求項２に記載の画像処理装置。
　前記第１のユーザと前記第２のユーザとは同一の人物であり、
　前記高忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記高忠実度画像を生成するとともに、前記低忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記低忠実度画像を生成し、
　前記出力画像を左右反転させる鏡像表示処理を行う鏡像表示処理部
　をさらに備える請求項１に記載の画像処理装置。
　前記高忠実度画像生成部および前記低忠実度画像生成部は、固定的な視点情報に基づいて前記高忠実度画像および前記低忠実度画像をそれぞれ生成し、
　前記マスク画像の代表位置および面積を、高忠実度表示情報として出力する高忠実度表示情報設定部
　をさらに備える請求項８に記載の画像処理装置。
　前記高忠実度画像生成部が前記高忠実度画像を生成するのに用いる前記撮影画像として、前記第１のユーザをズーム撮影し、前記低忠実度画像生成部が前記低忠実度画像を生成するのに用いる前記撮影画像として、前記第１のユーザを広角撮影するように、複数台の前記撮影装置に対する制御を行う撮影制御部
　をさらに備える請求項１に記載の画像処理装置。
　前記高忠実度表示領域設定部は、前記第１のユーザが眼鏡を着用していると認識された場合、前記画像に写されている顔から眼鏡のリムの存在部分を避けて、前記高忠実度表示領域を設定する
　請求項１に記載の画像処理装置。
　前記画像重畳部は、前記高忠実度画像と前記低忠実度画像との類似度に基づいて、類似度の高いほど、前記高忠実度画像のブレンド比が高くなるようなブレンド比マップ画像を生成し、そのブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする
　請求項９に記載の画像処理装置。
　前記低忠実度画像として、前記第２のユーザが写された画像から生成されるパラメータに基づいて、CG（Computer Graphics）アバタ画像を生成するアニメーションレンダリング部
　をさらに備える請求項１に記載の画像処理装置。
　前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、前記第１のユーザの両目の近傍の領域における前記高忠実度画像と前記低忠実度画像との誤差量に応じて、視線一致を妨害する要素を前記高忠実度画像から除去する除去部を有する
　請求項１６に記載の画像処理装置。
　前記第１のユーザを被写体とした少なくとも１枚の前記撮影画像と、前記第１のユーザの顔の各パーツの特徴点を示す座標からなる解析情報とに基づいて、前記第１のユーザの視線方向を検出する視線方向検出部を有する被写体視点情報設定部をさらに備え、
　前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、予め、前記解析情報および前記視線方向を用いて前記高忠実度画像の瞳領域のキャッチライトを強調するキャッチライト強調部を有する
　請求項１６に記載の画像処理装置。
　前記表示画像生成部は、前記第２のユーザが、実物と略同一の大きさで表示されるように生成した前記表示画像を、前記高忠実度画像を生成する際に設定された視点補間位置に基づいて、前記第１のユーザが前記第２のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
　請求項２に記載の画像処理装置。
　前記表示画像生成部は、前記第２のユーザが、実物と略同一の大きさで表示される前記表示画像を生成する際に、前記出力画像中の前記第２のユーザの視線方向を示す３次元ベクトルと、前記出力画像中の前記第２のユーザの顔向きを示す３次元ベクトルとの角度の誤差に基づいて、前記第１のユーザが前記第２のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
　請求項２に記載の画像処理装置。
　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
　ステップを含む画像処理方法。
　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
　ステップを含む画像処理をコンピュータに実行させるプログラム。
　　第１のユーザが写されている画像で、前記第１のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
　　表示装置の外側に配置された複数台の撮影装置それぞれにより前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第１の画像生成処理を行って、前記表示装置に表示される第２のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第１のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
　　前記第１のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第２の画像生成処理を行って、前記仮想撮影位置から前記第１のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
　　前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
　を少なくとも含む第１の画像処理装置を備える第１のユーザ側のテレコミュニケーション装置と、
　　前記第１のユーザの三次元空間上での視点位置に基づいて、前記第１のユーザが写されている前記出力画像から、前記第１のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部
　を少なくとも含む第２の画像処理装置を備える第２のユーザ側のテレコミュニケーション装置と
　が、ネットワークを介して接続されて構成されるテレコミュニケーションシステム。