JP2019075162A

JP2019075162A - 画像処理装置

Info

Publication number: JP2019075162A
Application number: JP2018248410A
Authority: JP
Inventors: 奈保徳井; Nao Tokui
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-09-24
Filing date: 2018-12-28
Publication date: 2019-05-16
Also published as: US9635311B2; JP2018010677A; WO2015045713A1; JPWO2015045713A1; JP6499583B2; US20160255303A1

Abstract

【課題】撮像部の撮像方向と表示部の表示方向が揃うような場合に、好適な画像を生成する画像処理装置を提供する。【解決手段】画像表示装置１０２において、画像処理装置１０１は、入力された画像から被写体の顔位置情報と顔大きさ情報とを検出する顔情報検出部１０７と、被写体の視線情報を算出する視線情報算出部１０８と、顔位置情報と顔大きさ情報と顔の立体形状を表す顔立体形状テンプレート情報とを用いて被写体の顔モデルを生成する顔モデル生成部１０９と、視線情報と顔モデルとに基づいて被写体の視線方向が撮像部を向くように補正した画像を生成する画像生成部１１０と、を備える。視線情報算出部１０８は、顔位置情報と顔大きさ情報とから被写体の視線情報を算出する。【選択図】図１

Description

本発明は、撮像部の撮像方向と表示部の表示方向が揃うような場合に好適な画像を生成する画像処理装置、及びその画像処理装置を備える画像表示装置に関する。

携帯電話、タブレット、ノートＰＣやテレビなどの各種ディスプレイにおいて、撮像部の撮像方向と表示部の表示方向とを同一の方向に向けて配置し、自分の顔を被写体として撮像する方法がある。

この方法の代表的なアプリケーションには以下の２つがある。１つは、撮像した画像を左右反転させて鏡像表示することで自分の顔の確認が必要な化粧などの作業を可能にするミラー機能である。もう１つは、遠隔地の相手が保有するディスプレイに撮像画像を表示することで遠隔地の相手との会話を可能にするビデオチャット、もしくはＴＶ会議機能である。

ミラー機能では表示部に自分の顔が表示され、ビデオチャットでは表示部に相手の顔が表示されるため、使用者は撮像部ではなく、表示部を注視することになる。撮像される被写体の視線方向と撮像部の撮像方向が一致しないため、撮像される被写体は正面を向いておらず、遠隔地にいる相手、もしくは被写体本人が撮像画像を見ても被写体と視線が一致しない状態となる。この被写体の視線方向を補正する方法として、例えば、下記特許文献１では、入力された画像データに含まれる人物の視線が画像データの正面を向くように、画像データに含まれる人物の眼瞼裂領域（眼球の露出領域）の画素を変更することによって虹彩及び瞳孔の位置を変更する方法が開示されている。

特開２００９−２４６４０８号公報

しかしながら、先述した方法では、顔ベクトルの向きと画像データ正面の向きとの差にもとづいて、ユーザの視線が画像データの正面を向くように、虹彩モデルおよび瞳孔モデルの配置位置を決定するため、例えば顔は横を向いているが視線は正面を向いているなど、顔の向きと視線の向きとが異なる場合、視線が横を向いたような画像が生成されてしまい、好適な画像を生成することが困難であった。

本発明は上記課題を鑑みて発明されたものであり、撮像部の撮像方向と表示部の表示方向が揃うような場合に、好適な画像を生成する画像処理装置を提供することを目的とする。

本発明の一観点によれば、入力された画像から被写体の顔位置情報と顔大きさ情報とを検出する顔情報検出部と、前記被写体の視線情報を算出する視線情報算出部と、前記顔位置情報と前記顔大きさ情報と顔の立体形状を表す顔立体形状テンプレート情報とを用いて前記被写体の顔モデルを生成する顔モデル生成部と、前記視線情報と前記顔モデルとに基づいて前記被写体の視線方向が撮像部を向くように補正した画像を生成する画像生成部と、を備え、前記視線情報算出部は、前記顔位置情報と前記顔大きさ情報とから前記被写体の前記視線情報を算出することを特徴とする画像処理装置が提供される。

ユーザは、表示部に表示された画像の目領域付近を見ていると仮定し、画像中の被写体の目領域の位置から、ユーザの視線情報を算出することができる。

本明細書は本願の優先権の基礎である日本国特許出願２０１３−１９６６２７号の明細書および／または図面に記載される内容を包含する。

本発明によれば、撮像部の撮像方向と表示部の表示方向が揃うような場合に、被写体の視線方向に応じて視線方向を変更した画像を生成することができ、好適な画像を生成できるようになる。

本発明の第１の実施の形態による画像処理装置を備える撮像部付き画像表示装置の一構成例を示す機能ブロック図である。顔情報検出部で検出される顔位置情報と顔大きさ情報とを説明する図である。撮像部とユーザの視線位置との関係を説明する図である。撮像方向とユーザの視線方向とのずれを説明する図である。顔と顔に対応する顔立体形状テンプレート情報を説明する図である。入力画像と入力画像に対応する顔モデルとを説明する図である。入力画像と視線補正画像を説明するための図である。本発明の第１の実施の形態における画像処理の流れを示すフローチャート図である。本発明の第２の実施の形態による画像処理装置を備える撮像部付き画像表示装置の一構成例を示す機能ブロック図である。画像生成に好適と判定される領域を説明するための図である。適合度により画像変換を行った例を示す図である。本発明の第２の実施の形態における画像処理の流れを示すフローチャート図である。本発明の第３の実施の形態による画像処理装置を備える撮像部付き画像表示装置の一構成例を示す機能ブロック図である。第３の実施の形態による画像表示装置の傾き角を示す軸を表す図である。第３の実施の形態による画像表示装置の傾き角を示す軸と画像のＸＹ軸との関係を表す図である。本発明の第３の実施の形態における画像処理の流れを示すフローチャート図である。本発明の第４の実施の形態による画像処理装置を備える撮像部付き画像表示装置の一構成例を示す機能ブロック図である。本発明の第４の実施の形態における画像処理の流れを示すフローチャート図である。本発明の第５の実施の形態による画像処理装置を備える撮像部付き画像表示装置の一構成例を示す機能ブロック図である。本発明の第５の実施の形態における画像処理の流れを示すフローチャート図である。

以下、添付図面を参照して本発明の実施の形態について説明する。なお、添付図面は本発明の原理に則った具体的な実施の形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。また、各図における構成は、理解しやすいように誇張して記載しており、実際の間隔や大きさとは異なる。

＜第１の実施の形態＞
図１は、本発明の実施の形態による画像処理装置１０１を備える画像表示装置１０２の一構成例を示す機能ブロック図であり、画像表示装置１０２の撮像部１０３で被写体を撮像して、撮像した自分の画像から好適な画像を生成し、生成画像を表示部１０４に表示する場合の例を示す。

以下、本発明の第１の実施の形態のシステム構成例及び動作の詳細を、図１を参照しながら詳細に説明する。図１に示す画像表示装置１０２は、撮像部１０３と、表示部１０４と、記憶部１０５と、画像処理装置１０１と、入出力部１０６と、を備える。

撮像部１０３は、撮像レンズ及びＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）やＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔaｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等の撮像素子を備えており、被写体の静止画や動画を撮像できる。

表示部１０４は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：液晶ディスプレイ）や有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどの表示画面であり、画像や文字などの情報や被写体の画像等を表示する。

画像処理装置１０１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）やＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：画像処理用処理装置）等で構成することができ、撮像部１０３、記憶部１０５、入出力部１０６等から画像を取得して処理し、表示部１０４、記憶部１０５等へ処理後の画像を出力する。

また、画像処理装置１０１は、顔情報検出部１０７と視線情報算出部１０８と顔モデル生成部１０９と画像生成部１１０とを備えている。

顔情報検出部１０７は、画像処理装置１０１に入力される画像から、顔情報（被写体の顔位置情報と顔大きさ情報）を抽出する。

視線情報算出部１０８は、顔情報検出部１０７で検出された顔情報を基に、ユーザの視線情報を算出する。

顔モデル生成部１０９は、顔情報検出部１０７で検出された顔情報と、顔立体形状テンプレート情報とを基に、被写体に応じた顔モデルを生成する。顔立体形状テンプレート情報については後述する。

画像生成部１１０は、被写体の視線情報と顔モデルとを基に、被写体の視線方向と撮像部１０３の視線方向を一致させるように、被写体の視線方向を補正した画像を生成する。

記憶部１０５は、例えばフラッシュメモリやハードディスクであり、画像と顔立体形状テンプレート情報等を記憶したり、機器固有のデータを保存したりする。

入出力部１０６は、キーボタンやマイクやスピーカー等の音声入出力装置等、ユーザの命令や音声などを画像処理装置に入力したり音声を出力したりする。

以上が第１の実施の形態におけるシステム構成例である。

次に、第１の実施の形態における画像表示装置１０２の動作について図２から図７までを参照して詳しく説明する。まず、顔検出の動作について、図２を用いて詳しく説明する。

図２は、顔情報検出部１０７で検出される顔位置情報と顔大きさ情報とを説明する図である。

顔情報検出部１０７は、画像から、被写体の顔情報として、顔位置情報と顔大きさ情報とを検出する。ここで、顔位置情報とは、例えば、検出された顔領域の左上座標２０１のことである。顔領域の左上座標２０１とは、画像の横方向をｘ軸、縦方向をｙ軸、画像の左上座標を原点２０２（ｘ、ｙ）＝（０、０）としたとき、（ｘ、ｙ）＝（ｘ軸成分２０３、ｙ軸成分２０４）となる位置のことである。顔大きさ情報とは、検出された顔領域の横画素数２０５と縦画素数２０６のことである。

画像から顔位置情報と顔大きさ情報とを検出する方法は、顔の色と考えられる肌色を検出して顔領域を特定する方法や、多数の顔画像と顔以外の画像（非顔）の学習サンプルから統計的に識別関数を求め、顔位置情報と顔大きさ情報を検出する方法（Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ，“Ｒａｐｉｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｕｓｉｎｇａｂｏｏｓｔｉｎｇｃａｓｃａｄｅｏｆｓｉｍｐｌｅｆｅａｔｕｒｅｓ”，Ｐｒｏｃ．ＩＥＥＥＣｏｎｆ．ＣＶＰＲ，ｐｐ．５１１−５１８，２００１参照）が知られており、上述した方法を用いることで実現できる。以上により、顔位置情報と顔大きさ情報との検出がなされる。

次に、視線情報算出部１０８の動作について、図３及び図４を用いて説明する。図３は撮像部１０３とユーザの視線位置との関係を説明する図である。図４は撮像方向とユーザの視線方向とのずれを説明する図である。

視線情報算出部１０８では、ユーザは表示部１０４に表示された画像の目領域付近を見ていると仮定し、画像中の被写体の目領域の位置から、ユーザの視線情報を算出する。すなわち、ミラー機能ではユーザは表示部１０４に表示されている自分の顔を見ていると仮定し、ビデオチャット機能ではユーザは表示部１０４に表示されている相手の顔を見ていると仮定する。ユーザの視線情報は、撮像部１０３と表示部１０４との関係と、ディスプレイパラメータと、顔情報検出部１０７で検出された顔情報とを基に算出する。撮像部１０３と表示部１０４との関係は、撮像部１０３と画像の左上座標３０２との距離[ｍｍ]のＸ軸成分Ｇ_ｘ３０３［ｍｍ］とＹ軸成分Ｇ_ｙ３０４［ｍｍ］で表す。ディスプレイパラメータは、ディスプレイピクセルピッチｐ_ｄ［ｍｍ／ピクセル］を用いる。撮像部１０３とユーザの視線位置３０５との距離Ｅ３０６［ｍｍ］のＸ軸成分Ｅ_ｘ３０７［ｍｍ］とＹ軸成分Ｅ_ｙ３０８［ｍｍ］は式（１）と式（２）とで表すことができる。

（１）

（２）

ここで、Ｅ_ｐｏｓｘ［ピクセル］は顔領域の左上座標２０１から被写体の目領域の中心位置までのＸ軸方向の長さ３０９を表す。Ｅ_ｐｏｘｙ［ピクセル］は顔領域の左上座標２０１から被写体の目領域の中心位置３０５までのＹ軸方向の長さ３１０を表す。顔領域における目領域の位置３０５は、顔検出に使用する手法によって変動するため、Ｅ_ｐｏｓｘとＥ_ｐｏｘｙの値は初期値を顔領域の中心位置としておき、後で任意の値に変更できるようにしておく。このように、ユーザの視線の位置を撮像部１０３からの距離として表すことで、次に述べる撮像部１０３の撮像方向とユーザの視線方向とのずれを角度で算出することが容易となる。

上述した手法により算出したユーザの視線位置（Ｅ_ｘ，Ｅ_ｙ）３０５を用いて、撮像部１０３の撮像方向とユーザの視線方向とのずれを角度で表す方法を説明する。図４（ａ）、（ｂ）に示すように撮像部１０３の撮像方向と被写体の視線方向との左右方向のずれθ_ｘ４０２と上下方向のずれθ_ｙ４０３は式（３）と式（４）とで算出できる。

（３）

（４）

ここで、画像表示装置１０２と被写体までの距離を距離Ｚ４０４［ｍｍ］とする。画像表示装置１０２と被写体までの距離Ｚ４０４は、式（５）で算出できる。

（５）

ここで、撮像画像の縦解像度をＨ［ピクセル］、顔立体形状テンプレート情報に格納されている顔の長さをＦ［ｍｍ］、顔大きさ情報から得られる顔の縦画素数をＬ［ピクセル］、カメラの画角をＡ［ｍｍ］とする。以上の処理により、視線情報としてユーザの視線位置（Ｅ_ｘ、Ｅ_ｙ）とユーザの視線方向と撮像方向とのずれの角度（θ_ｘ、θ_ｙ）とを算出し、画像生成部に出力する。

次に、顔モデル生成の動作について図５及び図６を用いて説明をする。図５は顔と顔に対応する顔立体形状テンプレート情報を説明する図である。図６は入力画像と入力画像に対応する顔モデルとを説明する図である。まず、顔モデル生成に用いる顔の立体形状を表す顔立体形状テンプレート情報について詳しく説明する。顔立体形状テンプレート情報とは、図５のように顔５０１の立体形状が記録されたデータ５０２のことである。ここでは、簡単のために被写体の顔を球として表現している。顔立体形状テンプレート情報は、人間の顔の平均顔であり、複数人のサンプルから取得した顔の立体形状を平均して作成することができる。また、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃ）を用いても作成することができる。

図５に示した顔立体形状テンプレート情報５０２は、画像表示装置１０２から顔までの距離を画素毎に格納した画像であり、顔の立体形状を輝度値で表している。画像表示装置に近い顔の部分ほど明るい画素で、距離が遠いほど暗い画素で表している。この顔立体形状テンプレート情報を用いて、顔モデルの生成を行う。

顔モデル生成は、次に示す２段階の処理を行う。１段階目は、顔立体形状テンプレート情報が有する距離ヒストグラムを調整した中間顔モデルを生成する。距離ヒストグラムとは、横軸を距離、縦軸をその距離が出現する頻度で表したものである。距離ヒストグラムを用いることで、顔立体形状テンプレート情報が有する距離の分布状況を視覚的に認識することができる。距離ヒストグラムの分布が大きいほど顔に厚みがあり、距離ヒストグラムの分布が小さいほど顔に厚みがないことを表す。２段階目は、中間顔モデルの縦解像度と横解像度を変更する。

まず、１段階目の顔立体形状テンプレート情報の距離ヒストグラムの調整方法について、詳しく説明する。被写体の顔領域が有する距離ヒストグラムは、画像表示装置１０２と被写体までの距離によって、最大値と最小値は変化するが、分布の大きさは変化しない。画像表示装置１０２と被写体までの距離を距離ヒストグラムの最小値とし、その最小値に顔立体形状テンプレート情報が有する人間の顔の奥行きを加算した値を、距離ヒストグラムの最大値とする。通常は鼻先端から後頭部までが人間の顔の奥行きとなるが、撮像部１０３で撮像する際、後頭部部分は遮蔽領域となり撮像できないことが多いため、鼻先端から頬までの距離とすると保持しておくデータ量が少なくなり好適である。また、画像表示装置１０２と被写体までの距離Ｚ［ｍｍ］は、式（５）を用いて顔大きさ情報から得られる顔の縦画素数Ｌ［ピクセル］から推定する。上述した手法により、検出された顔大きさ情報から画像表示装置１０２と被写体までの距離を算出し、算出された画像表示装置１０２と被写体までの距離を用いて、中間顔モデルが有する距離ヒストグラムの最小値と最大値とを決定する。

顔立体形状テンプレート情報の距離ヒストグラムの最小値と最大値の変更は、式（６）を用いて行う。

（６）

ここで、変数Ｄは変換前の距離を、変数Ｄ’は変換後の距離を表す。変数Ｍ_ｍａｘは変更前の距離ヒストグラムの最大値を、変数Ｍ_ｍｉｎは変更前の距離ヒストグラムの最小値を表し、変数Ｒ_ｍａｘは変更後の距離ヒストグラムの最大値を、変数Ｒ_ｍｉｎは変更後の距離ヒストグラムの最小値を表す。以上の処理により、顔大きさ情報を用いて顔立体形状テンプレート情報の距離ヒストグラムを調整し、中間顔モデルとして生成する。

次に、２段階目の中間顔モデルの縦解像度と横解像度を変更する処理について詳しく説明する。中間顔モデルの縦解像度と横解像度を、検出された顔領域の縦解像度と横解像度が等しくなるように、中間顔モデルを拡大あるいは縮小する。すなわち、中間顔モデルの解像度よりも検出された顔の解像度が大きい場合は、中間顔モデルを縮小する。中間顔モデルの解像度よりも検出された顔の解像度が小さい場合は、中間顔モデルを縮小する。以上の拡大あるいは縮小処理により、顔大きさ情報と同じ大きさとなった中間顔モデルを、画像６０１と同じ解像度の画像６０２に、画像６０１中の顔領域の左上座標６０３と、中間顔モデルの左上座標６０４とが同じになるように配置する。中間顔モデルを配置した画像６０２を顔モデルとして、画像生成部に出力する。

上述の方法は、被写体の顔の立体形状を取得するために画像表示装置１０２に新たなセンサを追加したり、立体形状算出処理などの複雑な処理を実行したりする必要がなく、簡易なシステムで被写体の顔モデルを生成し、被写体の正面顔生成に活用できるため好適である。また、顔立体形状テンプレート情報とその顔部品情報の位置情報を検出しておき、さらに顔情報検出部１０７において顔部品情報を検出するようにすると、顔立体形状テンプレート情報の顔部品情報の位置情報と、検出された顔領域の顔部品情報の位置情報が一致するように、顔立体形状テンプレート情報を変形でき、次に説明する画像生成の際に、より品質の高い視線補正画像を生成できるため好適である。

最後に、画像生成の動作について図７を用いて詳しく説明する。図７は入力画像（ａ）と視線補正画像（ｂ）を説明するための図である。画像生成部１１０は、視線情報と顔モデルと画像７０１とを用いて、被写体の視線が補正された画像７０２を生成する。次に、視線補正画像を生成する方法を説明する。画像７０１に対応する顔モデル、すなわち顔の距離データを用いて画像７０１の各画素における３次元空間での位置を変換し、視線方向が補正された画像を生成する。この３次元空間での位置変換は、視線情報に基づいて行う。視線情報である被写体の視線方向と撮像部１０３の撮像方向とのＸ軸方向のずれθ_ｘに応じて、左右方向にずれている角度分を修正し、被写体の視線方向と撮像部１０３の撮像方向とのＹ軸方向のずれθ_ｙに応じて上下方向にずれている角度分を修正するように、画像上の画素を補正する。

以上のように被写体の顔位置情報と顔大きさ情報とを用いて視線情報を算出することにより、被写体の視線方向に応じた視線補正画像を生成することができる。

以上、上記動作の流れを図８に示すフローチャートを用いて説明をする。

まず、ステップＳ８０１において、画像処理装置１０１は、撮像部１０３から撮像画像を取り込む。次に、ステップＳ８０２において、顔情報検出部１０７が、撮像画像から顔大きさ情報や顔位置情報などの顔情報を検出する（図３）。次に、ステップＳ８０３において、視線情報算出部１０８が、顔情報を用いて被写体の視線情報を算出する（図４）。

次に、ステップＳ８０４において、画像処理装置１０１は、記憶部１０５から顔立体形状テンプレート情報を取得する（図５）。次に、ステップＳ８０５において、顔モデル生成部１０９は、顔モデル生成を行う。顔モデル生成では、顔大きさ情報を基に顔立体形状テンプレート情報を変換し、顔モデルを生成する（図６）。

次に、ステップＳ８０６において、画像生成部１１０は、顔モデルと視線情報とを用いて、撮像画像中の被写体の視線方向と撮像部１０３の撮像方向とを一致させるように被写体の視線方向を変更した画像を生成する（図７）。そして、ステップＳ８０７において、画像生成部１１０が、生成した画像を表示部１０４に出力する。以上が画像処理装置１０１の動作の流れである。以上のようにして、第１の実施の形態の画像表示装置１０２は動作する。

上述した本実施の形態に係る画像処理装置１０１を備える画像表示装置１０２によれば、被写体の視線方向に応じて適切に画像処理することができ、好適な画像を表示することができる。

また、本実施の形態では顔立体テンプレート情報が１つであった場合で説明したが、複数の顔立体形状テンプレート情報から適切なものを選択するようにしても良い。例えば、検出された顔部品情報や顔大きさ情報等から、被写体の目の幅や顔部品情報の配置や顔の形等の顔の情報を解析し、年齢や顔の形や彫りの深さ等の顔の立体形状を推定し、推定した顔の立体形状に最も近い顔立体形状テンプレート情報を選択する。これにより、ユーザに適した顔立体形状テンプレート情報で画像処理を行うため、生成される画質を向上させることができ好適である。

さらに、ユーザの顔の立体形状に似ている少なくとも２つ以上の顔立体形状テンプレート情報が存在する場合、２つ以上の顔立体形状テンプレート情報の中間となる中間顔立体形状テンプレート情報を生成すると、ユーザの顔の立体形状により適合した顔モデルを生成できるため好適である。中間顔立体形状テンプレート情報は、２つ以上の顔立体形状テンプレート情報にモーフィングを施して生成する。ユーザの顔の立体形状が顔立体形状テンプレート情報Ａに４５％類似し、顔立体形状テンプレート情報Ｂに５５％類似している場合、類似している割合に応じてモーフィングを施す。複数の顔立体形状テンプレート情報からモーフィングでユーザに適した顔立体形状テンプレート情報を生成することで、ユーザの顔の立体形状により適合した顔モデルを生成できるため好適である。

また、顔立体形状テンプレート情報Ａと顔立体形状テンプレート情報Ｂとの間でテンプレート情報の選択が大きく変動しないので、選択したテンプレート情報が急に切り変わることにより生成画像に生じる違和を失くすことができるため好適である。さらに、ユーザの顔部品情報毎に類似度合を算出すると、目の形状は顔立体形状テンプレート情報Ｃを、顔の輪郭は顔立体形状テンプレート情報Ｄを用いるなど、よりユーザの顔の立体形状に適合した顔モデルを生成できるため好適である。

＜第２の実施の形態＞
次に、本発明の第２の実施の形態に係る画像処理装置９０１を備えた画像表示装置９０２の構成について、図９を用いて説明する。図９において、図１と同じ構成要素には同じ番号を付しており、これらの要素は図９の例と同じ処理を行うため説明を省略する。

本実施の形態と第１の実施形態との違いは、本実施の形態では、撮像画像が画像合成処理に適しているか否かの度合いを算出する適合度算出部９０３と、適合度算出部で算出された適合度を基に画像を変換する画像変換部９０４とを備えた構成になっていることである。

次に、第２の実施の形態における画像表示装置９０２の動作について図１０及び図１１を用いて詳しく説明する。まず、適合度算出部９０３の動作について、図１０を用いて詳しく説明する。図１０は画像生成に好適と判定される領域を説明するための図である。

適合度算出部９０３は、顔情報を用いて適合度を算出する。適合度は画像生成に好適と判定される領域に対する顔領域のずれ情報で表す。画像生成に好適と判定される領域とは、顔検出結果を安定して取得できる画像中央の領域１００１である。検出された顔領域が領域１００１に全て含まれれば、適合度を最大とする。検出された顔領域が領域１００１に一部分ふくまれている場合は、顔領域に対して領域外となっている面積分、適合度を低くする。検出された顔領域が領域１００１に含まれていない場合は、適合度を最小とする。

ここで、画像生成に好適と判定される領域を、前フレームの生成画像の表示有無で変更できるようにしておくと、検出された顔情報から算出される適合度が、画像生成の有無を決定するしきい値の前後に分布する場合でも、生成画像と撮像画像が頻繁に切り替わって表示されることを防ぐことができるため好適である。すなわち、前フレームにおいて撮像画像が表示されている場合に画像生成に好適と判定される領域１００２と、前フレームにおいて生成画像が表示されている場合に画像生成に好適と判定される領域１００１と、を異なる領域として設定しておくことで、検出された顔が画像端に存在するなどして、適合度がフレーム毎に大きく変動する場合でも、撮像画像と生成画像とが頻繁に切り替わって表示されることなく、好適な画像を表示することができる。撮像画像と生成画像とが切り替わって表示されるとき、もしくは、生成画像と撮像画像とが切り替わって表示されるとき、撮像画像と生成画像との間にユーザの視線方向と撮像方向とのずれが遷移している状態の画像、すなわち視線遷移画像を表示させると、ユーザの視線方向が滑らかに変化しているように見えるため好適である。撮像画像から生成画像へ切り替わるときは、視線方向のずれが（０，０）から（θ_ｘ、θ_ｙ）へ視線方向が変化する画像を視線遷移画像として生成する。反対に、生成画像から撮像画像へ切り替わるときは、視線方向のずれが（θ_ｘ、θ_ｙ）から（０，０）へ視線方向が変化する画像を視線遷移画像として生成する。

上述の方法により算出された適合度を用いれば、顔検出はされているが画像合成に適さない画像を判定することができる。また、被写体が画面端に撮像されているなどの原因で顔検出の動作が不安定になる場合、生成画像と撮像画像が頻繁に切り替わって表示されること防ぐことができ、好適な画像を表示することができる。

次に、画像変換部の動作について図１１を用いて詳しく説明をする。図１１は適合度により画像変換を行った例を示す図である。

画像変換部は、顔情報と適合度を用いて画像を変換し、ユーザが画像合成に適した顔画像を撮像しやすくする。適合度を大きくするためには、画像中の被写体顔領域を画像中心に撮像する必要がある。そこで、顔情報と適合度を用いて画像を変換する。すなわち、適合度の低い顔領域が画像右下に位置している画像１１０１の場合（ａ）、画像を右下方向に平行移動させた画像１１０２（ｂ）を生成して表示することで、ユーザが表示装置を右下に移動させるように誘導する。移動の方向は、顔位置情報によって決定される。顔領域が上部に表示されていれば、上方向に平行移動させ、左部に表示されていれば左方向に平行移動させる。このとき、撮像画像と平行移動させた画像との間に、撮像画像から平行移動後の画像へ遷移している状態の画像、すなわち平行移動遷移画像を表示させると、ユーザの顔が滑らかに移動しているように見え、移動方向が分かりやすくなるため好適である。

上述の方法により変換された画像を用いれば、顔検出はされているが画像合成に適さない画像であることをユーザに伝え、かつ、ユーザが画像合成に適する画像を撮像できるように誘導することができる。

以下、上記動作の流れを図１２に示すフローチャートを用いて説明をする。

まず、ステップＳ１２０１において、画像処理装置９０１は、撮像部１０３から撮像画像を取り込む。次に、ステップＳ１２０２において、顔情報検出部１０７が、撮像画像から顔大きさ情報や顔位置情報などの顔情報を検出する。次に、ステップＳ１２０３において、適合度算出部９０３が、顔情報を用いて被写体の顔画像の適合度を算出する。

次に、ステップＳ１２０４において、適合度がしきい値以上か否かを判定する。適合度がしきい値以上と判定された場合は（Ｙｅｓ）ステップＳ１２０５からＳ１２０９を実行する。適合度がしきい値未満と判定された場合は（Ｎｏ）スキップＳ１２１０からＳ１２１１を実行する。まず、適合度がしきい値以上と判定された場合の動作を説明する。ステップＳ１２０５において、視線情報算出部１０８が、顔情報を用いて被写体の視線情報を算出する。次に、ステップＳ１２０６において、画像処理装置９０１は記憶部１０５から顔立体形状テンプレート情報を取得する。次に、ステップＳ１２０７において、顔モデル生成部１０９は、顔モデル生成を行う。顔モデル生成では、顔大きさ情報を基に顔立体形状テンプレート情報を変換し、顔モデルを生成する。次に、ステップＳ１２０８において、画像生成部１１０は、顔モデルと視線情報とを用いて、撮像画像中の被写体の視線方向と撮像方向とを一致させるように被写体の視線方向を変更した画像を生成する。そして、ステップＳ１２０９において、画像生成部１１０が、生成した画像を表示部１０４に出力する。次に、適合度がしきい値未満と判定された場合の動作を説明する。まず、ステップＳ１２１０において、画像変換部９０４は顔情報と適合度とを用いて、ユーザが画像生成に適した画像を撮像しやすいように、すなわち適合度が高い画像を撮像できるように、画像を変換する。次に、ステップＳ１２１１において、画像変換部９０４が、変換した画像を表示部１０４に表示する。以上が画像処理装置９０１の動作の流れである。以上のようにして、第２の実施の形態の画像表示装置９０２は動作する。

上述した本発明に係る画像処理装置９０１を備える画像表示装置９０２によれば、画像生成に好適な画像であるか否かを判定し、好適な画像であれば生成画像を、好適でなければ撮像画像を表示させ、生成画像と撮像画像とを適切に切り換えて表示することで、不適な画像が表示されることを防ぐことができるため、好適な画像を表示することができる。さらに、撮像画像に対してユーザが画像生成に適した画像を生成しやすいように、画像を平行移動させて表示することで、好適な画像を撮像することができる。

本実施の形態では、画像変換部９０４において、適合度を用いて撮像画像に平行移動を施したが、被写体の顔領域の上下左右に適合度を重畳した画像を変換画像として出力してもよい。撮像画像に適合度を重畳すると、ユーザが画像生成に適した画像を撮像できているか否か、視覚的に分かりやすく表示できるため、好適である。

＜第３の実施の形態＞
次に、本発明の第３実施の形態に係る画像処理装置１３０１を備える画像表示装置１３０２の構成について、図１３を用いて説明する。図１３において、図１と同じ構成要素には同じ番号を付しており、これらの要素は図１３の実施の形態と同じ処理を行うため説明を省略する。

本実施の形態と第１の実施の形態との違いは、画像表示装置１３０２の傾きを検出する傾き角検出部１３０３と、画像表示装置１３０２の傾き角に応じて被写体の視線方向の補正情報を算出する視線補正情報算出部１３０４とを備えた構成になっていることである。傾き角検出部１３０３は画像表示装置１３０２の傾きを視線補正情報算出部１３０４に入力する。視線補正情報算出部１３０４は、画像表示装置１３０２の傾きに応じて、被写体の視線方向の補正情報を算出し、画像生成部１３０５に出力する。画像生成部１３０５は、視線情報と視線補正情報とを基に、被写体の視線方向が補正された画像を生成する。

次に、第３の実施の形態における画像表示装置１３０２の動作について図１４及び図１５を用いて詳しく説明する。まず、傾き角検出部１３０３の動作について、図１４を用いて詳しく説明する。

傾き角検出部１３０３は、画像表示装置１３０２のオイラー角情報を検出する。オイラー角情報は、画像表示装置１３０２のロール角１４０１とピッチ角１４０２とヨ−角１４０３で構成される。画像表示装置１３０２の縦向きの表示部１０４を正面から見る視点において、ロール角１４０１は画像表示装置１３０２の上部から下部への垂直方向の軸を中心とした回転角度、ピッチ角１４０２は画像表示装置１３０２の左右を通る水平の軸を中心とした回転角度、ヨ−角１４０３は画像表示装置１３０２前面から背面へと通る軸を中心とした回転角度を表している。検出したオイラー角情報のうち、ロール角１４０１とピッチ角１４０２とを傾き角情報（φ、θ）として、視線補正情報算出部１３０４へ出力する。

次に、視線補正情報算出部１３０４の動作について、図１５を用いて詳しく説明する。視線補正情報算出部１３０４は、傾き角検出部１３０３で検出された傾き角（φ、θ）を用いて、視線方向を補正するための視線補正情報を算出する。まず、傾き角と画像のｘ軸方向とｙ軸方向とを対応付ける。撮像部と表示部との関係が、表示部１５０１の上部に撮像部１５０２が位置する場合、傾き角φと画像ｘ軸方向とを対応付け、傾き角θと画像のｙ軸方向１５０４とを対応付ける。撮像部と表示部との関係が、表示部１５０５の右部に撮像部１５０６が位置する場合、傾き角θと画像のｘ軸方向１５０７とを対応付け、傾き角φと画像のｙ軸方向１５０８とを対応付ける。傾き角が０のとき、視線補正量（θ’_ｘ、θ’_ｙ）を（０，０）とし、傾き角が大きくなるに従い、視線補正量（θ’_ｘ、θ’_ｙ）の値を傾き角に応じて増加させる。このとき、傾き角が最大となったときの傾き角を保持しておくと、端末を傾けることで視線方向を補正した被写体を、傾き角０の状態で確認することができるため好適である。

次に、画像生成部１３０５の動作について詳しく説明する。画像生成部１３０５は、視線情報と視線補正情報と顔モデルと撮像画像とを用いて、被写体の視線方向が補正された画像を生成する。視線情報が（θ_ｘ、θ_ｙ）で、視線補正情報が（θ’_ｘ、θ’_ｙ）の場合、画像生成部１３０５は撮像方向と視線方向とのずれが（θ_ｘ＋θ’_ｘ、θ_ｙ＋θ’_ｙ）として、撮像画像の視線方向を補正する。

以下、上記動作の流れを図１６に示すフローチャートを用いて説明する。

まず、ステップＳ１６０１において、画像処理装置１３０１は、撮像部１０３から撮像画像を取り込む。次に、ステップＳ１６０２において、顔情報検出部１０７が、撮像画像から顔大きさ情報や顔位置情報などの顔情報を検出する。次に、ステップＳ１６０３において、視線情報算出部１０８が、顔情報を用いて被写体の視線情報を算出する。次に、ステップＳ１６０４において、傾き角検出部１３０３が画像表示装置１３０２の傾き角を取得する。次に、ステップＳ１６０５において、視線補正情報算出部１３０４が傾き角から視線補正情報を算出する。次に、ステップＳ１６０６において、画像処理装置１３０１は記憶部１０５から顔立体形状テンプレート情報を取得する。次に、ステップＳ１６０７において、顔モデル生成部１０９は、顔モデル生成を行う。顔モデル生成では、顔大きさ情報を基に顔立体形状テンプレート情報を変換し、顔モデルを生成する。次に、ステップＳ１６０８において、画像生成部１３０５は、顔モデルと視線情報と視線補正情報とを用いて、撮像画像中の被写体の視線方向と撮像方向とを一致させるように被写体の視線方向を変更した画像を生成する。そして、ステップＳ１６０９において、画像生成部１３０５が、生成した画像を表示部１０４に出力する。

上述した本発明に係る画像処理装置１３０１を備える画像表示装置１３０２によれば、傾き角に応じてユーザの視線補正量を変化させることで、生成画像における視線のずれをユーザが簡易に調整することができ、好適な画像を表示することができる。

＜第４の実施の形態＞
次に、本発明の第４実施の形態に係る画像処理装置１７０１を備える画像表示装置１７０２の構成について、図１７を用いて説明する。図１７において、図１と同じ構成要素には同じ番号を付しており、これらの要素は図１の実施の形態と同じ処理を行うため説明を省略する。

本実施の形態と第１の実施形態との違いは、本実施の形態では、送受信部１７０３を備えた構成になっていることである。画像表示装置１７０２は、送受信部１７０３を介して外部ネットワーク１７０４と接続され、他の通信機器につながっている。送受信部１７０３は、携帯電話の通信部やケーブル等であり、外部と画像、顔位置情報、顔大きさ情報等を送受信する。

第４実施の形態では、画像表示装置１７０２で撮像された画像と顔位置情報と顔大きさ情報とを送受信部を通して他の画像表示装置に送信し、他の画像表示装置で撮像された画像と顔位置情報と顔大きさ情報とを受信する。すなわち、ユーザ１の画像表示装置１７０２に遠隔地にいるユーザ２の撮像画像を表示し、ユーザ２の画像表示装置にユーザ１の撮像画像を表示する。これは、ビデオチャットやテレビ会議システムを実現するための構成となる。ここで、ユーザ１を撮像した画像表示装置１７０２を第一画像表示装置、ユーザ２を撮像した画像表示装置を第二画像表示装置として区別する。

以下、上記動作の流れを図１８に示すフローチャートを用いて説明をする。

まず、ステップＳ１８０１において、第一画像処理装置は、撮像部１０３から第一画像を取り込む。次に、ステップＳ１８０２において、顔情報検出部１０７が、第一画像から第一顔位置情報と第一顔大きさ情報などの顔情報を検出する。次に、ステップＳ１８０３において、視線情報算出部１０８が、顔情報を用いて被写体の第一視線情報を算出する。次に、ステップＳ１８０４において、送受信部１７０３が第一画像と第一顔位置情報と第一顔大きさ情報とを第二画像表示装置に送信する。次に、ステップＳ１８０５において、送受信部１７０３が第二画像と第二顔位置情報と第二顔大きさ情報とを受信する。次に、ステップＳ１８０６において、第一画像処理装置１７０１は記憶部１０５から顔立体形状テンプレート情報を取得する。次に、ステップＳ１８０７において、顔モデル生成部１０９は、顔モデル生成を行う。顔モデル生成では、第二顔位置情報と第二顔大きさ情報とを基に顔立体形状テンプレート情報を変換し、顔モデルを生成する。次に、ステップＳ１８０８において、画像生成部１１０は、顔モデルと第一視線情報とを用いて、第二画像中の被写体の視線方向と撮像方向とを一致させるように被写体の視線方向を変更した画像を生成する。そして、ステップＳ１８０９において、画像生成部１１０が、生成した画像を表示部１０４に出力する。以上のようにして、第２実施の形態の画像表示装置１７０２は動作する。

上述した本発明に係る画像処理装置１７０１を備える画像表示装置１７０２によればビデオチャットやテレビ会議などでユーザ１とユーザ２が対話している場合、ユーザ１の視線情報を用いてユーザ２の画像から視線補正画像を生成し、ユーザ２の視線情報を用いてユーザ１の画像から視線補正画像を生成することで、好適な画像を表示することができる。

＜第５の実施の形態＞
次に、本発明の第５実施の形態に係る画像表示装置の構成について、図１９を用いて説明する。図１９において、図１と図９と図１７と同じ構成要素には同じ番号を付しており、これらの要素は図１と図９と図１７の実施の形態と同じ処理を行うため説明を省略する。

本実施の形態と第１、２、４の実施の形態との違いは、本実施の形態では、第一画像表示装置１９０２で撮像された画像から検出された第一顔情報を用いて第一適合度を算出し、第一適合度を用いて第二画像に対して画像変換を施すことである。

以下、上記動作の流れを図２０に示すフローチャートを用いて説明をする。

まず、ステップＳ２００１において、第１画像処理装置１９０１は、撮像部１０３から第一画像を取り込む。次に、ステップＳ２００２において、顔情報検出部１０７が、第一画像から第一顔大きさ情報と第一顔位置情報などの顔情報を検出する。次に、ステップＳ２００３において、視線情報算出部１０８が、顔情報を用いて被写体の第一視線情報を算出する。次に、ステップＳ２００３において、適合度算出部９０３が、第一適合度を算出する。次に、ステップＳ２００４において、送受信部１７０３が第一画像と第一顔大きさ情報と第一顔位置情報と第一適合度とを他の画像表示装置に送信する。次に、ステップＳ２００５において、送受信部１７０３が第二画像と第二顔大きさ情報と第二顔位置情報と第二適合度とを受信する。

次に、ステップＳ２００６において、第二適合度がしきい値以上か否かを判定する。第二適合度がしきい値以上と判定された場合はステップＳ２００７からＳ２０１４を実行する。第二適合度がしきい値未満と判定された場合はスキップＳ２０１５を実行する。まず、第二適合度がしきい値以上と判定された場合の動作を説明する。ステップＳ２００７において、視線情報算出部１０８が第一顔位置情報と第一顔大きさ情報とから第一視線情報を算出する。ステップＳ２００８において、画像処理装置１９０１は記憶部１０５から顔立体形状テンプレート情報を取得する。次に、ステップＳ２００９において、顔モデル生成部は顔立体形状テンプレート情報と第二顔位置情報と第二顔大きさ情報とを用いて顔モデルを生成する。次に、ステップＳ２０１０において、画像生成部１１０は顔モデルと第一視線情報を用いて視線補正画像を生成する。次に、ステップＳ２０１１において、第一適合度がしきい値以上か否かを判定する。第一適合度がしきい値以上と判定された場合は、ステップＳ２０１２において、画像生成部は生成した画像を表示部１０４に出力する。第一適合度がしきい値未満と判定された場合は、ステップＳ２０１３において、画像変換部が第一適合度を用いて画像を変換する。次に、ステップＳ２０１４において、画像変換部は変換した画像を表示部１０４に出力する。

次に、第二適合度がしきい値未満と判定された場合の動作を説明する。ステップＳ２０１５において、第一適合度がしきい値以上か否かを判定する。第一適合度がしきい値以上と判定された場合は、ステップＳ２０１６にて撮像画像を表示部１０４に出力する。第一適合度がしきい値未満と判定された場合は、ステップＳ２０１３において、画像変換部が第一適合度を基に画像を変換する。次に、ステップＳ２０１４において、画像変換部は変換した画像を表示部１０４に出力する。

以上のようにして、第５実施の形態の画像表示装置１９０２は動作する。

上述した本実施の形態に係る画像処理装置１９０１を備える画像表示装置１９０２によればビデオチャットやテレビ会議などでユーザ１とユーザ２が対話している場合、ユーザ２の第二適合度を用いて、画像生成に好適な画像であれば生成画像を、好適でなければ撮像画像を切り替えて表示させることで、不適な画像が表示されることを防ぐことができるため、好適な画像を表示することができる。さらに、ユーザ１の第一適合度を用いて、第二画像に対し画像変換を施すことで、ユーザ１が画像生成に好適な領域に顔を撮像するように誘導することができる。

なお、本発明は、上述した実施の形態によって限定的に解釈されるものではなく、特許請求の範囲に記載した事項の範囲内で、種々の変更が可能であり本発明の技術的範囲に含まれる。

本発明による画像処理装置で動作するプログラムは、本発明に関わる上記実施の形態の機能を実現するように、ＣＰＵ等を制御するプログラム（コンピュータを機能させるプログラム）であっても良い。そして、これら装置で取り扱われる情報は、その処理時に一時的にＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に蓄積され、その後、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの各種ＲＯＭやＨＤＤに格納され、必要に応じてＣＰＵによって読み出し、修正・書き込みが行われる。

また、図１の各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、ＣＰＵなどが実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。

また、上述した実施の形態における画像処理装置の一部、または全部を典型的には集積回路であるＬＳＩとして実現してもよい。画像処理装置の各機能ブロックは個別にチップ化してもよいし、一部、または全部を集積してチップ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。

また、上述の実施の形態において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

本発明は、画像処理装置に利用できる。

１０１…画像処理装置、１０２…画像表示装置、１０３…記撮像部、１０４…表示部、１０５…記憶部、１０６…入出力部、１０７…顔情報検出部、１０８…視線情報算出部、１０９…顔モデル生成部、１１０…画像生成部、９０３…適合度算出部、９０４…画像変換部、１３０４…視線補正情報算出部、１３０６…画像生成部、１７０３…送受信部。

本明細書で引用した全ての刊行物、特許および特許出願をそのまま参考として本明細書にとり入れるものとする。

Claims

入力画像から被写体の顔位置情報と顔大きさ情報とを検出する顔情報検出部と、
前記顔位置情報と前記顔大きさ情報とから前記被写体の視線情報を算出する視線情報算出部と、
前記視線情報と、前記顔位置情報、前記顔大きさ情報、および顔の立体形状を表す顔立体形状テンプレート情報に基づく顔モデルとに基づいて、前記被写体の視線方向が前記入力画像を生成する撮像部を向くように顔の向きを補正した画像を生成する画像生成部と、を備え、
前記画像生成部は、前記視線方向が前記撮像部に向くように、前記被写体の顔の向きと、前記視線方向とが異なる画像を生成する、ことを特徴とする画像処理装置。
前記視線情報算出部は、前記画像生成部によって生成された画像を表示する表示部と前記撮像部との位置関係と、当該表示部のディスプレイパラメータと、前記顔位置情報と、前記顔大きさ情報と、から前記被写体の前記視線情報を算出することを特徴とする請求項１に記載の画像処理装置。
前記顔位置情報と、前記顔大きさ情報と、顔の立体形状を表す顔立体形状テンプレート情報とを用いて前記顔モデルを生成する顔モデル生成部を備え、
前記顔モデル生成部は、顔立体形状テンプレート情報が有する距離ヒストグラムを調整した中間顔モデルを生成し、前記中間顔モデルの縦解像度と横解像度を、検出された顔領域の縦解像度と横解像度が等しくなるように、中間顔モデルを拡大あるいは縮小することを特徴とする請求項１に記載の画像処理装置。
前記画像生成部は、前記入力画像に対応する顔の距離データを用いて前記入力画像の各画素における３次元空間での位置を前記視線情報に基づいて変換し、前記被写体の視線方向が撮像部を向くように補正した画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記被写体の視線方向が撮像部を向くように補正した画像は、視線情報である被写体の視線方向と撮像部の撮像方向とのＸ軸方向のずれに応じて、左右方向にずれている角度分を修正し、被写体の視線方向と撮像部の撮像方向とのＹ軸方向のずれに応じて上下方向にずれている角度分を修正するように、画像上の画素を補正することを特徴とする請求項４に記載の画像処理装置。