JP2024007899A

JP2024007899A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2024007899A
Application number: JP2022109291A
Authority: JP
Inventors: 良隆佐々木; Yoshitaka Sasaki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2024-01-19
Also published as: US20240013361A1

Abstract

【課題】ＣＧ画像に手の画像を重ねて合成する場合に、より適切な手の画像を合成できる技術を提供する。【解決手段】画像処理装置は、ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得手段と、前記第１の画像における手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定手段と、前記設定手段により設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理手段と、前記第３の画像から前記手の領域を検出する検出手段と、前記検出手段が検出した手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成手段とを有する。【選択図】図２

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

現実空間と仮想空間との繋ぎ目のない結合を実現する複合現実（ＭＲ：ＭｉｘｅｄＲｅａｌｉｔｙ）に関する技術の１つとして、ビデオシースルー方式のヘッドマウントディスプレイ（ＨＭＤ）を用いるＭＲシステムが知られている。ＭＲシステムでは、撮像装置（ビデオカメラなど）が現実空間を撮像した画像（撮像画像）に対して、撮像装置の位置姿勢に応じたＣＧ画像が合成された合成画像が生成される。そして、合成画像が、表示装置（ＨＭＤのディスプレイなど）に表示されることにより、ユーザは合成画像を観察する。

ＭＲシステムは、例えば、ハンドトラッキング機能（撮像画像から手を検出してその動きを追跡する機能）、ハンドジェスチャー機能（撮像画像における手の形状を認識する機能）を有する。また、ＭＲシステムは、例えば、ハンドマスク機能（撮像画像から手を抽出して、手がＣＧ画像に隠れないようにＣＧ画像上に手を合成する機能）を有する。これらの機能は、画像処理（撮像装置のレンズに起因する撮像画像の明るさのばらつきを低減する処理）によるノイズの増幅の影響を受けて性能が低下する場合がある。

このため、特許文献１では、ノイズが増幅される前の撮像画像から手の位置を検出することにより、ノイズの影響を抑制する技術が開示されている。

特開２０１１－１６６５３５号公報

しかしながら、ハンドマスク機能では、手の１点の位置だけでなく、手の領域を検出しなければならない。このため、ノイズが増幅される前の撮像画像から手の領域を検出する場合であっても、レンズに起因して各位置で明るさにばらつきのあるために、適切に手の領域を検出できないことがある。つまり、ハンドマスク機能において、適切な手の領域をＣＧ画像に合成できない。

そこで、本発明は、ＣＧ画像に手の領域の画像を重ねて合成する場合に、より適切な手の領域の画像を合成できる技術を提供することを目的とする。

本発明の１つの態様は、
ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得手段と、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定手段と、
前記設定手段により設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理手段と、
前記第３の画像から前記手の領域を検出する検出手段と、
前記検出手段が検出した手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前
記手の領域の画像とを合成して合成画像を生成する合成手段と、
を有することを特徴とする画像処理装置である。

本発明の１つの態様は、
ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得ステップと、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定ステップと、
前記設定ステップにおいて設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理ステップと、
前記第３の画像から前記手の領域を検出する検出ステップと、
前記検出ステップにおいて検出された手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成ステップと、
を有することを特徴とする画像処理方法である。

本発明によれば、ＣＧ画像に手の領域の画像を重ねて合成する場合に、より適切な手の領域の画像を合成できる。

実施形態１に係る画像処理装置のハードウェア構成図である。実施形態１に係る画像処理装置の論理構成図である。実施形態１に係る画像生成処理を示すフローチャートである。実施形態１に係る手の位置およびシェーディング特性を説明する図である。実施形態１に係る低減パラメータの算出に関する関数を説明する図である。実施形態１に係る合成画像の例を説明する図である。実施形態１に係る位置検出処理を示すフローチャートである。実施形態１に係る領域検出処理を示すフローチャートである。実施形態２に係る画像処理装置の論理構成図である。実施形態２に係る画像生成処理を示すフローチャートである。実施形態３に係る画像処理装置の論理構成図である。実施形態３に係る画像生成処理を示すフローチャートである。

以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。

＜実施形態１＞
図１は、実施形態１に係る画像処理装置１のハードウェア構成を示す。画像処理装置１は、ＣＰＵ１０１、ＲＡＭ１０２、記憶装置１０３、撮像装置１０４、汎用インターフェース（Ｉ／Ｆ）１０５、表示装置１０８、メインバス１０９を有する。汎用Ｉ／Ｆ１０５は、制御装置１０６（例えば、ＰＣ）および外部メモリ１０７（例えば、メモリーカード）をメインバス１０９に接続する。

以下では、記憶装置１０３に格納された各種ソフトウェア（コンピュータプログラム）に従ってＣＰＵ１０１が動作することで実現される各種処理について説明する。各種処理が行われる場合には、まず、ＣＰＵ１０１は、記憶装置１０３に格納されている処理アプリケーションを起動してＲＡＭ１０２に展開するとともに、表示装置１０８にユーザインターフェース（ＵＩ）を表示する。続いて、ＣＰＵ１０１は、各種データ（記憶装置１０３や外部メモリ１０７に格納されているデータ）、撮像画像（撮像装置１０４により取得された画像）、または制御装置１０６からの指示などをＲＡＭ１０２に転送する。さらに
、ＣＰＵ１０１は、画像処理アプリケーションが示す処理内容に従って、ＲＡＭ１０２に格納されている画像に関して各種演算を行う。演算結果は、表示装置１０８（ディスプレイ；モニタ）に表示されてもよいし、記憶装置１０３または外部メモリ１０７に格納されてもよい。

次に、図２の論理構成図を参照して、実施形態１に係る画像処理装置１の論理構成について説明する。画像処理装置１は、画像取得部２０１、位置検出部２０２、補正量算出部２０３、ＮＲ強度設定部２０４、ノイズ低減処理部２０５、領域検出部２０６、合成部２０７、表示制御部２０８を有する。なお、例えば、ＣＰＵ１０１がこれらの各構成として動作することにより、各構成の処理が実現される。また、各構成が取得した情報（データ）、および各構成が処理した情報（データ）は、ＲＡＭ１０２に格納される。

画像取得部２０１は、ユーザの手が位置する現実空間を撮像した情報を撮像画像として撮像装置１０４から取得する。また、画像取得部２０１は、撮像装置１０４のレンズに起因する撮像画像全体の明るさ（輝度）のばらつきを補正するためのシェーディング補正（補正処理；周辺光量落ちの補正）を撮像画像に施した画像（以降、「補正済画像」と呼ぶ）を生成する。ここでは、画像取得部２０１は、撮像画像における画素の画素値を、当該画素の位置に応じたゲイン（シェーディング補正量）で補正する。

ここで、撮像を行う際のレンズの影響によって、撮像画像では、像高が高い領域ほど（撮像画像の光学中心位置から離れた領域ほど）暗い傾向がある。このため、画像取得部２０１は、記憶装置１０３に予め保持されているシェーディング特性（像高と輝度の関係）の情報に基づき、像高が高い（光学中心位置から遠い）画素ほどシェーディング補正量を大きくする。例えば、画像取得部２０１は、撮像画像の光学中心位置の画素の画素値には、シェーディング補正量として１を乗算することにより、当該画素値を補正する。一方で、画像取得部２０１は、例えば、撮像画像の四隅に近い画素の画素値には、シェーディング補正量として１．５を乗算することにより、当該画素値を大きくするように補正する。なお、シェーディング補正は、撮像画像の全体（全ての画素）に行われる必要はなく、撮像画像の周辺部の画素にのみ行われてもよい。つまり、撮像画像の周辺部の画素の画素値に対してのみ、シェーディング補正量を用いた乗算が行われてもよい。

このようにシェーディング補正（補正処理）が行われると、撮像画像の明るさのばらつきが低減されて、色情報を利用することによる手の検出が容易になる。つまり、シェーディング補正が行われることによれば、例えば、ある人物を撮像した画像をシェーディング補正した画像において、画像の光学中心と四隅とでその人物の肌の色が異なる色になる可能性を低減することができる。一方で、シェーディング補正前の撮像画像から手を検出しようとすると、手の位置により明るさや色が変化することになるため、手（手の位置や領域）を安定して検出することが困難になる。

なお、撮像画像は、複数フレームの静止画から構成される動画であってもよいし、１つの静止画であってもよい。これは、以降に説明する画像処理は、フレーム単位で実施可能であり、画像処理が行われる画像の種類（動画または静止画）に依存しないためである。

また、画像取得部２０１は、撮像画像から補正済画像を生成せずに、撮像装置１０４から補正済画像を取得してもよい。つまり、撮像装置１０４が補正済画像を生成してもよい。

位置検出部２０２は、補正済画像からユーザの手の位置（手の位置情報）を検出する。

補正量算出部２０３は、手の位置情報と、シェーディング特性（像高と輝度の関係）の
情報とに基づき、手の位置に対応するシェーディング補正量を算出する。手の位置に対応するシェーディング補正量とは、画像取得部２０１が、撮像画像における手の位置に対して実行したシェーディング処理のシェーディング補正量である。

ＮＲ強度設定部２０４は、手の位置に対応するシェーディング補正量に応じて、ノイズ低減強度を示す低減パラメータ（ノイズ低減強度のパラメータ）を更新（設定）する。なお、低減パラメータの初期値は、例えば、画像処理装置１の製造者（メーカー）によって予め設定されている。

ノイズ低減処理部２０５は、更新された低減パラメータを参照して、補正済画像に対して、ノイズ低減処理（シェーディング補正により生じたノイズを低減する処理）を施す。

領域検出部２０６は、ノイズ低減処理が施された補正済画像（以降、「ノイズ低減画像」と呼ぶ）から手の領域（手領域）を検出して、手領域の画像を取得する。

合成部２０７は、手領域の画像と、ＣＧ画像（記憶装置１０３や制御装置１０６、外部メモリ１０７から読み込んだＣＧ画像）とを、ノイズ低減画像に合成した画像（合成画像）を生成する。なお、合成部２０７は、ノイズ低減画像の代わりに、撮像画像または補正済画像に対して、手領域の画像とＣＧ画像を合成してもよい。ＣＧ画像は、仮想物体（例えば、特定の家具または家電などの物体）を示す画像である。

表示制御部２０８は、合成画像を表示するように表示装置１０８を制御する。

（画像生成処理について）
図３のフローチャートを参照して、画像処理装置１において合成画像を生成するための画像生成処理（画像処理方法）の詳細について説明する。なお、図３に示す各処理は、撮像画像が動画であれば、補正済画像のフレームごとに個別に行われる。

ステップＳ３０１では、位置検出部２０２は、画像取得部２０１が取得した補正済画像から手の位置（手の位置情報）を検出する。なお、実施形態１では、位置検出部２０２は、補正済画像から手の位置を検出するが、撮像画像から手の位置を検出してもよい。つまり、位置検出部２０２は、ノイズ低減処理が行われる前の画像であれば、どの画像から手の位置を検出してもよい。

図４Ａは、手の位置を説明する模式図である。以下では、補正済画像の左上画素の位置の座標を座標（０，０）として、補正済画像の幅方向（横方向）をＸ軸方向とし、高さ方向（縦方向）をＹ軸方向とする場合を想定する。このような場合には、手の位置として、手が配置されている座標（ｘ，ｙ）が得られる。なお、手の位置は、例えば、これとは異なる座標系により表現されていてもよいし、手領域を囲む多角形の頂点の座標であってもよい。位置検出部２０２における手の位置の検出処理（位置検出処理）の詳細は後述する（図７参照）。

ステップＳ３０２では、補正量算出部２０３は、ステップＳ３０１にて検出された手の位置に対応するシェーディング補正量を算出する。

図４Ｂは、光学中心の画素の輝度を１とした場合における、像高（光学中心からの距離）がｄである画素の輝度（輝度比ｓ）をシェーディング特性（像高と輝度の関係）として示している。つまり、或る物体が光学中心に写っている場合に撮像画像において当該物体の輝度がＢであれば、当該物体が像高ｄの座標に写っている場合には、撮像画像において当該物体の輝度はＢ×ｓであることが示されている。図４Ｂによれば、像高ｄが高いほど
、輝度比ｓが低くなることが分かる。

なお、シェーディング特性（像高と輝度の関係）は、撮像装置１０４のレンズやセンサの特性に応じて決まるため、記憶装置１０３などに、ＬＵＴ（ルックアップテーブル）などの形式で予め格納されているとよい。この場合には、補正量算出部２０３は、ＬＵＴを参照することによって、手の位置に応じて、当該手の位置に対応するシェーディング補正量を算出できる。なお、手の位置の座標（ｘ，ｙ）に対応する像高ｄは、光学中心の座標が（Ｘ’／２，Ｙ’／２）であるとすると、次の式１により得られる。

補正量算出部２０３は、ＬＵＴを参照して、手の位置の像高ｄに応じた輝度比ｓを求めた後に、式２によって、輝度比ｓの逆数をシェーディング補正量Ｔとして得る。

なお、上述では、シェーディング特性がＬＵＴ形式によって保持される例を説明したが、これに限られるものではない。例えば、像高と輝度比の対応を示す関数（モデル式）が記憶装置１０３などに保持されており、その関数に応じて像高から輝度比が算出できてもよい。また、像高からシェーディング補正量を直接に算出可能なモデルやＬＵＴが保持されていてもよい。

ステップＳ３０３では、ＮＲ強度設定部２０４は、手の位置に対応するシェーディング補正量Ｔに基づき、低減パラメータ（ノイズ低減強度）を更新する。ここで、シェーディング補正の強度が強いほど（つまり、シェーディング補正量Ｔが大きいほど）、補正済画像においてノイズが強調される。このため、シェーディング補正量Ｔが大きいほど、強いノイズ低減強度を示す低減パラメータに更新されるとよい。低減パラメータ（ノイズ低減強度）を変更可能なノイズ低減処理には、様々な方法の処理が提案されているため、これらのうち任意の方法の処理を適用することが可能である。

実施形態１では、ノイズ低減処理に、低減パラメータを閾値εとするようなεフィルタを用いる場合について説明する。εフィルタを用いる処理（ノイズ低減処理）は、処理の対象画素の画素値Ｐ（ｎ）と、その近傍画素の画素値の差分に応じた処理である。εフィルタを用いる処理では、画素値Ｐ（ｎ）との画素値の差分が小さい複数の近傍画素の画素値の平均値に、対象画素の画素値を置き換えることで、補正済画像におけるノイズが低減される。具体的には、εフィルタを用いた処理は、次の式３により表すことができる。

式３において、Ｐ（ｎ）は、補正済画像における処理の対象画素の画素値である。Ｐ（ｎ－ｋ）は、処理の対象画素の近傍の複数の画素のいずれかの画素値（補正済画像における画素値）を示すものである。Ｐ（ｎ－ｋ）は、例えば、ｋが０よりも大きければ、処理の対象画素よりも前の画素のうち対象画素からｋ番目に近い画素の画素値（補正済画像における画素値）である。Ｐ（ｎ－ｋ）は、例えば、ｋが０よりも小さければ、処理の対象画素よりも後の画素のうち対象画素から－ｋ番目に近い画素の画素値（補正済画像におけ
る画素値）である。Ｐ’（ｎ）は、ノイズ低減画像における処理の対象画素の画素値（画素値の出力値）である。

係数ａ_ｋは、ａ_－Ｎからａ_＋Ｎまでの総和が１である低域通過フィルタ係数である。関数Ｆ（ｘ）は、ｘが±ε以内である範囲でのみ線形性を有する非線形関数である。図５は、関数Ｆ（ｘ）の例である。図５の関数Ｆ（ｘ）を用いれば、低減パラメータである閾値εが大きくなると、平均化に用いられる近傍画素の数が増えるため、ノイズ低減強度（ノイズを低減する強さ）が強くなる。そこで、ＮＲ強度設定部２０４は、ステップＳ３０２で算出したシェーディング補正量Ｔを用いて式４に基づき、閾値εを更新する。なお、更新される前の閾値εは、製造者（メーカー）により予め設定された初期値であってもよいし、例えば、前フレーム（前回）の閾値εの値であってもよい。

なお、ノイズ低減処理および、低減パラメータ（ノイズ低減強度）の調整方法はこれに限られるものではない。ノイズ低減処理には、例えば、バイラテラルフィルタやＮＬＭ（ＮｏｎＬｏｃａｌＭｅａｎｓ）フィルタなどを利用することもできる。また、低減パラメータの調整方法としては、式４のように直接、低減パラメータが更新されてもよいし、シェーディング補正量と低減パラメータ（ノイズ低減強度）の対応関係を記録したＬＵＴを参照して、低減パラメータが新たに算出（調整）されてもよい。

ステップＳ３０４では、ノイズ低減処理部２０５は、ステップＳ３０３にて更新した低減パラメータを用いて、補正済画像のノイズを低減して、ノイズ低減画像を生成する。実施形態１では、ノイズ低減処理部２０５は、更新した閾値εを用いて、補正済画像に対してεフィルタを適用することによって、補正済画像のノイズを低減する。

ステップＳ３０５では、領域検出部２０６は、ノイズ低減処理が施された補正済画像（ノイズ低減画像）から手領域を検出して、手領域の画像を取得する。なお、手領域を検出する処理（領域検出処理）の詳細は後述する（図８参照）。

ステップＳ３０６では、合成部２０７は、ノイズ低減画像、手領域の画像、およびＣＧ画像（記憶装置１０３などに記録されているＣＧ画像）を合成して合成画像を生成する。ここで、ノイズ低減画像の手領域とＣＧ画像とが重なる場合には、合成部２０７は、ノイズ低減画像にＣＧ画像を重畳して、その上から手領域の画像を重畳するように、合成画像を生成する。これにより、ユーザは、常に手領域を見ることができる。

なお、合成画像の生成の際に、ノイズ低減画像（補正済画像）における手領域とＣＧ画像とが重ならない場合には、合成部２０７は、手領域の画像をノイズ低減画像に合成することを行わない（ハンドマスク機能を実行しない）。これは、ノイズ低減画像における手（手領域）がＣＧ画像によって隠れてしまうということが想定されないためである。

図６Ａ～図６Ｃは、合成画像の例を説明する模式図である。ここで、図６Ａは、手領域６０２を含むノイズ低減画像６０１を示している。図６Ｂは、ノイズ低減画像６０１にＣＧ画像６０３を重畳した画像を示している。図６Ｂに示すように、画像処理装置１が、手領域６０２を検出せずに、ノイズ低減画像６０１にＣＧ画像６０３を合成する場合には、手領域６０２がＣＧ画像６０３の後ろに隠れてしまうことがある。

図６Ｃは、検出した手領域６０２の画像を参照して、ノイズ低減画像６０１に対して、ＣＧ画像６０３と手領域６０２の画像を順に重畳した画像である。このように手領域６０
２を検出して、手領域６０２とＣＧ画像６０３との関係を考慮した合成を行うことで、ＣＧ画像６０３が示す仮想物体に手で触れているような合成画像が生成できる。なお、合成画像は、合成部２０７から表示制御部２０８に送られて、表示装置１０８に表示される。

（位置検出処理について；Ｓ３０１）
図７のフローチャートを参照して、ステップＳ３０１における手の位置を検出する処理（位置検出処理）について説明する。

ステップＳ７０１では、位置検出部２０２は、補正済画像から肌領域を選択するための「肌の色」の情報（人の肌の色を示す色信号値）を取得する。「肌の色」の情報の取得方法には、任意の公知の方法を用いることができる。例えば、位置検出部２０２は、記憶装置１０３に予め格納された「肌の色」の色信号値（明るさＹ、彩度Ｃおよび色相Ｈ）を取得してもよいし、撮像画像における手領域のうちの１つの画素をユーザ操作に応じて選択して、その画素の色信号値を取得してもよい。後者の場合には、選択した画素の座標自体を、位置検出部２０２による位置検出の結果として出力することもできる。以下では、位置検出部２０２は、記憶装置１０３に予め格納された「肌の色」の色信号値を取得したと仮定して説明する。

ステップＳ７０２では、位置検出部２０２は、ステップＳ７０１で取得した「肌の色」の色信号値を参照して、補正済画像から肌領域（人の肌であると推定される領域；人の肌に近い色の領域）を選択する。ここで、肌領域に対応する色における明るさＹ、彩度Ｃ、および色相Ｈそれぞれは、「肌の色」の色信号値から幅（上限幅）を有している。位置検出部２０２は、例えば、補正済画像のうち、「肌の色」の色信号値（明るさＹ、彩度Ｃおよび色相Ｈ）に近い色の領域（例えば、明るさＹ±５、彩度Ｃ±５、色相Ｈ±１０の範囲に含まれる色の領域）を肌領域として選択する。なお、上限幅は、ユーザによって任意に決定されてもよいし、補正済画像の全体の明るさ（平均の明るさ）に応じて決定されてもよい。また、肌領域は、人種による「肌の色」の違いを考慮して決定されてもよい。

ステップＳ７０３では、位置検出部２０２は、肌を示す画素ではないのに肌領域に含まれている画素（誤判定画素）を除去するために、ステップＳ７０２で選択された肌領域に対して孤立点除去処理を実行する。孤立点除去処理には、複数の手法が提案されているが所望の処理を用いて構わない。例えば、位置検出部２０２は、１つの画素とその近傍の８つの画素を確認し、これらの９つの画素のうち当該１つの画素のみが肌領域に含まれると判定されていた場合には、その１つの画素を誤判定画素として判定する。そして、位置検出部２０２は、肌領域から誤判定画素を除去する。

ステップＳ７０４では、位置検出部２０２は、肌領域の重心位置を算出する。具体的には、位置検出部２０２は、肌領域の全ての画素の座標の平均値を算出し、その平均値を手の位置として出力する。なお、例えば、位置検出部２０２は、肌領域をさらに複数の領域に分割し、複数の領域のうち画素の密度の高い領域から手の位置を検出するなど、各種の画像処理と組み合わせて手の位置を検出してもよい。

（領域検出処理について；Ｓ３０５）
図８のフローチャートを参照して、ステップＳ３０５における手領域を検出する処理（領域検出処理）について説明する。なお、ステップＳ８０１～Ｓ８０３では、領域検出部２０６は、上述のステップＳ７０１～Ｓ７０３と同様の処理をノイズ低減画像に対して行う。このため、ステップＳ８０１～Ｓ８０３の処理についての説明は省略する。ステップＳ８０１～Ｓ８０３でも、ノイズ低減画像はシェーディング補正が行われた後の画像であるため、色情報（「肌の色」の色信号値）を用いて適切に肌領域が判定できる。

ステップＳ８０４では、領域検出部２０６は、ノイズ低減画像における肌領域の画素と、それ以外の画素との境界（エッジ）を得るための処理（エッジ検出処理）を実行する。画像のエッジ検出には、Ｓｏｂｅｌフィルタ、Ｌａｐｌａｃｉａｎフィルタ、またはＣａｎｎｙフィルタなど多様なエッジ検出フィルタが提案されている。本実施形態では、これらのエッジ検出フィルタのうちの任意のフィルタを用いてよい。なお、これらのエッジ検出フィルタは、ノイズの影響を受けやすいため、ステップＳ３０４にて手の位置に応じた適切なノイズ低減処理が適用されたノイズ低減画像を用いることにより、正確に手の輪郭をエッジとして検出することができる。つまり、ノイズ低減画像を用いることによって、適切な手領域の検出が可能になる。

ステップＳ８０５では、領域検出部２０６は、ステップＳ８０４にて検出したエッジに対して細線化処理（二値化された画像において、線の中心１画素分だけを残すように線を細くする処理）を適用する。細線化処理のアルゴリズムには、Ｈｉｌｄｉｔｃｈ、田村の方法、ＺｈａｎｇＳｕｅｎなどが提案されているが、任意の方法を用いて構わない。

ステップＳ８０６では、領域検出部２０６は、ノイズ低減画像のうち、細線化処理されたエッジの線が囲う領域を手領域（手の領域）として検出する。

なお、手領域を検出する方法はこれに限られるものではなく、例えば孤立点除去や細線化処理を省略したり、ノイズ低減画像の全体または特定の一部領域からのエッジ検出後に肌領域を選択したりすることも可能である。また、手領域は、手に持っている物体を含むように検出されてもよい。

実施形態１では、画像処理装置１は、手の位置に応じて更新された低減パラメータに基づき、補正済画像のノイズを低減する。これにより、手の位置に応じた適切なノイズ低減処理が施された画像から、適切な手領域を検出できる。そして、画像処理装置１は、ＣＧ画像に適切な手領域の画像を合成することが可能になる。つまり、ハンドマスク機能を安定して実行することが可能になる。

＜実施形態２＞
実施形態１では、画像処理装置１は、手の位置に応じて低減パラメータを更新することによりノイズが低減された画像（ノイズ低減画像）から手領域を検出した。ここで、ノイズ低減画像の手領域にＣＧ画像が重ならない場合には、ハンドマスク機能を実行する必要性がないため、低減パラメータ（ノイズ低減強度）を更新する必要性が低い。また、ＣＧ画像がノイズ低減画像の全体に表示される場合には、撮像画像が隠されてしまうため、ノイズ低減処理による画質低下が無視できる。

そこで、実施形態２では、図９と図１０を参照して、ＣＧ画像の表示領域に応じて低減パラメータを制御する画像処理装置２について説明する。なお、以下では、実施形態１と重複する部分は省略して、差異についてのみを説明する。

図９は、実施形態２に係る画像処理装置２の論理構成を示す模式図である。画像処理装置２は、画像取得部２０１、位置検出部２０２、補正量算出部２０３、ＮＲ強度設定部２０４、ノイズ低減処理部２０５、領域検出部２０６、合成部２０７、表示制御部２０８、ＣＧ領域判定部９０９を備える。なお、上記の構成のうち、画像処理装置１における構成と同名の構成は、画像処理装置１との差異のみ説明する。

ＣＧ領域判定部９０９は、位置検出部２０２が検出した手の位置と、ＣＧ画像の情報とに基づき、低減パラメータを更新するか否かを判定する。ＮＲ強度設定部２０４は、その判定結果に従って、低減パラメータを制御する。

図１０のフローチャートを参照して、画像処理装置２において、合成画像を生成するための画像生成処理の詳細について説明する。なお、ステップＳ３０１～Ｓ３０３，Ｓ３０５，Ｓ３０６は、図３のフローチャートにおける同名のステップと同じであるため、説明は省略する。

ステップＳ１００２では、ＣＧ領域判定部９０９は、手の位置とＣＧ画像とに基づき、合成画像を生成する場合に、ノイズ低減画像における手領域にＣＧ画像が重なる（重畳される）か否かを判定する。手領域にＣＧ画像が重なると判定された場合には、ステップＳ３０２に進む。手領域にＣＧ画像が重ならないと判定された場合には、ステップＳ１００５に進む。

ここで、手領域とＣＧ画像とが重なるか否かの判定（重畳判定）の例を説明する。画像処理装置２は、ＣＧ画像をノイズ低減画像に合成するために、ＣＧ画像を合成する位置の座標および表示サイズに関する情報（ＣＧ領域情報）を予め有している。そこで、ＣＧ領域判定部９０９は、手の位置（重心座標）と、ＣＧ画像のＣＧ領域情報とを参照することによって、手領域とＣＧ画像とが重なるか否かを判定できる。なお、ＣＧ領域情報は、例えば、ＣＧ画像に付加されていてもよい。

例えば、手の重心座標を（ｘ，ｙ）として、ＣＧ画像の中心座標を（ｐ，ｑ）として、ＣＧ画像の表示領域が中心座標から距離ｒ以内の範囲の領域であるとする。すると、ＣＧ領域判定部９０９は、「ｐ－ｒ≦ｘ≦ｐ＋ｒ」かつ「ｑ－ｒ≦ｙ≦ｑ＋ｒ」を満たす場合に、手領域にＣＧ画像が重なると判定する。また、例えば、ＣＧ領域判定部９０９は、手領域における全ての画素の座標のうちいずれかが、ＣＧ画像の表示領域の全ての画素の座標のうちのいずれかと同じ座標である場合には、手領域にＣＧ画像が重なると判定してもよい。

もっとも、手領域とＣＧ画像の重畳判定の方法は、これに限られるものではない。また、より複雑なデータで構成されるＣＧ画像であっても、合成画像に表示する際の座標データに変換したＣＧ画像の中心位置と、ステップＳ１００１で算出した手の位置とを比較することで重畳判定は可能である。

ステップＳ１００５では、ノイズ低減処理部２０５は、低減パラメータに基づき補正済画像のノイズを低減する。なお、ステップＳ１００５では、ステップＳ１００２にてＣＧ画像が手領域と重ならないと判定された場合には、ステップＳ３０３の処理が実行されないため、前回の処理（補正済画像の前フレームの処理）と同じ低減パラメータが用いられてもよい。または、ステップＳ１００５では、ステップＳ１００２にてＣＧ画像が手領域と重ならないと判定された場合には、低減パラメータの初期値が用いられてもよい。これらによれば、ステップＳ１００２にてＣＧ画像が手領域と重ならないと判定された場合には、ステップＳ３０２，Ｓ３０３の処理が行われないため、画像生成処理の効率化が実現できる。

実施形態２では、画像処理装置２は、手領域とＣＧ画像の表示領域とが重なる場合には、ノイズ低減パラメータを更新することをせずに、補正済画像のノイズを低減する。これにより、ＣＧ画像の表示領域に応じた適切なノイズ低減処理が施された画像から、適切に手領域を検出することが可能になる。

なお、実施形態２で説明したＣＧ画像の表示領域に基づき低減パラメータ（ノイズ低減強度）を制御する別の形態として、ＣＧ画像がノイズ低減画像の全てと重なる場合を考える。ＣＧ画像がノイズ低減画像の全体に重なると、ノイズ低減画像が見えなくなるのでノ
イズ低減処理によって補正済画像から解像感が低下する画質劣化を無視できる。このため、ＣＧ画像がノイズ低減画像の全てと重なる場合には、ＮＲ強度設定部２０４は、手の位置に依らず低減パラメータを最大のパラメータに設定して、低減パラメータの更新（ステップＳ３０２，Ｓ３０３の処理）を省略することも可能である。ここで、最大のパラメータとは、撮像画像の全画素にそれぞれ対応するシェーディング補正量のうち最大値に基づく低減パラメータである。

なお、ＣＧ画像がノイズ低減画像の全てと重なる場合ではなく、ノイズ低減画像の所定割合（例えば、８０％）より多くの範囲とＣＧ画像が重なる場合に、ＮＲ強度設定部２０４は、低減パラメータを最大のパラメータに設定してもよい。また、このような場合には、ＮＲ強度設定部２０４は、低減パラメータを最大のパラメータに設定するのではなく、例えば、低減パラメータを特定のパラメータ（例えば、最大のパラメータの所定割合）に設定してもよい。

＜実施形態３＞
実施形態１では、画像処理装置１は、手の位置に応じて低減パラメータを更新した。しかし、撮像画像が動画であって、手の移動が速い場合に、低減パラメータが頻繁に更新されると、表示装置１０８に表示される合成画像がちらついて見える場合がある。

そこで、実施形態３では、図１１と図１２を参照して、手の移動速度に応じて低減パラメータを制御する画像処理装置３について説明する。なお、以下では、実施形態１または２と重複する部分については説明を省略する。

図１１は、実施形態３に係る画像処理装置３の論理構成を示す模式図である。画像処理装置３は、画像取得部２０１、位置検出部２０２、補正量算出部２０３、ＮＲ強度設定部２０４、ノイズ低減処理部２０５、領域検出部２０６、合成部２０７、表示制御部２０８、移動速度算出部１１０９を備える。なお、上記の構成のうち、画像処理装置１における構成と同名の構成は、画像処理装置１との差異のみ説明する。

移動速度算出部１１０９は、位置検出部２０２が補正済画像の現フレームで検出した手の位置と、前フレームで検出した手の位置とに基づき手の移動速度を算出する。そして、移動速度算出部１１０９は、手の移動速度が閾値より大きいか否かにより、低減パラメータを更新するか否かを判定する。ＮＲ強度設定部２０４は、その判定結果に従って、低減パラメータを制御する。

図１２のフローチャートを参照して、画像処理装置３において、合成画像を生成するための画像生成処理の詳細について説明する。なお、図１０のフローチャートと同様の処理については説明を省略する。

ステップＳ１２０２では、移動速度算出部１１０９は、補正済画像の前フレームからの手の移動速度を算出する。このとき、前フレームの手の位置の座標を（ｘ’，ｙ’）とし、ステップＳ１２０１で検出した現在のフレームの手の位置の座標を（ｘ，ｙ）とし、動画のフレームレートを６０ｆｐｓとする。この場合には、手の移動速度ｖは、式５に示すように、２つの座標間の距離を６０で乗算することにより算出できる。

ステップＳ１２０３では、移動速度算出部１１０９は、ステップＳ１２０２で算出した移動速度が閾値以下であるか否かを判定する。移動速度が閾値以下であると判定された場
合には、ステップＳ３０２に進む。移動速度が閾値より大きいと判定された場合には、ステップＳ１００５に進む。なお、ステップＳ１００５において、ステップＳ１２０３にて移動速度が閾値より大きいと判定された場合には、ノイズ低減処理部２０５は、前フレーム（前回）の低減パラメータをそのまま用いて、補正済画像のノイズを低減する。

実施形態３では、画像処理装置３は、フレーム間の手の移動速度（移動量）が速い場合には、前フレーム（前回）から低減パラメータを更新せずに、補正済画像のノイズを低減する。これにより、低減パラメータの更新に起因する合成画像のちらつきを抑制しつつ、適切に手領域を検出することが可能になる。

なお、ステップＳ１２０３において移動速度が閾値よりも大きい場合であってもステップＳ３０２に進んでもよい。この場合には、例えば、ＮＲ強度設定部２０４は、ステップＳ３０３にて、前フレームの低減パラメータと、実施形態１の方法により算出した低減パラメータとの平均値を、現フレームの低減パラメータとして算出する。この方法によっても、低減パラメータが前フレームから大きく変化することを抑制できるため、合成画像のちらつきを抑制できる。

また、実施形態３では、移動速度算出部１１０９は、補正済画像の現フレームの手の位置と前フレームの手の位置に基づき移動速度を算出した。しかし、移動速度算出部１１０９は、例えば、現フレームの２フレーム前のフレームの手の位置と現フレームの手の位置に基づき移動速度を算出してもよい。つまり、移動速度算出部１１０９は、前フレームと現フレームの２つのフレームに限らず、補正済画像の複数のフレームにおける手の位置の変化に基づき、移動速度を算出してもよい。

また、上記において、「ＡがＢ以上の場合にはステップＳ１に進み、ＡがＢよりも小さい（低い）場合にはステップＳ２に進む」は、「ＡがＢよりも大きい（高い）場合にはステップＳ１に進み、ＡがＢ以下の場合にはステップＳ２に進む」と読み替えてもよい。逆に、「ＡがＢよりも大きい（高い）場合にはステップＳ１に進み、ＡがＢ以下の場合にはステップＳ２に進む」は、「ＡがＢ以上の場合にはステップＳ１に進み、ＡがＢよりも小さい（低い）場合にはステップＳ２に進む」と読み替えてもよい。このため、矛盾が生じない限り、「Ａ以上」という表現は、「ＡまたはＡよりも大きい（高い；長い；多い）」と置き換えてもよいし、「Ａよりも大きい（高い；長い；多い）」と読み替えてよく、置き換えてもよい。一方で、「Ａ以下」という表現は、「ＡまたはＡよりも小さい（低い；短い；少ない）」と置き換えてもよいし、「Ａよりも小さい（低い；短い；少ない）」と置き換えても読み替えてもよい。そして、「Ａよりも大きい（高い；長い；多い）」は、「Ａ以上」と読み替えてもよく、「Ａよりも小さい（低い；短い；少ない）」は「Ａ以下」と読み替えてもよい。

以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。

なお、上記の各実施形態（各変形例）の各機能部は、個別のハードウェアであってもよいし、そうでなくてもよい。２つ以上の機能部の機能が、共通のハードウェアによって実現されてもよい。１つの機能部の複数の機能のそれぞれが、個別のハードウェアによって実現されてもよい。１つの機能部の２つ以上の機能が、共通のハードウェアによって実現されてもよい。また、各機能部は、ＡＳＩＣ、ＦＰＧＡ、ＤＳＰなどのハードウェアによって実現されてもよいし、そうでなくてもよい。例えば、装置が、プロセッサと、制御プログラムが格納されたメモリ（記憶媒体）とを有していてもよい。そして、装置が有する少なくとも一部の機能部の機能が、プロセッサがメモリから制御プログラムを読み出して
実行することにより実現されてもよい。

（その他の実施形態）
本発明は、上記の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上記の実施形態の開示は、以下の構成、方法、およびプログラムを含む。
［構成１］
ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得手段と、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定手段と、
前記設定手段により設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理手段と、
前記第３の画像から前記手の領域を検出する検出手段と、
前記検出手段が検出した手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成手段と、
を有することを特徴とする画像処理装置。
［構成２］
前記検出手段は、前記第３の画像における少なくとも一部の領域からエッジを検出して、前記エッジに基づき前記手の領域を検出する、
ことを特徴とする構成１に記載の画像処理装置。
［構成３］
前記第１の画像において前記手の位置が光学中心の位置から遠いほど、前記第１の画像における前記手の位置に対する前記補正処理の前記補正量は大きく、
前記設定手段は、前記第１の画像における前記手の位置に対する前記補正処理の前記補正量が大きいほど、前記低減強度を強くする、
ことを特徴とする構成１または２に記載の画像処理装置。
［構成４］
前記設定手段は、前記合成画像が生成される場合において前記第３の画像の前記手の領域と前記ＣＧ画像とが重なるか否かに基づき、前記低減強度を制御する、
ことを特徴とする構成１から３に記載の画像処理装置。
［構成５］
前記設定手段は、前記合成画像が生成される場合において前記第３の画像の前記手の領域と前記ＣＧ画像とが重ならない場合には、前回から前記低減強度を更新しない、
ことを特徴とする構成４に記載の画像処理装置。
［構成６］
前記設定手段は、前記合成画像が生成される場合において前記３の画像の全てに前記ＣＧ画像が重なる場合には、前記第１の画像の全画素のそれぞれに対応する前記補正量のうちの最大値に基づき、前記低減強度を設定する、
ことを特徴とする構成４に記載の画像処理装置。
［構成７］
前記第１の画像は、動画であって、
前記画像処理装置は、前記第２の画像の複数のフレームに基づき、前記手の移動速度を算出する移動速度算出手段を有し、
前記設定手段は、前記移動速度に基づき、前記低減強度を制御する、
ことを特徴とする構成１から６のいずれか１項に記載の画像処理装置。
［構成８］
前記設定手段は、前記移動速度が閾値より大きければ、前回から前記低減強度を更新しない、
ことを特徴とする構成７に記載の画像処理装置。
［構成９］
前記検出手段は、前記第３の画像から、色の情報に基づき前記手の領域を検出する、
ことを特徴とする構成１から８のいずれか１項に記載の画像処理装置。
［構成１０］
前記検出手段は、前記手に持っている物体を含む領域を前記手の領域として検出する、
ことを特徴とする構成１から９のいずれか１項に記載の画像処理装置。
［構成１１］
前記第１の画像または前記第２の画像から前記手の位置を検出する位置検出手段をさらに有する、
ことを特徴とする構成１から１０のいずれか１項に記載の画像処理装置。
［方法］
ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得ステップと、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定ステップと、
前記設定ステップにおいて設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理ステップと、
前記第３の画像から前記手の領域を検出する検出ステップと、
前記検出ステップにおいて検出された手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成ステップと、
を有することを特徴とする画像処理方法。
［プログラム］
コンピュータを、構成１から１１のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。

１：画像処理装置、２０１：画像取得部、
２０４：ＮＲ強度設定部、２０５：ノイズ低減処理部、
２０６：領域検出部、２０７：合成部

Claims

ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得手段と、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定手段と、
前記設定手段により設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理手段と、
前記第３の画像から前記手の領域を検出する検出手段と、
前記検出手段が検出した手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成手段と、
を有することを特徴とする画像処理装置。
前記検出手段は、前記第３の画像における少なくとも一部の領域からエッジを検出して、前記エッジに基づき前記手の領域を検出する、
ことを特徴とする請求項１に記載の画像処理装置。
前記第１の画像において前記手の位置が光学中心の位置から遠いほど、前記第１の画像における前記手の位置に対する前記補正処理の前記補正量は大きく、
前記設定手段は、前記第１の画像における前記手の位置に対する前記補正処理の前記補正量が大きいほど、前記低減強度を強くする、
ことを特徴とする請求項１または２に記載の画像処理装置。
前記設定手段は、前記合成画像が生成される場合において前記第３の画像の前記手の領域と前記ＣＧ画像とが重なるか否かに基づき、前記低減強度を制御する、
ことを特徴とする請求項１または２に記載の画像処理装置。
前記設定手段は、前記合成画像が生成される場合において前記第３の画像の前記手の領域と前記ＣＧ画像とが重ならない場合には、前回から前記低減強度を更新しない、
ことを特徴とする請求項４に記載の画像処理装置。
前記設定手段は、前記合成画像が生成される場合において前記３の画像の全てに前記ＣＧ画像が重なる場合には、前記第１の画像の全画素のそれぞれに対応する前記補正量のうちの最大値に基づき、前記低減強度を設定する、
ことを特徴とする請求項４に記載の画像処理装置。
前記第１の画像は、動画であって、
前記画像処理装置は、前記第２の画像の複数のフレームに基づき、前記手の移動速度を算出する移動速度算出手段を有し、
前記設定手段は、前記移動速度に基づき、前記低減強度を制御する、
ことを特徴とする請求項１または２に記載の画像処理装置。
前記設定手段は、前記移動速度が閾値より大きければ、前回から前記低減強度を更新しない、
ことを特徴とする請求項７に記載の画像処理装置。
前記検出手段は、前記第３の画像から、色の情報に基づき前記手の領域を検出する、
ことを特徴とする請求項１または２に記載の画像処理装置。
前記検出手段は、前記手に持っている物体を含む領域を前記手の領域として検出する、
ことを特徴とする請求項１または２に記載の画像処理装置。
前記第１の画像または前記第２の画像から前記手の位置を検出する位置検出手段をさらに有する、
ことを特徴とする請求項１または２に記載の画像処理装置。
ユーザの手を撮像した第１の画像の画素に、前記第１の画像における当該画素の位置に応じた補正量で補正する補正処理が施された第２の画像を取得する取得ステップと、
前記第１の画像における前記手の位置に対する前記補正処理の前記補正量に基づき、前記第２の画像のノイズの低減強度を設定する設定ステップと、
前記設定ステップにおいて設定された前記低減強度で前記第２の画像のノイズを低減した第３の画像を生成する処理ステップと、
前記第３の画像から前記手の領域を検出する検出ステップと、
前記検出ステップにおいて検出された手の領域の情報を参照して、前記第３の画像に、ＣＧ画像と前記手の領域の画像とを合成して合成画像を生成する合成ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１または２に記載の画像処理装置の各手段として機能させるためのプログラム。