JP2014515587A

JP2014515587A - デジタル画像装置用の画像処理パイプラインの学習

Info

Publication number: JP2014515587A
Application number: JP2014513674A
Authority: JP
Inventors: ランセル、スティーブン・ピー; ワンデル、ブライアン・エー
Original assignee: ザボードオブトラスティーズオブザレランドスタンフォードジュニアユニバーシティー
Priority date: 2011-06-01
Filing date: 2012-05-31
Publication date: 2014-06-30
Also published as: WO2012166840A2; WO2012166840A3; US20120307116A1; US8675105B2

Abstract

【課題】入力画像を効率的に処理し、高品質の出力画像を生成する。
【解決手段】本発明は、画像の処理方法を学習するための学習プロセスであって、画像データに固有の空間相関及びスペクトル相関を利用して画像処理を行うことによって画質を高める手法を提供する。入力画像及び所望の出力画像を含むトレーニングデータセットを使用して、所望の出力画像の或るピクセルの値を入力画像における同様の位置に位置するピクセル群を用いて推定する予め定義された推定関数に最適の回帰係数を学習する。学習回帰係数を適用することにより、高速化、ノイズに対するロバスト化、特定のデータセットに対する適合、かつ様々な用途に対する一般化を実現することができる。本発明は、既存のセンサよりも優れた機能を提供し、かつ一般的な高ピクセル数の利点を活かすことができる新規な色フィルタアレイデザインを有する画像センサの使用を可能にする。
【選択図】図７

Description

本発明は、カラー画像処理方法、装置及びシステムに関する。

最新のデジタルカメラのピクセル数は、ここ数年で急激に増加している。最近のデジタルカメラは、通常、既存のディスプレイの解像度をはるかに超える高メガピクセル数を有している。例えば、１０メガピクセルのデジタルタメラで撮影した画像をダウンサンプリングすることなく表示するためには、１０個以上の７２０ｐ高解像度ディスプレイが必要になる。カメラの光学系の回析及び収差によって、画像センサが取得した画像にぼやけが生じ、それにより、高空間サンプリング（標本化）の有効性が制限される。空間分解能を単純に増加させる代わりに、多数のピクセルにより、写真の他の側面を向上させる可能性が提供される。可能性がある進歩には、低光量（低照度）での写真撮影を可能にする感度の増加、明領域及び暗領域が存在するシーンを撮影するためのダイナミックレンジ拡大、及び色精度の向上が含まれる。本発明は、上記の進歩のうちの少なくともいくつかに対応する。

本発明は、入力画像を処理して出力画像を生成するための画像処理装置を提供する。一実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。前記入力画像は、色フィルタアレイ（color filter array：ＣＦＡ）モザイク構造を有する。前記入力画像の各画像ピクセルにおいて１つの色バンドが測定され、それらの色バンドの空間的配置によって、前記入力画像の全体にわたって規則的なパターンが形成される。記憶装置が、前記入力画像の前記各画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために使用される。前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての隣接ピクセル群に対して定義されている。隣接ピクセル群は、通常は（必須ではないが）、処理される入力画像の中央に位置する、予め定義された所定サイズのピクセル群（またはパッチ）を意味する。一般的に、ピクセル群またはパッチは正方形であるが、他の形状を取ることもできる。本発明の画像処理装置はさらに、前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールを含む。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、（ｉ）前記入力画像の前記各画像ピクセルの隣接ピクセル群を取得し、（ｉｉ）前記色フィルタアレイモザイク構造における前記各画像ピクセルの位置及び、前記入力画像の前記隣接ピクセル群を用いた計算に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、（ｉｉｉ）前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用する。この実施形態では、出力画像は色フィルタアレイ（ＣＦＡ）モザイク構造を有しておらず、また、推定された出力画像ピクセルの色バンドは、入力画像の色バンドと数または分光感度（スペクトル感度）が互いに異なっていてもよいし、同一であってもよい。一変形例では、前記出力画像は、ピクセル毎に、特定の数の色バンドを含む。

別の実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。前記入力画像の各画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために、記憶装置が使用される。この実施形態では、前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての第１の隣接ピクセル群に対して各々定義されている。ピクセル処理モジュールが、前記入力画像の前記各画像ピクセルを処理するために使用される。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、（ｉ）一連の予め定義されたグローバルフィルタを前記入力画像に対して適用し、（ｉｉ）前記入力画像の前記各画像ピクセルの前記第１の隣接ピクセル群を取得し、（ｉｉｉ）前記グローバルフィルタを適用することによって得られた第２の隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、（ｉｖ）前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用する。

さらなる別の実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。記憶装置が、前記入力画像の各画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために使用される。前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての第１の隣接ピクセル群に対して各々定義されている。ピクセル処理モジュールが、前記入力画像の前記各画像ピクセルを処理するために用いられる。ピクセル処理モジュールは、前記入力画像の前記各画像ピクセルについての隣接ピクセル群を取得する。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、（ｉ）前記隣接ピクセル群を並び替え、（ｉｉ）並び替えられた前記隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、（ｉｉｉ）選択された前記学習回帰係数及び前記予め定義された推定関数を前記各画像ピクセルに対して適用する。この実施形態は、ＣＦＡモザイク構造を有していない画像に対する処理であり、学習を適用する前にピクセル群の対称性を利用する。前記ピクセル群が、垂直、水平及び斜め方向にわたって対称性を有していると仮定すれば、前記３方向に沿ってミラーリングを適用することにより前記パッチを特定の方向に方向付けすることができる。例えば、必要に応じて、前記パッチを垂直方向にわたってミラーリングすることにより、各パッチの左側が右側よりもより高い平均を有するようにすることができる。このことを３方向の各々において行うことにより、計８方向において異なるパッチを、あたかも同一のパッチかのようにして一緒に処理することができる。

本発明の実施形態は、下記のさらなる特徴のうちの１以上を有し得る。
・前記学習回帰係数が、入力画像及び所望の出力画像からなる対を有するトレーニング（訓練）画像セットを使用する学習回帰法に基づいた学習プロセスを用いて取得される。
・前記学習回帰係数が、ウィーナーフィルタを用いて取得される。
・前記推定関数が線形関数であり、前記学習回帰係数が、前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当する。
・前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含む。前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び／またはミラーリングを実施するためのモジュールをさらに含む。
・前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中での位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定される。

画像に関する経験則及び仮定を用いて画像処理アルゴリズムをデザインする従来の方法は一般的に、非常に複雑であり、かつ準最適の結果しか提供しない。本発明の学習法は、入力画像と所望する出力画像と間の統計的な空間的相関及びスペクトル相関を利用し、高品質の出力画像を迅速に生成する最適な回帰係数を容易に学習する。所望する出力画像を適切に選択することにより、結果として得られる学習係数を用いて、単一の最適化計算において、デモザイク、ノイズ除去、色変換、ぼけ修正、または他の所望する画像処理の任意の組合せを自動的に行うことができる。

本発明の学習法はまた、結果として得られるアルゴリズムを特定のアプリケーション及びデータセットについて最適化することを可能にする。このことは、一般的な処理アルゴリズムでは不可能なことである。いくつかの画像化タスクに固有であり、天然画像には存在しない、データセットの特定の性質を利用することにより、出力画像の品質を著しく高くすることができる。

本発明の一般性は、結果として得られる画像処理アルゴリズムにより、任意の種類のＣＦＡ構造を有する入力画像を効率的に処理することを可能にする。入力画像のＣＦＡ構造と所望する出力画像との間に存在する微細で複雑な相関を利用することにより、高品質の出力画像を生成することができる。本発明は、任意の画像センサが必要とする処理を自動的に生成することにより、新しいＣＦＡの迅速なデザイン及びテストを可能にする。

（Ａ）〜（Ｄ）からなり、ベイヤーＣＦＡ及び、本発明の例示的な実施形態による拡張された機能を有する新規のＣＦＡを示す図である。（Ａ）ベイヤーパターン、（Ｂ）微光用の透光性ピクセルを有するＲＧＢＷ型ＣＦＡ、（Ｃ）向上したカラー画像化またはマルチスペクトルイメージングのための６バンド型ＣＦＡ、（Ｄ）医療用として使用可能な６バンド型ＣＦＡ。Ｒ＝赤、Ｇ＝緑、Ｗ＝白、Ｃ＝シアン、Ｙ＝黄色１、Ｐ＝ピンク１、Ｅ＝エメラルド、Ｓ＝サーモン、ｙ＝黄色２、Ｏ＝オレンジ、ｐ＝ピンク２。（Ａ）及び（Ｂ）からなり、本発明の例示的な実施形態を示す図であり、１次元データに対する本発明のＬ^３の実証を示す。（Ａ）σ＝１であり、測定値が［０，１０］に渡って均一に分布している５００個のトレーニングサンプルから導かれたグローバル線形推定値。（Ｂ）８つのより小さい区間の各々について導かれたＬ^３推定値。本発明の例示的な実施形態を示す図であり、測定値と出力値との間の関係が強い場合は、Ｌ^３が最も有益であることを示している。平均二乗誤差（ＲＭＳＥ）は、５００個の同様に生成されたトレーニング点を有する図２（Ａ）〜（Ｂ）に示した根本関数及び局所性（ローカル性）についてのグローバル線形推定値及びローカル線形推定値についてのものである。誤差は、１０，０００個のランダムに生成されたテスト点について計算した。本発明のベイヤーＣＦＡ用パッチの例示的な実施形態を示す図であり、Ｒ型パッチを示す。グレーで塗りつぶされたピクセルは、中央ピクセルを示す。パッチサイズは、ここに示した９×９ピクセルと異なっていてもよい。本発明のベイヤーＣＦＡ用パッチの例示的な実施形態を示す図であり、Ｇ１型パッチを示す。グレーで塗りつぶされたピクセルは、中央ピクセルを示す。パッチサイズは、ここに示した９×９ピクセルと異なっていてもよい。本発明のベイヤーＣＦＡ用パッチの例示的な実施形態を示す図であり、Ｇ２型パッチを示す。グレーで塗りつぶされたピクセルは、中央ピクセルを示す。パッチサイズは、ここに示した９×９ピクセルと異なっていてもよい。本発明のベイヤーＣＦＡ用パッチの例示的な実施形態を示す図であり、Ｂ型パッチを示す。グレーで塗りつぶされたピクセルは、中央ピクセルを示す。パッチサイズは、ここに示した９×９ピクセルと異なっていてもよい。本発明の例示的な実施形態を示す図であり、暗いシーンのために最適フィルタがより分散されていることを示す。Ｒ型パッチの中央ピクセルでのＸ、Ｙ、Ｚチャンネルを推定するためにウィーナーフィルタを生成した。フィルタの各列は、右端に示すように、スケールされている。（Ａ）〜（Ｃ）からなり、本発明の例示的な実施形態を示す図であり、グローバル線形推定は、近傍テクスチャ以外は良好に実施できることを示す。（Ａ）ＸＹＺからｓＲＧＢへ変換した理想的な出力画像。（Ｂ）５００ｃｄ／ｍ^２の平均輝度及び９×９のパッチサイズを有するベイヤーＣＦＡを使用したグローバル線形推定の結果を示す。画像はＸＹＺからｓＲＧＢへ変換した。（Ｃ）画像（Ａ）及び（Ｂ）間の差。グレー値は、ＸＹＺチャンネルにおける各ピクセルでの画像間の絶対差の平均に相当する。白い部分は、理想ＸＹＺ画像の平均値に対する１０％以上のエラーに相当する。本発明の例示的な実施形態を示す図であり、トレーニング及びＬ^３パイプラインの適用の概要を示す。本発明の例示的な実施形態を示す図であり、Ｌ^３パイプラインを適用するための計算を示す。パッチは、コントラストの計算及び閾値に対する比較によって、フラットまたはテクスチャに分類される。テクスチャパッチは、テクスチャフィルタを適用する前に、方向付けされる。示されたＣＦＡフィルタは、２０ｃｄ／ｍ^２について最適化されている。（Ａ）〜（Ｃ）からなり、本発明の例示的な実施形態を示す図であり、テクスチャピクセルが大きなグローバル線形推定誤差を有する可能性があることを示す。（Ａ）ピクセルをフラットパッチ（黒）及びテクスチャパッチ（白）に分類した。フラットパッチ及びテクスチャパッチ間の閾値は、トレーニングパッチの８０％がフラットパッチとして分類されるように設定した。（Ｂ）図６（Ｃ）からのグローバル線形推定の誤差。本発明の例示的な実施形態を示す図であり、学習された、グローバルフィルタ、フラットフィルタ及びテクスチャフィルタが互いに異なり得ることを示す。平均輝度が２０ｃｄ／ｍ^２のシーンについてのＲ型パッチの中央ピクセルでのＸ、Ｙ、Ｚチャンネルを推定するためにウィーナーフィルタが生成された。フラットパッチ及びテクスチャパッチ間の閾値は、トレーニングパッチの８０％がフラットパッチとして分類されるように設定した。（Ａ）〜（Ｃ）からなり、本発明の例示的な実施形態を示す図であり、テキストなどの制約のある画像のＬ^３学習を示す。（Ａ）理想的な画像。（Ｂ）ベイヤーパターンでサンプリングした後に、基本的パイプラインで処理した再構成した画像。（Ｃ）ベイヤーパターンでサンプリングした後に、Ｌ^３パイプラインで処理した再構成した画像。画像は２５０×１３５ピクセルであった。シーンの平均輝度は２００ｃｄ／ｍ^２であった。（Ａ）〜（Ｃ）からなり、本発明の例示的な実施形態を示す図であり、Ｌ^３パイプラインが自動的なぼけ修正を実施可能であることを示す。（Ａ）Ｆ値４の回析限界レンズで形成した理想的な画像、（Ｂ）Ｆ値３２の回析限界レンズで画像化し、ベイヤーパターンでサンプリングし、そして、Ｆ値３２のレンズを使用した場合の入力画像及びＦ値３２のレンズを使用した場合の出力画像を用いてトレーニングしたＬ^３パイプラインを適用した後に再構成した画像。（Ｃ）Ｆ値３２の回析限界レンズで画像化し、ベイヤーパターンでサンプリングし、そして、Ｆ値３２のレンズを使用した場合の入力画像及びＦ値４のレンズを使用した場合の出力画像についてトレーニングしたＬ^３パイプラインを適用した後に、再構成した画像。画像は３５０×２５０ピクセルであった。本発明の例示的な実施形態を示す図であり、Ｌ^３パイプラインによる、ぼけ修正についての空間周波数のブーストを示す。輝度チャンネルのＭＴＦ、Ｙは、Ｆ値４レンズ及び図１２で用いたＬ^３パイプラインを使用してベイヤーパターンでサンプリングした後の推定画像についてのものである。本発明の例示的な実施形態を示す図であり、Ｌ^３パイプラインによる各ピクセルでの反射率の推定を示す。推定は、５００ｃｄ／ｍ^２の平均輝度を有する多色ビーズを含むシーンを６チャンネルＣＦＡでシミュレーションして取得した主成分を用いて行った。元の反射率及び推定の反射率は、１つのビーズに含まれる多数のピクセルの平均を表す。同じグレイスケールを有する曲線は、同じ物体を表す。（Ａ）〜（Ｃ）からなり、本発明の例示的な実施形態を示す図であり、Ｌ^３パイプラインをマルチスペクトル物体検出に適用する方法を示す。（Ａ）ｓＲＧＢで示した、偽物のりんごと偽物のりんごのシーン。（Ｃ）６チャンネルＣＦＡでサンプリングし、各りんごの少数のピクセルについて平均化した後の、反射率のオリジナル値及び推定値。同様のシーンが存在しないので、トレーニングデータは同一のシーンから取得した。シミュレートしたシーンの平均輝度は５０００ｃｄ／ｍ^２であった。（Ｂ）推定反射率の標的反射率に対する類似性。色は、−ｌｏｇ（１−ｄ）の値を示す。大きな値は、本物のりんごの標的反射率に対する類似性を示す。

最近のカメラに内蔵されているセンサの色フィルタアレイ（ＣＦＡ）を変更することにより、種々の改善、例えば、低光量（低照度）での写真撮影が可能であるように感度を高くすること、明領域及び暗領域を有するシーンを撮影するためにダイナミックレンジを拡大すること、色精度を高めることなどが可能である。ＣＦＡは、ほぼ全てのデジタルカメラに搭載されており、各ピクセル（画素）が光の特定の色のみを測定するようにセンサの各感光性部位の上に置かれた一連の光学フィルタである。ＣＦＡの各種ピクセルを透過する光へのカメラの感度は、各チャンネルに対するカメラの量子効率によって説明することができる。これらの機能により、所与の波長を持つ光子がセンサ内に電子正孔対を生成することが可能になる。センサの各ピクセル内で発生した電子を集めてその数を数えることによって、当該ピクセルの色バンドにおける各ピクセルでの光の量が決定される。図１のＡに示すベイヤーＣＦＡは、今日、ほぼ全てのカメラに内蔵されている。図１のＢに示すＣＦＡは、ベイヤーＣＦＡの緑ピクセル群の半分を白ピクセル群に置き換えたものである。白ピクセル群は透明なフィルタを有するので、白ピクセル群の感度はセンサのシリコンによって与えられる。この感度の向上により、超低光量での写真撮影が可能になる。白ピクセル群またはより高感度のピクセル群を有する同様のＣＦＡについても検討を行った。

追加のピクセル群を用いることによって、単に人間の観察者に向けて写真を改善するのみならず、人間の視覚系で直接観測できないスペクトル特性を測定することもできる。人間の視力は、網膜によって得られる。網膜は、眼球壁の最も内側にある薄い層であり、人間の視力を司る光受容体を含む。入射光に反応する何百万もの細胞（錐体視細胞と呼ばれる）がある。錐体視細胞は３種類あり、各々光に対する感度が異なる。光は、可視範囲にわたるスペクトル曲線であると表現することができる。人間の網膜には３種類の錐体視細胞しかないので、人間の視覚には、似たようなスペクトルを持つ物体を区別する能力において限界がある。

多くの光学イメージング装置、例えば、特定用途向けのカメラ、顕微鏡及び内視鏡などが存在し、これらは民生用カメラと同様の技術を有するが、これらの装置が関心を持っているのは、人間が知覚できる可視域外の光である。マルチスペクトルイメージングまたはハイパースペクトルイメージングは、或るシーンから、単に人間の視覚系が捉える３原色成分ではなく、様々なスペクトルを観察しようとする試みに取り組むものである。スペクトルは、４００〜７００ｎｍの可視範囲外の波長、例えば７００〜１１００ｎｍの近赤外波長などを含み得る。このスペクトルに関する追加情報は、人間の観察者の目に映る色と同様の色を有するように見える種々の物体を分類または検出するタスクを大幅に簡略化することができる。

マルチスペクトルの応用には、リモートセンシング、コンピュータビジョン、ディスプレイ及びプリンタ、芸術、食品の安全及び検査、並びに医療応用、例えば、顕微鏡検査、蛍光イメージング、病理学、診断、皮膚科及び遠隔医療などが含まれる。

マルチスペクトル画像をキャプチャするための専門の装置は数多く存在する。残念なことに、それら全てが非常に高価なものであり、画像取得に長い時間がかかるので、人間などの動く物体（被写体）が含まれない静止シーンに制限される。通常、これらの装置は、２次元を同時に獲得し、連続的に、マルチスペクトルイメージングに必要な第３の次元をスキャンすることができる。

例えば図１のＣに示すような、多数の色バンドを特徴とするＣＦＡを備えたカメラは、非常に迅速に行われ得る１回の画像取得により、マルチスペクトルシーンを安価に推定することができる。このＣＦＡは、典型的な赤（Ｒ）、緑（Ｇ）、青（Ｂ）のピクセル群に加えて、シアン（Ｃ）、マゼンタ及び黄色（Ｙ）のピクセル群を有する。この６バンドセンサをマルチスペクトルカメラにおいて用いることにより、各ピクセルにおける任意の波長に対する光の量を推定することができる。そのようなマルチスペクトルカメラの開発は、標準的な民生用デジタルカメラとコストがあまり変わらないはずであるが、多くの特定用途に用いることができるであろう。

６つの色バンドを用いて観察することで、典型的な３バンドのセンサと比較して、色推定を改善することができる。シアン、マゼンタ、黄色のフィルタは、赤、緑、青のフィルタよりも多くの光を伝達するので、このＣＦＡは、低照度下で高い感度を得ることもできる。

図１のＤに示すＣＦＡは、改善された６バンドデザインを示しており、特に組織分類に優れた性能を発揮するように体内で作動する医療用カメラ内で用いることができる。内部組織は通常、スペクトルの赤領域においてより高い反射性を示すので、スペクトルの赤部分をより重点的に測定するようにセンサのデザインがなされる。

これらのＣＦＡは、開発可能な新たなＣＦＡのほんの一部かでしかない。特定のデータセットに対してＣＦＡをデザインすることによって将来的に特定の用途においてスペクトル特性が利用される可能性は大きい。体内、工場内またはコンピュータビジョンシステム内などの特殊環境においてのみ作動するようにデザインされた画像センサの場合、センサ及び処理を、該センサを用いてキャプチャすることになる非常に狭い一連のシーンに対して最適化することができる。

新たなＣＦＡに用いられる画像処理パイプラインの課題

新たなＣＦＡに付随する大きな課題は、画像処理パイプラインをデザインする困難さである。画像処理パイプラインとは、センサからの出力を、表示または格納に望ましい画像に変換する一連の計算である。代表的な画像処理パイプラインの一部をなす計算を以下に示す。全てのパイプラインは、通常、何らかの形でこれらの各計算を行うが、順序の変更や追加アルゴリズムの導入も可能である。
・欠陥補正は、デッドピクセルまたはホットピクセルなどのセンサにおける誤差を補正する。
・レンズシェーディングは、画像の領域の明度を調整することにより、画像の外側付近での露出の減少を補正する。
・デモザイクは、ＣＦＡ画像からフルカラー画像を作成するために、各ピクセルにおいて観察されない色バンドを推定する。
・ノイズ除去は、画像の基礎的なコンテンツを失わなわずにノイズを除去する試みを行う。
・色変換は、センサで測定された色空間から望ましい標準色空間への変換を行う。元（オリジナル）のシーンに対する人間の知覚を再現することになる画像の場合、出力色空間は通常、ＸＹＺカラーマッチング関数の線形的な組合せである。
・ぼけ修正／鮮明化は、カメラによりピンぼけになった可能性のある細部を回復させることにより、エッジが明確化された、より満足のいく画像を作成しようとする試みを行う。
・ガンマ変換は、線形的な明度の値に指数関数を適用するので、出力画像は、適切に表示されかつｓＲＧＢなどの標準的な色フォーマットに適合するものであり得る。
・圧縮は、画像の知覚的変化を最小限に抑えつつ、ファイルサイズを縮小する。

前記パイプラインに含まれる処理ステージのうち、デモザイク、ノイズ除去及び色変換のみが、特定のＣＦＡに決定的に依存する。これら３つの計算の各々に対して多くのアルゴリズムが提唱されているが、ほとんどのものは新たなＣＦＡデザインに適合しない。また、標準的なＲＧＢベースの画像に用いられる多くの画像処理アルゴリズムの基礎になっているいくつかの仮定は、任意に画定された色空間に対して一般化できない。

新たなＣＦＡのデモザイク処理は容易ではない。その理由は、良好なアルゴリズムのために、画像内で空間相関及びスペクトル相関を利用しなければならないからである。或る特定のピクセルにおいて値を推定するとき、隣接ピクセルから得られる測定値は異なる色バンドのものであることが多く、その一方で同色のピクセルはそれよりもさらに離れた位置にある。色バンドは、互いに重なり合っていてもよく、かつ画像を適切にデモザイク処理するために利用されるべき重要な相関関係を有し得る。

同様に、ノイズ除去も容易ではない。その理由は、様々な色バンドの全域にわたって存在するノイズから信号を分離することが困難なためである。ノイズの強度は、各バンドにおける光の量に基づき、色バンド間で異なる。同様に、各色バンドにおけるノイズも、各ピクセルで異なる。その理由は、測定されたのは１つのバンドで、他のバンドはデモザイク時に推定されたものであるからである。

ベイヤーカメラの場合、色変換は通常、各ピクセルにおける出力ＸＹＺ値に対する推定ＲＧＢ値の線形的な組合せである。コンテンツやノイズレベルにかかわらず、全てのピクセルに対して同じ変換が用いられることが多い。本方法は、特にスペクトルフィルタが互いに重なり合っていたりチャンネル間でノイズレベルに著しい差があったりする場合に、特定のＣＦＡまたは出力色空間に対してあまり役に立たなくなる可能性がある。

新たなＣＦＡの処理の難しさを説明するために、図１のＢに示したＲＧＢＷ型ＣＦＡを用いた測定及び、以下の条件下でのＸＹＺの推定について考える。
・超低光量環境−赤、緑、青の測定値は非常にノイズが多く、信頼できないが、それに比べて、白の測定値はノイズがはるかに少ない。これらの測定値から鮮やかな色を正確に推定することは不可能であるので、色変換は白チャンネルに大きく依存するはずであり、出力画像はグレイスケールに近くなるはずである。
・薄暗い光−赤、緑、青の測定値にはノイズがあり、白の測定値はノイズをほとんど含まない。白チャンネルは、シーン内の構造、例えばエッジなどを識別することにより、デモザイク及びノイズ除去を支援することができる。４つのチャンネル全てが、出力画像に寄与し、色変換に資するはずである。
・明るい光−全ての測定値はノイズをほとんど含まないが、白チャンネルは飽和して信頼できなくなるであろう。赤、緑、青の感度は、ほぼＸＹＺの部分色空間に位置するようにデザインされるので、白の測定値は、色変換の役に立たない。色変換は、赤、緑及び青のチャンネルにのみ依存する。

明らかに、デモザイク、ノイズ除去及び色変換については、この特定のＣＦＡの特性に適応させ、かつ様々な光レベルを通じて大きく変更しなければならない。このことは、新たなＣＦＡに用いられる処理パイプラインを作成する困難さを示している。

ローカル・線形・学習型（Local, Linear, and Learned）パイプライン

画像処理パイプラインの上記ステージを画像に関する経験則及び仮定を用いてデザインする伝統的方法は、多くの新たなＣＦＡデザインにとって非効率的でありかつ非常に困難である。本明細書に示す学習方法は、トレーニングデータセットからフィルタ及び必要なパラメータを自動的に計算するので、結果として得られるパイプラインを獲得しやすい。本発明の方法は、デモザイク、ノイズ除去及び色変換に通常必要とされる別々の計算の代わりに、１回の高速計算で出力画像を推定する。トレーニングデータセットから、ＣＦＡの様々なチャンネルと所望の出力色空間との間の微細な相関関係が学習される。また、学習により、結果として得られるアルゴリズムを特定の用途及びデータセットに対して最適化することもできる。そのような最適化は、一般的に、以前のアルゴリズムを用いて行うことが不可能であった。パイプラインで必要な処理を線形計算及びスカラー比較のみにすることによって、計算コストが最小限に抑えられる。

いくつかのスペクトル測定からの反射率推定

任意の可能なＣＦＡ処理方法が得られたところで、次の重要な課題は、特定の用途向けのＣＦＡをデザインする方法である。バンドは、着目波長を適切に測定し、さらにセンサのコスト及びノイズを最小限に抑え、さらに高空間分解能を維持するようにデザインされるべきである。デザインのトレードオフを理解するために、少ない数の測定値、例えばカメラの様々なチャンネルなどからスペクトルを推定するという問題を検討しなければならない。最初にカメラの空間次元を無視することによって、分光感度のトレードオフを理解することの方が、なお一層容易である。以下では、既知の光源下で既知の分光感度を有するカメラから得られる測定値を用いて物体の反射率を推定する問題について述べる。物体の反射率は波長の関数であり、物体に入射した光に対して反射した光の割合を表す。反射率は、物体の外観及び色を決定する。反射率を推定するためのローカル・線形・学習型の方法を、その利点とともに示す。

ローカル・線形・学習型の概念

本明細書に記載の画像推定方法及びアルゴリズムは、Ｌ^３と呼ばれる。これは、ローカル・線形・学習型（Local, Linear, and Learned）の略であり、本方法の独自の特徴を明確にしたものである。通常、Ｌ^３アプローチは、ノイズが含まれている可能性のある測定値のベクトルに基づき、トレーニングデータを活用することによって未知のベクトルを推定する手段である。画像推定に関しては、ＣＦＡの、或るピクセルを取り囲む測定値を用いて、中央ピクセルにおける少数のスペクトルバンドを推定する。反射率推定に関しては、測定値は、物体からの光の少数のスペクトルバンドであり、物体の反射率を推定するために用いられる。以下は、本方法の独自の特徴である。

「ローカル（Local）」は、本発明の画像推定の適応性を指す。これは、全ての推定値が同一の方法で得られるグローバル（大域的）な方法とは対照的である。そのようなグローバルアルゴリズムは、観察される測定値に基づいて測定値と所望の出力との関係が大きく変化した場合に機能しなくなる。ローカル（局所的）な適応を行うために、測定空間は複数のクラスタに分割される。通常、クラスタは、非常に似通った物体すなわち画像の特徴部が１つのグループにまとめられるようにデザインされる。同一クラスタ内の全ての測定値に対する推定値が同一の方法で計算され、当該クラスタのメンバーに対して最適化される。

「線形（Linear）」は、ほぼ全てのアルゴリズムの計算が線形的であり、それ故に計算が非常に高速であることを明確にしたものである。今日では画像及び映像には数百万のピクセルが含まれており、そのような画像及び映像に対して計算を行う場合に、計算要件は非常に重要である。多くの公表されている画像処理アルゴリズムは、非常に高い計算要件を有し、それは多くのアプリケーションには高価すぎるであろう。一連の測定値に対して、線形計算及び比較のみを必要とする適切なクラスタが識別されると、推定値を得るために、事前に計算された線形フィルタが適用される。特定の仮定下で、ウィーナーフィルタは、各クラスタについての最適な線形フィルタであり、測定値の予期されるノイズレベルに対してロバストである。とりわけ、所与のクラスタにおいて、信号及びノイズが無関係であると仮定する。この仮定は、一般的には、ポアソンショットノイズの信号依存性のせいで正しくない。しかし、上記仮定は、計算を簡略化するものであり、かつクラスタ内のトレーニングデータが互いに類似しているときには合理的と認められる程度に有効であるので、そのような仮定が成立する。

「学習型（Learned）」は、本発明の画像推定が、トレーニングデータセットからの統計値の抽出によってなされることを意味する。推定は一般的には劣決定問題であるので、推定値を導くためにはデータセットからの統計値が必要である。画像に関する経験則及び一般知識は、画像処理においては一般的であるが、非ＲＧＢ画像への適用が困難であるので、それらに依存する代わりに、機械学習技術を用いることにより、トレーニングデータセットを通じて処理を最適化する。トレーニングデータセットから、クラスタリング法が学習される。その後、各クラスタに対してウィーナーフィルタが計算される。ウィーナーフィルタは、当該クラスタ内でトレーニングデータを通じて最小の誤差を達成する。学習の結果として、Ｌ^３アプローチは、或る特定の用途に対する推定値を自動的に生成する。消費者によってキャプチャされる典型的なシーンよりも反射率または画像が制約されるアプリケーションの場合、専門のアルゴリズムは、大幅に改善された性能を有し得る。

具体例

図３に示す仮想的な問題を考えてみよう。測定値及び出力値がともにスカラーである場合、シナリオは非常に単純である。測定は、区間［０，１０］にわたって均一に行われる。各測定値についての対応する所望の出力は、平均０、一定標準偏差σのガウスの確率変数だけ、測定値の固定関数とは異なる。従って、最適な推定値はこの固定関数である。ガウスの確率変数は、測定値から予測できない所望の出力の偏差を表す。同様の不可避な誤差が、画像及び反射率推定において生じるが、その理由は、基礎信号を完璧に予測しない有限測定値のみが利用可能であるからである。この予測不可能性は測定ノイズとは異なるものであり、それはこの例には存在しないことに留意されたい。

トレーニングサンプルから得られた最適なグローバル線形（具体的にはアフィン）推定値を図２の（ａ）に示す。基礎関数が極めて非線形的であるため、グローバル線形推定はデータに合っていないことが分かる。図２の（ｂ）は、区間［０，１０］を幅の等しい８つの区間に分割し、各区間内のトレーニングサンプルに基づいて最適線形（アフィン）推定値を導き出した結果を示している。［８．７５，１０］の測定区間においては最適推定値の変化が急すぎるので、ローカル線形推定では上記区間以外で最適推定値の近似がなされることに留意されたい。このようにして作成されたローカル線形推定値は、最適推定値によく合うものである。或る１つの測定値に対して推定を行うために、先ず、当該測定値を含む区間を決定する。その後、当該区間に対してメモリから事前に計算されたフィルタを獲得し、適用する。カーネル回帰は、基礎関数を推定するための別の方法を提供し、連続的推定量をもたらす。しかし、推定を行うときには、元（オリジナル）のデータにアクセスして、より多くの計算を行わなければならない。ローカル線形法は、多くの最近の画像処理アプリケーションに必要な適用時の計算及びメモリ要件が最小限で済むので、ローカル線形法が選択された。

図３は、データの予測不可能性がグローバル推定及びＬ^３推定の性能を如何にして達成するかを示している。σ＝０のときには、測定値と所望の出力との間に決定論的な関係がある。この場合、ＲＭＳＥは、推定値の偏り、すなわち推定値が基礎関数を近似できないことを直接反映している。σが増加するにつれて測定値と所望の出力との関係は弱くなり、その結果、どの推定値にも不可避な誤差が生じる。Ｌ^３推定はこの例に関してほぼ最適であるが、σが大きいときには、グローバル線形推定の偏りとＬ^３推定の偏りとの差に比べて、データの予測不可能性に起因する誤差が優位を占める。その結果、σが大きくなるにつれて、グローバル線形推定量に対するＬ^３推定量の相対的な向上は小さくなる。測定ノイズは、両推定量の性能を低下させかつ局所性（ローカル性）の相対的な向上を小さくすることによって、同様の影響を与える。

従って、測定値と所望の出力との間に強い非線形的関係があり、かつ測定ノイズがほとんどないようなデータセットに関して、Ｌ^３推定量は、グローバル線形推定量と比較して非常に役立つ。トレーニングデータセットを予想される物体またはシーンのサブセットのみに制限することで、不確実性を低下させる。そのような制約付きデータセットは、一般的な写真撮影に比べて物体（被写体）及びシーンが限定されている特定の用途のために存在する。

多次元への拡張

複数の測定値を用いる推定の場合、複数のローカルクラスタへの分割及び線形推定が高次元空間で行われる。推定値から予期される複数の出力値がある場合、測定空間内でクラスタリングが１回行われ、その後、別々の線形推定量が計算されて所望の各出力に適用される。

測定空間を複数のローカルクラスタに分割する方法は、重要なデザイン検討事項である。計算上の理由で、クラスタリングは、クラスタの数が所要の分岐操作の数とともに指数関数的に増加するように階層的に行われる。１つのクラスタから２つのより小さなクラスタへの分割には、線形内積及びスカラー比較が含まれ、これらは計算効率がよい。クラスタは、測定値と所望の出力の強い線形的関係を有するようにデザインされる。或るクラスタに関して線形的関係が十分に強力でない場合、当該クラスタをさらに分割することが有用であろう。しかし、クラスタの数が多くなりすぎるリスクがある。計算及びメモリの増加に加えて、ノイズのせいで特定の測定値に対して間違ったクラスタが識別されるかもしれない。加えて、トレーニングデータセット以外ではうまく機能しないかもしれない回帰の過学習及び生成を回避するために、各クラスタには十分な量のトレーニングデータを含める必要がある。

画像推定

正確な推定値を与える画像処理パイプラインを作成するために、以下の特徴が重要である。
・今日のカメラはピクセル数が多いので、画像処理パイプラインは、過剰な計算またはメモリを要求するものであってはならない。理想的には、アルゴリズムは、最小限の計算しか必要とせず、性能改善のために必要に応じて複雑さを拡大することができる。
・画像処理パイプラインは、任意のＣＦＡに適合するものでなければならない。ＣＦＡは、任意のスペクトル形状及び任意の空間的配置を持つ任意の数の色バンドを含むことができる。一般的な方法を用いなければ、任意の１つのＣＦＡが持つ特殊性のために画像処理パイプラインの開発は困難である。一般的な方法を用いると、新たなＣＦＡデザインのシミュレーションを通じて迅速な評価が可能であり、そうでなければパイプラインを毎回作り直す必要がある。
・画像処理パイプラインは、出力画像を任意の色空間に出力できなければならない。色空間は、任意のスペクトル形状を有する任意の数の色バンドを含むことができる。出力色バンドは、正負両方の間隔を有し得る感度関数と入射光との内積と定義することができる。
・画像処理パイプラインは、測定ノイズに対してロバストでなければならない。パイプラインは、暗いシーンから明るいシーンへの変化によって生じる様々なノイズレベルを考慮すべきである。また、感度全体に差があると考えられることから、色チャンネルにわたって様々なノイズレベルがあることを認識することも重要である。
・画像処理パイプラインは、所与の用途向けにカスタマイズ可能なものとすべきである。特定のデータセットの個々の項目に合わせたアルゴリズムは、一般的な画像処理パイプラインと比較して改善された性能を提供し得る。このことは、全ての撮像シーンが互いに似通っている、特定の目的のために常に使用されることになるカメラに、特に重要である。加えて、特定の種類のシーンを決定することができれば、アルゴリズムのタスクの専門化は、民生用カメラにおいて有益であろう。これは、自動シーン検出またはユーザの入力によりなされ得る。例えば、多くの民生用デジタルカメラにおいては、ユーザが選択可能な、事前に指定されたシーンモードが存在し、それによって、当該シーン種類に最適化されたフィルタの信号使用が可能になる。
・画像処理パイプラインは、出力画像において望ましい結果をもたらすように調整可能であるように、単純かつ理解可能なものにすべきである。既存のパイプラインは、多数の連続的な計算を必要とすることが多く、そのことが、システム全体を理解しかつ変更することを困難にしている。上記の計算のうちの幾つかを組み合わせることによって、設計者は、結果として得られた画像を見て、数個のパラメータを調整することにより、特定の画像または画像領域において望ましい変更を行うことができる。

本発明の例示的な実装としてのＬ^３パイプラインは、トレーニング画像についての機械学習を活用することにより、従来の画像処理パイプラインからのデモザイク、ノイズ除去及び色変換計算を１回の計算で同時に行うことによって、これらのデザイン要件を満たす。一実施形態では、上述のパイプラインのレンズシェーディングステージは最初にＬ^３パイプラインに含まれていないが、それはレンズシェーディングステージが空間的シフト不変でないためである。ガンマ変換及び圧縮計算も同様にＬ^３パイプラインに含まれないが、その理由は、これらが高度に非線形的であり、後処理において容易に行われるからである。

トレーニングデータセット及び作成方法の例

画像処理パイプライン用の学習アルゴリズムを作成するために、入力画像及びそれに対応する所望の出力画像からなる高品質のデータセットが必要である。学習型アルゴリズムは、できる限り細かに出力画像を推定しようと試みることになる。ノイズと、入出力画像間の非決定論的関係とが原因で、完全な推定は不可能である。具体的には、トレーニングデータセットは、計算、デザインまたは測定が可能な、ノイズをほとんどまたは全く含まないＣＦＡ測定値及びそれに対応する所望の出力の集合からなる。画像の変更が好ましい場合には、出力画像がシーンの科学的に正確な測定値である必要はない。例えば、カメラメーカーは、空など特定色について飽和度を高くするように見え方を調整することができ、そうすることで消費者の興味を引くことができるであろう。

トレーニングデータを作成する方法はいくつかある。１つは、カメラの基本的特性に基づく既知のマルチスペクトルシーンのコンピュータシミュレーションである。物理的にカメラの試作品を製作すると、特に新規なＣＦＡに関して、製作費が高くつきかねないが、コンピュータシミュレーションであればカメラの試作品を必要としないという利点がある。シミュレーションにおいて新たなカメラデザインを試してみるのは非常に簡単であり、これにより、試作品カメラ及び物理実験室がない状態でも、校正されたテスト用のシーンを用いて、迅速な最適化及びテストが可能になる。

シミュレーションパラメータを得るために、標準検査表を写真に撮ることによって、既存のカメラの特性を明らかにすることができる。シミュレーションとカメラのセンサから得られる測定値とが統計的に類似している限り、学習型パイプラインからの出力画像はシミュレーションにより得られた出力と一致することになる。

既存のカメラに関して、もう１つの方法として、既知のマルチスペクトル分布を持つシーンを写真に撮り、実際のセンサ測定値をトレーニングに用いてもよい。こうすることにより、シミュレーションと既存の装置との不一致により生じる誤差が取り除かれる。上記シーンからのマルチスペクトルデータは、高性能でかつ多くの場合に高価である多くの科学的装置の１つを用いて測定することができる。

グローバル線形パイプライン

グローバル・線形・学習型（global linear learned）パイプラインは、最も実装しやすいパイプラインの１つであり、最小限の計算が要求される。各ピクセルにおける出力推定値は、当該ピクセル及びその近傍におけるセンサ測定値の不変の線形的な組合せであり、シーン輝度によって決まる。この例では、特定の光レベルについて導入されるパイプラインは、大域的に線形となる。しかし、互いに異なる光レベルについてのパイプラインは、ＳＮＲが異なるために、互いに異なり得る。

上記例のいくつかにおけるアルゴリズムは、空間的に局所化（ローカル化）される：最終画像内の各ピクセルにおける値は、当該ピクセル及びその近傍におけるセンサ測定値のみの関数である。このことは、並列処理を可能にする。既存の実装は、
個のピクセルを測定するパッチと呼ばれる正方形のセンサ測定値のセットを用いる。ここで、
は奇数である。中央ピクセル出力値のみが推定されるので、処理されなければならないパッチの数は画像中のピクセルの数と等しい。画像の外側の
個のピクセル内のピクセル群に対してパッチを形成するのに十分な隣接ピクセルが存在しないので、この境界領域においては出力が計算されない。

デモザイクアルゴリズムにおいて、同様の空間的局所性を有することは一般的である。しかし、そのような特性はノイズ除去においては一般的でない。その理由は、基礎信号を決定しかつノイズを除去するために用いることができる類似構造が、画像の非ローカル領域に含まれ得るためである。推定値を局所的に制限すると、推定に役立ち得るセンサ画像内の可能なパターンまたは統計値が無視されるが、そのような制限は、計算及びメモリ要件を大幅に削減する。

ＣＦＡパターンをパッチに如何に合わせるかに応じて、幾つかの異なるパッチ型が存在する。図４Ａ〜図４Ｄは、ベイヤーＣＦＡ向けの４つのパッチ型を示している。先ず、これらを用いてアルゴリズムについて説明する。一般的に、ＣＦＡパターンの繰り返しブロック（ベイヤーＣＦＡの場合は２×２）内には、ピクセルの数と同じ数のパッチ型が存在する。各パッチ型はその中央ピクセルの色で呼ばれ、該中央ピクセルで出力色チャンネルが推定されることになる。

一般的に、各パッチ型に対して別々のフィルタが学習される。ベイヤーＣＦＡ配列の場合、Ｇ１型パッチとＧ２型パッチは、一方の配列が他方の配列を回転させたものである点のみが異なる。画像の垂直方向及び水平方向に基本的相違がないと仮定すると、これらのパッチにそれぞれ対応する最適なフィルタも、互いに対して配列を回転させた関係にあるであろう。ランドスケープ方向（横向き）またはポートレート方向（縦向き）で同じシーンを写真に撮ると、この回転が行われるので、上記の仮定はカメラにほぼ当てはまる。この回転を利用することにより、トレーニングされかつ格納されるフィルタの数を減少させる。

ここで、
を、ノイズフリーと推測されるベクター形式に変換されたセンサパッチとする。テスト時に測定データはノイズ
により破損されることになるので、ｚ＝ｙ＋ｎとなる。次に、
を、パッチの中央ピクセルにおけるｏ個の出力色バンドの所望の値とする。

トレーニングデータを作成するために、１つのトレーニング画像セットからｋ個のパッチがランダムに抽出される。
及び
の列を、各パッチからのｙベクトル及びｘベクトルの集合とする。Ｙはトレーニングに対してノイズフリーであると推測されるが、フィルタリングは測定ノイズに対してロバストである必要がある。
を、測定ノイズを表すランダム行列とする。

線形推定量
が望ましく、これは推定値
をＸに非常に類似したものにする。

通常はｍ＜ｋであるので、完全な推定は不可能である。代わりに、推定値の誤差を二乗したものの合計値が最小限に抑えられる。具体的には、
を最小限に抑える。ここで、
はフロベニウスノルムである。これは、平均二乗誤差（ＭＳＥ）またはピーク信号対ノイズ比（ＰＳＮＲ）によって求められる最適推定値に相当する。残念ながら、これらの測定基準（メトリクス）は、知覚的誤差との一致がそれほど良好ではないが、最適化に便利である。

ウィーナーフィルタを導出するために、いくつかの仮定が必要である。ノイズの信号依存性を取り除くために、ＮはＸ及びＹと無関係であると仮定する。この仮定は、実際には当てはまらないかもしれないが、ウィーナーフィルタに必要である。代わりに、Ｎの列は、独立した、かつ、平均０、自己相関Ｒ_ｎで一様に分布しているものと仮定される。データセットについて予期される平均ノイズ値は、各ピクセルにおける測定値に応じて変化することになるが、ウィーナーフィルタにより上記平均ノイズ値が求められる。この仮定は、ローダイナミックレンジのシーンに関しては合理的と認められるが、画像間でノイズのばらつきが大きいハイダイナミックレンジのシーンに関しては不十分であろう。

これらの仮定下では、最適線形フィルタは、
を解くことによって得られるウィーナーフィルタＷである。ウィーナーフィルタＷをパッチに適用するとき、中央ピクセルにおける出力色バンドの推定値
は、
によって与えられる。

ノイズがない場合には、最適なデモザイクフィルタＷ＝ＸＹ^＋を用いてデモザイクアルゴリズムを与えるために、ノイズ除去は自動的に無効にされる。ここで、Ｙ^＋はムーア-ペンローズの擬似逆行列である。

図５は、いくつかの未加工の画像を用いてトレーニングしたウィーナーフィルタを示している。デモザイクフィルタＷの行列の各行は、特定の色チャンネルを推定するために必要なフィルタであり、或るベクトルからその対応するディスプレイ用パッチへと変換される。パッチの中央におけるＸＹＺチャンネルのグローバル線形推定値を求めるために、パッチと３つのフィルタの各々との内積を計算する。

参考として、輝度２ｃｄ／ｍ^２は、薄暗い屋内シーンまたは澄み渡った空の下、日没の１５分後の屋外シーンと同様である。明るく照らされた屋内シーンまたは曇り空の下での日没時の屋外シーンの輝度は、約２０ｃｄ／ｍ^２である。最後に、輝度２００ｃｄ／ｍ^２は、ＬＣＤディスプレイからの出力または灰色の空の下、正午の屋外シーンと同様である。

図５のフィルタは、多くの興味深い特徴を有している。これらのうち、明るいシーン用のフィルタは、薄暗いシーン用のフィルタと比較して、より中央に集中し、かつより広範囲の係数を有しているので、フィルタのノイズロバスト性が向上している。明るい照明の場合、パッチの中央付近にあるいくつかのピクセルは、ノイズがほとんどないので、望ましいチャンネルの良好な予測因子である。また、信号は、パッチの外側ではなくパッチの中央にあるピクセル群内で同じである可能性が高い。しかし、ノイズが増加するにつれて、パッチの中央のピクセルに大きく依存することはリスクを伴うので、他のピクセルがより重点的に用いられる。フィルタを広げることによって、測定ノイズを除去することができるが、信号のぼやけも生じる。

図５のフィルタのうち、２つのより明るい照明レベルに関して、パッチのＲ、Ｇ、ＢのピクセルはそれぞれＸ、Ｙ、Ｚのチャンネルに対して最大の係数を有する。そうなるのは、これらが、スペクトルが最も重なり合う対（ペア）であるからである。最も暗い照明の場合、Ｘ、Ｙ及びＺの各フィルタについての赤または青のチャンネルの係数よりも、緑のチャンネルの係数の合計の方が大きい。結果は、くすんだ色の画像であり、これは、出力画像においてより多くの飽和色を不正確に推定するリスクを減らすが、系統的な色の偏りを生じさせる。

２つのより明るい照明レベルに対してのみ、負の係数が存在することに留意されたい。推定値の一部は、中央のピクセルとエッジ沿いのピクセルとの重み付きの差から得られる。これは、所望の出力チャンネルとの相関が必ずしも十分ではないであろう色の全体的効果を打ち消すのに役立つが、パッチ全体にわたって明度の差を見つけるのに役立ち、それは所望の出力チャンネルを推定するのに役立つ。この差は、特にノイズに敏感である。というのも、２つの確率変数の減算により、元の確率変数の合計に等しい分散を有する確率変数が得られるからである。

図６は、ノイズがほとんどない明るいシーンに対するグローバル線形推定法の性能を示している。トレーニングは、互いによく似た６つの人物シーンに対して行った。そのようなノイズがほとんどない条件下で本方法は非常に良く機能し、理想的な出力と再構成の差は空間ＣＩＥＬＡＢ値０．４９でわずかである。本アルゴリズムでは、例えばネックレスの周りや肌の鏡面反射ハイライトなどのシャープなエッジの近傍において、及び花などのテクスチャ領域において、誤差が生じる。画像の左上などで飽和色に関してわずかな色の偏りがあることもあるが、これは、３つの測定チャンネルだけを用いて飽和色を推定することの難しさに起因する。

Ｌ^３パイプライン

グローバル線形パイプラインでは１セットのフィルタしか与えられないので、これらのフィルタは、ノイズを低減するための平均化と、画像内のエッジをぼけさせない試みとの競合する利益を調整しなければならない。この制限を克服するために、Ｌ^３パイプラインが導入される。Ｌ^３パイプラインでは、僅かなウィーナーフィルタのセットが事前に計算され、適切なときに、画像のローカルコンテンツに適合するように適用される。トレーニングデータから得られたパッチは、類似のパッチからなる複数のクラスタにまとめられる。各クラスタに対して、ウィーナーフィルタは、当該クラスタ内のパッチだけを用いて探し出される。クラスタが良好にデザインされた場合、結果として得られるフィルタは、各クラスタの特定の性質に適合することができ、かつクラスタ間で異なるので、改善された推定値が得られる。クラスタリング手順及びフィルタは、一旦トレーニングデータから得られ、格納される。Ｌ^３パイプラインをパッチに適用するために、適切なクラスタが識別され、対応するフィルタがメモリ内でアクセスされ、中央ピクセルにおける出力画像の推定を行うように適用される。Ｌ^３パイプラインの概要を図７に示す。

フラットパッチ及びテクスチャパッチへの分類

グローバル線形フィルタリングによって引き起こされる最大の誤差は、テクスチャ及びエッジ近傍で生じるので、パッチを２つのグループすなわちフラット及びテクスチャに分ける。フラットパッチは、低空間周波数のみを含む画像の比較的均一な領域である。テクスチャパッチは、より高い周波数を含み、エッジまたはテクスチャとして現れる。Ｌ^３パイプラインを適用する計算を示すダイアグラムを図８に示す。

フラットパッチとテクスチャパッチを区別するために、グローバルウィーナーフィルタが計算される。但し、代わりに、求める出力色空間はＣＦＡ測定バンドと同じ（ベイヤーパターンの場合はＲＧＢ）である。これらのウィーナーフィルタは、ＣＦＡフィルタと呼ばれ、
によって与えられる。ここで、ｈはＣＦＡ内の色バンド数である。ＣＦＡフィルタは、パッチの中央ピクセルにおいて異なるＣＦＡ測定バンド内で値を推定する。これは、パッチの全体色と呼ばれ、
で表され、
として計算される。

パッチ内の各ピクセルに対して、該ピクセルの色に対応する推定値を減算する。これにより、残差パッチと呼ばれるパッチが得られる。残差パッチは、
で表され、
により与えられる。ここで、
は、パッチ内のＣＦＡパターンを記述する行列であり、ここで、ｚの入力ｉ内のピクセルが
の入力ｊと同じ色である場合には、Ｄ_ｉ，ｊ＝１である。パッチが完全にフラットである場合には、異なる色バンドにおいて全ての測定値が等しいことを意味し、残差パッチは全く同じに０である。変換されたパッチ内の各値が０から逸脱する量は、パッチ内のテクスチャ量の測定値である。従って、パッチのコントラストは、
と定義される。パッチは、ｃ≦ｃ＊の場合にはフラットであり、ｃ＞ｃ＊の場合にはテクスチャである。ここで、ｃ＊は所定の閾値である。

閾値は、トレーニング用のパッチに関してノイズの多い測定プロセスをシミュレートすることによって選択され、或る割合のパッチがフラットに分類されるように設定される。この割合は、アルゴリズムのデザインパラメータである。最近のデジタルカメラは高ピクセル密度を有する傾向があるので、ピクセル群の大部分をフラットであると考えることができるが、これについてはトレーニング用シーンのコンテンツに左右され得る。ノイズフリーのトレーニングパッチを用いた閾値の計算によりノイズを無視すると、得られる閾値が低すぎて、テスト時に所望の割合のフラットパッチが得られないことを理解することが重要である。その理由は、ノイズが全てのパッチに対してコントラストを上げるので、同じ割合のフラットパッチを得るためには、より大きな閾値が必要とされるからである。

図９のＡは、フラットピクセル及びテクスチャピクセルの分類の例を示している。グローバル線形パイプラインは、フラットピクセルに対する誤差を小さくし、その一方で、図９のＢに示すようにテクスチャパッチに対する誤差をより大きくすることに留意されたい。より高い周波数を推定することは困難であるので、デモザイク及びノイズ除去の誤差は通常、テクスチャ及びエッジ近傍で最大である。フラット領域は、信号をぼけさせるリスクがほとんどないために誤差が比較的小さく、従って、ノイズを積極的に除去することができる。これらの理由により、フラットパッチは、特にフラットパッチを用いてトレーニングしたウィーナーフィルタによって、簡単にフィルタリングされることになる。しかし、テクスチャパッチは、誤差を小さくする目的でさらに処理されることになる。幸いにも、画像内のピクセル群の大部分はフラットであるので、計算は尚も高速である。

テクスチャパッチの正準（カノニカル）方向付け

デモザイク及びノイズ除去の両アルゴリズムの共通の目的は、エッジの全域での平均化またはフィルタリングの回避である。その理由は、それがエッジをぼけさせることになるからである。テクスチャパッチは、多くの場合にエッジまたは勾配を有するが、これらは現在のところ任意の方向に存在する。エッジまたは勾配の方向に適合することができるテクスチャパッチ用の単一フィルタは存在しない。これに対する解決策は、勾配が常に同じ方向に向くようにパッチの向きを合わせることであるので、方向付けをうまく利用する単一の最適なフィルタの適用が可能である。

幸いにも、ＣＦＡ構造体は、多くの場合に、方向付けのために利用できる対称軸を１つ以上有している。ベイヤーＣＦＡやＲＧＢＷ型ＣＦＡなど、２×２の繰り返しパターンを有するＣＦＡパターンの場合、各パッチ型は、垂直及び水平の対称軸を有する。ベイヤーパターンの場合、赤及び緑のパッチはまた、いずれかの対角線を軸として対称である。

或るパッチ型のＣＦＡパターンが特定の軸を基準に対称である場合、該対称軸を基準にパッチをミラーリングしても、任意のピクセルの対応する色を変化させないが、中央ピクセルは同じ位置に保たれる。パッチをミラーリングする能力により、パッチを、勾配が或る特定の方向を向くように方向付けすることができる。パッチは、各対称軸の一方の側において他方の側よりも合計が大きくなるようにミラーリングされる。垂直及び水平の対称軸を仮定すれば、任意に、各パッチの左領域及び上領域がより大きな値を有するように選択される。従って、方向付けされたパッチは、右側及び下側よりも左側及び上側において常に明るい。ウィーナーフィルタは、方向付けされたテクスチャパッチに関して学習されかつ該パッチに適用されるので、パッチの全域での勾配の方向をうまく利用することができる。

対称軸を挟んでより大きな値を有する方の側は無視されるので、この方法は、情報が特に重要でないときにのみ勧められるということに留意することが大切である。通常、画像の方向は興味深い特性を含まないので、この方法は安全である。風景画像の上部に現れる空からの青など、画像内に現れる僅かなマクロスケール特徴部が存在し得るが、これらの特徴部は、パッチの規模で比較的弱い。

図１０に、グローバル、フラット及びテクスチャパッチ用のウィーナーフィルタを示す。グローバルフィルタは、フラットフィルタとテクスチャフィルタの中間物である。というのは、グローバルフィルタが全二乗誤差を最適化するからであり、全二乗誤差はテクスチャパッチが最大である。もっとも、パッチの８０％はフラットである。ノイズを低減するために、フラットパッチ用のフィルタは、基礎信号をぼけさせるリスクがほとんどない平均化によって、より分散される。しかし、例えばエッジを挟んで信号が変化した場所での測定値の使用を回避するために、テクスチャパッチ用のフィルタは、より中央に重み付けされなければならない。グローバルフィルタ及びフラットフィルタはほぼ対称であるが、テクスチャフィルタは、方向付けされているので、同じことが当てはまらないことにも留意されたい。

テクスチャパッチのさらなるクラスタリング

処理誤差の大部分はテクスチャピクセルに含まれるので、それらを、クラスタリングと、各クラスタについての最適な線形フィルタの発見とによって、さらに処理してもよいであろう。テクスチャクラスタがテクスチャパッチ間の差をより正確にキャプチャし得ることが期待される。これらの各クラスタについての学習型フィルタが互いに著しく異なっている場合には、推定全体を改善することができる。しかし、フィルタ同士が似通っている場合には、テクスチャクラスタをさらに分割することから期待される推定の改善はほとんどないであろう。テクスチャパッチをさらにクラスタリングする方法の詳細については、付記Ａに記す。

フラットフィルタ及びテクスチャフィルタの実装

フラットとテクスチャとに分類する間にパッチから全体色が取り除かれて残差パッチが与えられるので、残差パッチ及び全体色にフラットフィルタ及びテクスチャフィルタを実装することは、より効率的である。もう１つの方法は、全体色を減算する前にメモリ内のパッチを再現し、両パッチに正準（カノニカル）変換を適用するか、または残差パッチを元（オリジナル）のパッチに変換するかのいずれかである。この余計なステップを回避するために、代わりに、フラットフィルタ及びテクスチャフィルタは、残差パッチ及び全体色に直接適用されるように変換される。

Ｗを、
によって所望の推定値を生成するフラットフィルタまたはテクスチャフィルタとする。残差パッチを得るための全体色の除去は、次式で表される。

ここで、
は恒等式（identity）である。上式の右辺の行列を
とする。Ａの列は一次独立であるので、Ａ＋Ａ＝Ｉである。従って、
である。
とする。ここで、
であり、

である。

Ψフィルタは、Ｗフィルタと同じ推定値を生じさせるものであり、必要に応じて、残差パッチ及び全体色に直接適用することができる。これらは、格納されかつパイプラインにおける計算に用いられるフィルタである。

アルゴリズム１において、Ｌ^３パイプラインの疑似コード記述が与えられる。左（left）、右（right）、上（top）及び下（bottom）の各関数は、中央の行または列を除いた、パッチの対応する側における入力の合計である。関数mirrorv及びmirrorhは、それぞれ垂直または水平の対称軸を基準にパッチを反転させるが、これらは、疑似コード内に存在すると仮定される。

計算の複雑性

Ｌ^３パイプラインを適用する計算の複雑性を表３．２に示す。パッチが
ピクセルであり、ＣＦＡ内の色バンド数及び出力色空間数はそれぞれｈ及びｏであることを思い出していただきたい。テクスチャに分類されているパッチの割合はｐである。テクスチャクラスタリングのためのツリー高さは付記Ａに記載されており、それはｔである。計算の大部分には、長さがｍである２つのベクトルの内積が含まれており、ｍ個の乗算及びｍ?１個の加算が必要とされる。フィルタにおける対称性、例えば、ＣＦＡフィルタ及びフラットフィルタに対して実行可能な対称性などがある場合、乗算の数を減らすことができるが、これは仮定されない。パッチがフラットであるかテクスチャであるかを判定するとき、コントラストを計算するためにｍ個の絶対値も必要とされることに留意されたい。正準方向付けの場合、表３．２に対して２つの対称軸が仮定されるが、これはＣＦＡに応じて異なり得る。ｍに対応しない項は、表中の乗算及び加算／減算の総数から除外した。

グローバル線形パイプライン及びＬ^３パイプラインは、各パッチにおける２以上のピクセルに対して出力を推定するように変更することができる。例えば、１０×１０パッチがあれば、中央の２×２ピクセルにおいて出力色空間を推定することができる。こうすることで、計算が必要なパッチの数が４分の１に減り、複数のパッチ型が不要になる。１０×１０パッチ内の４つの中央ピクセルは各々、９×９パッチ内のようにパッチのエッジから少なくとも８ピクセル離れているので、得られた画像は、本明細書に提示されている方法により９×９ピクセルのパッチを用いてフィルタリングしたものと同様の品質を有するはずである。

制約付きデータセットを用いた学習

Ｌ^３パイプラインは、トレーニング画像の特定の統計値に当てはめることができる。様々なシーンのためにデザインされた一般的なパイプラインとは対照的に、特定の用途のために最適化されたパイプラインの改善は、非常に大きなものとなり得る。しかし、本発明のパイプラインの改善は、データセットに依存する。データセットに関する制約及び予測可能性が増すと、パイプラインを最適化する際の値も大きくなる。

民生用カメラの場合、シーンの種類の検出は、カメラが自動で行うようにするか、または複数の事前に定義されたシーンモードをユーザが選択することで行うようにすることができる。多くのデジタルカメラに現在実装されているシーンモードには、人物、夕日、風景、文書、花火、ビーチ及び雪が含まれる。これらのモード種類の各々に対してフィルタを最適化することができる。また、意図的に１つの種類のシーンのみを撮像するような科学、工業用または医療用イメージング装置が数多くある。全ての種類を撮影するためにデザインされた汎用パイプラインを用いる代わりに、処理パイプラインを予期されるシーンに合わせてデザインし、最適化することができる。

ここで、特定用途向けの制約付きデータセットを用いた学習の潜在能力を説明するために、テキスト（文字列）を含む文書の画像処理について考える。一般的な処理パイプラインでは、テキストを含む画像は、エッジが非常に鮮鋭かつ小さいので厄介である。エッジの幅が約２〜３ピクセルであるとき、一般的な画像のための全てのデモザイクアルゴリズムは、エッジをＣＦＡに如何に合わせるかに応じて、推定画像にいくつかの色アーチファクトを導入することになる。

基本的には、白い紙の上の黒いテキストの画像は、グレイスケール画像と同様に１つの色チャンネルしか持たない。推定画像がグレイスケールに似ていることを処理パイプラインが認識したならば、デモザイクの問題は重要ではなくなる。モザイクの除去は、各測定チャンネルを、各チャンネルの異なる量のキャプチャされた光源に合わせて調整するべく、スカラー倍だけ拡大または縮小することによって、行うことができる。ノイズ除去を除き、空間的補間は必要ない。

図１１のＡ〜Ｃは、元のテキスト画像と、基本的パイプライン及びＬ^３パイプラインから得られる出力とを比較している。シーンの作成は、ソフトウェアを用いてテキストの画像を作成することによって行った。その後、シーンの各点における反射率を、全波長に対して、画像内の明度によって与えられた定数に設定した。その後、カメラシミュレーションによってシーンをぼけさせ、センサ画像を作成した。Ｌ^３パイプラインのトレーニングは、異なるフォントを用いた４つの互いに類似したシーンを用いて行った。基本的パイプラインから得られる画像には多数の色アーチファクトがあるので、テキストが多色で見えて読みづらくなる。トレーニングデータセットには色がなかったので、Ｌ^３パイプラインから得られる画像は完全にグレイスケールである。生成されたＸＹＺフィルタはスカラー倍しか違わないので、Ｌ^３画像に色アーチファクトが現れることはあり得ない。これらの画像に関して、フラットフィルタをできる限り広げることで、白いページにおけるノイズが低減される。テクスチャフィルタは、エッジをぼけさせないように極めて中央に集中させる。通常、テクスチャフィルタは、色を推定するために他の色バンドからの測定値を必要とするので、もう少し分散させる必要がある。

Ｌ^３パイプラインの拡張

以下の例は、Ｌ^３パイプラインの、デモザイク、ノイズ除去及び色変換を行う能力を高める。

ぼけ修正

画像処理パイプラインの共通の目的は、消費者が喜ぶような、はっきりしたエッジを持つ画像を推定することである。別の言い方をすると、光学素子またはＣＦＡによってもたらされたぼけをぼけ修正プロセスを通じて除去することである。Ｌ^３パイプラインは、トレーニング用の鮮明な出力画像を用いて画像のぼけを自動的に修正するように適合させることができる。本アルゴリズムは、デモザイク、ノイズ除去及び色変換を同時に行いながら、ぼけたセンサ画像を鮮明化することができるフィルタを学習する。

図１２のＡ〜Ｃは、Ｌ^３パイプラインによって行われたぼけ修正を示している。焦点距離を固定した場合、レンズのＦ値が大きいほど絞りは小さくなり、回折現象が起きる。Ｆ値３２のレンズから得られる画像は、鮮明化されていないので、図１２のＢに示すようにかなりのピンぼけである。これらのぼけた画像から得られたセンサ測定値と、Ｆ値４のレンズによって形成された鮮明な画像から得られた出力画像とを用いて、Ｌ^３パイプラインをトレーニングした。トレーニングのために、異なるフォントを用いた４つの互いに類似しているシーンを選択した。パイプラインの結果、図１２のＣに示す格段に鮮明な画像が得られた。ぼけた画像において識別できないいくつかの文字も、処理画像において判読可能である。レンズのぼけにおいて情報の大部分が失われたので、最小の文字は鮮明ではない。残念ながら、ぼけ修正は通常ノイズの影響を受けやすく、ノイズは処理画像において目に見える。これらのシミュレーションにおいて、測定値に対して４０ｄＢの大きなＳＮＲを用いた。

ぼけ修正が如何にして行われるかを理解するために、本システムのＭＴＦを図１３に示す。これらは、Ｆ値４のシャープなレンズを併用した図１２で用いたＬ^３パイプラインのＭＴＦである。ぼやけた画像用に最適化された標準的なＬ^３パイプラインによって、低周波数のみがシステムを通過することができる。これにより、高周波ノイズが取り除かれるが、ぼけた画像を構成する低周波項は残される。Ｌ^３パイプラインのぼけ修正は、ＤＣ項を残して、低周波及び中周波を増加させる。これは、ぼけたレンズによるこれらの周波数の減衰を弱める。２２７サイクル／ｍｍのナイキスト・レート以下の高周波項は、システムは通過するが、ノイズを増強するリスクのせいで増加はされない。

Ｌ^３パイプラインのぼけ修正能力を以てすれば、より多くの収差を有するより安価なレンズを用いて撮像することが可能でありかつ、同じ品質の画像を得るように処理することによって誤差を補正することが可能である。光学素子の最適化及び処理を併用することにより、レンズのコスト及び重量を減らすか、または既存のカメラの品質を高めることができる。

６チャンネルＣＦＡを用いたマルチスペクトル推定

図１のＣに示されているような６チャンネルＣＦＡを用いて、１回の画像取得からマルチスペクトル画像を推定することが可能である。シミュレーションを行ったカメラでは、前述の赤、緑、青のフィルタに、シアン、マゼンタ及び黄色のフィルタが加わる。通常、人々が知りたいのは、シーンからの光のスペクトルパワー分布ではなく、物体の反射率である。光源のスペクトル形状は、反射率推定を行う前に分かっているかまたは推定されていなければならないので、推測され続ける。

Ｌ^３を用いる方法は、所望の各波長サンプルを直接推定することができるが、これには大量の計算及びメモリが要求される。反射率の平滑性に起因して、いくつかの主成分を用いて反射率を良好に近似することができる。本明細書におけるシミュレーションの場合、所望の出力空間は６つの主成分からなり、これにより反射率が簡潔に表現される。反射率を測定することが望ましいので、トレーニングデータに対して所望の出力画像を作成するときには、主成分の係数を計算する前に仮定光源が取り除かれる。主成分の係数が推定されたら、該係数を用いて主成分の線形的な組合せとして反射率の推定値が得られる。図１４は、理想的な反射率と、Ｌ^３パイプラインから推定された反射率とを示している。

マルチスペクトル物体検出

マルチスペクトルイメージングにおける一般的なタスクは、様々な物体をそのスペクトル成分に基づいて検出または分類することである。普通の照明下で人間の観察者に同一に見える多くの物体は、実際には互いに異なる反射率を有し得るので、該反射率を用いてコンピュータビジョンアプリケーションにおいて物体同士を区別することができる。自然発生的な互いに類似したものの例としては、或る疾患が或る生物の一部分の反射率を微妙に変化させる場合などが挙げられる。人間が作り出した、同じように見えるがスペクトルが異なり得る物体の例としては、カモフラージュ（迷彩服など）が挙げられる。

図１５のＡは、本物（リアル）のりんご及び人工的なりんごを含むシーンを示している。２つのりんごは、可視スペクトルにおける反射率を意図的に似せているため、ほぼ同じ色に見える。スペクトルの赤外部分７００〜１１００ｎｍでは、２つのりんごの反射率は必ずしも類似していないので、当該区間におけるデータが利用可能であれば、これらの波長において測定可能なカメラを用いて、りんごを検出することは非常に容易である。可視スペクトル内で６チャンネルＣＦＡによりサンプリングを行いかつＬ^３パイプラインを用いることによって、反射率をより高い精度で推定することができる。この場合、Ｌ^３アルゴリズムが特にこのタスクのためにトレーニングされていることが前提となる。

本物のりんごと偽物（フェイク）のりんごとを区別するべく、推定反射率を比較するために距離指標（distance measure）を導入する。
を、検出されるべき標的物体の代表的な反射率とし、
を、所望の物体クラスに属する場合に評価されるべき反射率の推定値とする。ここで、ｏは反射率のために用いられる波長サンプル数である。シーン内の各物体における光源の絶対明度を推定することは難しいので、距離指標は、反射率の全高に対して不変であるように設計される。被選択距離指標は、次式で与えられる。

ここで、分母にはユークリッドノルムが用いられている。従って、ｄは、Ｒ^ｏにおける反射率ベクトル間の角度の余弦である。ｄの最大値＝１は、標的反射率と同じ形状を有する反射率の推定値によって得られる。この値は、上記形状が相違するにつれて減少する。

距離の計算は、反射率の推定値のみを用いる代わりに、６つのＰＣＡ係数を用いて行う方が効率的である。マルチスペクトルイメージングには通常３０個以上の波長サンプルが用いられるので、ＰＣＡ係数を検討することによりメモリ及び計算要件が減らされる。
を、
によって与えられる反射率の最初の６つのＰＣＡ係数とする。ここで、
の列はＰＣＡ反射率ベクトルである。
であるので、距離指標は次式により近似される。

これを簡約して次式の如く表すことができる。

なぜならば、Ｐの列が正規直交であることは、Ｐ^ＴＰが恒等式であることを意味するからである。

図１５のＢは、推定反射率と本物のりんごからの標的反射率との類似性を示している。左側の本物のりんごは右側の偽物のりんごとはっきり区別され、画像に閾値を設定することによって左側の本物のりんごを選択することができる。りんごの表面からの鏡面反射は、りんごの反射率による調整を行わない場合には光源のスペクトル形状を有するので、検出されない。反射光の輝度の大きな変化にもかかわらず、距離指標はりんごの曲面の全域で比較的均一な値を生じさせることに留意されたい。

結論

ローカル・線形・学習型（Ｌ^３）アルゴリズムは、トレーニングデータをクラスタリングする方法を学習し、全トレーニングデータにわたって各クラスタに対して推定値の誤差を最小限に抑える線形フィルタを獲得する。この方法は、高速で、ノイズに対してロバストで、データセットの個々の項目に適合し、かつ様々な問題に一般化されるという利点を有する。

Ｌ^３パイプラインは、カメラセンサから得られたノイズを含む画像を任意のＣＦＡデザインにより処理しかつ、同時にデモザイク、ノイズ除去及び色変換を行うことにより、任意の出力色空間内で高品質画像を推定することができる。センサ画像から得られたパッチは、フラット領域に属するかテクスチャ領域に属するかに分類される。テクスチャパッチは、正準（カノニカル）形式になるように方向付けされるが、さらに分割されることもある。その後、パッチのクラスタ及びシーンの輝度に基づき事前に計算されたウィーナーフィルタを適用することによって、パッチの中央における出力推定値が得られる。ウィーナーフィルタは、信号を維持しつつノイズを低減するように最適化される。Ｌ^３パイプラインが光源補正及びぼけ修正を自動的に行う能力については、本明細書に示した。

Ｌ^３パイプラインは、種々の新たなＣＦＡデザインの使用を可能にする。最近のセンサのピクセル数は膨大であるので、新たなＣＦＡは有望な技術である。具体例には、低照度撮像のための白ピクセルを有するＣＦＡと、１枚の写真からマルチスペクトルイメージングを行うための６チャンネルＣＦＡとが含まれる。カメラのシミュレーションを行うためのソフトウェアとともに、Ｌ^３パイプラインにより、設計者は、新たなＣＦＡデザインを迅速にテストし、改善することができる。さらには、特定用途向け装置の被写対象シーンの持つ特定の性質を活用し得るような、特定用途向けセンサ及び処理パイプラインを設計できる可能性もある。

既知の光源があると仮定し、光のいくつかの測定値を所与として、反射率を推定するためにＬ^３アプローチを適用することもできる。Ｌ^３推定量はほぼ最適な性能を有するが、それは、データセットにおけるノイズの量及び反射率のばらつきによって制限される。種々の特定用途によく使われる低ノイズ、制約付きデータセットに対して、Ｌ^３アルゴリズムは、グローバル線形推定量よりも大幅な改善を示し、さらには計算を高速にする。推定値を求めるとき、グローバルウィーナーフィルタ及びＬ^３アルゴリズムはともにノイズを考慮するが、それは、互いに重なり合う分光感度を有する測定値に重要である。

Ｌ^３パイプラインの拡張

Ｌ^３パイプラインから得られる画像は、通常、高品質の画像であるが、ノイズを含むシーンに関して当該画像の視覚的訴求を後処理により向上させることができる。目下のところ、各ピクセルに対する出力値は、ＭＳＥまたはＰＳＮＲを最大にすることを目的として、独立して推定される。この方法は、パイプラインが最小限の計算要件を有すること及び並列処理され得ることを確実にする。フラット領域内において推定された値をさらに平滑化する後処理ステップは、ＰＳＮＲを低下させることができるが、テクスチャがほとんどないはずの領域内に尚も存在するノイズを取り除くことによって、画像を人間の視覚系にとってより好ましいものにする。

以下は、Ｌ^３パイプラインの適用可能性であり、パッチクラスタリング及び／または所望の出力画像をデザインし直すことによって実現することができる。
・デッドピクセル補正−パッチの中央ピクセルにおける測定値が全体色推定値と大きく異なるか否かをチェックすることによって、デッドピクセルを検出するようにクラスタリングする。クラスタのフィルタは、デッドピクセルの測定値を用いることなく推定するように特に最適化されることになる。
・ピクセル飽和への適合−或るピクセルが過剰な光への露光により飽和すると、上記測定値は役に立たない。同色の隣接ピクセル群も恐らく同様に飽和するであろう。チャンネルの飽和の検出と、飽和ピクセルからの測定値を用いない推定とを行うクラスタを作ることができる。
・スペクトル推定の改善−現在、パッチ内の全体色は、一般的な画像処理に役立たないので、クラスタリング時に無視される。より多くの特定の用途から得られるデータセットでは、色は非常に重要であり得る。クラスタリングは全体色に基づいて行うことができるので、クラスタには同系色のパッチのみが含まれる。パッチの全体色が或るデータセットについての空間的特徴部と強い相関関係を有する場合、推定を著しく改善させることができる。
・ハイダイナミックレンジのイメージング−現在は、平均シーン輝度に基づいて画像が処理される。これにより、高照度及び低照度の画像をうまく処理することができるが、高照度領域及び低照度領域の両方を持つ画像に関しては処理が不十分である。代わりに、ローカル光レベルに基づいて画像処理を行うことができ、それにより、ハイダイナミックレンジのシーンの処理を改善させることができる。
・光学補正−画像処理時に光学系を考慮することによって、優れた光学素子を用いてキャプチャされた画像へのトレーニングを行うことによる収差の補正が可能である。レンズ収差に起因して様々な幾何学的誤差または色の誤差が存在し得る画像の様々な空間部分に対して、クラスタをデザインすることができる。
・物体（オブジェクト）の分類または検出−サポートベクターマシンを用いるなどして、様々な着目物体を分類せんがために、ＣＦＡ空間内においてラベル付けされたトレーニングデータをクラスタリングする。或るテストパッチが特定の着目物体に属する尤度は、当該物体から得られる同じクラスタ内のトレーニングデータの割合によって予測される。これにより、センサの生データよりも大きいが追加情報を含まない推定出力画像の代わりに、センサの生データに基づいて、分類及び識別を行うことができる。
・肌を用いた光源推定−肌の反射率の分布形状は、人によるばらつきが比較的小さい。顔の自動検出により、肌から反射された光を測定することができる。その後、肌領域の色度を用い、ラベル付けされたトレーニングデータを活用することによって、シーンの最も可能性の高い光源を推定することができる。
・複数の画像からの推定−カメラが自動的に複数の画像を高速連続撮影し、その後、該画像は１つの画像になるように処理される。そのような複数の画像の例には、ＳＮＲを向上させるために同一の設定値で撮影された複数の画像、ハイダイナミックレンジの画像処理のために複数のシャッター速度で撮影された複数の画像、全てのフォーカスイメージングのために複数のフォーカス点で撮影された複数の画像が含まれる。これらの画像の各々から得られた測定値を含めることによってパッチを３次元に拡張することが必要であろう。
・ユーザ定義カスタム処理−カメラユーザが写真を編集する方法を観察することによって、同様の調整を自動的に行うように処理パイプラインを調整することができる。例えば、空の色が常に飽和している場合、または赤目が常に修正される場合などに、関連パッチについてクラスタに学習させることができる。クラスタについてのフィルタの最適化は、ユーザが行った調整を用いて行うことができる。

付記Ａ

テクスチャパッチのクラスタリング

１つのテクスチャクラスタを用いる場合には、エッジが直線的か曲線的か、シャープかソフトか、あるいはテクスチャに任意の特定のエッジが含まれないかを判定することは不可能である。テクスチャパッチをさらに分割し、各クラスタについての最適フィルタを学習することによって、Ｌ^３パイプラインは、センサ画像中の特定の特徴部に対して、より適応できるようになる。例えば、コーナ（角隅）専用のクラスタにより、コーナを検出しかつ、フィルタを、推定画像においてコーナを生成するように最適化することができる。例えば結論の節において言及されているような特定のタスクに合わせたクラスタリングの調整によって、多様な応用が可能になるが、この節で説明するクラスタリングは、現在のシミュレーションセットアップについての推定精度の向上を可能にする。

クラスタリングプロセスにとって重要な要件は数多くある。先ず、信頼できる推定値を与えることができる１つの線形フィルタが存在し得るように、クラスタ内の全てのパッチは互いに十分に類似していなくてはならない。当然ながら、これはクラスタリングのための十分な要件ではない。というのも、そのような要件は、フィルタリングが非常に適応的であるように膨大な数のクラスタを有することによって満たされるからである。しかし、データの過学習を避けるために、トレーニングデータの必要量は、クラスタの数に対応する。また、クラスタ数を制限しようとする試みにより、メモリ及び計算要件が適度な水準に保たれる。クラスタ数が少ないほど、ノイズに起因するパッチのクラスタの誤認リスクは低い。最後に、パッチのクラスタを識別する手順は、全てのテクスチャパッチ上で行われるので、計算を最小限にする必要がある。

計算を最小限にするために、トップダウンの階層的クラスタリング法を用いることができる。最初は、全ての方向付けされた残存テクスチャパッチが１つのクラスタ内にある。その後、この１つのクラスタを、２つのほぼ等しいサイズのクラスタに分割する。望ましい数のクラスタが得られるまで分割を続ける。簡単にするために、ツリーの全ての枝は同じレベルで終わるが、大きな誤差を有するクラスタのみをさらに分割することが有利であろう。

このツリー法の利点は、ｔ個の分岐決定しか要しないことによって２^ｔ個の可能な葉クラスタからパッチのクラスタを識別し得ることである。１つの葉に到達するのに必要な分岐決定の数は、ツリー高さと呼ばれる。高速化及び簡素化のために、分岐操作をパッチと所定のフィルタ（テクスチャ分岐フィルタと呼ぶ）の内積の計算に制限する。内積を所定の閾値（テクスチャ分岐閾値と呼ぶ）と比較することによって、パッチは、２つのより小さなクラスタの一方に分類される。

２つのより小さなクラスタの各々においてパッチ間のばらつきを減らすために、テクスチャ分岐フィルタは、クラスタ内のパッチ群の第１ＰＣＡベクトルである。第１ＰＣＡベクトルは、パッチのばらつきが最大の方向を指すベクトルである。結果として得られる２つのクラスタは各々、この方向において親クラスタよりもばらつきが小さい。また、ＰＣＡが２つのクラスタを対象とするＫ平均（K-means）クラスタのためのクラスタ代入ベクトルの連続解であるという事実によっても、ＰＣＡを用いる動機が与えられる。２つのクラスタ間の境界付近の点はノイズのせいで誤って分類される恐れがあるので、Ｋ平均クラスタリングのこの連続的なばらつきは、ここでは、より適切であろう。被選択テクスチャ分岐閾値は、元のクラスタに含まれる全てのパッチの第１ＰＣＡ成分の平均値である。これにより、２つのより小さなクラスタでパッチの数が互いにほぼ等しくなる。

本発明の種々の実施形態は、画像処理装置、画像を学習及び／または処理するための画像処理方法またはシステムの一部として実施することができる。本発明の方法は、コンピュータプロセッサまたは装置によって実行可能なコンピュータ実装モジュールとして実装することができる。本発明の方法は、機械可読媒体に、または実行可能なコードとして記憶媒体に格納することもできる。本発明のいくつかの態様は、コンピュータチップ上でプログラミングされるかまたは格納され、コンピュータハードウェアによって実行可能であってもよい。

Claims

入力画像を処理して出力画像を生成するための画像処理装置であって、
（ａ）色フィルタアレイ（ＣＦＡ）モザイク構造を有する入力画像を読み取るための画像入力装置と、
（ｂ）前記入力画像の画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルの隣接ピクセル群について各々定義された一連の学習回帰係数を格納するための記憶装置と、
（ｃ）前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
（ｉ）前記入力画像の前記各画像ピクセルの前記隣接ピクセル群を取得し、
（ｉｉ）前記色フィルタアレイモザイク構造における前記画像ピクセルの位置及び、前記入力画像の前記隣接ピクセル群を用いた計算に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
（ｉｉｉ）前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記画像ピクセルに対して適用し、
それにより、前記出力画像が、ピクセル毎に、前記入力画像の色バンドと数または分光感度が互いに異なるかまたは同一の、特定の数の色バンドについての値を有するようにしたことを特徴とする装置。
請求項１に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。
請求項２に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。
請求項１に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。
請求項１に記載の画像処理装置であって、
前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含むことを特徴とする装置。
請求項５に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び／またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。
請求項１に記載の画像処理装置であって、
前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定されることを特徴とする装置。
入力画像を処理して出力画像を生成するための画像処理装置であって、
（ａ）色フィルタアレイ（ＣＦＡ）モザイク構造を有する入力画像を読み取るための画像入力装置と、
（ｂ）前記入力画像の画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルの第１の隣接ピクセル群に対して各々定義された一連の学習回帰係数を格納するための記憶装置と、
（ｃ）前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
（ｉ）一連の予め定義されたグローバルフィルタを前記入力画像に対して適用し、
（ｉｉ）前記入力画像の前記各画像ピクセルの前記第１の隣接ピクセル群を取得し、
（ｉｉｉ）前記色フィルタアレイモザイク構造における前記画像ピクセルの位置及び、前記グローバルフィルタを適用することによって得られた第２の隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の前記学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
（ｉｖ）前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用し、
それにより、前記出力画像が、ピクセル毎に、前記入力画像の色バンドと数または分光感度が互いに異なるかまたは同一の、特定の数の色バンドについての値を有するようにしたことを特徴とする装置。
請求項８に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。
請求項８に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。
請求項８に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記第１の隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。
請求項８に記載の画像処理装置であって、
前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記第１の隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含むことを特徴とする装置。
請求項１２に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び／またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。
請求項８に記載の画像処理装置であって、
前記予め定義されたグローバルフィルタが、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算に基づいて適用されることを特徴とする装置。
入力画像を処理して出力画像を生成するための画像処理装置であって、
（ａ）入力画像を読み取るための画像入力装置と、
（ｂ）前記入力画像の画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルについての隣接ピクセル群について各々定義された一連の学習回帰係数を格納するための記憶装置と、
（ｃ）前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
前記入力画像の前記各画像ピクセルの前記隣接ピクセル群を取得し、
（ｉ）前記隣接ピクセル群を並び替え、
（ｉｉ）前記並び替えられた隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の前記学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
（ｉｉｉ）前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用し、
それにより、前記推定された前記出力画像ピクセルの色バンドが、前記入力画像の前記色バンドと数または分光感度が互いに異なるかまたは同一になるようにしたことを特徴とする装置。
請求項１５に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。
請求項１５に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。
請求項１５に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。
請求項１５に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記画像ピクセルの値の回転及び／またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。
請求項１５に記載の画像処理装置であって、
前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定されることを特徴とする装置。