JP2014515587A - デジタル画像装置用の画像処理パイプラインの学習 - Google Patents
デジタル画像装置用の画像処理パイプラインの学習 Download PDFInfo
- Publication number
- JP2014515587A JP2014515587A JP2014513674A JP2014513674A JP2014515587A JP 2014515587 A JP2014515587 A JP 2014515587A JP 2014513674 A JP2014513674 A JP 2014513674A JP 2014513674 A JP2014513674 A JP 2014513674A JP 2014515587 A JP2014515587 A JP 2014515587A
- Authority
- JP
- Japan
- Prior art keywords
- image
- pixel
- input image
- color
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 101
- 230000013016 learning Effects 0.000 title claims abstract description 73
- 238000003384 imaging method Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 40
- 230000003595 spectral effect Effects 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000035945 sensitivity Effects 0.000 claims description 18
- 230000004075 alteration Effects 0.000 claims description 8
- 238000012886 linear function Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 15
- 230000008901 benefit Effects 0.000 abstract description 10
- 238000003672 processing method Methods 0.000 abstract description 4
- 230000006978 adaptation Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 description 56
- 238000004422 calculation algorithm Methods 0.000 description 33
- 241000220225 Malus Species 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000002310 reflectometry Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 11
- 238000004088 simulation Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000005286 illumination Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000000701 chemical imaging Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 229920006395 saturated elastomer Polymers 0.000 description 7
- 235000021016 apples Nutrition 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 241001428800 Cell fusing agent virus Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 208000036971 interstitial lung disease 2 Diseases 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 210000000964 retinal cone photoreceptor cell Anatomy 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000001429 visible spectrum Methods 0.000 description 2
- 241000972773 Aulopiformes Species 0.000 description 1
- 101100190541 Caenorhabditis elegans pink-1 gene Proteins 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 241000593989 Scardinius erythrophthalmus Species 0.000 description 1
- DGOBMKYRQHEFGQ-UHFFFAOYSA-L acid green 5 Chemical compound [Na+].[Na+].C=1C=C(C(=C2C=CC(C=C2)=[N+](CC)CC=2C=C(C=CC=2)S([O-])(=O)=O)C=2C=CC(=CC=2)S([O-])(=O)=O)C=CC=1N(CC)CC1=CC=CC(S([O-])(=O)=O)=C1 DGOBMKYRQHEFGQ-UHFFFAOYSA-L 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000000799 fluorescence microscopy Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 108091008695 photoreceptors Proteins 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/84—Camera processing pipelines; Components thereof for processing colour signals
- H04N23/843—Demosaicing, e.g. interpolating colour pixel values
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
- H04N25/10—Circuitry of solid-state image sensors [SSIS]; Control thereof for transforming different wavelengths into image signals
- H04N25/11—Arrangement of colour filter arrays [CFA]; Filter mosaics
- H04N25/13—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements
- H04N25/134—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements based on three different wavelength filter elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
- H04N25/10—Circuitry of solid-state image sensors [SSIS]; Control thereof for transforming different wavelengths into image signals
- H04N25/11—Arrangement of colour filter arrays [CFA]; Filter mosaics
- H04N25/13—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements
- H04N25/133—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements including elements passing panchromatic light, e.g. filters passing white light
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
- H04N25/10—Circuitry of solid-state image sensors [SSIS]; Control thereof for transforming different wavelengths into image signals
- H04N25/11—Arrangement of colour filter arrays [CFA]; Filter mosaics
- H04N25/13—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements
- H04N25/135—Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements based on four or more different wavelength filter elements
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Color Television Image Signal Generators (AREA)
Abstract
【課題】入力画像を効率的に処理し、高品質の出力画像を生成する。
【解決手段】本発明は、画像の処理方法を学習するための学習プロセスであって、画像データに固有の空間相関及びスペクトル相関を利用して画像処理を行うことによって画質を高める手法を提供する。入力画像及び所望の出力画像を含むトレーニングデータセットを使用して、所望の出力画像の或るピクセルの値を入力画像における同様の位置に位置するピクセル群を用いて推定する予め定義された推定関数に最適の回帰係数を学習する。学習回帰係数を適用することにより、高速化、ノイズに対するロバスト化、特定のデータセットに対する適合、かつ様々な用途に対する一般化を実現することができる。本発明は、既存のセンサよりも優れた機能を提供し、かつ一般的な高ピクセル数の利点を活かすことができる新規な色フィルタアレイデザインを有する画像センサの使用を可能にする。
【選択図】図7
【解決手段】本発明は、画像の処理方法を学習するための学習プロセスであって、画像データに固有の空間相関及びスペクトル相関を利用して画像処理を行うことによって画質を高める手法を提供する。入力画像及び所望の出力画像を含むトレーニングデータセットを使用して、所望の出力画像の或るピクセルの値を入力画像における同様の位置に位置するピクセル群を用いて推定する予め定義された推定関数に最適の回帰係数を学習する。学習回帰係数を適用することにより、高速化、ノイズに対するロバスト化、特定のデータセットに対する適合、かつ様々な用途に対する一般化を実現することができる。本発明は、既存のセンサよりも優れた機能を提供し、かつ一般的な高ピクセル数の利点を活かすことができる新規な色フィルタアレイデザインを有する画像センサの使用を可能にする。
【選択図】図7
Description
本発明は、カラー画像処理方法、装置及びシステムに関する。
最新のデジタルカメラのピクセル数は、ここ数年で急激に増加している。最近のデジタルカメラは、通常、既存のディスプレイの解像度をはるかに超える高メガピクセル数を有している。例えば、10メガピクセルのデジタルタメラで撮影した画像をダウンサンプリングすることなく表示するためには、10個以上の720p高解像度ディスプレイが必要になる。カメラの光学系の回析及び収差によって、画像センサが取得した画像にぼやけが生じ、それにより、高空間サンプリング(標本化)の有効性が制限される。空間分解能を単純に増加させる代わりに、多数のピクセルにより、写真の他の側面を向上させる可能性が提供される。可能性がある進歩には、低光量(低照度)での写真撮影を可能にする感度の増加、明領域及び暗領域が存在するシーンを撮影するためのダイナミックレンジ拡大、及び色精度の向上が含まれる。本発明は、上記の進歩のうちの少なくともいくつかに対応する。
本発明は、入力画像を処理して出力画像を生成するための画像処理装置を提供する。一実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。前記入力画像は、色フィルタアレイ(color filter array:CFA)モザイク構造を有する。前記入力画像の各画像ピクセルにおいて1つの色バンドが測定され、それらの色バンドの空間的配置によって、前記入力画像の全体にわたって規則的なパターンが形成される。記憶装置が、前記入力画像の前記各画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために使用される。前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての隣接ピクセル群に対して定義されている。隣接ピクセル群は、通常は(必須ではないが)、処理される入力画像の中央に位置する、予め定義された所定サイズのピクセル群(またはパッチ)を意味する。一般的に、ピクセル群またはパッチは正方形であるが、他の形状を取ることもできる。本発明の画像処理装置はさらに、前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールを含む。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、(i)前記入力画像の前記各画像ピクセルの隣接ピクセル群を取得し、(ii)前記色フィルタアレイモザイク構造における前記各画像ピクセルの位置及び、前記入力画像の前記隣接ピクセル群を用いた計算に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、(iii)前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用する。この実施形態では、出力画像は色フィルタアレイ(CFA)モザイク構造を有しておらず、また、推定された出力画像ピクセルの色バンドは、入力画像の色バンドと数または分光感度(スペクトル感度)が互いに異なっていてもよいし、同一であってもよい。一変形例では、前記出力画像は、ピクセル毎に、特定の数の色バンドを含む。
別の実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。前記入力画像の各画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために、記憶装置が使用される。この実施形態では、前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての第1の隣接ピクセル群に対して各々定義されている。ピクセル処理モジュールが、前記入力画像の前記各画像ピクセルを処理するために使用される。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、(i)一連の予め定義されたグローバルフィルタを前記入力画像に対して適用し、(ii)前記入力画像の前記各画像ピクセルの前記第1の隣接ピクセル群を取得し、(iii)前記グローバルフィルタを適用することによって得られた第2の隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、(iv)前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用する。
さらなる別の実施形態では、本発明の画像処理装置は、入力画像を読み取るための画像入力装置を含む。記憶装置が、前記入力画像の各画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いるための一連の学習回帰係数を格納するために使用される。前記一連の学習回帰係数の各々は、前記入力画像の前記各画像ピクセルについての第1の隣接ピクセル群に対して各々定義されている。ピクセル処理モジュールが、前記入力画像の前記各画像ピクセルを処理するために用いられる。ピクセル処理モジュールは、前記入力画像の前記各画像ピクセルについての隣接ピクセル群を取得する。前記ピクセル処理モジュールは、前記入力画像を処理して出力画像を生成すべく、(i)前記隣接ピクセル群を並び替え、(ii)並び替えられた前記隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、(iii)選択された前記学習回帰係数及び前記予め定義された推定関数を前記各画像ピクセルに対して適用する。この実施形態は、CFAモザイク構造を有していない画像に対する処理であり、学習を適用する前にピクセル群の対称性を利用する。前記ピクセル群が、垂直、水平及び斜め方向にわたって対称性を有していると仮定すれば、前記3方向に沿ってミラーリングを適用することにより前記パッチを特定の方向に方向付けすることができる。例えば、必要に応じて、前記パッチを垂直方向にわたってミラーリングすることにより、各パッチの左側が右側よりもより高い平均を有するようにすることができる。このことを3方向の各々において行うことにより、計8方向において異なるパッチを、あたかも同一のパッチかのようにして一緒に処理することができる。
本発明の実施形態は、下記のさらなる特徴のうちの1以上を有し得る。
・前記学習回帰係数が、入力画像及び所望の出力画像からなる対を有するトレーニング(訓練)画像セットを使用する学習回帰法に基づいた学習プロセスを用いて取得される。
・前記学習回帰係数が、ウィーナーフィルタを用いて取得される。
・前記推定関数が線形関数であり、前記学習回帰係数が、前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当する。
・前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含む。前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び/またはミラーリングを実施するためのモジュールをさらに含む。
・前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中での位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定される。
・前記学習回帰係数が、入力画像及び所望の出力画像からなる対を有するトレーニング(訓練)画像セットを使用する学習回帰法に基づいた学習プロセスを用いて取得される。
・前記学習回帰係数が、ウィーナーフィルタを用いて取得される。
・前記推定関数が線形関数であり、前記学習回帰係数が、前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当する。
・前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含む。前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び/またはミラーリングを実施するためのモジュールをさらに含む。
・前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中での位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定される。
画像に関する経験則及び仮定を用いて画像処理アルゴリズムをデザインする従来の方法は一般的に、非常に複雑であり、かつ準最適の結果しか提供しない。本発明の学習法は、入力画像と所望する出力画像と間の統計的な空間的相関及びスペクトル相関を利用し、高品質の出力画像を迅速に生成する最適な回帰係数を容易に学習する。所望する出力画像を適切に選択することにより、結果として得られる学習係数を用いて、単一の最適化計算において、デモザイク、ノイズ除去、色変換、ぼけ修正、または他の所望する画像処理の任意の組合せを自動的に行うことができる。
本発明の学習法はまた、結果として得られるアルゴリズムを特定のアプリケーション及びデータセットについて最適化することを可能にする。このことは、一般的な処理アルゴリズムでは不可能なことである。いくつかの画像化タスクに固有であり、天然画像には存在しない、データセットの特定の性質を利用することにより、出力画像の品質を著しく高くすることができる。
本発明の一般性は、結果として得られる画像処理アルゴリズムにより、任意の種類のCFA構造を有する入力画像を効率的に処理することを可能にする。入力画像のCFA構造と所望する出力画像との間に存在する微細で複雑な相関を利用することにより、高品質の出力画像を生成することができる。本発明は、任意の画像センサが必要とする処理を自動的に生成することにより、新しいCFAの迅速なデザイン及びテストを可能にする。
最近のカメラに内蔵されているセンサの色フィルタアレイ(CFA)を変更することにより、種々の改善、例えば、低光量(低照度)での写真撮影が可能であるように感度を高くすること、明領域及び暗領域を有するシーンを撮影するためにダイナミックレンジを拡大すること、色精度を高めることなどが可能である。CFAは、ほぼ全てのデジタルカメラに搭載されており、各ピクセル(画素)が光の特定の色のみを測定するようにセンサの各感光性部位の上に置かれた一連の光学フィルタである。CFAの各種ピクセルを透過する光へのカメラの感度は、各チャンネルに対するカメラの量子効率によって説明することができる。これらの機能により、所与の波長を持つ光子がセンサ内に電子正孔対を生成することが可能になる。センサの各ピクセル内で発生した電子を集めてその数を数えることによって、当該ピクセルの色バンドにおける各ピクセルでの光の量が決定される。図1のAに示すベイヤーCFAは、今日、ほぼ全てのカメラに内蔵されている。図1のBに示すCFAは、ベイヤーCFAの緑ピクセル群の半分を白ピクセル群に置き換えたものである。白ピクセル群は透明なフィルタを有するので、白ピクセル群の感度はセンサのシリコンによって与えられる。この感度の向上により、超低光量での写真撮影が可能になる。白ピクセル群またはより高感度のピクセル群を有する同様のCFAについても検討を行った。
追加のピクセル群を用いることによって、単に人間の観察者に向けて写真を改善するのみならず、人間の視覚系で直接観測できないスペクトル特性を測定することもできる。人間の視力は、網膜によって得られる。網膜は、眼球壁の最も内側にある薄い層であり、人間の視力を司る光受容体を含む。入射光に反応する何百万もの細胞(錐体視細胞と呼ばれる)がある。錐体視細胞は3種類あり、各々光に対する感度が異なる。光は、可視範囲にわたるスペクトル曲線であると表現することができる。人間の網膜には3種類の錐体視細胞しかないので、人間の視覚には、似たようなスペクトルを持つ物体を区別する能力において限界がある。
多くの光学イメージング装置、例えば、特定用途向けのカメラ、顕微鏡及び内視鏡などが存在し、これらは民生用カメラと同様の技術を有するが、これらの装置が関心を持っているのは、人間が知覚できる可視域外の光である。マルチスペクトルイメージングまたはハイパースペクトルイメージングは、或るシーンから、単に人間の視覚系が捉える3原色成分ではなく、様々なスペクトルを観察しようとする試みに取り組むものである。スペクトルは、400〜700nmの可視範囲外の波長、例えば700〜1100nmの近赤外波長などを含み得る。このスペクトルに関する追加情報は、人間の観察者の目に映る色と同様の色を有するように見える種々の物体を分類または検出するタスクを大幅に簡略化することができる。
マルチスペクトルの応用には、リモートセンシング、コンピュータビジョン、ディスプレイ及びプリンタ、芸術、食品の安全及び検査、並びに医療応用、例えば、顕微鏡検査、蛍光イメージング、病理学、診断、皮膚科及び遠隔医療などが含まれる。
マルチスペクトル画像をキャプチャするための専門の装置は数多く存在する。残念なことに、それら全てが非常に高価なものであり、画像取得に長い時間がかかるので、人間などの動く物体(被写体)が含まれない静止シーンに制限される。通常、これらの装置は、2次元を同時に獲得し、連続的に、マルチスペクトルイメージングに必要な第3の次元をスキャンすることができる。
例えば図1のCに示すような、多数の色バンドを特徴とするCFAを備えたカメラは、非常に迅速に行われ得る1回の画像取得により、マルチスペクトルシーンを安価に推定することができる。このCFAは、典型的な赤(R)、緑(G)、青(B)のピクセル群に加えて、シアン(C)、マゼンタ及び黄色(Y)のピクセル群を有する。この6バンドセンサをマルチスペクトルカメラにおいて用いることにより、各ピクセルにおける任意の波長に対する光の量を推定することができる。そのようなマルチスペクトルカメラの開発は、標準的な民生用デジタルカメラとコストがあまり変わらないはずであるが、多くの特定用途に用いることができるであろう。
6つの色バンドを用いて観察することで、典型的な3バンドのセンサと比較して、色推定を改善することができる。シアン、マゼンタ、黄色のフィルタは、赤、緑、青のフィルタよりも多くの光を伝達するので、このCFAは、低照度下で高い感度を得ることもできる。
図1のDに示すCFAは、改善された6バンドデザインを示しており、特に組織分類に優れた性能を発揮するように体内で作動する医療用カメラ内で用いることができる。内部組織は通常、スペクトルの赤領域においてより高い反射性を示すので、スペクトルの赤部分をより重点的に測定するようにセンサのデザインがなされる。
これらのCFAは、開発可能な新たなCFAのほんの一部かでしかない。特定のデータセットに対してCFAをデザインすることによって将来的に特定の用途においてスペクトル特性が利用される可能性は大きい。体内、工場内またはコンピュータビジョンシステム内などの特殊環境においてのみ作動するようにデザインされた画像センサの場合、センサ及び処理を、該センサを用いてキャプチャすることになる非常に狭い一連のシーンに対して最適化することができる。
新たなCFAに用いられる画像処理パイプラインの課題
新たなCFAに付随する大きな課題は、画像処理パイプラインをデザインする困難さである。画像処理パイプラインとは、センサからの出力を、表示または格納に望ましい画像に変換する一連の計算である。代表的な画像処理パイプラインの一部をなす計算を以下に示す。全てのパイプラインは、通常、何らかの形でこれらの各計算を行うが、順序の変更や追加アルゴリズムの導入も可能である。
・欠陥補正は、デッドピクセルまたはホットピクセルなどのセンサにおける誤差を補正する。
・レンズシェーディングは、画像の領域の明度を調整することにより、画像の外側付近での露出の減少を補正する。
・デモザイクは、CFA画像からフルカラー画像を作成するために、各ピクセルにおいて観察されない色バンドを推定する。
・ノイズ除去は、画像の基礎的なコンテンツを失わなわずにノイズを除去する試みを行う。
・色変換は、センサで測定された色空間から望ましい標準色空間への変換を行う。元(オリジナル)のシーンに対する人間の知覚を再現することになる画像の場合、出力色空間は通常、XYZカラーマッチング関数の線形的な組合せである。
・ぼけ修正/鮮明化は、カメラによりピンぼけになった可能性のある細部を回復させることにより、エッジが明確化された、より満足のいく画像を作成しようとする試みを行う。
・ガンマ変換は、線形的な明度の値に指数関数を適用するので、出力画像は、適切に表示されかつsRGBなどの標準的な色フォーマットに適合するものであり得る。
・圧縮は、画像の知覚的変化を最小限に抑えつつ、ファイルサイズを縮小する。
・欠陥補正は、デッドピクセルまたはホットピクセルなどのセンサにおける誤差を補正する。
・レンズシェーディングは、画像の領域の明度を調整することにより、画像の外側付近での露出の減少を補正する。
・デモザイクは、CFA画像からフルカラー画像を作成するために、各ピクセルにおいて観察されない色バンドを推定する。
・ノイズ除去は、画像の基礎的なコンテンツを失わなわずにノイズを除去する試みを行う。
・色変換は、センサで測定された色空間から望ましい標準色空間への変換を行う。元(オリジナル)のシーンに対する人間の知覚を再現することになる画像の場合、出力色空間は通常、XYZカラーマッチング関数の線形的な組合せである。
・ぼけ修正/鮮明化は、カメラによりピンぼけになった可能性のある細部を回復させることにより、エッジが明確化された、より満足のいく画像を作成しようとする試みを行う。
・ガンマ変換は、線形的な明度の値に指数関数を適用するので、出力画像は、適切に表示されかつsRGBなどの標準的な色フォーマットに適合するものであり得る。
・圧縮は、画像の知覚的変化を最小限に抑えつつ、ファイルサイズを縮小する。
前記パイプラインに含まれる処理ステージのうち、デモザイク、ノイズ除去及び色変換のみが、特定のCFAに決定的に依存する。これら3つの計算の各々に対して多くのアルゴリズムが提唱されているが、ほとんどのものは新たなCFAデザインに適合しない。また、標準的なRGBベースの画像に用いられる多くの画像処理アルゴリズムの基礎になっているいくつかの仮定は、任意に画定された色空間に対して一般化できない。
新たなCFAのデモザイク処理は容易ではない。その理由は、良好なアルゴリズムのために、画像内で空間相関及びスペクトル相関を利用しなければならないからである。或る特定のピクセルにおいて値を推定するとき、隣接ピクセルから得られる測定値は異なる色バンドのものであることが多く、その一方で同色のピクセルはそれよりもさらに離れた位置にある。色バンドは、互いに重なり合っていてもよく、かつ画像を適切にデモザイク処理するために利用されるべき重要な相関関係を有し得る。
同様に、ノイズ除去も容易ではない。その理由は、様々な色バンドの全域にわたって存在するノイズから信号を分離することが困難なためである。ノイズの強度は、各バンドにおける光の量に基づき、色バンド間で異なる。同様に、各色バンドにおけるノイズも、各ピクセルで異なる。その理由は、測定されたのは1つのバンドで、他のバンドはデモザイク時に推定されたものであるからである。
ベイヤーカメラの場合、色変換は通常、各ピクセルにおける出力XYZ値に対する推定RGB値の線形的な組合せである。コンテンツやノイズレベルにかかわらず、全てのピクセルに対して同じ変換が用いられることが多い。本方法は、特にスペクトルフィルタが互いに重なり合っていたりチャンネル間でノイズレベルに著しい差があったりする場合に、特定のCFAまたは出力色空間に対してあまり役に立たなくなる可能性がある。
新たなCFAの処理の難しさを説明するために、図1のBに示したRGBW型CFAを用いた測定及び、以下の条件下でのXYZの推定について考える。
・超低光量環境−赤、緑、青の測定値は非常にノイズが多く、信頼できないが、それに比べて、白の測定値はノイズがはるかに少ない。これらの測定値から鮮やかな色を正確に推定することは不可能であるので、色変換は白チャンネルに大きく依存するはずであり、出力画像はグレイスケールに近くなるはずである。
・薄暗い光−赤、緑、青の測定値にはノイズがあり、白の測定値はノイズをほとんど含まない。白チャンネルは、シーン内の構造、例えばエッジなどを識別することにより、デモザイク及びノイズ除去を支援することができる。4つのチャンネル全てが、出力画像に寄与し、色変換に資するはずである。
・明るい光−全ての測定値はノイズをほとんど含まないが、白チャンネルは飽和して信頼できなくなるであろう。赤、緑、青の感度は、ほぼX Y Zの部分色空間に位置するようにデザインされるので、白の測定値は、色変換の役に立たない。色変換は、赤、緑及び青のチャンネルにのみ依存する。
・超低光量環境−赤、緑、青の測定値は非常にノイズが多く、信頼できないが、それに比べて、白の測定値はノイズがはるかに少ない。これらの測定値から鮮やかな色を正確に推定することは不可能であるので、色変換は白チャンネルに大きく依存するはずであり、出力画像はグレイスケールに近くなるはずである。
・薄暗い光−赤、緑、青の測定値にはノイズがあり、白の測定値はノイズをほとんど含まない。白チャンネルは、シーン内の構造、例えばエッジなどを識別することにより、デモザイク及びノイズ除去を支援することができる。4つのチャンネル全てが、出力画像に寄与し、色変換に資するはずである。
・明るい光−全ての測定値はノイズをほとんど含まないが、白チャンネルは飽和して信頼できなくなるであろう。赤、緑、青の感度は、ほぼX Y Zの部分色空間に位置するようにデザインされるので、白の測定値は、色変換の役に立たない。色変換は、赤、緑及び青のチャンネルにのみ依存する。
明らかに、デモザイク、ノイズ除去及び色変換については、この特定のCFAの特性に適応させ、かつ様々な光レベルを通じて大きく変更しなければならない。このことは、新たなCFAに用いられる処理パイプラインを作成する困難さを示している。
ローカル・線形・学習型(Local, Linear, and Learned)パイプライン
画像処理パイプラインの上記ステージを画像に関する経験則及び仮定を用いてデザインする伝統的方法は、多くの新たなCFAデザインにとって非効率的でありかつ非常に困難である。本明細書に示す学習方法は、トレーニングデータセットからフィルタ及び必要なパラメータを自動的に計算するので、結果として得られるパイプラインを獲得しやすい。本発明の方法は、デモザイク、ノイズ除去及び色変換に通常必要とされる別々の計算の代わりに、1回の高速計算で出力画像を推定する。トレーニングデータセットから、CFAの様々なチャンネルと所望の出力色空間との間の微細な相関関係が学習される。また、学習により、結果として得られるアルゴリズムを特定の用途及びデータセットに対して最適化することもできる。そのような最適化は、一般的に、以前のアルゴリズムを用いて行うことが不可能であった。パイプラインで必要な処理を線形計算及びスカラー比較のみにすることによって、計算コストが最小限に抑えられる。
いくつかのスペクトル測定からの反射率推定
任意の可能なCFA処理方法が得られたところで、次の重要な課題は、特定の用途向けのCFAをデザインする方法である。バンドは、着目波長を適切に測定し、さらにセンサのコスト及びノイズを最小限に抑え、さらに高空間分解能を維持するようにデザインされるべきである。デザインのトレードオフを理解するために、少ない数の測定値、例えばカメラの様々なチャンネルなどからスペクトルを推定するという問題を検討しなければならない。最初にカメラの空間次元を無視することによって、分光感度のトレードオフを理解することの方が、なお一層容易である。以下では、既知の光源下で既知の分光感度を有するカメラから得られる測定値を用いて物体の反射率を推定する問題について述べる。物体の反射率は波長の関数であり、物体に入射した光に対して反射した光の割合を表す。反射率は、物体の外観及び色を決定する。反射率を推定するためのローカル・線形・学習型の方法を、その利点とともに示す。
ローカル・線形・学習型の概念
本明細書に記載の画像推定方法及びアルゴリズムは、L3と呼ばれる。これは、ローカル・線形・学習型(Local, Linear, and Learned)の略であり、本方法の独自の特徴を明確にしたものである。通常、L3アプローチは、ノイズが含まれている可能性のある測定値のベクトルに基づき、トレーニングデータを活用することによって未知のベクトルを推定する手段である。画像推定に関しては、CFAの、或るピクセルを取り囲む測定値を用いて、中央ピクセルにおける少数のスペクトルバンドを推定する。反射率推定に関しては、測定値は、物体からの光の少数のスペクトルバンドであり、物体の反射率を推定するために用いられる。以下は、本方法の独自の特徴である。
「ローカル(Local)」は、本発明の画像推定の適応性を指す。これは、全ての推定値が同一の方法で得られるグローバル(大域的)な方法とは対照的である。そのようなグローバルアルゴリズムは、観察される測定値に基づいて測定値と所望の出力との関係が大きく変化した場合に機能しなくなる。ローカル(局所的)な適応を行うために、測定空間は複数のクラスタに分割される。通常、クラスタは、非常に似通った物体すなわち画像の特徴部が1つのグループにまとめられるようにデザインされる。同一クラスタ内の全ての測定値に対する推定値が同一の方法で計算され、当該クラスタのメンバーに対して最適化される。
「線形(Linear)」は、ほぼ全てのアルゴリズムの計算が線形的であり、それ故に計算が非常に高速であることを明確にしたものである。今日では画像及び映像には数百万のピクセルが含まれており、そのような画像及び映像に対して計算を行う場合に、計算要件は非常に重要である。多くの公表されている画像処理アルゴリズムは、非常に高い計算要件を有し、それは多くのアプリケーションには高価すぎるであろう。一連の測定値に対して、線形計算及び比較のみを必要とする適切なクラスタが識別されると、推定値を得るために、事前に計算された線形フィルタが適用される。特定の仮定下で、ウィーナーフィルタは、各クラスタについての最適な線形フィルタであり、測定値の予期されるノイズレベルに対してロバストである。とりわけ、所与のクラスタにおいて、信号及びノイズが無関係であると仮定する。この仮定は、一般的には、ポアソンショットノイズの信号依存性のせいで正しくない。しかし、上記仮定は、計算を簡略化するものであり、かつクラスタ内のトレーニングデータが互いに類似しているときには合理的と認められる程度に有効であるので、そのような仮定が成立する。
「学習型(Learned)」は、本発明の画像推定が、トレーニングデータセットからの統計値の抽出によってなされることを意味する。推定は一般的には劣決定問題であるので、推定値を導くためにはデータセットからの統計値が必要である。画像に関する経験則及び一般知識は、画像処理においては一般的であるが、非RGB画像への適用が困難であるので、それらに依存する代わりに、機械学習技術を用いることにより、トレーニングデータセットを通じて処理を最適化する。トレーニングデータセットから、クラスタリング法が学習される。その後、各クラスタに対してウィーナーフィルタが計算される。ウィーナーフィルタは、当該クラスタ内でトレーニングデータを通じて最小の誤差を達成する。学習の結果として、L3アプローチは、或る特定の用途に対する推定値を自動的に生成する。消費者によってキャプチャされる典型的なシーンよりも反射率または画像が制約されるアプリケーションの場合、専門のアルゴリズムは、大幅に改善された性能を有し得る。
具体例
図3に示す仮想的な問題を考えてみよう。測定値及び出力値がともにスカラーである場合、シナリオは非常に単純である。測定は、区間[0,10]にわたって均一に行われる。各測定値についての対応する所望の出力は、平均0、一定標準偏差σのガウスの確率変数だけ、測定値の固定関数とは異なる。従って、最適な推定値はこの固定関数である。ガウスの確率変数は、測定値から予測できない所望の出力の偏差を表す。同様の不可避な誤差が、画像及び反射率推定において生じるが、その理由は、基礎信号を完璧に予測しない有限測定値のみが利用可能であるからである。この予測不可能性は測定ノイズとは異なるものであり、それはこの例には存在しないことに留意されたい。
トレーニングサンプルから得られた最適なグローバル線形(具体的にはアフィン)推定値を図2の(a)に示す。基礎関数が極めて非線形的であるため、グローバル線形推定はデータに合っていないことが分かる。図2の(b)は、区間[0,10]を幅の等しい8つの区間に分割し、各区間内のトレーニングサンプルに基づいて最適線形(アフィン)推定値を導き出した結果を示している。[8.75,10]の測定区間においては最適推定値の変化が急すぎるので、ローカル線形推定では上記区間以外で最適推定値の近似がなされることに留意されたい。このようにして作成されたローカル線形推定値は、最適推定値によく合うものである。或る1つの測定値に対して推定を行うために、先ず、当該測定値を含む区間を決定する。その後、当該区間に対してメモリから事前に計算されたフィルタを獲得し、適用する。カーネル回帰は、基礎関数を推定するための別の方法を提供し、連続的推定量をもたらす。しかし、推定を行うときには、元(オリジナル)のデータにアクセスして、より多くの計算を行わなければならない。ローカル線形法は、多くの最近の画像処理アプリケーションに必要な適用時の計算及びメモリ要件が最小限で済むので、ローカル線形法が選択された。
図3は、データの予測不可能性がグローバル推定及びL3推定の性能を如何にして達成するかを示している。σ=0のときには、測定値と所望の出力との間に決定論的な関係がある。この場合、RMSEは、推定値の偏り、すなわち推定値が基礎関数を近似できないことを直接反映している。σが増加するにつれて測定値と所望の出力との関係は弱くなり、その結果、どの推定値にも不可避な誤差が生じる。L3推定はこの例に関してほぼ最適であるが、σが大きいときには、グローバル線形推定の偏りとL3推定の偏りとの差に比べて、データの予測不可能性に起因する誤差が優位を占める。その結果、σが大きくなるにつれて、グローバル線形推定量に対するL3推定量の相対的な向上は小さくなる。測定ノイズは、両推定量の性能を低下させかつ局所性(ローカル性)の相対的な向上を小さくすることによって、同様の影響を与える。
従って、測定値と所望の出力との間に強い非線形的関係があり、かつ測定ノイズがほとんどないようなデータセットに関して、L3推定量は、グローバル線形推定量と比較して非常に役立つ。トレーニングデータセットを予想される物体またはシーンのサブセットのみに制限することで、不確実性を低下させる。そのような制約付きデータセットは、一般的な写真撮影に比べて物体(被写体)及びシーンが限定されている特定の用途のために存在する。
多次元への拡張
複数の測定値を用いる推定の場合、複数のローカルクラスタへの分割及び線形推定が高次元空間で行われる。推定値から予期される複数の出力値がある場合、測定空間内でクラスタリングが1回行われ、その後、別々の線形推定量が計算されて所望の各出力に適用される。
測定空間を複数のローカルクラスタに分割する方法は、重要なデザイン検討事項である。計算上の理由で、クラスタリングは、クラスタの数が所要の分岐操作の数とともに指数関数的に増加するように階層的に行われる。1つのクラスタから2つのより小さなクラスタへの分割には、線形内積及びスカラー比較が含まれ、これらは計算効率がよい。クラスタは、測定値と所望の出力の強い線形的関係を有するようにデザインされる。或るクラスタに関して線形的関係が十分に強力でない場合、当該クラスタをさらに分割することが有用であろう。しかし、クラスタの数が多くなりすぎるリスクがある。計算及びメモリの増加に加えて、ノイズのせいで特定の測定値に対して間違ったクラスタが識別されるかもしれない。加えて、トレーニングデータセット以外ではうまく機能しないかもしれない回帰の過学習及び生成を回避するために、各クラスタには十分な量のトレーニングデータを含める必要がある。
画像推定
正確な推定値を与える画像処理パイプラインを作成するために、以下の特徴が重要である。
・今日のカメラはピクセル数が多いので、画像処理パイプラインは、過剰な計算またはメモリを要求するものであってはならない。理想的には、アルゴリズムは、最小限の計算しか必要とせず、性能改善のために必要に応じて複雑さを拡大することができる。
・画像処理パイプラインは、任意のCFAに適合するものでなければならない。CFAは、任意のスペクトル形状及び任意の空間的配置を持つ任意の数の色バンドを含むことができる。一般的な方法を用いなければ、任意の1つのCFAが持つ特殊性のために画像処理パイプラインの開発は困難である。一般的な方法を用いると、新たなCFAデザインのシミュレーションを通じて迅速な評価が可能であり、そうでなければパイプラインを毎回作り直す必要がある。
・画像処理パイプラインは、出力画像を任意の色空間に出力できなければならない。色空間は、任意のスペクトル形状を有する任意の数の色バンドを含むことができる。出力色バンドは、正負両方の間隔を有し得る感度関数と入射光との内積と定義することができる。
・画像処理パイプラインは、測定ノイズに対してロバストでなければならない。パイプラインは、暗いシーンから明るいシーンへの変化によって生じる様々なノイズレベルを考慮すべきである。また、感度全体に差があると考えられることから、色チャンネルにわたって様々なノイズレベルがあることを認識することも重要である。
・画像処理パイプラインは、所与の用途向けにカスタマイズ可能なものとすべきである。特定のデータセットの個々の項目に合わせたアルゴリズムは、一般的な画像処理パイプラインと比較して改善された性能を提供し得る。このことは、全ての撮像シーンが互いに似通っている、特定の目的のために常に使用されることになるカメラに、特に重要である。加えて、特定の種類のシーンを決定することができれば、アルゴリズムのタスクの専門化は、民生用カメラにおいて有益であろう。これは、自動シーン検出またはユーザの入力によりなされ得る。例えば、多くの民生用デジタルカメラにおいては、ユーザが選択可能な、事前に指定されたシーンモードが存在し、それによって、当該シーン種類に最適化されたフィルタの信号使用が可能になる。
・画像処理パイプラインは、出力画像において望ましい結果をもたらすように調整可能であるように、単純かつ理解可能なものにすべきである。既存のパイプラインは、多数の連続的な計算を必要とすることが多く、そのことが、システム全体を理解しかつ変更することを困難にしている。上記の計算のうちの幾つかを組み合わせることによって、設計者は、結果として得られた画像を見て、数個のパラメータを調整することにより、特定の画像または画像領域において望ましい変更を行うことができる。
・今日のカメラはピクセル数が多いので、画像処理パイプラインは、過剰な計算またはメモリを要求するものであってはならない。理想的には、アルゴリズムは、最小限の計算しか必要とせず、性能改善のために必要に応じて複雑さを拡大することができる。
・画像処理パイプラインは、任意のCFAに適合するものでなければならない。CFAは、任意のスペクトル形状及び任意の空間的配置を持つ任意の数の色バンドを含むことができる。一般的な方法を用いなければ、任意の1つのCFAが持つ特殊性のために画像処理パイプラインの開発は困難である。一般的な方法を用いると、新たなCFAデザインのシミュレーションを通じて迅速な評価が可能であり、そうでなければパイプラインを毎回作り直す必要がある。
・画像処理パイプラインは、出力画像を任意の色空間に出力できなければならない。色空間は、任意のスペクトル形状を有する任意の数の色バンドを含むことができる。出力色バンドは、正負両方の間隔を有し得る感度関数と入射光との内積と定義することができる。
・画像処理パイプラインは、測定ノイズに対してロバストでなければならない。パイプラインは、暗いシーンから明るいシーンへの変化によって生じる様々なノイズレベルを考慮すべきである。また、感度全体に差があると考えられることから、色チャンネルにわたって様々なノイズレベルがあることを認識することも重要である。
・画像処理パイプラインは、所与の用途向けにカスタマイズ可能なものとすべきである。特定のデータセットの個々の項目に合わせたアルゴリズムは、一般的な画像処理パイプラインと比較して改善された性能を提供し得る。このことは、全ての撮像シーンが互いに似通っている、特定の目的のために常に使用されることになるカメラに、特に重要である。加えて、特定の種類のシーンを決定することができれば、アルゴリズムのタスクの専門化は、民生用カメラにおいて有益であろう。これは、自動シーン検出またはユーザの入力によりなされ得る。例えば、多くの民生用デジタルカメラにおいては、ユーザが選択可能な、事前に指定されたシーンモードが存在し、それによって、当該シーン種類に最適化されたフィルタの信号使用が可能になる。
・画像処理パイプラインは、出力画像において望ましい結果をもたらすように調整可能であるように、単純かつ理解可能なものにすべきである。既存のパイプラインは、多数の連続的な計算を必要とすることが多く、そのことが、システム全体を理解しかつ変更することを困難にしている。上記の計算のうちの幾つかを組み合わせることによって、設計者は、結果として得られた画像を見て、数個のパラメータを調整することにより、特定の画像または画像領域において望ましい変更を行うことができる。
本発明の例示的な実装としてのL3パイプラインは、トレーニング画像についての機械学習を活用することにより、従来の画像処理パイプラインからのデモザイク、ノイズ除去及び色変換計算を1回の計算で同時に行うことによって、これらのデザイン要件を満たす。一実施形態では、上述のパイプラインのレンズシェーディングステージは最初にL3パイプラインに含まれていないが、それはレンズシェーディングステージが空間的シフト不変でないためである。ガンマ変換及び圧縮計算も同様にL3パイプラインに含まれないが、その理由は、これらが高度に非線形的であり、後処理において容易に行われるからである。
トレーニングデータセット及び作成方法の例
画像処理パイプライン用の学習アルゴリズムを作成するために、入力画像及びそれに対応する所望の出力画像からなる高品質のデータセットが必要である。学習型アルゴリズムは、できる限り細かに出力画像を推定しようと試みることになる。ノイズと、入出力画像間の非決定論的関係とが原因で、完全な推定は不可能である。具体的には、トレーニングデータセットは、計算、デザインまたは測定が可能な、ノイズをほとんどまたは全く含まないCFA測定値及びそれに対応する所望の出力の集合からなる。画像の変更が好ましい場合には、出力画像がシーンの科学的に正確な測定値である必要はない。例えば、カメラメーカーは、空など特定色について飽和度を高くするように見え方を調整することができ、そうすることで消費者の興味を引くことができるであろう。
トレーニングデータを作成する方法はいくつかある。1つは、カメラの基本的特性に基づく既知のマルチスペクトルシーンのコンピュータシミュレーションである。物理的にカメラの試作品を製作すると、特に新規なCFAに関して、製作費が高くつきかねないが、コンピュータシミュレーションであればカメラの試作品を必要としないという利点がある。シミュレーションにおいて新たなカメラデザインを試してみるのは非常に簡単であり、これにより、試作品カメラ及び物理実験室がない状態でも、校正されたテスト用のシーンを用いて、迅速な最適化及びテストが可能になる。
シミュレーションパラメータを得るために、標準検査表を写真に撮ることによって、既存のカメラの特性を明らかにすることができる。シミュレーションとカメラのセンサから得られる測定値とが統計的に類似している限り、学習型パイプラインからの出力画像はシミュレーションにより得られた出力と一致することになる。
既存のカメラに関して、もう1つの方法として、既知のマルチスペクトル分布を持つシーンを写真に撮り、実際のセンサ測定値をトレーニングに用いてもよい。こうすることにより、シミュレーションと既存の装置との不一致により生じる誤差が取り除かれる。上記シーンからのマルチスペクトルデータは、高性能でかつ多くの場合に高価である多くの科学的装置の1つを用いて測定することができる。
グローバル線形パイプライン
グローバル・線形・学習型(global linear learned)パイプラインは、最も実装しやすいパイプラインの1つであり、最小限の計算が要求される。各ピクセルにおける出力推定値は、当該ピクセル及びその近傍におけるセンサ測定値の不変の線形的な組合せであり、シーン輝度によって決まる。この例では、特定の光レベルについて導入されるパイプラインは、大域的に線形となる。しかし、互いに異なる光レベルについてのパイプラインは、SNRが異なるために、互いに異なり得る。
上記例のいくつかにおけるアルゴリズムは、空間的に局所化(ローカル化)される:最終画像内の各ピクセルにおける値は、当該ピクセル及びその近傍におけるセンサ測定値のみの関数である。このことは、並列処理を可能にする。既存の実装は、
個のピクセルを測定するパッチと呼ばれる正方形のセンサ測定値のセットを用いる。ここで、
は奇数である。中央ピクセル出力値のみが推定されるので、処理されなければならないパッチの数は画像中のピクセルの数と等しい。画像の外側の
個のピクセル内のピクセル群に対してパッチを形成するのに十分な隣接ピクセルが存在しないので、この境界領域においては出力が計算されない。
デモザイクアルゴリズムにおいて、同様の空間的局所性を有することは一般的である。しかし、そのような特性はノイズ除去においては一般的でない。その理由は、基礎信号を決定しかつノイズを除去するために用いることができる類似構造が、画像の非ローカル領域に含まれ得るためである。推定値を局所的に制限すると、推定に役立ち得るセンサ画像内の可能なパターンまたは統計値が無視されるが、そのような制限は、計算及びメモリ要件を大幅に削減する。
CFAパターンをパッチに如何に合わせるかに応じて、幾つかの異なるパッチ型が存在する。図4A〜図4Dは、ベイヤーCFA向けの4つのパッチ型を示している。先ず、これらを用いてアルゴリズムについて説明する。一般的に、CFAパターンの繰り返しブロック(ベイヤーCFAの場合は2×2)内には、ピクセルの数と同じ数のパッチ型が存在する。各パッチ型はその中央ピクセルの色で呼ばれ、該中央ピクセルで出力色チャンネルが推定されることになる。
一般的に、各パッチ型に対して別々のフィルタが学習される。ベイヤーCFA配列の場合、G1型パッチとG2型パッチは、一方の配列が他方の配列を回転させたものである点のみが異なる。画像の垂直方向及び水平方向に基本的相違がないと仮定すると、これらのパッチにそれぞれ対応する最適なフィルタも、互いに対して配列を回転させた関係にあるであろう。ランドスケープ方向(横向き)またはポートレート方向(縦向き)で同じシーンを写真に撮ると、この回転が行われるので、上記の仮定はカメラにほぼ当てはまる。この回転を利用することにより、トレーニングされかつ格納されるフィルタの数を減少させる。
ここで、
を、ノイズフリーと推測されるベクター形式に変換されたセンサパッチとする。テスト時に測定データはノイズ
により破損されることになるので、z=y+nとなる。次に、
を、パッチの中央ピクセルにおけるo個の出力色バンドの所望の値とする。
トレーニングデータを作成するために、1つのトレーニング画像セットからk個のパッチがランダムに抽出される。
及び
の列を、各パッチからのyベクトル及びxベクトルの集合とする。Yはトレーニングに対してノイズフリーであると推測されるが、フィルタリングは測定ノイズに対してロバストである必要がある。
を、測定ノイズを表すランダム行列とする。
線形推定量
が望ましく、これは推定値
をXに非常に類似したものにする。
通常はm<kであるので、完全な推定は不可能である。代わりに、推定値の誤差を二乗したものの合計値が最小限に抑えられる。具体的には、
を最小限に抑える。ここで、
はフロベニウスノルムである。これは、平均二乗誤差(MSE)またはピーク信号対ノイズ比(PSNR)によって求められる最適推定値に相当する。残念ながら、これらの測定基準(メトリクス)は、知覚的誤差との一致がそれほど良好ではないが、最適化に便利である。
ウィーナーフィルタを導出するために、いくつかの仮定が必要である。ノイズの信号依存性を取り除くために、NはX及びYと無関係であると仮定する。この仮定は、実際には当てはまらないかもしれないが、ウィーナーフィルタに必要である。代わりに、Nの列は、独立した、かつ、平均0、自己相関Rnで一様に分布しているものと仮定される。データセットについて予期される平均ノイズ値は、各ピクセルにおける測定値に応じて変化することになるが、ウィーナーフィルタにより上記平均ノイズ値が求められる。この仮定は、ローダイナミックレンジのシーンに関しては合理的と認められるが、画像間でノイズのばらつきが大きいハイダイナミックレンジのシーンに関しては不十分であろう。
これらの仮定下では、最適線形フィルタは、
を解くことによって得られるウィーナーフィルタWである。ウィーナーフィルタWをパッチに適用するとき、中央ピクセルにおける出力色バンドの推定値
は、
によって与えられる。
ノイズがない場合には、最適なデモザイクフィルタW=XY+を用いてデモザイクアルゴリズムを与えるために、ノイズ除去は自動的に無効にされる。ここで、Y+はムーア-ペンローズの擬似逆行列である。
図5は、いくつかの未加工の画像を用いてトレーニングしたウィーナーフィルタを示している。デモザイクフィルタWの行列の各行は、特定の色チャンネルを推定するために必要なフィルタであり、或るベクトルからその対応するディスプレイ用パッチへと変換される。パッチの中央におけるXYZチャンネルのグローバル線形推定値を求めるために、パッチと3つのフィルタの各々との内積を計算する。
参考として、輝度2cd/m2は、薄暗い屋内シーンまたは澄み渡った空の下、日没の15分後の屋外シーンと同様である。明るく照らされた屋内シーンまたは曇り空の下での日没時の屋外シーンの輝度は、約20cd/m2である。最後に、輝度200cd/m2は、LCDディスプレイからの出力または灰色の空の下、正午の屋外シーンと同様である。
図5のフィルタは、多くの興味深い特徴を有している。これらのうち、明るいシーン用のフィルタは、薄暗いシーン用のフィルタと比較して、より中央に集中し、かつより広範囲の係数を有しているので、フィルタのノイズロバスト性が向上している。明るい照明の場合、パッチの中央付近にあるいくつかのピクセルは、ノイズがほとんどないので、望ましいチャンネルの良好な予測因子である。また、信号は、パッチの外側ではなくパッチの中央にあるピクセル群内で同じである可能性が高い。しかし、ノイズが増加するにつれて、パッチの中央のピクセルに大きく依存することはリスクを伴うので、他のピクセルがより重点的に用いられる。フィルタを広げることによって、測定ノイズを除去することができるが、信号のぼやけも生じる。
図5のフィルタのうち、2つのより明るい照明レベルに関して、パッチのR、G、BのピクセルはそれぞれX、Y、Zのチャンネルに対して最大の係数を有する。そうなるのは、これらが、スペクトルが最も重なり合う対(ペア)であるからである。最も暗い照明の場合、X、Y及びZの各フィルタについての赤または青のチャンネルの係数よりも、緑のチャンネルの係数の合計の方が大きい。結果は、くすんだ色の画像であり、これは、出力画像においてより多くの飽和色を不正確に推定するリスクを減らすが、系統的な色の偏りを生じさせる。
2つのより明るい照明レベルに対してのみ、負の係数が存在することに留意されたい。推定値の一部は、中央のピクセルとエッジ沿いのピクセルとの重み付きの差から得られる。これは、所望の出力チャンネルとの相関が必ずしも十分ではないであろう色の全体的効果を打ち消すのに役立つが、パッチ全体にわたって明度の差を見つけるのに役立ち、それは所望の出力チャンネルを推定するのに役立つ。この差は、特にノイズに敏感である。というのも、2つの確率変数の減算により、元の確率変数の合計に等しい分散を有する確率変数が得られるからである。
図6は、ノイズがほとんどない明るいシーンに対するグローバル線形推定法の性能を示している。トレーニングは、互いによく似た6つの人物シーンに対して行った。そのようなノイズがほとんどない条件下で本方法は非常に良く機能し、理想的な出力と再構成の差は空間CIELAB値0.49でわずかである。本アルゴリズムでは、例えばネックレスの周りや肌の鏡面反射ハイライトなどのシャープなエッジの近傍において、及び花などのテクスチャ領域において、誤差が生じる。画像の左上などで飽和色に関してわずかな色の偏りがあることもあるが、これは、3つの測定チャンネルだけを用いて飽和色を推定することの難しさに起因する。
L3パイプライン
グローバル線形パイプラインでは1セットのフィルタしか与えられないので、これらのフィルタは、ノイズを低減するための平均化と、画像内のエッジをぼけさせない試みとの競合する利益を調整しなければならない。この制限を克服するために、L3パイプラインが導入される。L3パイプラインでは、僅かなウィーナーフィルタのセットが事前に計算され、適切なときに、画像のローカルコンテンツに適合するように適用される。トレーニングデータから得られたパッチは、類似のパッチからなる複数のクラスタにまとめられる。各クラスタに対して、ウィーナーフィルタは、当該クラスタ内のパッチだけを用いて探し出される。クラスタが良好にデザインされた場合、結果として得られるフィルタは、各クラスタの特定の性質に適合することができ、かつクラスタ間で異なるので、改善された推定値が得られる。クラスタリング手順及びフィルタは、一旦トレーニングデータから得られ、格納される。L3パイプラインをパッチに適用するために、適切なクラスタが識別され、対応するフィルタがメモリ内でアクセスされ、中央ピクセルにおける出力画像の推定を行うように適用される。L3パイプラインの概要を図7に示す。
フラットパッチ及びテクスチャパッチへの分類
グローバル線形フィルタリングによって引き起こされる最大の誤差は、テクスチャ及びエッジ近傍で生じるので、パッチを2つのグループすなわちフラット及びテクスチャに分ける。フラットパッチは、低空間周波数のみを含む画像の比較的均一な領域である。テクスチャパッチは、より高い周波数を含み、エッジまたはテクスチャとして現れる。L3パイプラインを適用する計算を示すダイアグラムを図8に示す。
フラットパッチとテクスチャパッチを区別するために、グローバルウィーナーフィルタが計算される。但し、代わりに、求める出力色空間はCFA測定バンドと同じ(ベイヤーパターンの場合はRGB)である。これらのウィーナーフィルタは、CFAフィルタと呼ばれ、
によって与えられる。ここで、hはCFA内の色バンド数である。CFAフィルタは、パッチの中央ピクセルにおいて異なるCFA測定バンド内で値を推定する。これは、パッチの全体色と呼ばれ、
で表され、
として計算される。
パッチ内の各ピクセルに対して、該ピクセルの色に対応する推定値を減算する。これにより、残差パッチと呼ばれるパッチが得られる。残差パッチは、
で表され、
により与えられる。ここで、
は、パッチ内のCFAパターンを記述する行列であり、ここで、zの入力i内のピクセルが
の入力jと同じ色である場合には、Di,j=1である。パッチが完全にフラットである場合には、異なる色バンドにおいて全ての測定値が等しいことを意味し、残差パッチは全く同じに0である。変換されたパッチ内の各値が0から逸脱する量は、パッチ内のテクスチャ量の測定値である。従って、パッチのコントラストは、
と定義される。パッチは、c≦c*の場合にはフラットであり、c>c*の場合にはテクスチャである。ここで、c*は所定の閾値である。
閾値は、トレーニング用のパッチに関してノイズの多い測定プロセスをシミュレートすることによって選択され、或る割合のパッチがフラットに分類されるように設定される。この割合は、アルゴリズムのデザインパラメータである。最近のデジタルカメラは高ピクセル密度を有する傾向があるので、ピクセル群の大部分をフラットであると考えることができるが、これについてはトレーニング用シーンのコンテンツに左右され得る。ノイズフリーのトレーニングパッチを用いた閾値の計算によりノイズを無視すると、得られる閾値が低すぎて、テスト時に所望の割合のフラットパッチが得られないことを理解することが重要である。その理由は、ノイズが全てのパッチに対してコントラストを上げるので、同じ割合のフラットパッチを得るためには、より大きな閾値が必要とされるからである。
図9のAは、フラットピクセル及びテクスチャピクセルの分類の例を示している。グローバル線形パイプラインは、フラットピクセルに対する誤差を小さくし、その一方で、図9のBに示すようにテクスチャパッチに対する誤差をより大きくすることに留意されたい。より高い周波数を推定することは困難であるので、デモザイク及びノイズ除去の誤差は通常、テクスチャ及びエッジ近傍で最大である。フラット領域は、信号をぼけさせるリスクがほとんどないために誤差が比較的小さく、従って、ノイズを積極的に除去することができる。これらの理由により、フラットパッチは、特にフラットパッチを用いてトレーニングしたウィーナーフィルタによって、簡単にフィルタリングされることになる。しかし、テクスチャパッチは、誤差を小さくする目的でさらに処理されることになる。幸いにも、画像内のピクセル群の大部分はフラットであるので、計算は尚も高速である。
テクスチャパッチの正準(カノニカル)方向付け
デモザイク及びノイズ除去の両アルゴリズムの共通の目的は、エッジの全域での平均化またはフィルタリングの回避である。その理由は、それがエッジをぼけさせることになるからである。テクスチャパッチは、多くの場合にエッジまたは勾配を有するが、これらは現在のところ任意の方向に存在する。エッジまたは勾配の方向に適合することができるテクスチャパッチ用の単一フィルタは存在しない。これに対する解決策は、勾配が常に同じ方向に向くようにパッチの向きを合わせることであるので、方向付けをうまく利用する単一の最適なフィルタの適用が可能である。
幸いにも、CFA構造体は、多くの場合に、方向付けのために利用できる対称軸を1つ以上有している。ベイヤーCFAやRGBW型CFAなど、2×2の繰り返しパターンを有するCFAパターンの場合、各パッチ型は、垂直及び水平の対称軸を有する。ベイヤーパターンの場合、赤及び緑のパッチはまた、いずれかの対角線を軸として対称である。
或るパッチ型のCFAパターンが特定の軸を基準に対称である場合、該対称軸を基準にパッチをミラーリングしても、任意のピクセルの対応する色を変化させないが、中央ピクセルは同じ位置に保たれる。パッチをミラーリングする能力により、パッチを、勾配が或る特定の方向を向くように方向付けすることができる。パッチは、各対称軸の一方の側において他方の側よりも合計が大きくなるようにミラーリングされる。垂直及び水平の対称軸を仮定すれば、任意に、各パッチの左領域及び上領域がより大きな値を有するように選択される。従って、方向付けされたパッチは、右側及び下側よりも左側及び上側において常に明るい。ウィーナーフィルタは、方向付けされたテクスチャパッチに関して学習されかつ該パッチに適用されるので、パッチの全域での勾配の方向をうまく利用することができる。
対称軸を挟んでより大きな値を有する方の側は無視されるので、この方法は、情報が特に重要でないときにのみ勧められるということに留意することが大切である。通常、画像の方向は興味深い特性を含まないので、この方法は安全である。風景画像の上部に現れる空からの青など、画像内に現れる僅かなマクロスケール特徴部が存在し得るが、これらの特徴部は、パッチの規模で比較的弱い。
図10に、グローバル、フラット及びテクスチャパッチ用のウィーナーフィルタを示す。グローバルフィルタは、フラットフィルタとテクスチャフィルタの中間物である。というのは、グローバルフィルタが全二乗誤差を最適化するからであり、全二乗誤差はテクスチャパッチが最大である。もっとも、パッチの80%はフラットである。ノイズを低減するために、フラットパッチ用のフィルタは、基礎信号をぼけさせるリスクがほとんどない平均化によって、より分散される。しかし、例えばエッジを挟んで信号が変化した場所での測定値の使用を回避するために、テクスチャパッチ用のフィルタは、より中央に重み付けされなければならない。グローバルフィルタ及びフラットフィルタはほぼ対称であるが、テクスチャフィルタは、方向付けされているので、同じことが当てはまらないことにも留意されたい。
テクスチャパッチのさらなるクラスタリング
処理誤差の大部分はテクスチャピクセルに含まれるので、それらを、クラスタリングと、各クラスタについての最適な線形フィルタの発見とによって、さらに処理してもよいであろう。テクスチャクラスタがテクスチャパッチ間の差をより正確にキャプチャし得ることが期待される。これらの各クラスタについての学習型フィルタが互いに著しく異なっている場合には、推定全体を改善することができる。しかし、フィルタ同士が似通っている場合には、テクスチャクラスタをさらに分割することから期待される推定の改善はほとんどないであろう。テクスチャパッチをさらにクラスタリングする方法の詳細については、付記Aに記す。
フラットフィルタ及びテクスチャフィルタの実装
フラットとテクスチャとに分類する間にパッチから全体色が取り除かれて残差パッチが与えられるので、残差パッチ及び全体色にフラットフィルタ及びテクスチャフィルタを実装することは、より効率的である。もう1つの方法は、全体色を減算する前にメモリ内のパッチを再現し、両パッチに正準(カノニカル)変換を適用するか、または残差パッチを元(オリジナル)のパッチに変換するかのいずれかである。この余計なステップを回避するために、代わりに、フラットフィルタ及びテクスチャフィルタは、残差パッチ及び全体色に直接適用されるように変換される。
Wを、
によって所望の推定値を生成するフラットフィルタまたはテクスチャフィルタとする。残差パッチを得るための全体色の除去は、次式で表される。
ここで、
は恒等式(identity)である。上式の右辺の行列を
とする。Aの列は一次独立であるので、A+A=Iである。従って、
である。
とする。ここで、
であり、
Ψフィルタは、Wフィルタと同じ推定値を生じさせるものであり、必要に応じて、残差パッチ及び全体色に直接適用することができる。これらは、格納されかつパイプラインにおける計算に用いられるフィルタである。
アルゴリズム1において、L3パイプラインの疑似コード記述が与えられる。左(left)、右(right)、上(top)及び下(bottom)の各関数は、中央の行または列を除いた、パッチの対応する側における入力の合計である。関数mirrorv及びmirrorhは、それぞれ垂直または水平の対称軸を基準にパッチを反転させるが、これらは、疑似コード内に存在すると仮定される。
計算の複雑性
L3パイプラインを適用する計算の複雑性を表3.2に示す。パッチが
ピクセルであり、CFA内の色バンド数及び出力色空間数はそれぞれh及びoであることを思い出していただきたい。テクスチャに分類されているパッチの割合はpである。テクスチャクラスタリングのためのツリー高さは付記Aに記載されており、それはtである。計算の大部分には、長さがmである2つのベクトルの内積が含まれており、m個の乗算及びm?1個の加算が必要とされる。フィルタにおける対称性、例えば、CFAフィルタ及びフラットフィルタに対して実行可能な対称性などがある場合、乗算の数を減らすことができるが、これは仮定されない。パッチがフラットであるかテクスチャであるかを判定するとき、コントラストを計算するためにm個の絶対値も必要とされることに留意されたい。正準方向付けの場合、表3.2に対して2つの対称軸が仮定されるが、これはCFAに応じて異なり得る。mに対応しない項は、表中の乗算及び加算/減算の総数から除外した。
グローバル線形パイプライン及びL3パイプラインは、各パッチにおける2以上のピクセルに対して出力を推定するように変更することができる。例えば、10×10パッチがあれば、中央の2×2ピクセルにおいて出力色空間を推定することができる。こうすることで、計算が必要なパッチの数が4分の1に減り、複数のパッチ型が不要になる。10×10パッチ内の4つの中央ピクセルは各々、9×9パッチ内のようにパッチのエッジから少なくとも8ピクセル離れているので、得られた画像は、本明細書に提示されている方法により9×9ピクセルのパッチを用いてフィルタリングしたものと同様の品質を有するはずである。
制約付きデータセットを用いた学習
L3パイプラインは、トレーニング画像の特定の統計値に当てはめることができる。様々なシーンのためにデザインされた一般的なパイプラインとは対照的に、特定の用途のために最適化されたパイプラインの改善は、非常に大きなものとなり得る。しかし、本発明のパイプラインの改善は、データセットに依存する。データセットに関する制約及び予測可能性が増すと、パイプラインを最適化する際の値も大きくなる。
民生用カメラの場合、シーンの種類の検出は、カメラが自動で行うようにするか、または複数の事前に定義されたシーンモードをユーザが選択することで行うようにすることができる。多くのデジタルカメラに現在実装されているシーンモードには、人物、夕日、風景、文書、花火、ビーチ及び雪が含まれる。これらのモード種類の各々に対してフィルタを最適化することができる。また、意図的に1つの種類のシーンのみを撮像するような科学、工業用または医療用イメージング装置が数多くある。全ての種類を撮影するためにデザインされた汎用パイプラインを用いる代わりに、処理パイプラインを予期されるシーンに合わせてデザインし、最適化することができる。
ここで、特定用途向けの制約付きデータセットを用いた学習の潜在能力を説明するために、テキスト(文字列)を含む文書の画像処理について考える。一般的な処理パイプラインでは、テキストを含む画像は、エッジが非常に鮮鋭かつ小さいので厄介である。エッジの幅が約2〜3ピクセルであるとき、一般的な画像のための全てのデモザイクアルゴリズムは、エッジをCFAに如何に合わせるかに応じて、推定画像にいくつかの色アーチファクトを導入することになる。
基本的には、白い紙の上の黒いテキストの画像は、グレイスケール画像と同様に1つの色チャンネルしか持たない。推定画像がグレイスケールに似ていることを処理パイプラインが認識したならば、デモザイクの問題は重要ではなくなる。モザイクの除去は、各測定チャンネルを、各チャンネルの異なる量のキャプチャされた光源に合わせて調整するべく、スカラー倍だけ拡大または縮小することによって、行うことができる。ノイズ除去を除き、空間的補間は必要ない。
図11のA〜Cは、元のテキスト画像と、基本的パイプライン及びL3パイプラインから得られる出力とを比較している。シーンの作成は、ソフトウェアを用いてテキストの画像を作成することによって行った。その後、シーンの各点における反射率を、全波長に対して、画像内の明度によって与えられた定数に設定した。その後、カメラシミュレーションによってシーンをぼけさせ、センサ画像を作成した。L3パイプラインのトレーニングは、異なるフォントを用いた4つの互いに類似したシーンを用いて行った。基本的パイプラインから得られる画像には多数の色アーチファクトがあるので、テキストが多色で見えて読みづらくなる。トレーニングデータセットには色がなかったので、L3パイプラインから得られる画像は完全にグレイスケールである。生成されたXYZフィルタはスカラー倍しか違わないので、L3画像に色アーチファクトが現れることはあり得ない。これらの画像に関して、フラットフィルタをできる限り広げることで、白いページにおけるノイズが低減される。テクスチャフィルタは、エッジをぼけさせないように極めて中央に集中させる。通常、テクスチャフィルタは、色を推定するために他の色バンドからの測定値を必要とするので、もう少し分散させる必要がある。
L3パイプラインの拡張
以下の例は、L3パイプラインの、デモザイク、ノイズ除去及び色変換を行う能力を高める。
ぼけ修正
画像処理パイプラインの共通の目的は、消費者が喜ぶような、はっきりしたエッジを持つ画像を推定することである。別の言い方をすると、光学素子またはCFAによってもたらされたぼけをぼけ修正プロセスを通じて除去することである。L3パイプラインは、トレーニング用の鮮明な出力画像を用いて画像のぼけを自動的に修正するように適合させることができる。本アルゴリズムは、デモザイク、ノイズ除去及び色変換を同時に行いながら、ぼけたセンサ画像を鮮明化することができるフィルタを学習する。
図12のA〜Cは、L3パイプラインによって行われたぼけ修正を示している。焦点距離を固定した場合、レンズのF値が大きいほど絞りは小さくなり、回折現象が起きる。F値32のレンズから得られる画像は、鮮明化されていないので、図12のBに示すようにかなりのピンぼけである。これらのぼけた画像から得られたセンサ測定値と、F値4のレンズによって形成された鮮明な画像から得られた出力画像とを用いて、L3パイプラインをトレーニングした。トレーニングのために、異なるフォントを用いた4つの互いに類似しているシーンを選択した。パイプラインの結果、図12のCに示す格段に鮮明な画像が得られた。ぼけた画像において識別できないいくつかの文字も、処理画像において判読可能である。レンズのぼけにおいて情報の大部分が失われたので、最小の文字は鮮明ではない。残念ながら、ぼけ修正は通常ノイズの影響を受けやすく、ノイズは処理画像において目に見える。これらのシミュレーションにおいて、測定値に対して40dBの大きなSNRを用いた。
ぼけ修正が如何にして行われるかを理解するために、本システムのMTFを図13に示す。これらは、F値4のシャープなレンズを併用した図12で用いたL3パイプラインのMTFである。ぼやけた画像用に最適化された標準的なL3パイプラインによって、低周波数のみがシステムを通過することができる。これにより、高周波ノイズが取り除かれるが、ぼけた画像を構成する低周波項は残される。L3パイプラインのぼけ修正は、DC項を残して、低周波及び中周波を増加させる。これは、ぼけたレンズによるこれらの周波数の減衰を弱める。227サイクル/mmのナイキスト・レート以下の高周波項は、システムは通過するが、ノイズを増強するリスクのせいで増加はされない。
L3パイプラインのぼけ修正能力を以てすれば、より多くの収差を有するより安価なレンズを用いて撮像することが可能でありかつ、同じ品質の画像を得るように処理することによって誤差を補正することが可能である。光学素子の最適化及び処理を併用することにより、レンズのコスト及び重量を減らすか、または既存のカメラの品質を高めることができる。
6チャンネルCFAを用いたマルチスペクトル推定
図1のCに示されているような6チャンネルCFAを用いて、1回の画像取得からマルチスペクトル画像を推定することが可能である。シミュレーションを行ったカメラでは、前述の赤、緑、青のフィルタに、シアン、マゼンタ及び黄色のフィルタが加わる。通常、人々が知りたいのは、シーンからの光のスペクトルパワー分布ではなく、物体の反射率である。光源のスペクトル形状は、反射率推定を行う前に分かっているかまたは推定されていなければならないので、推測され続ける。
L3を用いる方法は、所望の各波長サンプルを直接推定することができるが、これには大量の計算及びメモリが要求される。反射率の平滑性に起因して、いくつかの主成分を用いて反射率を良好に近似することができる。本明細書におけるシミュレーションの場合、所望の出力空間は6つの主成分からなり、これにより反射率が簡潔に表現される。反射率を測定することが望ましいので、トレーニングデータに対して所望の出力画像を作成するときには、主成分の係数を計算する前に仮定光源が取り除かれる。主成分の係数が推定されたら、該係数を用いて主成分の線形的な組合せとして反射率の推定値が得られる。図14は、理想的な反射率と、L3パイプラインから推定された反射率とを示している。
マルチスペクトル物体検出
マルチスペクトルイメージングにおける一般的なタスクは、様々な物体をそのスペクトル成分に基づいて検出または分類することである。普通の照明下で人間の観察者に同一に見える多くの物体は、実際には互いに異なる反射率を有し得るので、該反射率を用いてコンピュータビジョンアプリケーションにおいて物体同士を区別することができる。自然発生的な互いに類似したものの例としては、或る疾患が或る生物の一部分の反射率を微妙に変化させる場合などが挙げられる。人間が作り出した、同じように見えるがスペクトルが異なり得る物体の例としては、カモフラージュ(迷彩服など)が挙げられる。
図15のAは、本物(リアル)のりんご及び人工的なりんごを含むシーンを示している。2つのりんごは、可視スペクトルにおける反射率を意図的に似せているため、ほぼ同じ色に見える。スペクトルの赤外部分700〜1100nmでは、2つのりんごの反射率は必ずしも類似していないので、当該区間におけるデータが利用可能であれば、これらの波長において測定可能なカメラを用いて、りんごを検出することは非常に容易である。可視スペクトル内で6チャンネルCFAによりサンプリングを行いかつL3パイプラインを用いることによって、反射率をより高い精度で推定することができる。この場合、L3アルゴリズムが特にこのタスクのためにトレーニングされていることが前提となる。
本物のりんごと偽物(フェイク)のりんごとを区別するべく、推定反射率を比較するために距離指標(distance measure)を導入する。
を、検出されるべき標的物体の代表的な反射率とし、
を、所望の物体クラスに属する場合に評価されるべき反射率の推定値とする。ここで、oは反射率のために用いられる波長サンプル数である。シーン内の各物体における光源の絶対明度を推定することは難しいので、距離指標は、反射率の全高に対して不変であるように設計される。被選択距離指標は、次式で与えられる。
ここで、分母にはユークリッドノルムが用いられている。従って、dは、Roにおける反射率ベクトル間の角度の余弦である。dの最大値=1は、標的反射率と同じ形状を有する反射率の推定値によって得られる。この値は、上記形状が相違するにつれて減少する。
距離の計算は、反射率の推定値のみを用いる代わりに、6つのPCA係数を用いて行う方が効率的である。マルチスペクトルイメージングには通常30個以上の波長サンプルが用いられるので、PCA係数を検討することによりメモリ及び計算要件が減らされる。
を、
によって与えられる反射率の最初の6つのPCA係数とする。ここで、
の列はPCA反射率ベクトルである。
であるので、距離指標は次式により近似される。
これを簡約して次式の如く表すことができる。
なぜならば、Pの列が正規直交であることは、PTPが恒等式であることを意味するからである。
図15のBは、推定反射率と本物のりんごからの標的反射率との類似性を示している。左側の本物のりんごは右側の偽物のりんごとはっきり区別され、画像に閾値を設定することによって左側の本物のりんごを選択することができる。りんごの表面からの鏡面反射は、りんごの反射率による調整を行わない場合には光源のスペクトル形状を有するので、検出されない。反射光の輝度の大きな変化にもかかわらず、距離指標はりんごの曲面の全域で比較的均一な値を生じさせることに留意されたい。
結論
ローカル・線形・学習型(L3)アルゴリズムは、トレーニングデータをクラスタリングする方法を学習し、全トレーニングデータにわたって各クラスタに対して推定値の誤差を最小限に抑える線形フィルタを獲得する。この方法は、高速で、ノイズに対してロバストで、データセットの個々の項目に適合し、かつ様々な問題に一般化されるという利点を有する。
L3パイプラインは、カメラセンサから得られたノイズを含む画像を任意のCFAデザインにより処理しかつ、同時にデモザイク、ノイズ除去及び色変換を行うことにより、任意の出力色空間内で高品質画像を推定することができる。センサ画像から得られたパッチは、フラット領域に属するかテクスチャ領域に属するかに分類される。テクスチャパッチは、正準(カノニカル)形式になるように方向付けされるが、さらに分割されることもある。その後、パッチのクラスタ及びシーンの輝度に基づき事前に計算されたウィーナーフィルタを適用することによって、パッチの中央における出力推定値が得られる。ウィーナーフィルタは、信号を維持しつつノイズを低減するように最適化される。L3パイプラインが光源補正及びぼけ修正を自動的に行う能力については、本明細書に示した。
L3パイプラインは、種々の新たなCFAデザインの使用を可能にする。最近のセンサのピクセル数は膨大であるので、新たなCFAは有望な技術である。具体例には、低照度撮像のための白ピクセルを有するCFAと、1枚の写真からマルチスペクトルイメージングを行うための6チャンネルCFAとが含まれる。カメラのシミュレーションを行うためのソフトウェアとともに、L3パイプラインにより、設計者は、新たなCFAデザインを迅速にテストし、改善することができる。さらには、特定用途向け装置の被写対象シーンの持つ特定の性質を活用し得るような、特定用途向けセンサ及び処理パイプラインを設計できる可能性もある。
既知の光源があると仮定し、光のいくつかの測定値を所与として、反射率を推定するためにL3アプローチを適用することもできる。L3推定量はほぼ最適な性能を有するが、それは、データセットにおけるノイズの量及び反射率のばらつきによって制限される。種々の特定用途によく使われる低ノイズ、制約付きデータセットに対して、L3アルゴリズムは、グローバル線形推定量よりも大幅な改善を示し、さらには計算を高速にする。推定値を求めるとき、グローバルウィーナーフィルタ及びL3アルゴリズムはともにノイズを考慮するが、それは、互いに重なり合う分光感度を有する測定値に重要である。
L3パイプラインの拡張
L3パイプラインから得られる画像は、通常、高品質の画像であるが、ノイズを含むシーンに関して当該画像の視覚的訴求を後処理により向上させることができる。目下のところ、各ピクセルに対する出力値は、MSEまたはPSNRを最大にすることを目的として、独立して推定される。この方法は、パイプラインが最小限の計算要件を有すること及び並列処理され得ることを確実にする。フラット領域内において推定された値をさらに平滑化する後処理ステップは、PSNRを低下させることができるが、テクスチャがほとんどないはずの領域内に尚も存在するノイズを取り除くことによって、画像を人間の視覚系にとってより好ましいものにする。
以下は、L3パイプラインの適用可能性であり、パッチクラスタリング及び/または所望の出力画像をデザインし直すことによって実現することができる。
・デッドピクセル補正−パッチの中央ピクセルにおける測定値が全体色推定値と大きく異なるか否かをチェックすることによって、デッドピクセルを検出するようにクラスタリングする。クラスタのフィルタは、デッドピクセルの測定値を用いることなく推定するように特に最適化されることになる。
・ピクセル飽和への適合−或るピクセルが過剰な光への露光により飽和すると、上記測定値は役に立たない。同色の隣接ピクセル群も恐らく同様に飽和するであろう。チャンネルの飽和の検出と、飽和ピクセルからの測定値を用いない推定とを行うクラスタを作ることができる。
・スペクトル推定の改善−現在、パッチ内の全体色は、一般的な画像処理に役立たないので、クラスタリング時に無視される。より多くの特定の用途から得られるデータセットでは、色は非常に重要であり得る。クラスタリングは全体色に基づいて行うことができるので、クラスタには同系色のパッチのみが含まれる。パッチの全体色が或るデータセットについての空間的特徴部と強い相関関係を有する場合、推定を著しく改善させることができる。
・ハイダイナミックレンジのイメージング−現在は、平均シーン輝度に基づいて画像が処理される。これにより、高照度及び低照度の画像をうまく処理することができるが、高照度領域及び低照度領域の両方を持つ画像に関しては処理が不十分である。代わりに、ローカル光レベルに基づいて画像処理を行うことができ、それにより、ハイダイナミックレンジのシーンの処理を改善させることができる。
・光学補正−画像処理時に光学系を考慮することによって、優れた光学素子を用いてキャプチャされた画像へのトレーニングを行うことによる収差の補正が可能である。レンズ収差に起因して様々な幾何学的誤差または色の誤差が存在し得る画像の様々な空間部分に対して、クラスタをデザインすることができる。
・物体(オブジェクト)の分類または検出−サポートベクターマシンを用いるなどして、様々な着目物体を分類せんがために、CFA空間内においてラベル付けされたトレーニングデータをクラスタリングする。或るテストパッチが特定の着目物体に属する尤度は、当該物体から得られる同じクラスタ内のトレーニングデータの割合によって予測される。これにより、センサの生データよりも大きいが追加情報を含まない推定出力画像の代わりに、センサの生データに基づいて、分類及び識別を行うことができる。
・肌を用いた光源推定−肌の反射率の分布形状は、人によるばらつきが比較的小さい。顔の自動検出により、肌から反射された光を測定することができる。その後、肌領域の色度を用い、ラベル付けされたトレーニングデータを活用することによって、シーンの最も可能性の高い光源を推定することができる。
・複数の画像からの推定−カメラが自動的に複数の画像を高速連続撮影し、その後、該画像は1つの画像になるように処理される。そのような複数の画像の例には、SNRを向上させるために同一の設定値で撮影された複数の画像、ハイダイナミックレンジの画像処理のために複数のシャッター速度で撮影された複数の画像、全てのフォーカスイメージングのために複数のフォーカス点で撮影された複数の画像が含まれる。これらの画像の各々から得られた測定値を含めることによってパッチを3次元に拡張することが必要であろう。
・ユーザ定義カスタム処理−カメラユーザが写真を編集する方法を観察することによって、同様の調整を自動的に行うように処理パイプラインを調整することができる。例えば、空の色が常に飽和している場合、または赤目が常に修正される場合などに、関連パッチについてクラスタに学習させることができる。クラスタについてのフィルタの最適化は、ユーザが行った調整を用いて行うことができる。
・デッドピクセル補正−パッチの中央ピクセルにおける測定値が全体色推定値と大きく異なるか否かをチェックすることによって、デッドピクセルを検出するようにクラスタリングする。クラスタのフィルタは、デッドピクセルの測定値を用いることなく推定するように特に最適化されることになる。
・ピクセル飽和への適合−或るピクセルが過剰な光への露光により飽和すると、上記測定値は役に立たない。同色の隣接ピクセル群も恐らく同様に飽和するであろう。チャンネルの飽和の検出と、飽和ピクセルからの測定値を用いない推定とを行うクラスタを作ることができる。
・スペクトル推定の改善−現在、パッチ内の全体色は、一般的な画像処理に役立たないので、クラスタリング時に無視される。より多くの特定の用途から得られるデータセットでは、色は非常に重要であり得る。クラスタリングは全体色に基づいて行うことができるので、クラスタには同系色のパッチのみが含まれる。パッチの全体色が或るデータセットについての空間的特徴部と強い相関関係を有する場合、推定を著しく改善させることができる。
・ハイダイナミックレンジのイメージング−現在は、平均シーン輝度に基づいて画像が処理される。これにより、高照度及び低照度の画像をうまく処理することができるが、高照度領域及び低照度領域の両方を持つ画像に関しては処理が不十分である。代わりに、ローカル光レベルに基づいて画像処理を行うことができ、それにより、ハイダイナミックレンジのシーンの処理を改善させることができる。
・光学補正−画像処理時に光学系を考慮することによって、優れた光学素子を用いてキャプチャされた画像へのトレーニングを行うことによる収差の補正が可能である。レンズ収差に起因して様々な幾何学的誤差または色の誤差が存在し得る画像の様々な空間部分に対して、クラスタをデザインすることができる。
・物体(オブジェクト)の分類または検出−サポートベクターマシンを用いるなどして、様々な着目物体を分類せんがために、CFA空間内においてラベル付けされたトレーニングデータをクラスタリングする。或るテストパッチが特定の着目物体に属する尤度は、当該物体から得られる同じクラスタ内のトレーニングデータの割合によって予測される。これにより、センサの生データよりも大きいが追加情報を含まない推定出力画像の代わりに、センサの生データに基づいて、分類及び識別を行うことができる。
・肌を用いた光源推定−肌の反射率の分布形状は、人によるばらつきが比較的小さい。顔の自動検出により、肌から反射された光を測定することができる。その後、肌領域の色度を用い、ラベル付けされたトレーニングデータを活用することによって、シーンの最も可能性の高い光源を推定することができる。
・複数の画像からの推定−カメラが自動的に複数の画像を高速連続撮影し、その後、該画像は1つの画像になるように処理される。そのような複数の画像の例には、SNRを向上させるために同一の設定値で撮影された複数の画像、ハイダイナミックレンジの画像処理のために複数のシャッター速度で撮影された複数の画像、全てのフォーカスイメージングのために複数のフォーカス点で撮影された複数の画像が含まれる。これらの画像の各々から得られた測定値を含めることによってパッチを3次元に拡張することが必要であろう。
・ユーザ定義カスタム処理−カメラユーザが写真を編集する方法を観察することによって、同様の調整を自動的に行うように処理パイプラインを調整することができる。例えば、空の色が常に飽和している場合、または赤目が常に修正される場合などに、関連パッチについてクラスタに学習させることができる。クラスタについてのフィルタの最適化は、ユーザが行った調整を用いて行うことができる。
付記A
テクスチャパッチのクラスタリング
1つのテクスチャクラスタを用いる場合には、エッジが直線的か曲線的か、シャープかソフトか、あるいはテクスチャに任意の特定のエッジが含まれないかを判定することは不可能である。テクスチャパッチをさらに分割し、各クラスタについての最適フィルタを学習することによって、L3パイプラインは、センサ画像中の特定の特徴部に対して、より適応できるようになる。例えば、コーナ(角隅)専用のクラスタにより、コーナを検出しかつ、フィルタを、推定画像においてコーナを生成するように最適化することができる。例えば結論の節において言及されているような特定のタスクに合わせたクラスタリングの調整によって、多様な応用が可能になるが、この節で説明するクラスタリングは、現在のシミュレーションセットアップについての推定精度の向上を可能にする。
クラスタリングプロセスにとって重要な要件は数多くある。先ず、信頼できる推定値を与えることができる1つの線形フィルタが存在し得るように、クラスタ内の全てのパッチは互いに十分に類似していなくてはならない。当然ながら、これはクラスタリングのための十分な要件ではない。というのも、そのような要件は、フィルタリングが非常に適応的であるように膨大な数のクラスタを有することによって満たされるからである。しかし、データの過学習を避けるために、トレーニングデータの必要量は、クラスタの数に対応する。また、クラスタ数を制限しようとする試みにより、メモリ及び計算要件が適度な水準に保たれる。クラスタ数が少ないほど、ノイズに起因するパッチのクラスタの誤認リスクは低い。最後に、パッチのクラスタを識別する手順は、全てのテクスチャパッチ上で行われるので、計算を最小限にする必要がある。
計算を最小限にするために、トップダウンの階層的クラスタリング法を用いることができる。最初は、全ての方向付けされた残存テクスチャパッチが1つのクラスタ内にある。その後、この1つのクラスタを、2つのほぼ等しいサイズのクラスタに分割する。望ましい数のクラスタが得られるまで分割を続ける。簡単にするために、ツリーの全ての枝は同じレベルで終わるが、大きな誤差を有するクラスタのみをさらに分割することが有利であろう。
このツリー法の利点は、t個の分岐決定しか要しないことによって2t個の可能な葉クラスタからパッチのクラスタを識別し得ることである。1つの葉に到達するのに必要な分岐決定の数は、ツリー高さと呼ばれる。高速化及び簡素化のために、分岐操作をパッチと所定のフィルタ(テクスチャ分岐フィルタと呼ぶ)の内積の計算に制限する。内積を所定の閾値(テクスチャ分岐閾値と呼ぶ)と比較することによって、パッチは、2つのより小さなクラスタの一方に分類される。
2つのより小さなクラスタの各々においてパッチ間のばらつきを減らすために、テクスチャ分岐フィルタは、クラスタ内のパッチ群の第1PCAベクトルである。第1PCAベクトルは、パッチのばらつきが最大の方向を指すベクトルである。結果として得られる2つのクラスタは各々、この方向において親クラスタよりもばらつきが小さい。また、PCAが2つのクラスタを対象とするK平均(K-means)クラスタのためのクラスタ代入ベクトルの連続解であるという事実によっても、PCAを用いる動機が与えられる。2つのクラスタ間の境界付近の点はノイズのせいで誤って分類される恐れがあるので、K平均クラスタリングのこの連続的なばらつきは、ここでは、より適切であろう。被選択テクスチャ分岐閾値は、元のクラスタに含まれる全てのパッチの第1PCA成分の平均値である。これにより、2つのより小さなクラスタでパッチの数が互いにほぼ等しくなる。
本発明の種々の実施形態は、画像処理装置、画像を学習及び/または処理するための画像処理方法またはシステムの一部として実施することができる。本発明の方法は、コンピュータプロセッサまたは装置によって実行可能なコンピュータ実装モジュールとして実装することができる。本発明の方法は、機械可読媒体に、または実行可能なコードとして記憶媒体に格納することもできる。本発明のいくつかの態様は、コンピュータチップ上でプログラミングされるかまたは格納され、コンピュータハードウェアによって実行可能であってもよい。
Claims (20)
- 入力画像を処理して出力画像を生成するための画像処理装置であって、
(a)色フィルタアレイ(CFA)モザイク構造を有する入力画像を読み取るための画像入力装置と、
(b)前記入力画像の画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルの隣接ピクセル群について各々定義された一連の学習回帰係数を格納するための記憶装置と、
(c)前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
(i)前記入力画像の前記各画像ピクセルの前記隣接ピクセル群を取得し、
(ii)前記色フィルタアレイモザイク構造における前記画像ピクセルの位置及び、前記入力画像の前記隣接ピクセル群を用いた計算に基づいて、前記記憶装置に格納されている前記一連の学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
(iii)前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記画像ピクセルに対して適用し、
それにより、前記出力画像が、ピクセル毎に、前記入力画像の色バンドと数または分光感度が互いに異なるかまたは同一の、特定の数の色バンドについての値を有するようにしたことを特徴とする装置。 - 請求項1に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。 - 請求項2に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。 - 請求項1に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。 - 請求項1に記載の画像処理装置であって、
前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含むことを特徴とする装置。 - 請求項5に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び/またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。 - 請求項1に記載の画像処理装置であって、
前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定されることを特徴とする装置。 - 入力画像を処理して出力画像を生成するための画像処理装置であって、
(a)色フィルタアレイ(CFA)モザイク構造を有する入力画像を読み取るための画像入力装置と、
(b)前記入力画像の画像ピクセルの出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルの第1の隣接ピクセル群に対して各々定義された一連の学習回帰係数を格納するための記憶装置と、
(c)前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
(i)一連の予め定義されたグローバルフィルタを前記入力画像に対して適用し、
(ii)前記入力画像の前記各画像ピクセルの前記第1の隣接ピクセル群を取得し、
(iii)前記色フィルタアレイモザイク構造における前記画像ピクセルの位置及び、前記グローバルフィルタを適用することによって得られた第2の隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の前記学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
(iv)前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用し、
それにより、前記出力画像が、ピクセル毎に、前記入力画像の色バンドと数または分光感度が互いに異なるかまたは同一の、特定の数の色バンドについての値を有するようにしたことを特徴とする装置。 - 請求項8に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。 - 請求項8に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。 - 請求項8に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記第1の隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。 - 請求項8に記載の画像処理装置であって、
前記ピクセル処理モジュールが、前記予め定義された推定関数を適用する前に前記入力画像の前記第1の隣接ピクセル群を前記入力画像の前記各画像ピクセルの値に基づいて並べ替えるための並べ替えモジュールを含むことを特徴とする装置。 - 請求項12に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記各画像ピクセルの値の回転及び/またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。 - 請求項8に記載の画像処理装置であって、
前記予め定義されたグローバルフィルタが、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算に基づいて適用されることを特徴とする装置。 - 入力画像を処理して出力画像を生成するための画像処理装置であって、
(a)入力画像を読み取るための画像入力装置と、
(b)前記入力画像の画像ピクセルにおける出力色バンドを推定するための予め定義された推定関数に用いられ、かつ前記各画像ピクセルについての隣接ピクセル群について各々定義された一連の学習回帰係数を格納するための記憶装置と、
(c)前記入力画像の前記各画像ピクセルを処理するためのピクセル処理モジュールとを含み、
前記ピクセル処理モジュールが、前記入力画像を処理して出力画像を生成すべく、
前記入力画像の前記各画像ピクセルの前記隣接ピクセル群を取得し、
(i)前記隣接ピクセル群を並び替え、
(ii)前記並び替えられた隣接ピクセル群に基づいて、前記記憶装置に格納されている前記一連の前記学習回帰係数から前記推定関数に用いられる学習回帰係数を選択し、
(iii)前記選択された学習回帰係数及び前記予め定義された推定関数を前記入力画像の前記各画像ピクセルに対して適用し、
それにより、前記推定された前記出力画像ピクセルの色バンドが、前記入力画像の前記色バンドと数または分光感度が互いに異なるかまたは同一になるようにしたことを特徴とする装置。 - 請求項15に記載の画像処理装置であって、
前記学習回帰係数が、入力画像及び所望の出力画像からなる対を含むトレーニング画像セットを使用する学習回帰法を含む学習プロセスを用いて取得されることを特徴とする装置。 - 請求項15に記載の画像処理装置であって、
前記学習回帰係数が、ウィーナーフィルタを用いて取得されることを特徴とする装置。 - 請求項15に記載の画像処理装置であって、
前記推定関数が線形関数であり、
前記学習回帰係数が、前記入力画像の前記各画像ピクセルの前記隣接ピクセル群の各々についての最適な畳み込みフィルタに相当することを特徴とする装置。 - 請求項15に記載の画像処理装置であって、
前記並べ替えモジュールが、前記入力画像の前記画像ピクセルの値の回転及び/またはミラーリングを実施するためのモジュールを含むことを特徴とする装置。 - 請求項15に記載の画像処理装置であって、
前記学習回帰係数の前記選択が、輝度、ノイズレベル、収差度、画像中の位置、飽和量、誤りピクセルの存在、コントラスト量、各色バンドの平均値、またはそれらの任意の組合せの計算により決定されることを特徴とする装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161492326P | 2011-06-01 | 2011-06-01 | |
US61/492,326 | 2011-06-01 | ||
PCT/US2012/040075 WO2012166840A2 (en) | 2011-06-01 | 2012-05-31 | Learning of image processing pipeline for digital imaging devices |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014515587A true JP2014515587A (ja) | 2014-06-30 |
Family
ID=47260297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014513674A Pending JP2014515587A (ja) | 2011-06-01 | 2012-05-31 | デジタル画像装置用の画像処理パイプラインの学習 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8675105B2 (ja) |
JP (1) | JP2014515587A (ja) |
WO (1) | WO2012166840A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526910A (ja) * | 2014-07-24 | 2017-09-14 | エコール・ポリテクニーク・フェデラル・ドゥ・ローザンヌ (ウ・ペ・エフ・エル)Ecole Polytechnique Federale De Lausanne (Epfl) | 撮像分光法用のコンパクトな多機能システム |
JP2020030569A (ja) * | 2018-08-22 | 2020-02-27 | キヤノン株式会社 | 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体 |
WO2021166450A1 (ja) * | 2020-02-19 | 2021-08-26 | ソニーグループ株式会社 | 画像処理方法、センサ装置 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8520956B2 (en) * | 2009-06-09 | 2013-08-27 | Colorado State University Research Foundation | Optimized correlation filters for signal processing |
JP5665508B2 (ja) * | 2010-11-30 | 2015-02-04 | キヤノン株式会社 | 画像処理装置及び方法、並びにプログラム及び記憶媒体 |
US9286547B2 (en) * | 2011-06-26 | 2016-03-15 | UNIVERSITé LAVAL | Quality control and assurance of images |
US9326008B2 (en) | 2012-04-10 | 2016-04-26 | Google Inc. | Noise reduction for image sequences |
US9117262B2 (en) * | 2012-11-30 | 2015-08-25 | Adobe Systems Incorporated | Learned piece-wise patch regression for image enhancement |
US9122960B2 (en) * | 2012-11-30 | 2015-09-01 | Adobe Systems Incorporated | Patch size adaptation for image enhancement |
JP2014126903A (ja) * | 2012-12-25 | 2014-07-07 | Toshiba Corp | 画像処理装置および画像処理方法、ならびに、プログラム |
US9047658B2 (en) * | 2013-11-05 | 2015-06-02 | United Microelectronics Corp. | Method of optical proximity correction |
US9430817B2 (en) * | 2013-11-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Blind image deblurring with cascade architecture |
US9159121B2 (en) * | 2014-02-18 | 2015-10-13 | Signal Processing, Inc. | Method for image denoising |
US9342869B2 (en) * | 2014-04-29 | 2016-05-17 | Adobe Systems Incorporated | Discriminative indexing for patch-based image enhancement |
US9336570B2 (en) * | 2014-05-15 | 2016-05-10 | The United States Of America, As Represented By The Secretary Of The Navy | Demosaicking system and method for color array based multi-spectral sensors |
US9767540B2 (en) | 2014-05-16 | 2017-09-19 | Adobe Systems Incorporated | Patch partitions and image processing |
US9383548B2 (en) | 2014-06-11 | 2016-07-05 | Olympus Corporation | Image sensor for depth estimation |
US10043101B2 (en) * | 2014-11-07 | 2018-08-07 | Adobe Systems Incorporated | Local feature representation for image recognition |
EP3035220A1 (de) * | 2014-12-17 | 2016-06-22 | Siemens Healthcare GmbH | Verfahren und System zur gemeinsamen Auswertung eines medizinischen Bilddatensatzes |
WO2017066825A1 (en) * | 2015-10-19 | 2017-04-27 | National Ict Australia Limited | Spectral reconstruction |
US9996902B2 (en) | 2016-01-19 | 2018-06-12 | Google Llc | Image upscaling |
WO2017215767A1 (en) * | 2016-06-17 | 2017-12-21 | Huawei Technologies Co., Ltd. | Exposure-related intensity transformation |
US9911201B2 (en) * | 2016-06-23 | 2018-03-06 | Adobe Systems Incorporated | Imaging process initialization techniques |
CN108419062B (zh) * | 2017-02-10 | 2020-10-02 | 杭州海康威视数字技术股份有限公司 | 图像融合设备和图像融合方法 |
US10438322B2 (en) | 2017-05-26 | 2019-10-08 | Microsoft Technology Licensing, Llc | Image resolution enhancement |
US10713537B2 (en) * | 2017-07-01 | 2020-07-14 | Algolux Inc. | Method and apparatus for joint image processing and perception |
GB2568038B (en) | 2017-10-30 | 2020-12-02 | Imagination Tech Ltd | Systems and methods for processing a stream of data values |
GB2567881B (en) * | 2017-10-30 | 2021-02-10 | Imagination Tech Ltd | Systems and methods for processing a stream of data values |
GB2567882B (en) * | 2017-10-30 | 2020-09-16 | Imagination Tech Ltd | Systems and methods for processing a stream of data values |
US20190139189A1 (en) * | 2017-11-06 | 2019-05-09 | Qualcomm Incorporated | Image remosaicing |
CN109171670B (zh) * | 2018-06-25 | 2021-02-05 | 天津海仁医疗技术有限公司 | 一种基于逆向主成分分析法的3d血管成像算法 |
WO2020033524A1 (en) * | 2018-08-07 | 2020-02-13 | BlinkAI Technologies, Inc. | Artificial intelligence techniques for image enhancement |
WO2020041610A1 (en) | 2018-08-23 | 2020-02-27 | Walmart Apollo, Llc | System and method for automated electronic catalogue management and electronic image quality assessment |
US11853812B2 (en) | 2018-12-20 | 2023-12-26 | Here Global B.V. | Single component data processing system and method utilizing a trained neural network |
US10785419B2 (en) * | 2019-01-25 | 2020-09-22 | Pixart Imaging Inc. | Light sensor chip, image processing device and operating method thereof |
EP3709623A1 (en) * | 2019-03-15 | 2020-09-16 | Aptiv Technologies Limited | Method for simulating a digital imaging device |
WO2020231016A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Image optimization method, apparatus, device and storage medium |
JP7242882B2 (ja) * | 2019-09-27 | 2023-03-20 | 富士フイルム株式会社 | 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム |
CN113256733B (zh) * | 2021-05-14 | 2022-05-20 | 四川大学 | 基于置信度投票卷积神经网络的相机光谱灵敏度重建方法 |
CN114863424A (zh) * | 2022-05-07 | 2022-08-05 | 天津优海云图科技有限公司 | 一种用于方便面瑕疵检测的分类数据集构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000308079A (ja) * | 1999-02-19 | 2000-11-02 | Sony Corp | 画像信号処理装置、画像信号処理方法、学習装置、学習方法及び記録媒体 |
JP2004536518A (ja) * | 2001-03-21 | 2004-12-02 | ヒューレット・パッカード・カンパニー | デモザイク処理プロセスにおけるバイラテラルフィルタリング |
JP2005151549A (ja) * | 2003-10-23 | 2005-06-09 | Sony Corp | 画像処理装置および画像処理方法、並びに、プログラム |
JP2007306477A (ja) * | 2006-05-15 | 2007-11-22 | Sony Corp | 撮像装置および方法、並びに撮像素子 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072508B2 (en) * | 2001-01-10 | 2006-07-04 | Xerox Corporation | Document optimized reconstruction of color filter array images |
US7079705B2 (en) * | 2002-10-30 | 2006-07-18 | Agilent Technologies, Inc. | Color interpolation for image sensors using a local linear regression method |
KR101081000B1 (ko) * | 2003-10-23 | 2011-11-09 | 소니 가부시키가이샤 | 화상 처리 장치 및 화상 처리 방법과 기록 매체 |
US8184905B2 (en) * | 2005-12-29 | 2012-05-22 | Mtekvision Co., Ltd. | Apparatus for color interpolation using adjustable threshold |
US7675551B1 (en) * | 2006-05-22 | 2010-03-09 | Texas Instruments Incorporated | Method and apparatus obtaining color values for a digital camera |
JP5476879B2 (ja) | 2008-09-29 | 2014-04-23 | ソニー株式会社 | 画像処理装置および係数学習装置。 |
US8442309B2 (en) * | 2009-06-04 | 2013-05-14 | Honda Motor Co., Ltd. | Semantic scene segmentation using random multinomial logit (RML) |
-
2012
- 2012-05-31 JP JP2014513674A patent/JP2014515587A/ja active Pending
- 2012-05-31 WO PCT/US2012/040075 patent/WO2012166840A2/en active Application Filing
- 2012-06-01 US US13/486,925 patent/US8675105B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000308079A (ja) * | 1999-02-19 | 2000-11-02 | Sony Corp | 画像信号処理装置、画像信号処理方法、学習装置、学習方法及び記録媒体 |
JP2004536518A (ja) * | 2001-03-21 | 2004-12-02 | ヒューレット・パッカード・カンパニー | デモザイク処理プロセスにおけるバイラテラルフィルタリング |
JP2005151549A (ja) * | 2003-10-23 | 2005-06-09 | Sony Corp | 画像処理装置および画像処理方法、並びに、プログラム |
JP2007306477A (ja) * | 2006-05-15 | 2007-11-22 | Sony Corp | 撮像装置および方法、並びに撮像素子 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526910A (ja) * | 2014-07-24 | 2017-09-14 | エコール・ポリテクニーク・フェデラル・ドゥ・ローザンヌ (ウ・ペ・エフ・エル)Ecole Polytechnique Federale De Lausanne (Epfl) | 撮像分光法用のコンパクトな多機能システム |
JP2020030569A (ja) * | 2018-08-22 | 2020-02-27 | キヤノン株式会社 | 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体 |
JP7191588B2 (ja) | 2018-08-22 | 2022-12-19 | キヤノン株式会社 | 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体 |
WO2021166450A1 (ja) * | 2020-02-19 | 2021-08-26 | ソニーグループ株式会社 | 画像処理方法、センサ装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2012166840A2 (en) | 2012-12-06 |
WO2012166840A3 (en) | 2013-03-28 |
US20120307116A1 (en) | 2012-12-06 |
US8675105B2 (en) | 2014-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014515587A (ja) | デジタル画像装置用の画像処理パイプラインの学習 | |
US10498941B2 (en) | Sensor-synchronized spectrally-structured-light imaging | |
CN109614996B (zh) | 基于生成对抗网络的弱可见光与红外图像融合的识别方法 | |
US10237527B2 (en) | Convolutional color correction in digital images | |
US10113910B2 (en) | Sensor-synchronized spectrally-structured-light imaging | |
Krig | Computer vision metrics | |
US8548257B2 (en) | Distinguishing between faces and non-faces | |
WO2015077493A1 (en) | Sensor-synchronized spectrally-structured-light imaging | |
Hu et al. | Convolutional sparse coding for RGB+ NIR imaging | |
Liu et al. | Survey of natural image enhancement techniques: Classification, evaluation, challenges, and perspectives | |
US8503734B2 (en) | Detecting image detail level | |
Pouli et al. | Image statistics in visual computing | |
Iwasokun et al. | Image enhancement methods: a review | |
US9418434B2 (en) | Method for detecting 3D geometric boundaries in images of scenes subject to varying lighting | |
Robles-Kelly et al. | A convolutional neural network for pixelwise illuminant recovery in colour and spectral images | |
Lecca et al. | An image contrast measure based on Retinex principles | |
US20140300599A1 (en) | Method for Factorizing Images of a Scene into Basis Images | |
Kınlı et al. | Modeling the lighting in scenes as style for auto white-balance correction | |
Lansel | Local linear learned method for image and reflectance estimation | |
Li et al. | Illumination processing in face recognition | |
Llanos et al. | Simultaneous demosaicing and chromatic aberration correction through spectral reconstruction | |
CN108986052B (zh) | 一种自适应的图像去光照方法和*** | |
CN114757892B (zh) | 基于人工智能的透视材料缺陷检测方法与*** | |
Reinhard et al. | Image statistics: from data collection to applications in graphics | |
Monakhova | Physics-Informed Machine Learning for Computational Imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160607 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170110 |