JP7362284B2

JP7362284B2 - 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法

Info

Publication number: JP7362284B2
Application number: JP2019067279A
Authority: JP
Inventors: 法人日浅
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-10-17
Anticipated expiration: 2039-03-29
Also published as: EP3716146A1; JP2020166628A; US11600025B2; US20200311981A1; CN111753869A

Description

本発明は、ニューラルネットワークの推定精度の低下を抑制することが可能な画像処理方法に関する。

特許文献１には、ニューラルネットワークを用いて、画像中における認識対象の位置を高精度に判定する方法が開示されている。

特開２０１６－１１０２３２号公報

Ｏ．Ｒｏｎｎｅｂｅｒｇｅｒ，Ｐ．Ｆｉｓｃｈｅｒ，ａｎｄＴ．Ｂｒｏｘ， "Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ，" ｉｎＭＩＣＣＡＩ，２０１５．

しかし、特許文献１で開示されている方法では、画像中に輝度飽和領域または黒潰れ領域が存在する場合、判定の精度が低下する。撮像素子のダイナミックレンジや撮像時の露出によって、画像中には輝度飽和領域または黒潰れ領域が発生し得る。輝度飽和領域または黒潰れ領域においては、被写体空間の構造に関する情報を取得することができず、また領域の境界部に本来は存在しない偽エッジが出現することもある。これらの影響のため、被写体本来とは異なる特徴量が抽出され、推定精度の低下を招く。

そこで本発明は、輝度飽和や黒潰れが発生している場合でも、ニューラルネットワークの推定精度の低下を抑制することが可能な画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法を提供することを目的とする。

本発明の一側面としての画像処理方法は、入力画像の信号値と該信号値の閾値とに基づくマップを取得する工程と、前記入力画像と前記マップとを含む入力データをニューラルネットワークに入力することで、認識または回帰のタスクを実行する工程とを有し、前記マップは、前記入力画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップである。

本発明の他の側面としての学習済みモデルの製造方法は、訓練画像と、該訓練画像の信号値と該信号値の閾値とに基づくマップと、正解データとを取得する工程と、前記訓練画像と前記マップとを含む入力データと、前記正解データとを用いて、認識または回帰のタスクを実行するためのニューラルネットワークの学習を行う工程とを有し、前記マップは、前記訓練画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップである。

本発明の他の側面としての画像処理装置は、入力画像の信号値と該信号値の閾値とに基づくマップを取得する取得手段と、前記入力画像と前記マップとを含む入力データをニューラルネットワークに入力することで、認識または回帰のタスクを実行する処理手段とを有し、前記マップは、前記入力画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップである。

本発明の他の側面としての画像処理装置は、訓練画像と、該訓練画像の信号値と該信号値の閾値とに基づくマップと、正解データとを取得する取得手段と、前記訓練画像と前記マップとを含む入力データと、前記正解データとを用いて、認識または回帰のタスクを実行するためのニューラルネットワークの学習を行う学習手段とを有し、前記マップは、前記訓練画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップである。

本発明の他の側面としての撮像装置は、被写体空間を撮像して撮像画像を取得する撮像手段と、前記画像処理装置とを有する。

本発明の他の側面としてのプログラムは、前記画像処理方法をコンピュータに実行させる。

本発明の他の側面としての画像処理システムは、第１の装置と、前記第１の装置と通信可能な第２の装置を含む画像処理システムであって、前記第１の装置は、撮像画像に対する処理を前記第２の装置に実行させるための要求を送信する送信手段を有し、前記第２の装置は、前記送信手段によって送信された前記要求を受信する受信手段と、前記撮像画像の信号値と該信号値の閾値とに基づく前記撮像画像のダイナミックレンジ外マップを取得する取得手段と、前記撮像画像と前記ダイナミックレンジ外マップとを含む入力データをニューラルネットワークへ入力し、認識または回帰のタスクを実行する処理手段と、前記タスクの結果を送信する送信手段とを有する。

本発明の他の側面としての学習済みモデルの製造方法は、訓練画像と、前記訓練画像の信号値と該信号値の閾値とに基づく前記訓練画像のダイナミックレンジ外マップと、正解データとを取得する工程と、前記訓練画像と前記ダイナミックレンジ外マップとを含む入力データと、前記正解データとを用いて、認識または回帰のタスクを実行するためのニューラルネットワークを学習する工程とを有する。

本発明の他の目的及び特徴は、以下の実施形態において説明される。

本発明によれば、輝度飽和や黒潰れが発生している場合でも、ニューラルネットワークの推定精度の低下を抑制することが可能な画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法を提供することができる。

実施例１におけるニューラルネットワークの構成を示す図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１におけるウエイトの学習に関するフローチャートである。実施例１における訓練画像と正解クラスマップの例を示す図である。実施例１における訓練画像の輝度飽和領域とダイナミックレンジ外マップの例を示す図である。実施例１における推定クラスマップの生成に関するフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２におけるウエイトの学習に関するフローチャートである。実施例２における訓練画像の輝度飽和および黒潰れ領域と、ダイナミックレンジ外マップの例を示す図である。実施例２における訓練画像の４チャンネル化を示す図である。実施例２におけるニューラルネットワークの構成を示す図である。実施例２における加重平均画像の生成に関するフローチャートである。実施例３における画像処理システムのブロック図である。実施例３における出力画像の生成に関するフローチャートである。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

実施例の具体的な説明を行う前に、本発明の要旨を説明する。本発明は、ニューラルネットワークを用いた認識または回帰のタスクにおいて、画像中の輝度飽和や黒潰れによる推定精度の低下を抑制する。ここで、ニューラルネットワークに入力される入力データをｘ（ｄ次元のベクトル。ｄは自然数）とする。認識とは、ベクトルｘに対応するクラスｙを求めるタスクである。例えば、画像中の被写体を人、犬、車などに分類するタスクや、顔画像から笑顔、泣き顔などの表情を認識するタスクなど、被写体の性質や意味を認識するタスクが挙げられる。クラスｙは一般に離散変数であり、セグメンテーションマップの生成などではベクトルにもなり得る。これに対して回帰は、ベクトルｘに対応する連続変数ｙを求めるタスクである。例えば、ノイズのある画像からノイズのない画像を推定するタスクや、ダウンサンプリングされた画像からダウンサンプリング前の高解像な画像を推定するタスクなどが挙げられる。

前述したように、輝度飽和や黒潰れを起こした領域（輝度飽和領域または黒潰れ領域）では、被写体空間の構造に関する情報が失われ、各領域の境界で偽エッジが出現することもあり、被写体の正しい特徴量を抽出できない。このため、ニューラルネットワークの推定精度が低下する。本発明は、これを抑制するため、ニューラルネットワークの入力データとして、入力画像と入力画像に対応するダイナミックレンジ外マップを用いる。ダイナミックレンジ外マップとは、入力画像において輝度飽和領域または黒潰れ領域を表すマップである。ダイナミックレンジ外マップを入力することで、ニューラルネットワークが前述のような問題のある領域を特定できるため、推定精度の低下を抑制することができる。

なお以下では、ニューラルネットワークのウエイトを学習する段階のことを学習フェーズとし、学習済みのウエイトで認識または回帰を行う段階のことを推定フェーズとする。

まず、本発明の実施例１における画像処理システムに関して説明する。実施例１においてニューラルネットワークは、画像中の人領域を検出する認識タスク（人か否かのセグメンテーション）を実行する。ただし、これに限定されず、その他の認識または回帰タスクにも同様に適用が可能である。

図２は、本実施例における画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。図３には、撮像装置１０２の表裏の両方が示されている。画像処理システム１００は、学習装置１０１、撮像装置１０２、および、ネットワーク１０３を有する。学習装置１０１は、記憶部１１１、取得部（取得手段）１１２、検出部（学習手段）１１３、および、更新部（学習手段）１１４を有し、人領域の検出を行うニューラルネットワークのウエイトを学習する。この学習の詳細に関しては、後述する。学習装置１０１で学習されたウエイトの情報は、記憶部１１１に記憶される。撮像装置１０２は、撮像画像の取得とニューラルネットワークによる人領域の検出を実行する。

撮像装置１０２は、光学系１２１と撮像素子１２２を有する。光学系１２１は、被写体空間から撮像装置１０２へ入射した光を集光する。撮像素子１２２は、光学系１２１を介して形成された光学像（被写体像）を受光して（光電変換して）撮像画像を取得する。撮像素子１２２は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。

画像処理部１２３は、取得部（取得手段）１２３ａと検出部（処理手段）１２３ｂを有し、撮像画像の少なくとも一部を入力画像として、人領域の検出を実行する。この際、記憶部１２４に記憶されたウエイトの情報が用いられる。ウエイトの情報は、事前に有線または無線のネットワーク１０３を介して学習装置１０１から読み込んで、記憶部１２４に記憶されている。記憶されるウエイトの情報は、ウエイトの数値そのものでもよいし、符号化された形式でもよい。人領域の検出処理に関する詳細は後述する。画像処理部１２３は、検出した人領域に基づく処理を実行し、出力画像を生成する。例えば、人領域が適切な明るさになるように撮像画像の明るさ調整などを行う。出力画像は、記録媒体１２５に保存される。或いは、撮像画像をそのまま記録媒体１２５に保存し、その後、画像処理部１２３が記録媒体１２５から撮像画像を読み込んで、人領域の検出を行ってもよい。記録媒体１２５に保存された出力画像は、ユーザの指示に従って表示部１２６に表示される。一連の動作は、システムコントローラ１２７によって制御される。

次に、図４を参照して、本実施例における学習装置１０１で実行されるウエイトの学習（学習済みモデルの製造）に関して説明する。図４は、ウエイトの学習に関するフローチャートである。図４の各ステップは、主に、学習装置１０１の取得部１１２、検出部１１３、または、更新部１１４により実行される。

まずステップＳ１０１において、取得部１１２は、１組以上の訓練画像と正解クラスマップ（正解のセグメンテーションマップ、正解データとも言う）、及びダイナミックレンジ外マップを取得する。訓練画像は、ニューラルネットワークの学習フェーズにおける入力画像である。正解クラスマップは、訓練画像に対応する正解のセグメンテーションマップである。

図５は、訓練画像と正解クラスマップの例である。図６は、訓練画像の輝度飽和領域とダイナミックレンジ外マップの例を示す図である。図５（Ａ）は訓練画像の例を示し、図５（Ｂ）はそれに対応する正解クラスマップを示す。図５（Ｂ）中の白が人領域を表すクラスであり、黒がそれ以外の領域を表すクラスである。図５（Ａ）の訓練画像は、輝度飽和している領域が存在する。

図６（Ａ）は、輝度飽和領域を波線で描画した画像を示す。本実施例において、ダイナミックレンジ外マップは、訓練画像の各画素に対して輝度飽和が発生しているか否かを表すマップである。ただし本発明は、これに限定されるものではなく、黒潰れを表すマップでもよい。ダイナミックレンジ外マップは、訓練画像の各画素における信号値と、閾値である輝度飽和値とを比較し、信号値が輝度飽和値以上である場合にダイナミックレンジ外であるとして生成される。或いは、訓練画像に対して前記手法で予め生成されたダイナミックレンジ外マップを読み出して取得してもよい。

本実施例において、ダイナミックレンジ外マップは、図６（Ｂ）のような１か０か（輝度飽和しているか否かを示す情報、なお、数値の意味は逆でもよい）のバイナリマップである。バイナリマップは、データの容量を軽量にできる利点がある。ただし本発明は、これに限定されるものではなく、信号値が輝度飽和値にどの程度近いかを表すような、中間値を有するマップでもよい。推定フェーズで未知の撮像シーンの画像に対しても、安定して人領域を検出できるように、学習フェーズでは様々な撮像シーンの訓練画像を複数使用する。また、同一の撮像シーンでも、明るさを変更して複数の訓練画像としてもよい。なお、訓練画像は、推定フェーズの入力画像と同じ形式である。推定フェーズの入力画像が未現像のＲＡＷ画像であれば、訓練画像も同様に未現像のＲＡＷ画像である。推定フェーズの入力画像が現像後の画像であれば、訓練画像も同様である。また、訓練画像がＲＡＷ画像の場合、ホワイトバランスをかけてからダイナミックレンジ外マップを生成してもよい。なお、推定フェーズの入力画像と訓練画像の画素数は、必ずしも一致しなくてよい。

続いて、図４のステップＳ１０２において、検出部１１３は、訓練画像とダイナミックレンジ外マップをニューラルネットワークへ入力し、推定クラスマップを生成する。本実施例において、ニューラルネットワークは、図１に示されるＵ－Ｎｅｔ（詳細は非特許文献１を参照）を使用するが、これに限定されるものではない。入力データ２０１は、訓練画像とダイナミックレンジ外マップをチャンネル方向に連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）したデータである。連結順に制限はなく、その他のデータを途中に挟んでもよい。訓練画像は、ＲＧＢ（Ｒｅｄ，Ｇｒｅｅｎ，Ｂｌｕｅ）の複数チャンネルを有していてもよい。ダイナミックレンジ外マップは１チャンネルだけでも、訓練画像と同じチャンネル数を有していてもよい。１チャンネルの場合は、例えば色差を除いた輝度成分に対して輝度飽和の有無を表現したマップとなる。訓練画像とダイナミックレンジ外マップの１チャンネルあたりの画素数（要素数）は、同じである。ニューラルネットワークには輝度飽和を含む様々なシーンの訓練画像が入力されるが、入力データにダイナミックレンジ外マップを含めることで、訓練画像の輝度飽和領域をニューラルネットワークが特定できるため、推定精度の低下を抑制できる。

入力データは、必要に応じて正規化を行ってもよい。訓練画像がＲＡＷ画像の場合、撮像素子やＩＳＯ感度によって黒レベルが異なる場合があるため、訓練画像の信号値から黒レベルを減算した後、ニューラルネットワークへ入力する。正規化に関しても、黒レベルを減算してから行うことが望ましい。図１中のＣｏｎｖ．は１層以上の畳み込み層、ＭａｘＰｏｏｌは最大値プーリング、ＵｐＣｏｎｖ．はアップサンプリングを含む１層以上の畳み込み層、Ｃｏｎｃａｔ．はチャンネル方向の連結を表す。学習の初回において、各畳み込み層のフィルタのウエイトは乱数で決定する。訓練画像に対応したＵ－Ｎｅｔの出力である推定クラスマップ２０２が算出される。

また、入力画像またはダイナミックレンジ外マップの一方のみをニューラルネットワークの第１層に入力して少なくとも第１層を経た後の出力である特徴マップと第１層に入力されない他方をチャンネル方向に連結し、後続の層へ入力してもよい。また、ニューラルネットワークの入力部分を分岐させ、入力画像とダイナミックレンジ外マップをそれぞれ異なる層で特徴マップに変換し、それらの特徴マップを連結して後続の層へ入力してもよい。

続いて、図４のステップＳ１０３において、更新部１１４は、推定クラスマップと正解クラスマップから、ニューラルネットワークのウエイトを更新する。実施例１では、ロス関数として推定クラスマップと正解クラスマップのクロスエントロピーを使用するが、これに限定されるものではない。算出されたロス関数の値から、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによってウエイトの更新を行う。

続いて、図４のステップＳ１０４において、更新部１１４は、ウエイトの学習が完了したかを判定する。完了は、学習（ウエイトの更新）の反復回数が規定値に達したかや、更新時のウエイトの変化量が規定値より小さいかなどによって、判定することができる。未完と判定された場合はステップＳ１０１へ戻り、１組以上の新たな訓練画像、ダイナミックレンジ外マップ、正解クラスマップを取得する。完了と判定された場合は学習を終了し、ウエイトの情報を記憶部１１１に保存する。

次に、図７を参照して、本実施例における画像処理部１２３で実行される入力画像の人領域検出（推定クラスマップの生成、推定フェーズ）に関して説明する。図７は、推定クラスマップの生成に関するフローチャートである。図７の各ステップは、主に、画像処理部１２３の取得部１２３ａまたは検出部１２３ｂにより実行される。

まずステップＳ２０１において、取得部１２３ａは、入力画像と入力画像に対応する閾値（本実施例では輝度飽和値）を取得する。入力画像は、撮像素子１２２で撮像された撮像画像の少なくとも一部である。撮像素子１２２の輝度飽和値は、記憶部１２４に保存されており、その値を読み込んで取得する。続いてステップＳ２０２において、取得部１２３ａは、入力画像の各画素における信号値と閾値との比較に基づいて、ダイナミックレンジ外マップを生成する。続いてステップＳ２０３において、検出部１２３ｂは、入力画像とダイナミックレンジ外マップを入力データとして、ニューラルネットワークへ入力し、推定クラスマップを生成する。この際、図１のニューラルネットワークと学習フェーズで得られたウエイトが使用される。

本実施形態によれば、輝度飽和が発生している場合でも、高精度なセグメンテーションマップを生成することが可能な画像処理システムを実現することができる。

次に、本発明の実施例２における画像処理システムに関して説明する。本実施例において、ニューラルネットワークは、撮像画像の収差、回折によるぼけを補正する回帰タスク（デブラー）を実行する。ただし本発明は、これに限定されるものではなく、その他の認識または回帰タスクにも適用が可能である。

図８は、本実施例における画像処理システム３００のブロック図である。図９は、画像処理システム３００の外観図である。画像処理システム３００は、学習装置（画像処理装置）３０１、撮像装置３０２、画像推定装置３０３、表示装置３０４、記録媒体３０５、出力装置３０６、および、ネットワーク３０７を有する。

学習装置３０１は、記憶部３０１ａ、取得部（取得手段）３０１ｂ、生成部（学習手段）３０１ｃ、および、更新部（学習手段）３０１ｄを有する。撮像装置３０２は、光学系３０２ａと撮像素子３０２ｂを有する。撮像素子３０２ｂで撮像された撮像画像には、光学系３０２ａの収差や回折によるぼけと、撮像素子３０２ｂのダイナミックレンジによる輝度飽和と黒潰れが存在する。画像推定装置３０３は、記憶部３０３ａ、取得部３０３ｂ、および、生成部３０３ｃを有し、撮像画像の少なくとも一部である入力画像のぼけを補正した推定画像を生成し、入力画像と推定画像から加重平均画像を生成する。入力画像および推定画像は、ＲＡＷ画像である。ぼけ補正にはニューラルネットワークを使用し、そのウエイトの情報は記憶部３０３ａから読み出される。該ウエイトは学習装置３０１で学習されたものであり、画像推定装置３０３は、事前にネットワーク３０７を介して記憶部３０１ａから該ウエイトの情報を読み出し、記憶部３０３ａに記憶している。ウエイトの学習、およびウエイトを用いたぼけ補正処理に関する詳細は、後述する。画像推定装置３０３は、加重平均画像に対して現像処理を行い、出力画像を生成する。出力画像は、表示装置３０４、記録媒体３０５、出力装置３０６の少なくともいずれかに出力される。表示装置３０４は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは表示装置３０４を介して、処理途中の画像を確認しながら編集作業などを行うことができる。記録媒体３０５は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバ等である。出力装置３０６は、プリンタなどである。

次に、図１０を参照して、学習装置３０１で実行されるウエイトの学習（学習フェーズ）に関して説明する。図１０は、ウエイトの学習に関するフローチャートである。図１０の各ステップは、主に、学習装置３０１の取得部３０１ｂ、生成部３０１ｃ、または、更新部３０１ｄにより実行される。

まずステップＳ３０１において、取得部３０１ｂは、一組以上のソース画像と撮像条件を取得する。収差、回折によるぼけ補正の学習には、ぼけ画像（第１の訓練画像）とぼけのない画像（正解画像）のペアが必要になる。本実施例では、このペアをソース画像から撮像シミュレーションによって生成する。ただし本発明は、これに限定されるものではなく、収差、回折によるぼけを補正したいレンズとそれよりも高性能なレンズで同一被写体を撮像し、前記ペアを用意してもよい。

なお本実施例では、ＲＡＷ画像での学習とぼけ補正を行うが、本発明はこれに限定されるものではなく、現像後の画像でもよい。ソース画像はＲＡＷ画像であり、撮像条件はソース画像を被写体として撮像シミュレーションを行う際のパラメータである。パラメータは、撮像に使用する光学系、光学系のステート（ズーム、絞り、合焦距離）、像高、光学ローパスフィルタの有無と種類、撮像素子のノイズ特性、画素ピッチ、ＩＳＯ感度、カラーフィルタ配列、ダイナミックレンジ、黒レベルなどである。本実施例では、光学系ごとにぼけ補正に使用するウエイトの学習を行う。特定の光学系に対して、ステートや像高、画素ピッチやＩＳＯ感度などの組み合わせを複数設定して、異なる撮像条件での第１の訓練画像と正解画像（正解データ）のペアを生成する。望ましくは、ソース画像は訓練画像よりもダイナミックレンジの広い画像であるとよい。ソース画像と訓練画像のダイナミックレンジが同じ場合、ソース画像の小さな輝度飽和領域や黒潰れ領域はぼかし処理によって消滅し、学習できなくなるためである。ダイナミックレンジの広いソース画像は、ダイナミックレンジの広い撮像素子で撮像するか、異なる露出で同一被写体の画像を撮像して合成するか、などによって用意することができる。

続いてステップＳ３０２において、生成部３０１ｃは、撮像条件に基づいて、ソース画像から第１の訓練画像および第２の訓練画像と正解画像を生成する。第１の訓練画像と正解画像はそれぞれ、ソース画像に対して光学系で発生する収差、回折によるぼけを付与した画像と、付与しない画像である。必要に応じて、第１の訓練画像と正解画像にノイズを付与する。第１の訓練画像にノイズを付与しない場合、推定フェーズにおいて、ニューラルネットワークはぼけ補正と同時にノイズの増幅を行う。第１の訓練画像にノイズを付与し、正解画像にノイズを付与しない、または第１の訓練画像のノイズと相関のないノイズを付与すると、ニューラルネットワークではぼけ補正とデノイジングが学習される。これに対して、正解画像に第１の訓練画像のノイズと相関のあるノイズを付与すると、ノイズ変化を抑制したぼけ補正が学習される。

本実施例では、第１の訓練画像と正解画像に相関のあるノイズを付与する。ソース画像のダイナミックレンジが、第１の訓練画像より大きい場合、信号値のクリップによって第１の訓練画像と正解画像のダイナミックレンジを本来の正しい範囲に収める。また本実施例では、第１の訓練画像に対してＷｉｅｎｅｒフィルタを使用し、ぼけをある程度補正した第２の訓練画像（学習フェーズにおける中間ぼけ補正画像）を生成する。Ｗｉｅｎｅｒフィルタは、第１の訓練画像に付与したぼけから算出されたフィルタである。ただし、補正方法はＷｉｅｎｅｒフィルタに限定されず、その他の逆フィルタベースの手法や、Ｒｉｃｈａｒｄｓｏｎ－Ｌｕｃｙ法などを用いてもよい。第２の訓練画像も使用することで、ニューラルネットワークのぼけの変化に対するぼけ補正のロバスト性を向上することができる。また、必要に応じて、撮像シミュレーションの際にソース画像を縮小する。ソース画像をＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）でなく実写で用意した場合、ソース画像は何らかの光学系を介して撮像された画像である。故に、既に収差、回折によるぼけが存在している。しかし、縮小を行うことによって、ぼけの影響を小さくし、高周波まで存在する正解画像を生成することができる。

続いてステップＳ３０３において、生成部３０１ｃは、ダイナミックレンジ外マップを生成する。第１の訓練画像（学習フェーズにおける入力画像）の信号値と信号の閾値の比較に基づいて、ダイナミックレンジ外マップを生成する。ただし、第２の訓練画像の信号値からダイナミックレンジ外マップを生成してもよい。

本実施例において、信号の閾値は、撮像素子３０２ｂの輝度飽和値と黒レベルに基づく。例を図１１に示す。図１１（Ａ）は、第１の訓練画像であり、信号値が輝度飽和値（第１の閾値）以上の領域を波線で表している。また、信号値が黒レベルに定数を加えた値（第２の閾値）以下の領域を縦線で表している。この際、第１の訓練画像に対応するダイナミックレンジ外マップは、図１１（Ｂ）のようになる。第１の閾値以上の領域を１、第２の閾値以下の領域を０、それ以外の領域を０．５としている。ただし本発明は、これに限定されるものではなく、例えば第２の閾値より大きく且つ第１の閾値未満の領域を０とし、それ以外の構造の潰れた領域を１としてもよい。

次に、第２の閾値において、黒レベルに定数を加算した理由を説明する。第１の訓練画像にはノイズが付与されているため、真の信号値が黒レベルでも、ノイズによって信号値が黒レベルを超えることがある。このため、ノイズによる信号値の上昇を考慮して、第２の閾値には定数を加算する。定数は、ノイズ量を反映した値とすることが望ましい。例えば、ノイズの標準偏差のｎ倍（ｎは正の実数）などにするとよい。ダイナミックレンジ外マップは、学習フェーズと推定フェーズの両方でニューラルネットワークに入力される。学習フェーズにおいては、シミュレーションでノイズを付与するため、標準偏差が既知だが、推定フェーズにおける入力画像のノイズは未知である。このため、推定フェーズでは、撮像素子３０２ｂのノイズ特性を計測しておき、撮像時のＩＳＯ感度から第２の閾値に加算する定数を決定するとよい。ただし、ノイズが充分に小さい場合は、定数はゼロとしてもよい。

続いてステップＳ３０４において、生成部３０１ｃは、第１及び第２の訓練画像とダイナミックレンジ外マップをニューラルネットワークに入力し、推定画像（ぼけ補正画像）を生成する。本実施例では、第１及び第２の訓練画像とダイナミックレンジ外マップを、各々４チャンネル化して、ニューラルネットワークへ入力する。図１２を用いて、これを説明する。図１２（Ａ）は、第１の訓練画像のカラーフィルタ配列を表したものである。Ｇ１とＧ２は、２つのＧｒｅｅｎ成分を表す。ニューラルネットワークに入力する際、第１の訓練画像を図１２（Ｂ）のように４チャンネル化する。破線は、同一位置における各チャンネル成分を表す。ただし色の配列順は、図１２のものに限定されない。同様に、第２の訓練画像とダイナミックレンジ外マップも４チャンネル化する。ただし、４チャンネル化を必ずしも行う必要はない。また必要に応じて、第１及び第２の訓練画像の正規化や黒レベルの減算を行う。

本実施例では、図１３に示されるニューラルネットワークを使用するが、本発明はこれに限定されるものではなく、例えばＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などを用いてもよい。入力データ５１１は、４チャンネル化された第１の訓練画像５０１、第２の訓練画像、ダイナミックレンジ外マップをチャンネル方向に連結したデータである。チャンネル方向の連結順に制限はない。Ｃｏｎｖ．は１層以上の畳み込み層、Ｄｅｃｏｎｖ．は、１層以上の逆畳み込み層を表す。第２乃至第４のスキップコネクション５２２乃至５２４は、２つの特徴マップに関して要素ごとの和を取る。或いは、チャンネル方向に連結してもよい。第１のスキップコネクション５２１は、第１の訓練画像５０１（或いは、第２の訓練画像でもよい）と最終層から出力された残差画像の和を取り、推定画像５１２を得る。ただし、スキップコネクションの数は、図１３に限定されるものではない。推定画像５１２も、図１２（Ｂ）のような４チャンネル画像である。

ぼけ補正のような画像の高解像化や高コントラスト化では、輝度飽和や黒潰れによって被写体の情報が失われた領域の近傍に弊害が出やすい。また、ぼけが補正されたことによって、被写体情報の失われた領域が小さくなることがある。このため、被写体情報の失われた領域においてニューラルネットワークは、それ以外の領域と異なり、インペインティング処理を行う必要がある。ダイナミックレンジ外マップの入力によって、ニューラルネットワークがこれらの領域を特定することができるため、高精度な補正が可能になる。

続いてステップＳ３０５において、更新部３０１ｄは、推定画像と正解画像からニューラルネットワークのウエイトを更新する。本実施例では、推定画像と正解画像における信号値の差のユークリッドノルムをロス関数とする。ただし、ロス関数はこれに限定されない。差分を取る前に、正解画像も推定画像に合わせて４チャンネル化する。さらに実施例２では、輝度飽和や黒潰れの起きた領域をロスから除外する。前記領域は、被写体空間の情報が失われているため、正解画像に近付けるには前述したようにインペインティングのタスクが必要になる。しかし、インペインティングは偽構造を発生させる可能性があるため、前記領域は実施例２において推定から除外し、推定フェーズにおいても入力画像で置き換える。第１の訓練画像は、図１２（Ｂ）に示されるように複数の色成分を有する。このため、ある色成分が輝度飽和または黒潰れしていても、他の色成分で被写体の構造が取得されていることがある。この場合、極近傍の位置に存在する画素から情報を推定できるため、偽構造が出現しにくい。故に、ダイナミックレンジ外マップにおいて、全チャンネルがダイナミックレンジ外となっている画素を０とし、残りの画素を１としたロス重みマップを生成し、推定画像と正解画像の差分に対して、要素ごとの積を取り、ロスを計算する。これによって、偽構造の出現しやすい領域のみを除外することができる。なお、ロスから偽構造の出やすい領域を除外する作業は、必ずしも必要ではない。

続いてステップＳ３０６において、更新部３０１ｄは、学習が完了したか否かを判定する。学習が未完である場合、ステップＳ３０１へ戻り、新たな一組以上のソース画像と撮像条件を取得する。一方、学習が完了した場合、ウエイトの情報を記憶部３０１ａに記憶する。

次に、図１４を参照して、画像推定装置３０３で実行される入力画像の収差、回折によるぼけの補正（加重平均画像の生成、推定フェーズ）に関して説明する。図１４は、加重平均画像の生成に関するフローチャートである。図１４の各ステップは、主に、画像推定装置３０３の取得部３０３ｂと生成部３０３ｃにより実行される。

まずステップＳ４０１において、取得部３０３ｂは、撮像画像から入力画像と、入力画像に対応する閾値とを取得する。第１の閾値は撮像素子３０２ｂの輝度飽和値であり、第２の閾値は撮像素子３０２ｂの黒レベルに定数を加算した値である。定数は、撮像画像を撮像した際のＩＳＯ感度から、撮像素子３０２ｂのノイズ特性を用いて決定される。

続いてステップＳ４０２において、生成部３０３ｃは、入力画像の信号値と第１及び第２の閾値との比較から、ダイナミックレンジ外マップを生成する。このダイナミックレンジ外マップは、学習フェーズのステップＳ３０３と同様の方法で生成される。

続いてステップＳ４０３において、生成部３０３ｃは、入力画像から中間ぼけ補正画像を生成する。光学系３０２ａの収差、回折によるぼけを補正するＷｉｅｎｅｒフィルタの情報を記憶部３０３ａから呼び出し、入力画像に作用させることで、中間ぼけ補正画像を生成する。入力画像は像高ごとにぼけが異なるため、シフトバリアントな補正を行う。なお、ステップＳ４０２とステップＳ４０３はいずれを先に行ってもよい。

続いてステップＳ４０４において、生成部３０３ｃは、入力画像と中間ぼけ補正画像とダイナミックレンジ外マップをニューラルネットワークへ入力し、推定画像を生成する。ニューラルネットワークは、図１３に示される構成を使用し、学習時と同じ順番でチャンネル方向に入力画像（第１の訓練画像に相当）、中間ぼけ補正画像（第２の訓練画像に相当）、ダイナミックレンジ外マップを連結した入力データを入力する。また、記憶部３０３ａから光学系３０２ａに対応したウエイトの情報を読み出し、推定画像を生成する。ニューラルネットワークへの入力時に正規化や黒レベルの減算を行っている場合は、推定画像に対して信号値のスケールを戻す処理と黒レベルの加算を行う。

続いてステップＳ４０５において、生成部３０３ｃは、入力画像の信号値と第１及び第２の閾値の比較に基づいて、重みマップを算出する。すなわち生成部３０３ｃは、入力画像の信号値と信号値の閾値とに基づく重みマップを取得する。本実施例では、学習フェーズで算出したロス重みマップと同様に、ダイナミックレンジ外マップを用いて重みマップを算出する。例えば、輝度飽和または黒潰れしたある色成分の対象画素に対して、最近傍の他の全色の画素が同様に輝度飽和または黒潰れしている場合は重みを０とし、それ以外は１とする。

このように本実施形態において、入力画像は複数の色成分を有する。入力画像の対象画素と、対象画素と異なる色成分で且つ所定の領域内（例えば最近傍）の画素とが全て輝度飽和または黒潰れしている場合、対象画素の位置における入力画像の重みがニューラルネットワークの出力よりも大きくなるように重みマップを生成する。一方、入力画像の対象画素と対象画素と異なる色成分で且つ所定の領域内の画素とのいずれかが輝度飽和または黒潰れしていない場合、対象画素の位置における入力画像の重みがニューラルネットワークの出力よりも小さくなるように重みマップを生成する。

また、算出された重みマップの不連続性を緩和するためにぼかし処理を行ったり、他の方法で重みマップを生成したりしてもよい。なお、重みマップは、ステップＳ４０１とステップＳ４０６との間であれば、いつ生成してもよい。

続いてステップＳ４０６において、生成部３０３ｃは、入力画像と推定画像を、重みマップに基づいて重み付け平均し、加重平均画像を生成する。すなわち生成部３０３ｃは、ニューラルネットワークの出力（推定画像または残差画像）と入力画像と重みマップとに基づいて、加重平均画像を生成する。重みマップと推定画像の要素ごとの積と、全要素１のマップから重みマップを減算したマップと入力画像の要素ごとの積との和を取ることで、加重平均画像を生成する。なお、ステップＳ４０６の代わりに、ステップＳ４０４のスキップコネクション５２１による入力画像と残差画像の和を取る際、重みマップを用いることで、偽構造の出やすい領域を入力画像に置き換えた推定画像を生成してもよい。この場合、重みマップが示した偽構造の出やすい画素を入力画像とし、それ以外の画素を入力画像と残差画像の和とする。学習フェーズでも同様の処理を行うことで、ステップＳ３０５のロス関数から、偽構造の出やすい領域を除外することもできる。

本実施例によれば、輝度飽和や黒潰れが発生している場合でも、高精度なぼけ補正を行うことが可能な画像処理システムを実現することができる。

このように実施例１および実施例２において、取得手段（取得部１２３ａ；取得部３０３ｂ、生成部３０３ｃ）は、入力画像の信号値と信号値の閾値とに基づく入力画像のダイナミックレンジ外マップを取得する。処理手段（検出部１２３ｂ；生成部３０３ｃ）は、入力画像とダイナミックレンジ外マップとを含む入力データをニューラルネットワークへ入力し、認識または回帰のタスクを実行する。

次に、本発明の実施例３における画像処理システムに関して説明する。本実施例の画像処理システムは、画像推定装置に対して画像処理の対象である撮像画像（入力画像）を送信し処理済みの出力画像を画像推定装置から受信する処理装置（コンピュータ）を有する点で、実施例１および実施例２と異なる。

図１５は、本実施例における画像処理システム６００のブロック図である。画像処理システム６００は、学習装置６０１、撮像装置６０２、画像推定装置６０３、処理装置（コンピュータ）６０４を有する。学習装置６０１および画像推定装置６０３は、例えばサーバである。コンピュータ６０４は、例えばユーザ端末（パーソナルコンピュータまたはスマートフォン）である。コンピュータ６０４は、ネットワーク６０５を介して画像推定装置６０３に接続されている。画像推定装置６０３はネットワーク６０６を介して学習装置６０１に接続されている。すなわち、コンピュータ６０４と画像推定装置６０３は通信可能に構成され、画像推定装置６０３と学習装置６０１は通信可能に構成されている。コンピュータ６０４は第１の装置に相当し、画像推定装置６０３は第２の装置に相当する。なお学習装置６０１の構成は、実施例２の学習装置３０１と同様のため説明を省略する。撮像装置６０２の構成は、実施例２の撮像装置３０２と同様のため説明を省略する。

画像推定装置６０３は、記憶部６０３ａ、取得部（取得手段）６０３ｂ、生成部（処理手段）６０３ｃ、通信部（受信手段、送信手段）６０３ｄを有する。記憶部６０３ａ、取得部６０３ｂ、生成部６０３ｃのそれぞれは、実施例２の画像推定装置３０３の記憶部１０３ａ、取得部１０３ｂ、生成部１０３ｃと同様である。通信部６０３ｄはコンピュータ６０４から送信される要求を受信する機能と、画像推定装置６０３によって生成された出力画像をコンピュータ６０４に送信する機能を有する。

コンピュータ６０４は、通信部（送信手段）６０４ａ、表示部６０４ｂ、画像処理部６０４ｃ、記録部６０４ｄを有する。通信部６０４ａは撮像画像に対する処理を画像推定装置６０３に実行させるための要求を画像推定装置６０３に送信する機能と、画像推定装置６０３によって処理された出力画像を受信する機能を有する。表示部６０４ｂは種々の情報を表示する機能を有する。表示部６０４ｂによって表示される情報は、例えば画像推定装置６０３に送信する撮像画像と、画像推定装置６０３から受信した出力画像を含む。画像処理部６０４ｃは画像推定装置６０３から受信した出力画像に対してさらに画像処理を施す機能を有する。記録部６０４ｄは、撮像装置６０２から取得した撮像画像、画像推定装置６０３から受信した出力画像等を記録する。

次に、図１６を参照して、本実施例における画像処理について説明する。本実施例における画像処理は、実施例２にて説明したぼけ補正（デブラー）処理（図１４）と同等である。図１６は、出力画像の生成に関するフローチャートである。図１６に示した画像処理は、コンピュータ６０４を介してユーザにより画像処理開始の指示が成されたことを契機として開始される。まず、コンピュータ６０４における動作について説明する。

ステップＳ７０１において、コンピュータ６０４は撮像画像に対する処理の要求を画像推定装置６０３へ送信する。なお、処理対象である撮像画像を画像推定装置６０３に送信する方法は問わない。例えば、撮像画像はステップＳ７０１と同時にコンピュータ６０４から画像推定装置６０３にアップロードされても良いし、ステップＳ７０１以前に画像推定装置６０３にアップロードされていても良い。なお、コンピュータ６０４に記録された画像でなく、撮像画像は画像推定装置６０３とは異なるサーバ上に記憶された画像でも良い。なお、ステップＳ７０１において、コンピュータ６０４は撮像画像に対する処理の要求と共に、ユーザを認証するＩＤ情報等を送信しても良い。ステップＳ７０２において、コンピュータ６０４は画像推定装置６０３内で生成された出力画像を受信する。出力画像は実施例２と同様に撮像画像に対してぼけ補正が成された推定画像である。

次に、画像推定装置６０３の動作について説明する。ステップＳ８０１において、画像推定装置６０３はコンピュータ６０４から送信された撮像画像に対する処理の要求を受信する。画像推定装置６０３は、撮像画像に対する処理（ぼけ補正処理）が指示されたと判断し、ステップＳ８０２以降の処理を実行する。ステップＳ８０２～Ｓ８０７は、実施例２のステップＳ４０１～Ｓ４０６と同様である。ステップＳ８０８において、画像推定装置６０３は回帰タスクの結果である推定画像（加重平均画像）を出力画像としてコンピュータ６０４へ送信する。

本実施例は、実施例２のぼけ補正処理を行うものとして説明したが、実施例１の人領域検出（図７）においても同様に適用することができる。なお、本実施例では、実施例２のステップＳ４０１～Ｓ４０６に相当する処理を全て画像推定装置６０３で行うことを説明したが、本発明はこれに限定されない。例えば、コンピュータ６０４内で実施例２のステップＳ４０１～Ｓ４０６（本実施例のステップＳ８０２～ステップＳ８０７）のうちの１つ以上を行い、その結果をコンピュータ６０４から画像推定装置６０３へ送信するようにしても良い。

以上のように、本実施例のように、画像推定装置６０３を、画像推定装置６０３と通信可能に接続されたコンピュータ６０４を用いて制御するように構成しても良い。

その他、各実施例における回帰タスクの例として、撮像画像のデフォーカスぼけの整形が挙げられる。デフォーカスぼけの整形とは、二線ぼけ、ヴィネッティング、非球面レンズの金型に起因する輪帯模様、ミラーレンズのリング状のデフォーカスぼけなどを、任意の分布のぼけに変換するタスクである。この際も、輝度飽和または黒潰れによって情報が失われた領域で弊害が出やすい。しかし、ダイナミックレンジ外マップをニューラルネットワークへ入力することで、弊害を抑制してデフォーカスぼけの整形を実行できる。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、輝度飽和や黒潰れが発生している場合でも、ニューラルネットワークの推定精度の低下を抑制することが可能な画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法を提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１２３画像処理部（画像処理装置）
１２３ａ取得部（取得手段）
１２３ｂ検出部（処理手段）
３０３画像推定装置（画像処理装置）
３０３ｂ取得部（取得手段）
３０３ｃ生成部（取得手段、処理手段）

Claims

入力画像の信号値と該信号値の閾値とに基づくマップを取得する工程と、
前記入力画像と前記マップとを含む入力データをニューラルネットワークに入力することで、認識または回帰のタスクを実行する工程とを有し、
前記マップは、前記入力画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップであることを特徴とする画像処理方法。
前記閾値は、前記入力画像の輝度飽和値または黒レベルの少なくとも一方に基づいて設定されることを特徴とする請求項１に記載の画像処理方法。
前記入力データは、前記入力画像と前記マップとをチャンネル方向に連結することによって得られることを特徴とする請求項１または２に記載の画像処理方法。
前記タスクを実行する工程において、
前記入力画像または前記マップの一方のみを前記ニューラルネットワークの第１層に入力することで特徴マップに変換し、前記特徴マップと、前記入力画像または前記マップのうち前記第１層に入力されていない他方とをチャンネル方向に連結した後に、前記ニューラルネットワークの後続の層に入力することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記タスクを実行する工程において、
前記ニューラルネットワークの互いに異なる層に前記入力画像および前記マップを入力することで、該入力画像および該マップをそれぞれ異なる層で特徴マップに変換し、
前記特徴マップをチャンネル方向に連結した後に、前記ニューラルネットワークの後続の層に入力することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記入力画像および前記マップのチャンネルごとの画素数は、互いに等しいことを特徴とする請求項１乃至５のいずれか一項に記載の画像処理方法。
前記タスクは、前記入力画像のぼけ補正を含むことを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
前記信号値と該信号値の閾値とに基づく重みマップを取得する工程と、
前記ニューラルネットワークの出力と前記入力画像と前記重みマップとに基づいて加重平均画像を生成する工程と、を更に有することを特徴とする請求項１乃至７のいずれか一項に記載の画像処理方法。
前記入力画像は、複数の色成分を有し、
前記入力画像の対象画素と、該対象画素と異なる色成分で且つ所定の領域内の画素とが全て輝度飽和または黒潰れしている場合、前記対象画素の位置における前記入力画像の重みが前記出力の重みよりも大きくなるように前記重みマップを生成することを特徴とする請求項８に記載の画像処理方法。
前記入力画像は、複数の色成分を有し、
前記入力画像の対象画素と、該対象画素と異なる色成分で且つ所定の領域内の画素とのいずれかが輝度飽和または黒潰れしていない場合、前記対象画素の位置における前記入力画像の重みが前記出力の重みよりも小さくなるように前記重みマップを生成することを特徴とする請求項８または９に記載の画像処理方法。
入力画像の信号値と該信号値の閾値とに基づくマップを取得する取得手段と、
前記入力画像と前記マップとを含む入力データをニューラルネットワークに入力することで、認識または回帰のタスクを実行する処理手段とを有し、
前記マップは、前記入力画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップであることを特徴とする画像処理装置。
前記ニューラルネットワークに関する情報を記憶する手段を更に有することを特徴とする請求項１１に記載の画像処理装置。
被写体を撮像することで前記入力画像を取得する撮像手段と、
請求項１１または１２に記載の画像処理装置とを有することを特徴とする撮像装置。
請求項１乃至１０のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
請求項１１または１２に記載の画像処理装置と、該画像処理装置と通信可能な制御装置とを含む画像処理システムであって、
前記制御装置は、画像に対する処理を前記画像処理装置に実行させるための要求を送信する送信手段を有し、
前記画像処理装置は、前記要求に応じて前記画像に対する処理を実行する処理手段とを有することを特徴とする画像処理システム。
訓練画像と、該訓練画像の信号値と該信号値の閾値とに基づくマップと、正解データとを取得する工程と、
前記訓練画像と前記マップとを含む入力データと、前記正解データとを用いて、認識または回帰のタスクを実行するためのニューラルネットワークの学習を行う工程とを有し、
前記マップは、前記訓練画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップであることを特徴とする学習済みモデルの製造方法。
請求項１６に記載の学習済みモデルの製造方法をコンピュータに実行させることを特徴とするプログラム。
訓練画像と、該訓練画像の信号値と該信号値の閾値とに基づくマップと、正解データとを取得する取得手段と、
前記訓練画像と前記マップとを含む入力データと、前記正解データとを用いて、認識または回帰のタスクを実行するためのニューラルネットワークの学習を行う学習手段とを有し、
前記マップは、前記訓練画像の輝度飽和領域または黒潰れ領域の少なくとも一方を示すマップであることを特徴とする画像処理装置。