JP7512150B2

JP7512150B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7512150B2
Application number: JP2020159662A
Authority: JP
Inventors: 洋佑高田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-07-08
Anticipated expiration: 2040-09-24
Also published as: US11995153B2; US20220092357A1; JP2022053060A

Description

本発明は、機械学習用の学習データの生成および学習方法に関する。

近年、画像認識、画像処理など様々な分野において、機械学習技術が利用されている。機械学習の中でも、データを大量に学習する必要がある深層学習（ディープラーニング）では、データを学習する順番が不適切であると、学習が収束しなかったり、収束したとしても本来の性能を発揮できなかったりすることがある。そのため、大量のデータを用いてどのような順番で学習を行うかを示す学習スケジュールが重要となる。

学習スケジュールに関し、特許文献１は、最初は簡単なタスクを学習し、徐々にタスクの難易度を上げながら学習を行うカリキュラム学習に関する技術を開示している。このような順番で学習を行うことにより、高精度に局所最適解に到達でき、さらに最適解への収束が早くなることが知られている。カリキュラム学習の応用例として、音声認識だけでなく、画像認識、画像処理および動画認識など幅広い技術への応用例が報告されている。

特開２０１９－９５６００号公報

ＭｉｃｈａｅｌＧｈａｒｂｉｅｔ．ａｌ、"ＤｅｅｐＪｏｉｎｔＤｅｍｏｓａｉｃｋｉｎｇａｎｄＤｅｎｏｉｓｉｎｇ"、ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，Ｖｏｌ．３５、Ｎｏ．６、ＡｒｔｉｃｌｅＮｏ．：１９１、２０１６年１１月

特許文献１の技術では効率よく学習できるが、学習の回数に偏りが生じるという問題がある。画像を例にすると、教師画像群において、色の三属性（色相、彩度、輝度）の分布に偏りがあると、カリキュラム学習を行っても色によって学習回数に偏りが生じることがある。そのような学習が行われた場合、ロバスト性の高い学習モデルを生成できないことがある。非特許文献１に記載の畳み込みニューラルネットワーク（ＣＮＮ）ベースのデモザイクネットワークを学習する場合、学習に用いる教師画像データの色相分布に偏りがあると、どのような順番で学習を行っても色相によって学習回数に偏りが生じる。この結果、学習後のモデルを用いてＲＡＷ画像データをデモザイクした際に本来存在しない偽パターンが発生することがある。この現象は、教師画像群において学習回数の少ない色相で顕著に表れる。

そこで本開示では、デモザイク、ノイズ低減、超解像などの画像信号処理系において、ＣＮＮベースのネットワークを学習する場合に、ロバスト性の高い学習モデルを生成する技術を提供する。

本開示の一態様に係る情報処理装置は、ネットワークを用いた学習モデルを生成する情報処理装置であって、複数の色成分を含む教師画像で構成される第１画像群を取得する取得手段と、前記第１画像群に含まれる色の属性を表す分布特性を得る解析手段と、前記第１画像群と、当該第１画像群に対応する第２画像群との組で構成されるデータセットを生成する生成手段と、前記分布特性に基づき学習回数を決定する決定手段と、前記学習回数に基づき、前記データセットを用いて、前記ネットワークを用いた学習を行って、前記学習モデルを生成する学習手段とを有する、ことを特徴とする。

本開示によれば、デモザイク、ノイズ低減、超解像などの画像信号処理系において、ＣＮＮベースのネットワークを学習する場合に、ロバスト性の高い学習モデルを生成することができる。

情報処理システムの構成例を示す図情報処理システム全体の機能ブロック図情報処理システムにおける処理の流れを示すフローチャート解析処理例を示す図学習スケジュール例を示す図データセットの生成を説明する図ＣＮＮの構造と学習の流れを説明する図

以下、本開示の技術を実施する形態について図面を用いて説明する。なお、以下の実施形態は、特許請求の範囲に係る本開示の技術を限定するものではなく、また以下の実施形態で説明されている特徴の組み合わせの全てが本開示の技術の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜ＣＮＮについて＞
まず、以下の実施形態において登場する、深層学習を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）について説明する。ＣＮＮは、学習（“ｔｒａｉｎｉｎｇ”または“ｌｅａｒｎｉｎｇ”）により生成したフィルタを画像データに対して畳み込んだ（ｃｏｎｖｏｌｕｔｉｏｎ）後、非線形演算することを繰り返す技術である。フィルタは、局所受容野（ＬｏｃａｌＲｅｃｅｐｔｉｖｅＦｉｅｌｄ：ＬＰＦ）とも呼ばれる。画像データに対してフィルタを畳み込んだ後、非線形演算して得られる画像データは、特徴マップ（ｆｅａｔｕｒｅｍａｐ）と呼ばれる。また、学習は入力画像データと出力画像データのペアからなる学習データ（“ｔｒａｉｎｉｎｇｉｍａｇｅｓ”または“ｄａｔａｓｅｔｓ”）を用いて行われる。簡単には、入力画像データから対応する出力画像データへ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。

画像データがＲＧＢカラーチャネルを有する場合や、特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、４次元配列で表現される。画像データ（または特徴マップ）にフィルタを畳み込んだ後、非線形演算する処理は、層（ｌａｙｅｒ）という単位で表され、例えばｎ層目の特徴マップやｎ層目のフィルタなどと表現される。また、例えばフィルタの畳み込みと非線形演算を３回繰り返すようなＣＮＮは、３層のネットワーク構造を有する。このような非線形演算処理は、以下の（１）式のように定式化することができる。

（１）式において、Ｗ_nはｎ層目のフィルタ、ｂ_nはｎ層目のバイアス、ｆは非線形演算子、Ｘ_nはｎ層目の特徴マップ、＊は畳み込み演算子である。なお、右肩の（ｌ）はｌ番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめて「ネットワークパラメータ」とも呼ばれる。非線形演算としては、例えばシグモイド関数（ｓｉｇｍｏｉｄｆｕｎｃｔｉｏｎ）やＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）が用いられる。ＲｅＬＵの場合は、以下の（２）式で与えられる。

（２）式に示すように、入力したベクトルＸの要素のうち負のものはゼロ、正のものはそのままとなる。

ＣＮＮを用いたネットワークとしては、画像認識分野のＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）や超解像分野におけるその応用ＲＥＤ－Ｎｅｔ（ＲｅｓｉｄｕａｌＥｎｃｏｄｅｒ－ＤｅｃｏｄｅｒＮｅｔｗｏｒｋｓ）が有名である。いずれもＣＮＮを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ＲｅｓＮｅｔは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより１５２層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層ＣＮＮにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。

＜ＣＮＮの学習＞
次に、ＣＮＮの学習について説明する。ＣＮＮの学習は、入力学習画像（観測画像）データと、この入力学習画像データに対応する出力学習画像（正解画像）データとの組からなる学習データに対して、一般に以下の（３）式で表される目的関数を最小化することで行われる。

（３）式において、Ｌは正解とその推定との誤差を測る損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）である。また、Ｙ_iはｉ番目の出力学習画像データ、Ｘ_iはｉ番目の入力学習画像データである。また、ＦはＣＮＮの各層で行う演算（（１）式）を、まとめて表した関数である。また、θはネットワークパラメータ（フィルタおよびバイアス）である。また、｜｜Ｚ｜｜₂はＬ２ノルムであり、簡単にはベクトルＺの要素の２乗和の平方根である。また、ｎは学習に用いる学習データの全枚数である。一般に学習データの全枚数は多い（例えば数万枚）ため、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）では、学習画像データの一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷を低減することができる。また、目的関数の最小化（＝最適化）法として、モーメンタム（ｍｏｍｅｎｔｕｍ）法やＡｄａＧｒａｄ法、ＡｄａＤｅｌｔａ法、Ａｄａｍ法など、様々な方法が知られている。Ａｄａｍ法は、以下の（４）式で与えられる。

（４）式において、θ_i ^tは反復ｔ回目におけるｉ番目のネットワークパラメータ、ｇはθ_i ^tに関する損失関数Ｌの勾配である。また、ｍ、ｖはモーメントベクトル、αは基本学習率（ｂａｓｅｌｅａｒｎｉｎｇｒａｔｅ）、β₁、β₂はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いてもよい。ただし、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。

［実施形態１］
本実施形態では、教師画像群の分布特性、特に色相分布特性の解析結果に基づき色相毎の学習に偏りが無いスケジュールを決定し、学習スケジュールに従いデモザイク学習を行って、デモザイクネットワーク（学習済みモデル）を生成する態様について説明する。デモザイクネットワークモデルとは、例えば多層ＣＮＮをベースとしたニューラルネットワークのアーキテクチャ及びパラメータ（係数）を意味する。ニューラルネットワークのアーキテクチャは必ずしもＣＮＮをベースとしているものでなくてもよい。ただし、学習済みモデルは、モザイク画像データ（生徒画像データ）およびデモザイク画像データ（教師画像データ）をカラーフィルタ配列パターンに従ってサンプリングすることによって形成する。

上記の構成にて、ＣＰＵ１０１からの指令に基づき、学習処理アプリケーションが、教師画像データ群の色相分布から色相毎の学習回数の偏りを無くした学習スケジュールを決定し、それに従って学習を行い、モデルを生成する態様について説明するものとする。

＜システム構成＞
本実施形態に係る情報処理システムの構成について、図を用いて説明する。図１は、本実施形態に係る情報処理システムの構成例を示す図である。図１に示す情報処理システムでは、学習データの生成およびデモザイク学習を担うクラウドサーバ２００と、デモザイク推論を担うクライアントＰＣ１００とがインターネットを介して接続されている。なお、クラウドサーバ２００上またはクライアントＰＣ１００上で、上記学習および上記推論の両方を単独で行ってもよい。

＜クライアントＰＣのハードウェア構成＞
本実施形態のクライアントＰＣ１００は、撮像装置（デジタルカメラ）から入力されるＲＡＷ画像（モザイク画像）に対し、クラウドサーバ２００から提供される学習済みネットパラメータを適用してデモザイク推論を行う画像処理装置である。ＲＡＷ画像とは、一つの画素位置に一色分のカラーフィルタが取り付けられている単板撮像素子で撮像された、リニア色空間の画像を意味する。ユーザは、クライアントＰＣ１００にインストールされた画像処理アプリケーションを利用して、モザイク画像であるＲＡＷ画像をデモザイクしてＲＧＢの３チャネルから成る画像（ＲＧＢ画像）を得る。クライアントＰＣ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、大容量記憶装置１０４、汎用インターフェース（Ｉ／Ｆ）１０５、ネットワークＩ／Ｆ１０６を有し、各構成要素がシステムバス１０７によって相互に接続されている。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、デジタルカメラ１０、入力装置２０、外部記憶装置３０および表示装置４０にも接続されている。

ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３に格納されたプログラムを実行し、システムバス１０７を介してクライアントＰＣ１００の各構成要素を統括的に制御する。また、大容量記憶装置１０４は、例えばＨＤＤやＳＳＤであり、クライアントＰＣ１００で取り扱われる種々のデータを記憶する。ＣＰＵ１０１は、システムバス１０７を介して大容量記憶装置１０４へのデータの書き込み、および大容量記憶装置１０４に記憶されたデータの読み出しを行う。汎用Ｉ／Ｆ１０５は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＨＤＭＩ（登録商標）などのシリアルバスインターフェースである。クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、外部記憶装置３０（例えば、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリなどの各種記憶媒体）からデータを取得する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、マウスやキーボードなどの入力装置２０からのユーザ指示を受け付ける。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、表示装置４０（例えば液晶ディスプレイなどの各種画像表示デバイス）に、ＣＰＵ１０１によって処理された画像データなどを出力する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、撮像装置であるデジタルカメラ１０から現像処理の対象となる撮像画像（ＲＡＷ画像）のデータを取得する。ネットワークＩ／Ｆ１０６は、インターネットに接続するためのインターフェースである。クライアントＰＣ１００は、インストールされたウェブブラウザによってクラウドサーバ２００にアクセスして、デモザイク推論のためのネットワークパラメータを取得する。

＜クラウドサーバのハードウェア構成＞
本実施形態のクラウドサーバ２００は、インターネット上でクラウドサービスを提供するサーバ装置である。より詳細には、学習データの生成、学習スケジュールの決定、および学習スケジュールに従うデモザイク学習を行って、学習結果（学習済みモデル）としてのネットワークパラメータを、クライアントＰＣ１００からのリクエストに応じて提供する。クラウドサーバ２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、大容量記憶装置２０４およびネットワークＩ／Ｆ２０５を有し、各種構成要素がシステムバス２０６によって相互に接続されている。ＣＰＵ２０１は、ＲＯＭ２０２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリアなどの一次記憶領域として用いられる。大容量記憶装置２０４は、画像データや各種プログラムを記憶するＨＤＤやＳＳＤなどの大容量の二次記憶装置である。ネットワークＩ／Ｆ２０５はインターネットに接続するためのインターフェースであり、クライアントＰＣ１００のウェブブラウザからのリクエストに応じて上述のネットワークパラメータを提供する。

なお、クライアントＰＣ１００およびクラウドサーバ２００の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。本実施形態では、クラウドサーバにて学習データ及び学習スケジュールの生成・デモザイク学習を行い、学習結果のネットワークパラメータをクライアントＰＣにダウンロードして、現像対象となるＲＡＷ画像のデモザイク推論・現像を行うことを想定している。しかしながら、上記システム構成は一例であって、これに限定されない。例えば、クラウドサーバ２００が担う機能を細分化し、学習データの生成と学習スケジュールの生成とデモザイク学習とを別々の装置で実行するような構成でもよい。さらには、クライアントＰＣ１００の機能とクラウドサーバ２００の機能とを兼ね備えたデジタルカメラ１０において、学習データの生成・学習スケジュールの生成・デモザイク学習・デモザイク推論・現像のすべてを行うような構成であってもよい。また、クラウドサーバ２００はＧＰＵを構成として有してもよい。その場合ＧＰＵは、ＣＰＵ２０１の指示を受け、ＲＡＭ２０３に載っている学習データ（教師画像と生徒画像）をＧＰＵ上のメモリ（例えばＶＲＡＭ）にコピーし、デモザイク学習を行う。

＜システム全体の処理の流れ＞
次に、本実施形態の情報処理システムで行われる各種処理について、図を用いて説明する。図２は、情報処理システム全体の機能ブロック図である。図３は、情報処理システムにおける処理の流れを示すフローチャートである。図２に示す通り、クライアントＰＣ１００は、デモザイク推論部１１１および現像部１１２を有する。また、クラウドサーバ２００は、解析部２１１、学習スケジュール決定部２１２、データセット生成部２１３およびデモザイク学習部２１４を有する。図２に示す各機能部は、それぞれの機能部に対応するコンピュータプログラムをＣＰＵ１０１／２０１が実行することで実現される。ただし、図２に示す機能部の全部あるいは一部をハードウェアで実装してもよい。なお、図２に示した構成は適宜変形／変更が可能である。例えば、１つの機能部を機能別に複数の機能部に分割してもよいし、２つ以上の機能部を１つの機能部に統合してもよい。以下、図３のフローに沿って説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ３０１では、予め用意された教師画像群のデータがクラウドサーバ２００に入力される。教師画像は、ＲＧＢの３チャネルから成る画像であり、例えばデジタルカメラ１０で撮像することにより得られる。教師画像は、一般的には風景や動物といった自然写真、ポートレートやスポーツシーンといった人物写真、建築や商品といった人工物写真など、様々な種類の撮像画像が該当する。また、デジタルカメラ１０で撮像して得られたものをそのままアップロードしてもよいし、撮り溜めたものをＨＤＤなどに記憶しておきそれをアップロードしてもよい。クラウドサーバ２００に入力された教師画像群のデータは、解析部２１１およびデータセット生成部２１３に送られる。また、解析部２１１、学習スケジュール決定部２１２、データセット生成部２１３およびデモザイク学習部２１４で使用するパラメータ各種がクラウドサーバ２００に入力される。

Ｓ３０２では、解析部２１１は、Ｓ３０１で取得した、ヒストグラムのビンを示すパラメータＢＩＮを用いて、入力された教師画像群に含まれる色の属性である色相を解析して色相分布を得る。色相の解析方法について、図を用いて説明する。図４は、解析部２１１による色相の解析で得た解析結果である色相ヒストグラム例を示す図である。図４に示すように、ヒストグラム（色相ヒストグラム）４０１は、入力された教師画像群に含まれる全ての教師画像をＲＧＢ色空間からＨＳＶ色空間に変換し、色相（Ｈ）の値のみを抽出したものである。色相ヒストグラム４０１において、横軸は、スペクトル上での色相の位置を示し、ビンの幅を５度の区間で設けた０～１８０度の角度により表される。また、色相ヒストグラム４０１において、縦軸は、各色相の出現頻度を０～１．０に正規化した値で表している。色相ヒストグラム４０１では、色相の出現頻度は、１２５度から１８０度の範囲ではそれ以外の範囲（０度から１２５度）と比べて相対的に少なく、０度から１２５度の範囲ではそれ以外の範囲（１２５度から１８０度）と比べて相対的に多いことが分かる。すなわち、色相ヒストグラム４０１では、色相分布に偏りがあることが分かる。このような色相の出現頻度に関する情報が解析結果として、学習スケジュール決定部２１２に送られる。

図３の説明に戻る。Ｓ３０３では、学習スケジュール決定部２１２は、入力された解析結果に基づいて、学習スケジュールを決定し、学習情報ファイルとして記録する。学習スケジュールは、全体の学習回数Ｎａと、色相毎（所定区間毎）の学習回数Ｎｂ＿ｘとを含む。全体の学習回数Ｎａは、Ｓ３０１で取得したパラメータであり、予め設定されている。全体の学習回数Ｎａは、デモザイク学習部２１４が教師画像群を用いてデモザイクの学習を行う回数、すなわち、学習回数の合計値を表している。学習情報ファイルには、全体の学習回数Ｎａ、色相の番号と区間、及び色相の区間毎に属する教師画像の学習回数Ｎｂが記録される。本実施形態では、教師画像がどの区間に属するかは、教師画像データの色相ヒストグラムにて、出現頻度が最も多いことを示す最頻に対応する区間の色相によって定めることとし、各色相の出現頻度の逆数から学習回数Ｎｂを算出する。学習スケジュール決定部２１２による処理で決定した学習スケジュールについて図を用いて説明する。図５は、学習スケジュール決定部２１２による処理で決定した学習スケジュール例を示す図である。学習スケジュール５００は、学習情報ファイルとも呼ばれる。学習スケジュール５００は、表形式で表され、左端から順に、全体の学習回数Ｎａ５０１、色相の番号ｘ５０２、色相の番号５０２に対応する区間５０３、色相毎（所定区間毎）の学習回数Ｎｂ５０４が記録される。学習スケジュール５００では、５度単位での色相区間５０３には、１から３６までの色相の番号５０２が対応付けられている。色相の番号５０２が１から５にあっては、学習回数Ｎｂ５０４として、１回または２回が設定され、色相の番号５０２が３６にあっては、学習回数Ｎｂ５０４として、１０回が設定されている。全ての教師画像データを用いて少なくとも１回以上学習する回数と、色相毎（所定区間毎）の学習回数Ｎｂ＿ｘを決定し、学習情報ファイルに記録する。また、ｘは色相の番号を表している。このように決定された学習スケジュールにあっては、色の属性にて所定区間毎に色相分布が一様となる学習回数が示されることになる。すなわち、学習スケジュールでは、出現頻度が相対的に多い区間では学習回数を相対的に少なく設定し、出現頻度が相対的に少ない区間では学習回数を相対的に多く設定することで、色の属性にて所定区間毎に分布特性が一様となる学習回数を示すことになる。

図３の説明に戻る。Ｓ３０４では、データセット生成部２１３は、Ｓ３０１で取得した教師画像群に基づき、学習に用いるデータセット（教師画像と生徒画像のペア）を生成する。ここで、データセットの生成方法について、図を用いて説明する。図６は、データセットの生成方法例を説明する図である。図６では、ＲＧＢの３チャネルから成る教師画像６０１をベイヤ配列に従って画素をサブサンプリングすることにより、モザイク画像である生徒画像６０２を生成する。そして、ＲＧＢ画像（教師画像）６０１と、ＲＧＢ画像（教師画像）６０１に対応するモザイク画像（生徒画像）６０２とが組となるペア６０３を生成する。このようなペア６０３は、教師画像６０１の数と同じ数だけ生成される。なお、ここではカラーフィルタ配列としてベイヤ配列を使用しているが、入力ＲＡＷ画像の画像形式に合わせて決定すればよく、例えばＸ－Ｔｒａｎｓなどの他のカラーフィルタ配列を用いても構わない。生成された複数のペア６０３は、データセット６０４として、デモザイク学習部２１４に送られる。なお、Ｓ３０４で生成するデータセット６０４の中身を教師画像群のデータのみとし、後続のデモザイク学習の中で（教師画像とデモザイク後の生徒画像との誤差（損失関数）を算出する処理の中で）対応する生徒画像群のデータを生成するように構成してもよい。

図３の説明に戻る。Ｓ３０５では、デモザイク学習のＣＮＮに適用する上述のネットワークパラメータがクラウドサーバ２００に入力される。入力されたネットワークパラメータは、デモザイク学習部２１４に送られる。

Ｓ３０６では、デモザイク学習部２１４は、受け取ったネットワークパラメータを用いてＣＮＮの重みを初期化した後、Ｓ３０４で生成されたデータセットを用いてＣＮＮを学習する。デモザイク学習の詳細については後述する。

Ｓ３０７では、デモザイク学習部２１４は、学習回数をカウントする。ここでは、全体の学習回数と、対応する色相の学習回数とをカウントアップすることになる。

Ｓ３０８では、デモザイク学習部２１４は、色相毎の学習回数がＳ３０３で決定した学習スケジュール５００の色相（区間）毎の学習回数Ｎｂ５０４に達したか否かを判定する。学習回数Ｎｂ５０４に達したとの判定結果を得た場合（Ｓ３０８のＹＥＳ）、デモザイク学習部２１４は、処理をＳ３０９に移行する。学習回数Ｎｂ５０４に達していないとの判定結果を得た場合（Ｓ３０８のＮＯ）、デモザイク学習部２１４は、処理をＳ３０６に戻す。より具体的には、０度から１８０度の範囲のうち、学習回数Ｎｂ５０４に達していない区間が１つでもあると（Ｓ３０８のＮＯ）、デモザイク学習部２１４は、処理をＳ３０６に戻すことになる。

Ｓ３０９では、デモザイク学習部２１４は、全体の学習回数が予め設定された全体の学習回数Ｎａ５０１に達したか否かを判定する。図５に示す学習スケジュール５００を利用する場合、全体の学習回数Ｎａ５０１が１００回に達したか否かが判定される。達したとの判定結果を得た場合（Ｓ３０９のＹＥＳ）、デモザイク学習部２１４で生成された学習結果（学習済みモデル）としてのネットワークパラメータが出力される。出力した学習結果（学習済みモデル）としてのネットワークパラメータは、クライアントＰＣ１００のデモザイク推論部１１１に送られる。達していないとの判定結果を得た場合（Ｓ３０９のＮＯ）、デモザイク学習部２１４は、処理をＳ３０６に戻す。

Ｓ３１０では、現像処理の対象となるＲＡＷ画像がクライアントＰＣ１００に入力される。このＲＡＷ画像は、例えばデジタルカメラ１０で撮像したものを直接入力してもよいし、事前に撮像して大容量記憶装置１０４に記憶しておいたものを読み出してもよい。また、入力ＲＡＷ画像を撮像した際のＩＳＯ感度といった撮像パラメータも併せて入力される。入力ＲＡＷ画像のデータはデモザイク推論部１１１に送られる。

Ｓ３１１では、デモザイク推論部１１１は、デモザイク学習部２１４での学習で用いられたのと同じＣＮＮを構築して、入力ＲＡＷ画像のデモザイクを行う。この際、既存のネットワークパラメータが、クラウドサーバ２００から受け取った更新後のネットワークパラメータで初期化される。こうして、更新後のネットワークパラメータを適用したＣＮＮに対して、入力ＲＡＷ画像を入力し、デモザイク学習部２１４で行ったのと同じ方法でデモザイクを行って、色情報が補間されたＲＧＢ画像（推論結果）を得る。ＲＧＢ画像（推論結果）は、現像部１１２に送られる。

Ｓ３１２では、現像部１１２は、Ｓ３１１で得たＲＧＢ画像（推論結果）に対し、所定の現像処理を実行して現像結果を生成する。所定の現像処理は、メリハリを増すためのエッジ強調や、明るさを補正するγ補正や、鮮やかさを増すための色補正などが含まれる。すなわち、本実施形態の現像処理では、出力画像が好適に見えるように補正する処理全般が含まれる。なお、現像処理の詳細は本実施形態の主眼ではないため詳細な説明は省略する。生成した現像結果は、クライアントＰＣ１００の外部に出力される。出力先は特定の出力先に限らず、クライアントＰＣ１００の大容量記憶装置１０４、クライアントＰＣ１００に接続される外部記憶装置３０、クライアントＰＣ１００の汎用Ｉ／Ｆ１０５に接続される他の機器であってもよい。

以上が、本実施形態の情報処理システムで行われる処理の全体の流れである。本実施形態では、クラウドサーバ２００によって出力された学習結果（学習済みモデル）としてのネットワークパラメータを用いてＲＡＷ画像データをデモザイクする。これにより、偽パターンのような弊害が発生することを抑制することができる。

＜デモザイク学習処理＞
続いて、デモザイク学習部２１４におけるデモザイク学習について、図を用いて説明する。学習には、例えば非特許文献１に開示されているＣＮＮを用いる。図７は、ＣＮＮの構造と学習の流れを説明する図である。

ＣＮＮは、前述の（１）式の演算を行う複数のフィルタ７０２で構成されている。このＣＮＮに対して、前述のペア画像に含まれる生徒画像７００を入力する。この際、図７に示すように、生徒画像７００の３チャネルの欠損画像７０１に変換して入力する。欠損画像７０１におけるＲチャネル７０１ａには、生徒画像７００のＲ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。Ｇチャネル、Ｂチャネルについても同様である。すなわち、Ｇチャネル７０１ｂには、生徒画像７００のＧ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。また、Ｂチャネル７０１ｃには、生徒画像７００のＢ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。なお、欠損値については、ｂｉｌｉｎｅａｒ補間などの手法により補間して設定しても構わない。次に、この欠損画像７０１に対してフィルタ７０２を順次適用し、特徴マップを算出する。続いて、連結層７０３によって、算出した特徴マップと欠損画像７０１とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれｎ１とｎ２であった場合、連結結果のチャネル数は（ｎ１＋ｎ２）となる。続けて、この連結結果に対してフィルタ７０２を適用し、最終フィルタではＲＧＢ３チャネルの出力を行う。これにより、ＲＧＢの３チャネルから成る画像が推論結果７０４として得られる。そして、得られた推論結果７０４と、ペア画像に含まれていた教師画像（不図示）との差分を求め、画像全体についてその平均を取ることにより、損失関数値を得る。そして、得られた損失関数値を用いて、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによりネットワークパラメータの更新を行う。

なお、上述のようなデモザイク学習後のＣＮＮをさらにファインチューニングしてもよい。ファインチューニングとは学習済みモデルの重みを微調整する学習方法である。具体的なやり方としては、まず、統計的に出現頻度の少ない色相の組合せを含んだチャート画像（モザイク画像）に対して学習済みモデルを用いてデモザイクし、偽パターンが発生するか否かを検査する。偽パターンは、カラーフィルタ配列に相関を持つパターン模様のことである。偽パターンが発生するか否かの検査では、先ず、チャート画像についてデモザイク前後の差分値を画素単位で導出し、導出した差分値と予め設定された閾値ｔｈ（所定値）とを比較する。そして、差分値＞閾値ｔｈを満たす画素がｙ（＝１０）％以上ある場合に、すなわち、所定の条件を満たさない場合に、偽パターンが発生したとの検査結果が得られる。各色相に属する画像データについて、色相ヒストグラムの最頻の色相と次に頻度の高い色相が大域的に補色（特に、グリーン／マゼンタ）の関係にある場合、学習回数Ｎｂよりも多く設定する。これにより、ロバスト性の向上を更に図ることができる。

デモザイク後のチャート画像において偽パターンが発生したとの検査結果を得た場合、当該チャート画像における色相の組合せに類似する色相の組合せを持つ教師画像を中心にデータセットを再構成し、学習済みモデルをファインチューニングする。また、ファインチューニングする際、対象となる色相の学習回数Ｎｂを更新してもよい。すなわち、学習スケジュール決定部は、偽パターンが発生したとの検査結果を基に、偽パターンが発生している領域に類似する色相を特定し、特定した色相の学習回数Ｎｂが１、それ以外の色相の学習回数Ｎｂが０となるように学習情報ファイルを更新してもよい。このとき、全体の学習回数Ｎａが大幅に減らされ（例えばＮａ＝５）、学習済みモデルの重みが更新される。これにより、学習済みモデルのロバスト性を向上させることができる。なお、チャート画像として、１種類のチャート画像を用いてもよいし、過学習を抑制するためにテクスチャの異なる複数のチャート画像を用いてもよい。

＜変形例＞
なお、本実施形態では、色相分布を解析してその偏りを解消するような学習スケジュール（色相毎の学習回数）を生成したが、これに限定されない。すなわち、彩度分布あるいは輝度分布など他の分布特性を解析し、それぞれの分布の偏りを無くすように学習スケジュール（彩度毎の学習回数あるいは輝度毎の学習回数）を生成してもよい。

さらに、本実施形態ではデモザイクを例に説明を行ったが、本手法により生成した教師画像群を用いることで、他の画像信号処理系（例えば、ノイズ低減、超解像など）においても深層学習のロバスト性を向上させることができる。深層学習を応用したノイズ低減や超解像には、公知であるＣＮＮベースのネットワーク（ＲＥＤＮＥＴ、ＳＲＣＮＮなど）に、本手法により生成された教師画像群を用いることで実現可能である。

以上の通り本実施形態によれば、教師画像群における色の三属性（色相、彩度、輝度）の分布に偏りがある場合に、その偏りが解消されるように学習スケジュール（学習回数）を生成する。すなわち、出現頻度が相対的に少ない区間ではその色の属性の学習回数を相対的に多く、出現頻度が相対的に多い区間ではその色の属性の学習回数を相対的に少なくなるように学習スケジュールを決定する。これにより、色の属性の偏りを抑制したデモザイク学習を行うことができ、ロバスト性の高い学習モデルを得ることができる。

なお、本実施形態の解析処理において、Ｓ３０１で取得した全ての教師画像を使用する例を説明したが、これに限定されない。Ｓ３０１で取得した全ての教師画像のうち一部の教師画像のみを用いてもよい。

また、本実施形態では、教師画像群の色相を解析して得た色相分布特性を基に、色相にて所定区間毎に、色相分布特性が一様となる学習回数を決定する例を説明したが、これに限定されない。教師画像群の彩度を解析して得た彩度分布特性を基に、彩度にて所定区間毎に、彩度分布特性が一様となる学習回数を決定してもよい。また、教師画像群の輝度を解析して得た輝度分布特性を基に、輝度にて所定区間毎に、輝度分布特性が一様となる学習回数を決定してもよい。

また、教師画像がどの区間に属するかは、教師画像の色相ヒストグラムから最頻である色相によって定めたが、方法はこれに限定されない。例えば、教師画像内の被写体のみから求めた色相ヒストグラムの最頻の色相によって定めてもよい。

また、色相毎の学習回数Ｎｂを各色相の出現頻度の逆数から算出したが、これに限定されない。出現頻度の少ない色相に属する画像データの学習回数を相対的に多く、出現頻度の多い色相に属する画像データの学習回数を相対的に少なくなるように算出できれば、どのように学習回数を算出してもよい。

また、本実施形態では、教師画像群を用いて初めら学習を行って学習モデルを生成したが、これに限定されない。事前に異なる画像群を用いて学習した学習モデルをベースに本実施形態のデモザイク学習を行ってもよい。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２１１解析部
２１２学習スケジュール決定部
２１３データセット生成部
２１４デモザイク学習部

Claims

ネットワークを用いた学習モデルを生成する情報処理装置であって、
複数の色成分を含む教師画像で構成される第１画像群を取得する取得手段と、
前記第１画像群に含まれる色の属性を表す分布特性を得る解析手段と、
前記第１画像群と、当該第１画像群に対応する第２画像群との組で構成されるデータセットを生成する生成手段と、
前記分布特性に基づき学習回数を決定する決定手段と、
前記学習回数に基づき、前記データセットを用いて、前記ネットワークを用いた学習を行って、前記学習モデルを生成する学習手段と
を有する、ことを特徴とする情報処理装置。
前記分布特性は、色相の分布を示す色相分布特性であり、
前記決定手段は、前記解析手段によって得た色相分布特性に基づいて、色相にて所定区間毎に、前記色相分布特性が一様となる前記学習回数を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記分布特性は、輝度の分布を示す輝度分布特性であり、
前記決定手段は、前記解析手段によって得た輝度分布特性に基づいて、輝度にて所定区間毎に、前記輝度分布特性が一様となる前記学習回数を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記分布特性は、彩度の分布を示す彩度分布特性であり、
前記決定手段は、前記解析手段によって得た彩度分布特性に基づいて、彩度にて所定区間毎に、前記彩度分布特性が一様となる前記学習回数を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記学習手段は、前記学習モデルが所定の条件を満たさない場合、他の教師画像と統合して前記所定の条件を満たす学習モデルを生成する
ことを特徴とする請求項１から請求項４の何れか一項に記載の情報処理装置。
前記所定の条件は、前記学習モデルと他の教師画像とで、画素単位の差分が、所定値を超えている場合であることを特徴とする請求項５に記載の情報処理装置。
前記決定手段は、前記分布特性に基づき、前記色の属性において、出現頻度が相対的に少ない区間については、前記学習回数を相対的に多く設定する
ことを特徴とする請求項１から請求項６の何れか一項に記載の情報処理装置。
前記決定手段は、前記出現頻度が相対的に少ない区間の中でも、大域的に補色で構成される区間に対し、前記学習回数を相対的に多く設定する
ことを特徴とする請求項７に記載の情報処理装置。
前記決定手段は、前記色の属性にて所定区間毎に前記分布特性が一様となる前記学習回数を決定する
ことを特徴とする請求項１から請求項８の何れか一項に記載の情報処理装置。
前記ネットワークは、畳み込みニューラルネットワークを用いたネットワークであることを特徴とする請求項１から請求項９の何れか一項に記載の情報処理装置。
現像の対象となるＲＡＷ画像を取得する取得手段と、
前記ＲＡＷ画像に対して、前記学習によって得た前記学習モデルを用いた推論によるデモザイクを行って、前記複数の色成分に対応するＲＧＢの３チャネルから成るＲＧＢ画像を生成する手段と
をさらに有する
ことを特徴とする請求項１から請求項１０の何れか一項に記載の情報処理装置。
ネットワークを用いた学習モデルを生成する情報処理方法であって、
複数の色成分を含む教師画像で構成される第１画像群を取得する取得ステップと、
前記第１画像群に含まれる色の属性を表す分布特性を得る解析ステップと、
前記第１画像群と、当該第１画像群に対応する第２画像群との組で構成されるデータセットを生成する生成ステップと、
前記分布特性に基づき学習回数を決定する決定ステップと、
前記学習回数に基づき、前記データセットを用いて、前記ネットワークを用いた学習を行って、前記学習モデルを生成する学習ステップと、
を含む、ことを特徴とする情報処理方法。
コンピュータを、請求項１から請求項１１の何れか一項に記載の情報処理装置として機能させるためのプログラム。