JP2023003763A

JP2023003763A - 学習装置、画像処理装置、学習処理方法、及びプログラム

Info

Publication number: JP2023003763A
Application number: JP2021105035A
Authority: JP
Inventors: 洋佑高田; Yosuke Takada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-01-17
Also published as: US20220414827A1

Abstract

【課題】ニューラルネットワークを用いたデモザイク処理において、偽パターンの発生を抑制する。【解決手段】モザイク画像を取得する。モザイク画像に対して、ニューラルネットワークを用いたデモザイク処理を行うことにより、デモザイク画像を生成する。デモザイク画像における低画質部を検出領域として検出する。検出領域の色相と同様の色相の領域を含む学習用画像を取得する。学習用画像を用いてニューラルネットワークの追加学習を行う。【選択図】図２

Description

本発明は、学習装置、画像処理装置、学習処理方法、及びプログラムに関し、特に画像のデモザイク処理に関する。

デジタルカメラなどのデジタル撮像装置に利用される撮像素子の各画素には、カラーフィルタを介して特定の波長の光が入射する。例えば、Ｂａｙｅｒ配列を持つカラーフィルタを用いる場合、撮像素子からは、各画素がＲＧＢいずれかの色に対応する画素値を有するモザイク画像データが得られる。そして、モザイク画像データの各画素について残り２色に対応する画素値を得るデモザイク処理などの様々な信号処理を施すことにより、各画素が複数の色のそれぞれに対応する画素値を有するカラー画像データが得られる。

デモザイク処理の手法としては、周囲の同一色の画素値に基づいて線形補間又は非線形補間を行う手法がある。さらなるデモザイク処理の手法として、非特許文献１は、深層学習技術を用いた補間手法を提案している。非特許文献１は、具体的には、学習データの中からデモザイクした際にアーティファクト等が発生する一部の困難データのみを抽出し、困難データに基づいてＣＮＮベースのデモザイクネットワークの学習を行う手法を開示している。

Michael Gharbi et al. "Deep joint demosaicking and denoising", ACM Transactions on Graphics, Vol. 35, Issue 6, Article No.: 191 (2016).

本件発明者は、非特許文献１に記載された深層学習のような、ニューラルネットワークを用いるデモザイク処理では、偽色及びモアレは発生しにくくなるものの、本来存在しない偽パターンが発生しやすいことを見出した。

本発明は、ニューラルネットワークを用いたデモザイク処理において、偽パターンの発生を抑制することを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る学習装置は以下の構成を備える。すなわち、
モザイク画像を取得する第１の取得手段と、
前記モザイク画像に対して、ニューラルネットワークを用いたデモザイク処理を行うことにより、デモザイク画像を生成する処理手段と、
前記デモザイク画像における低画質部を検出領域として検出する検出手段と、
前記検出領域の色相と同様の色相の領域を含む学習用画像を取得する第２の取得手段と、
前記学習用画像を用いて前記ニューラルネットワークの追加学習を行う学習手段と、
を備えることを特徴とする。

ニューラルネットワークを用いたデモザイク処理において、偽パターンの発生を抑制することができる。

一実施形態に係る学習装置のハードウェア構成例を示すブロック図。一実施形態に係る学習装置の機能構成例を示すブロック図。学習部３００の機能構成例を示すブロック図。データ生成部２０４の機能構成例を示すブロック図。学習データセット構築方法の一例を示す図。一実施形態に係る学習処理の流れを示すフローチャート。所定のパターンを検出する処理について説明する図。色相情報ファイルの一例を示す図。追加学習に用いるＣＧデータの一例を示す図。一実施形態に係る画像処理装置の機能構成例を示すブロック図。一実施形態に係る画像処理の流れを示すフローチャート。偽パターンの一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
（ＣＮＮについて）
一実施形態に係る学習装置は、ニューラルネットワークを用いたデモザイク処理を行う。まず、一実施形態で使用可能なニューラルネットワークの一例として、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）について説明する。ＣＮＮは、非特許文献１、及び深層学習技術を応用した画像処理技術において用いられている。ＣＮＮとは、フィルタと画像データとの畳み込み処理（ｃｏｎｖｏｌｕｔｉｏｎ）の後で、非線形演算を行うことを繰り返す、学習に基づく画像処理技術である。フィルタは、局所受容野（ＬｏｃａｌＲｅｃｅｐｔｉｖｅＦｉｅｌｄ：ＬＰＦ）とも呼ばれる。フィルタと画像データとの畳み込み処理の後で、非線形演算を行うことにより得られる画像データは、特徴マップ（ｆｅａｔｕｒｅｍａｐ）と呼ばれる。また、フィルタは学習（ｔｒａｉｎｉｎｇ又はｌｅａｒｎｉｎｇ）により生成される。学習は、入力画像データと出力画像データとのペアからなる学習データ（ｔｒａｉｎｉｎｇｉｍａｇｅｓ又はｄａｔａｓｅｔｓ）を用いて行われる。簡単にいうと、学習とは、入力画像データから対応する出力画像データへと高精度に変換可能なフィルタの値を、学習データから生成することである。詳細については後述する。

画像データが複数のカラーチャンネル（例えばＲＧＢ）を有する場合、又は特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、対応する数の複数のチャンネルを有することができる。すなわち、フィルタは、縦横サイズ及び枚数に加えて、チャンネル数の次元を持つ、４次元配列で表現される。フィルタと画像データ（又は特徴マップ）との畳み込み処理の後で、非線形演算する処理は、層（ｌａｙｅｒ）という単位で表現される。例えば、特定の特徴マップ及びフィルタは、ｎ層目の特徴マップ及びｎ層目のフィルタと呼ばれる。また、例えばフィルタと画像データとの畳み込み処理と非線形演算とのセットを３回繰り返すＣＮＮは、３層のネットワーク構造を有するという。

このような畳み込みと非線形演算との組み合わせは、以下の式（１）で表すことができる。

式（１）において、Ｗ_ｎはｎ層目のフィルタ、ｂ_ｎはｎ層目のバイアス、ｆは非線形演算子、Ｘ_ｎはｎ層目の特徴マップ、＊は畳み込み演算子を表す。なお、（ｌ）はｌ番目のフィルタ又は特徴マップであることを表している。フィルタ及びバイアスは、後述する学習により生成され、まとめてネットワークパラメータとも呼ばれる。

非線形演算の種類は特に限定されないが、例えばシグモイド関数（ｓｉｇｍｏｉｄｆｕｎｃｔｉｏｎ）又はＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を用いることができる。ＲｅＬＵに従う非線形演算は以下の式（２）で表すことができる。

すなわち、ＲｅＬＵ処理は、入力したベクトルＸの要素のうち負の要素値をゼロに変換し、正の要素値をそのままにする非線形な処理である。

次に、ＣＮＮの学習について説明する。ＣＮＮの学習は、入力画像（生徒画像）と対応する出力画像（教師画像）との組からなる学習データに対して得られる目的関数を最小化することにより行うことができる。目的関数は、例えば以下の式（３）で表すことができる。

ここで、目的関数であるＬは、正解（出力画像）と、推定（入力画像に対するＣＮＮ処理結果）との誤差を測る損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）である。また、Ｙ_ｉはｉ番目の出力画像、Ｘ_ｉはｉ番目の入力画像である。Ｆは、ＣＮＮの各層で行う演算（式１）をまとめて表す関数である。θは、ネットワークパラメータ（フィルタ及びバイアス）である。また、｜｜Ｚ｜｜_２はベクトルＺのＬ２ノルムを表し、簡単にいえばベクトルＺの要素の２乗和の平方根である。式（３）における目的関数では、Ｌ２ノルムの２乗が用いられている。また、ｎは学習に用いる学習データ（入力画像と出力画像とのセット）の数である。一般に、学習データの総数は多いため、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）を用いた学習においては、学習データの一部をランダムに選び、目的関数の最小化のために用いることができる。このような方法によれば、多くの学習データを用いた学習における計算負荷を低減できる。

目的関数の最小化（＝最適化）法としては、モーメンタム（ｍｏｍｅｎｔｕｍ）法、ＡｄａＧｒａｄ法、ＡｄａＤｅｌｔａ法、及びＡｄａｍ法等の様々な方法を用いることができる。例えば、以下の式（４）に従うＡｄａｍ法を採用することができる。

式（４）において、θ_ｉ ^ｔは、ｔ回目の反復におけるｉ番目のネットワークパラメータであり、ｇはθ_ｉ ^ｔに関する損失関数Ｌの勾配である。また、ｍ及びｖはモーメントベクトルであり、αは基本学習率（ｂａｓｅｌｅａｒｎｉｎｇｒａｔｅ）であり、β_１及びβ_２はハイパーパラメータであり、εは適宜定めることができる小さな定数である。使用する最適化法は特に限定されないが、最適化法ごとに収束性の違いがあり、学習時間の違いも生じることが知られているため、用途等に応じて選択することができる

ＣＮＮの具体的な構成は特に限定されない。ＣＮＮを用いたネットワークの具体的な構成としては、画像認識分野で用いられるＲｅｓＮｅｔ、及び超解像分野におけるＲＥＤ－Ｎｅｔ等が挙げられる。いずれも、多層のＣＮＮを用いて、フィルタの畳み込みを何度も行うことにより、処理の高精度化が図られている。例えば、ＲｅｓＮｅｔは畳み込み層をショートカットする経路を有するネットワーク構造を有しており、１５２層の多層ネットワークにより人間の認識率に迫る高精度な認識を実現する。なお、多層のＣＮＮにより処理が高精度化する理由は、簡単にいえば、非線形演算を何度も繰り返すことによりＣＮＮが入出力間の非線形な関係を表現できるためである。

（学習装置の構成）
本実施形態に係る学習装置は、ニューラルネットワーク又は深層学習を用いてデモザイク処理を行う際に生じることがある画質弊害を検出し、この画質弊害を抑制するように学習データを作成してニューラルネットワークの追加学習を行う。上記のように、本願発明者は、ニューラルネットワーク又は深層学習を用いてデモザイク処理を行うと、偽色又はモアレのような画質弊害は良好に抑制されるが、偽パターンのような新たな画質弊害が発生しやすいことを見出した。偽パターンの一例を図１２に示す。図１２（Ａ）は円を表すＲＡＷ画像データに対してニューラルネットワークを用いてデモザイク処理を行った結果を、図１２（Ｂ）はニューラルネットワークを用いずに一般的なデモザイク処理を行った結果を、それぞれ表している。図１２（Ａ）に見られるように、ニューラルネットワークを用いて得られたデモザイク画像には、Ｂａｙｅｒ配列に沿って市松模様状の偽パターンが生じている。この原因は、ニューラルネットワーク又は深層学習のようなデータ駆動型の処理を行っていることにあり、具体的には学習データの不足若しくは偏り、又は学習の順番などによって画質弊害が生じるのではないかと考えられる。本実施形態においては、検出した画質弊害をニューラルネットワークにフィードバックし、追加学習を行うことで、ニューラルネットワークを用いたデモザイク処理において、偽パターンの発生を抑制することができる。

実施形態１に係る学習装置は、プロセッサとメモリとを備えるコンピュータにより実現することができる。図１は、実施形態１に係る学習装置のハードウェア構成の一例を示す。学習装置１００は、例えばＰＣ等のコンピュータであり、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、汎用インターフェース（Ｉ／Ｆ）１０４、モニタ１０８、及びメインバス１０９を備える。また、学習装置１００のメインバス１０９には、汎用Ｉ／Ｆ１０４を介して、カメラ等の撮像装置１０５、マウス又はキーボード等の入力装置１０６、及びメモリカード等の外部メモリ１０７が接続されている。

ＣＰＵ１０１は、ＨＤＤ１０３に格納された各種ソフトウェア（コンピュータプログラム）に従って動作することにより、以下のような各種処理を実現する。まず、ＣＰＵ１０１は、ＨＤＤ１０３に格納されている画像処理アプリケーションのプログラムをＲＡＭ１０２に展開して実行することにより、モニタ１０８にユーザインターフェース（ＵＩ）を表示させる。続いて、ＨＤＤ１０３又は外部メモリ１０７に格納されている各種データ、撮像装置１０５により取得された画像データ、入力装置１０６からのユーザ指示等が、ＲＡＭ１０２に転送される。さらに、画像処理アプリケーションの処理に従って、ＲＡＭ１０２に格納されているデータを用いた演算処理がＣＰＵ１０１からの指令に基づいて行われる。演算処理の結果は、モニタ１０８に表示することができ、また、ＨＤＤ１０３又は外部メモリ１０７に格納することができる。なお、ＨＤＤ１０３又は外部メモリ１０７に格納されている画像データがＲＡＭ１０２に転送されてもよい。また、不図示のネットワークを介してサーバから送信された画像データがＲＡＭ１０２に転送されてもよい。

以下では、上記のような構成を備える学習装置１００において、ＣＰＵ１０１からの指令に基づき、ニューラルネットワークの学習を行う態様について説明する。例えば図２に示されている、以下で説明される各部の機能は、ＣＰＵ１０１のようなプロセッサが、ＲＡＭ１０２又はＨＤＤ１０３のようなメモリに格納されたプログラムを実行することにより実現することができる。

本実施形態においては、ニューラルネットワークとして、デモザイクネットワークモデルが用いられる。デモザイクネットワークモデルとは、ニューラルネットワークのアーキテクチャ及びパラメータ（係数）を意味する。本実施形態においては、デモザイクネットワークモデルとして、上記のような多層ＣＮＮをベースとしたニューラルネットワークが用いられるが、ニューラルネットワークのアーキテクチャはＣＮＮをベースとするものには限られない。

また、本実施形態においては、ＲＡＷ画像データに対するデモザイク処理を行うためのモデルの学習を行う場合について説明する。すなわち、モザイク画像データとしては各画素がＲＧＢいずれかの色に対応する画素値を有するＲＡＷ画像データが用いられる。一方で、モザイク画像データは、１以上のプレーンそれぞれについての、画素値が設定された画素と画素値が設定されていない画素とが周期的に繰り返される画像の各画素値のデータ（例えばＢａｙｅｒ配列に従うＲＧＢ各プレーンのデータ）であってもよい。以下では、ＲＡＷ画像データは各画素が一色分の情報を有するＢａｙｅｒ配列のカラーフィルタを用いて撮像されていることを前提として説明を行うが、本発明はその他の配列のカラーフィルタを用いて撮像されたＲＡＷ画像にも適用可能である。

図２は、本実施形態に係る学習装置１００の機能構成例を示すブロック図である。図２に示すように、学習装置１００は、画像取得部２０１、デモザイク部２０２、検出部２０３、データ生成部２０４、及び学習部３００を有している。また、学習装置１００は、学習用画像を格納する格納部２０５を有していてもよい。なお、図２～４，１０に示した構成は、適宜変形又は変更することが可能である。例えば、１つの機能部を複数の機能部に分割してもよいし、２つ以上の機能部を１つの機能部に統合してもよい。また、図２～４，１０に示す構成は、２以上の装置によって実現されてもよい。この場合、各装置は、回路又有線若しくは無線のネットワークを介して接続され、互いにデータ通信を行って協調動作を行うことで、後述する各処理を実現することができる。

まず、学習部３００の機能構成例について、図３を参照して説明する。学習部３００は、教師画像格納部３０１、学習データ生成部３０２、学習データ格納部３０３、誤差算出部３０４、及びモデル更新部３０５を備える。学習部３００は、教師画像データから生成された学習データセットを用いて、デモザイク処理を行うニューラルネットワークの学習を行う。

教師画像格納部３０１は、複数の教師画像データを格納する。教師画像データとしては任意の画像のデータを用いることができる。例えば、教師画像格納部３０１は、風景又は動物を含む自然写真、ポートレート又はスポーツ写真のような人物写真、及び建築又は商品を含む人工物写真など、様々な種類の画像データを格納することができる。本実施形態では、教師画像データはＲＧＢカラーチャンネルを有している。教師画像としては、例えばＲＡＷ画像データに対してデモザイク処理を行わずに縮小処理を行うことにより得られた、デモザイク処理に伴う画質弊害が少ない画像を用いることができる。

学習データ生成部３０２は、複数の教師画像データに基づいて、モザイク画像データ（生徒画像データ）と教師画像データとのペアを複数含む学習データセットを生成する。学習データ生成部３０２は、教師画像格納部３０１に格納された各教師画像データを、カラーフィルタ配列に従ってサンプリングすることにより、モザイク画像データを生成することができる。こうして、ニューラルネットワークに入力されるモザイク画像データと同じデータ形式のモザイク画像データを生成することができる。生成された学習データセットは、学習データ格納部３０３に格納される。図５（Ａ）は、教師画像５１０（ＲＧＢ画像）をＢａｙｅｒ配列に従ってサブサンプリングすることにより、Ｂａｙｅｒ配列の生徒画像５２０（モザイク画像）を生成する例を示す。また、図５（Ｂ）は、学習データ格納部３０３に格納された教師画像５１０と生徒画像５２０とのペア５３０を示す。一方で、学習データ格納部３０３は教師画像データ群のみを格納していてもよい。この場合、誤差算出部３０４が教師画像データから生徒画像データ群を生成することができる。

誤差算出部３０４は、ニューラルネットワークの出力の誤差を算出する。具体的には、誤差算出部３０４は、学習データ格納部３０３から教師画像データと生徒画像データとのセットを取り出し、生徒画像データをデモザイクネットワークに入力して、デモザイク処理の結果を取得する。次に、誤差算出部３０４は、デモザイクネットワークからの出力結果（デモザイク画像）と教師画像データとを比較し、これらの間の誤差を算出する。誤差の算出には、式（３）に示す損失関数を用いることができる。

モデル更新部３０５は、誤差算出部３０４によって算出された誤差をフィードバックするように、ニューラルネットワークのパラメータを更新する。例えば、モデル更新部３０５は、誤差逆伝播法によりデモザイクネットワークのモデルパラメータの更新を行うことができる。

誤差算出部３０４及びモデル更新部３０５は、学習データ格納部３０３に格納された生徒画像データと教師画像データとのセットのそれぞれを用いて、繰り返しニューラルネットワークのパラメータの更新を行うことができる。選択した最適化手法に基づいて、既定の条件を満たすまでパラメータの更新が繰り返され、得られた学習済モデルが出力される。

一方で、図２に示す画像取得部２０１は、テスト用のモザイク画像を取得する。テスト用のモザイク画像は、上記の学習画像と同様に生成することができる一方で、学習画像とは別の画像であってもよい。例えば、テスト用のモザイク画像は、様々な色相の組み合わせからなる、記号又は図形が描画された、ＲＧＢチャンネルを有するテスト画像に対して、サンプリング処理を行うことにより生成することができる。テスト画像は、１つの色の記号又は図形部分と、別の色の背景部分と、で構成される画像であってもよい。

デモザイク部２０２は、テスト用のモザイク画像に対して、ニューラルネットワークを用いたデモザイク処理を行うことにより、テスト用のデモザイク画像を生成する。ニューラルネットワークとしては、学習部３００によって得られた学習済モデルが用いられる。

検出部２０３は、テスト用のデモザイク画像における低画質部の領域（弊害領域）を検出する。とりわけ、ニューラルネットワークを用いたデモザイク処理においては、市松模様状のパターンのような偽パターンが生じやすい。このため、検出部２０３は、テスト用のデモザイク画像から、市松模様状のパターンのような所定のパターンを有する領域を低画質部として検出することができる。具体的な検出方法については後述する。以下では、検出部２０３が検出した領域のことを検出領域と呼ぶ。

データ生成部２０４は、検出部２０３による検出領域と同様の色相の領域を含む学習用画像を取得する。データ生成部２０４の機能構成例を図４に示す。図４に示すデータ生成部２０４は、解析部４０１、オブジェクト選択部４０２、オブジェクト格納部４０３、及びＣＧデータ生成部４０４を備える。本実施形態において、データ生成部２０４は、検出部２０３による検出領域と同様の色相を持つＣＧデータを、学習用画像として生成し、格納部２０５に格納する。本明細書において、検出領域と同様の色相とは、検出領域の色相の角度から所定の角度閾値内にある色相のことを指す。

本願発明者は、ニューラルネットワーク又は深層学習を用いたデモザイク処理においては、特定の色相の領域において偽パターンのような画質弊害が生じやすいことを見出した。そこで、本実施形態では、学習済モデルを用いたデモザイク処理において弊害が発生しやすい色相の領域を含む学習用画像が生成され、この学習用画像を用いた学習済モデルの追加学習が行われる。このような追加学習により、上記特定の色相を持つモザイク画像に対するデモザイク処理において、偽パターンのような画質弊害が抑制されることが期待される。

解析部４０１は、検出部２０３による検出領域の色相を解析する。本実施形態において、解析部４０１は、検出領域の色相分布を解析する。

オブジェクト選択部４０２は、オブジェクト格納部４０３からオブジェクトデータを取得する。オブジェクトデータは、オブジェクト（図形、記号、文字、又は繰り返しパターン等）の形状を示すオブジェクト情報である。オブジェクト格納部４０３は、複数のオブジェクトについてのオブジェクトデータを格納している。オブジェクト選択部４０２は、オブジェクト格納部４０３に格納されている複数のオブジェクトデータの中からランダムに１つを選択することができる。オブジェクトの種類は特に限定されない。しかしながら、ニューラルネットワークの精度を効果的に向上させるために、連結画素領域を少なくとも１つ以上含み、各連結領域のサイズがデモザイク処理に用いるニューラルネットワークのフィルタサイズよりも大きいオブジェクトを用いることができる。また、オブジェクトの境界（エッジ形状）が異なる様々なオブジェクトを用いることによっても、ニューラルネットワークの精度を効果的に向上させることができる。このエッジ形状は、後述するＣＧデータ生成部４０４が生成するＣＧデータにおける、２種類の色相の境界形状に対応する。

ＣＧデータ生成部４０４は、解析部４０１による色相分布の解析結果と、オブジェクト選択部４０２が選択したオブジェクトデータとに基づいてＣＧデータを生成し、生成したＣＧデータを格納部２０５に格納する。このＣＧデータはオブジェクトを含んでおり、オブジェクトの色相は検出領域の色相と同様である。

学習部３００は、データ生成部２０４によって得られた学習用画像を用いて、ニューラルネットワークの追加学習を行うことができる。例えば、学習部３００は、格納部２０５に格納されているＣＧデータを、教師画像格納部３０１に格納することができる。そして、学習部３００は、教師画像格納部３０１に格納されたＣＧデータを教師画像データとして用いることにより、学習済モデルの追加学習を行うことができる。

（画像処理の流れ）
本実施形態に係る学習装置１００が行う処理について、図６（Ａ）及び（Ｂ）のフローチャートを参照して説明する。図６（Ａ）及び（Ｂ）に示されるフローチャートの処理は、ＣＰＵ１０１のようなプロセッサが、ＲＡＭ１０２又はＨＤＤ１０３のようなメモリに格納されたプログラムを実行することにより実現することができる。

まず、図６（Ａ）を参照して学習処理の一例について説明する。Ｓ６０１で、学習部３００は、デモザイク学習に必要な各種パラメータを取得する。パラメータは、ニューラルネットワークのパラメータの初期値、及びニューラルネットワークの構造及び最適化方法を示すハイパーパラメータを含むことができる。なお、後述するようにニューラルネットワークの追加学習を行う場合、学習部３００は、追加学習の対象となる学習済モデルのパラメータを取得することができる。

Ｓ６０２で、学習データ生成部３０２は、上述のように教師画像格納部３０１から教師画像データ群を取得する。Ｓ６０３で、学習データ生成部３０２は、上述のように、Ｓ６０２で取得した教師画像データ群を用いて、教師画像データ群と生徒画像データ群とを含む学習データセットを生成する。

Ｓ６０４で、誤差算出部３０４は、上述のように、Ｓ６０３で生成された学習データセットに含まれる生徒画像データに対するデモザイク処理を行う。Ｓ６０５で、誤差算出部３０４は、上述のように、Ｓ６０４で得られたデモザイク画像データと教師画像データとに基づいて、式（３）に示す損失関数に従って誤差を算出する。

Ｓ６０６で、モデル更新部３０５は、上述のように、Ｓ６０５で得られた誤差に従って学習モデルのパラメータを更新する。Ｓ６０７で、学習部３００は、学習を終了するか否かを判定する。例えば、学習部３００は、パラメータの更新回数が所定回数に達した場合に、学習を終了すると判定することができる。学習を終了しない場合、処理はＳ６０４へ戻り、別の生徒画像データ及び教師画像データを用いた学習が行われる。

続いて、図６（Ｂ）を参照して追加学習処理の一例について説明する。なお、図６（Ｂ）の処理は、画像取得部２０１が取得する複数のテスト用のモザイク画像のそれぞれに対して行うことができる。

Ｓ６０９で、画像取得部２０１は、上述のようにテスト用のモザイク画像を取得する。画像取得部２０１は、ＨＤＤ１０３、又は外部メモリ１０７等からテスト用のＲＧＢ画像データを取得し、ＲＧＢ画像データに対してサンプリング処理を行うことによりモザイク画像を生成してもよい。画像取得部２０１は、テストモザイク画像データに対してホワイトバランス処理又はオフセット加算処理等の前処理を行ってもよい。

Ｓ６１０で、デモザイク部２０２は、上述のように、学習部３００が出力した学習済モデルを用いた第１のデモザイク処理により、色情報が補間されたテスト用のデモザイク画像データを出力する。例えば、図７（Ａ）に示すように、モザイク画像データ７００に対するデモザイク処理によりデモザイク画像データが得られる。そして、デモザイク画像データをＲＧＢの３チャンネルに分割することにより、ＲＧＢそれぞれのデモザイク画像データ７１０Ｒ，７１０Ｇ，７１０Ｂが得られる。

Ｓ６１１で、検出部２０３は、テスト用のデモザイク画像から画質弊害が存在する弊害領域を検出する。検出部２０３は、空間フィルタを用いて、特定のパターンが存在する領域を、弊害領域として検出することができる。以下では、画質弊害を検出する空間フィルタを検出フィルタと表記する。

本願発明者は、ニューラルネットワークを用いて、所定の色配列に従うモザイク画像をデモザイク処理すると、この所定の色配列に相関のある偽パターンが生じやすいことを見出した。例えば、上記のように、Ｂａｙｅｒ配列に従うモザイク画像をデモザイク処理すると、Ｂａｙｅｒ配列に相関を持つ市松模様状の偽パターンが生じやすい。そこで、この例において、検出部２０３は、所定の色配列に相関のあるパターン、例えば市松模様状のパターンを、特定のパターンとして検出する。このようなパターンを検出するためには、Ｂａｙｅｒ配列に相関を持つフィルタ係数が設定された検出フィルタを用いることができる。このような検出フィルタの一例である、５×５のサイズを有するフィルタを図７（Ｂ）に示す。もっとも、検出フィルタのサイズ及び係数は特に限定されず、例えば３×３以上のサイズを有するフィルタを用いることができる。また、図７（Ｂ）に示す、係数として４又は－４が設定された検出フィルタの代わりに、縦横それぞれの方向について１画素ずつ正負の値が繰り返される検出フィルタを用いてもよい。さらには、弊害検出フィルタの係数は、中央部に近いほど値が大きく、端部に近いほど値が小さく設定されていてもよい。

検出部２０３は、デモザイク画像データ７１０Ｒ，７１０Ｇ，７１０Ｂのそれぞれに対して、検出フィルタを適用することができる。こうして、検出部２０３は、各チャンネルについての特定のパターンの強度を示すマップを生成することができる。そして、検出部２０３は、Ｒ、Ｇ、及びＢの各チャネルについて検出された特定のパターンの強度に基づいて、弊害領域を検出することができる。ここで、マップには孤立点のようなノイズが発生することがあり、これらのノイズが弊害領域として検出されることを防ぐために、検出部２０３は各チャンネルのマップに対してノイズ除去フィルタを適用することができる。ノイズ除去フィルタとしては、メディアンフィルタを用いることができる。

そして、検出部２０３は、各画素について、画素ごとに各チャンネルの特定のパターンの強度の最小値を抽出し、予め設定した閾値ｔｈ（例えばｔｈ＝１００）と比較することができる。画素について抽出された最小値が閾値ｔｈ以上の場合、この画素は弊害領域に属すると判定することができる。

Ｓ６１２で、検出部２０３は、テスト用のデモザイク画像から弊害領域を検出したか否かを判定する。弊害領域を検出した場合、処理はＳ６１３へ進み、そうでない場合、処理は終了する。

ステップＳ６１３で、データ生成部２０４は、Ｓ６１１で検出された検出領域の色相分布を解析し、解析結果に基づいてＣＧデータを生成する。具体的には、まず解析部４０１は、テスト用のデモザイク画像データからＳ６１１で検出された検出領域の色値をＲＧＢ色空間からＨＳＶ色空間へと変換し、色相の角度（Ｈ：０～１８０度、０度＝１８０度）を抽出して色相情報ファイルに記録する。なお、検出領域が複数の色を含む場合、解析部４０１は、検出領域の各画素の色相の角度のヒストグラムを作成し、最も出現頻度が高い色相の角度を記録することができる。

図８は、色相情報ファイルの一例を示す。色相情報ファイルには、検出領域の色相の角度（色相１）と、それ以外の色相の角度（色相２）と、を記録することができる。また、色相情報ファイルに記録される、色相１と色相２との組み合わせの数は、予め設定された数Ｎｕｍ（例えば、Ｎｕｍ＝３５）と、検出領域の数と、の積であってもよい。このような構成においては、色相２は、色相１とは異なる任意の角度であってもよい。図８においては、検出領域の数は３である。左列には昇順にデータ番号が記録され、中央列には色相１が、右列には色相２が記録されている。図８の例においては、色相２は、０～１８０度の範囲で等間隔となるように選択されており、具体的には色相１±ｉ×５°（ｉは０以外の整数）の角度である。ここで、また色相１が重複しないように、検出領域の色相の角度が、色相情報ファイルに記録されている色相の角度である場合は、記録をスキップすることができる。

次に、オブジェクト選択部４０２は、上述のように、オブジェクト格納部４０３からランダムにオブジェクトデータを選択する。

そして、ＣＧデータ生成部４０４は、解析部４０１が生成した色相情報ファイルと、オブジェクト選択部４０２が選択したオブジェクトデータに基づいて、ＣＧデータを生成する。ＣＧデータ生成部４０４は、色相１の色を持つ前景のオブジェクト（記号等）と、色相２の色を持つ背景とを有するように、ＣＧデータを生成することができる。反対に、ＣＧデータは、色相２の色を持つオブジェクトと、色相１の背景とを持っていてもよい。このように、ＣＧデータ生成部４０４は、色相情報ファイルに示される色相１と色相２との組み合わせを有するＣＧデータを生成することができる。なお、具体的な色相１の色及び色相２の色は適宜選択することができる。ＣＧデータ生成部４０４は、複数の色相１と色相２との組み合わせのそれぞれに対応するＣＧデータを生成することができ、それぞれのＣＧデータは異なるオブジェクトデータに基づいて生成されてもよい。ＣＧデータ生成部４０４は、生成したＣＧデータを、格納部２０５に格納する。

上記の構成によれば、データ生成部２０４は、１つの検出領域についての記録された色相１に基づいて、複数のＣＧデータを生成することができる。ここで、それぞれのＣＧデータはオブジェクト及び背景を含んでいる。そして、これらの複数のＣＧデータについて、オブジェクトの色相は検出領域の色相（色相１）と同様である一方で、背景の色相（色相２）は互いに異なっている。

図９（Ａ）～（Ｃ）は、ＣＧデータ生成部４０４が生成するＣＧデータの一例を示す。図９（Ａ）は記号、（Ｂ）は図形、（Ｃ）は繰り返しパターンのオブジェクトデータを用いて生成されたＣＧデータを表す。もちろん、オブジェクトは図９に示す形状に限定されず、他の記号、図形、文字、又は繰り返しパターンであってもよい。

ステップＳ６１４で、学習部３００は、Ｓ６１３で生成された学習用画像であるＣＧデータを、教師画像データとして用いて、ニューラルネットワークの追加学習を行う。追加学習は、図６（Ａ）に従って行うことができる。すなわち、学習部３００は、学習用画像に対するサンプリング処理（Ｓ６０３）により得られたモザイク画像をニューラルネットワークに入力する（Ｓ６０４）。そして、学習部３００は、ニューラルネットワークからの出力と学習用画像との誤差を算出し（Ｓ６０５）、この誤差に基づいて前記ニューラルネットワークの追加学習を行う（Ｓ６０６）。この追加学習は、学習済モデルをベースにして、学習済モデル生成時と同一のネットワーク構造を用いて行うことができる。追加学習においては、Ｓ６０２で、学習データ生成部３０２は格納部２０５に格納されたＣＧデータを教師画像データとして使用する。一方で、追加学習においては、教師画像格納部３０１に格納されている教師画像データ群に、格納部２０５に格納されたＣＧデータを追加し、双方のデータを教師画像データとして使用してもよい。

図６（Ｂ）に示す追加学習処理は、所定の条件が満たされるまで繰り返すことができる。例えば、弊害領域が検出されなくなるまで、又は所定の回数だけ、追加学習処理を行うことができる。

なお、Ｓ６１１では、検出フィルタを用いて弊害領域が検出された。しかしながら、Ｓ６０９で取得したテスト用のモザイク画像と、Ｓ６１０で取得したテスト用のデモザイク画像との間の画素ごとの差分が所定の閾値よりも大きくなる領域を、弊害領域として検出してもよい。このような方法により特定された低画質部である検出領域にも偽パターンが発生している可能性が高いため、検出結果に従って追加学習を行うことにより、学習済モデルを用いたデモザイク処理における偽パターンの発生を抑制することができる。

また、上述の実施形態では、色相１と色相２との組み合わせの数、すなわち生成されるＣＧデータの数は、数Ｎｕｍと検出領域の数との積であった。このように、データ生成部２０４は、検出部２０３が検出した検出領域の数に応じて、取得する学習用画像の数を決定することができる。しかしながら、学習用画像の数の決定方法はこの方法に限定されない。例えば、データ生成部２０４は、ニューラルネットワークの学習に用いた教師画像の数に応じて、取得する学習用画像の数を決定してもよい。具体的には、データ生成部２０４は、学習済モデルの作成のために用いた教師画像データの数に応じてＣＧデータの数を決定することができる。例えば、色相１と色相２との組み合わせの数が、教師画像データの数に所定の係数（例えば１％）を乗じて得られる数であってもよい。

さらに、Ｓ６１３においては、検出領域の色相の角度（色相１）を持つ色と、それ以外の色相の角度を持つ色と、を有する画像データを生成したが、具体的な生成方法は上述の方法には限られない。例えば、データ生成部２０４は、ニューラルネットワークの学習に用いた教師画像に対する画像処理により、検出領域の色相と同様の色相の領域を含む画像を生成してもよい。具体例として、データ生成部２０４は、教師画像格納部３０１に格納されている教師画像データ群から抽出された教師画像データを加工し、加工された教師画像データを追加学習に用いることができる。例えば、データ生成部２０４は、教師画像データ群から抽出した一定数の教師画像データに対して２値化処理を行い、第１の画素値を有する領域に色相１の色を、第２の画素値を有する領域に色相２の色を、それぞれ割り当てることができる。このような手法によっても、検出領域の色相の角度（色相１）を持つ色と、それ以外の色相の角度を持つ色と、を有する追加学習用の画像データを生成することができる。

また、追加学習用の画像データが２色のみで構成されている必要はない。例えば、データ生成部２０４が生成するＣＧデータにおいて、前景のオブジェクトの色が検出領域の色相の角度（色相１）を持つ一方で、背景が、色相１を持たない複数の色を含んでいてもよい。別の方法として、データ生成部２０４は、ニューラルネットワークの学習に用いた教師画像から、検出領域の色相と同様の色相の領域を含む画像を、追加学習用の画像として選択してもよい。例えば、データ生成部２０４は、教師画像格納部３０１から、色相１と同様の色相の色を含む教師画像データを収集して、収集した教師画像データを用いて追加学習を行ってもよい。また、データ生成部２０４は、色相１と色相２との組み合わせを含む教師画像データを収集してもよい。さらには、オブジェクトの形状情報、又は追加学習用の画像データには、ノイズが付与されていてもよい。一方で、データ生成部２０４は、効率的に追加学習を行うために、色相ヒストグラムの形状が双峰性を示す画像データを生成することができる。

さらに、本願発明者は、画像の一部の領域が特定の色相を有し、画像の別の領域が別の特定の色相を有する場合に、特に偽パターンのような画質弊害が生じやすいことを見出した。このため、解析部４０１は、テスト用のデモザイク画像データから、検出領域の色相と、検出領域以外の領域の色相と、の組み合わせを検出及び記録してもよい。この場合、解析部４０１は、検出領域以外の各画素の色相の角度のヒストグラムを作成し、最も出現頻度が高い色相の角度を、上記の色相２として記録してもよい。このような手法によれば、データ生成部２０４は、オブジェクト及び背景を含む追加学習用のＣＧデータを生成することができる。ここで、オブジェクトの色相は検出領域の色相（色相１）と同様であり、背景の色相は、デモザイク画像の検出領域以外の領域の色（色相２）に基づいて設定される。このような手法によれば、ニューラルネットワークの追加学習をより効率的に行えることが期待される。

以上の本実施形態によれば、偽パターンが発生する領域と同様の色を持つ画像を用いてニューラルネットワークの追加学習を行うことにより、学習済モデルを用いたデモザイク処理における偽パターンの発生を抑制することができる。

［実施形態２］
実施形態２に係る画像処理装置は、実施形態１に係る学習装置が出力した学習済モデルを用いてモザイク画像に対するデモザイク処理（推論処理）を行う。以下では、Ｂａｙｅｒ配列に従うＲＡＷ画像データ（モザイク画像データ）に対するデモザイク処理を行う例について説明する。

図１０は、本実施形態に係る画像処理装置１０００の機能構成例を示したブロック図である。本実施形態に係る画像処理装置１０００も、図１に示すような、プロセッサとメモリとを備えるコンピュータにより実現することができる。画像処理装置１０００は、取得部１００１、デモザイク部１００２、及び現像部１００３を備える。

取得部１００１は、モザイク画像データを取得する。デモザイク部１００２は、実施形態１に係る学習装置１００が出力した追加学習済のニューラルネットワークを用いて、取得部１００１が取得したモザイク画像データに対するデモザイク処理を行い、色情報が補間されたデモザイク画像データを出力する。現像部１００３は、デモザイク画像データに対する現像処理を行い、現像処理結果を出力する。

次に、本実施形態に係る画像処理装置１０００が行う処理について、図１１のフローチャートを参照して説明する。Ｓ１１０１で、取得部１００１は、撮像装置１０５、ＨＤＤ１０３、又は外部メモリ１０７等からＲＡＷ画像データを取得する。そして、取得部１００１は、ＲＡＷ画像データに対して、ホワイトバランス処理又はオフセット加算処理等の前処理を実施する。

Ｓ１１０２で、デモザイク部１００２は、学習装置１００により学習が行われた学習済モデルを用いて、Ｓ１１０１における前処理後のＲＡＷ画像データに対するデモザイク処理を行い、色情報が補間されたデモザイク画像を出力する。

Ｓ１１０３で、現像部１００３は、ステップＳ１１０２で出力されたデモザイク画像データに対して現像処理を行うことで現像処理結果を出力する。現像処理の種類は特に限定されないが、例えば、ノイズ低減処理、ダイナミックレンジ調整処理、ガンマ補正処理、シャープネス処理、及び色調整処理のうちの１つ以上であってもよい。結果の出力先は特に限定されず、例えば、ＨＤＤ１０３、外部メモリ１０７、又は汎用Ｉ／Ｆ１０４に接続される他の機器（例えばネットワークを介して画像処理装置１０００と接続される外部機器）であってもよい。

このように本実施形態によれば、実施形態１に係る学習装置によって出力された追加学習済みのニューラルネットワークを用いて、モザイク画像に対するデモザイク処理が行われる。このため、偽パターンのような画質弊害の発生を抑制することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：学習装置、２０１：画像取得部、２０２：デモザイク部、２０３：検出部、２０４：データ生成部、３００：学習部

Claims

モザイク画像を取得する第１の取得手段と、
前記モザイク画像に対して、ニューラルネットワークを用いたデモザイク処理を行うことにより、デモザイク画像を生成する処理手段と、
前記デモザイク画像における低画質部を検出領域として検出する検出手段と、
前記検出領域の色相と同様の色相の領域を含む学習用画像を取得する第２の取得手段と、
前記学習用画像を用いて前記ニューラルネットワークの追加学習を行う学習手段と、
を備えることを特徴とする学習装置。
前記検出手段は、所定のパターンを有する領域を前記検出領域として検出することを特徴とする、請求項１に記載の学習装置。
前記所定のパターンは市松模様状のパターンであることを特徴とする、請求項２に記載の学習装置。
前記モザイク画像は、所定の色配列に従うＲＡＷ画像であり、
前記所定のパターンは、前記所定の色配列に相関のあるパターンであることを特徴とする、請求項２又は３に記載の学習装置。
前記第２の取得手段は、オブジェクトを含む前記学習用画像を生成し、前記オブジェクトの色相は前記検出領域の色相と同様であることを特徴とする、請求項１から４のいずれか１項に記載の学習装置。
前記第２の取得手段は、オブジェクト及び背景を含む複数の前記学習用画像を生成し、
前記複数の学習用画像について、前記オブジェクトの色相は前記検出領域の色相と同様であり、
前記複数の学習用画像の間で、前記背景の色相は互いに異なる
ことを特徴とする、請求項１から４のいずれか１項に記載の学習装置。
前記第２の取得手段は、オブジェクト及び背景を含む前記学習用画像を生成し、
前記オブジェクトの色相は前記検出領域の色相と同様であり、
前記背景の色相は、前記デモザイク画像の前記検出領域以外の領域の色に基づいて設定されることを特徴とする、請求項１から４のいずれか１項に記載の学習装置。
前記第２の取得手段は、前記オブジェクトの形状を示すオブジェクト情報を、複数のオブジェクト情報を格納する格納手段から取得することを特徴とする、請求項５に記載の学習装置。
前記第２の取得手段は、前記ニューラルネットワークの学習に用いた教師画像から、前記検出領域の色相と同様の色相の領域を含む画像を、前記学習用画像として選択することを特徴とする、請求項１から４のいずれか１項に記載の学習装置。
前記第２の取得手段は、前記ニューラルネットワークの学習に用いた教師画像に対する画像処理により、前記検出領域の色相と同様の色相の領域を含む画像を生成することを特徴とする、請求項１から４のいずれか１項に記載の学習装置。
前記第２の取得手段は、前記検出手段が検出した前記検出領域の数に応じて、又は前記ニューラルネットワークの学習に用いた教師画像の数に応じて、取得する前記学習用画像の数を決定することを特徴とする、請求項１から１０のいずれか１項に記載の学習装置。
前記学習手段は、前記学習用画像に対するサンプリング処理により得られたモザイク画像を前記ニューラルネットワークに入力することにより得られた出力と、前記学習用画像と、の誤差に基づいて前記ニューラルネットワークの追加学習を行うことを特徴とする、請求項１から１１のいずれか１項に記載の学習装置。
モザイク画像を取得する手段と、
前記モザイク画像に対して、請求項１から１２のいずれか１項に記載の学習装置による追加学習によって得られたニューラルネットワークを用いたデモザイク処理を行うことにより、デモザイク画像を生成する手段と、
を備えることを特徴とする画像処理装置。
学習装置が行う学習処理方法であって、
モザイク画像を取得する工程と、
前記モザイク画像に対して、ニューラルネットワークを用いたデモザイク処理を行うことにより、デモザイク画像を生成する工程と、
前記デモザイク画像における低画質部を検出領域として検出する工程と、
前記検出領域の色相と同様の色相の領域を含む学習用画像を取得する工程と、
前記学習用画像を用いて前記ニューラルネットワークの追加学習を行う工程と、
を有することを特徴とする学習処理方法。
コンピュータを、請求項１から１２のいずれか１項に記載の学習装置として機能させるためのプログラム。