JP7100783B1 - 学習装置及び推論装置 - Google Patents

学習装置及び推論装置 Download PDF

Info

Publication number
JP7100783B1
JP7100783B1 JP2021146629A JP2021146629A JP7100783B1 JP 7100783 B1 JP7100783 B1 JP 7100783B1 JP 2021146629 A JP2021146629 A JP 2021146629A JP 2021146629 A JP2021146629 A JP 2021146629A JP 7100783 B1 JP7100783 B1 JP 7100783B1
Authority
JP
Japan
Prior art keywords
image data
machine learning
learning model
learning
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021146629A
Other languages
English (en)
Other versions
JP2023039499A (ja
Inventor
修二 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TSUBASA FACTORY CO., LTD.
Original Assignee
TSUBASA FACTORY CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TSUBASA FACTORY CO., LTD. filed Critical TSUBASA FACTORY CO., LTD.
Priority to JP2021146629A priority Critical patent/JP7100783B1/ja
Application granted granted Critical
Publication of JP7100783B1 publication Critical patent/JP7100783B1/ja
Publication of JP2023039499A publication Critical patent/JP2023039499A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】機械学習による画像データ処理において人の視覚特性に基づいた成分を用いることで、演算量を抑え、効率よく視覚上より良い画像データを生成するための学習装置、方法、推論装置並びにシステム及びプログラムを提供する。【解決手段】学習装置としての画像処理装置は、学習用画像データの入力を受け付ける入力部110と、第一学習用画像データが入力される第一機械学習モデル111と、機械学習モデルにおける設定値を学習する処理を実行する学習処理実行部101と、設定値を記憶する学習結果記憶部と、を備える。第一学習用画像データは、明るさ成分及び色味成分又は明るさ成分のみを有する第一加工前画像データ及び明るさ成分のみを有する第一加工後画像データから構成される。学習処理実行部は、第一機械学習モデルを用いて、第一加工前画像データ及び第一加工後画像データに基づいて第一機械学習モデルにおける設定値を学習する処理を実行する。【選択図】図2

Description

本発明は、画像処理用の機械学習モデルを用いた学習装置及び推論装置に関する。
従来より、機械学習によるデータ処理方法で、コンピュータプログラムに対して、教師データとなるデータセットを与えて、プログラムのパラメータを学習することで、任意のデータに対してデータ処理を行うことができる学習済みモデルを生成する方法が知られている。
例えば、機械学習を用いた「入力画像(教師データ)→学習用プログラム→出力画像(教師データ)」という処理において、入力画像と出力画像の誤差が一番小さくなるように学習用プログラムのパラメータを計算して「学習済みモデル」を生成する。そして、この「学習済モデル」を用いることで、「入力画像(任意のデータ:例えば低解像度画像)→学習済みモデル→出力画像(推論データ:例えば高解像度画像)」という、入力画像から出力画像を推論することで出力画像を生成することができる。
近年、機械学習のうちニューラルネットワークを用いた機械学習が多くの分野に適用されている。特に画像認識、音声認識の分野にて、ニューラルネットワークを多層構造で使用したディープラーニング(Deep Learning;深層学習) が高い認識精度を発揮している。多層化したディープラーニングでも、入力の特徴を抽出する畳み込み層及びプーリング層を複数回使用した畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた画像処理が行なわれている。
そして、ニューラルネットワークを用いた画像処理としては、信号を高解像度化させる超解像装置(例えば、特許文献1参照)や疾患領域の違いを把握することを容易にして精度の高い診断支援を行う診断支援装置(例えば、特許文献2参照)などがある。
特開2020-27557号公報 特開2018-38789号公報
ニューラルネットワークを用いる画像データ処理においては、機械学習モデルに対象となる画像データが入力される。例えば、機械学習モデルに使用される画像データは、座標ごとに区画されたピクセル(画素)の集まりとして表現され、各ピクセルにはピクセル値(例えば色情報RGBの3つの値)が付与される。機械学習モデルでは、対象となる画像データの有する全てのピクセル値が入力ニューロンに入力されて機械学習が実行されている。
通常、機械学習用の学習/推論用データとしてRGBやYCbCr色空間を用いて表現された画像データを使用する際には、図8に示すように機械学習モデルの入力及び出力側に同数のチャンネルを設定して機械学習を実行する。具体的には、RGBの画像データはRチャンネル、Gチャンネル、Bチャンネル、YCbCrの画像データではYチャンネル、Cbチャンネル、Crチャンネルの3入力及び3出力が設定される。
しかしながら、人の視覚は色の変化よりも明るさの変化に非常に敏感であり、色味成分を減らしても人は特に不自然だと感じにくいという視覚特性を有する。従って、このような人の視覚特性を無視して、上述のように複数チャンネルで構成される画像データを全て機械学習モデルに一律に入力/出力することで、学習の処理効率が落ちたり、演算量が増加していると考えられる。
さらに、上記特許文献に示される画像処理方法においても、画像データに対する上述のような人の視覚特性を配慮した演算処理は開示されていない。
本発明は、上記課題に鑑みてなされたものであり、機械学習による画像データ処理において、人の視覚特性に基づいた成分を用いることで、演算量を抑え、効率よく視覚上より良い画像データを生成できる学習装置及び推論装置を提供することを目的とする。
上記目的を達成するために本発明は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、学習用画像データの入力を受け付ける入力部と、前記入力部から第一学習用画像データが入力される第一機械学習モデルと、学習対象の機械学習モデルを用いて、学習用画像データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、前記設定値を記憶する学習結果記憶部と、を備え、前記第一学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ、及び出力側の学習用画像データとなる明るさ成分のみを有する第一加工後画像データから構成され、前記学習処理実行部は、前記第一機械学習モデルを用いて、前記第一加工前画像データ及び第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく前記第一機械学習モデルにおける設定値を学習する処理を実行し、前記学習装置は、さらに、前記入力部から第二学習用画像データが入力される第二機械学習モデルを備え、前記第二学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとを有する第二加工前画像データ、及び出力側の学習用画像データとなる明るさ成分と色味成分との両方又は色味成分のみを有する第二加工後画像データから構成され、前記学習処理実行部は、前記第二機械学習モデルを用いて、前記第二加工前画像データ及び第二加工後画像データに基づいて、当該第二加工前画像データを入力した前記第二機械学習モデルからの出力と、当該第二加工後画像データとの差分を最小化すべく前記第二機械学習モデルにおける設定値を学習する処理を実行することを特徴とするものである。
この学習装置において、さらに、前記第二加工前画像データの前記第一推論画像データの明るさ成分の代わりに、明るさ成分のみから成る教師用画像データを用いることが好ましい。
また、上記目的を達成するために本発明は、機械学習モデルを用いて対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論装置であって、対象画像データの入力を受け付ける入力部と、前記入力部から第一対象画像データが入力される第一機械学習モデルと、推論処理を実行する機械学習モデルを用いて、対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論処理実行部と、を備え、前記第一機械学習モデルは、明るさ成分及び色味成分、又は明るさ成分のみを有する入力側の第一加工前画像データ、及び明るさ成分のみを有する教師用画像データである出力側の第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく当該第一機械学習モデルにおける設定値を学習したモデルであって、前記推論処理実行部は、前記第一対象画像データを前記第一機械学習モデルに出力し、当該第一対象画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データであって、前記第一機械学習モデルにおいては、前記第一対象画像データから推論された明るさ成分のみから成る第一推論画像データを生成し、前記推論装置は、さらに、前記入力部から第二対象画像データが入力される第二機械学習モデルを備え、前記推論処理実行部は、前記第二対象画像データを前記第二機械学習モデルに出力し、当該第二対象画像データは、明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとから構成され、前記第二機械学習モデルにおいては、前記第二対象画像データから推論された、明るさ成分及び色味成分、又は色味成分のみを有する第二推論画像データを生成することを特徴とするものである。
また、本発明は、コンピュータを上記記載の学習装置又は推論装置として動作させることを特徴とするコンピュータプログラムである。
また、本発明は、上記に記載の学習装置もしくは推論装置又は上記記載のコンピュータプログラムに向けて前記入力データを送信し、前記出力データを受信して利用することを特徴とするコンピュータシステムである。
また、本発明は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習方法であって、学習用画像データの入力を受け付ける入力ステップと、前記入力ステップから第一学習用画像データが入力される第一機械学習モデルにおける第一機械学習ステップと、学習対象の機械学習モデルを用いて、学習用画像データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、前記設定値を記憶する学習結果記憶ステップと、を備え、前記第一学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ、及び出力側の学習用画像データとなる明るさ成分のみを有する第一加工後画像データから構成され、前記学習処理実行ステップにおいては、前記第一機械学習モデルを用いて、前記第一加工前画像データ及び第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく前記第一機械学習モデルにおける設定値を学習する処理を実行し、前記学習方法は、さらに、前記入力ステップから第二学習用画像データが入力される第二機械学習モデルを備え、前記第二学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとを有する第二加工前画像データ、及び出力側の学習用画像データとなる明るさ成分と色味成分との両方又は色味成分のみを有する第二加工後画像データから構成され、前記学習処理実行ステップにおいては、前記第二機械学習モデルを用いて、前記第二加工前画像データ及び第二加工後画像データに基づいて、当該第二加工前画像データを入力した前記第二機械学習モデルからの出力と、当該第二加工後画像データとの差分を最小化すべく前記第二機械学習モデルにおける設定値を学習する処理を実行することを特徴とする。
また、本発明は、機械学習モデルを用いて対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論方法であって、対象画像データの入力を受け付ける入力ステップと、前記入力ステップから第一対象画像データが入力される第一機械学習モデルにおける第一機械学習ステップと、推論処理を実行する機械学習モデルを用いて、対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論処理実行ステップと、を備え、前記第一機械学習モデルは、明るさ成分及び色味成分、又は明るさ成分のみを有する入力側の第一加工前画像データ、及び明るさ成分のみを有する教師用画像データである出力側の第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく当該第一機械学習モデルにおける設定値を学習したモデルであって、前記推論処理実行ステップにおいては、前記第一対象画像データを前記第一機械学習モデルに出力し、当該第一対象画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データであって、前記第一機械学習モデルにおいては、前記第一対象画像データから推論された明るさ成分のみから成る第一推論画像データを生成し、前記推論方法は、さらに、前記入力ステップから第二対象画像データが入力される第二機械学習モデルを備え、前記推論処理実行ステップにおいては、前記第二対象画像データを前記第二機械学習モデルに出力し、当該第二対象画像データは、明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとから構成され、前記第二機械学習モデルにおいては、前記第二対象画像データから推論された、明るさ成分及び色味成分、又は色味成分のみを有する第二推論画像データを生成することを特徴とする。
本発明に係る学習装置は、学習用画像データの入力を受け付ける入力部と、第一学習用画像データが入力される第一機械学習モデルと、機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、設定値を記憶する学習結果記憶部と、を備える。第一学習用画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ、及び明るさ成分のみを有する第一加工後画像データから構成される。学習処理実行部は、第一機械学習モデルを用いて、第一加工前画像データ及び第一加工後画像データに基づいて第一機械学習モデルにおける設定値を学習する処理を実行する。この構成により、本願発明に係る学習装置では、効率よく視覚上より良い画像データを生成するための学習を実行できる。
本発明の実施の形態に係る画像処理装置の構成を示すブロック図である。 同上画像処理装置の機能ブロック図である。 同上画像処理装置に備わる第一機械学習モデルにおける学習/推論処理のイメージ図である。 同上画像処理装置に備わる第二機械学習モデルにおける学習/推論処理のイメージ図である。 同上画像処理装置の学習動作時の動作手順を示すフローチャートである。 同上画像処理装置の推論動作時の動作手順を示すフローチャートである。 本発明の実施の形態の変形例に係る画像処理装置に備わる第二機械学習モデルにおける学習処理のイメージ図である。 従来の機械学習用の学習/推論用データのイメージ図である。
(実施の形態)
本発明の実施の形態に係る画像処理装置について図1乃至図6を参照して説明する。本実施の形態において、画像処理装置は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置、及び機械学習モデルを用いて対象画像データに対して所定の推論処理を実行する推論装置の少なくとも一方としての機能を発揮する。
最初に、画像処理装置1に備わる各処理部に関して図1を参照しながら説明する。画像処理装置1は、図1に示すように、制御部10、画像処理部11、記憶部12、通信部13、表示部14、操作部15及び読取部16を備える。なお、画像処理装置1及び画像処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
制御部10は、CPUなどのプロセッサやメモリを用いて、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、さらには記憶部12及び通信部13を集積した1 つのハードウェア(SoC:System on a Chip)として構成されていてもよい。
記憶部12は、ハードディスクやフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、機械学習モデル(例えばCNN)としての機能を発揮させる機械学習ライブラリ1Lが記憶されている。また、記憶部12には、機械学習モデルを定義する定義データ、学習済み機械学習モデルにおける設定値等を含むパラメータなどが記憶される。
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、及び機械学習ライブラリ3Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P及び機械学習ライブラリ1Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P及び機械学習ライブラリ3Lを制御部10が記憶部12に複製したものであってもよい。
次に、画像処理装置1の画像処理の機能に関して図2を参照しながら説明する。画像処理装置1の制御部10は学習処理実行部101及び推論処理実行部102を備える。学習処理実行部101は、記憶部12に記憶してある機械学習ライブラリ1L、定義データ、パラメータ情報に基づき機械学習モデル(機械学習エンジン)として機能する。すなわち、学習処理実行部101は、学習対象の機械学習モデルを用いて、学習用画像データに基づいて、学習対象の機械学習モデルにおける設定値(パラメータ等)を学習する処理を実行する。
推論処理実行部102は、記憶部12に記憶してある画像処理プログラム1Pに基づき、画像処理を行う。すなわち、推論処理実行部102は、機械学習モデルを用いて、入力される対象画像データに対して所定の推論処理を実行する。また、推論処理実行部102は、ユーザの操作部15を用いた操作に基づき、入力データである画像データを入力部110に入力する画像処理実行部としての機能を発揮する。
本実施の形態において、画像処理部11の入力部110は学習用画像データ又は推論対象となる対象画像データの入力を受け付ける。学習処理実行部101は、第一学習用画像データを第一機械学習モデル111に、第二学習用画像データを第二機械学習モデル112に振り分けて出力する。また、推論処理実行部102は、第一推論対象画像データを第一機械学習モデル111に、第二推論対象画像データを第二機械学習モデル112に振り分けて出力する。各画像データの種類は、例えば画像データのヘッダ部の情報や識別子を読み込むことにより判定できる。
第一機械学習モデル111及び第二機械学習モデル112は、推論時の機械学習モデルがCNNとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよく、画像データの特徴量を取り出し、取り出された特徴量に基づいて画像加工処理を行う。
第一機械学習モデル111で処理された画像データ、及び第二機械学習モデル112で処理された画像データは、出力部113に入力される。出力部113は、画像結合部113aを備え、第一機械学習モデル111及び第二機械学習モデル112から出力されたデータを、画像結合部113aに入力して画像結合処理を実行することもできる。なお、出力データを画像処理部11において画像として描画して、表示部14に出力しても良い。
第一機械学習モデル111及び第二機械学習モデル112は、学習済みモデル使用時にはそれぞれ既に学習済のパラメータに基づいて画像データの最適化処理(例えば画像の高解像度化やノイズ除去などの処理)を行う。画像結合部113aは、第一機械学習モデル111で生成された画像データ及び第二機械学習モデル112で生成された画像データを重ね合わせ処理などで結合して、出力データを記憶部12に出力できる。
次に、第一機械学習モデル111における学習/推論処理の具体例に関して図3を参照しながら説明する。第一機械学習モデル111に入力される第一学習用画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ301(本図においてY成分、及びCb,Crの色差成分を有する画像データ)、及び明るさ成分(本図においてはY(輝度)成分)のみを有する第一加工後画像データ302から構成される。この第一加工前画像データ301及び第一加工後画像データ302は、典型的にはRGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又は明るさ成分(本実施例ではY(輝度)成分)のみを用いて表現される画像データの何れかである。
また、本実施の形態の説明における明るさ成分とは画像データの輝度や明度、濃度などに関する成分であって、典型的にはYCbCrにおける輝度成分Yであり、YCbCrのY以外に、Lab色空間のL、HSV色空間のV、HLS色空間のLなどがある。YCbCrの代わりに、YUVやYPbPrを用いても良い。また、色味成分とは、典型的にはYCbCrにおける色差成分やHSVにおける色相、彩度である。その他、RGB画像等は明るさ成分及び色味成分が混合しているが、学習及び推論用画像データとして用いる場合は、一旦YCbCr等に変換してからその全部もしくは一部の成分を用いてもよい。この場合、当然にRGB画像からYCbCrに色変換するための機能や処理部が画像処理装置1に備わっているものとする。
第一機械学習モデル111の学習時には、学習処理実行部101は、図3に示すように、第一加工前画像データ301及び第一加工後画像データ302に基づいて、第一機械学習モデル111における設定値を学習する処理を実行する。なお、第一機械学習モデル111においては、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データが入力される入力部(本図ではYチャンネル、Cbチャンネル、Crチャンネルの3チャンネル入力)と、明るさチャンネルのみを有する画像データが出力される出力部(本図ではYチャンネルの1チャンネル出力)とが設定されている。このように、第一機械学習モデル111においては、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データが入力される少なくとも1チャンネル以上を有する入力部と、明るさチャンネルのみを有する画像データが出力される1チャンネルの出力部とが設定される。
一方、第一機械学習モデル111の推論時においては、第一機械学習モデル111に入力される第一対象画像データ303は、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データである。この第一対象画像データ303は、典型的には、RGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又は明るさ成分のみを用いて表現される画像データの何れかである。そして、第一機械学習モデル111における推論時には、第一対象画像データ303から推論された明るさ成分のみから成る第一推論画像データ304が生成される。
次に、第二機械学習モデル112の学習/推論処理の具体例に関して図4を参照しながら説明する。第二機械学習モデル112に入力される第二学習用画像データは、明るさ成分及び色味成分、又は色味成分のみを有する画像データと第一機械学習モデル111で推論された明るさ成分のみからなる第一推論画像データ304とを有する第二加工前画像データ401、及び明るさ成分及び色味成分、又は色味成分のみを有する第二加工後画像データ402から構成される。典型的には第二加工前画像データ401は、RGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又はCbCrを用いて表現される画像データの何れかである。第二加工後画像データ402は、RGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又はCbCrを用いて表現される画像データの何れかである。
なお、本図においては、第二加工前画像データとしてYCbCr色空間から構成される画像データのYチャンネル、Cbチャンネル、Crチャンネル、及び第一機械学習モデル111を用いて推論された明るさ成分(Y成分)のみからなる第一推論画像データ304が第二機械学習モデル112に対して入力され、Yチャンネル、Cbチャンネル、Crチャンネルが出力されるモデルとなる。第二機械学習モデル112は、入力部として2画像入力としても良いし第一推論画像データ入力のためのチャンネルを新たに設定(4チャンネル入力)してもよい。
そして、第二機械学習モデル112の学習時には、学習処理実行部101は、第二加工前画像データ401及び第二加工後画像データ402、第一推論画像データ304に基づいて、第二機械学習モデル112における設定値を学習する処理を実行する。
一方、第二機械学習モデル112の推論時において、第二機械学習モデル112に入力される第二対象画像データ403は、図4に示すように、明るさ成分及び色味成分、又は色味成分のみを有する画像データと第一機械学習モデル111を用いて推論された明るさ成分のみからなる第一推論画像データ304とから構成される。ここでの画像データは、例えばRGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又はCbCrを用いて表現される画像データの何れかである。そして、第二機械学習モデル112における推論時には、第二対象画像データ403から推論された明るさ成分及び色味成分の少なくとも一方から成る第二推論画像データ404を生成する。この第二推論画像データ404は、例えばRGBを用いて表現される画像データ、YCbCrを用いて表現される画像データ、又はCbCrを用いて表現される画像データの何れかである。なお、第二推論画像データ404がCbCrを用いて表現される画像データの場合には、画像結合部113aにおいて第一推論画像データ304の明るさ成分のみの画像データと結合させてYCbCrとする。
なお、図3に示す第一加工前画像データ301、第一加工後画像データ302、第一対象画像データ303と、図4に示す第二加工前画像データ401、第二加工後画像データ402、第二対象画像データ403とは、基本的には対となり同じ画像データであるか、又は同じ画像データから明るさ成分若しくは色味成分を取り出した画像データとなる。
次に、本実施の形態に係る画像処理装置1が学習装置として動作する際の動作手順に関して図5を参照しながら説明する。最初に、入力部110において画像データの入力がある場合(S501でYes)、入力部110は、第一学習用画像データ又は第学習用画像データか否かを判別し、第一学習用画像データの場合には(S502でYes)、第一機械学習モデル111に出力する(S503)。次に、第一機械学習モデル111では、第一学習用画像データに基づいて、パラメータ更新処理(設定値の更新処理)を行う(S504)。この設定値の更新は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。次に、更新された設定値を記憶部12に格納する(S505)。
一方、第二学習用画像データの場合には(S502でNo)、第二学習用画像データのうちの明るさ成分及び色味成分、又は明るさ成分のみを有する画像データを第一機械学習モデル111及び第二機械学習モデル112に出力する(S506)。そして、第一機械学習モデル111においては、当該画像データに基づいて推論された明るさ成分のみからなる第一推論画像データを生成してこれを第二機械学習モデル112に出力する(S507)。次に、第二機械学習モデル112は、第二学習用画像データ(すなわちここでは入力部110から受けた画像データ及び第一機械学習モデル111から受けた第一推論画像データ)に基づいて、第二機械学習モデル112におけるパラメータ更新処理(設定値の更新処理)を行う(S508)。
次に、本実施の形態に係る画像処理装置1が推論装置として動作する際の動作手順に関して図6を参照しながら説明する。最初に、入力部110において対象画像データの入力がある場合(S601でYes)、第一対象画像データか否かを判定する(S602)。そして、第一対象画像データの場合(S602でYes)、入力部110は、第一対象画像データを第一機械学習モデル111に出力する(S603)。次に、第一機械学習モデル111は、入力された第一対象画像データに対してCNNなどによる推論処理を行い、第一推論画像データを生成する(S604)。そして、推論結果を記憶部12に格納する(S605)。
一方、入力部110に入力された対象画像データが第二対象画像データと判定する場合(S602でNo)、入力部110は、第二対象画像データのうちの明るさ成分及び色味成分、又は明るさ成分のみを有する画像データを第一機械学習モデル111及び第二機械学習モデル112に出力する(S606)。そして、第一機械学習モデル111においては、当該画像データに基づいて推論された明るさ成分のみからなる第一推論画像データを生成してこれを第二機械学習モデル112に出力する(S607)。次に、第二機械学習モデル112は、入力部110から受けた画像データ及び第一機械学習モデル111から受けた第一推論画像データに基づいて、第二機械学習モデル112は、推論処理を行い第二推論画像データを生成する(S608)。
以上の説明のように、本実施の形態に係る画像処理装置1では、画像データの明るさ成分(Yチャンネル)のみを出力する第一機械学習モデル111を準備し、第二機械学習モデル112においては加工前画像データ及び第一機械学習モデル111で推論された明るさ成分のみを有する第一推論画像データを用いて学習を行なう。このため、画像処理装置1では、人の視覚において敏感な明るさ成分を、機械学習の学習/推論用データの基準値のように用いることができる。具体的には、学習処理実行部101は、加工前画像データを第一機械学習モデル111及び第二機械学習モデル112の全体に入力して得られる出力データと、既知の加工後画像データとの誤差を最小にする処理を実行し、パラメータ(重み)を更新できる。この学習処理により得られるパラメータは記憶部12に記憶される。この際、記憶部12は学習結果記憶部として機能している。
一方、推論装置として機能する場合には、記憶部12に記憶してある定義データ及びパラメータを用いて、第一機械学習モデル111及び第二機械学習モデル112を用いて推論画像データの生成を行う。
以上の構成により、画像処理装置1では、機械学習において、画像データは基本的に明るさ成分に多くの情報を含むという特性を利用し、人の視覚特性に基づいた明るさ成分を基準値のように用いることで、演算量を抑え、効率よく視覚上より良い画像データを生成できる。
なお、本実施の形態に係る画像処理装置1のハードウェア構成の内、通信部13、表示部14、操作部15、及び読取部16は必須ではない。通信部13については、例えば記憶部12に記憶される画像処理プログラム1P、及び機械学習ライブラリ1Lを外部サーバ装置から取得する場合に一旦使用された後は使用しない場合がある。読取部16も同様に、画像処理プログラム1P、機械学習ライブラリ1Lを記憶媒体から読み出して取得した後は使用されない可能性がある。そして通信部13及び読取部16は、USB等のシリアル通信を用いた同一のデバイスであってもよい。
画像処理装置1がWebサーバとして、上述の第一機械学習モデル111及び第二機械学習モデル112としての機能を、表示部及び通信部を備えるWebクライアント装置へ提供する構成としてもよい。この場合、通信部13は、Webクライアント装置からのリクエストを受信し、処理結果を送信するために使用される。
学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部の機械学習モデルを用いて評価を行なってもよい。
(変形例1)
本発明の実施の形態に係る画像処理装置1の変形例1に関して図7を参照して説明する。本変形例1に係る画像処理装置1は、第二加工前画像データの第一推論画像データの代わりに、先に学習済みの明るさ成分のみから成る教師用画像データ701(第一加工後画像データ302)を用いて学習することが出来る。この構成においても、上記実施の形態と同様の作用効果を奏することができる。
(変形例2)
また、図示してはいないが、第二推論画像データ404の明るさ成分の代わりに、先に推論済みの明るさ成分のみから成る第一推論画像データ304を用いて最終的な出力を生成することもできる。例えば、第二機械学習モデル112からの推論画像が色味成分のみから成っており(例えばCbCrのみ)、これに明るさ成分(Y成分)のみから成る第一推論画像データ304を組み合わせることができる。この場合には、画像結合部113aにおいて結合させることでYCbCrで表現された画像データとする。
なお、本発明は、上記実施の形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。また、本発明の目的を達成するために、本発明は、画像処理装置(学習装置及び推論装置)に含まれる特徴的な構成手段をステップとする画像処理方法(学習方法及び推論方法)としたり、それらの特徴的なステップを含むプログラムとして実現することもできる。そして、そのプログラムは、ROM等に格納しておくだけでなく、USBメモリ等の記録媒体や通信ネットワークを介して流通させることもできる。
また、本発明は、画像処理装置又はコンピュータプログラムに向けて入力データを送信し、画像処理装置又はコンピュータプログラムからの出力データを受信して利用するコンピュータシステムとしても実現できる。このシステムは、上述の処理により学習済みの機械学習モデルから得られるデータを利用した処理システムで、種々のサービスを提供できる。本システムに用いる装置は、表示部及び通信部を備えた画像処理装置又はコンピュータと情報を送受信できる情報処理装置などであり、例えば所謂PC、スマートフォン、携帯端末、ゲーム機器などである。
1 画像処理装置(学習装置及び推論装置)
12 記憶部(学習結果記憶部)
101 学習処理実行部
102 推論処理実行部
110 入力部
111 第一機械学習モデル
112 第二機械学習モデル
113 出力部
113a 画像結合部
301 第一加工前画像データ
302 第一加工後画像データ
303 第一対象画像データ
304 第一推論画像データ
401 第二加工前画像データ
402 第二加工後画像データ
403 第二対象画像データ
404 第二推論画像データ
701 教師用画像データ

Claims (7)

  1. 所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、
    学習用画像データの入力を受け付ける入力部と、
    前記入力部から第一学習用画像データが入力される第一機械学習モデルと、
    学習対象の機械学習モデルを用いて、学習用画像データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、
    前記設定値を記憶する学習結果記憶部と、を備え、
    前記第一学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ、及び出力側の学習用画像データとなる明るさ成分のみを有する第一加工後画像データから構成され、
    前記学習処理実行部は、前記第一機械学習モデルを用いて、前記第一加工前画像データ及び第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく前記第一機械学習モデルにおける設定値を学習する処理を実行し、
    前記学習装置は、さらに、
    前記入力部から第二学習用画像データが入力される第二機械学習モデルを備え、
    前記第二学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとを有する第二加工前画像データ、及び出力側の学習用画像データとなる明るさ成分と色味成分との両方又は色味成分のみを有する第二加工後画像データから構成され、
    前記学習処理実行部は、前記第二機械学習モデルを用いて、前記第二加工前画像データ及び第二加工後画像データに基づいて、当該第二加工前画像データを入力した前記第二機械学習モデルからの出力と、当該第二加工後画像データとの差分を最小化すべく前記第二機械学習モデルにおける設定値を学習する処理を実行する、ことを特徴とする学習装置。
  2. 前記第二加工前画像データの前記第一推論画像データの明るさ成分の代わりに、明るさ成分のみから成る教師用画像データを用いる、ことを特徴とする請求項記載の学習装置。
  3. 機械学習モデルを用いて対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論装置であって、
    対象画像データの入力を受け付ける入力部と、
    前記入力部から第一対象画像データが入力される第一機械学習モデルと、
    推論処理を実行する機械学習モデルを用いて、対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論処理実行部と、を備え、
    前記第一機械学習モデルは、明るさ成分及び色味成分、又は明るさ成分のみを有する入力側の第一加工前画像データ、及び明るさ成分のみを有する教師用画像データである出力側の第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく当該第一機械学習モデルにおける設定値を学習したモデルであって、
    前記推論処理実行部は、前記第一対象画像データを前記第一機械学習モデルに出力し、当該第一対象画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データであって、
    前記第一機械学習モデルにおいては、前記第一対象画像データから推論された明るさ成分のみから成る第一推論画像データを生成し
    前記推論装置は、さらに、
    前記入力部から第二対象画像データが入力される第二機械学習モデルを備え、
    前記推論処理実行部は、前記第二対象画像データを前記第二機械学習モデルに出力し、当該第二対象画像データは、明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとから構成され、
    前記第二機械学習モデルにおいては、前記第二対象画像データから推論された、明るさ成分及び色味成分、又は色味成分のみを有する第二推論画像データを生成する、ことを特徴とする推論装置。
  4. コンピュータを請求項1~の何れか1項に記載の学習装置又は推論装置として動作させる、ことを特徴とするコンピュータプログラム。
  5. 請求項1~の何れか1項に記載の学習装置もしくは推論装置又は請求項に記載のコンピュータプログラムに向けて入力データを送信し、これら学習装置もしくは推論装置又はコンピュータプログラムからの出力データを受信して利用する、ことを特徴とするコンピュータシステム。
  6. 所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習方法であって、
    学習用画像データの入力を受け付ける入力ステップと、
    前記入力ステップから第一学習用画像データが入力される第一機械学習モデルにおける第一機械学習ステップと、
    学習対象の機械学習モデルを用いて、学習用画像データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、
    前記設定値を記憶する学習結果記憶ステップと、を備え、
    前記第一学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は明るさ成分のみを有する第一加工前画像データ、及び出力側の学習用画像データとなる明るさ成分のみを有する第一加工後画像データから構成され、
    前記学習処理実行ステップにおいては、前記第一機械学習モデルを用いて、前記第一加工前画像データ及び第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく前記第一機械学習モデルにおける設定値を学習する処理を実行し、
    前記学習方法は、さらに、
    前記入力ステップから第二学習用画像データが入力される第二機械学習モデルを備え、
    前記第二学習用画像データは、入力側の学習用画像データとなる明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとを有する第二加工前画像データ、及び出力側の学習用画像データとなる明るさ成分と色味成分との両方又は色味成分のみを有する第二加工後画像データから構成され、
    前記学習処理実行ステップにおいては、前記第二機械学習モデルを用いて、前記第二加工前画像データ及び第二加工後画像データに基づいて、当該第二加工前画像データを入力した前記第二機械学習モデルからの出力と、当該第二加工後画像データとの差分を最小化すべく前記第二機械学習モデルにおける設定値を学習する処理を実行する、ことを特徴とする学習方法。
  7. 機械学習モデルを用いて対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論方法であって、
    対象画像データの入力を受け付ける入力ステップと、
    前記入力ステップから第一対象画像データが入力される第一機械学習モデルにおける第一機械学習ステップと、
    推論処理を実行する機械学習モデルを用いて、対象画像データに対して明るさ成分のみからなる画像データへの推論処理を実行可能とする推論処理実行ステップと、を備え、
    前記第一機械学習モデルは、明るさ成分及び色味成分、又は明るさ成分のみを有する入力側の第一加工前画像データ、及び明るさ成分のみを有する教師用画像データである出力側の第一加工後画像データに基づいて、当該第一加工前画像データを入力した前記第一機械学習モデルからの出力と、当該第一加工後画像データとの差分を最小化すべく当該第一機械学習モデルにおける設定値を学習したモデルであって、
    前記推論処理実行ステップにおいては、前記第一対象画像データを前記第一機械学習モデルに出力し、当該第一対象画像データは、明るさ成分及び色味成分、又は明るさ成分のみを有する画像データであって、
    前記第一機械学習モデルにおいては、前記第一対象画像データから推論された明るさ成分のみから成る第一推論画像データを生成し
    前記推論方法は、さらに、
    前記入力ステップから第二対象画像データが入力される第二機械学習モデルを備え、
    前記推論処理実行ステップにおいては、前記第二対象画像データを前記第二機械学習モデルに出力し、当該第二対象画像データは、明るさ成分及び色味成分、又は色味成分のみを有する画像データと前記第一機械学習モデルで推論された明るさ成分のみからなる第一推論画像データとから構成され、
    前記第二機械学習モデルにおいては、前記第二対象画像データから推論された、明るさ成分及び色味成分、又は色味成分のみを有する第二推論画像データを生成する、ことを特徴とする推論方法。
JP2021146629A 2021-09-09 2021-09-09 学習装置及び推論装置 Active JP7100783B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021146629A JP7100783B1 (ja) 2021-09-09 2021-09-09 学習装置及び推論装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021146629A JP7100783B1 (ja) 2021-09-09 2021-09-09 学習装置及び推論装置

Publications (2)

Publication Number Publication Date
JP7100783B1 true JP7100783B1 (ja) 2022-07-14
JP2023039499A JP2023039499A (ja) 2023-03-22

Family

ID=82402526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021146629A Active JP7100783B1 (ja) 2021-09-09 2021-09-09 学習装置及び推論装置

Country Status (1)

Country Link
JP (1) JP7100783B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001086523A (ja) 1999-09-09 2001-03-30 Fuji Photo Film Co Ltd 信号生成方法および装置並びに記録媒体
JP2019202087A (ja) 2018-05-25 2019-11-28 キヤノンメディカルシステムズ株式会社 医用情報処理システム、医用情報処理装置、放射線診断装置、超音波診断装置、学習用データの生産方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3806211B2 (ja) * 1997-01-08 2006-08-09 株式会社リコー 撮像信号処理方法及び撮像信号処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001086523A (ja) 1999-09-09 2001-03-30 Fuji Photo Film Co Ltd 信号生成方法および装置並びに記録媒体
JP2019202087A (ja) 2018-05-25 2019-11-28 キヤノンメディカルシステムズ株式会社 医用情報処理システム、医用情報処理装置、放射線診断装置、超音波診断装置、学習用データの生産方法及びプログラム

Also Published As

Publication number Publication date
JP2023039499A (ja) 2023-03-22

Similar Documents

Publication Publication Date Title
JP7490004B2 (ja) 機械学習を用いた画像カラー化
JP6639700B2 (ja) マルチモーダルデジタル画像を生成する方法及びシステム
JP6137916B2 (ja) 信号処理装置、信号処理方法、及び、信号処理システム
WO2020260862A1 (en) Facial behaviour analysis
KR20110110390A (ko) 대화형 유전자 알고리즘을 기반으로 사용자 취향을 반영한 감정 기반 영상의 색변환 방법
CN112215171A (zh) 目标检测方法、装置、设备及计算机可读存储介质
JP2016031746A (ja) 情報処理装置、情報処理方法
JP2012174273A (ja) 画像処理装置及び画像処理方法
CN112116589A (zh) 虚拟形象的评测方法、装置、设备及计算机可读存储介质
JP6723488B1 (ja) 学習装置及び推論装置
JP7100783B1 (ja) 学習装置及び推論装置
KR102659290B1 (ko) 모자이크 생성 장치 및 방법
US20230021444A1 (en) Image processing device, processing method thereof, and image processing system including the image processing device
CN110288663A (zh) 图像处理方法、装置、移动终端及存储介质
JP7321579B2 (ja) 学習装置、推論装置、学習方法、推論方法、コンピュータシステムおよびプログラム
JP7402552B2 (ja) 学習装置及び推論装置
JP7214236B2 (ja) 学習装置、推論装置、コンピュータプログラム、コンピュータシステム、推論方法及び学習方法
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN114155562A (zh) 手势识别方法及装置
KR101024954B1 (ko) 색채와 감정 간의 관계에 기초한 영상의 색 변환 방법
JP7005040B2 (ja) 学習装置、推論装置、学習方法、プログラムおよび推論方法
JP7418019B2 (ja) 情報処理装置、情報処理装置における情報処理方法、及びプログラム
JP2006041804A (ja) 肌色補正装置および方法並びにプログラム
JP7383684B2 (ja) 情報処理装置、情報処理方法、並びにプログラム
Nguyen et al. VampNet: Unsupervised Vampirizing of Convolutional Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210930

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220407

TRDD Decision of grant or rejection written
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7100783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350