JP2022037804A

JP2022037804A - 画像処理装置、画像処理プログラムおよび画像処理方法

Info

Publication number: JP2022037804A
Application number: JP2020142139A
Authority: JP
Inventors: 俊明大串; Toshiaki Ogushi; 賢司堀口; Kenji Horiguchi; 正雄山中; Masao Yamanaka
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-03-09
Anticipated expiration: 2040-08-25
Also published as: CN114120263A; US20220067882A1; JP7294275B2

Abstract

【課題】大量の教師データを準備することなく、推定精度を向上させることができる画像処理装置、画像処理プログラムおよび画像処理方法を提供すること。
【解決手段】画像処理装置は、ハードウェアを有するプロセッサを備え、プロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、意味的ラベル画像から元画像を推定することにより、復元画像を生成し、入力画像と復元画像との第一の差分を算出し、第一の差分に基づいて、意味的ラベルを推定する際の推定パラメータまたは元画像を推定する際の推定パラメータを更新する。
【選択図】図１

Description

本開示は、画像処理装置、画像処理プログラムおよび画像処理方法に関する。

特許文献１には、入力画像から意味的ラベルを推定し、意味的ラベルの推定困難度に基づいて教師データ（正解ラベル画像）を作成し、当該教師データを学習させることにより、意味的ラベルの推定精度を向上させる技術が開示されている。

特開２０１８－１９４９１２号公報

特許文献１の技術では、幅広いシーンにおいて精度を保つために、大量の画像に対して教師データを作成する必要があった。一般的に教師データの作成には高いコストが必要となる。そのため、大量の教師データを準備することなく、推定精度を向上させることができる技術が求められていた。

本開示は、上記に鑑みてなされたものであって、大量の教師データを準備することなく、推定精度を向上させることができる画像処理装置、画像処理プログラムおよび画像処理方法を提供することを目的とする。

本開示に係る画像処理装置は、ハードウェアを有するプロセッサを備え、前記プロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。

本開示に係る画像処理プログラムは、ハードウェアを有するプロセッサに、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。

本開示に係る画像処理方法は、ハードウェアを有するプロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。

本開示によれば、大量の教師データを作成することなく、推定精度を向上させることができる。

図１は、第一実施形態に係る画像処理装置の構成を示すブロック図である。図２は、第二実施形態に係る画像処理装置の構成を示すブロック図である。図３は、第三実施形態に係る画像処理装置の構成を示すブロック図である。図４は、第四実施形態に係る画像処理装置の構成を示すブロック図である。図５は、第五実施形態に係る画像処理装置の構成を示すブロック図である。図６は、第六実施形態係る画像処理装置の構成を示すブロック図である。図７は、第七実施形態に係る画像処理装置の構成を示すブロック図である。図８は、第八実施形態に係る画像処理装置の構成を示すブロック図である。図９は、第九実施形態に係る画像処理装置の構成を示すブロック図である。

本開示の実施形態に係る画像処理装置、画像処理プログラムおよび画像処理方法について、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

本開示に係る画像処理装置は、入力された画像（以下、「入力画像」という）に対して、意味的領域分割処理（セマンティック・セグメンテーション）を施すためのものである。以下で説明する画像処理装置の各実施形態は、例えばＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等からなるプロセッサと、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等からなるメモリ（主記憶装置、補助記憶装置）と、通信部（通信インターフェース）と、を備えたワークステーションやパソコン等の汎用コンピュータの機能によって実現される。

なお、画像処理装置の各部は、単一のコンピュータの機能によって実現されてもよく、あるいは機能別の複数のコンピュータの機能によって実現されてもよい。また、以下では、画像処理装置を車両の分野に適用した例について説明するが、画像処理装置は、意味的領域分割処理が必要な分野であれば、車両以外の分野にも幅広く適用可能である。

（第一実施形態）
第一実施形態に係る画像処理装置１について、図１を参照しながら説明する。画像処理装置１は、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、を備えている。

意味的ラベル推定部１１は、予め学習された識別器および学習済みパラメータを用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成する。意味的ラベル推定部１１は、具体的には、識別器および学習済みパラメータを用いて、入力画像の画素ごとの意味的ラベルを推定し、当該意味的ラベルを付与する。これにより、意味的ラベル推定部１１は、入力画像を意味的ラベル画像へと変換し、当該意味的ラベル画像を元画像推定部１２に出力する。なお、意味的ラベル推定部１１に入力される入力画像は、例えば車両に搭載された車載カメラによって撮影された画像でもよく、あるいは事前に撮影された画像であってもよい。

意味的ラベル推定部１１は、例えば深層学習（特にＣＮＮ（Convolutional Neural Network））ベースの手法を用い、畳み込み層（Convolution Layer）、活性化層（ReLU Layer，Softmax Layer等）、プーリング層（Pooling Layer）およびアップサンプリング層等の要素を、複数層状に積み重ねたネットワークとして構成される。また、意味的ラベル推定部１１で用いる識別器および学習済みパラメータの学習手法としては、例えばＣＲＦ（Conditional random field）ベースの手法、深層学習とＣＲＦ（Conditional random field）とを組み合わせた手法、複数解像度画像を用いてリアルタイムに推定する手法、等が挙げられる。

元画像推定部１２は、予め学習された識別器および学習済みパラメータを用いて、意味的ラベル推定部１１によって生成された意味的ラベル画像から元画像を推定することにより、復元画像を生成する。元画像推定部１２は、具体的には、識別器および学習済みパラメータを用いて、意味的ラベル画像から元画像を復元する。これにより、元画像推定部１２は、意味的ラベル画像を復元画像へと変換し、当該復元画像を差分算出部１３に出力する。

元画像推定部１２は、例えば深層学習（特にＣＮＮ（Convolutional Neural Network））ベースの手法を用い、畳み込み層（Convolution Layer）、活性化層（ReLU Layer，Softmax Layer等）、プーリング層（Pooling Layer）およびアップサンプリング層等の要素を、複数層状に積み重ねたネットワークとして構成される。また、元画像推定部１２で用いる識別器および学習済みパラメータの学習手法としては、例えばＣＲＮ（Cascaded Refinement Network）ベースの手法、Ｐｉｘ２ＰｉｘＨＤベースの手法、等が挙げられる。

差分算出部１３は、入力画像と、元画像推定部１２によって生成された復元画像との差分（第一の差分）を算出し、その算出結果をパラメータ更新部１４に出力する。差分算出部１３は、例えば入力画像の画像情報Ｉ（ｘ，ｙ）と、復元画像の画像情報Ｐ（ｘ，ｙ）とについて、画素ごとの単純な差分（Ｉ（ｘ，ｙ）－Ｐ（ｘ，ｙ））を算出してもよい。また、差分算出部１３は、入力画像の画像情報Ｉ（ｘ，ｙ）と、復元画像の画像情報Ｐ（ｘ，ｙ）とについて、下記式（１）によって、画素ごとの相関を算出してもよい。

また、差分算出部１３は、入力画像の画像情報Ｉ（ｘ，ｙ）と、復元画像の画像情報Ｐ（ｘ，ｙ）とについて、予め定めた画像変換ｆ（・）を施した後に、差分比較を行ってもよい。すなわち、差分算出部１３は、「ｆ（Ｉ（ｘ，ｙ））－ｆ（Ｐ（ｘ，ｙ））」を算出してもよい。なお、画像変換ｆ（・）としては、例えば深層学習器（例えばｖｇｇ１６，ｖｇｇ１９等）の隠れ層出力を用いる「perceptual loss」が挙げられる。なお、前記したいずれの方法を用いた場合においても、差分算出部１３によって算出される差分は、画像として出力される。そして、この差分算出部１３によって算出される差分を示す画像のことを、本開示では「再構成誤差画像」と定義する。

パラメータ更新部１４は、差分算出部１３によって算出された差分（再構成誤差画像）に基づいて、意味的ラベル推定部１１が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。

ここで、図１では、左上に入力画像の一例を、右上に意味的ラベル画像の一例を、左下に復元画像の一例を、右下に再構成画素画像の一例を、それぞれ示している。入力画像のＡ部に示すように、例えば入力画像の右下に警告看板が写っていたとする。この場合、意味的ラベル推定部１１において、当該警告看板を含んだ画像（正解ラベル画像）の学習を行っていない場合、この警告看板の部分について、ラベル推定ミスが発生する可能性がある（図１の意味的ラベル画像の右下参照）。そして、このようなラベル推定ミスが発生すると、元画像推定部１２で生成した復元画像においても、復元ミスが発生し（同図の復元画像の右下参照）、結果として、再構成誤差画像の再構成誤差が大きくなる（同図の再構成誤差画像の右下参照）。

そこで、画像処理装置１では、パラメータ更新部１４において、再構成誤差画像の再構成誤差が小さくなるように、意味的ラベル推定部１１の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。これにより、教師データ（正解ラベル画像）が存在しない入力画像を用いた場合であっても、意味的ラベルの推定精度を向上させることができる。

すなわち、画像処理装置１では、最初は限られた少数の教師データ（正解ラベル画像）を用いて簡易に初期学習させておき、その後は入力画像と復元画像との差分に基づいて、意味的ラベル推定部１１の推定パラメータを更新する。そのため、画像処理装置１では、大量の教師データを用いることなく、意味的ラベルの推定精度を向上させることが可能となる。そして、画像処理装置１では、大量の教師データを準備（例えば入力画像に対して正解ラベルを手作業で付与）する必要がないため、教師データの作成コストを低減することができる。

（第二実施形態）
第二実施形態に係る画像処理装置１Ａについて、図２を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ａは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、差分算出部１５と、パラメータ更新部１６と、を備えている。

差分算出部１５は、予め用意された正解ラベル画像と、意味的ラベル推定部１１によって推定された意味的ラベル画像との差分（第二の差分）を算出し、その算出結果をパラメータ更新部１６に出力する。

ここで、「正解ラベル画像」とは、入力画像に対応する意味的ラベル画像であり、各意味的ラベルの推定確率が１００％である意味的ラベル画像のことを示している。通常、意味的ラベル推定部１１によって生成された意味的ラベル画像は、画素ごとに、例えば「空の確率８０％、道路の確率２０％…」のように、各意味的ラベルの推定確率が設定されている。一方、正解ラベル画像では、「空の確率１００％」のように、各意味的ラベルの推定確率が１００％に設定されている。この正解ラベル画像は、人手で作成されたものでもよく、あるいは、高度な学習器によって自動的に作成されたものであってもよい。

差分算出部１５は、差分算出部１３と同様に、入力画像の画像情報と正解ラベル画像の画像情報とについて、画素ごとの単純な差分を計算してもよく、両者について、上記式（１）によって画素ごとの相関を算出してもよく、両者について、予め定めた画像変換ｆ（・）を施した後に、差分比較を行ってもよい。

パラメータ更新部１６は、差分算出部１５によって算出された差分とに基づいて、意味的ラベル推定部１１が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。

画像処理装置１Ａでは、入力画像に対する正解ラベル画像が入手できた場合に、パラメータ更新部１４における再構成誤差によるパラメータ更新に加えて、正解ラベル画像に含まれるラベルデータ（正解ラベルデータ）と、意味的ラベル推定部１１によって推定された意味的ラベルとが一致するように、パラメータ更新部１６によって、意味的ラベル推定部１１の推定パラメータを更新する。その際、パラメータ更新部１４とパラメータ更新部１６とを別々に動作させてもよく、あるいは両者の更新量の重みづけ和をとって同時に更新してもよい。

画像処理装置１Ａによれば、再構成誤差によるパラメータ更新に加えて、正解ラベル画像によるパラメータ更新を行うことにより、意味的ラベルの推定精度を更に向上させることができる。また、画像処理装置１Ａによれば、再構成誤差による学習を行うことにより、入力画像と正解ラベル画像だけで学習した場合と比較して、意味的ラベルの推定精度を向上させることができる。

（第三実施形態）
第三実施形態に係る画像処理装置１Ｂについて、図３を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｂは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、パラメータ更新部１７と、を備えている。

パラメータ更新部１７は、差分算出部１３によって算出された差分（第一の差分）に基づいて、元画像推定部１２が意味的ラベル画像から元画像を推定する際の推定パラメータを更新する。

画像処理装置１Ｂでは、パラメータ更新部１４において、再構成誤差画像の再構成誤差が小さくなるように、意味的ラベル推定部１１の推定パラメータを更新することに加えて、パラメータ更新部１７において、再構成誤差画像の再構成誤差が小さくなるように、元画像推定部１２の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。これにより、正解ラベル画像が存在しない入力画像を用いた場合であっても、元画像の推定精度を向上させることができる。

なお、画像処理装置１Ｂは、画像処理装置１Ａと組み合わせて実施してもよい。この場合、再構成誤差による意味的ラベルの推定パラメータの更新、正解ラベル画像による意味的ラベルの推定パラメータの更新、再構成誤差による元画像の推定パラメータの更新、をそれぞれ行う。画像処理装置１Ｂと画像処理装置１Ａとを組み合わせて実施することにより、元画像の推定精度を更に向上させることができる。

（第四実施形態）
第四実施形態に係る画像処理装置１Ｃについて、図４を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｃは、意味的ラベル推定部１１と、ラベル合成部１８と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、パラメータ更新部１７と、を備えている。

ラベル合成部１８は、正解ラベル画像の正解ラベルと、意味的ラベル推定部１１によって生成された意味的ラベル画像の意味的ラベルとを合成し、合成したラベルを含む画像を、元画像推定部１２に出力する。ラベル合成部１８における合成方法としては、例えば正解ラベル画像と意味的ラベル画像との重み付き和、画像のランダムセレクト（確率的に正解ラベル画像か意味的ラベル画像かを選択）、部分的合成（画像の一部を平均・ランダムセレクトする）、等が挙げられる。そして、元画像推定部１２は、ラベル合成部１８によって合成された画像から元画像を推定することにより、復元画像を生成する。

画像処理装置１Ｃでは、入力画像に対する正解ラベル画像が入手できた場合に、当該正解ラベル画像と意味的ラベル推定部１１によって生成された意味的ラベル画像とを合成し、合成した画像に基づいて、元画像推定部１２において復元画像を生成する。このように、正解ラベル画像による元画像推定部１２のパラメータ更新を行うことにより、元画像の推定精度を更に向上させることができる。

（第五実施形態）
第五実施形態に係る画像処理装置１Ｄについて、図５を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｄは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、領域合成部２０と、パラメータ更新部１４と、更新領域算出部１９と、を備えている。

更新領域算出部１９は、入力画像のうち、特定の領域を更新領域として算出する。更新領域算出部１９は、入力画像において、例えば学習が不要である領域（例えば上半分、下半分等）や、明度が低くて学習に時間を要する領域等をマスクし、そのマスクした領域以外の情報を、更新領域として領域合成部２０に出力する。

領域合成部２０は、差分算出部１３によって算出された再構成誤差画像と、更新領域算出部１９によって算出された更新領域とを合成し、パラメータ更新部１４に出力する。領域合成部２０では、例えば再構成誤差画像と更新領域とについて、掛け算、足し算、論理ＡＮＤまたは論理ＯＲを行うことにより、合成を行う。そして、パラメータ更新部１４は、合成された画像の更新領域について、意味的ラベルを推定する際の推定パラメータを更新する。

画像処理装置１Ｄでは、意味的ラベル推定部１１における推定パラメータを更新する際に、当該推定パラメータを更新する領域を限定し、不要な部分の学習を省略する。これにより、学習が必要な部分の推定精度を向上させることができ、かつ学習速度を高速化することができる。

（第六実施形態）
第六実施形態に係る画像処理装置１Ｅについて、図６を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｅは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、領域合成部２２と、パラメータ更新部１４と、意味的ラベル推定困難領域算出部２１と、を備えている。

意味的ラベル推定困難領域算出部２１は、入力画像において、意味的ラベルの推定が困難な推定困難領域を算出する。意味的ラベル推定困難領域算出部２１は、具体的には、意味的ラベル推定部１１によって推定された意味的ラベルの情報を用いて、推定パラメータを更新する価値のある領域を算出し、その領域の情報を、推定困難領域として領域合成部２２に出力する。

例えば各意味的ラベルの推定確率「ｐ_ｉ」とした場合、推定困難領域の指標は、例えば各意味的ラベルの推定確率のエントロピー「Σ_ｉｐ_ｉｌｏｇｐ_ｉ」、各意味的ラベルの推定確率の標準偏差ＳＴＤ（ｐ_ｉ）、各意味的ラベルの推定確率の最大値の差「ｍａｘ_ｉ，ｊ（ｐ_ｉ－ｐ_ｊ）」等によって示すことができる。

領域合成部２２は、差分算出部１３によって算出された再構成誤差画像と、意味的ラベル推定困難領域算出部２１によって推定困難領域とを合成し、パラメータ更新部１４に出力する。意味的ラベル推定困難領域算出部２１では、例えば再構成誤差画像と推定困難領域とについて、掛け算、足し算、論理ＡＮＤまたは論理ＯＲを行うことにより、合成を行う。そして、パラメータ更新部１４は、合成された画像の推定困難領域について、意味的ラベル推定部１１が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。

画像処理装置１Ｅでは、意味的ラベル推定部１１における推定パラメータを更新する際に、当該推定パラメータを更新する領域を、意味的ラベルの推定が困難な領域に限定し、不要な部分の学習を省略する。これにより、学習が必要な部分の推定精度を向上させることができ、かつ学習速度を高速化することができる。

（第七実施形態）
第七実施形態に係る画像処理装置１Ｆについて、図７を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｆは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、を備えている。

意味的ラベル推定部１１では、識別器および学習済みパラメータの学習手法として、深層学習ベースの手法が用いられている。そして、意味的ラベル推定部１１は、深層学習の最終層で生成された意味的ラベル画像（すなわち最終層で推定された意味的ラベルの推定結果）に加えて、深層学習の途中層（隠れ層）で生成された意味的ラベル画像（すなわち途中層で推定された意味的ラベルの推定結果）を、元画像推定部１２に出力する。そして、元画像推定部１２は、途中層で生成された意味的ラベル画像と、最終層で生成された意味的ラベル画像とのいずれか一方、もしくは両方を用いて、元画像を推定することにより、復元画像を生成する。

画像処理装置１Ｆでは、深層学習の最終層で生成された、完全に抽象化された意味的ラベル画像に加えて、深層学習の途中層で生成された、完全に抽象化されていない意味的ラベル画像に基づいて、元画像を推定する。これにより、途中層の意味的ラベル画像は、復元度が高くなるため、意味的ラベルの推定が正しい部分については復元画像の品質が向上し、意味的ラベルの推定が失敗している部分の検出精度（Ｓ／Ｎ）が向上する。

（第八実施形態）
第八実施形態に係る画像処理装置１Ｇについて、図８を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｇは、意味的ラベル推定部１１と、複数の元画像推定部１２と、複数の差分算出部１３と、パラメータ更新部１４と、を備えている。

画像処理装置１Ｇでは、元画像推定部１２および差分算出部１３がそれぞれ複数（Ｎ個）設けられている。複数の元画像推定部１２は、それぞれ異なる構成のネットワークで構成されていてもよく、識別器および学習済みパラメータが、それぞれ異なる学習手法（ＣＲＮ、Ｐｉｘ２ＰｉｘＨＤ、その他深層学習アルゴリズム等）によって学習されていてもよい。

複数の元画像推定部１２は、例えば複数の異なる復元方法を用いて、意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成する。なお、複数の元画像推定部１２に入力する意味的ラベル画像は、異なっていてもよく、例えばｉ番目の意味的ラベル画像（例えば車ラベルのみ）を、ｉ番目の元画像推定部１２のみに入力してもよい。

画像処理装置１Ｇでは、複数の元画像推定部１２における元画像の推定結果を統合することにより、再構成誤差を正確に推定することができる。また、特定の意味的ラベルを分離して元画像推定部１２に入力した場合、各元画像推定部１２の担当すべき画像種別が限定されるため、元画像の復元能力が向上する。

（第九実施形態）
第九実施形態に係る画像処理装置１Ｈについて、図９を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置１Ｈは、意味的ラベル推定部１１と、元画像推定部１２と、差分算出部１３と、パラメータ更新部１４と、意味的ラベル領域要約情報生成部２３と、を備えている。

意味的ラベル領域要約情報生成部２３は、入力画像と、意味的ラベル推定部１１によって意味的ラベル画像とに基づいて、意味的ラベルの領域要約情報を生成し、元画像推定部１２に出力する。この領域要約情報としては、例えば各意味的ラベルの色の平均、最大値、最小値、標準偏差、領域面積、空間周波数、エッジ画像（例えば画像からエッジ画像を近似的に抽出するアルゴリズムであるｃａｎｎｙ法等）、部分マスク画像等が挙げられる。

そして、元画像推定部１２は、意味的ラベル画像から元画像を復元する際に、意味的ラベル領域要約情報生成部２３によって生成された領域要約情報を用いて、意味的ラベル画像から元画像を推定することにより、復元画像を生成する。

画像処理装置１Ｈでは、領域要約情報を用いて元画像を推定することにより、意味的ラベルの推定が正しい部分について復元画像の品質が向上するため、意味的ラベルの推定が失敗している部分の検出精度（Ｓ／Ｎ）を高めることができる。

これまで説明した画像処理装置１～１Ｈは、具体的には、意味的ラベル推定部１１の学習を低コストかつ簡易に行うための「意味的ラベル推定部の学習装置」として利用される。すなわち、画像処理装置１～１Ｈは、車載されるものではなく、センターの開発環境等において、画像処理装置１～１Ｈによって学習させた意味的ラベル推定部１１を、車両またはセンターに配置された障害物識別装置に導入（例えば初めから搭載、またはＯＴＡ（Over The Air）でのアップデート）する。そして、例えば車載カメラの画像を、意味的ラベル推定部１１（車載でもよく、センター側でもよい）に入力することにより、路上の障害物を識別する。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１，１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆ，１Ｇ，１Ｈ画像処理装置
１１意味的ラベル推定部
１２元画像推定部
１３，１５差分算出部
１４，１６，１７パラメータ更新部
１８ラベル合成部
１９更新領域算出部
２０，２２領域合成部
２１意味的ラベル推定困難領域算出部
２３意味的ラベル領域要約情報生成部

Claims

ハードウェアを有するプロセッサを備え、
前記プロセッサは、
予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
前記入力画像と前記復元画像との第一の差分を算出し、
前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
画像処理装置。
前記プロセッサは、
予め用意された正解ラベル画像と前記意味的ラベル画像との第二の差分を算出し、
前記第一の差分および前記第二の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
請求項１に記載の画像処理装置。
前記プロセッサは、
正解ラベル画像と前記意味的ラベル画像とを合成し、
合成した画像から元画像を推定することにより、前記復元画像を生成する、
請求項１に記載の画像処理装置。
前記プロセッサは、
前記入力画像のうち、特定の領域を更新領域として算出し、
前記更新領域について、前記意味的ラベルを推定する際の推定パラメータを更新する、
請求項１に記載の画像処理装置。
前記プロセッサは、
前記入力画像において、前記意味的ラベルの推定が困難な推定困難領域を算出し、
前記推定困難領域と、前記第一の差分を示す再構成誤差画像とを合成し、
合成した画像に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
請求項１に記載の画像処理装置。
前記識別器は、深層学習によって学習され、
前記プロセッサは、
前記深層学習の途中層で生成された意味的ラベル画像と、前記深層学習の最終層で生成された意味的ラベル画像とを用いて、前記元画像を推定することにより、前記復元画像を生成する、
請求項１に記載の画像処理装置。
前記プロセッサは、
複数の異なる復元方法を用いて、前記意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成し、
前記入力画像と前記複数の復元画像との第一の差分をそれぞれ算出し、
複数の第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
請求項１に記載の画像処理装置。
前記プロセッサは、
前記意味的ラベルの領域要約情報を生成し、
前記領域要約情報を用いて、前記意味的ラベル画像から元画像を推定することにより、前記復元画像を生成する、
請求項１に記載の画像処理装置。
ハードウェアを有するプロセッサに、
予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
前記入力画像と前記復元画像との第一の差分を算出し、
前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
ことを実行させる画像処理プログラム。
前記プロセッサに、
予め用意された正解ラベル画像と前記意味的ラベル画像との第二の差分を算出し、
前記第一の差分および前記第二の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記プロセッサに、
正解ラベル画像と前記意味的ラベル画像とを合成し、
合成した画像から元画像を推定することにより、前記復元画像を生成する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記プロセッサに、
前記入力画像のうち、特定の領域を更新領域として算出し、
前記更新領域について、前記意味的ラベルを推定する際の推定パラメータを更新する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記プロセッサに、
前記入力画像において、前記意味的ラベルの推定が困難な推定困難領域を算出し、
前記推定困難領域と、前記第一の差分を示す再構成誤差画像とを合成し、
合成した画像に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記識別器は、深層学習によって学習され、
前記プロセッサに、
前記深層学習の途中層で生成された意味的ラベル画像と、前記深層学習の最終層で生成された意味的ラベル画像とを用いて、前記元画像を推定することにより、前記復元画像を生成する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記プロセッサに、
複数の異なる復元方法を用いて、前記意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成し、
前記入力画像と前記復元画像との第一の差分をそれぞれ算出し、
複数の第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
ことを実行させる請求項９に記載の画像処理プログラム。
前記プロセッサに、
前記意味的ラベルの領域要約情報を生成し、
前記領域要約情報を用いて、前記意味的ラベル画像から元画像を推定することにより、前記復元画像を生成する、
ことを実行させる請求項９に記載の画像処理プログラム。
ハードウェアを有するプロセッサが、
予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
前記入力画像と前記復元画像との第一の差分を算出し、
前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
画像処理方法。