JP2022037804A - 画像処理装置、画像処理プログラムおよび画像処理方法 - Google Patents

画像処理装置、画像処理プログラムおよび画像処理方法 Download PDF

Info

Publication number
JP2022037804A
JP2022037804A JP2020142139A JP2020142139A JP2022037804A JP 2022037804 A JP2022037804 A JP 2022037804A JP 2020142139 A JP2020142139 A JP 2020142139A JP 2020142139 A JP2020142139 A JP 2020142139A JP 2022037804 A JP2022037804 A JP 2022037804A
Authority
JP
Japan
Prior art keywords
image
semantic label
estimating
image processing
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020142139A
Other languages
English (en)
Other versions
JP7294275B2 (ja
Inventor
俊明 大串
Toshiaki Ogushi
賢司 堀口
Kenji Horiguchi
正雄 山中
Masao Yamanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020142139A priority Critical patent/JP7294275B2/ja
Priority to US17/376,887 priority patent/US20220067882A1/en
Priority to CN202110967699.9A priority patent/CN114120263A/zh
Publication of JP2022037804A publication Critical patent/JP2022037804A/ja
Application granted granted Critical
Publication of JP7294275B2 publication Critical patent/JP7294275B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022037804000001
【課題】大量の教師データを準備することなく、推定精度を向上させることができる画像処理装置、画像処理プログラムおよび画像処理方法を提供すること。
【解決手段】画像処理装置は、ハードウェアを有するプロセッサを備え、プロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、意味的ラベル画像から元画像を推定することにより、復元画像を生成し、入力画像と復元画像との第一の差分を算出し、第一の差分に基づいて、意味的ラベルを推定する際の推定パラメータまたは元画像を推定する際の推定パラメータを更新する。
【選択図】図1

Description

本開示は、画像処理装置、画像処理プログラムおよび画像処理方法に関する。
特許文献1には、入力画像から意味的ラベルを推定し、意味的ラベルの推定困難度に基づいて教師データ(正解ラベル画像)を作成し、当該教師データを学習させることにより、意味的ラベルの推定精度を向上させる技術が開示されている。
特開2018-194912号公報
特許文献1の技術では、幅広いシーンにおいて精度を保つために、大量の画像に対して教師データを作成する必要があった。一般的に教師データの作成には高いコストが必要となる。そのため、大量の教師データを準備することなく、推定精度を向上させることができる技術が求められていた。
本開示は、上記に鑑みてなされたものであって、大量の教師データを準備することなく、推定精度を向上させることができる画像処理装置、画像処理プログラムおよび画像処理方法を提供することを目的とする。
本開示に係る画像処理装置は、ハードウェアを有するプロセッサを備え、前記プロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。
本開示に係る画像処理プログラムは、ハードウェアを有するプロセッサに、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。
本開示に係る画像処理方法は、ハードウェアを有するプロセッサが、予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、前記入力画像と前記復元画像との第一の差分を算出し、前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する。
本開示によれば、大量の教師データを作成することなく、推定精度を向上させることができる。
図1は、第一実施形態に係る画像処理装置の構成を示すブロック図である。 図2は、第二実施形態に係る画像処理装置の構成を示すブロック図である。 図3は、第三実施形態に係る画像処理装置の構成を示すブロック図である。 図4は、第四実施形態に係る画像処理装置の構成を示すブロック図である。 図5は、第五実施形態に係る画像処理装置の構成を示すブロック図である。 図6は、第六実施形態係る画像処理装置の構成を示すブロック図である。 図7は、第七実施形態に係る画像処理装置の構成を示すブロック図である。 図8は、第八実施形態に係る画像処理装置の構成を示すブロック図である。 図9は、第九実施形態に係る画像処理装置の構成を示すブロック図である。
本開示の実施形態に係る画像処理装置、画像処理プログラムおよび画像処理方法について、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
本開示に係る画像処理装置は、入力された画像(以下、「入力画像」という)に対して、意味的領域分割処理(セマンティック・セグメンテーション)を施すためのものである。以下で説明する画像処理装置の各実施形態は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等からなるプロセッサと、RAM(Random Access Memory)、ROM(Read Only Memory)等からなるメモリ(主記憶装置、補助記憶装置)と、通信部(通信インターフェース)と、を備えたワークステーションやパソコン等の汎用コンピュータの機能によって実現される。
なお、画像処理装置の各部は、単一のコンピュータの機能によって実現されてもよく、あるいは機能別の複数のコンピュータの機能によって実現されてもよい。また、以下では、画像処理装置を車両の分野に適用した例について説明するが、画像処理装置は、意味的領域分割処理が必要な分野であれば、車両以外の分野にも幅広く適用可能である。
(第一実施形態)
第一実施形態に係る画像処理装置1について、図1を参照しながら説明する。画像処理装置1は、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、を備えている。
意味的ラベル推定部11は、予め学習された識別器および学習済みパラメータを用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成する。意味的ラベル推定部11は、具体的には、識別器および学習済みパラメータを用いて、入力画像の画素ごとの意味的ラベルを推定し、当該意味的ラベルを付与する。これにより、意味的ラベル推定部11は、入力画像を意味的ラベル画像へと変換し、当該意味的ラベル画像を元画像推定部12に出力する。なお、意味的ラベル推定部11に入力される入力画像は、例えば車両に搭載された車載カメラによって撮影された画像でもよく、あるいは事前に撮影された画像であってもよい。
意味的ラベル推定部11は、例えば深層学習(特にCNN(Convolutional Neural Network))ベースの手法を用い、畳み込み層(Convolution Layer)、活性化層(ReLU Layer,Softmax Layer等)、プーリング層(Pooling Layer)およびアップサンプリング層等の要素を、複数層状に積み重ねたネットワークとして構成される。また、意味的ラベル推定部11で用いる識別器および学習済みパラメータの学習手法としては、例えばCRF(Conditional random field)ベースの手法、深層学習とCRF(Conditional random field)とを組み合わせた手法、複数解像度画像を用いてリアルタイムに推定する手法、等が挙げられる。
元画像推定部12は、予め学習された識別器および学習済みパラメータを用いて、意味的ラベル推定部11によって生成された意味的ラベル画像から元画像を推定することにより、復元画像を生成する。元画像推定部12は、具体的には、識別器および学習済みパラメータを用いて、意味的ラベル画像から元画像を復元する。これにより、元画像推定部12は、意味的ラベル画像を復元画像へと変換し、当該復元画像を差分算出部13に出力する。
元画像推定部12は、例えば深層学習(特にCNN(Convolutional Neural Network))ベースの手法を用い、畳み込み層(Convolution Layer)、活性化層(ReLU Layer,Softmax Layer等)、プーリング層(Pooling Layer)およびアップサンプリング層等の要素を、複数層状に積み重ねたネットワークとして構成される。また、元画像推定部12で用いる識別器および学習済みパラメータの学習手法としては、例えばCRN(Cascaded Refinement Network)ベースの手法、Pix2PixHDベースの手法、等が挙げられる。
差分算出部13は、入力画像と、元画像推定部12によって生成された復元画像との差分(第一の差分)を算出し、その算出結果をパラメータ更新部14に出力する。差分算出部13は、例えば入力画像の画像情報I(x,y)と、復元画像の画像情報P(x,y)とについて、画素ごとの単純な差分(I(x,y)-P(x,y))を算出してもよい。また、差分算出部13は、入力画像の画像情報I(x,y)と、復元画像の画像情報P(x,y)とについて、下記式(1)によって、画素ごとの相関を算出してもよい。
Figure 2022037804000002
また、差分算出部13は、入力画像の画像情報I(x,y)と、復元画像の画像情報P(x,y)とについて、予め定めた画像変換f(・)を施した後に、差分比較を行ってもよい。すなわち、差分算出部13は、「f(I(x,y))-f(P(x,y))」を算出してもよい。なお、画像変換f(・)としては、例えば深層学習器(例えばvgg16,vgg19等)の隠れ層出力を用いる「perceptual loss」が挙げられる。なお、前記したいずれの方法を用いた場合においても、差分算出部13によって算出される差分は、画像として出力される。そして、この差分算出部13によって算出される差分を示す画像のことを、本開示では「再構成誤差画像」と定義する。
パラメータ更新部14は、差分算出部13によって算出された差分(再構成誤差画像)に基づいて、意味的ラベル推定部11が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。
ここで、図1では、左上に入力画像の一例を、右上に意味的ラベル画像の一例を、左下に復元画像の一例を、右下に再構成画素画像の一例を、それぞれ示している。入力画像のA部に示すように、例えば入力画像の右下に警告看板が写っていたとする。この場合、意味的ラベル推定部11において、当該警告看板を含んだ画像(正解ラベル画像)の学習を行っていない場合、この警告看板の部分について、ラベル推定ミスが発生する可能性がある(図1の意味的ラベル画像の右下参照)。そして、このようなラベル推定ミスが発生すると、元画像推定部12で生成した復元画像においても、復元ミスが発生し(同図の復元画像の右下参照)、結果として、再構成誤差画像の再構成誤差が大きくなる(同図の再構成誤差画像の右下参照)。
そこで、画像処理装置1では、パラメータ更新部14において、再構成誤差画像の再構成誤差が小さくなるように、意味的ラベル推定部11の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。これにより、教師データ(正解ラベル画像)が存在しない入力画像を用いた場合であっても、意味的ラベルの推定精度を向上させることができる。
すなわち、画像処理装置1では、最初は限られた少数の教師データ(正解ラベル画像)を用いて簡易に初期学習させておき、その後は入力画像と復元画像との差分に基づいて、意味的ラベル推定部11の推定パラメータを更新する。そのため、画像処理装置1では、大量の教師データを用いることなく、意味的ラベルの推定精度を向上させることが可能となる。そして、画像処理装置1では、大量の教師データを準備(例えば入力画像に対して正解ラベルを手作業で付与)する必要がないため、教師データの作成コストを低減することができる。
(第二実施形態)
第二実施形態に係る画像処理装置1Aについて、図2を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Aは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、差分算出部15と、パラメータ更新部16と、を備えている。
差分算出部15は、予め用意された正解ラベル画像と、意味的ラベル推定部11によって推定された意味的ラベル画像との差分(第二の差分)を算出し、その算出結果をパラメータ更新部16に出力する。
ここで、「正解ラベル画像」とは、入力画像に対応する意味的ラベル画像であり、各意味的ラベルの推定確率が100%である意味的ラベル画像のことを示している。通常、意味的ラベル推定部11によって生成された意味的ラベル画像は、画素ごとに、例えば「空の確率80%、道路の確率20%…」のように、各意味的ラベルの推定確率が設定されている。一方、正解ラベル画像では、「空の確率100%」のように、各意味的ラベルの推定確率が100%に設定されている。この正解ラベル画像は、人手で作成されたものでもよく、あるいは、高度な学習器によって自動的に作成されたものであってもよい。
差分算出部15は、差分算出部13と同様に、入力画像の画像情報と正解ラベル画像の画像情報とについて、画素ごとの単純な差分を計算してもよく、両者について、上記式(1)によって画素ごとの相関を算出してもよく、両者について、予め定めた画像変換f(・)を施した後に、差分比較を行ってもよい。
パラメータ更新部16は、差分算出部15によって算出された差分とに基づいて、意味的ラベル推定部11が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。
画像処理装置1Aでは、入力画像に対する正解ラベル画像が入手できた場合に、パラメータ更新部14における再構成誤差によるパラメータ更新に加えて、正解ラベル画像に含まれるラベルデータ(正解ラベルデータ)と、意味的ラベル推定部11によって推定された意味的ラベルとが一致するように、パラメータ更新部16によって、意味的ラベル推定部11の推定パラメータを更新する。その際、パラメータ更新部14とパラメータ更新部16とを別々に動作させてもよく、あるいは両者の更新量の重みづけ和をとって同時に更新してもよい。
画像処理装置1Aによれば、再構成誤差によるパラメータ更新に加えて、正解ラベル画像によるパラメータ更新を行うことにより、意味的ラベルの推定精度を更に向上させることができる。また、画像処理装置1Aによれば、再構成誤差による学習を行うことにより、入力画像と正解ラベル画像だけで学習した場合と比較して、意味的ラベルの推定精度を向上させることができる。
(第三実施形態)
第三実施形態に係る画像処理装置1Bについて、図3を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Bは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、パラメータ更新部17と、を備えている。
パラメータ更新部17は、差分算出部13によって算出された差分(第一の差分)に基づいて、元画像推定部12が意味的ラベル画像から元画像を推定する際の推定パラメータを更新する。
画像処理装置1Bでは、パラメータ更新部14において、再構成誤差画像の再構成誤差が小さくなるように、意味的ラベル推定部11の推定パラメータを更新することに加えて、パラメータ更新部17において、再構成誤差画像の再構成誤差が小さくなるように、元画像推定部12の推定パラメータを更新する。例えば、深層学習では誤差逆伝搬法等によって推定パラメータの更新を行う。これにより、正解ラベル画像が存在しない入力画像を用いた場合であっても、元画像の推定精度を向上させることができる。
なお、画像処理装置1Bは、画像処理装置1Aと組み合わせて実施してもよい。この場合、再構成誤差による意味的ラベルの推定パラメータの更新、正解ラベル画像による意味的ラベルの推定パラメータの更新、再構成誤差による元画像の推定パラメータの更新、をそれぞれ行う。画像処理装置1Bと画像処理装置1Aとを組み合わせて実施することにより、元画像の推定精度を更に向上させることができる。
(第四実施形態)
第四実施形態に係る画像処理装置1Cについて、図4を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Cは、意味的ラベル推定部11と、ラベル合成部18と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、パラメータ更新部17と、を備えている。
ラベル合成部18は、正解ラベル画像の正解ラベルと、意味的ラベル推定部11によって生成された意味的ラベル画像の意味的ラベルとを合成し、合成したラベルを含む画像を、元画像推定部12に出力する。ラベル合成部18における合成方法としては、例えば正解ラベル画像と意味的ラベル画像との重み付き和、画像のランダムセレクト(確率的に正解ラベル画像か意味的ラベル画像かを選択)、部分的合成(画像の一部を平均・ランダムセレクトする)、等が挙げられる。そして、元画像推定部12は、ラベル合成部18によって合成された画像から元画像を推定することにより、復元画像を生成する。
画像処理装置1Cでは、入力画像に対する正解ラベル画像が入手できた場合に、当該正解ラベル画像と意味的ラベル推定部11によって生成された意味的ラベル画像とを合成し、合成した画像に基づいて、元画像推定部12において復元画像を生成する。このように、正解ラベル画像による元画像推定部12のパラメータ更新を行うことにより、元画像の推定精度を更に向上させることができる。
(第五実施形態)
第五実施形態に係る画像処理装置1Dについて、図5を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Dは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、領域合成部20と、パラメータ更新部14と、更新領域算出部19と、を備えている。
更新領域算出部19は、入力画像のうち、特定の領域を更新領域として算出する。更新領域算出部19は、入力画像において、例えば学習が不要である領域(例えば上半分、下半分等)や、明度が低くて学習に時間を要する領域等をマスクし、そのマスクした領域以外の情報を、更新領域として領域合成部20に出力する。
領域合成部20は、差分算出部13によって算出された再構成誤差画像と、更新領域算出部19によって算出された更新領域とを合成し、パラメータ更新部14に出力する。領域合成部20では、例えば再構成誤差画像と更新領域とについて、掛け算、足し算、論理ANDまたは論理ORを行うことにより、合成を行う。そして、パラメータ更新部14は、合成された画像の更新領域について、意味的ラベルを推定する際の推定パラメータを更新する。
画像処理装置1Dでは、意味的ラベル推定部11における推定パラメータを更新する際に、当該推定パラメータを更新する領域を限定し、不要な部分の学習を省略する。これにより、学習が必要な部分の推定精度を向上させることができ、かつ学習速度を高速化することができる。
(第六実施形態)
第六実施形態に係る画像処理装置1Eについて、図6を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Eは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、領域合成部22と、パラメータ更新部14と、意味的ラベル推定困難領域算出部21と、を備えている。
意味的ラベル推定困難領域算出部21は、入力画像において、意味的ラベルの推定が困難な推定困難領域を算出する。意味的ラベル推定困難領域算出部21は、具体的には、意味的ラベル推定部11によって推定された意味的ラベルの情報を用いて、推定パラメータを更新する価値のある領域を算出し、その領域の情報を、推定困難領域として領域合成部22に出力する。
例えば各意味的ラベルの推定確率「p」とした場合、推定困難領域の指標は、例えば各意味的ラベルの推定確率のエントロピー「Σlogp」、各意味的ラベルの推定確率の標準偏差STD(p)、各意味的ラベルの推定確率の最大値の差「maxi,j(p-p)」等によって示すことができる。
領域合成部22は、差分算出部13によって算出された再構成誤差画像と、意味的ラベル推定困難領域算出部21によって推定困難領域とを合成し、パラメータ更新部14に出力する。意味的ラベル推定困難領域算出部21では、例えば再構成誤差画像と推定困難領域とについて、掛け算、足し算、論理ANDまたは論理ORを行うことにより、合成を行う。そして、パラメータ更新部14は、合成された画像の推定困難領域について、意味的ラベル推定部11が入力画像から意味的ラベルを推定する際の推定パラメータを更新する。
画像処理装置1Eでは、意味的ラベル推定部11における推定パラメータを更新する際に、当該推定パラメータを更新する領域を、意味的ラベルの推定が困難な領域に限定し、不要な部分の学習を省略する。これにより、学習が必要な部分の推定精度を向上させることができ、かつ学習速度を高速化することができる。
(第七実施形態)
第七実施形態に係る画像処理装置1Fについて、図7を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Fは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、を備えている。
意味的ラベル推定部11では、識別器および学習済みパラメータの学習手法として、深層学習ベースの手法が用いられている。そして、意味的ラベル推定部11は、深層学習の最終層で生成された意味的ラベル画像(すなわち最終層で推定された意味的ラベルの推定結果)に加えて、深層学習の途中層(隠れ層)で生成された意味的ラベル画像(すなわち途中層で推定された意味的ラベルの推定結果)を、元画像推定部12に出力する。そして、元画像推定部12は、途中層で生成された意味的ラベル画像と、最終層で生成された意味的ラベル画像とのいずれか一方、もしくは両方を用いて、元画像を推定することにより、復元画像を生成する。
画像処理装置1Fでは、深層学習の最終層で生成された、完全に抽象化された意味的ラベル画像に加えて、深層学習の途中層で生成された、完全に抽象化されていない意味的ラベル画像に基づいて、元画像を推定する。これにより、途中層の意味的ラベル画像は、復元度が高くなるため、意味的ラベルの推定が正しい部分については復元画像の品質が向上し、意味的ラベルの推定が失敗している部分の検出精度(S/N)が向上する。
(第八実施形態)
第八実施形態に係る画像処理装置1Gについて、図8を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Gは、意味的ラベル推定部11と、複数の元画像推定部12と、複数の差分算出部13と、パラメータ更新部14と、を備えている。
画像処理装置1Gでは、元画像推定部12および差分算出部13がそれぞれ複数(N個)設けられている。複数の元画像推定部12は、それぞれ異なる構成のネットワークで構成されていてもよく、識別器および学習済みパラメータが、それぞれ異なる学習手法(CRN、Pix2PixHD、その他深層学習アルゴリズム等)によって学習されていてもよい。
複数の元画像推定部12は、例えば複数の異なる復元方法を用いて、意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成する。なお、複数の元画像推定部12に入力する意味的ラベル画像は、異なっていてもよく、例えばi番目の意味的ラベル画像(例えば車ラベルのみ)を、i番目の元画像推定部12のみに入力してもよい。
画像処理装置1Gでは、複数の元画像推定部12における元画像の推定結果を統合することにより、再構成誤差を正確に推定することができる。また、特定の意味的ラベルを分離して元画像推定部12に入力した場合、各元画像推定部12の担当すべき画像種別が限定されるため、元画像の復元能力が向上する。
(第九実施形態)
第九実施形態に係る画像処理装置1Hについて、図9を参照しながら説明する。なお、同図では、前記した実施形態と同一の構成については、同一の符号を付して説明を省略する。また、同図において、第一実施形態と異なる構成を破線で囲って示す。画像処理装置1Hは、意味的ラベル推定部11と、元画像推定部12と、差分算出部13と、パラメータ更新部14と、意味的ラベル領域要約情報生成部23と、を備えている。
意味的ラベル領域要約情報生成部23は、入力画像と、意味的ラベル推定部11によって意味的ラベル画像とに基づいて、意味的ラベルの領域要約情報を生成し、元画像推定部12に出力する。この領域要約情報としては、例えば各意味的ラベルの色の平均、最大値、最小値、標準偏差、領域面積、空間周波数、エッジ画像(例えば画像からエッジ画像を近似的に抽出するアルゴリズムであるcanny法等)、部分マスク画像等が挙げられる。
そして、元画像推定部12は、意味的ラベル画像から元画像を復元する際に、意味的ラベル領域要約情報生成部23によって生成された領域要約情報を用いて、意味的ラベル画像から元画像を推定することにより、復元画像を生成する。
画像処理装置1Hでは、領域要約情報を用いて元画像を推定することにより、意味的ラベルの推定が正しい部分について復元画像の品質が向上するため、意味的ラベルの推定が失敗している部分の検出精度(S/N)を高めることができる。
これまで説明した画像処理装置1~1Hは、具体的には、意味的ラベル推定部11の学習を低コストかつ簡易に行うための「意味的ラベル推定部の学習装置」として利用される。すなわち、画像処理装置1~1Hは、車載されるものではなく、センターの開発環境等において、画像処理装置1~1Hによって学習させた意味的ラベル推定部11を、車両またはセンターに配置された障害物識別装置に導入(例えば初めから搭載、またはOTA(Over The Air)でのアップデート)する。そして、例えば車載カメラの画像を、意味的ラベル推定部11(車載でもよく、センター側でもよい)に入力することにより、路上の障害物を識別する。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
1,1A,1B,1C,1D,1E,1F,1G,1H 画像処理装置
11 意味的ラベル推定部
12 元画像推定部
13,15 差分算出部
14,16,17 パラメータ更新部
18 ラベル合成部
19 更新領域算出部
20,22 領域合成部
21 意味的ラベル推定困難領域算出部
23 意味的ラベル領域要約情報生成部

Claims (17)

  1. ハードウェアを有するプロセッサを備え、
    前記プロセッサは、
    予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
    前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
    前記入力画像と前記復元画像との第一の差分を算出し、
    前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
    画像処理装置。
  2. 前記プロセッサは、
    予め用意された正解ラベル画像と前記意味的ラベル画像との第二の差分を算出し、
    前記第一の差分および前記第二の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    請求項1に記載の画像処理装置。
  3. 前記プロセッサは、
    正解ラベル画像と前記意味的ラベル画像とを合成し、
    合成した画像から元画像を推定することにより、前記復元画像を生成する、
    請求項1に記載の画像処理装置。
  4. 前記プロセッサは、
    前記入力画像のうち、特定の領域を更新領域として算出し、
    前記更新領域について、前記意味的ラベルを推定する際の推定パラメータを更新する、
    請求項1に記載の画像処理装置。
  5. 前記プロセッサは、
    前記入力画像において、前記意味的ラベルの推定が困難な推定困難領域を算出し、
    前記推定困難領域と、前記第一の差分を示す再構成誤差画像とを合成し、
    合成した画像に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    請求項1に記載の画像処理装置。
  6. 前記識別器は、深層学習によって学習され、
    前記プロセッサは、
    前記深層学習の途中層で生成された意味的ラベル画像と、前記深層学習の最終層で生成された意味的ラベル画像とを用いて、前記元画像を推定することにより、前記復元画像を生成する、
    請求項1に記載の画像処理装置。
  7. 前記プロセッサは、
    複数の異なる復元方法を用いて、前記意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成し、
    前記入力画像と前記複数の復元画像との第一の差分をそれぞれ算出し、
    複数の第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    請求項1に記載の画像処理装置。
  8. 前記プロセッサは、
    前記意味的ラベルの領域要約情報を生成し、
    前記領域要約情報を用いて、前記意味的ラベル画像から元画像を推定することにより、前記復元画像を生成する、
    請求項1に記載の画像処理装置。
  9. ハードウェアを有するプロセッサに、
    予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
    前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
    前記入力画像と前記復元画像との第一の差分を算出し、
    前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
    ことを実行させる画像処理プログラム。
  10. 前記プロセッサに、
    予め用意された正解ラベル画像と前記意味的ラベル画像との第二の差分を算出し、
    前記第一の差分および前記第二の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  11. 前記プロセッサに、
    正解ラベル画像と前記意味的ラベル画像とを合成し、
    合成した画像から元画像を推定することにより、前記復元画像を生成する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  12. 前記プロセッサに、
    前記入力画像のうち、特定の領域を更新領域として算出し、
    前記更新領域について、前記意味的ラベルを推定する際の推定パラメータを更新する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  13. 前記プロセッサに、
    前記入力画像において、前記意味的ラベルの推定が困難な推定困難領域を算出し、
    前記推定困難領域と、前記第一の差分を示す再構成誤差画像とを合成し、
    合成した画像に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  14. 前記識別器は、深層学習によって学習され、
    前記プロセッサに、
    前記深層学習の途中層で生成された意味的ラベル画像と、前記深層学習の最終層で生成された意味的ラベル画像とを用いて、前記元画像を推定することにより、前記復元画像を生成する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  15. 前記プロセッサに、
    複数の異なる復元方法を用いて、前記意味的ラベル画像から元画像を推定することにより、複数の復元画像を生成し、
    前記入力画像と前記復元画像との第一の差分をそれぞれ算出し、
    複数の第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータを更新する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  16. 前記プロセッサに、
    前記意味的ラベルの領域要約情報を生成し、
    前記領域要約情報を用いて、前記意味的ラベル画像から元画像を推定することにより、前記復元画像を生成する、
    ことを実行させる請求項9に記載の画像処理プログラム。
  17. ハードウェアを有するプロセッサが、
    予め学習された識別器を用いて、入力画像の画素ごとに意味的ラベルを推定することにより、意味的ラベル画像を生成し、
    前記意味的ラベル画像から元画像を推定することにより、復元画像を生成し、
    前記入力画像と前記復元画像との第一の差分を算出し、
    前記第一の差分に基づいて、前記意味的ラベルを推定する際の推定パラメータまたは前記元画像を推定する際の推定パラメータを更新する、
    画像処理方法。
JP2020142139A 2020-08-25 2020-08-25 画像処理装置、画像処理プログラムおよび画像処理方法 Active JP7294275B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020142139A JP7294275B2 (ja) 2020-08-25 2020-08-25 画像処理装置、画像処理プログラムおよび画像処理方法
US17/376,887 US20220067882A1 (en) 2020-08-25 2021-07-15 Image processing device, computer readable recording medium, and method of processing image
CN202110967699.9A CN114120263A (zh) 2020-08-25 2021-08-23 图像处理装置、记录介质以及图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020142139A JP7294275B2 (ja) 2020-08-25 2020-08-25 画像処理装置、画像処理プログラムおよび画像処理方法

Publications (2)

Publication Number Publication Date
JP2022037804A true JP2022037804A (ja) 2022-03-09
JP7294275B2 JP7294275B2 (ja) 2023-06-20

Family

ID=80358761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020142139A Active JP7294275B2 (ja) 2020-08-25 2020-08-25 画像処理装置、画像処理プログラムおよび画像処理方法

Country Status (3)

Country Link
US (1) US20220067882A1 (ja)
JP (1) JP7294275B2 (ja)
CN (1) CN114120263A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022250071A1 (ja) * 2021-05-27 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、学習装置及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7327077B2 (ja) * 2019-10-18 2023-08-16 トヨタ自動車株式会社 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
JP2019101519A (ja) * 2017-11-29 2019-06-24 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
JP2020035282A (ja) * 2018-08-31 2020-03-05 株式会社日立ハイテクノロジーズ パターン検査システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
JP2019101519A (ja) * 2017-11-29 2019-06-24 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
JP2020035282A (ja) * 2018-08-31 2020-03-05 株式会社日立ハイテクノロジーズ パターン検査システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
品川政太朗他: "DNNによる画像操作システム", 電子情報通信学会技術研究報告, vol. 第117巻 第106号, JPN6023012755, 15 June 2017 (2017-06-15), JP, pages 13 - 16, ISSN: 0005027507 *
篠崎隆志: "GAN−敵対的生成ネットワーク−の発展", 人工知能, vol. 第33巻 第2号, JPN6023012754, 1 March 2018 (2018-03-01), JP, pages 181 - 188, ISSN: 0005027506 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022250071A1 (ja) * 2021-05-27 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、学習装置及びプログラム

Also Published As

Publication number Publication date
CN114120263A (zh) 2022-03-01
US20220067882A1 (en) 2022-03-03
JP7294275B2 (ja) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111386550A (zh) 图像深度和自我运动预测神经网络的无监督学习
TW201833867A (zh) 用於影像處理的神經網路模型的訓練方法及裝置和電腦可讀儲存介質
EP3598387B1 (en) Learning method and program
CN111428575B (zh) 一种基于孪生网络的针对模糊目标的跟踪方法
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
CN111696196B (zh) 一种三维人脸模型重建方法及装置
CN109558901B (zh) 一种语义分割训练方法及装置、电子设备、存储介质
JP7327077B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
JP7355851B2 (ja) ビデオを識別するための方法及び装置
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
JP2022037804A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
US20170091613A1 (en) Computational device, computational method, and computer program product
CN115393231B (zh) 一种缺陷图像的生成方法、装置、电子设备和存储介质
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
CN113763366B (zh) 一种换脸方法、装置、设备及存储介质
CN113902789A (zh) 图像特征处理、深度图像生成方法及装置、介质和设备
Lu et al. Environment-aware multiscene image enhancement for internet of things enabled edge cameras
CN115526891B (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
CN115641584B (zh) 一种雾天图像识别方法及装置
CN111914809A (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
Yang et al. Semantic guidance learning for high-resolution non-homogeneous dehazing
CN114140744A (zh) 基于对象的数量检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R151 Written notification of patent or utility model registration

Ref document number: 7294275

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151