JP2022049261A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2022049261A
JP2022049261A JP2020155371A JP2020155371A JP2022049261A JP 2022049261 A JP2022049261 A JP 2022049261A JP 2020155371 A JP2020155371 A JP 2020155371A JP 2020155371 A JP2020155371 A JP 2020155371A JP 2022049261 A JP2022049261 A JP 2022049261A
Authority
JP
Japan
Prior art keywords
image
information processing
learning
learning model
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020155371A
Other languages
English (en)
Inventor
崇 菅井
Takashi Sugai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020155371A priority Critical patent/JP2022049261A/ja
Priority to US17/411,173 priority patent/US11842466B2/en
Publication of JP2022049261A publication Critical patent/JP2022049261A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】処理負荷を低減でき、且つ、高精度な学習モデルを生成し得る情報処理装置及び情報処理方法を提供する。【解決手段】撮像装置10が取得した第1画像に対して画像認識を行うための学習モデルを生成する情報処理装置20は、学習用の第2画像を変換して第1光学特性に基づく歪特性を有する第3画像を生成する画像変換部215と、第3画像に基づいて学習モデルを生成する学習モデル生成部216と、を有する。【選択図】図4

Description

本発明は、情報処理装置及び情報処理方法に関する。
画像認識の手法の1つに、機械学習により生成された学習モデルを用いるものがある。特許文献1及び特許文献2には、学習モデルを用いた撮像画像の認識に関する技術が開示されている。
特許文献1には、学習モデルの生成に用いた画像の撮像条件と、処理対象の画像の撮像条件とに基づいて、処理対象の画像を変換してから学習モデルに入力する手法が開示されている。
特許文献2には、魚眼レンズ等の画像中の被写体に歪みが生じるレンズを含む撮像装置によって撮像された画像を用いた学習モデルの生成手法が開示されている。この手法では、歪みのある撮像画像を均等画像に変換してから関連情報を付与し、その後、均等画像を歪み画像に変換することにより学習用のデータを生成する。
特開2019-125116号公報 特開2019-117577号公報
特許文献1の手法においては、画像認識を行うごとに撮像した画像に対して変換処理を行う必要があるため、画像認識時の処理負荷が大きい。したがって、用途によっては、特許文献1の手法の適用が困難な場合もある。
特許文献2の手法においては、変換処理は画像認識時ではなく学習時に行われているため、上述の処理負荷が大きくなることは低減できる。しかしながら、画像認識用の撮像装置を用いて学習用の画像を撮像していることから、収集できる画像の量に制約があり、学習モデルの精度が十分に得られない場合がある。
本発明は、処理負荷を低減でき、且つ、高精度な学習モデルを生成し得る情報処理装置及び情報処理方法を提供することを目的とする。
本発明の一観点によれば、第1光学特性を有する光学系を備えた第1撮像装置により取得された第1画像に対して画像認識を行うための学習モデルを生成する情報処理装置であって、学習用の第2画像を変換して前記第1光学特性に基づく歪特性を有する第3画像を生成する変換部と、前記第3画像に基づいて前記学習モデルを生成する生成部と、を有することを特徴とする情報処理装置が提供される。
本発明の他の一観点によれば、第1光学特性を有する光学系を備えた第1撮像装置により取得された第1画像に対して画像認識を行うための学習モデルを生成する情報処理方法であって、学習用の第2画像を変換して前記第1光学特性に基づく歪特性を有する第3画像を生成するステップと、前記第3画像に基づいて前記学習モデルを生成するステップと、を有することを特徴とする情報処理方法が提供される。
本発明は、処理負荷を低減でき、且つ、高精度な学習モデルを生成し得る情報処理装置及び情報処理方法が提供される。
第1実施形態に係る画像認識システムの全体構成を示すブロック図である。 第1実施形態に係る撮像装置の概略構成を示すブロック図である。 第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理装置の機能ブロック図である。 第1実施形態に係る情報処理装置における学習処理の概略を示すフローチャートである。 第1実施形態に係る情報処理装置における画像認識に用いられ得るニューラルネットワークを概念的に示す図である。 第1実施形態に係る情報処理装置における画像認識処理の概略を示すフローチャートである。 第2実施形態に係る情報処理装置における学習処理の概略を示すフローチャートである。 第2実施形態に係る情報処理装置における画像変換の一例を説明する図である。 第3実施形態に係る情報処理装置における学習処理の概略を示すフローチャートである。 第4実施形態による画像認識システム及び移動体の構成例を示す図である。
以下、図面を参照しつつ、本発明の実施形態を説明する。複数の図面にわたって同一の要素又は対応する要素には共通の符号が付されており、その説明は省略又は簡略化されることがある。
[第1実施形態]
本実施形態の画像認識システムは、撮像した画像に対して画像認識を行い、認識結果を出力するシステムである。画像認識システムの用途の一例としては、撮像範囲内に監視対象物があるか否か等を自動的に判定する自動監視システムが挙げられる。画像認識システムは、典型的には、動画像又は連続画像に基づいて繰り返し認識処理を行うことによりリアルタイムでの画像認識を実現するものであり得る。
また、本実施形態の画像認識システムは、学習用画像を用いて学習モデルの生成を行う機械学習の機能を有している。この機能により生成された学習済みの学習モデルは、上述の画像認識に用いられる。なお、学習用画像は、あらかじめ画像認識システムに設けられているデータベースに記憶されている。
図1は、本実施形態に係る画像認識システムの全体構成を示すブロック図である。画像認識システムは、互いに通信可能に接続された撮像装置10及び情報処理装置20を有している。撮像装置10は、設置されている箇所の周辺を撮影して画像を取得する装置である。撮像装置10は、例えば、監視カメラ、デジタルスチルカメラ、デジタルカムコーダ、スマートフォン、車載カメラ、観測衛星等であり得る。撮像装置10は、広範囲の画像認識を行うため、魚眼レンズ等の画角が広いレンズを用いたものであることが望ましい。情報処理装置20は、PC、サーバ等のコンピュータであり、撮像装置10から取得した画像を用いた画像処理等の演算処理を行う。情報処理装置20は、撮像装置10を制御して撮像を行わせる機能を有していてもよい。
なお、画像認識システムの装置構成は、図1に示すものに限定されない。例えば、画像認識システムは、撮像装置10及び情報処理装置20の機能を有する一体型の画像認識装置であってもよい。また、撮像装置10及び情報処理装置20の少なくとも一方が複数設けられていてもよい。例えば、撮像装置10が複数設けられていることにより、複数の撮影範囲を並行して撮影可能であってもよい。また、例えば、情報処理装置20が複数設けられていることにより、本実施形態の画像処理等を複数の装置が連携して行うものであってもよい。また、情報処理装置20が学習モデルの生成を行う学習装置と、学習モデルを用いて画像認識を行う画像認識装置に分かれていてもよい。また、画像認識システムは、撮像装置10及び情報処理装置20以外の装置を更に有していてもよい。例えば、画像認識システムは、全体を制御する制御装置を更に有していてもよく、この場合、撮像装置10及び情報処理装置20は、制御装置の制御に応じて画像認識の処理を行うものであってもよい。
図2は、本実施形態に係る撮像装置10の概略構成を示すブロック図である。撮像装置10は、図2に示すように、光電変換装置101、レンズ102、絞り103、バリア104、信号処理部105、タイミング発生部111、全体制御・演算部110を有している。撮像装置10は、また、メモリ部106、記録媒体制御I/F(Interface)部109、外部I/F部107を有している。
光電変換装置101は、CMOSイメージセンサ、CCDイメージセンサ等の固体撮像素子である。光電変換装置101は、典型的には複数の行及び複数の列をなすように配された複数の画素を有する2次元エリアセンサであり、複数の画素の各々が入射光に応じた信号を出力する。レンズ102は、被写体の光学像を光電変換装置101の撮像領域に結像するためのものである。上述のように、レンズ102は、魚眼レンズ等の画角が広いレンズであり得る。絞り103は、レンズ102を通った光量を可変にするためのものである。バリア104は、レンズ102の保護のためのものである。
信号処理部105は、光電変換装置101より出力される信号に対して、所望の処理、補正、データ圧縮等を行うものである。信号処理部105には、デジタルシグナルプロセッサ等の回路が含まれる。信号処理部105は、光電変換装置101と同じ基板に搭載されていてもよいし、別の基板に搭載されていてもよい。また、信号処理部105の一部の機能が光電変換装置101と同じ基板に搭載され、信号処理部105の他の一部の機能が別の基板に搭載されていてもよい。また、光電変換装置101は、デジタル信号ではなく、AD変換前のアナログ信号を出力するものであってもよい。その場合、信号処理部105には、AD変換器が更に含まれ得る。
タイミング発生部111は、光電変換装置101及び信号処理部105に、各種タイミング信号を出力するためのものである。全体制御・演算部110は、撮像装置10の全体の駆動及び演算処理を司る制御部である。ここで、タイミング信号等の制御信号は撮像装置10の外部から入力されてもよく、撮像装置10は、少なくとも光電変換装置101と、光電変換装置101から出力された信号を処理する信号処理部105とを有していればよい。
メモリ部106は、画像データを一時的に記憶するためのフレームメモリ部である。記録媒体制御I/F部109は、記録媒体108への記録或いは記録媒体108からの読み出しを行うためのインターフェース部である。外部I/F部107は、外部の情報処理装置20等と通信するためのインターフェース部である。記録媒体108は、撮像データの記録又は読み出しを行うための半導体メモリ等の記録媒体である。記録媒体108は、撮像装置10に内蔵されていてもよく、着脱可能であってもよい。
図3は、本実施形態に係る情報処理装置20のハードウェア構成を示すブロック図である。情報処理装置20は、CPU201、RAM202、ROM203、HDD(Hard Disk Drive)204、通信I/F205、入力装置206及び出力装置207を有している。これらの各部はバス等を介して相互に接続される。
CPU201は、ROM203及びHDD204に記憶されたプログラムをRAM202に読み出して実行し、演算処理、情報処理装置20の各部の制御等を行うプロセッサである。CPU201が行う処理は、学習モデルの生成、画像認識等を含み得る。
RAM202は、揮発性の記憶媒体であり、CPU201がプログラムを実行する際のワークメモリとして機能する。ROM203は、不揮発性の記憶媒体であり、情報処理装置20の動作に必要なファームウェア等を記憶する。HDD204は、不揮発性の記憶媒体であり、本実施形態の学習処理、画像認識等の処理に用いられるプログラム、画像データ等を記憶する。
通信I/F205は、Wi-Fi(登録商標)、イーサネット(登録商標)、Bluetooth(登録商標)等の規格に基づく通信装置である。通信I/F205は、撮像装置10、他のコンピュータ等との通信に用いられる。
入力装置206は、情報処理装置20に情報を入力するための装置であり、典型的には、ユーザが情報処理装置20を操作するためのユーザインターフェースである。入力装置206の例としては、キーボード、ボタン、マウス、タッチパネル等が挙げられる。
出力装置207は、情報処理装置20が外部に情報を出力する装置であり、典型的には、ユーザに情報を提示するためのユーザインターフェースである。出力装置207の例としては、ディスプレイ、スピーカ等が挙げられる。
なお、上述の情報処理装置20の構成は一例であり、適宜変更可能である。例えば、情報処理装置20に搭載され得るプロセッサの例としては、上述のCPU201に加えて、GPU、ASIC、FPGA等が挙げられる。また、これらのプロセッサが複数設けられていてもよく、複数のプロセッサが分散して処理を行ってもよい。また、HDD204における画像データ等の情報を記憶する機能は、情報処理装置20内ではなく、他のデータサーバに設けられていてもよい。また、HDD204は、光ディスク、光磁気ディスク、SSD(Solid State Drive)等の記憶媒体であってもよい。
図4は、本実施形態に係る情報処理装置20の機能ブロック図である。情報処理装置20は、学習用画像記憶部211、第1歪情報記憶部212、第2歪情報記憶部213、変換パラメータ算出部214、画像変換部215、学習モデル生成部216、画像取得部221、画像認識部222及び学習モデル記憶部223を有している。
CPU201は、プログラムを実行することにより、所定の演算処理を行う。また、CPU201は、プログラムを実行することにより、情報処理装置20内の各部を制御する。これらの処理により、CPU201は、変換パラメータ算出部214、画像変換部215、学習モデル生成部216、画像取得部221及び画像認識部222の機能を実現する。
HDD204は、学習用画像、第1歪情報、第2歪情報及び学習モデルを記憶するデータベースとして機能する。これにより、HDD204は、学習用画像記憶部211、第1歪情報記憶部212、第2歪情報記憶部213及び学習モデル記憶部223として機能する。
なお、図4に記載されている機能ブロックの一部は情報処理装置20の外部の装置に設けられていてもよく、図4に記載されている機能ブロックは複数の装置の協働により実現されるものであってもよい。例えば、図4に記載されている機能ブロックが学習装置と画像認識装置とにより実現されてもよい。この場合、学習装置は、学習用画像記憶部211、第1歪情報記憶部212、第2歪情報記憶部213、変換パラメータ算出部214、画像変換部215及び学習モデル生成部216を有し得る。また、画像認識装置は、画像取得部221、画像認識部222及び学習モデル記憶部223を有し得る。また、別の変形例としては、学習用画像記憶部211、第1歪情報記憶部212、第2歪情報記憶部213及び学習モデル記憶部223の機能の一部又は全部が情報処理装置20の外部のデータサーバにより実現されていてもよい。
図5は、第1実施形態に係る情報処理装置20における学習処理の概略を示すフローチャートである。本学習処理は、学習モデルを生成する処理であり、学習モデルを用いた画像認識処理に先立って、ユーザからの開始操作等に基づいてあらかじめ行われる。なお、本学習処理は、学習が完了している既存の学習モデルに対して追加学習を行うものであってもよい。
なお、学習用画像は、学習用画像記憶部211にあらかじめ記憶されているものとするが、学習時に情報処理装置20が情報処理装置20の外のデータベースから取得してもよい。学習用画像は、典型的には、識別すべき対象物を様々なシチュエーションで撮像することにより得られた多数の画像を含むビッグデータ群である。したがって、学習用画像は、通常は撮像装置10とは別の撮像装置により撮像された画像である。対象物の種別等の関連情報の設定が学習に必要な場合には、この関連情報はあらかじめ学習用画像に対応付けられて学習用画像記憶部211に記憶されているものとする。関連情報とは、例えば、画像に含まれている物体の名称等であり得る。
ステップS11において、変換パラメータ算出部214は、第1歪情報記憶部212に記憶されている第1歪情報と、第2歪情報記憶部213に記憶されている第2歪情報とを取得する。そして、変換パラメータ算出部214は、第1歪情報及び第2歪情報に基づいて変換パラメータを算出する。
ここで、第1歪情報は、撮像装置10(第1撮像装置)の光学系の光学特性(第1光学特性)に起因して、撮像装置10で撮像される画像(第1画像)に生じる歪特性に関する情報である。より具体的には、第1歪情報は、撮像装置10で用いられているレンズ102の歪みに関する情報であり得る。第1歪情報は、画像認識に用いられる予定の撮像装置10に応じて、あらかじめ第1歪情報記憶部212に記憶されている。
また、第2歪情報は、学習用画像(第2画像)の撮像に用いられた撮像装置(第2撮像装置)の光学系の光学特性(第2光学特性)に起因して画像に生じる歪特性に関する情報である。より具体的には、第2歪情報は、学習用画像の撮像に用いられた撮像装置のレンズの歪みに関する情報であり得る。第2歪情報は、本処理の学習に用いられる学習用画像に応じて、あらかじめ第2歪情報記憶部213に記憶されている。なお、第2歪情報は、学習用画像に対応付けられて記憶されていてもよく、その場合、変換パラメータ算出部214は、学習用画像記憶部211から第2歪情報を取得してもよい。
本ステップの処理により生成される変換パラメータは、後述の画像変換における変換の態様、程度等を示すものである。変換パラメータ算出部214は、学習用画像の歪みを撮像装置10により撮影される画像の歪みに近づけるように変換パラメータを算出する。また、この変換パラメータは、画像の回転角度、拡大・縮小の程度、輝度変更等のパラメータを含んでいてもよい。
ステップS12において、画像変換部215(変換部)は、学習用画像記憶部211に記憶されている学習用画像と、ステップS11において算出された変換パラメータとを取得する。そして、画像変換部215は、変換パラメータに基づいて、学習用画像を変換する。なお、この処理における変換は、例えば、射影方式が異なるレンズ間の射影方式変換を行う幾何学変換であり得る。また、変換時に画素値の補完処理を行ってもよい。なお、ステップS12において変換される学習用画像の個数は後述の学習モデルの生成に必要な個数であればよく、一般的には複数である。
ステップS13において、学習モデル生成部216(生成部)は、変換後の学習用画像(第3画像)に基づいて学習モデルを生成する。本実施形態で用いられ得る学習モデルは、例えば、図6に例示されるようなニューラルネットワークであり得る。図6は、本実施形態に係る情報処理装置20における画像認識に用いられ得るニューラルネットワークを概念的に示す図である。
図6に示されているニューラルネットワークは、複数のノード30を有している。複数のノード30は、入力層、中間層及び出力層をなしている。入力層には、画像データが入力される。各ノード30は、複数の他のノード30からの入力値と重み付け係数とバイアス値とを含む活性化関数による演算を行い、演算結果を次の層のノード30に出力する。出力層のノード30は、前段の中間層からの入力に基づいてニューラルネットワークの演算結果を出力する。この出力は、入力された画像データに関する何らかの判定結果を意味するものであり得る。判定結果の具体例としては、例えば、入力された画像中に対象物があるか否か、対象物の位置、対象物の種別等であり得る。
なお、ニューラルネットワークの例では、学習モデルとは、ニューラルネットワークの構造と、活性化関数に含まれる重み付け係数及びバイアス値に相当し、学習とは、重み付け係数とバイアス値を適切に決定することに相当する。
ニューラルネットワークの学習方法の一例を説明する。あらかじめ正解値が設定されている学習用画像を準備しておく。そして、入力層に学習用画像を入力したときに設定されている正解値が出力層のノード30から出力されるように、各ノード30の重み付け係数とバイアス値の最適化を行う。この最適化手法の一例としては逆誤差伝搬法が挙げられる。このような学習処理を多数の学習用画像を用いて行うことにより、学習用画像以外の未知の画像に対しても適切な画像認識を行うことができる学習モデルを生成することができる。
なお、本実施形態で用いられ得る学習モデルは上述の例のようなニューラルネットワークを用いるものに限定されず、例えば、ランダムフォレスト、サポートベクタマシン等であってもよい。また、図6に示されているニューラルネットワークの構造は説明の都合上簡略化されたものであり、実際の層数、ノード数等は図示されているものよりもはるかに大規模なものであり得る。
ステップS14において、学習モデル記憶部223は、ステップS13において生成された学習モデルを記憶する。次に、学習済みの学習モデルを用いた画像認識処理について説明する。
図7は、第1実施形態に係る情報処理装置20における画像認識処理の概略を示すフローチャートである。本画像認識処理は、学習モデルを用いて撮像装置10により撮像された画像を認識する処理である。本画像認識システムが自動監視システムのように撮像と認識を繰り返し行うものである場合には、本処理は、撮像装置10により撮像が行われるごとに繰り返し実行される。あるいは、本処理は、ユーザからの開始操作に基づいて実行されるものであってもよい。
ステップS21において、画像取得部221は、撮像装置10によって撮像された画像を取得する。ステップS22において、画像認識部222は、学習モデル記憶部223に記憶されている学習モデルを用いて、ステップS21において取得された画像の認識を行う。例えば、画像認識部222で用いられる学習モデルが図6のようなニューラルネットワークである場合には、本処理は、入力層に画像データを入力して、出力層から演算結果を出力させる処理であり得る。ステップS23において、情報処理装置20は、画像認識部222における演算結果を外部に出力する。なお、画像取得部221は、図4に示されているように、距離センサ40の出力を更に取得して、処理に用いてもよい。
本実施形態の学習処理による効果をより詳細に説明する。一般的に、画像認識のための機械学習において精度を向上させるためには、学習用画像を多く準備することが有効である。そのためには、学習専用に多数の画像を撮像して学習用画像を準備する手法では得られる画像の数に限界があるため、いわゆるビッグデータ等とも呼ばれる既存の画像を活用することが望ましい。しかしながら、画像認識に用いられる撮像装置の光学特性が学習用画像の撮像に用いられた撮像装置の光学特性と異なっていると、同じ物体であっても形状等が異なって撮像されるため、画像認識の精度が低下するおそれがある。特に、自動監視等の用途の撮像装置には魚眼レンズ等の画角が広く、歪みの大きいレンズが用いられることが多いのに対し、既存の画像は中心射影方式の一般的なレンズを用いた撮像装置で撮像されることが多い。このようなケースでは、レンズの差による画像の歪みの差の影響が顕著になることがある。
そこで、本実施形態では、学習用画像を変換して、画像認識に用いられる撮像装置10の光学系の光学特性に基づく歪特性を有する画像で学習を行っている。これにより、撮像装置10で取得される画像の歪特性を考慮した学習が行われる。したがって、本実施形態によれば、高精度な学習モデルを生成し得る情報処理装置及び情報処理方法が提供される。
また、本実施形態では、画像認識に用いられる撮像装置10の光学系の光学特性に加えて、学習用画像を撮像した撮像装置の光学系の光学特性も変換時に考慮されている。したがって、学習用画像と、撮像装置10で取得される画像の間の歪特性の差を考慮した学習が行われている。これにより、学習モデルの精度が更に向上されている。
[第2実施形態]
本実施形態の画像認識システムは、学習処理において、1つの学習用画像に対して、レンズの領域に応じて複数の異なる変換を行う点が第1実施形態と相違する。すなわち、本実施形態では、互いに異なる歪特性を有する変換後の学習用画像が複数生成される。以下では、第1実施形態との相違点について説明するものとし、第1実施形態と共通する部分についての説明は省略又は簡略化する。
図8は、第2実施形態に係る情報処理装置における学習処理の概略を示すフローチャートである。本実施形態の学習処理は、レンズ102を複数の領域に分割し、レンズ102の領域ごとに、対応する学習用画像の変換を行うループ処理を含んでいる。このループ処理はステップS31、S11、S12を含む。ループ処理が1周するごとに1つの領域に対応する学習用画像の変換が行われる。ループ処理のループカウンタ変数をkとする。
ステップS31において、変換パラメータ算出部214は、レンズ102の複数の領域のうちのk番目のレンズ領域に対応する第1歪情報を第1歪情報記憶部212から取得する。第1歪情報は、レンズ領域ごとに異なるものであり得る。なお、レンズ領域ごとの第1歪情報は、あらかじめ第1歪情報記憶部212に記憶されているものとするが、変換パラメータの算出の際にレンズの射影方式を示す理論式とレンズ領域の座標から計算により算出してもよい。
ステップS11、S12は、第1歪情報がレンズ102の全体ではなく、その一部であるk番目のレンズ領域に対応するものである点を除き第1実施形態と同様であるため、説明を省略する。すべてのレンズ領域の変換が完了するとループ処理は終了する。このループ処理では、1つの学習用画像に対してレンズ領域の個数分の異なる変換処理が行われ、レンズ領域の個数の分だけ変換後の学習用画像が得られる。その後、第1実施形態と同様にステップS13、S14の処理が行われる。これらの処理により、レンズ102の複数の領域の各々に対応して異なる第1歪情報を用いた変換が行われ、各変換に対応した多数の学習用画像により学習モデルが生成される。
本実施形態のレンズ領域ごとの変換処理について、具体例を挙げつつより詳細に説明する。図9(a)乃至図9(f)は、第2実施形態に係る情報処理装置20における画像変換の一例を説明する図である。なおこの具体例の説明においては、撮像装置10のレンズ102は、等立体角射影方式等の射影方式による、画角180°の魚眼レンズであるものとする。また、学習用画像は、被写体と像が相似形状になるような、中心射影方式の射影方式によるレンズを用いた撮像装置で撮像されたものとする。
図9(a)は、魚眼レンズを用いた撮像装置10により撮影される画像及びその分割方法を模式的に示す図である。魚眼レンズの光軸が鉛直方向を向いているとき、撮像範囲は天球の全面となる。このとき、撮影される画像の各画素の座標は、天球の全面の座標を平面上の円に射影したものとなる。この射影方式に起因して、撮影される画像内の被写体の歪みは天球の地表に近い位置(図9(a)では円の外周に近い位置)ほど大きくなり、天頂に近い位置(図9(a)では円の中心に近い位置)ほど小さくなる。また、被写体の画像は、撮影される画像内の位置に応じて異なる角度に回転する。そこで、図9(a)に示されるように、複数の中心線及び複数の同心円によって領域を分割する。図9(a)に示す画像において各領域に対応するレンズの範囲が、図8において述べたレンズ領域に相当する。
次に、図9(b)から図9(f)を参照して、学習用画像の変換処理による画像の変形について説明する。図9(b)は、変換前の学習用画像の例を示している。図9(b)の画像は、認識の対象物として飛行物体の画像が含まれている長方形ABCDをなしている。図9(b)の画像では、被写体と像が相似形状であることから実際の飛行物体の形状が正しく反映されているものとする。
図9(c)は、図9(a)の領域P1に対応する学習用画像の変形を示す図である。図9(d)は、この学習用画像の変形に伴う飛行物体の画像の変形を示す図である。領域P1において、長方形ABCDを中心射影方式から等立体角射影方式に変換すると、図9(c)のように長方形ABCDは、158°程度の回転と、各辺が歪む変形を受ける。これにより、図9(d)のように、飛行物体の画像の形状も同様の回転及び変形を受けることとなる。
また、図9(e)は、図9(a)の領域P2に対応する学習用画像の変形を示す図である。図9(f)は、この学習用画像の変形に伴う飛行物体の画像の変形を示す図である。領域P2において、長方形ABCDを中心射影方式から等立体角射影方式に変換すると、図9(e)のように長方形ABCDは、23°程度の回転と、長方形から扇形への変形を受ける。これにより、図9(f)のように、飛行物体の画像の形状も同様の回転及び変形を受けることとなる。図9(d)及び図9(f)の比較により理解できるように、領域に応じて変形の態様と程度が異なっている。
魚眼レンズを用いて飛行物体等の物体の撮像を行う場合には、等立体角射影方式等の射影方式の性質に起因して、画像内の位置によって画像の変形の態様と程度が変化することを考慮すべきである。魚眼レンズの全面にわたって同じ歪みを与えるような変形では、この影響を考慮することが困難である。そこで、本実施形態では、ステップS11、S12における学習用画像の変換において、画像内の位置、すなわち、レンズ領域の位置に応じて変換パラメータを異ならせることで、レンズ内の位置による変形の態様と程度の違いを考慮した変換を可能にしている。したがって、本実施形態によれば、より高精度な学習モデルを生成し得る情報処理装置及び情報処理方法を提供することができる。
[第3実施形態]
本実施形態の画像認識システムは、学習処理において、レンズ領域に応じた複数の異なる変換により得られた画像を用いて複数の学習モデルを生成する点が第2実施形態と相違する。以下では、第2実施形態との相違点について説明するものとし、第2実施形態と共通する部分についての説明は省略又は簡略化する。
図10は、第2実施形態に係る情報処理装置における学習処理の概略を示すフローチャートである。本実施形態の学習処理は、レンズ102を複数の領域に分割し、レンズ102の領域ごとに対応する学習用画像の変換を行い、更にこれに対応した学習モデルを生成するループ処理を含んでいる。このループ処理はステップS31、S11、S12、S13、S14を含む。ループ処理が1周するごとに1つの領域に対応する学習用画像の変換及び学習モデルの生成が行われる。ループ処理のループカウンタ変数をkとする。
ステップS31、S11、S12、S13、S14の具体的な内容は第2実施形態と概ね同様であるため説明を省略する。第2実施形態とは異なり、本実施形態では、ステップS13、S14もループ処理内に含まれている。これにより、本実施形態では、レンズ領域に応じた複数の学習モデルが生成される。
画像認識処理の際には、図7におけるステップS22において、レンズ領域ごとに異なる学習モデルを用いた画像認識を行う点が第1実施形態との相違点であるが、その他の点は同様である。なお、この画像認識は、レンズ領域ごとに行われるため複数回の処理となるが、この複数回の処理は、直列処理であってもよく、並列処理であってもよく、直列処理と並列処理を組み合わせたものであってもよい。
以上のように、本実施形態では、第2実施形態と同様に、レンズ領域の位置に応じて変換パラメータを異ならせることで、上述の変形の態様と程度の違いを考慮した変換が行われる。したがって、第2実施形態と同様の効果が得られる。更に本実施形態では、領域ごとに別の学習モデルが生成されることから、複数の学習モデルの各々を個別に見たときには、別の領域の学習用画像が学習に用いられない。したがって、学習モデルの認識精度が向上する。したがって、本実施形態によれば、より高精度な学習モデルを生成し得る情報処理装置及び情報処理方法を提供することができる。
なお、本実施形態においては、領域ごとに細分化された個別の学習モデルを有していることから、レンズ102の全領域にわたって画像認識を行うのではなく、一部の領域では画像認識を行わないという処理も可能である。例えば、撮像装置10の撮影範囲内に識別対象物が存在しないことがわかっている範囲がある場合には、その領域を除いた領域だけで学習モデルを準備して、画像認識時にはその領域をスキップして画像認識を行ってもよい。この手法では、一部の領域の画像認識を省略できるため、処理負荷を軽減することができる。画像認識をスキップする領域は、事前に選択されていてもよく、過去の画像との差分検出により差がないとされた領域を選択してもよい。
[第4実施形態]
本発明の第4実施形態による画像認識システム及び移動体について、図11を用いて説明する。図11(a)及び図11(b)は、本実施形態による画像認識システム600及び移動体の構成を示す図である。
図11(a)は、車載カメラに関する画像認識システム600の一例を示したブロック図である。画像認識システム600は、第1乃至第3実施形態で述べた撮像装置10を有する。また、画像認識システム600は、第1乃至第3実施形態で述べた情報処理装置20により生成された学習モデルを備え、撮像装置10により撮像された画像に対する画像認識を行なう画像認識部612を有する。ここで、画像認識部612が行う画像認識の出力結果は、対象物との衝突可能性に関連する情報である。例えば、画像認識システム600は、撮像装置10とは別に距離センサ40を有し、距離センサの結果と撮像装置10の結果と画像認識部612に入力する。画像認識部612は両者の結果をマージする。そして、画像認識システム600は、最適な回避行動をとることができる。
画像認識システム600は、画像認識部612により算出された距離に基づいて衝突可能性があるか否かを判定する衝突判定部618を有する。ここで、画像認識部612は、対象物までの距離情報を取得する距離情報取得手段(あるいは距離情報取得回路)の一例である。すなわち、距離情報とは、視差、デフォーカス量、対象物までの距離等に関する情報である。
衝突判定部618はこれらの距離情報のいずれかを用いて、衝突可能性を判定してもよい。距離情報取得手段は、専用に設計されたハードウェアによって実現されてもよいし、ソフトウェアモジュールによって実現されてもよいし、これらの組合せによって実現されてもよい。また、FPGA、ASIC等によって実現されてもよい。更に、これらの組合せによって実現されてもよい。
画像認識システム600は車両情報取得装置620と接続されており、車速、ヨーレート、舵角などの車両情報を取得することができる。また、画像認識システム600は、衝突判定部618での判定結果に基づいて、車両に対して制動力を発生させる制御信号を出力する制御手段(制御回路)である制御ECU630と接続されている。
また、画像認識システム600は、衝突判定部618での判定結果に基づいて、ドライバーへ警報を発する警報装置640とも接続されている。例えば、衝突判定部618の判定結果として衝突可能性が高い場合、制御ECU630はブレーキをかける、アクセルを戻す、エンジン出力を抑制するなどして衝突を回避、被害を軽減する車両制御を行う。警報装置640は、音等の警報を鳴らす、カーナビゲーションシステムなどの画面に警報情報を表示する、シートベルトやステアリングに振動を与えるなどしてユーザに警告を行う。
本実施形態では、車両の周囲、例えば前方又は後方を画像認識システム600の撮像装置10で撮像する。図11(b)に、車両前方(撮像範囲650)を撮像する場合の画像認識システム600を示す。車両情報取得装置620は、所定の動作を行うように画像認識システム600又は撮像装置10に指示を送る。このような構成により、測距の精度をより向上させることができる。車両は更に距離情報に基づいて移動体である車両を制御する制御手段を備え得る。
上述の例では他の車両と衝突しない制御を説明したが、画像認識システム600は、他の車両に追従して自動運転する制御や、車線からはみ出さないように自動運転する制御などにも適用可能である。更に、画像認識システム600は、車両に限らず、例えば、船舶、航空機あるいは産業用ロボットなどの移動体(移動装置)に適用することができる。加えて、移動体に限らず、高度道路交通システム(ITS)等、広く物体認識を利用する機器に適用することができる。
本実施形態によれば、高精度な学習モデルを備えた画像認識部612を用いることにより、より高性能な画像認識システム600及び移動体を提供することができる。
[変形実施形態]
本発明は、上述の実施形態に限らず種々の変形が可能である。例えば、いずれかの実施形態の一部の構成を他の実施形態に追加した例や、他の実施形態の一部の構成と置換した例も、本発明の実施形態である。
上述の第2実施形態において、撮像装置10のレンズ102の例として、等立体角射影方式の魚眼レンズを例示したが、投影方式はこれに限定されるものではない。投影方式は、例えば、等距離射影方式、正射影方式、立体射影方式等であってもよい。
上述の実施形態の説明においては、学習用画像は撮像装置10とは異なる撮像装置で撮像されていることを前提としているが、学習用画像の一部に撮像装置10で撮像された画像が含まれていてもよい。例えば、本実施形態の画像認識システムの運用時に、撮像装置10で撮像された画像を学習用画像に追加してもよい。なお、これらの場合には、この画像に対しては画像変換の処理は必須ではない。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。例えば、いずれかの実施形態の一部の構成を、他の実施形態に追加した実施形態、あるいは他の実施形態の一部の構成と置換した実施形態も本発明を適用し得る実施形態であると理解されるべきである。
10 撮像装置
20 情報処理装置
211 学習用画像記憶部
212 第1歪情報記憶部
213 第2歪情報記憶部
214 変換パラメータ算出部
215 画像変換部
216 学習モデル生成部

Claims (12)

  1. 第1光学特性を有する光学系を備えた第1撮像装置により取得された第1画像に対して画像認識を行うための学習モデルを生成する情報処理装置であって、
    学習用の第2画像を変換して前記第1光学特性に基づく歪特性を有する第3画像を生成する変換部と、
    前記第3画像に基づいて前記学習モデルを生成する生成部と、
    を有することを特徴とする情報処理装置。
  2. 前記第2画像は、前記第1光学特性とは異なる第2光学特性を有する光学系を備えた第2撮像装置により取得された画像である
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記変換部は、前記第2光学特性に更に基づいて前記第2画像の歪特性を変換する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記変換部は、互いに異なる歪特性を有する複数の前記第3画像を生成する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記複数の前記第3画像のそれぞれは、前記第1画像の中の位置に応じた歪特性を有する
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記生成部は、前記複数の第3画像に基づいて、前記第1画像の中の位置に応じた複数の前記学習モデルを生成する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記第1撮像装置の光学系は、魚眼レンズを含む
    ことを特徴とする請求項1乃至6のいずれか1項の記載の情報処理装置。
  8. 前記変換部において行われる変換処理は、前記第2画像の射影方式を変換する幾何学変換を含む
    請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 請求項1乃至8のいずれか1項に記載の情報処理装置により生成された前記学習モデルを有する画像認識装置と、
    前記第1撮像装置と、
    を有することを特徴とする画像認識システム。
  10. 移動体であって、
    請求項1乃至8のいずれか1項に記載の情報処理装置により生成された前記学習モデルを有する画像認識部と、
    前記画像認識部による画像認識の結果に基づいて前記移動体を制御する制御手段と、
    を有することを特徴とする移動体。
  11. 第1光学特性を有する光学系を備えた第1撮像装置により取得された第1画像に対して画像認識を行うための学習モデルを生成する情報処理方法であって、
    学習用の第2画像を変換して前記第1光学特性に基づく歪特性を有する第3画像を生成するステップと、
    前記第3画像に基づいて前記学習モデルを生成するステップと、
    を有することを特徴とする情報処理方法。
  12. コンピュータに、請求項11に記載の情報処理方法を実行させるためのプログラム。
JP2020155371A 2020-09-16 2020-09-16 情報処理装置及び情報処理方法 Pending JP2022049261A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020155371A JP2022049261A (ja) 2020-09-16 2020-09-16 情報処理装置及び情報処理方法
US17/411,173 US11842466B2 (en) 2020-09-16 2021-08-25 Information processing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020155371A JP2022049261A (ja) 2020-09-16 2020-09-16 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2022049261A true JP2022049261A (ja) 2022-03-29

Family

ID=80626877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020155371A Pending JP2022049261A (ja) 2020-09-16 2020-09-16 情報処理装置及び情報処理方法

Country Status (2)

Country Link
US (1) US11842466B2 (ja)
JP (1) JP2022049261A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3934232A1 (en) * 2019-02-26 2022-01-05 Hitachi Kokusai Electric Inc. Imaging system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6471934B2 (ja) 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
JP2018120283A (ja) 2017-01-23 2018-08-02 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11682131B2 (en) * 2017-10-27 2023-06-20 Canon Kabushiki Kaisha Image capturing apparatus and method of controlling image capturing apparatus
JP6688277B2 (ja) 2017-12-27 2020-04-28 本田技研工業株式会社 プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置
JP2019125116A (ja) 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
RU2716322C2 (ru) * 2018-03-23 2020-03-11 Общество с ограниченной ответственностью "Аби Продакшн" Репродуцирующая аугментация данных изображения
US10896350B2 (en) * 2018-04-10 2021-01-19 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and image capture apparatus
US10430708B1 (en) * 2018-08-17 2019-10-01 Aivitae LLC System and method for noise-based training of a prediction model

Also Published As

Publication number Publication date
US20220084169A1 (en) 2022-03-17
US11842466B2 (en) 2023-12-12

Similar Documents

Publication Publication Date Title
US10594941B2 (en) Method and device of image processing and camera
JP6891954B2 (ja) 物体検知装置、物体検知方法、及びプログラム
JP6330987B2 (ja) 画像処理装置、画像処理方法、及び記憶媒体
JP5053043B2 (ja) 車両周辺画像生成装置および車両周辺画像の歪み補正方法
US10645365B2 (en) Camera parameter set calculation apparatus, camera parameter set calculation method, and recording medium
US9258484B2 (en) Image pickup apparatus and control method for same
US10602125B2 (en) Camera-parameter-set calculation apparatus, camera-parameter-set calculation method, and recording medium
JP6577703B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2008172535A (ja) 運転支援システム、画像処理装置及びずれ検出方法
JP2008522268A (ja) 物体の位置をディジタル画像から特定する方法
US11127147B2 (en) Three-dimensional point cloud generation using a polarimetric camera in a drive assistance system equipped vehicle
EP3523777A1 (en) System and method for rectifying a wide-angle image
CN113256741A (zh) 用于扫描光场成像***的镜头标定方法及装置
US11842466B2 (en) Information processing device and information processing method
JP5487946B2 (ja) カメラ画像の補正方法およびカメラ装置および座標変換パラメータ決定装置
US20210375975A1 (en) Photoelectric conversion device, photoelectric conversion system, moving body, and signal processing method
JP2021051347A (ja) 距離画像生成装置及び距離画像生成方法
JP4397414B2 (ja) 画像処理方法、画像処理システム、画像処理装置及びコンピュータプログラム
JP2017011652A (ja) 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2016110312A (ja) 画像処理方法、画像処理装置及びプログラム
WO2020003764A1 (ja) 画像処理装置、移動装置、および方法、並びにプログラム
JP2021086258A (ja) 姿勢推定装置、および、姿勢推定方法
CN114821544A (zh) 感知信息生成方法、装置、车辆、电子设备及存储介质
JP7103324B2 (ja) 物体認識用異常検出装置及び物体認識用異常検出プログラム
JP2018146495A (ja) 物体検出装置、物体検出方法、物体検出プログラム、撮像装置、及び、機器制御システム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20220630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240731