JP7331926B2 - 学習装置、物体検出装置、学習方法、及び、プログラム - Google Patents

学習装置、物体検出装置、学習方法、及び、プログラム Download PDF

Info

Publication number
JP7331926B2
JP7331926B2 JP2021528683A JP2021528683A JP7331926B2 JP 7331926 B2 JP7331926 B2 JP 7331926B2 JP 2021528683 A JP2021528683 A JP 2021528683A JP 2021528683 A JP2021528683 A JP 2021528683A JP 7331926 B2 JP7331926 B2 JP 7331926B2
Authority
JP
Japan
Prior art keywords
domain
image
learning
frame
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021528683A
Other languages
English (en)
Other versions
JPWO2020261362A5 (ja
JPWO2020261362A1 (ja
Inventor
拓也 小川
剛志 柴田
哲明 鈴木
博義 宮野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020261362A1 publication Critical patent/JPWO2020261362A1/ja
Publication of JPWO2020261362A5 publication Critical patent/JPWO2020261362A5/ja
Application granted granted Critical
Publication of JP7331926B2 publication Critical patent/JP7331926B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に含まれる物体を検出する技術に関する。
深層学習を用いた物体検出手法が知られている。特許文献1、2は、ニューラルネットワークを使用し、畳み込み処理により特徴マップを抽出して物体を検出する手法を記載している。
特開2018-77829号公報
特開2018-5520号公報
深層学習を用いた物体検出において検出精度を担保するためには、対象物について事前に膨大な量及びバリエーションを持ったデータを用意し、それらを用いて学習を行うことが必要となる。しかし、データの取得や加工に要する時間、費用などのコストの面で、大量のデータを用意することが難しい場合がある。また、検出の対象が稀有な事象や予測が難しい事象などである場合、十分な量のデータを用意することは困難である。
本発明の1つの目的は、稀有な事象や予測が難しい事象など、大量のデータを用意することが難しい場合でも、低コストで実用的な精度を得ることが可能な物体検出手法を提供することにある。
上記の課題を解決するため、本発明の一つの観点では、学習装置であって、
実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成する特徴抽出手段と、
前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出する物体検出手段と、
前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力するドメイン識別手段と、
を備え、
前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる
本発明の他の観点では、入力画像から特徴を抽出し、前記入力画像に含まれる物体を検出する物体検出装置の学習方法は、
特徴抽出手段により、実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成し
物体検出手段により、前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出し、
ドメイン識別手段により、前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力し、
学習手段により、前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
前記学習手段により、前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる
本発明のさらに他の観点では、コンピュータを備え、入力画像から特徴を抽出して前記入力画像に含まれる物体を検出する物体検出装置の学習処理を行うプログラムは、
特徴抽出手段により、実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成し
物体検出手段により、前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出し、
前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力し、
前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる処理を前記コンピュータに実行させる。
本発明によれば、稀有な事象や予測が難しい事象など、大量のデータを用意することが難しい場合でも、低コストで実用的な精度の物体検出が可能となる。
実画像及び疑似画像の概念を示す。 第1実施形態に係る学習装置のハードウェア構成を示すブロック図である。 学習装置の基本原理を示す。 学習装置の機能構成を示すブロック図である。 特徴抽出部、物体検出部及びドメイン識別部のフォワード処理を示すフローチャートである。 枠情報及びドメイン領域情報を示す。 特徴抽出部、物体検出部及びドメイン識別部のバックワード処理のフローチャートである。 学習処理のフローチャートである。 物体検出装置の機能構成を示すブロック図である。 物体検出装置による物体検出処理のフローチャートである。 第2実施形態に係る学習装置の機能構成を示すブロック図である。
[画像とドメイン]
本実施形態では、大量の画像を用いて物体検出装置の学習を行うために、疑似画像を用いる。稀有な事象や予測が難しい事象については、十分な数の実画像を得ることは難しい。そこで、少数の実画像に加えて、多数の疑似画像を用いて学習を行うことにより、物体検出の精度を向上させる。
まず、実画像と疑似画像について説明する。「実画像」とは、現実の状況を撮影した画像を言う。図1(A)は実画像RIの概念を示す。実画像RIは、その全体が実際に撮影された画像からなる。なお、本明細書では、「画像」とは1枚の画像全体を指すものとし、画像の一部分、即ち、画像の部分データを「画像データ」と呼んで両者を区別する。よって、実際に撮影された1枚の画像を実画像RIと呼び、その部分データを実画像データIaと呼ぶ。実画像RIは実画像データIaのみにより構成される。
これに対し、「疑似画像」とは、画像の合成により人為的に作成された画像を言う。図1(B)は疑似画像PIの概念を示す。疑似画像PIは、実画像データIaと疑似画像データIbを合成することにより作成される。即ち、疑似画像PIは、実画像データIaと疑似画像データIbにより構成される。疑似画像データIbは、他の画像の一部、コンピュータグラフィックスなどにより作成された画像データなどである。
いま、実画像RIのドメインを「ドメインA」とする。「ドメイン」とは、画像データの得られる領域、分布などを指す。同一の環境や条件などで得られた一群の画像データを同一ドメインの画像データと呼ぶ。この場合、実画像RIの一部分である実画像データIaのドメインも「ドメインA」となる。図1(A)に示すように、実画像RIは全体が「ドメインA」となる。これに対し、疑似画像PIのドメインを「ドメインB」とする。図1(B)に示すように、疑似画像PIについては、実画像データIaの部分はドメインAであり、疑似画像データIbの部分はドメインBとなる。
このように、本実施形態では、少数の実画像から得られる実画像データIaに疑似画像データIbを合成して多数の疑似画像PIを作成し、これらを用いて物体検出装置の学習を行う。なお、図1(B)の例では、実画像RIの一部のみに疑似画像データIbを合成して疑似画像PIを作成しているが、実画像RIの複数の部分に疑似画像データIbを合成して疑似画像PIを作成しても良い。即ち、疑似画像PIは、複数の疑似画像データIbを含んでいても良い。また、疑似画像PIの全体が疑似画像データIbのものがあっても良い。
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図2は、第1実施形態に係る学習装置のハードウェア構成を示すブロック図である。図示のように、学習装置1は、インタフェース(IF)2と、プロセッサ3と、メモリ4と、記録媒体5と、データベース(DB)15と、を備える。
インタフェース2は、外部装置との通信を行う。具体的に、インタフェース2は、物体検出の対象となる画像を外部から入力したり、物体検出の結果を外部装置へ出力する際に使用される。
プロセッサ3は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置1の全体を制御する。メモリ4は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ4は、プロセッサ3により実行される各種のプログラムを記憶する。また、メモリ4は、プロセッサ3による各種の処理の実行中に作業メモリとしても使用される。
記録媒体5は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置1に対して着脱可能に構成される。記録媒体5は、プロセッサ3が実行する各種のプログラムを記録している。学習装置1が学習処理を実行する際には、記録媒体5に記録されているプログラムがメモリ4にロードされ、プロセッサ3により実行される。
データベース6は、物体検出装置の学習処理において使用される画像を記憶する。具体的には、データベース6は、実画像及び疑似画像を記憶する。また、データベース6は、実画像及び疑似画像の属性情報(以下、「画像属性情報」と呼ぶ。)を記憶する。
(原理説明)
次に、本実施形態による学習処理の基本原理を説明する。本実施形態の学習処理は、画像から物体を検出する物体検出装置を学習するものである。図3は、学習装置1の基本原理を示す。学習装置1は、特徴抽出部11と、確信度算出部12と、枠統合部13と、ドメイン識別部14とを備える。なお、特徴抽出部11、確信度算出部12及び枠統合部13は、物体検出装置に相当するブロック(以下、「物体検出ブロック」と呼ぶ。)であり、基本的に物体検出アルゴリズムSSD(Single Shot Multibox Detector)に従って動作する。
特徴抽出部11には、画像が入力される。学習時には、実画像及び疑似画像が特徴抽出部11に入力される。特徴抽出部11は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)により構成され、入力された画像に対して畳み込み及びプーリングを行うことにより、異なるスケールの特徴マップFM(Feature Map)を生成する。特徴抽出部11が抽出した特徴は、各特徴マップFMの層を伝搬し、確信度算出部12に供給される。また、各特徴マップFMの層も特徴抽出を行っており、抽出された特徴は各特徴マップFMの層を伝搬して確信度算出部12に供給される。
確信度算出部12は、特徴マップFMを構成する各セルに対して、予め用意された複数の枠(ボックス)を割り当て、枠ごとに検出対象となる物体の各クラスについての確信度を算出する。例えば、検出対象となる物体のクラスとして、「人」、「馬」、「車」が設定されている場合、確信度算出部12は、それぞれの枠に属する画像が「人」である確信度、「馬」である確信度、「車」である確信度を算出する。確信度算出部12は、特徴抽出部11が生成した異なるスケールの特徴マップFMの全てについて、この処理を行う。
枠統合部13は、NMS(Non-Maximum Suppression)アルゴリズムを用いて、同じクラスとして認識された重複する枠を統合する。例えば、確信度算出部12により、画像のある部分に対応する複数の枠が同一のクラス(例えば「人」)と認識された場合、枠統合部13は、それら複数の枠を1つの枠に統合する。そして、枠統合部13は、統合された枠ごとに、画像におけるその位置及びクラスを含む検出結果を出力する。
一方、特徴抽出部11が生成した異なるスケールの特徴マップFMは、ドメイン識別部14にも入力される。ドメイン識別部14は、確信度算出部12と同様に、特徴マップFMの各セルに対して枠を設定し、枠ごとにドメインを識別する。具体的には、設定した枠に含まれる画像データが、実画像データIaに対応するドメインAであるか、疑似画像データIbに対応するドメインBであるかを識別する。そして、ドメイン識別部14は、ドメイン識別性情報DDを生成する。ドメイン識別性情報とは、ドメインを識別するための情報であり、具体的にはドメインAとドメインBの違いを示す情報である。
ドメイン識別部14により生成されたドメイン識別性情報DDは、各特徴マップFMの層を逆伝搬して特徴抽出部11へ供給される。各特徴マップFMの層は特徴抽出を行っているため、ドメイン識別性情報DDは、一番深い特徴マップFMの層に入力され、そこから各特徴マップFMの層を逆伝搬して特徴抽出部11に至る。そして、特徴抽出部11は、ドメイン識別部14から供給されたドメイン識別性情報DDに基づいて、ドメインを識別できないように学習する。言い換えると、特徴抽出部11は、ドメインAとドメインBに共通する特徴を抽出するように学習を行う。これにより、物体検出ブロックは、実画像と疑似画像の両方を用いて、高精度で物体検出を行えるように学習される。
前述のように、物体検出ブロックで高精度に物体を検出できるようにするためには、大量のデータが必要となるため、実画像のみで学習を行えるような十分な数の実画像を用意することは難しい。一方で、疑似画像のみを使用して物体検出ブロックの学習を行った場合、物体検出ブロックは、疑似画像からは正しく物体を検出できるが、実画像から正しく物体を検出することはできなくなる。そこで、本実施形態では、実画像と疑似画像の両方を使用し、ドメインを区別できないような特徴、即ち、ドメインの違いに依らない共通の特徴を抽出するように特徴抽出部11を学習させることにより、最終的に学習の完了した物体検出ブロックが実画像からも正しく物体を検出できるようにする。
通常、ドメイン適応は注目領域を対象に行うものであり、画像全体を処理する物体検出処理との親和性に疑問がある。そこで、本発明では、物体検出処理(CNN)で用いる「枠」という概念を、ドメイン適応の対象として使用することによりドメイン適応を適用可能としている。
(学習装置)
図4は、学習装置1の機能構成を示すブロック図である。学習装置1は、機能的には、特徴抽出部21と、物体検出部22と、ドメイン識別部23と、ドメイン領域判別部24とを備える。なお、特徴抽出部21と物体検出部22は、物体検出ブロックに相当する。
特徴抽出部21は、CNNを用いて構成され、入力画像から特徴を抽出する。図5(A)は、特徴抽出部21のフォワード(Fw)処理のフローチャートである。特徴抽出部21には、入力画像として、実画像RIと疑似画像PIが入力される。特徴抽出部21は、入力画像に対して、CNNを用いた畳み込み及びプーリングにより特徴抽出を行い、特徴マップFMを生成する(ステップS11)。特徴抽出部21は、複数段の処理を行うことにより、異なるスケールの特徴マップFMを生成する。
次に、特徴抽出部21は、生成した特徴マップFMごとに、特徴マップFM上で枠を設定し、枠情報FIを出力する(ステップS12)。特徴マップFMは、複数のセルが縦方向及び横方向に並んだマトリクス構造を有し、特徴抽出部21は、各セルに対して予め用意された複数の枠を割り当てる。なお、各セルに対しては、サイズ及びアスペクト比が異なる複数の枠が割り当てられる。そして、特徴抽出部21は、各枠に属する画像データに基づいて枠情報FIを生成する。枠情報FIは、画像全体におけるその枠の位置を示す情報であり、例えば図6(A)に示すように枠の左上の点の位置(x,y)、幅w、高さhなどを含む。そして、特徴抽出部21は、特徴マップFMと枠情報FIを物体検出部22へ出力する。
物体検出部22は、特徴マップFMと枠情報FIに基づいて、画像中の物体を検出する。図5(B)は、物体処理部22のフォワード処理時のフローチャートである。物体検出部22は、特徴マップFMと枠情報FIを受け取り、枠ごとに各クラスに対する確信度と位置誤差を算出することで物体の検出を行い(ステップS13)、検出結果を出力する。具体的には、物体検出部22は、各特徴マップFM上に設定された複数の枠ごとに、その枠に属する物体のクラスごとの確信度を算出する。そして、NMSアルゴリズムを用いて、同じクラスと認識された枠を統合して物体を検出する。物体の検出結果は、統合された枠ごとに、その枠の位置と物体のクラスを含む。
ドメイン識別部23は、特徴抽出部21に入力された画像について、枠ごとにドメインを識別する。図5(C)は、ドメイン識別部23のフォワード処理時のフローチャートである。ドメイン識別部23は、物体検出部22から入力された特徴マップFMと枠情報FIに基づいて、枠ごとに画像のドメインを識別する(ステップS14)。具体的には、ドメイン識別部23は、各枠に属する画像データに基づいて、その枠が実画像データIaに対応するドメインAであるか、疑似画像データIbに対応するドメインBであるかを判定し、いずれのドメインであるかを示すドメイン識別結果を生成する。
ドメイン領域判別部24は、画像属性情報ATに基づいて、ドメイン領域情報DAを生成し、ドメイン識別部23へ出力する。画像属性情報ATは、実画像RI及び疑似画像PIの属性に関する情報であり、その画像に含まれる実画像データIa及び疑似画像データIbの領域に関する情報を含む。例えば、実画像RIについては、画像属性情報ATは、その画像の全領域が実画像データIaであることを示す情報を含む。また、疑似画像PIについては、画像属性情報ATは、その画像の全領域のうち、実画像データIaの領域及び疑似画像データIbの領域をそれぞれ示す情報を含む。
ドメイン領域判別部24は、画像属性情報ATに基づいて、実画像RI及び疑似画像PIにおけるドメインAの領域(即ち、実画像データIaの領域)及びドメインBの領域(即ち、疑似画像データIbの領域)を判別してドメイン領域情報DAを生成し、ドメイン識別部23に出力する。ドメイン領域情報DAは、図1(A)及び図1(B)に示すように、実画像RI及び疑似画像PIにおけるドメインAとドメインBの領域を示す情報である。
次に、学習装置1のバックワード処理について説明する。バックワード処理は、ドメイン識別結果と物体の検出結果を用いて、特徴抽出部21、物体検出部22及びドメイン識別部23の学習を行う処理である。図7は、特徴抽出部21、物体検出部22及びドメイン識別部23のバックワード処理のフローチャートである。
まず、ドメイン識別部23は、ドメイン領域判別部24から各画像についてのドメイン領域情報DAを取得し、枠ごとにドメイン識別結果の正解データを生成する。図6(B)は、ドメイン識別結果の正解データを作成する方法を示す。ドメイン領域情報DAは、図6(B)に示すように、疑似画像PIにおけるドメインAとドメインBの領域を示す。ドメイン識別部23は、物体検出部22から取得した枠情報FIに基づいて、その枠がドメインAとドメインBのいずれに属するかを判定する。例えば、図6(B)において、枠F1はその全体がドメインAに属するので、ドメイン識別部23は、枠F1のドメインをドメインAと判定する。一方、枠F2はその大部分がドメインBに属するので、ドメイン識別部23は、枠F2のドメインをドメインBと判定する。こうして、ドメイン識別部23は、ドメイン領域情報DAを用いて、枠ごとにドメイン識別結果の正解データを生成する。
そして、ドメイン識別部23は、こうして生成したドメイン識別結果の正解データと、フォワード処理時にステップS14で生成したドメイン識別結果とを用いて学習を行う(ステップS21)。この学習は、具体的には、ドメイン識別部23による識別結果とドメイン識別結果の正解データとの誤差に基づいて、ドメイン識別部23を構成するモデルのパラメータを更新することにより行われる。実画像RIと疑似画像PIを含む多数の画像を用いて学習を行うことにより、ドメイン識別部23は、物体検出部22から供給される枠情報FIに基づいて、ドメインAとドメインBとを識別できるようになる。学習によりドメインの識別ができるようになると、ドメイン識別部23は、ドメインAとドメインBを識別するための情報をドメイン識別性情報DDとして特徴抽出部21及び物体検出部22に供給する。ドメイン識別性情報DDは、ドメインAとドメインBの違いを示す情報、ドメインAとドメインBとに共通しない特徴を示す情報、ドメインAとドメインBのそれぞれに固有の特徴を示す情報などとすることができる。
なお、ドメイン識別部23は、ドメイン領域情報DAを利用して生成した正解データのうち、各ドメイン領域と枠との重複率が一定以上である正解データを用いて学習を行うことが好ましい。即ち、例えばドメインAとドメインBに半分ずつ重なっているような枠については、どちらのドメインとも受け取ることができ、識別精度を向上させるための学習データとしては相応しくない。また、ドメイン識別部23の学習に使用する正解データは、ドメインAを正解とするデータと、ドメインBを正解とするデータとの比率が所定の比率となるように用意することが好ましい。これは、いずれかのドメインを正解とするデータが多すぎたり少なすぎたりすると、学習によるドメイン識別精度の向上が期待できなくなるためである。
次に、ドメイン識別性情報DDを用いて、物体検出部22は、ドメインの違いに依らない共通の特徴を学習する(ステップS22)。具体的には、物体検出部22は、ドメインの違いによる影響を受けずに物体を検出するように学習を行う。ここでの学習は、具体的には、物体検出部22が抽出した特徴と、ドメイン識別性情報DDとに基づいて、物体検出部22を構成するCNNのパラメータを更新することにより行われる。
次に、ドメイン識別性情報DDを用いて、特徴抽出部21は、ドメインの違いに依らない共通の特徴を学習する(ステップS23)。具体的には、特徴抽出部21は、ドメインの違いによる影響を受けずに特徴を抽出するように学習を行う。ここでの学習は、具体的には、特徴抽出部21が抽出した特徴と、ドメイン識別性情報DDとに基づいて、特徴抽出部21を構成するCNNのパラメータを更新することにより行われる。
(学習処理)
次に、学習装置1による学習処理の全体の流れについて説明する。図8は、学習処理のフローチャートである。この処理は、図2に示すプロセッサ3が、予め用意されたプログラムを実行し、図4に示す各構成要素として動作することにより実現される。
まず、特徴抽出部21は、入力画像として与えられる実画像RI及び疑似画像PIから特徴抽出を行う(ステップS31)。具体的には、特徴抽出部21は、実画像RI及び疑似画像PIから特徴マップFMを生成し、各特徴マップFMのセルごとに複数の枠を設定して枠情報FIを生成する。
次に、物体検出部22は、特徴マップFM及び枠情報FIを用いて枠ごとに物体検出を行い、検出結果を生成する(ステップS32)。また、物体検出部22は、得られた検出結果と、実画像RI及び疑似画像PIに対して用意された正解ラベルとを用いて学習を行う(ステップS33)。さらに、物体検出部22は、枠情報FIをドメイン識別部23に供給する。
ドメイン識別部23は、枠情報FIに基づいて、枠ごとにドメイン識別を行い、ドメイン識別結果を生成する(ステップS34)。これと並行して、ドメイン領域判別部24は、画像属性情報ATに基づいてドメイン領域を判別し(ステップS35)、ドメイン領域情報DAをドメイン識別部23に供給する。ドメイン識別部23は、ドメイン領域情報DAに基づいて、枠ごとにドメイン識別結果の正解データを生成する。そして、ドメイン識別部23は、ステップS34で得られたドメイン識別結果と、ドメイン識別結果の正解データとを用いて学習を行う(ステップS36)。
ドメイン識別部23は、学習によりドメイン識別が可能となると、ドメイン識別性情報DDを特徴抽出部21及び物体検出部22に供給する。物体検出部22は、ドメイン識別性情報DDを用いて、ドメインの違いに依らない共通の特徴を学習する(ステップS37)。また、特徴抽出部21は、ドメイン識別性情報DDを用いて、ドメインの違いに依らない共通の特徴を学習する(ステップS38)。こうして、学習処理が行われる。
(物体検出装置)
次に、学習処理により学習が完了した物体検出装置による物体検出について説明する。物体検出装置は、図2に示すようなハードウェア構成を有するPC(Personal Computer)などの端末装置により構成される。図9は、物体検出装置の機能構成を示すブロック図である。物体検出装置50は、基本的に図4に示す学習装置1の物体検出ブロックと同様に構成され、特徴抽出部21と、物体検出部22とを備える。
図10は、物体検出装置50による物体検出処理のフローチャートである。物体検出装置50には、実画像RIが入力される。特徴抽出部21は、入力された実画像RIから特徴抽出を行い、特徴マップFMと枠情報FIを生成して物体検出部22に出力する(ステップS41)。物体検出部22は、枠ごとに各クラスの確信度を算出し、重複する枠を統合して物体を検出し、検出結果を出力する(ステップS42)。
[第2実施形態]
次に、本発明の学習装置の第2実施形態について説明する。図11は、第2実施形態に係る学習装置の機能構成を示す。なお、第2実施形態の学習装置も、図2に示すハードウェア構成を有する。
第2実施形態の学習装置90は、特徴抽出部91と、物体検出部92と、ドメイン識別部93とを備える。特徴抽出部91及びドメイン識別部93には、実画像及び疑似画像を含む入力画像が入力される。特徴抽出部91は、入力画像から特徴抽出を行って特徴マップを生成する。物体検出部92は、特徴マップに基づいて、入力画像に含まれる物体を検出し、検出結果を出力する。
ドメイン識別部93は、入力画像を構成するドメインを識別し、ドメイン識別性情報を出力する。そして、特徴抽出部91及び物体検出部92は、ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を学習する。これにより、実画像のみならず、疑似画像を用いて、物体検出装置を学習させることが可能となる。
[変形例]
上記の実施形態では、SSDにより生成される特徴マップの各セルに対して複数の枠を設定している。その代わりに、SSDと同様の枠(いわゆるRegion Proposal)に準じたものを用いる物体学習、検出方式(例えばM2DetやRefineDetなど)であれば、それらから得られる枠と特徴マップを用いて実施してもよい。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 学習装置
2 インタフェース
3 プロセッサ
4 メモリ
5 記録媒体
6 データベース
11、21、91 特徴抽出部
12 確信度算出部
13 枠統合部
14、23、93 ドメイン識別部
22、92 物体検出部
24 ドメイン領域判別部

Claims (9)

  1. 実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成する特徴抽出手段と、
    前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出する物体検出手段と、
    前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力するドメイン識別手段と、
    を備え、
    前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
    前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる学習装置。
  2. 前記ドメイン識別手段は、前記入力画像の前記枠により規定される領域が、実画像データのドメインと疑似画像データのドメインのいずれに対応するかを識別する請求項に記載の学習装置。
  3. 疑似画像の属性情報に基づいて、当該疑似画像における疑似画像データの領域を示すドメイン領域情報を生成するドメイン領域判別手段を備え、
    前記ドメイン識別手段は、前記ドメイン領域情報に基づいて、前記枠毎のドメイン識別結果の正解データを生成し、当該正解データを用いてドメイン識別の学習を行う請求項に記載の学習装置。
  4. 前記ドメイン識別手段は、前記疑似画像における疑似画像データの領域と、前記入力画像の前記枠により規定される領域との位置関係に基づいて、前記ドメイン識別結果の正解データを生成する請求項に記載の学習装置。
  5. 前記ドメイン識別性情報は、実画像データのドメインと疑似画像データのドメインの違いを示す情報である請求項1乃至のいずれか一項に記載の学習装置。
  6. 前記疑似画像は、実画像データと疑似画像データを合成して作成されている請求項1乃至のいずれか一項に記載の学習装置。
  7. 請求項1乃至のいずれか一項に記載の学習装置により学習された特徴抽出手段及び物体検出手段を備える物体検出装置。
  8. 入力画像から特徴を抽出し、前記入力画像に含まれる物体を検出する物体検出装置の学習方法であって、
    特徴抽出手段により、実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成し
    物体検出手段により、前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出し、
    ドメイン識別手段により、前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力し、
    学習手段により、前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
    前記学習手段により、前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる学習方法。
  9. コンピュータを備え、入力画像から特徴を抽出して前記入力画像に含まれる物体を検出する物体検出装置の学習処理を行うプログラムであって、
    特徴抽出手段により、実画像及び疑似画像を含む入力画像から特徴抽出を行って特徴マップを生成し、前記特徴マップ上に設定した枠を示す枠情報を生成し
    物体検出手段により、前記特徴マップに基づいて、前記入力画像に含まれる物体を前記枠毎に検出し、
    前記入力画像を構成するドメインを前記枠毎に識別し、ドメイン間に共通しない特徴を示すドメイン識別性情報を出力し、
    前記特徴抽出手段、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴を抽出するように学習させ
    前記物体検出手段を、前記ドメイン識別性情報に基づいて、ドメインの違いに依らない共通の特徴に基づいて物体を検出するように学習させる処理を前記コンピュータに実行させるプログラム。
JP2021528683A 2019-06-25 2019-06-25 学習装置、物体検出装置、学習方法、及び、プログラム Active JP7331926B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/025075 WO2020261362A1 (ja) 2019-06-25 2019-06-25 学習装置、物体検出装置、学習方法、及び、記録媒体

Publications (3)

Publication Number Publication Date
JPWO2020261362A1 JPWO2020261362A1 (ja) 2020-12-30
JPWO2020261362A5 JPWO2020261362A5 (ja) 2022-03-08
JP7331926B2 true JP7331926B2 (ja) 2023-08-23

Family

ID=74060818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528683A Active JP7331926B2 (ja) 2019-06-25 2019-06-25 学習装置、物体検出装置、学習方法、及び、プログラム

Country Status (3)

Country Link
US (1) US12046000B2 (ja)
JP (1) JP7331926B2 (ja)
WO (1) WO2020261362A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312479B (zh) * 2021-05-13 2023-05-30 杭州中科睿鉴科技有限公司 跨领域虚假新闻检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800768A (zh) 2018-12-15 2019-05-24 中国人民解放军陆军工程大学 半监督gan的散列特征表示学习方法
US10325201B1 (en) 2019-01-31 2019-06-18 StradVision, Inc. Method and device for generating deceivable composite image by using GAN including generating neural network and discriminating neural network to allow surveillance system to recognize surroundings and detect rare event more accurately

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005520A (ja) 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
JP6964234B2 (ja) 2016-11-09 2021-11-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
JP6572269B2 (ja) 2017-09-06 2019-09-04 株式会社東芝 学習装置、学習方法、およびプログラム
US10311335B1 (en) * 2018-09-05 2019-06-04 StradVision, Inc. Method and device for generating image data set to be used for learning CNN capable of detecting obstruction in autonomous driving circumstance, and testing method, and testing device using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800768A (zh) 2018-12-15 2019-05-24 中国人民解放军陆军工程大学 半监督gan的散列特征表示学习方法
US10325201B1 (en) 2019-01-31 2019-06-18 StradVision, Inc. Method and device for generating deceivable composite image by using GAN including generating neural network and discriminating neural network to allow surveillance system to recognize surroundings and detect rare event more accurately
JP2020126608A (ja) 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. 生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、合成可否判断不可の合成イメージを生成する方法、及び装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Yaroslav Ganin, et al.,"Domain-Adversarial Training of Neural Networks",Journal of Machine Learning Research,Vol.17,2016年,全35頁,[online], [令和5年7月1日検索], インターネット, <URL: https://www.jmlr.org/papers/v17/15-239.html> and <URL: https://www.jmlr.org/papers/volume17/15-239/15-239.pdf>.
Yaroslav Ganin, et al.,"Unsupervised Domain Adaptation by Backpropagation",Proceedings of the 32nd International Conference on Machine Learning,PMLR 37:1180-1189,2015年,全10頁,[online], [令和5年7月1日検索], インターネット, <URL: http://proceedings.mlr.press/v37/ganin15.html> and <URL: http://proceedings.mlr.press/v37/ganin15.pdf>.
伊本 貴士,「AIの教科書」,第1版,日本,日経BP,2019年06月10日,第400~409頁,ISBN: 978-4-296-10284-6.
宮本 圭一郎(外2名),「PyTorchニューラルネットワーク 実装ハンドブック」,第1版,日本,株式会社 秀和システム,2019年01月01日,第182~204頁,ISBN: 978-4-7980-5547-3.

Also Published As

Publication number Publication date
US20220414918A1 (en) 2022-12-29
JPWO2020261362A1 (ja) 2020-12-30
WO2020261362A1 (ja) 2020-12-30
US12046000B2 (en) 2024-07-23

Similar Documents

Publication Publication Date Title
KR102635987B1 (ko) 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체
JP6823523B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2024039598A (ja) 連合学習に基づくマルチタスクハイブリッド教師あり医用画像分割方法及びシステム
CN112001983B (zh) 生成遮挡图像的方法、装置、计算机设备和存储介质
CN111062486B (zh) 一种评价数据的特征分布和置信度的方法及装置
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN108765540B (zh) 一种基于图像与集成学习的重光照方法
KR102414823B1 (ko) 금융 서비스를 위한 금융 세그먼트 분화 방법 및 이러한 방법을 수행하는 장치
JP7331926B2 (ja) 学習装置、物体検出装置、学習方法、及び、プログラム
CN111626379A (zh) 肺炎x光图像检测方法
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
JP6892844B2 (ja) 情報処理装置、情報処理方法、透かし検出装置、透かし検出方法、及びプログラム
CN114898155B (zh) 车辆定损方法、装置、设备及存储介质
CN111126566A (zh) 基于gan模型的异常家具布局数据检测方法
CN115543762A (zh) 一种磁盘smart数据扩充方法、***及电子设备
CN109598201A (zh) 动作检测方法、装置、电子设备及可读存储介质
JP7445672B2 (ja) ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法
CN108334935A (zh) 精简输入的深度学习神经网络方法、装置和机器人***
CN113763332A (zh) 一种基于三元胶囊网络算法的肺结节分析方法、装置及存储介质
JP2022072149A (ja) 機械学習プログラム、装置、及び方法
JP7027361B2 (ja) 情報処理装置及びプログラム
CN114594746B (zh) 改性橡胶智能生产检测控制方法及***
KR102485528B1 (ko) 금융 서비스를 위한 금융 모델 및 금융 데이터 가치 평가 방법 및 이러한 방법을 수행하는 장치
CN111553418B (zh) 神经元重建错误的检测方法、装置和计算机设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230724

R151 Written notification of patent or utility model registration

Ref document number: 7331926

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151