JP7283631B2 - 教師データ変換装置、教師データ変換方法、及び、プログラム - Google Patents

教師データ変換装置、教師データ変換方法、及び、プログラム Download PDF

Info

Publication number
JP7283631B2
JP7283631B2 JP2022510328A JP2022510328A JP7283631B2 JP 7283631 B2 JP7283631 B2 JP 7283631B2 JP 2022510328 A JP2022510328 A JP 2022510328A JP 2022510328 A JP2022510328 A JP 2022510328A JP 7283631 B2 JP7283631 B2 JP 7283631B2
Authority
JP
Japan
Prior art keywords
image
teacher data
orientation
learning
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022510328A
Other languages
English (en)
Other versions
JPWO2021192225A1 (ja
JPWO2021192225A5 (ja
Inventor
光 古根村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021192225A1 publication Critical patent/JPWO2021192225A1/ja
Publication of JPWO2021192225A5 publication Critical patent/JPWO2021192225A5/ja
Application granted granted Critical
Publication of JP7283631B2 publication Critical patent/JP7283631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本発明は、教師データ変換装置、教師データ変換方法、及び、非一時的な記録媒体に関する。
例えばディープラーニングなどのニューラルネットワークを用いて入力画像内の物体のカテゴリ及び位置、大きさを予測する物体検出が知られている(特許文献1及び2)。物体検出において検出された物体の位置及び大きさは、入力画像の外枠に対して平行な辺から成り、検出された物体を囲むバウンディングボックスの位置及び大きさで特定される。
物体検出の具体的な手法としては、SSD(Single Shot Multibox Detector)やYOLO(You Only Look Once)などが知られている。
特開2006-338103号公報 特開2011-138388号公報
福野開登、2018年、『Single Shot Multibox Detectorを用いた顔検出と顔属性の同時推定』、 (http://mprg.jp/data/FLABResearchArchive/Bachelor/B18/Abstract/fukuno.pdf)
上記の物体検出によれば、図1に示す予測対象画像をニューラルネットワークの入力層に入力すると、図2に示すように、予測対象画像に含まれる物体を囲むバウンディングボックスがニューラルネットワークの出力層から出力される。図2に示すように、物体の長手方向が画像の外枠に対して傾斜している場合、物体とバウンディングボックスとの間に大きな隙間が生じる場合がある。図3には、何らかの方法で物体の長手方向を検出できた場合に、図2に示すバウンディングボックスの長辺を物体の長手方向に対して平行となるようにバウンディングボックスを回転させた予測結果画像を示している。この場合でも、物体とバウンディングボックスとの間に大きな隙間が生じていることには変わらない。
また、ニューラルネットワークを学習する際に用いる教師データに物体の向き(Orientation)を加えることで、入力画像内の物体のカテゴリ及び位置、大きさに加えて向きをも予測する技術も報告されている(非特許文献1)。この技術では、図4に示すように物体の向きに合わせて回転されたバウンディングボックスを直接予測できるとされている。しかしながら、大量の教師データに物体の向きを手動で追加するのは負荷が高く、現実的ではない。
本発明の目的は、上述の課題に鑑み、教師データに物体の向きを自動で追加する技術を提供することにある。
本発明の観点によれば、画像と、前記画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む第1教師データの前記物体情報に基づいて特定される前記物体の画像である物体画像を入力すると、前記物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの第1ニューラルネットワークを記憶する記憶部と、前記第1ニューラルネットワークから出力された前記幾何変換パラメータに基づいて前記物体の向きを算出する算出部と、前記算出部が算出した前記物体の向きを前記第1教師データに追加することで、画像と、前記画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む第2教師データを生成する生成部と、を含む、教師データ変換装置が提供される。
本発明の他の観点によれば、画像と、前記画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む第1教師データの前記物体情報に基づいて特定される前記物体の画像である物体画像を入力すると、前記物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの第1ニューラルネットワークを記憶し、前記第1ニューラルネットワークから出力された前記幾何変換パラメータに基づいて前記物体の向きを算出し、前記算出部が算出した前記物体の向きを前記第1教師データに追加することで、画像と、前記画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む第2教師データを生成する、教師データ変換方法が提供される。
本発明によれば、教師データに物体の向きを自動で追加する技術が実現される。
予測対象画像である。 一般的な物体検出による予測結果画像である。 バウンディングボックスに回転を加えた予測結果画像である。 物体の向きを直接予測した場合の予測結果画像である。 教師データ変換装置の機能ブロック図である。 物体検出装置の機能ブロック図である。 自己学習型幾何変換器学習部の機能ブロック図である。 教師データ変換部の機能ブロック図である。 動作全体フローチャートである。 自己学習型幾何変換器学習部の動作フローである。 教師データ変換部の動作フローである。 自己学習型幾何変換器の学習の説明図である。 幾何変換の説明図である。 教師データ変換のイメージである。 物体の向きを考慮しない一般的なSSDでのデフォルトボックスの設定例である。 物体の向きを考慮するSSDでのデフォルトボックスの設定例である。 横辺が長辺となるケースでの回転角の決定方法の説明図である。 縦辺が長辺となるケースでの回転角の決定方法の説明図である。 縦辺と横辺が等しいケースでの回転角の決定方法の説明図である。 カテゴリ別自己学習型幾何変換器学習部の機能ブロック図である。 カテゴリ別教師データ変換部の機能ブロック図である。 カテゴリ別自己学習型幾何変換器学習部の動作フローである。 カテゴリ別教師データ変換部の機能ブロック図である。 角度から座標値への変換の説明図である。
(第1実施形態)
以下、図5を参照して、第1実施形態を説明する。
図5に示す教師データ変換装置1000は、記憶部1001と、算出部1002と、生成部1003を含む。
記憶部1001は、第1ニューラルネットワークを記憶する。第1ニューラルネットワークは、物体画像を入力すると、物体画像に対応する幾何変換パラメータを出力するように学習された学習済みのニューラルネットワークである。物体画像は、画像と、画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む第1教師データの物体情報に基づいて特定される物体の画像である。
算出部1002は、第1ニューラルネットワークから出力された幾何変換パラメータに基づいて物体の向きを算出する。
生成部1003は、算出部1002が算出した物体の向きを第1教師データに追加することで、画像と、画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む第2教師データを生成する。
以上の構成によれば、教師データに物体の向きを自動で追加する技術が実現される。
(第2実施形態)
次に、第2実施形態を説明する。なお、説明の便宜上、同一の機能ブロックに異なる符号を付す場合がある。
第2実施形態は、ニューラルネットワーク、特にディープラーニングを用いて画像内の物体のカテゴリ、位置、大きさを予測する物体検出技術に関する。具体的には、この物体検出技術では、ニューラルネットワークの出力に物体の向き情報を加えた上で、物体の向きを含んだ教師データを学習することで、物体の向きに合わせて回転されたバウンディングボックスを直接予測する。第2実施形態では、Spatial Transformer Networks(http://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf)に代表される画像の空間補正を行う幾何変換パラメータを予測するネットワーク(以下、自己学習型幾何変換器)を導入する。具体的には、物体検出技術に、下記ステップが追加される。
(1)一般的な物体検出で用いられる物体のカテゴリ、位置、大きさを含む物体情報を持つ教師データを入力データとして、空間補正後の画像と補正パラメータを出力する自己学習型幾何変換器を学習するステップ。
(2)物体のカテゴリ、位置、大きさ情報を持つ教師データに学習済みの自己学習型幾何変換器を適用して、物体の位置、大きさ、向きを含む物体情報を持つ教師データを生成するステップ。
以下では、各図面を参照して、大別して4つのフェーズを説明する。
(学習フェーズ)
ユーザが事前に作成した画像と画像に対応する物体のカテゴリ・位置・大きさ情報を持つ第1教師データから物体の向きに応じた画像の補正方法を学習するフェーズ。
(教師データ変換フェーズ)
学習された画像の補正方法から物体の向き情報を導出し、その情報を用いて第1教師データを第2教師データに変換するフェーズ。
(物体検出器学習フェーズ)
変換後の第2教師データを用いて物体検出器を学習するフェーズ。
(予測フェーズ)
学習済みの物体検出器(学習済みモデル)を用いて物体検出を行うフェーズ。
図6は物体検出装置101の構成図である。
物体検出装置101(教師データ変換装置)は、自己学習型幾何変換器学習部108(学習部)と、教師データ変換部110(生成部)と、物体検出器学習部118と、予測部121と、を備える。
自己学習型幾何変換器学習部108は、画像103と画像に対応する物体情報104として物体のカテゴリ105と位置106(バウンディングボックスの中心座標cx,cy)、大きさ107(バウンディングボックスのスケールw、h)を備える教師データ102(第1教師データ)を用いて、物体の特徴を捉えるための幾何変換方法を学習する。
教師データ変換部110は、学習後の自己学習型幾何変換器109(記憶部)を用いて教師データ(第1教師データ)の物体情報104に向き情報117を加える処理を行う。
物体検出器学習部118は、変換済み教師データ111を用いて物体検出器を学習する。
予測部121は、学習済みの物体検出器119を用いて、予測画像データ120に対して予測を行う。
図7は自己学習型幾何変換器学習部108の構成図である。
自己学習型幾何変換器学習部207(学習部)は、マーキング箇所抽出部208と、変換行列生成部210と、幾何変換部211と、自己学習型幾何変換器保存部212と、画像分類部213と、予測誤差算出部214と、を備える。
マーキング箇所抽出部208は、作成済みの教師データ201(第1教師データ)から物体のマーキング箇所を抽出する。
変換行列生成部210は、マーキング箇所を抽出した小画像から変換行列を算出する。変換行列生成部210は、Spatial Transformer Networksのlocalisation networkに該当する。
幾何変換部211は、マーキング箇所を抽出した小画像に幾何変換を適用し、変換後の画像を出力する。幾何変換部211は、Spatial Transformer NetworksのGrid GeneratorとSamplerに該当する。
自己学習型幾何変換器保存部212は、学習を終えた自己学習型幾何変換器の保存処理を行う。自己学習型幾何変換器保存部212は、学習済みの自己学習型幾何変換器209(第1ニューラルネットワーク)を自己学習型幾何変換器215(記憶部)として保存する。
画像分類部213(第2ニューラルネットワーク)は、幾何変換部から出力された画像に対して画像分類を行って予測値を出力する。
予測誤差算出部214は、画像分類部213の予測値(カテゴリ)と教師データのカテゴリ情報204から予測誤差を算出し、画像分類部213と自己学習型幾何変換器209のパラメータを更新させる。
図8は教師データ変換部110内の構成図である。
教師データ変換部308は、マーキング箇所抽出部309と、自己学習型幾何変換器読込み部310と、逆変換行列算出部314と、物体向き算出部315(算出部)と、を備える。
マーキング箇所抽出部309は、作成済みの教師データ301から物体のマーキング箇所を抽出する。
自己学習型幾何変換器読込み部310は、変換行列生成部312と幾何変換部313を備える学習済みの自己学習型幾何変換器311を読み込む。
逆変換行列算出部314は、変換行列生成部312から出力された変換行列(幾何変換行列)に対して、逆変換行列(逆幾何変換行列)を算出する。
物体向き算出部315(算出部・生成部)は、逆変換行列を利用して物体の位置、大きさを補正しつつ新たに向きを算出し、変換済み教師データの物体の位置(バウンディングボックスの中心座標cx,cy)320、大きさ(バウンディングボックスのスケールw、h)321、向き(バウンディングボックスの向きθ)322を情報として保存する。
図9は、ユーザが用意した教師データに向き情報を加える処理から実際に物体検出予測を行うまでの、全体の処理の一例を示すフローチャートである。
図10は、上記全体の処理フローの内、自己学習型幾何変換器学習ステップS101を詳細化したフローチャートである。図11は、上記全体の処理フローの内、教師データ変換ステップS102を詳細化したフローチャートである。図12は、上記自己学習型幾何変換器学習ステップの補足用資料である。図13は、フロー中に画像に対して行われる幾何変換の補足用資料である。図14は、上記教師データ変換ステップの補足資料である。
構成図と上記フローチャートに従って、適宜補足資料を用いて説明する。
まず、全体のフローについて説明する。
ユーザは予め画像103と物体情報104からなる教師データ102を用意しているとする。
ステップS101で、ユーザはこの教師データ102を自己学習型幾何変換器学習部108に入力する。内部では入力されたデータの補正方法を自己学習型幾何変換器108が学習し、終了条件に達したモデル109が保存される。
ステップS102で、ユーザは学習済みの自己学習型幾何変換器109と教師データ102を教師データ変換部110に入力することで、物体の向き情報を含んだ新たな教師データ111を取得することが出来る。この教師データ111には元の教師データ101に対して、物体の向き117が追加されているだけでなく、位置115と大きさ116にも補正が加わっている。
ステップS103で、ユーザは変換済みの教師データ111を物体検出器学習部118に入力する。内部では物体のカテゴリ、位置、大きさ、向きの情報を物体検出器119が学習し、終了条件に達した物体検出器119が保存される。向きを考慮した物体検出器119の学習手法は、例として非特許文献1を用いる。
ステップS104では、ユーザは予測用の画像データ120に対して学習済みの物体検出器119を用いて物体検出を行う。入力された画像データ120に対して、画像に写っている物体のカテゴリ、位置、大きさ、向きの予測が行われ、バウンディングボックスなどの形式で予測結果が出力される。向きを考慮した物体検出手法は、例として非特許文献1を用いる。
自己学習型幾何変換器109の学習について、より具体的に説明する。
ステップS201では、ユーザから入力された教師データ201が自己学習型幾何変換器学習部108に読み込まれる。図12では、自己学習型幾何変換器学習部108に三日月型の物体が写っている画像が入力される。
ステップS202では、マーキング箇所抽出部208が教師データ201から物体情報203一つ分を取得する。図12では、入力画像右下に写っている物体の物体情報が取得されている。
ステップS203では、マーキング箇所抽出部208が、物体情報の内、位置205と大きさ206をもとに物***置の小画像(物体画像)を切り出す。なお図12では、切り出した画像が正方形となるようにアスペクト比の変更処理が行われているが、自己学習型幾何変換器209への入力方法によっては必ずしもアスペクト比の変更処理を行う必要は無い。
小画像が自己学習型幾何変換器209に入力されるとまず変換行列生成部210に渡され、ステップS204が行われ、変換行列が出力される。以下はアフィン変換を例に説明するが、Spatial Transformer Networksの論文に記載のある通りアフィン変換以外の変換手法も適用可能である。
ステップS205では、幾何変換部211により小画像に対して変換行列が適用され、データの幾何変換が行われる。図13が幾何変換のイメージであり、左記の小画像に対して中央の太枠部分がフォーカスされ、右記の小画像に変換するように、太枠部の座標に対して拡大縮小や回転、平行移動などの幾何変換が行われる。
ステップS206では、幾何変換された小画像に対して、画像分類部213を用いて画像分類予測を行う。
ステップS207では、画像分類部213から出力された予測結果(分類結果)と教師データ201のカテゴリ情報204をもとに、予測誤差算出部214で予測結果の誤差を算出する。
ステップS208では予測誤差算出部214で出力された予測誤差をもとに、予測誤差を小さくするように画像分類器213と自己学習型幾何変換器209を更新する。画像分類器213と自己学習型幾何変換器209は、何れもニューラルネットワークで構築されており、画像分類器213と自己学習型幾何変換器209を更新するとは、画像分類器213と自己学習型幾何変換器209を構築するニューラルネットワークの重み付け係数を更新することを意味する。
ステップS209では、学習終了条件に達しているかチェックを行う。終了条件に達するまで、ステップS202からステップS208の処理を繰り返し行う。
ステップS210では、自己学習型幾何変換器保存部212により、学習が完了した自己学習型幾何変換器209を保存する。なお、画像分類器213は自己学習型幾何変換器209の学習のために設置したものであり、必ずしも保存する必要は無い。本実施形態でも保存しないフローで説明する。
次に、教師データ301の変換について、より具体的に説明する。
ステップS301では、ユーザから入力された教師データ301が教師データ変換部308に読み込まれる。図14では、三日月型の物体が写っている画像が入力されている。
ステップS302では、ステップS210で保存された自己学習型幾何変換器311が教師データ変換部308に読み込まれる。
ステップS303では、教師データ301から物体情報303一つ分が選択される。図14では、入力画像右下に写っている物体の、太枠で表示されている物体情報が選択されている。
ステップS304では、物体情報の内、位置305と大きさ306をもとに物***置の小画像を切り出す。なお図14では、切り出した画像が正方形となるようにアスペクト比の変更処理が行われているが、ステップS203と同様に、自己学習型幾何変換器311への入力方法によっては必ずしもアスペクト比の変更処理を行う必要は無い。
小画像が自己学習型幾何変換器311に入力されるとまず変換行列生成部312に渡され、ステップS305が行われ、変換行列が出力される。以下はアフィン変換を例に説明するが、S204と同様にSpatial Transformer Networksの論文に記載のある通りアフィン変換以外の変換手法も適用可能である。なお、S204とは異なり教師データ変換時には幾何変換そのものを行う必要が無いため、幾何変換部313を使用しない。
ステップS306では、ステップ305で出力された変換行列を逆変換行列算出部314に入力し、逆行列を算出する。
ステップS307では、ステップS306で算出された逆変換行列を用いて、物体向き算出部315により物体の向き情報を算出する。まず図13の様に、右記小画像の太枠の四隅の座標に対して逆変換を行うことで、中央の画像の太枠の座標を算出できる。この座標値をもとに物体の位置と大きさの補正を行う。物体の向きについては以下のステップで決定する。まず、逆変換行列における回転角度を求める。アフィン変換は一般に、拡大縮小・回転・平行移動それぞれの行列の積となる。そのため、逆変換行列をこれら3種類の行列に分解し回転行列の角度を求めることにより、太枠に変換する際の回転角度を求めることができる。
次に、この太枠の傾き角度を定義によって決定する。以下は、物体検出器119にSSDを採用した場合における定義の例を示す。一般に、SSDでは図15の様な複数の異なるアスペクト比のデフォルトボックスに対する平行移動量と拡大縮小率を予測する。これに対して、本実施形態では物体の向きを考慮したSSDとして、図16の様にアスペクト比だけでなく角度も異なるデフォルトボックスに対する平行移動量と拡大縮小率、角度を予測する。ここで、角度は図16の様にデフォルトボックスの長辺の傾き角度と定義する。
図13の中央の画像の太枠の傾き角度の定義を、図16と同様に、長辺の角度とする。
ここで、太枠の2つの長辺のうちどちらが物体の上側に当たるかを区別するために、図13の右記の太枠について縦辺と横辺のどちらが長辺となっているかを判断し、一例として図17から図19に示すように角度を決める必要がある。図17から図19では縦辺と横辺のどちらが長辺に変換されているかを調べ、角度を決定している。図17は横辺が長辺に変換されるため、逆変換行列の回転角度が長辺の角度を表す。一方、図18は縦辺が長辺と変換されるため、逆変換行列の回転角度が短辺の角度を表す。長辺の角度に変換するために図では360°から逆変換行列の回転角度を引いた値を長辺の角度としている。図19は正方形の状態であるため、図17と同様に逆変換行列の回転角度が長辺の角度と等しいとみなすことが出来る。
ステップS308では、S307で変換されたデータ1つ分を変換済み教師データ316として保存する。
ステップS309では、変換処理が全ての教師データに対して実施されているか否かを確認する。まだ処理を終えていないデータがあれば、S302から処理を継続する。変換処理が全ての教師データに対して実施されたら、処理を終了する。
このように、ニューラルネットワーク、特にディープラーニングを用いて画像内の物体のカテゴリ、位置、大きさを予測する物体検出技術であって、ニューラルネットワークの出力に物体の向き情報を加えて、物体の向き情報を含んだ教師データを学習することで、物体の向きに合わせて回転されたバウンディングボックスを直接予測する方式において、一般的な物体検出で用いる物体のカテゴリ、位置、大きさ情報を持つ教師データから、物体の向き情報を更に含む新教師データを自動生成することができる。教師データに向き情報を予め含めておく必要が無いため、ユーザが行う教師データ作成の負荷が小さい。
以上に好適な実施形態を説明したが、上記実施形態は以下の特徴を有する。
物体検出装置101(教師データ変換装置)は、自己学習型幾何変換器109(記憶部)と、物体向き算出部315(算出部)と、教師データ変換部308(生成部)と、を備える。
例えばRAMやROMなどで構成された記憶部としての自己学習型幾何変換器109は、画像と、画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む教師データ301(第1教師データ)の物体情報303に基づいて特定される物体の画像である物体画像を入力すると、物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの自己学習型幾何変換器(第1ニューラルネットワーク)を記憶する。
物体向き算出部315は、自己学習型幾何変換器109から出力された幾何変換パラメータに基づいて物体の向きを算出する。
教師データ変換部308は、物体向き算出部315が算出した物体の向きを教師データ301に追加することで、画像と、画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む変換済み教師データ316(第2教師データ)を生成する。
以上の方法によれば、教師データ301に物体の向きを自動で追加する技術が実現される。
物体検出装置101は、自己学習型幾何変換器を学習により生成する自己学習型幾何変換器学習部108(学習部)を更に備える。自己学習型幾何変換器学習部108は、物体画像を自己学習型幾何変換器109に入力することにより自己学習型幾何変換器109から出力された幾何変換パラメータに基づいて物体画像を幾何変換する。自己学習型幾何変換器学習部108は、画像分類部213(第2ニューラルネットワーク)に幾何変換された物体画像を入力することにより画像分類部213から出力されたカテゴリと、教師データ301に含まれるカテゴリと、の予測誤差を算出する。自己学習型幾何変換器学習部108は、予測誤差が小さくなるように自己学習型幾何変換器109及び画像分類部213の重み付け係数をそれぞれ更新することにより自己学習型幾何変換器109を学習する。
幾何変換パラメータは、物体画像を回転させるためのパラメータである。
幾何変換パラメータは、更に、物体画像を拡大、縮小、平行移動の少なくとも何れか1つを実行するためのパラメータである。
幾何変換パラメータは、物体画像をアフィン変換するためのパラメータである。
幾何変換パラメータは幾何変換行列である。物体向き算出部315は、幾何変換行列の逆行列である逆幾何変換行列に基づいて前記物体の向きを算出する。
教師データ変換方法では、教師データ301の物体情報に基づいて特定される物体の画像である物体画像を入力すると、物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの自己学習型幾何変換器109(第1ニューラルネットワーク)を記憶する。教師データ変換方法では、自己学習型幾何変換器109から出力された幾何変換パラメータに基づいて物体の向きを算出する。教師データ変換方法では、算出した物体の向きを教師データ301に追加することで、画像と、画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む変換済み教師データ111(第2教師データ)を生成する。以上の方法によれば、教師データ301に物体の向きを自動で追加する技術が実現される。
上記の教師データ変換方法は、コンピュータに実行させることができる。即ち、コンピュータのCPUがコンピュータのROMに記憶されたプログラムを読み込んで実行することで、プログラムは、コンピュータに教師データ生成方法を実行させる。プログラムは、非一時的な記録媒体に格納し得る。
上記実施形態は、以下のように変更できる。
(変形例1)
即ち、検知対象のカテゴリ毎に自己学習型幾何変換器109を用意することで、各カテゴリでの変換方法をより精度良く学習することができる。物体の位置、大きさ、向きをより正確に捉えられるようになるため、変換後の教師データの質や物体検出精度の向上が期待できる。
構成の変更点について説明する。図20及び図21のように、検知対象のカテゴリ毎に自己学習型幾何変換器510、612を用意し変換器選択部509、611を追加する。即ち、カテゴリの種別毎に異なる自己学習型幾何変換器を用いる。
動作の変更点について説明する。図22及び図23のようにステップS504、S605を追加し、変換器の保存と読込み処理をステップS511とS602のように変更し、対象物のカテゴリに応じた変換器を選択させる。
ステップS504にて変換器選択部509により対象カテゴリの変換器を選択し、後工程を進める。変換器選択部509は、教師データの物体情報に含まれるカテゴリを参照することで、物体毎にカテゴリを特定し、特定したカテゴリに対応する自己学習型幾何変換器510を選択する。
ステップS511にて自己学習型幾何変換器保存部513で全ての自己学習型幾何変換器510を保存する。
ステップS602にて自己学習型幾何変換器読込み部610で全ての自己学習型幾何変換器612を読み込む。
ステップS605にて変換器選択部611で対象カテゴリの変換器を選択し、後工程を進める。変換器選択部611は、教師データの物体情報に含まれるカテゴリを参照することで、物体毎にカテゴリを特定し、特定したカテゴリに対応する自己学習型幾何変換器612を選択する。
(変形例2)
0°回転と360°回転では回転の結果は同じだが値自体が異なるため、このような物体の向き情報が教師データに含まれていると精度が出にくい可能性がある。
そこで、物体の向きを角度の値θでなく図24の様に単位円上の向きに対応する座標値の形(cosθ,sinθ)で扱っても良い。この場合、一例として0°と360°が共に(1,0)と同じ座標値になる。これにより、物体検出部119の検出精度の向上が期待できる。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。非一時的なコンピュータ可読媒体の例は、更に、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROMを含む。非一時的なコンピュータ可読媒体の例は、更に、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1000 教師データ変換装置
1001 記憶部
1002 算出部
1003 生成部

Claims (9)

  1. 画像と、前記画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む第1教師データの前記物体情報に基づいて特定される前記物体の画像である物体画像を入力すると、前記物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの第1ニューラルネットワークを記憶する記憶部と、
    前記第1ニューラルネットワークから出力された前記幾何変換パラメータに基づいて前記物体の向きを算出する算出部と、
    前記算出部が算出した前記物体の向きを前記第1教師データに追加することで、画像と、前記画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む第2教師データを生成する生成部と、
    を含む、
    教師データ変換装置。
  2. 請求項1に記載の教師データ変換装置であって、
    前記第1ニューラルネットワークを学習により生成する学習部を更に備え、
    前記学習部は、
    前記物体画像を前記第1ニューラルネットワークに入力することにより前記第1ニューラルネットワークから出力された前記幾何変換パラメータに基づいて前記物体画像を幾何変換し、
    第2ニューラルネットワークに前記幾何変換された物体画像を入力することにより前記第2ニューラルネットワークから出力されたカテゴリと、前記第1教師データに含まれるカテゴリと、の予測誤差を算出し、
    前記予測誤差が小さくなるように前記第1ニューラルネットワーク及び前記第2ニューラルネットワークの重み付け係数をそれぞれ更新することにより前記第1ニューラルネットワークを学習する、
    教師データ変換装置。
  3. 請求項1又は2に記載の教師データ変換装置であって、
    前記幾何変換パラメータは、前記物体画像を回転させるためのパラメータを含む、
    教師データ変換装置。
  4. 請求項3に記載の教師データ変換装置であって、
    前記幾何変換パラメータは、更に、前記物体画像を拡大、縮小、平行移動の少なくとも何れか1つを実行するためのパラメータを更に含む、
    教師データ変換装置。
  5. 請求項1から4までの何れか1項に記載の教師データ変換装置であって、
    前記幾何変換パラメータは、前記物体画像をアフィン変換するためのパラメータである、
    教師データ変換装置。
  6. 請求項1から5までの何れか1項に記載の教師データ変換装置であって、
    前記幾何変換パラメータは幾何変換行列であり、
    前記算出部は、前記幾何変換行列の逆行列である逆幾何変換行列に基づいて前記物体の向きを算出する、
    教師データ変換装置。
  7. 請求項1から6までの何れか1項に記載の教師データ変換装置であって、
    前記物体の向きは、向きに対応する単位円上の座標値により表現される、
    教師データ変換装置。
  8. 画像と、前記画像内の物体のカテゴリ及び位置、大きさを含む物体情報と、を含む第1教師データの前記物体情報に基づいて特定される前記物体の画像である物体画像を入力すると、前記物体画像に対応する幾何変換パラメータを出力するように学習された学習済みの第1ニューラルネットワークを記憶し、
    前記第1ニューラルネットワークから出力された前記幾何変換パラメータに基づいて前記物体の向きを算出し、
    算出した前記物体の向きを前記第1教師データに追加することで、画像と、前記画像内の物体のカテゴリ及び位置、大きさ、向きを含む物体情報と、を含む第2教師データを生成する、
    教師データ変換方法。
  9. コンピュータに、請求項8に記載された教師データ変換方法を実行するためのプログラム
JP2022510328A 2020-03-27 2020-03-27 教師データ変換装置、教師データ変換方法、及び、プログラム Active JP7283631B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/014031 WO2021192225A1 (ja) 2020-03-27 2020-03-27 教師データ変換装置、教師データ変換方法、及び、非一時的な記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021192225A1 JPWO2021192225A1 (ja) 2021-09-30
JPWO2021192225A5 JPWO2021192225A5 (ja) 2022-10-24
JP7283631B2 true JP7283631B2 (ja) 2023-05-30

Family

ID=77889952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510328A Active JP7283631B2 (ja) 2020-03-27 2020-03-27 教師データ変換装置、教師データ変換方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20230143661A1 (ja)
JP (1) JP7283631B2 (ja)
WO (1) WO2021192225A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024054680A (ja) * 2022-10-05 2024-04-17 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017515189A (ja) 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理
WO2018163404A1 (ja) 2017-03-10 2018-09-13 三菱電機株式会社 顔向き推定装置および顔向き推定方法
JP2019164836A (ja) 2019-06-19 2019-09-26 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5431830B2 (ja) * 2009-08-18 2014-03-05 Necソフト株式会社 部品検出装置、部品検出方法、プログラムおよび記録媒体
JP6617085B2 (ja) * 2016-08-31 2019-12-04 株式会社デンソーアイティーラボラトリ 物体状況推定システム、物体状況推定装置、物体状況推定方法、及び物体状況推定プログラム
JP6995714B2 (ja) * 2018-07-30 2022-01-17 Kddi株式会社 特定装置、特定方法及び特定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017515189A (ja) 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理
WO2018163404A1 (ja) 2017-03-10 2018-09-13 三菱電機株式会社 顔向き推定装置および顔向き推定方法
JP2019164836A (ja) 2019-06-19 2019-09-26 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム

Also Published As

Publication number Publication date
WO2021192225A1 (ja) 2021-09-30
JPWO2021192225A1 (ja) 2021-09-30
US20230143661A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
US10332312B2 (en) Shape prediction model compression for face alignment
JP4740688B2 (ja) 平面形状モーフィングのための知覚に基づくアプローチ
WO2019102962A1 (ja) 学習装置、学習方法、及び、記録媒体
JP2015232869A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6880618B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
JP7283631B2 (ja) 教師データ変換装置、教師データ変換方法、及び、プログラム
WO2022252640A1 (zh) 图像分类预处理、图像分类方法、装置、设备及存储介质
US8295646B2 (en) Resolution converting method
US20230162413A1 (en) Stroke-Guided Sketch Vectorization
US10019651B1 (en) Robust shape prediction for face alignment
CN114742722A (zh) 文档矫正方法、装置、电子设备及存储介质
CN111149101A (zh) 一种目标图案查找方法及计算机可读存储介质
CN110827301A (zh) 用于处理图像的方法和装置
WO2018118099A1 (en) Shape prediction for face alignment
CN114240770A (zh) 一种图像处理方法、装置、服务器及存储介质
KR102051597B1 (ko) 내용 기반 영상 크기 조절 장치 및 방법
US11210551B2 (en) Iterative multi-directional image search supporting large template matching
CN110298229B (zh) 视频图像处理方法及装置
JP2010066865A (ja) 差分抽出装置及び差分抽出プログラム
CN116363641A (zh) 一种图像处理方法、装置及电子设备
WO2013027572A1 (ja) 隆線方向抽出装置、隆線方向抽出方法、隆線方向抽出プログラム
JP2019219765A (ja) 情報処理装置及び情報処理方法
JP2010044586A (ja) 2次元コード読取装置とそのプログラム
JP4380308B2 (ja) 顔領域検出方法及び装置及びプログラム及び顔領域検出プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP6814484B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R151 Written notification of patent or utility model registration

Ref document number: 7283631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151