JP2019067402A - 回帰分析により2dバウンディングボックスからスード(pseudo)−3dボックスを獲得する方法及びこれを利用した学習装置及びテスト装置 - Google Patents
回帰分析により2dバウンディングボックスからスード(pseudo)−3dボックスを獲得する方法及びこれを利用した学習装置及びテスト装置 Download PDFInfo
- Publication number
- JP2019067402A JP2019067402A JP2018188341A JP2018188341A JP2019067402A JP 2019067402 A JP2019067402 A JP 2019067402A JP 2018188341 A JP2018188341 A JP 2018188341A JP 2018188341 A JP2018188341 A JP 2018188341A JP 2019067402 A JP2019067402 A JP 2019067402A
- Authority
- JP
- Japan
- Prior art keywords
- box
- pseudo
- test
- bounding box
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000000611 regression analysis Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000004891 communication Methods 0.000 claims abstract description 10
- 238000006073 displacement reaction Methods 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 208000024891 symptom Diseases 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
Claims (19)
- トレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得する方法において、
(a)学習装置が、前記2Dバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する段階;
(b)前記学習装置が、(i)各々のスード(pseudo)−3D方向パターンに対応する確率情報を参照して前記客体のスード(pseudo)−3D方向を分類するか分類するように支援し、(ii)回帰分析を利用して前記スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援する段階;及び
(c)前記学習装置が、(i)前記スード(pseudo)−3Dボックス頂点の2D座標と前記スード(pseudo)−3Dボックスに対応されるGT(Ground Truth)の2D座標との間の差及び(ii)分類された前記スード(pseudo)−3D方向と前記スード(pseudo)−3D方向に対応されるGTとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援する段階;
を含むことを特徴とする方法。 - 前記(b)段階で、
前記学習装置は回帰分析を利用して前記2Dバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とする請求項1に記載の方法。 - 前記(b)段階のうち(ii)の過程で、
前記学習装置は前記2Dバウンディングボックスの頂点V1とその対角線に位置した頂点V2を前記スード(pseudo)−3Dボックスの二つの頂点P1とP8に決定するか決定するように支援し、前記客体の前記スード(pseudo)−3D方向を参照して前記2Dバウンディングボックスのラインセグメントに接しない二つの頂点P4とP5の前記変位を計算するが、前記変位は前記2Dバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とする請求項2に記載の方法。 - 前記(b)段階のうち(ii)の過程で、
前記学習装置は、
(b−1)(i)前記スード(pseudo)−3Dボックスの第1面に対応される第1ターゲット2Dボックスの中心である第1ベクタの終点を定めるための前記2Dバウンディングボックスの中心から前記第1ベクタと(ii)前記客体の前記スード(pseudo)−3D方向を参照して前記スード(pseudo)−3Dボックスの前記第1面と対蹠される第2面に対応される第2ターゲット2Dボックスの中心である第2ベクタの終点を定めるための前記2Dバウンディングボックスの中心からの前記第2ベクタ及び(b−2)(i)前記第1ターゲット2Dボックス幅に対する前記2Dバウンディングボックス幅の比率、(ii)前記第2ターゲット2Dボックス幅に対する前記2Dバウンディングボックス幅の比率、(iii)前記第1ターゲット2Dボックス高さに対する前記2Dバウンディングボックス高さの比率、及び(iv)前記第2ターゲット2Dボックス高さに対する前記2Dバウンディングボックス高さの比率と(b−3)前記変位と前記比率を参照して前記第1ターゲット2Dボックスの頂点であるP5、P6、P7、P8の座標と前記第2ターゲット2Dボックスの頂点であるP1、P2、P3、P4の座標を計算するか計算するように支援するが、
前記P8は前記2Dバウンディングボックスの頂点であり、前記P1は前記P8の対角線に位置した前記2Dバウンディングボックスの頂点であり、前記P4及び前記P5は前記2Dバウンディングボックスのラインセグメントに接しないことを特徴とする請求項1に記載の方法。 - 前記(b)段階のうち(i)の過程で、
スード(pseudo)−3D方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とする請求項1に記載の方法。 - 前記学習装置は、
CNN(convolutional neural network)を含むが、
(i)前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、(ii)前記特徴マップ上の前記2Dバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、(iii)第1FC(fully connected)レイヤを利用して前記入力された特徴ベクタから前記客体のスード(pseudo)−3D方向を定め、(iv)第2FC(fully connected)レイヤを利用して前記スード(pseudo)−3Dボックスの頂点に対する前記2D座標を定めて前記スード(pseudo)−3Dボックスの頂点の2D座標を獲得するか獲得を支援することを特徴とする請求項1に記載の方法。 - テストイメージ上の客体を囲んだスード(pseudo)−3Dボックスを獲得する方法において、
(a)テスト装置は、(i)学習装置がトレーニング用2Dバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、(ii)(ii−1)スード(pseudo)−3D方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード(pseudo)−3D方向を分類し、(ii−2)回帰分析を利用してトレーニング用前記スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援し、(iii)(iii−1)前記獲得したトレーニング用前記スード(pseudo)−3Dボックス頂点の2D座標とトレーニング用前記スード(pseudo)−3Dボックスに対応されるGTの2D座標との間の差と(iii−2)分類された前記トレーニング用スード(pseudo)−3D方向と前記トレーニング用スード(pseudo)−3D方向に対応されるGTとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用2Dバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する段階;及び
(b)前記テスト装置が、(i)スード(pseudo)−3D方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード(pseudo)−3D方向を分類し、(ii)回帰分析を利用して前記テスト用スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援する段階;
を含むことを特徴とする方法。 - 前記(b)段階のうち(ii)の過程で、
前記テスト装置が前記テスト用2Dバウンディングボックスの頂点V1とその対角線上の位置にある頂点V2を前記テスト用スード(pseudo)−3Dボックスの頂点P1とP8に決定し、前記テスト用客体の前記スード(pseudo)−3D方向を参照して前記テスト用2Dバウンディングボックスのラインセグメントに接しない二つの頂点P4とP5の変位を演算するが、前記変位は前記テスト用2Dバウンディングボックスの前記ラインセグメントと平行であることを特徴とする請求項7に記載の方法。 - 前記(b)段階のうち(ii)の過程で、
前記テスト装置が、
(b−1)(i)前記テスト用2Dバウンディングボックスの中心と第1ターゲット2Dボックスの中心である第1点との間の変位を演算するが、前記第1ターゲット2Dボックスは前記テスト用スード(pseudo)−3Dボックスの第1面に対応して(ii)前記テスト用2Dバウンディングボックスの前記中心と第2ターゲット2Dボックスの中心である第2点との間の変位を演算するが、前記第2ターゲット2Dボックスは前記テスト用スード(pseudo)−3Dボックスの第2面に対応し、前記第2面は前記テスト用スード(pseudo)−3Dボックスの前記第1面と対蹠される位置に存在し;
(b−2)(i)前記テスト用2Dバウンディングボックスの幅に対する前記第1ターゲット2Dボックスの幅、(ii)前記テスト用2Dバウンディングボックスの前記幅に対する前記第2ターゲット2Dボックスの幅、(iii)前記テスト用2Dバウンディングボックスの高さに対する前記第1ターゲット2Dボックスの高さ、そして(iv)前記テスト用2Dバウンディングボックスの前記高さに対する前記第2ターゲット2Dボックスの高さ、各々の比率を演算し;
(b−3)前記各変位と前記各比率を参照し、前記第1ターゲット2Dボックスの頂点をなすP5、P6、P7、及びP8の座標と、前記第2ターゲット2Dボックスの頂点をなすP1、P2、P3、及びP4の座標を演算するが、前記P8は前記テスト用2Dバウンディングボックスの頂点であり、前記P1は前記テスト用2Dバウンディングボックスの前記P8に対して対角線上に位置した頂点であり、前記P4及び前記P5は前記テスト用2Dバウンディングボックスの前記ラインセグメントと接触しないことを特徴とする請求項7に記載の方法。 - トレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得する学習装置において、
前記2Dバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する通信部;及び
(i)各々のスード(pseudo)−3D方向パターンに対応する確率情報を参照して前記客体のスード(pseudo)−3D方向を分類するか分類するように支援し、(ii)回帰分析を利用して前記スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援するプロセス;及び(I)前記スード(pseudo)−3Dボックス頂点の2D座標と前記スード(pseudo)−3Dボックスに対応されるGT(Ground Truth)の2D座標との間の差及び(II)分類された前記スード(pseudo)−3D方向と前記スード(pseudo)−3D方向に対応されるGTとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援するプロセスを遂行するプロセッサ;
を含むことを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする学習装置。 - 前記(ii)のプロセスで、
前記プロセッサは回帰分析を利用して前記2Dバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする請求項10に記載の学習装置。 - 前記(ii)のプロセスで、
前記プロセッサは前記2Dバウンディングボックスの頂点V1とその対角線に位置した頂点V2を前記スード(pseudo)−3Dボックスの二つの頂点P1とP8に決定するか決定するように支援し、前記客体の前記スード(pseudo)−3D方向を参照して前記2Dバウンディングボックスのラインセグメントに接しない二つの頂点P4とP5の前記変位を計算するが、前記変位は前記2Dバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする請求項11に記載の学習装置。 - 前記(ii)のプロセスで、
前記プロセッサは、
(b−1)(i)前記スード(pseudo)−3Dボックスの第1面に対応される第1ターゲット2Dボックスの中心である第1ベクタの終点を定めるための前記2Dバウンディングボックスの中心から前記第1ベクタと(ii)前記客体の前記スード(pseudo)−3D方向を参照して前記スード(pseudo)−3Dボックスの前記第1面と対蹠される第2面に対応される第2ターゲット2Dボックスの中心である第2ベクタの終点を定めるための前記2Dバウンディングボックスの中心からの前記第2ベクタ及び(b−2)(i)前記第1ターゲット2Dボックス幅に対する前記2Dバウンディングボックス幅の比率、(ii)前記第2ターゲット2Dボックス幅に対する前記2Dバウンディングボックス幅の比率、(iii)前記第1ターゲット2Dボックス高さに対する前記2Dバウンディングボックス高さの比率、及び(iv)前記第2ターゲット2Dボックス高さに対する前記2Dバウンディングボックス高さの比率と(b−3)前記変位と前記比率を参照して前記第1ターゲット2Dボックスの頂点であるP5、P6、P7、P8の座標と前記第2ターゲット2Dボックスの頂点であるP1、P2、P3、P4の座標を計算するか計算するように支援するが、
前記P8は前記2Dバウンディングボックスの頂点であり、前記P1は前記P8の対角線に位置した前記2Dバウンディングボックスの頂点であり、前記P4及び前記P5は前記2Dバウンディングボックスのラインセグメントに接しないことを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする請求項10に記載の学習装置。 - 前記(i)のプロセスで、
スード(pseudo)−3D方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする請求項10に記載の学習装置。 - 前記学習装置は、
CNN(convolutional neural network)を含むが、
(i)前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、(ii) 前記特徴マップ上の前記2Dバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、(iii)第1FC(fully connected)レイヤを利用して前記入力された特徴ベクタから前記客体のスード(pseudo)−3D方向を定め、(iv)第2FC(fully connected)レイヤを利用して前記スード(pseudo)−3Dボックスの頂点に対する前記2D座標を定めて前記スード(pseudo)−3Dボックスの頂点の2D座標を獲得するか獲得するように支援することを特徴とするトレーニングイメージ上の2Dバウンディングボックスからスード(pseudo)−3Dボックスを獲得することを特徴とする請求項10に記載の学習装置。 - 前記客体のスード(pseudo)−3D方向を分類するプロセスは、前記スード(pseudo)−3Dボックス頂点の2D座標を獲得するプロセス以前に遂行されることを特徴とする請求項10に記載の学習装置。
- テストイメージ上の客体を囲んだスード(pseudo)−3Dボックスを獲得するテスト装置において、
学習装置がトレーニング用2Dバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、(i)(i−1)スード(pseudo)−3D方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード(pseudo)−3D方向を分類し、(i−2)回帰分析を利用してトレーニング用前記スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援し、(ii)(ii−1)前記獲得したトレーニング用前記スード(pseudo)−3Dボックス頂点の2D座標とトレーニング用前記スード(pseudo)−3Dボックスに対応されるGTの2D座標との間の差と(ii−2)分類された前記トレーニング用スード(pseudo)−3D方向と前記トレーニング用スード(pseudo)−3D方向に対応されるGTとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用2Dバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する通信部;及び
(I)スード(pseudo)−3D方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード(pseudo)−3D方向を分類し、(II)回帰分析を利用して前記テスト用スード(pseudo)−3Dボックス頂点の2D座標を獲得するか獲得するように支援するプロセスを遂行するプロセッサ;
を含むことを特徴とするテストイメージ上の客体を囲んだスード(pseudo)−3Dボックスを獲得することを特徴とするテスト装置。 - 前記(II)のプロセスで、
前記プロセッサが前記テスト用2Dバウンディングボックスの頂点V1とその対角線上の位置にある頂点V2を前記テスト用スード(pseudo)−3Dボックスの頂点P1とP8に決定し、前記テスト用客体の前記スード(pseudo)−3D方向を参照して前記テスト用2Dバウンディングボックスのラインセグメントに接しない二つの頂点P4とP5の変位を演算するが、前記変位は前記テスト用2Dバウンディングボックスの前記ラインセグメントと平行であることを特徴とするテストイメージ上の客体を囲んだスード(pseudo)−3Dボックスを獲得することを特徴とする請求項17に記載のテスト装置。 - 前記(II)のプロセスで、
前記プロセッサが、
(b−1)(i)前記テスト用2Dバウンディングボックスの中心と第1ターゲット2Dボックスの中心である第1点との間の変位を演算するが、前記第1ターゲット2Dボックスは前記テスト用スード(pseudo)−3Dボックスの第1面に対応して(ii)前記テスト用2Dバウンディングボックスの前記中心と第2ターゲット2Dボックスの中心である第2点との間の変位を演算するが、前記第2ターゲット2Dボックスは前記テスト用スード(pseudo)−3Dボックスの第2面に対応し、前記第2面は前記テスト用スード(pseudo)−3Dボックスの前記第1面と対蹠される位置に存在し;
(b−2)(i)前記テスト用2Dバウンディングボックスの幅に対する前記第1ターゲット2Dボックスの幅、(ii)前記テスト用2Dバウンディングボックスの前記幅に対する前記第2ターゲット2Dボックスの幅、(iii)前記テスト用2Dバウンディングボックスの高さに対する前記第1ターゲット2Dボックスの高さ、そして(iv)前記テスト用2Dバウンディングボックスの前記高さに対する前記第2ターゲット2Dボックスの高さ、各々の比率を演算し;
(b−3)前記各変位と前記各比率を参照し、前記第1ターゲット2Dボックスの頂点をなすP5、P6、P7、及びP8の座標と、前記第2ターゲット2Dボックスの頂点をなすP1、P2、P3、及びP4の座標を演算するが、前記P8は前記テスト用2Dバウンディングボックスの頂点であり、前記P1は前記テスト用2Dバウンディングボックスの前記P8に対して対角線上に位置した頂点であり、前記P4及び前記P5は前記テスト用2Dバウンディングボックスの前記ラインセグメントと接触しないことを特徴とするテストイメージ上の客体を囲んだスード(pseudo)−3Dボックスを獲得することを特徴とする請求項17に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/723,538 | 2017-10-03 | ||
US15/723,538 US10402724B2 (en) | 2017-10-03 | 2017-10-03 | Method for acquiring a pseudo-3D box from a 2D bounding box by regression analysis and learning device and testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019067402A true JP2019067402A (ja) | 2019-04-25 |
JP6720263B2 JP6720263B2 (ja) | 2020-07-08 |
Family
ID=63517805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018188341A Active JP6720263B2 (ja) | 2017-10-03 | 2018-10-03 | 回帰分析により2dバウンディングボックスからスード(pseudo)−3dボックスを獲得する方法及びこれを利用した学習装置及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10402724B2 (ja) |
EP (1) | EP3467708A1 (ja) |
JP (1) | JP6720263B2 (ja) |
KR (1) | KR102121764B1 (ja) |
CN (1) | CN109598781B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613335A (zh) * | 2019-10-03 | 2021-04-06 | 本田技研工业株式会社 | 识别装置、识别方法及存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614574B2 (en) * | 2017-10-16 | 2020-04-07 | Adobe Inc. | Generating image segmentation data using a multi-branch neural network |
FI20195061A1 (en) * | 2019-01-30 | 2020-07-31 | Aalto Univ Foundation Sr | Method and device for estimating mechanical property of crack surface |
CN111079523B (zh) * | 2019-11-05 | 2024-05-14 | 北京迈格威科技有限公司 | 物体检测方法、装置、计算机设备和存储介质 |
US11004233B1 (en) * | 2020-05-01 | 2021-05-11 | Ynjiun Paul Wang | Intelligent vision-based detection and ranging system and method |
CN111626241B (zh) * | 2020-05-29 | 2023-06-23 | 北京华捷艾米科技有限公司 | 一种人脸检测方法及装置 |
US11987236B2 (en) * | 2020-08-31 | 2024-05-21 | Nec Corporation | Monocular 3D object localization from temporal aggregation |
CN112509126B (zh) * | 2020-12-18 | 2024-07-12 | 南京模数智芯微电子科技有限公司 | 三维物体检测的方法、装置、设备及存储介质 |
US11710254B2 (en) * | 2021-04-07 | 2023-07-25 | Ford Global Technologies, Llc | Neural network object detection |
KR102325124B1 (ko) * | 2021-04-27 | 2021-11-12 | 주식회사 모빌테크 | 기계 학습 및 모노 카메라로 물체의 위치 정보를 획득하는 차량 |
WO2023245635A1 (en) * | 2022-06-24 | 2023-12-28 | Intel Corporation | Apparatus and method for object detection |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189689B2 (en) * | 2013-10-30 | 2015-11-17 | Nec Laboratories America, Inc. | Robust scale estimation in real-time monocular SFM for autonomous driving |
US10235771B2 (en) * | 2016-11-11 | 2019-03-19 | Qualcomm Incorporated | Methods and systems of performing object pose estimation |
AU2017361061B2 (en) * | 2016-11-15 | 2022-02-03 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN106682697B (zh) * | 2016-12-29 | 2020-04-14 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
US10373369B2 (en) * | 2017-03-16 | 2019-08-06 | Qualcomm Technologies, Inc. | Three-dimensional pose estimation of symmetrical objects |
-
2017
- 2017-10-03 US US15/723,538 patent/US10402724B2/en active Active
-
2018
- 2018-09-05 EP EP18192801.1A patent/EP3467708A1/en active Pending
- 2018-09-30 CN CN201811156884.4A patent/CN109598781B/zh active Active
- 2018-10-02 KR KR1020180117307A patent/KR102121764B1/ko active IP Right Grant
- 2018-10-03 JP JP2018188341A patent/JP6720263B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613335A (zh) * | 2019-10-03 | 2021-04-06 | 本田技研工业株式会社 | 识别装置、识别方法及存储介质 |
JP2021060661A (ja) * | 2019-10-03 | 2021-04-15 | 本田技研工業株式会社 | 認識装置、認識方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN109598781B (zh) | 2023-06-02 |
US20190102677A1 (en) | 2019-04-04 |
US10402724B2 (en) | 2019-09-03 |
KR20190039382A (ko) | 2019-04-11 |
EP3467708A1 (en) | 2019-04-10 |
JP6720263B2 (ja) | 2020-07-08 |
KR102121764B1 (ko) | 2020-06-12 |
CN109598781A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019067402A (ja) | 回帰分析により2dバウンディングボックスからスード(pseudo)−3dボックスを獲得する方法及びこれを利用した学習装置及びテスト装置 | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
US10402978B1 (en) | Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same | |
JP2021523443A (ja) | Lidarデータと画像データの関連付け | |
CN109635685A (zh) | 目标对象3d检测方法、装置、介质及设备 | |
Ding et al. | Vehicle pose and shape estimation through multiple monocular vision | |
CN114365201A (zh) | 结构注释 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
US20200051254A1 (en) | Decoupled motion models for object tracking | |
JP2022548743A (ja) | 移動ロボットの障害物情報感知方法、装置 | |
JP7224682B1 (ja) | 自律走行のための3次元多重客体検出装置及び方法 | |
US11537819B1 (en) | Learned state covariances | |
CN111581313A (zh) | 一种基于实例分割的语义slam鲁棒性改进方法 | |
Song et al. | End-to-end learning for inter-vehicle distance and relative velocity estimation in ADAS with a monocular camera | |
US10445611B1 (en) | Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same | |
Wang et al. | 3D-LIDAR based branch estimation and intersection location for autonomous vehicles | |
US20230311930A1 (en) | Capturing and simulating radar data for autonomous driving systems | |
Mentasti et al. | Two algorithms for vehicular obstacle detection in sparse pointcloud | |
US20240193803A1 (en) | Apparatus and method for object detection | |
US11430143B2 (en) | System of depth estimation and method thereof | |
US20240094009A1 (en) | Map annotation modification using sparse pose graph node updates | |
CN113516664B (zh) | 一种基于语义分割动态点的视觉slam方法 | |
Yan et al. | PointSSC: A Cooperative Vehicle-Infrastructure Point Cloud Benchmark for Semantic Scene Completion | |
Krishtopik et al. | Monitoring of Dynamic Objects on a 2d Occupancy Map Using Neural Networks and Multimodal Data | |
Dario | Towards general end-to-end sensor fusion for robot localization: implementa-tion of visual-inertial-wheel odometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181101 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6720263 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |