JP2019067402A

JP2019067402A - 回帰分析により２ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３ｄボックスを獲得する方法及びこれを利用した学習装置及びテスト装置

Info

Publication number: JP2019067402A
Application number: JP2018188341A
Authority: JP
Inventors: キム、ヨンジョン; Yongjoong Kim; ナム、ウンユン; Woonhyun Nam; ボ、シュクフン; Sukhoon Boo; シュン、ミュンチュル; Myungchul Sung; エオ、ドンフン; Donghun Yeo; リュウ、ウージュ; Wooju Ryu; ジャン、タエウォン; Taewoong Jang; ジョン、キュンジョン; Kyungjoong Jeong; ジェ、ホンモ; Hong Mo Je; チョ、ホジン; Hojin Cho
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2017-10-03
Filing date: 2018-10-03
Publication date: 2019-04-25
Anticipated expiration: 2038-10-03
Also published as: CN109598781B; US20190102677A1; US10402724B2; KR20190039382A; EP3467708A1; JP6720263B2; KR102121764B1; CN109598781A

Abstract

【課題】トレーニングイメージ上の２Ｄバウンディングボックスからスード−３Ｄボックスを獲得する方法及びこれを利用した学習装置及びテスト装置を提供する。【解決手段】学習装置は、２Ｄバウンディングボックスによって囲まれた客体を含むトレーニングイメージを獲得するか獲得するように支援する通信部と、各々のスード−３Ｄ方向パターンに対応する確率情報を参照して客体のスード−３Ｄ方向を分類するか分類するように支援し、回帰分析を利用してスード−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援し、スード−３Ｄボックス頂点の２Ｄ座標とスード−３Ｄボックスに対応されるＧＴの２Ｄ座標との間の差、及び分類されたスード−３Ｄ方向とその方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援するプロセッサと、を含む。【選択図】図１

Description

本発明はトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する方法及び装置に関し、より詳細には、（ａ）前記２Ｄバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得する段階；（ｂ）（ｉ）各々のスード（ｐｓｅｕｄｏ）−３Ｄ方向パターンに対応する確率情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉｉ）回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得する段階；及び（ｃ）（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）の２Ｄ座標との間の差及び（ｉｉ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整する段階；を含むことを特徴とする学習方法、テスト方法及びこれを利用する学習装置、テスト装置に関する。

自律走行車は周辺環境を感知して人の介入なしに走行することができる自動車である。自律走行車はレーダやレーザ、ＧＰＳ、走行記録計及びコンピュータビジョンなど周辺状況を探知する多様な技術を利用する。

自律走行と個人用ロボットなどの分野ではコンピュータビジョンを利用して２次元（２Ｄ）単眼イメージを通じて３次元（３Ｄ）情報を推定することは重要である。一般的に、イメージ上の客体を囲んだ２Ｄボックスが形成され、以後前記２Ｄボックスから３Ｄモデルが作られる。

既存技術では前記客体を囲んだ２Ｄボックスを探すために一般的にテンプレート基盤方式を使用した。前記２Ｄボックスを形成する既存の方法の中にはスライディングウィンドウ方式がある。この方法は全体イメージ上でウィンドウのようなボックスを大きさを変化させて反復的に移動させ、前記ウィンドウのようなボックス内部にある各客体を感知する。即ち、前記イメージ内の前記客体は大きさや尺度が異なる場合があるので、前記イメージは数回スケールダウンされ、前記ウィンドウのようなボックスは再び前記イメージ上を移動しながら大きさが各々異なる前記客体を探す。

既存方法の中でまた他の一つはアンカーボックス技術である。この方法によれば、多様なアンカーボックスが一定の位置中央にあり、多様なアンカーボックスのうち確率が最も高いアンカーボックス、即ち、ＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）客体と重畳が最も多い領域を有するアンカーボックスが回帰分析を利用して決定される。

以後、３Ｄバウンディングボックスは前記決定されたアンカーボックスから生成されるが制限が多い。第一に、前記３Ｄバウンディングボックスは６面であり、６面のうち３面は全数調査が要求され得る。第二に、前記３Ｄバウンディングボックスの３面を決定するのに単一テンプレートが使用される場合、前記客体の３Ｄ方向が変われば回帰分析の境界条件が異なり得るため正確性が低くなり得る。第三に、前記３Ｄバウンディングボックスを得るための既存の方法は多くの演算資源が要求される。例えば、３Ｄバウンディングボックスを探すために直方体テンプレートやボクセルをマッチングさせるのに多くの演算時間がかかる。

ここに、本発明ではかかる重複的演算をなくし、感知正確性を改善するための新しい方法を提案する。

本発明は前記のようなすべての問題点を解決することを目的とする。

また、本発明はスード（ｐｓｅｕｄｏ）−３Ｄボックスを利用して３Ｄ客体と外接する３Ｄバウンディングボックスを単純化することを他の目的とする。

本発明はスード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を利用して演算時間と資源を減らすことをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。

本発明の一態様によれば、トレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する方法において、（ａ）学習装置が、前記２Ｄバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する段階；（ｂ）前記学習装置が、（ｉ）各々のスード（ｐｓｅｕｄｏ）−３Ｄ方向パターンに対応する確率情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するか分類するように支援し、（ｉｉ）回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援する段階；及び（ｃ）前記学習装置が、（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）の２Ｄ座標との間の差及び（ｉｉ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援する段階；を含むことを特徴とする方法が提供される。

一例として、前記（ｂ）段階で、前記学習装置は回帰分析を利用して前記２Ｄバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とする。

一例として、前記（ｂ）段階のうち（ｉｉ）の過程で、前記学習装置は前記２Ｄバウンディングボックスの頂点Ｖ１とその対角線に位置した頂点Ｖ２を前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの二つの頂点Ｐ１とＰ８に決定するか決定するように支援し、前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の前記変位を計算するが、前記変位は前記２Ｄバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とする。

一例として、前記（ｂ）段階のうち（ｉｉ）の過程で、前記学習装置は（ｂ−１）（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応される第１ターゲット２Ｄボックスの中心である第１ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心から前記第１ベクタと（ｉｉ）前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される第２面に対応される第２ターゲット２Ｄボックスの中心である第２ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心からの前記第２ベクタ及び（ｂ−２）（ｉ）前記第１ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉ）前記第２ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉｉ）前記第１ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率、及び（ｉｖ）前記第２ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率と（ｂ−３）前記変位と前記比率を参照して前記第１ターゲット２Ｄボックスの頂点であるＰ５、Ｐ６、Ｐ７、Ｐ８の座標と前記第２ターゲット２Ｄボックスの頂点であるＰ１、Ｐ２、Ｐ３、Ｐ４の座標を計算するか計算するように支援するが、前記Ｐ８は前記２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記Ｐ８の対角線に位置した前記２Ｄバウンディングボックスの頂点であり、前記Ｐ４及び前記Ｐ５は前記２Ｄバウンディングボックスのラインセグメントに接しないことを特徴とする。

一例として、前記（ｂ）段階のうち（ｉ）の過程で、スード（ｐｓｅｕｄｏ）−３Ｄ方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とする。

一例として、前記学習装置は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含むが、（ｉ）前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、（ｉｉ）前記特徴マップ上の前記２Ｄバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、（ｉｉｉ）第１ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記入力された特徴ベクタから前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を定め、（ｉｖ）第２ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点に対する前記２Ｄ座標を定めて前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点の２Ｄ座標を獲得するか獲得を支援することを特徴とする。

本発明の他の態様によれば、テストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する方法において、（ａ）テスト装置は、（ｉ）学習装置がトレーニング用２Ｄバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、（ｉｉ）（ｉｉ−１）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉｉ−２）回帰分析を利用してトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援し、（ｉｉｉ）（ｉｉｉ−１）前記獲得したトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標とトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴの２Ｄ座標との間の差と（ｉｉｉ−２）分類された前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用２Ｄバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する段階；及び（ｂ）前記テスト装置が、（ｉ）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉｉ）回帰分析を利用して前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援する段階；を含むことを特徴とする方法が提供される。

一例として、前記（ｂ）段階のうち（ｉｉ）の過程で、前記テスト装置が前記テスト用２Ｄバウンディングボックスの頂点Ｖ１とその対角線上の位置にある頂点Ｖ２を前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点Ｐ１とＰ８に決定し、前記テスト用客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記テスト用２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の変位を演算するが、前記変位は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと平行であることを特徴とする。

一例として、前記（ｂ）段階のうち（ｉｉ）の過程で、前記テスト装置が（ｂ−１）（ｉ）前記テスト用２Ｄバウンディングボックスの中心と第１ターゲット２Ｄボックスの中心である第１点との間の変位を演算するが、前記第１ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応して（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記中心と第２ターゲット２Ｄボックスの中心である第２点との間の変位を演算するが、前記第２ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第２面に対応し、前記第２面は前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される位置に存在し；（ｂ−２）（ｉ）前記テスト用２Ｄバウンディングボックスの幅に対する前記第１ターゲット２Ｄボックスの幅、（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記幅に対する前記第２ターゲット２Ｄボックスの幅、（ｉｉｉ）前記テスト用２Ｄバウンディングボックスの高さに対する前記第１ターゲット２Ｄボックスの高さ、そして（ｉｖ）前記テスト用２Ｄバウンディングボックスの前記高さに対する前記第２ターゲット２Ｄボックスの高さ、各々の比率を演算し；（ｂ−３）前記各変位と前記各比率を参照し、前記第１ターゲット２Ｄボックスの頂点をなすＰ５、Ｐ６、Ｐ７、及びＰ８の座標と、前記第２ターゲット２Ｄボックスの頂点をなすＰ１、Ｐ２、Ｐ３、及びＰ４の座標を演算するが、前記Ｐ８は前記テスト用２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記テスト用２Ｄバウンディングボックスの前記Ｐ８に対して対角線上に位置した頂点であり、前記Ｐ４及び前記Ｐ５は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと接触しないことを特徴とする。

本発明のまた他の態様によれば、トレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する学習装置において、前記２Ｄバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する通信部；及び（ｉ）各々のスード（ｐｓｅｕｄｏ）−３Ｄ方向パターンに対応する確率情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するか分類するように支援し、（ｉｉ）回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援するプロセス；及び（Ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）の２Ｄ座標との間の差及び（ＩＩ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援するプロセスを遂行するプロセッサ；を含むことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする学習装置が提供される。

一例として、前記（ｉｉ）のプロセスで、前記プロセッサは回帰分析を利用して前記２Ｄバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記（ｉｉ）のプロセスで、前記プロセッサは前記２Ｄバウンディングボックスの頂点Ｖ１とその対角線に位置した頂点Ｖ２を前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの二つの頂点Ｐ１とＰ８に決定するか決定するように支援し、前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の前記変位を計算するが、前記変位は前記２Ｄバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記（ｉｉ）のプロセスで、前記プロセッサは（ｂ−１）（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応される第１ターゲット２Ｄボックスの中心である第１ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心から前記第１ベクタと（ｉｉ）前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される第２面に対応される第２ターゲット２Ｄボックスの中心である第２ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心からの前記第２ベクタ及び（ｂ−２）（ｉ）前記第１ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉ）前記第２ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉｉ）前記第１ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率、及び（ｉｖ）前記第２ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率と（ｂ−３）前記変位と前記比率を参照して前記第１ターゲット２Ｄボックスの頂点であるＰ５、Ｐ６、Ｐ７、Ｐ８の座標と前記第２ターゲット２Ｄボックスの頂点であるＰ１、Ｐ２、Ｐ３、Ｐ４の座標を計算するか計算するように支援するが、前記Ｐ８は前記２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記Ｐ８の対角線に位置した前記２Ｄバウンディングボックスの頂点であり、前記Ｐ４及び前記Ｐ５は前記２Ｄバウンディングボックスのラインセグメントに接しないことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記（ｉ）のプロセスで、スード（ｐｓｅｕｄｏ）−３Ｄ方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記学習装置は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含むが、（ｉ）前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、（ｉｉ）前記特徴マップ上の前記２Ｄバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、（ｉｉｉ）第１ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記入力された特徴ベクタから前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を定め、（ｉｖ）第２ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点に対する前記２Ｄ座標を定めて前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点の２Ｄ座標を獲得するか獲得するように支援することを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するプロセスは、前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するプロセス以前に遂行されることを特徴とする。

本発明のまた他の態様によれば、テストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するテスト装置において、学習装置がトレーニング用２Ｄバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、（ｉ）（ｉ−１）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉ−２）回帰分析を利用してトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援し、（ｉｉ）（ｉｉ−１）前記獲得したトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標とトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴの２Ｄ座標との間の差と（ｉｉ−２）分類された前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用２Ｄバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する通信部；及び（Ｉ）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ＩＩ）回帰分析を利用して前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援するプロセスを遂行するプロセッサ；を含むことを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とするテスト装置が提供される。

一例として、前記（ＩＩ）のプロセスで、前記プロセッサが前記テスト用２Ｄバウンディングボックスの頂点Ｖ１とその対角線上の位置にある頂点Ｖ２を前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点Ｐ１とＰ８に決定し、前記テスト用客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記テスト用２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の変位を演算するが、前記変位は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと平行であることを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

一例として、前記（ＩＩ）のプロセスで、前記プロセッサが（ｂ−１）（ｉ）前記テスト用２Ｄバウンディングボックスの中心と第１ターゲット２Ｄボックスの中心である第１点との間の変位を演算するが、前記第１ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応して（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記中心と第２ターゲット２Ｄボックスの中心である第２点との間の変位を演算するが、前記第２ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第２面に対応し、前記第２面は前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される位置に存在し；（ｂ−２）（ｉ）前記テスト用２Ｄバウンディングボックスの幅に対する前記第１ターゲット２Ｄボックスの幅、（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記幅に対する前記第２ターゲット２Ｄボックスの幅、（ｉｉｉ）前記テスト用２Ｄバウンディングボックスの高さに対する前記第１ターゲット２Ｄボックスの高さ、そして（ｉｖ）前記テスト用２Ｄバウンディングボックスの前記高さに対する前記第２ターゲット２Ｄボックスの高さ、各々の比率を演算し；（ｂ−３）前記各変位と前記各比率を参照し、前記第１ターゲット２Ｄボックスの頂点をなすＰ５、Ｐ６、Ｐ７、及びＰ８の座標と、前記第２ターゲット２Ｄボックスの頂点をなすＰ１、Ｐ２、Ｐ３、及びＰ４の座標を演算するが、前記Ｐ８は前記テスト用２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記テスト用２Ｄバウンディングボックスの前記Ｐ８に対して対角線上に位置した頂点であり、前記Ｐ４及び前記Ｐ５は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと接触しないことを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする。

本発明によれば、次のような効果がある。

本発明は３次元客体を表現する３次元モデルを簡便化することができるようになる。

本発明はバウンディングボックスの頂点の座標決定に必要な演算を最小化することで演算時間と資源の消費を減少させることができるようになる。

本発明は人の介入を最小化するための、３次元ボックスの獲得を学習することができる方法を提供することができるようになる。

本発明の実施例の説明に利用されるために添付された下記図面は本発明の実施例のうち単に一部に過ぎず、本発明が属する技術分野の通常の技術者においては発明的作業がなされることなく本図面に基づいて他の図面が得られることがある。

図１は、本発明の一実施例によってトレーニングイメージ内の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するための学習装置の構成を示す図面である。図２は、本発明の一実施例によってトレーニングイメージからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することができるＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含んだ学習装置の構成を概略的に示した図面である。図３は、本発明の一実施例によってトレーニングイメージ内の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する学習装置の流れを簡略に示した図面である。図４は、本発明の一実施例によって２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックス頂点座標を獲得する方法を簡略に示す図面である。図５は、本発明の一実施例によって２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックス頂点座標を獲得するまた他の方法を簡略に示す図面である。図６は、本発明のまた他の一実施例によってテストイメージ内の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するためのテスト装置の構成を示す図面である。図７は、本発明の一実施例によって客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向のパターンに対応される確率予測に使用される客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向のパターンを概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

図１は本発明によって少なくとも一つの客体を含むトレーニングイメージ内の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するための学習装置１００の構成を示した図面である。ここに、前記スード（ｐｓｅｕｄｏ）−３Ｄボックスと前記２Ｄバウンディングボックスは前記客体に正確に外接され得る。また、前記学習装置１００は機能を遂行するいくつかの装置に分けられ得るが、本明細書では便宜上一つの装置として具現された前記学習装置１００を記述する。本発明による前記学習装置１００はコンボリューションレイヤ、ＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）及びＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤなどの一部が含まれ得る。

図１を参照すれば、前記トレーニングイメージ内の前記２Ｄバウンディングボックスから前記スード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するための前記学習装置１００には通信部１１０とプロセッサ１２０が含まれる。また、図１ではデータベース１３０が学習装置１００の外部にあると示されているが、前記データベース１３０は学習装置１００に含まれ得る。

前記通信部１１０は外部装置や内部構成要素間のデータをやり取りし得る。特に、前記通信部１１０は前記トレーニングイメージを獲得し得る。

図２は２Ｄバウンディングボックス及びスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するための前記学習装置１００に含まれたＣＮＮの構成を示す。前記ＣＮＮ内の第１部分２０１は前記トレーニングイメージ内の前記２Ｄバウンディングボックスを獲得するように構成され、前記ＣＮＮ内の第２部分２０２は前記２Ｄバウンディングボックスから前記スード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するために構成される。

前記第１部分２０１にはコンボリューションレイヤ２１０とＲＰＮ２２０、プーリングレイヤ２３０及び二つのＦＣレイヤ２４０、２４５が含まれ得る。ここに、前記コンボリューションレイヤ２１０は前記トレーニングイメージから少なくとも一つの特徴マップを生成し得る。また、前記ＦＣレイヤ２４０、２４５は各々客体分類及びボックス回帰を遂行し得る。

前記第２部分２０２にはプーリングレイヤ２５０と他の二つのＦＣレイヤ２６０、２６５が含まれ得る。ここに、前記ＦＣレイヤ２６０、２６５は各々方向分類及び変位回帰を遂行し得る。

また他の例示として、前記ＦＣレイヤ２４０、２４５は単一ＦＣレイヤとして具現されてもよく、前記ＦＣレイヤ２６０、２６５も単一ＦＣレイヤとして具現されてもよい。前記実線矢印は下向きの流れを示し、前記点線矢印はバックプロパゲーションの上向きの流れを示し得る。

図２を参照すれば、前記トレーニングイメージは前記コンボリューションレイヤ２１０に入力され得て、以後前記コンボリューションレイヤ２１０から出力される前記特徴マップは前記ＲＰＮ２２０に入力され得る。以後、前記トレーニングイメージ上のいくつかのＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）に対する情報は前記ＲＰＮ２２０から出力され得る。前記ＲＯＩ情報は前記第１部分２０１内の前記プーリングレイヤ２３０と前記第２部分２０２内の前記プーリングレイヤ２５０に入力され得る。

第一に、前記プーリングレイヤ２３０はｍａｘｐｏｏｌｉｎｇであり得るプーリングを遂行し得て、前記二つのＦＣレイヤ２４０、２４５に入力され得るプーリング特徴マップを出力し得る。前記ＦＣレイヤ２４０は前記客体分類に対する情報、例として前記客体が自動車である情報を出力し得て、前記ＦＣレイヤ２４５は前記２Ｄバウンディングボックスと関連して前記ボックス回帰情報、例として、前記２Ｄバウンディングボックス頂点の座標に対する情報を出力し得る。

第二に、前記ＲＰＮ２２０から前記プーリングレイヤ２５０に入るようにする前記入力は前記ＦＣレイヤ２４０の結果を参照してフィルタリングされ得て、以後前記プーリングレイヤ２５０に入力され得る。即ち、前記ＲＰＮ２２０から前記プーリングレイヤ２５０に入り得る前記入力は前記ＲＯＩ情報のうち特定ＲＯＩ情報になり得る。前記特定ＲＯＩ情報は前記ＦＣレイヤ２４０から出力されたクラス情報、例えば自動車、を参照して選択される。

前記プーリングレイヤ２５０はａｖｅｒａｇｅｐｏｏｌｉｎｇを遂行し得て、その結果は前記二つのＦＣレイヤ２６０、２６５に入力され得る。

一方、前記第１部分２０１にある前記ＦＣレイヤ２４５から出力された前記ボックス回帰情報は前記第２部分２０２内の前記ＦＣレイヤ２６５に入力され得る。

ここに、前記ＦＣレイヤ２６０は前記方向分類情報、例えば前記自動車が向かっているスード（ｐｓｅｕｄｏ）−３Ｄ方向に対する情報、を出力し得て、これは前記プーリングレイヤ２５０の出力情報を利用して演算される。また、前記ＦＣレイヤ２６５は前記変位回帰に対する情報、例えば前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標情報、を出力し得て、これは前記プーリングレイヤ２５０出力情報及び前記ＦＣレイヤ２４５から獲得した前記２Ｄバウンディングボックスに対して前記ボックス回帰情報を利用して演算される。前記ＦＣレイヤ２６０、２６５から出たかかる結果は前記スード（ｐｓｅｕｄｏ）−３Ｄボックスを構成するのに活用され得る。

ここで、前記第１部分２０１は場合によって前記学習装置１００に含まれないこともある。即ち、他の装置にある前記第１部分２０１が前記トレーニングイメージから出た前記２Ｄバウンディングボックス情報を獲得し得る。以後、前記学習装置１００は前述した他の装置から出た前記２Ｄバウンディングボックス情報が既に含まれたトレーニングイメージ（即ち、いわゆる修正されたトレーニングイメージ）を受信し得る。

この場合、前記第２部分２０２は前記プーリングレイヤ２５０前に前記プーリングレイヤ２５０に入力され得る特徴マップを獲得するコンボリューションレイヤ（未図示）が含まれ得る。また、前記ＲＰＮ２２０に入力される前記特徴マップは前記プーリングレイヤ２５０によって活用され得るが、これは必須条件ではない。

図３は本発明の一実施例によって前記トレーニングイメージ内の前記２Ｄバウンディングボックスから前記スード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する前記学習装置１００の流れを示すフローチャートである。

第１プロセスとして、前記通信部１１０はＳ３１０段階で前記修正されたトレーニングイメージ、即ち前記２Ｄバウンディングボックスが囲んだ前記客体を含む前記トレーニングイメージを獲得するか獲得するように支援する。前記修正されたトレーニングイメージは前記客体のみならず背景がある全体イメージや前記２Ｄバウンディングボックス内の前記客体のみを含むように切った一部イメージを含み得る。

第２プロセスとして、前記プロセッサ１２０は前記修正されたトレーニングイメージにコンボリューション演算を適用するか適用するように支援して特徴マップを獲得し、以後前記特徴マップにプーリング演算を適用するか適用するように支援してプーリング特徴マップを獲得する。以後、前記プーリング特徴マップは上で言及したように前記二つのＦＣレイヤ２６０、２６５に入力される。参考までに、前記第２プロセスは図３に示されていない。

第３プロセスとして、前記プロセッサ１２０は前記ＦＣレイヤ２６０をもってＳ３２０段階の（Ａ）で前記データベース１３０に保存された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される予測確率に対する情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類する過程を遂行するようにする。図７を参照すれば、かかるパターンは例えば自動車である前記客体の（ａ）は後面、（ｂ）は右側後面、（ｃ）は右側面、（ｄ）は右側正面、（ｅ）は正面、（ｆ）は左側正面、（ｇ）は左側面、（ｈ）は左側後面を示し得る。例えば、図４にある前記自動車は右側正面に対応される方向パターンを有するものとして分類され得る。また、前記プロセッサ１２０は前記ＦＣレイヤ２６５をもって前記Ｓ３２０段階の（Ｂ）で回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標に対する情報を獲得するようにする。ここで、前記回帰分析は前記スード（ｐｓｅｕｄｏ）−３Ｄ方向のすべてのパターンに対して遂行される。また、前記スード（ｐｓｅｕｄｏ）−３Ｄ方向の分類は前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するのに先立って遂行され得る。

第４プロセスとして、前記プロセッサ１２０はＳ３３０段階で（ｉ）獲得した前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）の２Ｄ座標の差及び（ｉｉ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴの方向の差のうち少なくとも一つを参照して決定されたバックプロパゲーションロス情報で前記ＣＮＮのパラメータを調整するか調整するように支援する。ここに、前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴの２Ｄ座標は前記客体に正確に外接する３Ｄボックス頂点の２Ｄ座標になり得る。また、前記バックプロパゲートされた情報には（ｉ）回帰分析を利用して演算された、前記スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンとそれに対応する２Ｄ座標との間の差及び（ｉｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄ方向及び前記ＧＴの２Ｄ座標との間の差、各々を示すロスが含まれ得る。

図４は本発明の一実施例によって座標獲得方法を簡略に示す図面である。図４は前記客体に外接する点線からなる前記２Ｄバウンディングボックスと前記回帰によって獲得される座標を有した頂点がある実線からなる前記スード（ｐｓｅｕｄｏ）−３Ｄボックスを示す。

図４を参照すれば、前記プロセッサ１２０は回帰分析を利用して前記２Ｄバウンディングボックス頂点から前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点までの各変位を演算する過程を遂行するか遂行するように支援する。ここに、前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応される前記ＧＴの差に対する情報は前記ＣＮＮのパラメータを調整するためにバックプロパゲートされ得る。

もう少し具体的には、前記プロセッサ１２０は前記２Ｄバウンディングボックスの頂点Ｖ１及びその対角の頂点Ｖ２を前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの二つの頂点Ｐ１及びＰ８に決定するか決定するように支援する。以後前記プロセッサ１２０は回帰分析を利用してＰ１及びＰ８から（前記２Ｄバウンディングボックスの点線で表示されたラインセグメントと接しない）二つの頂点Ｐ４及びＰ５の変位を演算するか演算するように支援する。ここで、前記変位は前記２Ｄバウンディングボックスのラインセグメントと平行をなし得る。前記座標Ｐ４及びＰ５は各々Ｐ１及びＰ８からの変位から直接演算されてもよく、残りの頂点Ｐ２、Ｐ３、Ｐ６、Ｐ７座標は前記Ｐ４及びＰ５座標から推定され得る。

図５は本発明の一実施例によってまた他の前記座標獲得方法を簡略に示す図面である。図５は前記２Ｄバウンディングボックスの中心と、前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応される第１ターゲット２Ｄボックスの推定上の中心と、前記第１面の対蹠点である第２面に対応される第２ターゲット２Ｄボックスの推定上の中心を示す。

図５を参照すれば、前記プロセッサ１２０は前記第１ターゲット２Ｄボックスの中心である第１ベクタの終点を決定するために前記２Ｄバウンディングボックス中心からの前記第１ベクタを、前記第２ターゲット２Ｄボックスの中心である第２ベクタの終点を決定するために前記２Ｄバウンディングボックス中心からの前記第２ベクタを演算する過程を遂行するか遂行するように支援する。二つのターゲット２Ｄボックスの二つの中心は前記回帰分析によって獲得される。前記第１ターゲット２Ｄボックスの頂点はＰ５、Ｐ６、Ｐ７、Ｐ８であり、前記第２ターゲット２Ｄボックスの頂点はＰ１、Ｐ２、Ｐ３、Ｐ４である。また、前記プロセッサ１２０は前記第１ターゲット２Ｄボックスの幅と前記２Ｄバウンディングボックスの幅の比率、前記第２ターゲット２Ｄボックスの幅と前記２Ｄバウンディングボックスの幅の比率、前記第１ターゲット２Ｄボックスの高さと前記２Ｄバウンディングボックスの高さの比率、前記第２ターゲット２Ｄボックスの高さと前記２Ｄバウンディングボックスの高さの比率を演算する過程を遂行するか遂行するように支援する。例えば、（ｉ）Ｐ７からＰ８まで両方向矢印で表示される前記第１ターゲット２Ｄボックスの幅と（ｉｉ）また他のさらに長い両方向矢印で表示される前記２Ｄバウンディングボックスの幅の比率が獲得される。また、かかる比率は前記回帰分析で得られ得る。併せて、前記プロセッサ１２０は前記変位と前記比率を参照してＰ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７、Ｐ８の座標を演算する過程を遂行するか遂行を支援する。ここで、Ｐ１は前記２Ｄバウンディングボックスの頂点であり、Ｐ８は前記Ｐ１の対角線に位置した前記２Ｄバウンディングボックスの頂点である。また、Ｐ４及びＰ５は前記２Ｄバウンディングボックスのラインセグメントに接しない。即ち、Ｐ１、Ｐ４、Ｐ５、Ｐ８の座標がわかれば、残りの頂点の座標は自明である。ここで、前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応される前記ＧＴとの間の差に対する情報も前記ＣＮＮのパラメータを調整するためにバックプロパゲートされ得る。

図６はテストイメージ内の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するためのテスト装置を示す。

図６を参照すれば、前記テスト装置６００は通信部６１０とプロセッサ６２０が含まれ得る。前記テスト装置６００は、前記データベース１３０の場合と類似して、データベース６３０を含むこともある。

前記テスト装置６００はいくつかの装置に分けて各機能が遂行され得る。但し、本明細書では便宜上単一装置として具現されるテスト装置６００を記述する。

本発明による前記テスト装置６００はコンボリューションレイヤ、ＲＰＮ、ＦＣレイヤなどの一部を含む。

ここで、”トレーニング用”という形容詞句は前記学習装置１００を説明する時に使用する概念を示すが、前記テスト装置６００の説明に使用される”テスト用”に対置される用語として使用される。前記”トレーニング用”という形容詞句は便宜のために前記説明では省略した。

詳細には、前記学習装置１００が（ｉ）前記トレーニング用２Ｄバウンディングボックスが囲んだ前記トレーニング用客体を含んだ前記トレーニングイメージを獲得するか獲得するように支援し、（ｉｉ）（ｉｉ−１）前記スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記トレーニング用客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を分類する過程及び（ｉｉ−２）回帰分析を利用して前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得する過程を遂行するか遂行するように支援し、（ｉｉｉ）（ｉｉｉ−１）前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の獲得された２Ｄ座標と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応される前記ＧＴの２Ｄ座標との間の差及び（ｉｉｉ−２）前記分類されたトレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応される前記ＧＴ方向の差を参照して決定された情報をバックプロパゲーションして前記パラメータを調整するか調整するように支援した状態で、前記通信部６１０はテスト用２Ｄバウンディングボックスに囲まれたテスト用客体を含んだ前記テストイメージを獲得するか獲得するように支援し得る。

また、前記プロセッサ６２０は（ｉ）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類する過程及び（ｉｉ）回帰分析を利用して前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得する過程を遂行するか遂行するように支援し得る。ここで、前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標に対する前記回帰分析は前記スード（ｐｓｅｕｄｏ）−３Ｄ方向の一つのパターンに対してのみ遂行され得る。

残りの過程は、バックプロパゲーションによる前記パラメータの調整と同じテスト用には不要な部分を除いては前記内容とほぼ同一であり省略する。

一方、以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。

従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

Claims

トレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する方法において、
（ａ）学習装置が、前記２Ｄバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する段階；
（ｂ）前記学習装置が、（ｉ）各々のスード（ｐｓｅｕｄｏ）−３Ｄ方向パターンに対応する確率情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するか分類するように支援し、（ｉｉ）回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援する段階；及び
（ｃ）前記学習装置が、（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）の２Ｄ座標との間の差及び（ｉｉ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援する段階；
を含むことを特徴とする方法。
前記（ｂ）段階で、
前記学習装置は回帰分析を利用して前記２Ｄバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とする請求項１に記載の方法。
前記（ｂ）段階のうち（ｉｉ）の過程で、
前記学習装置は前記２Ｄバウンディングボックスの頂点Ｖ１とその対角線に位置した頂点Ｖ２を前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの二つの頂点Ｐ１とＰ８に決定するか決定するように支援し、前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の前記変位を計算するが、前記変位は前記２Ｄバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とする請求項２に記載の方法。
前記（ｂ）段階のうち（ｉｉ）の過程で、
前記学習装置は、
（ｂ−１）（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応される第１ターゲット２Ｄボックスの中心である第１ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心から前記第１ベクタと（ｉｉ）前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される第２面に対応される第２ターゲット２Ｄボックスの中心である第２ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心からの前記第２ベクタ及び（ｂ−２）（ｉ）前記第１ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉ）前記第２ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉｉ）前記第１ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率、及び（ｉｖ）前記第２ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率と（ｂ−３）前記変位と前記比率を参照して前記第１ターゲット２Ｄボックスの頂点であるＰ５、Ｐ６、Ｐ７、Ｐ８の座標と前記第２ターゲット２Ｄボックスの頂点であるＰ１、Ｐ２、Ｐ３、Ｐ４の座標を計算するか計算するように支援するが、
前記Ｐ８は前記２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記Ｐ８の対角線に位置した前記２Ｄバウンディングボックスの頂点であり、前記Ｐ４及び前記Ｐ５は前記２Ｄバウンディングボックスのラインセグメントに接しないことを特徴とする請求項１に記載の方法。
前記（ｂ）段階のうち（ｉ）の過程で、
スード（ｐｓｅｕｄｏ）−３Ｄ方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とする請求項１に記載の方法。
前記学習装置は、
ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含むが、
（ｉ）前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、（ｉｉ）前記特徴マップ上の前記２Ｄバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、（ｉｉｉ）第１ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記入力された特徴ベクタから前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を定め、（ｉｖ）第２ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点に対する前記２Ｄ座標を定めて前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点の２Ｄ座標を獲得するか獲得を支援することを特徴とする請求項１に記載の方法。
テストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する方法において、
（ａ）テスト装置は、（ｉ）学習装置がトレーニング用２Ｄバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、（ｉｉ）（ｉｉ−１）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉｉ−２）回帰分析を利用してトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援し、（ｉｉｉ）（ｉｉｉ−１）前記獲得したトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標とトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴの２Ｄ座標との間の差と（ｉｉｉ−２）分類された前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用２Ｄバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する段階；及び
（ｂ）前記テスト装置が、（ｉ）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉｉ）回帰分析を利用して前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援する段階；
を含むことを特徴とする方法。
前記（ｂ）段階のうち（ｉｉ）の過程で、
前記テスト装置が前記テスト用２Ｄバウンディングボックスの頂点Ｖ１とその対角線上の位置にある頂点Ｖ２を前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点Ｐ１とＰ８に決定し、前記テスト用客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記テスト用２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の変位を演算するが、前記変位は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと平行であることを特徴とする請求項７に記載の方法。
前記（ｂ）段階のうち（ｉｉ）の過程で、
前記テスト装置が、
（ｂ−１）（ｉ）前記テスト用２Ｄバウンディングボックスの中心と第１ターゲット２Ｄボックスの中心である第１点との間の変位を演算するが、前記第１ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応して（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記中心と第２ターゲット２Ｄボックスの中心である第２点との間の変位を演算するが、前記第２ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第２面に対応し、前記第２面は前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される位置に存在し；
（ｂ−２）（ｉ）前記テスト用２Ｄバウンディングボックスの幅に対する前記第１ターゲット２Ｄボックスの幅、（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記幅に対する前記第２ターゲット２Ｄボックスの幅、（ｉｉｉ）前記テスト用２Ｄバウンディングボックスの高さに対する前記第１ターゲット２Ｄボックスの高さ、そして（ｉｖ）前記テスト用２Ｄバウンディングボックスの前記高さに対する前記第２ターゲット２Ｄボックスの高さ、各々の比率を演算し；
（ｂ−３）前記各変位と前記各比率を参照し、前記第１ターゲット２Ｄボックスの頂点をなすＰ５、Ｐ６、Ｐ７、及びＰ８の座標と、前記第２ターゲット２Ｄボックスの頂点をなすＰ１、Ｐ２、Ｐ３、及びＰ４の座標を演算するが、前記Ｐ８は前記テスト用２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記テスト用２Ｄバウンディングボックスの前記Ｐ８に対して対角線上に位置した頂点であり、前記Ｐ４及び前記Ｐ５は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと接触しないことを特徴とする請求項７に記載の方法。
トレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得する学習装置において、
前記２Ｄバウンディングボックスによって囲まれた客体を含む前記トレーニングイメージを獲得するか獲得するように支援する通信部；及び
（ｉ）各々のスード（ｐｓｅｕｄｏ）−３Ｄ方向パターンに対応する確率情報を参照して前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するか分類するように支援し、（ｉｉ）回帰分析を利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援するプロセス；及び（Ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標と前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）の２Ｄ座標との間の差及び（ＩＩ）分類された前記スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援するプロセスを遂行するプロセッサ；
を含むことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする学習装置。
前記（ｉｉ）のプロセスで、
前記プロセッサは回帰分析を利用して前記２Ｄバウンディングボックス頂点からの各変位を計算する過程を遂行するか遂行するように支援することを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１０に記載の学習装置。
前記（ｉｉ）のプロセスで、
前記プロセッサは前記２Ｄバウンディングボックスの頂点Ｖ１とその対角線に位置した頂点Ｖ２を前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの二つの頂点Ｐ１とＰ８に決定するか決定するように支援し、前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の前記変位を計算するが、前記変位は前記２Ｄバウンディングボックスの前記ラインセグメントと平行をなすことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１１に記載の学習装置。
前記（ｉｉ）のプロセスで、
前記プロセッサは、
（ｂ−１）（ｉ）前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応される第１ターゲット２Ｄボックスの中心である第１ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心から前記第１ベクタと（ｉｉ）前記客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される第２面に対応される第２ターゲット２Ｄボックスの中心である第２ベクタの終点を定めるための前記２Ｄバウンディングボックスの中心からの前記第２ベクタ及び（ｂ−２）（ｉ）前記第１ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉ）前記第２ターゲット２Ｄボックス幅に対する前記２Ｄバウンディングボックス幅の比率、（ｉｉｉ）前記第１ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率、及び（ｉｖ）前記第２ターゲット２Ｄボックス高さに対する前記２Ｄバウンディングボックス高さの比率と（ｂ−３）前記変位と前記比率を参照して前記第１ターゲット２Ｄボックスの頂点であるＰ５、Ｐ６、Ｐ７、Ｐ８の座標と前記第２ターゲット２Ｄボックスの頂点であるＰ１、Ｐ２、Ｐ３、Ｐ４の座標を計算するか計算するように支援するが、
前記Ｐ８は前記２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記Ｐ８の対角線に位置した前記２Ｄバウンディングボックスの頂点であり、前記Ｐ４及び前記Ｐ５は前記２Ｄバウンディングボックスのラインセグメントに接しないことを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１０に記載の学習装置。
前記（ｉ）のプロセスで、
スード（ｐｓｅｕｄｏ）−３Ｄ方向の前記パターンはデータベースに保存され、前記確率の予測に使用されることを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１０に記載の学習装置。
前記学習装置は、
ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含むが、
（ｉ）前記トレーニングイメージを獲得して操作して少なくとも一つのコンボリューションレイヤを利用して少なくとも一つの特徴マップを作り、（ｉｉ）前記特徴マップ上の前記２Ｄバウンディングボックスに対応される領域を定め、少なくとも一つのプーリングレイヤを利用して前記領域から特徴ベクタを抽出し、（ｉｉｉ）第１ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記入力された特徴ベクタから前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を定め、（ｉｖ）第２ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを利用して前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点に対する前記２Ｄ座標を定めて前記スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点の２Ｄ座標を獲得するか獲得するように支援することを特徴とするトレーニングイメージ上の２Ｄバウンディングボックスからスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１０に記載の学習装置。
前記客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類するプロセスは、前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するプロセス以前に遂行されることを特徴とする請求項１０に記載の学習装置。
テストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得するテスト装置において、
学習装置がトレーニング用２Ｄバウンディングボックスに囲まれたトレーニング用客体を含んだトレーニングイメージを獲得するか獲得するように支援し、（ｉ）（ｉ−１）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応する確率情報を参照して前記トレーニング用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ｉ−２）回帰分析を利用してトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援し、（ｉｉ）（ｉｉ−１）前記獲得したトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標とトレーニング用前記スード（ｐｓｅｕｄｏ）−３Ｄボックスに対応されるＧＴの２Ｄ座標との間の差と（ｉｉ−２）分類された前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向と前記トレーニング用スード（ｐｓｅｕｄｏ）−３Ｄ方向に対応されるＧＴとの間の差のうち少なくとも一つを参照して決定されるロス情報をバックプロパゲーションして自身のパラメータを調整するか調整するように支援した状態で、テスト用２Ｄバウンディングボックスに囲まれたテスト用客体を含む前記テストイメージを獲得するか獲得するように支援する通信部；及び
（Ｉ）スード（ｐｓｅｕｄｏ）−３Ｄ方向の各パターンに対応される確率情報を参照して前記テスト用客体のスード（ｐｓｅｕｄｏ）−３Ｄ方向を分類し、（ＩＩ）回帰分析を利用して前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックス頂点の２Ｄ座標を獲得するか獲得するように支援するプロセスを遂行するプロセッサ；
を含むことを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とするテスト装置。
前記（ＩＩ）のプロセスで、
前記プロセッサが前記テスト用２Ｄバウンディングボックスの頂点Ｖ１とその対角線上の位置にある頂点Ｖ２を前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの頂点Ｐ１とＰ８に決定し、前記テスト用客体の前記スード（ｐｓｅｕｄｏ）−３Ｄ方向を参照して前記テスト用２Ｄバウンディングボックスのラインセグメントに接しない二つの頂点Ｐ４とＰ５の変位を演算するが、前記変位は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと平行であることを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１７に記載のテスト装置。
前記（ＩＩ）のプロセスで、
前記プロセッサが、
（ｂ−１）（ｉ）前記テスト用２Ｄバウンディングボックスの中心と第１ターゲット２Ｄボックスの中心である第１点との間の変位を演算するが、前記第１ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第１面に対応して（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記中心と第２ターゲット２Ｄボックスの中心である第２点との間の変位を演算するが、前記第２ターゲット２Ｄボックスは前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの第２面に対応し、前記第２面は前記テスト用スード（ｐｓｅｕｄｏ）−３Ｄボックスの前記第１面と対蹠される位置に存在し；
（ｂ−２）（ｉ）前記テスト用２Ｄバウンディングボックスの幅に対する前記第１ターゲット２Ｄボックスの幅、（ｉｉ）前記テスト用２Ｄバウンディングボックスの前記幅に対する前記第２ターゲット２Ｄボックスの幅、（ｉｉｉ）前記テスト用２Ｄバウンディングボックスの高さに対する前記第１ターゲット２Ｄボックスの高さ、そして（ｉｖ）前記テスト用２Ｄバウンディングボックスの前記高さに対する前記第２ターゲット２Ｄボックスの高さ、各々の比率を演算し；
（ｂ−３）前記各変位と前記各比率を参照し、前記第１ターゲット２Ｄボックスの頂点をなすＰ５、Ｐ６、Ｐ７、及びＰ８の座標と、前記第２ターゲット２Ｄボックスの頂点をなすＰ１、Ｐ２、Ｐ３、及びＰ４の座標を演算するが、前記Ｐ８は前記テスト用２Ｄバウンディングボックスの頂点であり、前記Ｐ１は前記テスト用２Ｄバウンディングボックスの前記Ｐ８に対して対角線上に位置した頂点であり、前記Ｐ４及び前記Ｐ５は前記テスト用２Ｄバウンディングボックスの前記ラインセグメントと接触しないことを特徴とするテストイメージ上の客体を囲んだスード（ｐｓｅｕｄｏ）−３Ｄボックスを獲得することを特徴とする請求項１７に記載のテスト装置。