JP7444292B2 - 検出システム、検出方法、及びプログラム - Google Patents
検出システム、検出方法、及びプログラム Download PDFInfo
- Publication number
- JP7444292B2 JP7444292B2 JP2022575550A JP2022575550A JP7444292B2 JP 7444292 B2 JP7444292 B2 JP 7444292B2 JP 2022575550 A JP2022575550 A JP 2022575550A JP 2022575550 A JP2022575550 A JP 2022575550A JP 7444292 B2 JP7444292 B2 JP 7444292B2
- Authority
- JP
- Japan
- Prior art keywords
- detection
- unit
- confidence
- user terminal
- integrating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 454
- 230000010354 integration Effects 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 43
- 238000000034 method Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 102220470087 Ribonucleoside-diphosphate reductase subunit M2_S20A_mutation Human genes 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 102220486681 Putative uncharacterized protein PRO1854_S10A_mutation Human genes 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/16—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Automation & Control Theory (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Description
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
本例示的実施形態に係る検出システム1の構成について、図1を参照して説明する。図1は、検出システム1の構成を示すブロック図である。
以上のように構成された検出システム1が実行する検出方法S1の流れについて、図2を参照して説明する。図2は、検出方法S1の流れを示すフロー図である。
ステップS11において、第1検出部11は、第1センサの検出値を参照してオブジェクトを検出する。
ステップS12において、第2検出部12は、オブジェクトの過去の検出結果を参照してオブジェクトを検出する。
ステップS13において、統合部14は、第1検出部11による検出結果及び第2検出部12による検出結果を統合してオブジェクトを検出する。
本例示的実施形態は、第1センサの検出値を参照することによるオブジェクトの検出結果と、過去の検出結果を参照することによるオブジェクトの検出結果とを統合してオブジェクトを検出する。これにより、第1検出部11又は第2検出部12のみを用いる場合と比べて、より精度よくオブジェクトを検出することができる。
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
本例示的実施形態に係る検出システム1Aの構成について、図3を参照して説明する。図3は、検出システム1Aの構成を示すブロック図である。
ユーザ端末10Aの構成について、図3及び図4を参照して説明する。図4は、ユーザ端末10Aの外観の一例を示す模式図である。図3及び図4に示すように、ユーザ端末10Aは、制御部110Aと、カメラ130Aと、IMU(Inertial Measurement Unit)140Aと、ディスプレイ150Aと、通信部160Aとを含む。制御部110Aは、映像認識部11Aと、自己位置推定部12Aと、ローカル位置推定部13Aと、統合部14Aとを含む。ユーザ端末10Aは、例えば、図4に外観を示すようなタブレット端末またはスマートフォンであるが、これらに限られない。
カメラ130Aは、周囲を撮影して撮影画像を生成する。カメラ130Aは、例えば、集光レンズからの入射光を撮像素子により電気信号に変換し、電気信号をA/D変換して画像処理することによって撮影画像を生成する。撮像素子は、例えば、CCD(Charge Coupled Devices)、又はCMOS(Complementary Metal Oxide Semiconductor)等であるが、これらに限られない。カメラ130Aは、撮影画像を制御部110Aに出力する。カメラ130Aは、所定のフレームレートで撮影画像を生成する。以降、撮影画像を、映像フレームとも記載する。
IMU140Aは、互いに直交する3軸方向の角速度及び加速度を検出する装置である。IMU140Aは、ジャイロセンサ及び加速度センサを含み、ジャイロセンサにより角速度を検出し、加速度センサにより加速度を検出する。IMU140Aは、検出値を制御部110Aに出力する。
ディスプレイ150Aは、制御部110Aから出力される画像を表示する。ディスプレイ150Aは、例えば、液晶ディスプレイ、プラズマディスプレイ、無機EL(Electro luminescence)ディスプレイ、又は有機ELディスプレイであるが、これらに限られない。また、ディスプレイ150Aは、タッチパネルと一体に形成されていてもよい。
通信部160Aは、制御部110Aの制御の基に、サーバ20Aと通信を行う。以降、制御部110Aが通信部160Aを制御してデータを送受信することを、単に、制御部110Aがデータを送受信する、とも記載する。
図3に示すように、サーバ20Aは、制御部210Aと、記憶部220Aと、通信部260Aとを含む。制御部210Aは、グローバル位置推定部21Aを含む。記憶部220Aは、オブジェクト情報22Aを記憶する。オブジェクト情報22Aは、オブジェクトの過去の検出結果を示す情報であり、過去に検出した各オブジェクトについてデータベースに記憶される。以降、各オブジェクトのオブジェクト情報22Aを格納したデータベースを、オブジェクトマップとも記載する。オブジェクトマップの詳細については後述する。グローバル位置推定部21Aは、請求の範囲に記載した蓄積手段を実現する構成の一例である。通信部260Aは、制御部210Aの制御の基に、ユーザ端末10Aと通信を行う。以降、制御部210Aが通信部260Aを制御してデータを送受信することを、単に、制御部210Aがデータを送受信する、とも記載する。
オブジェクトマップは、1以上の各オブジェクトについてオブジェクト情報22Aを格納したデータベースである。オブジェクト情報22Aは、当該オブジェクトについての過去の検出結果を示す情報である。オブジェクト情報22Aは、当該オブジェクトが検出されるとオブジェクトマップに蓄積される。以降、オブジェクトマップに格納されたオブジェクト情報22Aを、「蓄積されたオブジェクト情報22A」とも記載する。
次に、ユーザ端末10Aの制御部110A、及びサーバ20Aの制御部210Aが含む各部の詳細な構成について、図6を参照して説明する。図6は、検出システム1Aが含む各機能ブロック間の入出力を模式的に示す図である。
図6に示すように、各機能ブロックの入出力には、認識コンフィデンス及び位置コンフィデンスが含まれる。認識コンフィデンスは、オブジェクトの認識に関する確度である。位置コンフィデンスは、検出したオブジェクトの位置に関する確度、又は、検出したユーザ端末10Aの位置及び向きに関する確度である。これらの確度は、0以上1以下の値をとる。
映像認識部11Aは、カメラ130Aが撮影した映像フレームを参照して、オブジェクトを検出する。具体的には、映像認識部11Aは、カメラ130Aから取得した映像フレームにおいてオブジェクトの領域を特定することにより、オブジェクトを検出する。映像認識部11Aが特定するオブジェクトの領域を、以降、第1領域と記載する。第1領域は、映像フレームにおけるオブジェクトの二次元的な位置を表す。映像認識部11Aは、映像フレームを入力として、第1領域を示す情報と、認識コンフィデンスC1とを出力する。第1領域は、例えば、バウンディングボックス、又はセグメント情報によって表されるが、これらに限られない。なお、セグメント情報とは、映像フレームを分割した複数のセグメントのうち第1領域を構成する1以上のセグメントを示す情報である。
自己位置推定部12Aは、IMU140Aから取得したセンサデータ及びカメラ130Aから取得した映像フレームを参照して、現実空間におけるユーザ端末10Aの位置及び向きを推定する。具体的には、自己位置推定部12Aは、ユーザ端末10Aの位置及び向きを示す情報と、推定結果の確度を示す位置コンフィデンスD2とを出力する。センサデータ及び映像フレームを参照して位置及び向きを推定する技術には、公知の推定技術を採用可能である。なお、採用した推定技術が、位置及び向きの確率分布又は共分散を出力する場合、自己位置推定部12Aは、確率分布又は共分散から位置コンフィデンスD2を算出してもよい。
ローカル位置推定部13Aは、サーバ20Aに蓄積されたオブジェクト情報22Aと、自己位置推定部12Aが推定したユーザ端末10Aの位置及び向きとを参照して、ユーザ端末10Aから見たオブジェクトの相対的な位置を推定する。以降、オブジェクトの相対的な位置を、ローカル位置とも記載する。また、ローカル位置推定部13Aは、オブジェクトのローカル位置に基づいて、オブジェクトを含む第2領域を算出する。また、ローカル位置推定部13Aは、第2領域を示す情報と、位置コンフィデンスD3と、認識コンフィデンスC6とを出力する。位置コンフィデンスD3は、第2領域の位置に関する確度である。認識コンフィデンスC6は、第2領域を算出するために参照したオブジェクト情報22Aに含まれる。
このように、位置コンフィデンスD2及び位置コンフィデンスD6を乗算することにより、ユーザ端末10Aの位置及び向きの推定に関する不確実さと、オブジェクトの過去の位置に関する不確実さとが加算的に加味される。換言すると、ローカル位置推定部13Aは、位置コンフィデンスD2、及び位置コンフィデンスD6の少なくとも一方が大きいほど、より大きい位置コンフィデンスD3を算出する。なお、位置コンフィデンスD3は、式(1)に限らず、不確実さが加算的又は増加する方向に加味される計算方式であれば、他の方式によって算出されてもよい。
統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aによる検出結果とを統合してオブジェクトを検出する。具体的には、統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aによる検出結果とを、認識コンフィデンスC1、位置コンフィデンスD3、及び認識コンフィデンスC6を参照して統合する。なお、統合部14Aは、オブジェクトIDが異なるオブジェクト毎に、統合した検出結果を管理する。統合処理の詳細については後述する。
統合部14Aは、映像認識部11A及びローカル位置推定部13Aがそれぞれ出力した認識コンフィデンスC1、C6を参照して認識コンフィデンスC4を算出する。また、統合部14Aは、算出した認識コンフィデンスC4が閾値以上の場合に、映像認識部11Aによる検出結果を採用して統合部14Aによる検出結果とする。また、統合部14Aは、算出した認識コンフィデンスC4が閾値未満の場合には、オブジェクトを検出できなかったとする検出結果を出力する。
認識コンフィデンスC4の算出処理の詳細について説明する。まず、統合部14Aは、認識コンフィデンスC4を算出するために、ローカル位置推定部13Aが出力した認識コンフィデンスC6を参照するか否かを決定する。具体的には、統合部14Aは、(i)ローカル位置推定部13Aが算出した位置コンフィデンスD3が閾値未満であるか否か、及び、(ii)映像認識部11Aが検出したオブジェクトの位置と、ローカル位置推定部13Aが検出したオブジェクトの位置との関係が条件を満たすか否かに基づいて、認識コンフィデンスC6を参照するか否かを決定する。
つまり、統合部14Aは、認識コンフィデンスC1及び認識コンフィデンスC6のうち大きい方以上の値を、認識コンフィデンスC4として算出する。換言すると、統合部14Aは、認識コンフィデンスC1及び認識コンフィデンスC6の少なくとも一方が大きいほど、より大きい認識コンフィデンスC4を算出する。これは、2つの異なるオブジェクト検出機構(すなわち、映像認識部11A及びローカル位置推定部13A)が類似する位置を出力した場合に認識コンフィデンスを増加させ、その認識の確度を高めることが望ましいからである。なお、認識コンフィデンスC4は、式(2)に限らず、その他の計算方式によって算出されてもよい。
上述したように、換言すると、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1が閾値より低い場合、当該認識コンフィデンスC1を無視する。また、統合部14Aは、ローカル位置推定部13Aが出力した位置コンフィデンスD3又は認識コンフィデンスC6が閾値より低い場合、当該位置コンフィデンスD3又は認識コンフィデンスC6を無視する。つまり、統合部14Aは、映像認識部11Aによる検出結果と、ローカル位置推定部13Aの検出結果とを統合してマルチモーダルな検出機構として動作する。また、統合部14Aは、それぞれの検出結果の確度に応じて、シングルモーダルな検出機構としても動作する。
グローバル位置推定部21Aは、統合部14Aによる検出結果に基づいて、オブジェクトの過去の検出結果を示すオブジェクト情報22Aを、オブジェクトマップに蓄積する。ここで、オブジェクト情報22Aを蓄積する、とは、オブジェクトマップにオブジェクト情報22Aを新たに登録すること、既存のオブジェクト情報22Aを更新すること、及び、既存のオブジェクト情報22Aを削除することを含む。
以上のように構成された検出システム1Aは、検出方法S1Aを実行する。検出方法S1Aは、ユーザ端末10Aが実行する検出方法S10Aと、サーバ20Aが実行する検出方法S20Aとを含む。
まず、ユーザ端末10Aが実行する検出方法S10Aの流れについて、図7を参照して説明する。図7は、検出方法S10Aの流れを示すフロー図である。図7に示すように、検出方法S10Aは、ステップS101~S114を含む。
ステップS101において、映像認識部11Aは、カメラ130Aから映像フレームを取得する。
ステップS102において、映像認識部11Aは、映像フレームからオブジェクトを検出する。例えば、映像認識部11Aは、取得した映像フレームを検出モデルに入力し、検出モデルから出力されるオブジェクトID、オブジェクトを含む第1領域Area1、及び認識コンフィデンスC1を取得する。
ステップS103において、ローカル位置推定部13Aは、ステップS102で検出したオブジェクトに関するオブジェクト情報22Aを、サーバ20Aに要求する。
ステップS104において、ローカル位置推定部13Aは、ステップS103でオブジェクト情報22Aを取得できたか否かを判断する。換言すると、ローカル位置推定部13Aは、オブジェクトマップに、該当するオブジェクト情報22Aが蓄積されているか否かを判断する。
ステップS104で「はい」と判断した場合、ステップS105において、自己位置推定部12Aは、ステップS101で取得した映像フレーム及びIMU140Aからのセンサデータを参照して、ユーザ端末10Aの位置及び向きを推定する。また、自己位置推定部12Aは、推定結果の確度である位置コンフィデンスD2を算出する。また、自己位置推定部12Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6を取得する。
ステップS106において、ローカル位置推定部13Aは、オブジェクト情報22Aと、ユーザ端末10Aの位置及び向きの情報とを用いて、第2領域Area2を求める。第2領域Area2を示す情報は、スクリーン座標系で表される。
ステップS107において、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれる位置コンフィデンスD6と、自己位置推定部12Aが算出した位置コンフィデンスD2とを参照して、位置コンフィデンスD3を算出する。また、ローカル位置推定部13Aは、オブジェクト情報22Aに含まれる認識コンフィデンスC6を出力する。
ステップS108において、ローカル位置推定部13Aは、位置コンフィデンスD3が閾値α1以上であるか否かを判断する。閾値α1は、認識コンフィデンスC6を参照するか否かを判断するための閾値である。
ステップS108で「はい」と判断した場合、ステップS109において、統合部14Aは、第1領域Area1及び第2領域Area2の重なり度合いであるIoUを算出する。
ステップS110において、統合部14Aは、IoUが閾値α2以上であるか否かを判断する。閾値α2は、認識コンフィデンスC6を参照するか否かを判断するための閾値である。
ステップS110で「はい」と判断した場合、ステップS111において、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1と、ローカル位置推定部13Aが出力した認識コンフィデンスC6とを参照して、認識コンフィデンスC4を算出する。例えば、認識コンフィデンスC4は、前述した式(2)により算出される。
ステップS113において、統合部14Aは、認識コンフィデンスC4が閾値α3以上であるか否かを判断する。閾値α3は、映像認識部11Aによる検出結果を採用するか否かを判断するための閾値である。
ステップS113で「はい」と判断した場合、ステップS114において、統合部14Aは、映像認識部11Aによる検出結果であるオブジェクトID及び第1領域Area1を示す情報を、統合した検出結果として出力する。また、統合部14Aは、統合した検出結果の認識に関する確度として、認識コンフィデンスC4を出力する。また、統合部14Aは、自己位置推定部12Aが推定したユーザ端末10Aの位置及び向きを出力する。具体的には、統合部14Aは、検出結果、認識コンフィデンスC4、及びユーザ端末10Aの位置及び向きをサーバ20Aに送信する。
ステップS104、ステップS108、又はステップS110で「いいえ」と判断した場合、ステップS112において、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1を、認識コンフィデンスC4とする。その後、ユーザ端末10Aは、ステップS113~S114を実行する。これにより、映像認識部11Aによる認識の確度(認識コンフィデンスC1、すなわち、この場合は認識コンフィデンスC4)が閾値α3以上であれば、映像認識部11Aによる検出結果(オブジェクトID及び第1領域Area1)が、統合した検出結果として出力される。
ステップS113で「いいえ」と判断した場合、ユーザ端末10Aは、検出方法S10Aを終了する。例えば、この場合、検出システム1Aは、オブジェクトを検出できなかったとの検出結果を出力してもよい。
次に、サーバ20Aが実行する検出方法S20Aの流れについて、図8を参照して説明する。図8は、検出方法S20Aの流れを示すフロー図である。図8に示すように、検出方法S20Aは、ステップS201~S208を含む。
ステップS201において、サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから、統合部14Aによる検出結果(オブジェクトID、第1領域Area1を示す情報)と、認識コンフィデンスC4とを取得する。
ステップS202において、グローバル位置推定部21Aは、認識コンフィデンスC4が閾値α4以上であるか否かを判断する。閾値α4は、オブジェクト情報22Aを蓄積するか否かを判断するための閾値である。
ステップS202において「はい」と判断した場合、ステップS203において、グローバル位置推定部21Aは、統合部14Aによる検出結果、及びユーザ端末10Aの位置および向きを参照して、オブジェクトのグローバル位置を推定する。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5を算出する。
ステップS204において、グローバル位置推定部21Aは、位置コンフィデンスD5と、ユーザ端末10Aから取得した認識コンフィデンスC4とに基づいて、コンフィデンススコアScore1を算出する。ここでは、コンフィデンススコアScore1は、認識コンフィデンスC4及び位置コンフィデンスD5の和であるものとする。
ステップS205において、グローバル位置推定部21Aは、オブジェクトマップに、当該オブジェクトと同一IDのオブジェクト情報22Aが蓄積されているか否かを判断する。
ステップS205で「はい」と判断した場合、ステップS206において、グローバル位置推定部21Aは、オブジェクトマップから当該オブジェクト情報22Aを取得する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる位置コンフィデンスD6と、認識コンフィデンスC6とに基づいて、コンフィデンススコアScore2を算出する。ここでは、コンフィデンススコアScore2は、認識コンフィデンスC6及び位置コンフィデンスD6の和であるものとする。
ステップS207において、グローバル位置推定部21Aは、コンフィデンススコアScore1がScore2より大きいか否かを判断する。
ステップS207で「はい」と判断した場合、グローバル位置推定部21Aは、オブジェクトマップにオブジェクト情報22Aを蓄積する。具体的には、グローバル位置推定部21Aは、既に格納されている当該オブジェクトと同一IDのオブジェクト情報22Aに含まれるグローバル位置を、ステップS203で算出したグローバル位置に更新する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる位置コンフィデンスD6を、位置コンフィデンスD5の値に更新する。また、グローバル位置推定部21Aは、当該オブジェクト情報22Aに含まれる認識コンフィデンスC6を、認識コンフィデンスC4の値に更新する。
ステップS205で「いいえ」と判断した場合、グローバル位置推定部21Aは、ステップS208を実行する。すなわち、この場合、グローバル位置推定部21Aは、オブジェクトマップに、新たに当該オブジェクトと同一IDのオブジェクト情報22Aを追加する。追加される新たなオブジェクト情報22Aは、ユーザ端末10Aから受信したオブジェクトID及びステップS203で算出したグローバル位置を含む。また、新たなオブジェクト情報22Aは、位置コンフィデンスD6として、ステップS203で算出した位置コンフィデンスD5の値を含む。また、新たなオブジェクト情報22Aは、認識コンフィデンスC6として、ユーザ端末10Aから受信した認識コンフィデンスC4の値を含む。
ステップS202、又はステップS207において「いいえ」と判断した場合、サーバ20Aは、検出方法S20Aを終了する。
検出システム1Aが実行する検出方法S1Aの具体例を、図9~図16を参照して説明する。ここでは、検出システム1Aが、オブジェクトOBJを初めて検出する具体例1と、その後、再度オブジェクトOBJを検出する具体例2及び具体例3とについて説明する。
(ステップS101の具体例)
図9は、本具体例1において検出対象となる現実空間を模式的に示す図である。図9に示すように、現実空間には、グローバル座標系(X,Y,Z)が設定される。現実空間には、ユーザUと、ユーザUが保持するユーザ端末10Aと、オブジェクトOBJとが存在する。図9に示すように、ユーザUは、オブジェクトOBJに充分近い状態である。ここで、「充分近い」とは、閾値α3以上の認識コンフィデンスC1でオブジェクトOBJを検出可能な程度に近いことをいう。この状態で、ユーザUは、ユーザ端末10Aに搭載されたカメラ130AをオブジェクトOBJに向ける。カメラ130Aは、オブジェクトOBJを含む映像フレームを生成する。ユーザ端末10Aは、ステップS101を実行し、当該映像フレームを取得する。
ユーザ端末10Aの映像認識部11Aは、映像フレームを検出モデルに入力することにより、オブジェクトOBJのオブジェクトID=1と、映像フレームにおいてオブジェクトOBJを含む第1領域Area1とを得る。このとき、映像認識部11Aは、認識コンフィデンスC1として0.9を算出したとする。この例では、認識コンフィデンスC1=0.9は、閾値α3以上である。
オブジェクトOBJを初めて検出する場合、ステップS103~S104を実行する時点で、オブジェクトOBJに関するオブジェクト情報22Aは、オブジェクトマップに蓄積されていない。したがって、ローカル位置推定部13Aは、ステップS104でNoと判断する。
そこで、統合部14Aは、ステップS112を実行し、映像認識部11Aが算出した認識コンフィデンスC1を、認識コンフィデンスC4とする。すなわち、認識コンフィデンスC4=0.9となる。また、統合部14Aは、認識コンフィデンスC4が閾値α3以上であるため(ステップS113で「はい」)、ステップS114を実行する。すなわち、統合部14Aは、映像認識部11Aによる検出結果(オブジェクトID及び第1領域Area1)と、認識コンフィデンスC4と、ユーザ端末10Aの位置及び向きとを、サーバ20Aに送信する。
サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから上述の検出結果及び認識コンフィデンスC4を受信すると、受信した認識コンフィデンスC4=0.9が閾値α4以上であるため、ステップS202で「はい」と判断する。
ステップS203において、グローバル位置推定部21Aは、ユーザ端末10Aから受信した検出結果と、ユーザ端末10Aの位置及び向きとに基づいて、オブジェクトOBJのグローバル位置を推定する。ここでは、グローバル位置(X=4.0(m:メートル),Y=5.0(m)、Z=0.5(m))が推定されたものとする。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5として0.9を算出する。
ステップS204において、グローバル位置推定部21Aは、コンフィデンススコアScore1として、認識コンフィデンスC4=0.9及び位置コンフィデンスD5=0.9の和である1.8を算出する。
ステップS205において、グローバル位置推定部21Aは、オブジェクトマップには、当該オブジェクトのオブジェクト情報22Aが未だ格納されていないため(ステップS205で「いいえ」)、ステップS208を実行する。すなわち、グローバル位置推定部21Aは、オブジェクトOBJに関するオブジェクト情報22Aを、オブジェクトマップに新たに追加する。図10は、新たなオブジェクト情報22Aの一例を示す図である。図10に示すように、オブジェクト情報22Aは、オブジェクトID=1と、グローバル位置(X=4.0(m:メートル),Y=5.0(m)、Z=0.5(m))とを含む。また、オブジェクト情報22Aは、サイズとして、事前に与えられた値0.5(m)を含む。また、オブジェクト情報22Aは、位置コンフィデンスD6として、位置コンフィデンスD5の値0.9を含む。また、オブジェクト情報22Aは、認識コンフィデンスC6として、認識コンフィデンスC4の値0.9を含む。
(ステップS101の具体例)
その後、ユーザUがオブジェクトOBJから離れてより遠方に移動したとする。図11は、ユーザUがオブジェクトOBJから離れた状態での現実空間を模式的に示す図である。図11に示すように、ユーザUは、オブジェクトOBJから離れた状態で、ユーザ端末10Aに搭載されたカメラ130AをオブジェクトOBJに向ける。カメラ130Aは、オブジェクトOBJを含む映像フレームを生成する。ユーザ端末10Aは、ステップS101を実行し、当該映像フレームを取得する。
具体例1と同様に、ユーザ端末10Aの映像認識部11Aは、映像フレームを検出モデルに入力することにより、オブジェクトOBJのオブジェクトID=1と、映像フレームにおいてオブジェクトOBJを含む第1領域Area1とを得る。このとき、映像認識部11Aは、認識コンフィデンスC1として0.3を算出したとする。これは、オブジェクトOBJが具体例1より相対的に遠くに移動したことにより、映像認識部11Aが算出する認識コンフィデンスC1が、具体例1より低くなったためである。
ここで、サーバ20Aのオブジェクトマップには、図10に示した通り、オブジェクトOBJに関するオブジェクト情報22Aが格納されている。そこで、ローカル位置推定部13Aは、ステップS103で、図10に示したオブジェクト情報22Aを取得する。ローカル位置推定部13Aは、オブジェクト情報22Aを取得できたため、ステップS104では「はい」と判断する。
ステップS105において、自己位置推定部12Aは、ユーザ端末10Aの位置及び向きとして、グローバル座標系における位置P1及び方向d1を推定する。また、自己位置推定部12Aは、これらの推定結果の位置コンフィデンスD2として、0.95を算出する。
図13は、ステップS106において、ローカル位置推定部13Aが推定した第2領域Area2を説明する模式図である。図13に示すように、第2領域Area2は、スクリーン座標系における矩形(バウンディングボックス)として表される。なお、図13は、第2領域Area2を説明するための模式図であり、必ずしも当該ステップにおいてディスプレイ150Aに第2領域Area2を示す矩形が表示されることを限定するものではない。
ステップS107において、ローカル位置推定部13Aは、オブジェクトOBJのオブジェクト情報22Aに含まれる認識コンフィデンスC6=0.9を出力する。また、ローカル位置推定部13Aは、位置コンフィデンスD3として、ユーザ端末10Aの位置P1に関する位置コンフィデンスD2=0.95と、オブジェクト情報22Aに含まれる位置コンフィデンスD6=0.9とを乗算する。これにより、位置コンフィデンスD3=0.855が算出される。当該位置コンフィデンスD3は、閾値α1以上であるものとする。したがって、ローカル位置推定部13Aは、ステップS108で「はい」と判断する。
図16は、ステップS109において、統合部14Aが算出するIoUを説明するための模式図である。図16に示すように、スクリーン座標系において、映像認識部11Aが算出した第1領域Area1と、ローカル位置推定部13Aが推定した第2領域Area2とが重なり合う領域(斜線パターンで塗りつぶした領域)を第3領域Area3とする。統合部14Aは、第3領域Area3の面積を、第1領域Area1及び第2領域Area2を結合した結合領域の面積で除算した値を、IoUとして算出する。ここでは、IoUとして、0.8が算出されたものとする。当該IoUは、閾値α2以上であるものとする。したがって、統合部14Aは、ステップS110で「はい」と判断する。
ステップS111において、統合部14Aは、式(2)を用いて、認識コンフィデンスC4を算出する。具体的には、統合部14Aは、映像認識部11Aが算出した認識コンフィデンスC1=0.3と、ローカル位置推定部13Aが出力した認識コンフィデンスC6=0.9とのうち、最大値である0.9を、認識コンフィデンスC4とする。この具体例では、映像認識部11Aによる検出結果を採用するか否かを判断するための閾値α3は0.5である。統合部14Aが算出した認識コンフィデンスC4=0.9は、閾値α3=0.5以上であるため、統合部14Aは、ステップS113で「はい」と判断する。
統合部14Aは、オブジェクトOBJを検出できたとみなして、映像認識部11Aが検出した第1領域Area1を、検出結果として採用し出力する。統合部14Aは、検出結果であるオブジェクトID=1及び第1領域Area1と、認識コンフィデンスC4=0.9と、ユーザ端末10Aの位置及び向きとを、サーバ20Aに送信する。このように、具体例2は、映像認識部11Aによる認識コンフィデンスC1が低い場合であっても、ローカル位置推定部13Aによる認識結果を統合することにより、オブジェクトOBJを高精度に検出することができる。
サーバ20Aのグローバル位置推定部21Aは、ユーザ端末10Aから上述の検出結果及び認識コンフィデンスC4=0.9を受信する。また、グローバル位置推定部21Aは、受信した認識コンフィデンスC4=0.9が閾値α4以上であるため、ステップS202で「はい」と判断する。
ステップS203において、グローバル位置推定部21Aは、ユーザ端末10Aから受信した検出結果と、ユーザ端末10Aの位置及び向きとに基づいて、オブジェクトOBJのグローバル位置を推定する。ここでは、グローバル位置として、オブジェクト情報22Aに既に含まれているグローバル位置とは異なる位置(X=3.9(m:メートル),Y=5.1(m)、Z=0.5(m))が推定されたものとする。また、グローバル位置推定部21Aは、推定結果の位置コンフィデンスD5として、具体例1より小さい0.7を算出する。これは、具体例2では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例1より遠いためである。
ステップS204において、グローバル位置推定部21Aは、統合部14Aから受信した認識コンフィデンスC4=0.9、及び算出した位置コンフィデンスD5=0.7の和であるコンフィデンススコアScore1=1.6を算出する。
ここで、Score1>Score2でないため、グローバル位置推定部21Aは、ステップS207で「いいえ」と判断し、検出方法S20Aを終了する。すなわち、グローバル位置推定部21Aは、オブジェクトマップに蓄積されたオブジェクト情報22Aを更新しない。
その後、図9に示すように、ユーザUが再びオブジェクトOBJの近傍に移動したとする。
具体例3では、ユーザ端末10Aは、具体例2とほぼ同様に検出方法S10Aを実行する。なお、具体例3では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例2より近いため、ステップS102において算出する認識コンフィデンスC1の値は具体例2より大きくなる。ただし、ステップS114においてユーザ端末10Aからサーバ20Aに対して出力される認識コンフィデンスC4の値は、0.9で具体例2と同一であったものとする。
また、具体例3では、サーバ20Aは、ステップS201~S206まで具体例2とほぼ同様に検出方法S20Aを実行する。ただし、ステップS203において、位置コンフィデンスD5として、具体例2より大きい0.95が算出される点が異なる。これは、具体例3では、ユーザ端末10AからオブジェクトOBJまでの距離が具体例2より近いためである。その結果、ステップS204において、コンフィデンススコアScore1として、具体例2より大きい1.85が算出される点も異なる。このコンフィデンススコアScore1の値1.85は、統合部14Aから受信した認識コンフィデンスC4=0.9、及び算出した位置コンフィデンスD5=0.95の和である。
ここで、Score1>Score2であるため、グローバル位置推定部21Aは、ステップS207で「はい」と判断し、ステップS208を実行する。すなわち、グローバル位置推定部21Aは、オブジェクトマップに蓄積されたオブジェクト情報22Aを更新する。
本例示的実施形態は、ユーザ端末10Aに高い処理性能を要求することなく、オブジェクトを高精度に検出することができる。その理由について説明する。
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
本例示的実施形態に係る検出システム1Bの構成について、図18を参照して説明する。図18は、検出システム1Bの構成を示すブロック図である。検出システム1Bは、例示的実施形態2に係る検出システム1Aとほぼ同様に構成されるが、ユーザ端末10Aに代えてユーザ端末10Bを含む点が異なる。ユーザ端末10Bは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、三次元センサ170Bをさらに含む点が異なる。また、映像認識部11Aと、ローカル位置推定部13Aと、統合部14Aとに代えて、映像認識部11Bと、ローカル位置推定部13Bと、統合部14Bとを含む点も異なる。
三次元センサ170Bは、オブジェクトOBJに関する深度情報を取得するセンサである。例えば、三次元センサ170Bは、赤外線センサ、三次元LiDar、又はステレオカメラであってもよいが、これに限られない。
映像認識部11Bは、例示的実施形態2における映像認識部11Aとほぼ同様に構成されるが、映像フレームに加えて深度情報を用いる点と、三次元的な第1領域を示す情報を出力する点とが異なる。換言すると、映像認識部11Bは、二次元画像である映像フレームを分析する代わりに、映像フレームに深度情報を加えた三次元データを分析する。
ローカル位置推定部13Bは、例示的実施形態2におけるローカル位置推定部13Aとほぼ同様に構成されるが、オブジェクトのローカル位置、及び第2領域を三次元的に算出する点が異なる。
統合部14Bは、例示的実施形態2における統合部14Aとほぼ同様に構成されるが、IoUを三次元的に算出する点が異なる。
以上のように構成された検出システム1Bが実行する検出方法は、図7を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
ステップS101において、映像認識部11Aは、映像フレームに加えて、三次元センサ170Bから深度情報を取得する。その他の点については、上述したステップS101と同様である。
ステップS102において、映像認識部11Bは、カメラ座標系における三次元的な第1領域を示す情報を出力する。その他の点については、上述したステップS102と同様である。
ステップS106において、ローカル位置推定部13Bは、カメラ座標系における三次元的な第2領域を算出する。その他の点については、上述したステップS106と同様である。
ステップS109において、統合部14Bは、IoUを、三次元的な第1領域及び第2領域を参照して算出する。その他の点については、上述したステップS109と同様である。
本例示的実施形態は、第1検出部及び第2検出部が三次元的にオブジェクトを検出することにより、オブジェクトをさらに精度よく検出することができる。
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
本例示的実施形態に係る検出システム1Cの構成について、図19を参照して説明する。図19は、検出システム1Cの構成を示すブロック図である。検出システム1Cは、例示的実施形態2に係る検出システム1Aとほぼ同様に構成されるが、ユーザ端末10Aに代えてユーザ端末10Cを含む点が異なる。ユーザ端末10Cは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、映像認識部11Aに代えて映像認識部11Cを含む点が異なる。
映像認識部11Cは、例示的実施形態2における映像認識部11Aとほぼ同様に構成されるが、映像フレームを参照することに加えて、オブジェクトのサイズに関する情報と、ユーザ端末10Cの位置及び向きとをさらに参照する点が異なる。映像認識部11Cは、オブジェクトの実際の大きさの情報と、ユーザ端末10Cの位置及び向きに関する情報を使うことで、映像フレーム上におけるオブジェクトのサイズを推定することができる。
以上のように構成された検出システム1Cが実行する検出方法は、図7を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
ステップS102において、映像認識部11Cは、映像フレームに加えて、オブジェクトのサイズに関する情報と、ユーザ端末10Cの位置及び向きを示す情報とを参照して、映像フレームに含まれ得るオブジェクトのサイズに整合する第1領域を検出する。
本例示的実施形態は、オブジェクト情報22Aに含まれるオブジェクトのサイズに関する情報を考慮することにより、映像認識部11Cの検出精度を向上させることができる。その結果、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。
本発明の第5の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
本例示的実施形態に係る検出システム1Dの構成について、図20を参照して説明する。図20は、検出システム1Dの構成を示すブロック図である。検出システム1Dは、ユーザ端末10Dと、サーバ20Dとを含む。ユーザ端末10Dは、例示的実施形態2に係るユーザ端末10Aとほぼ同様に構成されるが、ローカル位置推定部13A及び統合部14Aに代えて、ローカル位置推定部13D及び統合部14Dを含む点が異なる。また、サーバ20Dは、例示的実施形態2に係るサーバ20Aとほぼ同様に構成されるが、グローバル位置推定部21Aに代えて、グローバル位置推定部21Dを含む点が異なる。また、記憶部220Aが、オブジェクト情報22Aの代わりにオブジェクト情報22Dを記憶する点が異なる。また、記憶部220Aが、さらにキネマティクス情報23Dを記憶する点が異なる。
キネマティクス情報23Dは、オブジェクトの移動に関する特徴を示す情報である。キネマティクス情報23Dは、オブジェクトIDに関連付けて記憶される。キネマティクス情報23Dは、例えば、オブジェクトの平均移動速度、最大移動速度、又は、移動速度に関する確率分布を含む。
オブジェクトマップは、各オブジェクトについて、オブジェクト情報22Aの代わりにオブジェクト情報22Dを格納する。オブジェクト情報22Dは、図6を参照して説明した項目に加えて、さらに、検出時刻を含む。検出時刻は、当該オブジェクトを直近に検出した時刻を示す。
グローバル位置推定部21Dは、例示的実施形態2におけるグローバル位置推定部21Aとほぼ同様に構成されるが、オブジェクトマップに蓄積するオブジェクト情報22Dに、さらに検出時刻を含める点が異なる。例えば、グローバル位置推定部21Dは、オブジェクト情報22Dに含める検出時刻として、統合部14Dから検出結果を受信した時刻を用いてもよいし、オブジェクト情報22Dを追加又は更新する時刻を用いてもよいが、これらに限られない。
ローカル位置推定部13Dは、例示的実施形態2に係るローカル位置推定部13Aとほぼ同様に構成されるが、蓄積されたオブジェクト情報22Dと、ユーザ端末10Dの位置及び向きとを参照することに加えて、キネマティクス情報23Dを参照する点が異なる。
統合部14Dは、例示的実施形態2に係る統合部14Aとほぼ同様に構成されるが、IoUの代わりに、判定パラメータを用いる点が異なる。判定パラメータは、第1領域内での第2領域の確率分布の積算値により求められる。この場合、統合部14Dは、判定パラメータが閾値以上である場合に、IoUが閾値α2以上である場合と同様に動作する。
以上のように構成された検出システム1Dが実行する検出方法は、図7~図8を参照して説明した例示的実施形態2における検出方法S1Aとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法S1Aにおいて説明した通りである。
ステップS103において、ローカル位置推定部13Dは、オブジェクト情報22Dに加えて、キネマティクス情報23Dをサーバ20Aに要求する。その他の点については、例示的実施形態2について説明したステップS103と同様である。
ステップS104において、ローカル位置推定部13Dは、オブジェクト情報22D及びキネマティクス情報23Dが取得できたか否かを判断する。ローカル位置推定部13Dは、両方取得できた場合には、「はい」と判断し、何れか1つを取得できない場合には、「いいえ」と判断する。その他の点については、例示的実施形態2について説明したステップS104と同様である。
ステップS106において、ローカル位置推定部13Dは、蓄積されたオブジェクト情報22Dと、ユーザ端末10Dの位置及び向きとを参照することに加えて、キネマティクス情報23Dを参照することにより、現在のオブジェクトが含まれる第2領域を算出する。ここでは、キネマティクス情報23Dが移動速度に関する確率分布を含むものとし、第2領域の確率分布が算出される。その他の点については、例示的実施形態2について説明したステップS106と同様である。
ステップS109において、統合部14Dは、第1領域と、第2領域の確率分布とから、判定パラメータを算出する。その他の点については、例示的実施形態2について説明したステップS109と同様である。
ステップS110において、統合部14Dは、判定パラメータが閾値以上であるか否かを判断する。
ステップS208において、グローバル位置推定部21Dは、オブジェクト情報22Dに、検出時刻を含めてオブジェクトマップに追加又は更新する。その他の点については、例示的実施形態2について説明したステップS208と同様である。
本例示的実施形態は、オブジェクトのキネマティクス情報を利用することにより、映像認識部11Aが検出した第1領域が、過去に検出した位置からの移動先として可能性が高い場合に、当該第1領域を検出結果として採用し、低い場合には採用しない。したがって、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。
検出システム1、ユーザ端末10A、10B、10C、10D、サーバ20A、及びサーバ20Dの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
第1センサの検出値を参照してオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備えた検出システム。
前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
前記第2検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、付記1に記載の検出システム。
前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第2検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、付記1又は2に記載の検出システム。
前記第2検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、付記3に記載の検出システム。
前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合する、付記1から4の何れかに記載の検出システム。
前記統合手段は、前記第1検出手段が検出した前記オブジェクトの位置と、前記第2検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第2検出手段が算出した確度を参照するか否かを決定する、付記5に記載の検出システム。
前記第1検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、付記1から6の何れか1項に記載の検出システム。
前記第2検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、付記1から7の何れかに記載の検出システム。
前記第1検出手段は、前記確度として、検出した前記オブジェクトの認識に関する確度である認識コンフィデンスC1を算出し、
前記第2検出手段は、前記確度として、検出した前記オブジェクトの位置に関する確度である位置コンフィデンスD3と、前記過去の検出結果の認識に関する確度である認識コンフィデンスC6と、を算出し、
前記統合手段は、前記認識コンフィデンスC1、前記位置コンフィデンスD3、及び前記認識コンフィデンスC6に基づいて、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合する、付記5に記載の検出システム。
前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第2検出手段は、
前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出し、
前記ユーザ端末の位置及び向きに関する確度である位置コンフィデンスD2と、前記過去の検出結果の位置に関する確度である位置コンフィデンスD6と、を参照して前記位置コンフィデンスD3を算出し、
前記位置コンフィデンスD2、及び前記位置コンフィデンスD6の少なくとも一方が大きいほど、より大きい前記位置コンフィデンスD3を算出する、付記9に記載の検出システム。
前記統合手段は、
当該統合手段による検出結果の認識に関する確度として、前記認識コンフィデンスC1及び前記認識コンフィデンスC6を参照して認識コンフィデンスC4を算出し、前記認識コンフィデンスC1及び前記認識コンフィデンスC6の少なくとも一方が大きいほど、より大きい認識コンフィデンスC4を算出する、付記9又は付記10に記載の検出システム。
前記蓄積手段は、前記統合手段による検出結果を参照して、前記オブジェクトの前記現実空間における位置を推定し、推定した位置を前記オブジェクト情報に含めて蓄積する、付記2に記載の検出システム。
前記蓄積手段は、前記統合手段による検出結果の確度である認識コンフィデンスC4を参照して、前記オブジェクト情報を更新するか否かを決定する、付記2又は付記12に記載の検出システム。
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記検出結果に基づき推定された前記オブジェクトの前記現実空間における位置の確度である位置コンフィデンスD5をさらに参照する、付記13に記載の検出システム。
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記認識コンフィデンスC4及び前記位置コンフィデンスD5を参照して算出したコンフィデンススコアが、前記オブジェクト情報を参照して算出した過去の前記コンフィデンススコアより大きい場合に、前記オブジェクト情報を更新することを決定し、
前記認識コンフィデンスC4及び前記位置コンフィデンスD5の少なくとも一方が大きくなった場合に、前記コンフィデンススコアが小さくならないように前記コンフィデンススコアを算出する、付記14に記載の検出システム。
第1センサの検出値を参照して現実空間に存在するオブジェクトを検出すること、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出すること、及び、
前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出すること、を含む検出方法。
コンピュータを検出システムとして機能させるプログラムであって、
前記コンピュータを、
第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させるプログラム。
少なくとも1つのプロセッサを備え、前記プロセッサは、第1センサの検出値を参照してオブジェクトを検出する第1検出処理と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出処理と、前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合処理と、を実行する検出システム。
10、10A、10B、10C、10D ユーザ端末
170B 三次元センサ
11 第1検出部
12 第2検出部
11A、11B、11C 映像認識部
12A 自己位置推定部
13A、13B、13D ローカル位置推定部
14、14A、14B、14D 統合部
20、20A、20D サーバ
21A、21D グローバル位置推定部
22A、22D オブジェクト情報
23D キネマティクス情報
110A、210A 制御部
130A カメラ
140A IMU
150A ディスプレイ
160A、260A 通信部
220A 記憶部
Claims (9)
- 第1センサの検出値を参照してオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備え、
前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合する、
検出システム。 - 前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
前記第2検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、請求項1に記載の検出システム。 - 前記第1検出手段は、ユーザ端末に搭載されたカメラを前記第1センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第2検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第2センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、請求項1又は2に記載の検出システム。 - 前記第2検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、請求項3に記載の検出システム。
- 前記統合手段は、前記第1検出手段が検出した前記オブジェクトの位置と、前記第2検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第2検出手段が算出した確度を参照するか否かを決定する、請求項1から4のいずれか1項に記載の検出システム。
- 前記第1検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、請求項1から5の何れか1項に記載の検出システム。
- 前記第2検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、請求項1から6の何れか1項に記載の検出システム。
- 第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出工程と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出工程と、
前記第1センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合工程と、を含み、
前記第1検出工程及び前記第2検出工程において、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合工程において、前記第1検出工程における検出結果及び前記第2検出工程における検出結果を、それぞれの前記確度を参照して統合する、
検出方法。 - コンピュータを検出システムとして機能させるプログラムであって、
前記コンピュータを、
第1センサの検出値を参照して現実空間に存在するオブジェクトを検出する第1検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第2検出手段と、
前記第1検出手段による検出結果及び前記第2検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させ、
前記第1検出手段及び前記第2検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第1検出手段による検出結果及び前記第2検出手段による検出結果を、それぞれの前記確度を参照して統合する、
プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021003113 | 2021-01-12 | ||
JP2021003113 | 2021-01-12 | ||
PCT/JP2022/000153 WO2022153910A1 (ja) | 2021-01-12 | 2022-01-06 | 検出システム、検出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022153910A1 JPWO2022153910A1 (ja) | 2022-07-21 |
JP7444292B2 true JP7444292B2 (ja) | 2024-03-06 |
Family
ID=82447328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022575550A Active JP7444292B2 (ja) | 2021-01-12 | 2022-01-06 | 検出システム、検出方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240062541A1 (ja) |
JP (1) | JP7444292B2 (ja) |
WO (1) | WO2022153910A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044130A (ja) | 2009-07-21 | 2011-03-03 | Ttes Inc | 画像処理システム及び画像処理方法 |
JP2016170060A (ja) | 2015-03-13 | 2016-09-23 | 三菱電機株式会社 | 設備情報表示システム、モバイル端末、サーバおよび設備情報表示方法 |
JP2019045997A (ja) | 2017-08-30 | 2019-03-22 | キヤノン株式会社 | 情報処理装置及びその方法、プログラム |
JP2020077363A (ja) | 2018-09-26 | 2020-05-21 | アップル インコーポレイテッドApple Inc. | モバイルデバイスの位置特定 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3450704B2 (ja) * | 1997-09-01 | 2003-09-29 | キヤノン株式会社 | 位置姿勢検出装置及び情報処理方法 |
-
2022
- 2022-01-06 JP JP2022575550A patent/JP7444292B2/ja active Active
- 2022-01-06 WO PCT/JP2022/000153 patent/WO2022153910A1/ja active Application Filing
- 2022-01-06 US US18/270,742 patent/US20240062541A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044130A (ja) | 2009-07-21 | 2011-03-03 | Ttes Inc | 画像処理システム及び画像処理方法 |
JP2016170060A (ja) | 2015-03-13 | 2016-09-23 | 三菱電機株式会社 | 設備情報表示システム、モバイル端末、サーバおよび設備情報表示方法 |
JP2019045997A (ja) | 2017-08-30 | 2019-03-22 | キヤノン株式会社 | 情報処理装置及びその方法、プログラム |
JP2020077363A (ja) | 2018-09-26 | 2020-05-21 | アップル インコーポレイテッドApple Inc. | モバイルデバイスの位置特定 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022153910A1 (ja) | 2022-07-21 |
WO2022153910A1 (ja) | 2022-07-21 |
US20240062541A1 (en) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110568447B (zh) | 视觉定位的方法、装置及计算机可读介质 | |
WO2019219077A1 (zh) | 定位方法、定位装置、定位***、存储介质及离线地图数据库的构建方法 | |
US11567496B2 (en) | Method and apparatus for optimizing scan data and method and apparatus for correcting trajectory | |
JP7236565B2 (ja) | 位置姿勢決定方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2019133658A (ja) | 測位方法、測位装置及び読取り可能な記憶媒体 | |
CN113874870A (zh) | 基于图像的定位 | |
JP2019087229A (ja) | 情報処理装置、情報処理装置の制御方法及びプログラム | |
KR102200299B1 (ko) | 3d-vr 멀티센서 시스템 기반의 도로 시설물 관리 솔루션을 구현하는 시스템 및 그 방법 | |
JP2011186808A (ja) | 情報処理装置、マップ更新方法、プログラム及び情報処理システム | |
CN112556685B (zh) | 导航路线的显示方法、装置和存储介质及电子设备 | |
CN108537214B (zh) | 一种室内语义地图的自动化构建方法 | |
JP2012185540A (ja) | 画像処理装置、画像処理方法、及び画像処理プログラム | |
KR102167835B1 (ko) | 영상 처리 방법 및 장치 | |
KR102490520B1 (ko) | Gps정보 및 라이다 신호를 기초로 형성되는 컬러 맵 생성 장치 및 그 제어방법 | |
KR20120078339A (ko) | 이동 로봇의 이미지 기반 동시적 위치 인식 및 지도 작성 방법 | |
KR102383567B1 (ko) | 시각 정보 처리 기반의 위치 인식 방법 및 시스템 | |
JP6922348B2 (ja) | 情報処理装置、方法、及びプログラム | |
CN113610702B (zh) | 一种建图方法、装置、电子设备及存储介质 | |
KR20230049969A (ko) | 글로벌 측위 장치 및 방법 | |
JP2020052977A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JPWO2019215778A1 (ja) | データ提供システムおよびデータ収集システム | |
JP7444292B2 (ja) | 検出システム、検出方法、及びプログラム | |
US11557059B2 (en) | System and method for determining position of multi-dimensional object from satellite images | |
CN110827340B (zh) | 地图的更新方法、装置及存储介质 | |
JP2015005220A (ja) | 情報表示装置及び情報表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7444292 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |