JP7444292B2

JP7444292B2 - 検出システム、検出方法、及びプログラム

Info

Publication number: JP7444292B2
Application number: JP2022575550A
Authority: JP
Inventors: 雅也藤若; 英之下西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-01-12
Filing date: 2022-01-06
Publication date: 2024-03-06
Anticipated expiration: 2042-01-06
Also published as: JPWO2022153910A1; WO2022153910A1; US20240062541A1

Description

本発明は、現実空間に存在するオブジェクトを検出する技術に関する。

現実空間に存在するオブジェクトを検出する技術が知られている。このような技術は、例えば、ＡＲ（Augmented Reality）において用いられる。ＡＲは、現実空間に存在するオブジェクトを検出し、検出したオブジェクトが存在する場所に仮想オブジェクトを配置する。また、ＡＲは、ユーザ端末のカメラが現実空間を撮影した撮影画像に仮想オブジェクトを重畳して、当該ユーザ端末のディスプレイに表示する。

現実空間に存在するオブジェクトを検出する技術としては、撮影画像において、事前に登録したオブジェクトの特徴点にマッチングする領域を検出する映像認識技術がよく知られている。

また、現実空間に存在するオブジェクトを検出する他の技術が、非特許文献１に記載されている。非特許文献１に記載された技術は、センサを用いて特定した端末の位置及び向きと、事前に登録した対象空間におけるオブジェクトの位置情報とに基づいて、対象空間に存在するオブジェクトを検出する。

Chen, Kaifei, et al. "Marvel: Enabling mobile augmented reality with low energy and low latency." Proceedings of the 16th ACM Conference on Embedded Networked Sensor Systems. 2018.

上述した映像認識技術及び非特許文献１に記載された技術には、オブジェクトの検出精度に改善の余地がある。その理由について説明する。上述した映像認識技術をＡＲで用いる場合、カメラが現実空間を撮影してから、仮想オブジェクトを重畳した撮影画像が表示されるまでの処理時間は短いことが要求される。しかしながら、高速にオブジェクトを検出するには、高精度な映像認識技術を利用できない可能性があるため、オブジェクトを精度よく認識できない場合がある。また、非特許文献１に記載された技術は、事前に登録したオブジェクトの位置情報を用いるため、移動するオブジェクトを精度よく認識することが難しい。

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、現実空間に存在するオブジェクトの検出精度を向上させる技術を提供することである。

本発明の一態様に係る検出システムは、第１センサの検出値を参照してオブジェクトを検出する第１検出手段と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備える。

本発明の一態様に係る検出方法は、第１センサの検出値を参照して現実空間に存在するオブジェクトを検出すること、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出すること、及び、前記第１センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出すること、を含む。

本発明の一態様に係るプログラムは、コンピュータを検出システムとして機能させるプログラムであって、前記コンピュータを、第１センサの検出値を参照して現実空間に存在するオブジェクトを検出する第１検出手段と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させる。

本発明の一態様によれば、現実空間に存在するオブジェクトの検出精度を向上させる技術を提供することができる。

本発明の例示的実施形態１に係る検出システムの構成を示すブロック図である。本発明の例示的実施形態１に係る検出方法の流れを示すフロー図である。本発明の例示的実施形態２に係る検出システムの構成を示すブロック図である。本発明の例示的実施形態２に係るユーザ端末の外観の一例を示す模式図である。本発明の例示的実施形態２に係るオブジェクト情報のデータ構造の一例を示す図である。本発明の例示的実施形態２が含む各機能ブロック間の入出力を模式的に示す図である。本発明の例示的実施形態２に係るユーザ端末が実行する検出方法の流れを示すフロー図である。本発明の例示的実施形態２に係るサーバが実行する検出方法の流れを示すフロー図である。本発明の例示的実施形態２に係る具体例１における現実空間を模式的に示す図である。本発明の例示的実施形態２に係る具体例１における新たなオブジェクト情報の一例を示す図である。本発明の例示的実施形態２に係る具体例２における現実空間を模式的に示す図である。本発明の例示的実施形態２に係る具体例２における第１領域を説明する模式図である。本発明の例示的実施形態２に係る具体例２における第２領域を説明する模式図である。本発明の例示的実施形態２に係る具体例２における座標変換処理を説明する模式図である。本発明の例示的実施形態２に係る具体例２における座標変換処理を説明する他の模式図である。本発明の例示的実施形態２に係る具体例２におけるＩｏＵを説明するための模式図である。本発明の例示的実施形態２に係る具体例３における更新されたオブジェクト情報の一例を説明する図である。本発明の例示的実施形態３に係る検出システムの構成を示すブロック図である。本発明の例示的実施形態４に係る検出システムの構成を示すブロック図である。本発明の例示的実施形態５に係る検出システムの構成を示すブロック図である。本発明の各例示的実施形態における検出システムのハードウェア構成の一例を示すブロック図である。

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

＜検出システムの構成＞
本例示的実施形態に係る検出システム１の構成について、図１を参照して説明する。図１は、検出システム１の構成を示すブロック図である。

図１に示すように、検出システム１は、第１検出部１１と、第２検出部１２と、統合部１４とを含む。ここで、第１検出部１１は、請求の範囲に記載した第１検出手段を実現する構成の一例である。また、第２検出部１２は、請求の範囲に記載した第２検出手段を実現する構成の一例である。また、統合部１４は、請求の範囲に記載した統合手段を実現する構成の一例である。

第１検出部１１は、第１センサの検出値を参照してオブジェクトを検出する。第１センサは、現実空間に存在するオブジェクトを検出するためのセンサである。第１センサの一例としては、例えば、カメラ、又はレーザースキャナ等があるが、これらに限られない。第１検出部１１は、第１センサの検出値を取得可能に第１センサに接続される。第１検出部１１及び第１センサ間は、有線接続されてもよいし、無線接続されてもよい。

なお、「オブジェクトを検出する」とは、少なくともオブジェクトの位置を検出することを含む。検出する位置は、オブジェクトが存在する三次元空間における三次元的な位置であってもよいし、当該三次元空間が投影された二次元平面における二次元的な位置であってもよい。なお、「オブジェクトの位置」とは、「オブジェクトが含まれる三次元的または二次元的な領域」によって表されてもよい。そのほか、「オブジェクトを検出する」とは、オブジェクトの識別情報、種類、色、形状等といったオブジェクトの属性又は特徴を検出することをさらに含んでいてもよい。

第２検出部１２は、オブジェクトの過去の検出結果を参照してオブジェクトを検出する。オブジェクトの過去の検出結果とは、検出システム１が過去にオブジェクトを検出した結果であり、例えば、後述する統合部１４による検出結果である。過去の検出結果を示す情報は、記憶装置に蓄積されている。第２検出部１２は、過去の検出結果を示す情報を取得可能に記憶装置に接続される。

統合部１４は、第１検出部１１による検出結果及び第２検出部１２による検出結果を統合してオブジェクトを検出する。例えば、第１検出部１１及び第２検出部１２がそれぞれ検出結果の確度を出力する場合、統合部１４は、これらの確度に基づいて第１検出部１１による検出結果、及び第２検出部１２による検出結果を統合する。

ここで、２つの検出結果を統合する、とは、各検出結果を参照して検出結果を決定することである。例えば、２つの検出結果を統合する、とは、各検出結果に基づいて何れの検出結果を採用するかを決定することであってもよい。また、２つの検出結果を統合するとは、一方の検出結果を採用するか否かを、他方の検出結果に基づき決定することであってもよい。また、２つの検出結果を統合するとは、各検出結果の確度を参照して、新たな確度を算出することを含んでいてもよい。

＜検出方法の流れ＞
以上のように構成された検出システム１が実行する検出方法Ｓ１の流れについて、図２を参照して説明する。図２は、検出方法Ｓ１の流れを示すフロー図である。

（ステップＳ１１）
ステップＳ１１において、第１検出部１１は、第１センサの検出値を参照してオブジェクトを検出する。

（ステップＳ１２）
ステップＳ１２において、第２検出部１２は、オブジェクトの過去の検出結果を参照してオブジェクトを検出する。

（ステップＳ１３）
ステップＳ１３において、統合部１４は、第１検出部１１による検出結果及び第２検出部１２による検出結果を統合してオブジェクトを検出する。

＜本例示的実施形態の効果＞
本例示的実施形態は、第１センサの検出値を参照することによるオブジェクトの検出結果と、過去の検出結果を参照することによるオブジェクトの検出結果とを統合してオブジェクトを検出する。これにより、第１検出部１１又は第２検出部１２のみを用いる場合と比べて、より精度よくオブジェクトを検出することができる。

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

＜検出システムの構成＞
本例示的実施形態に係る検出システム１Ａの構成について、図３を参照して説明する。図３は、検出システム１Ａの構成を示すブロック図である。

図３に示すように、検出システム１Ａは、ユーザ端末１０Ａと、サーバ２０Ａとを含む。ユーザ端末１０Ａ及びサーバ２０Ａは、ネットワークＮ１を介して接続されている。ネットワークＮ１は、例えば、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。ただし、ネットワークＮ１の構成はこれらに限定されない。また、図３には、ユーザ端末１０Ａ及びサーバ２０Ａを１つずつ示しているが、検出システム１Ａが含む各装置の数を限定するものではない。

（ユーザ端末の構成）
ユーザ端末１０Ａの構成について、図３及び図４を参照して説明する。図４は、ユーザ端末１０Ａの外観の一例を示す模式図である。図３及び図４に示すように、ユーザ端末１０Ａは、制御部１１０Ａと、カメラ１３０Ａと、ＩＭＵ（Inertial Measurement Unit）１４０Ａと、ディスプレイ１５０Ａと、通信部１６０Ａとを含む。制御部１１０Ａは、映像認識部１１Ａと、自己位置推定部１２Ａと、ローカル位置推定部１３Ａと、統合部１４Ａとを含む。ユーザ端末１０Ａは、例えば、図４に外観を示すようなタブレット端末またはスマートフォンであるが、これらに限られない。

ここで、カメラ１３０Ａは、請求の範囲に記載した第１センサの一例である。ＩＭＵ１４０Ａは、請求の範囲に記載した第２センサの一例である。映像認識部１１Ａは、請求の範囲に記載した第１検出手段を実現する構成の一例である。自己位置推定部１２Ａ及びローカル位置推定部１３Ａは、請求の範囲に記載した第２検出手段を実現する構成の一例である。統合部１４Ａは、請求の範囲に記載した統合手段を実現する構成の一例である。

（カメラ）
カメラ１３０Ａは、周囲を撮影して撮影画像を生成する。カメラ１３０Ａは、例えば、集光レンズからの入射光を撮像素子により電気信号に変換し、電気信号をＡ／Ｄ変換して画像処理することによって撮影画像を生成する。撮像素子は、例えば、ＣＣＤ（Charge Coupled Devices）、又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）等であるが、これらに限られない。カメラ１３０Ａは、撮影画像を制御部１１０Ａに出力する。カメラ１３０Ａは、所定のフレームレートで撮影画像を生成する。以降、撮影画像を、映像フレームとも記載する。

（ＩＭＵ）
ＩＭＵ１４０Ａは、互いに直交する３軸方向の角速度及び加速度を検出する装置である。ＩＭＵ１４０Ａは、ジャイロセンサ及び加速度センサを含み、ジャイロセンサにより角速度を検出し、加速度センサにより加速度を検出する。ＩＭＵ１４０Ａは、検出値を制御部１１０Ａに出力する。

（ディスプレイ）
ディスプレイ１５０Ａは、制御部１１０Ａから出力される画像を表示する。ディスプレイ１５０Ａは、例えば、液晶ディスプレイ、プラズマディスプレイ、無機ＥＬ（Electro luminescence）ディスプレイ、又は有機ＥＬディスプレイであるが、これらに限られない。また、ディスプレイ１５０Ａは、タッチパネルと一体に形成されていてもよい。

（通信部）
通信部１６０Ａは、制御部１１０Ａの制御の基に、サーバ２０Ａと通信を行う。以降、制御部１１０Ａが通信部１６０Ａを制御してデータを送受信することを、単に、制御部１１０Ａがデータを送受信する、とも記載する。

制御部１１０Ａの詳細な構成については後述する。

（サーバ２０Ａの構成）
図３に示すように、サーバ２０Ａは、制御部２１０Ａと、記憶部２２０Ａと、通信部２６０Ａとを含む。制御部２１０Ａは、グローバル位置推定部２１Ａを含む。記憶部２２０Ａは、オブジェクト情報２２Ａを記憶する。オブジェクト情報２２Ａは、オブジェクトの過去の検出結果を示す情報であり、過去に検出した各オブジェクトについてデータベースに記憶される。以降、各オブジェクトのオブジェクト情報２２Ａを格納したデータベースを、オブジェクトマップとも記載する。オブジェクトマップの詳細については後述する。グローバル位置推定部２１Ａは、請求の範囲に記載した蓄積手段を実現する構成の一例である。通信部２６０Ａは、制御部２１０Ａの制御の基に、ユーザ端末１０Ａと通信を行う。以降、制御部２１０Ａが通信部２６０Ａを制御してデータを送受信することを、単に、制御部２１０Ａがデータを送受信する、とも記載する。

（オブジェクトマップ）
オブジェクトマップは、１以上の各オブジェクトについてオブジェクト情報２２Ａを格納したデータベースである。オブジェクト情報２２Ａは、当該オブジェクトについての過去の検出結果を示す情報である。オブジェクト情報２２Ａは、当該オブジェクトが検出されるとオブジェクトマップに蓄積される。以降、オブジェクトマップに格納されたオブジェクト情報２２Ａを、「蓄積されたオブジェクト情報２２Ａ」とも記載する。

オブジェクト情報２２Ａのデータ構造について、図５を参照して説明する。図５は、オブジェクト情報２２Ａのデータ構造を示す図である。図５に示すように、オブジェクト情報２２Ａは、オブジェクトＩＤと、座標（ｘ，ｙ，ｚ）と、サイズと、位置コンフィデンスＤ６と、認識コンフィデンスＣ６とを含む。

オブジェクトＩＤは、オブジェクトを一意に識別する識別情報である。座標（ｘ，ｙ，ｚ）は、オブジェクトのグローバル位置を示すグローバル座標であり、例えば、オブジェクトの中心座標である。サイズは、オブジェクトの大きさを示す情報である。ここでは、簡略化のために、オブジェクトの形状が立方体で定義されるものとして説明する。この場合、サイズは、立方体の一辺の長さで表される。本例示的実施形態では、オブジェクトのサイズは、オブジェクトＩＤに応じて事前に与えられている。なお、オブジェクトのサイズは、立方体の一辺の長さに限定されない。また、オブジェクトのサイズは、事前に与えられることに限定されない。例えば、グローバル位置推定部２１Ａが、オブジェクトのサイズを検出してオブジェクト情報２２Ａに含めてもよい。認識コンフィデンスＣ６は、当該オブジェクト情報２２Ａが示す過去の検出結果の認識に関する確度である。位置コンフィデンスＤ６は、当該オブジェクト情報２２Ａが示す過去の検出結果の位置に関する確度である。

（制御部の詳細な構成）
次に、ユーザ端末１０Ａの制御部１１０Ａ、及びサーバ２０Ａの制御部２１０Ａが含む各部の詳細な構成について、図６を参照して説明する。図６は、検出システム１Ａが含む各機能ブロック間の入出力を模式的に示す図である。

（認識コンフィデンス及び位置コンフィデンス）
図６に示すように、各機能ブロックの入出力には、認識コンフィデンス及び位置コンフィデンスが含まれる。認識コンフィデンスは、オブジェクトの認識に関する確度である。位置コンフィデンスは、検出したオブジェクトの位置に関する確度、又は、検出したユーザ端末１０Ａの位置及び向きに関する確度である。これらの確度は、０以上１以下の値をとる。

（映像認識部）
映像認識部１１Ａは、カメラ１３０Ａが撮影した映像フレームを参照して、オブジェクトを検出する。具体的には、映像認識部１１Ａは、カメラ１３０Ａから取得した映像フレームにおいてオブジェクトの領域を特定することにより、オブジェクトを検出する。映像認識部１１Ａが特定するオブジェクトの領域を、以降、第１領域と記載する。第１領域は、映像フレームにおけるオブジェクトの二次元的な位置を表す。映像認識部１１Ａは、映像フレームを入力として、第１領域を示す情報と、認識コンフィデンスＣ１とを出力する。第１領域は、例えば、バウンディングボックス、又はセグメント情報によって表されるが、これらに限られない。なお、セグメント情報とは、映像フレームを分割した複数のセグメントのうち第１領域を構成する１以上のセグメントを示す情報である。

認識コンフィデンスＣ１は、映像認識部１１Ａによる検出結果の認識に関する確度である。例えば、認識コンフィデンスＣ１としては、映像認識部１１Ａが用いる映像認識技術が出力する確度が用いられる。

具体的には、映像認識部１１Ａは、映像フレームから第１領域を検出するよう学習された検出モデルを用いて、オブジェクトの検出を行う。一例として、検出モデルは、映像フレームを入力として、検出したオブジェクトのオブジェクトＩＤと、第１領域を示す情報と、認識コンフィデンスＣ１とを出力する。このような検出モデルは、認識対象となるオブジェクトを撮影した映像フレームと、正解となる第１領域とを関連付けたデータを教師データとして用いることにより生成可能である。例えば、教師データは、ユーザがカメラ１３０Ａを用いてオブジェクトを撮影し、撮影した映像フレームにおいてオブジェクトを含む第１領域を正解として入力することにより生成される。検出モデルの生成に用いる機械学習アルゴリズムとしては、ＹＯＬＯ（You Only Look Once）等のディープラーニングが挙げられるが、これに限られない。

また、映像認識部１１Ａは、検出モデルを用いる代わりに、特徴点のマッチング処理を用いて第１領域を検出してもよい。特徴点のマッチング処理とは、事前に登録しておいたオブジェクトの画像の特徴点と、映像フレームから抽出した特徴点とのマッチングを行う処理である。特徴点を抽出する技術としては、例えば、ＳＩＦＴ（Scale-Invariant Feature Transform）、ＳＵＲＦ（Speed-Up Robust Features）等が挙げられるが、これらに限られない。

なお、映像認識部１１Ａは、検出モデルを用いる手法、又は特徴点のマッチング処理による手法に限らず、映像フレームからオブジェクトを検出するその他の公知の技術を用いて第１領域を検出可能である。ただし、本例示的実施形態をＡＲの用途で用いる場合、映像フレームを取得してから認識したオブジェクトに基づく仮想情報を重畳表示するまでの処理遅延を小さくすることが求められる。したがって、この場合、映像認識部１１Ａが採用する映像認識技術は、軽量に動作する技術であることが望ましい。

また、本例示的実施形態では、検出モデルは、事前に学習済みであるものとする。ただし、検出モデルの生成は、逐次的に行われてもよい。例えば、映像認識部１１Ａは、検出システム１Ａがオブジェクトを検出できなかったと判断した際の映像フレームを用いて、検出モデルを追加学習させてもよい。例えば、映像認識部１１Ａは、当該映像フレームにおいて正解となる第１領域を、ユーザ入力等により特定する。また、映像認識部１１Ａは、当該映像フレームと、正解となる第１領域とを関連付けた教師データを用いて、検出モデルを追加学習させる。

また、本例示的実施形態では、映像認識部１１Ａが検出モデルを含む（すなわち、ユーザ端末１０Ａが検出モデルを格納する）ものとして説明しているが、検出モデルは、サーバ２０Ａに格納されていてもよい。また、検出モデルは、ユーザ端末１０Ａによって生成されるものに限らず、サーバ２０又は検出システム１Ａの外部の装置によって生成されたものであってもよい。

（自己位置推定部）
自己位置推定部１２Ａは、ＩＭＵ１４０Ａから取得したセンサデータ及びカメラ１３０Ａから取得した映像フレームを参照して、現実空間におけるユーザ端末１０Ａの位置及び向きを推定する。具体的には、自己位置推定部１２Ａは、ユーザ端末１０Ａの位置及び向きを示す情報と、推定結果の確度を示す位置コンフィデンスＤ２とを出力する。センサデータ及び映像フレームを参照して位置及び向きを推定する技術には、公知の推定技術を採用可能である。なお、採用した推定技術が、位置及び向きの確率分布又は共分散を出力する場合、自己位置推定部１２Ａは、確率分布又は共分散から位置コンフィデンスＤ２を算出してもよい。

（ローカル位置推定部）
ローカル位置推定部１３Ａは、サーバ２０Ａに蓄積されたオブジェクト情報２２Ａと、自己位置推定部１２Ａが推定したユーザ端末１０Ａの位置及び向きとを参照して、ユーザ端末１０Ａから見たオブジェクトの相対的な位置を推定する。以降、オブジェクトの相対的な位置を、ローカル位置とも記載する。また、ローカル位置推定部１３Ａは、オブジェクトのローカル位置に基づいて、オブジェクトを含む第２領域を算出する。また、ローカル位置推定部１３Ａは、第２領域を示す情報と、位置コンフィデンスＤ３と、認識コンフィデンスＣ６とを出力する。位置コンフィデンスＤ３は、第２領域の位置に関する確度である。認識コンフィデンスＣ６は、第２領域を算出するために参照したオブジェクト情報２２Ａに含まれる。

ここで、オブジェクトのローカル位置とは、視野画像におけるオブジェクトの位置である。また、第２領域は、視野画像における二次元的な領域として特定される。例えば、第２領域は、視野画像におけるバウンディングボックス又はセグメント情報によって表される。なお、視野画像とは、ユーザ端末１０Ａの位置から見た現実空間が投影された二次元画像である。換言すると、視野画像は、ユーザ端末１０Ａに搭載されたカメラ１３０Ａによって撮影され、ディスプレイ１５０Ａに画面（スクリーン）として表示され得る。そこで、以降、視野画像に設定される二次元座標系を、スクリーン座標系とも記載する。

また、ローカル位置推定部１３Ａは、位置コンフィデンスＤ３を、自己位置推定部１２Ａが出力した位置コンフィデンスＤ２と、位置コンフィデンスＤ６とに基づいて算出する。位置コンフィデンスＤ６は、第２領域を算出するために参照したオブジェクト情報２２Ａに含まれる。例えば、位置コンフィデンスＤ３は、次式（１）により計算される。

Ｄ３＝Ｄ２×Ｄ６…（１）
このように、位置コンフィデンスＤ２及び位置コンフィデンスＤ６を乗算することにより、ユーザ端末１０Ａの位置及び向きの推定に関する不確実さと、オブジェクトの過去の位置に関する不確実さとが加算的に加味される。換言すると、ローカル位置推定部１３Ａは、位置コンフィデンスＤ２、及び位置コンフィデンスＤ６の少なくとも一方が大きいほど、より大きい位置コンフィデンスＤ３を算出する。なお、位置コンフィデンスＤ３は、式（１）に限らず、不確実さが加算的又は増加する方向に加味される計算方式であれば、他の方式によって算出されてもよい。

（統合部）
統合部１４Ａは、映像認識部１１Ａによる検出結果と、ローカル位置推定部１３Ａによる検出結果とを統合してオブジェクトを検出する。具体的には、統合部１４Ａは、映像認識部１１Ａによる検出結果と、ローカル位置推定部１３Ａによる検出結果とを、認識コンフィデンスＣ１、位置コンフィデンスＤ３、及び認識コンフィデンスＣ６を参照して統合する。なお、統合部１４Ａは、オブジェクトＩＤが異なるオブジェクト毎に、統合した検出結果を管理する。統合処理の詳細については後述する。

また、統合部１４Ａは、統合した検出結果を示す情報を、ディスプレイ１５０Ａに表示してもよい。例えば、統合部１４Ａは、映像フレームに、統合した検出結果に基づく仮想情報を重畳し、重畳した画像をディスプレイ１５０Ａに表示する。

（統合処理の詳細）
統合部１４Ａは、映像認識部１１Ａ及びローカル位置推定部１３Ａがそれぞれ出力した認識コンフィデンスＣ１、Ｃ６を参照して認識コンフィデンスＣ４を算出する。また、統合部１４Ａは、算出した認識コンフィデンスＣ４が閾値以上の場合に、映像認識部１１Ａによる検出結果を採用して統合部１４Ａによる検出結果とする。また、統合部１４Ａは、算出した認識コンフィデンスＣ４が閾値未満の場合には、オブジェクトを検出できなかったとする検出結果を出力する。

（認識コンフィデンスＣ４の算出処理）
認識コンフィデンスＣ４の算出処理の詳細について説明する。まず、統合部１４Ａは、認識コンフィデンスＣ４を算出するために、ローカル位置推定部１３Ａが出力した認識コンフィデンスＣ６を参照するか否かを決定する。具体的には、統合部１４Ａは、（ｉ）ローカル位置推定部１３Ａが算出した位置コンフィデンスＤ３が閾値未満であるか否か、及び、（ｉｉ）映像認識部１１Ａが検出したオブジェクトの位置と、ローカル位置推定部１３Ａが検出したオブジェクトの位置との関係が条件を満たすか否かに基づいて、認識コンフィデンスＣ６を参照するか否かを決定する。

ここで、当該条件としては、例えば、第１領域及び第２領域の重なり度合であるＩｏＵが閾値以上である、との条件が適用される。例えば、統合部１４Ａは、ＩｏＵが閾値以上の場合に、認識コンフィデンスＣ６を参照することを決定する。ただし、当該条件は、上述したものに限られない。例えば、当該条件として、第１領域および第２領域の各中心点の距離が閾値以下である、との条件が適用されてもよい。

また、統合部１４Ａは、認識コンフィデンスＣ６を参照することを決定した場合、認識コンフィデンスＣ４を、次式（２）を満たすよう算出する。

Ｃ４≧ｍａｘ（Ｃ１，Ｃ６）…（２）
つまり、統合部１４Ａは、認識コンフィデンスＣ１及び認識コンフィデンスＣ６のうち大きい方以上の値を、認識コンフィデンスＣ４として算出する。換言すると、統合部１４Ａは、認識コンフィデンスＣ１及び認識コンフィデンスＣ６の少なくとも一方が大きいほど、より大きい認識コンフィデンスＣ４を算出する。これは、２つの異なるオブジェクト検出機構（すなわち、映像認識部１１Ａ及びローカル位置推定部１３Ａ）が類似する位置を出力した場合に認識コンフィデンスを増加させ、その認識の確度を高めることが望ましいからである。なお、認識コンフィデンスＣ４は、式（２）に限らず、その他の計算方式によって算出されてもよい。

また、統合部１４Ａは、映像認識部１１Ａが検出したオブジェクトの位置と、ローカル位置推定部１３Ａが検出したオブジェクトの位置との関係が条件を満たさない場合、過去に検出したオブジェクトが移動したものとみなす。この場合、統合部１４Ａは、過去の検出結果の認識に関する確度である認識コンフィデンスＣ６を参照しないことを決定する。これにより、移動するオブジェクトについては、過去の検出結果を参照せずに精度よく検出することができる。

（マルチモーダルな検出機構）
上述したように、換言すると、統合部１４Ａは、映像認識部１１Ａが算出した認識コンフィデンスＣ１が閾値より低い場合、当該認識コンフィデンスＣ１を無視する。また、統合部１４Ａは、ローカル位置推定部１３Ａが出力した位置コンフィデンスＤ３又は認識コンフィデンスＣ６が閾値より低い場合、当該位置コンフィデンスＤ３又は認識コンフィデンスＣ６を無視する。つまり、統合部１４Ａは、映像認識部１１Ａによる検出結果と、ローカル位置推定部１３Ａの検出結果とを統合してマルチモーダルな検出機構として動作する。また、統合部１４Ａは、それぞれの検出結果の確度に応じて、シングルモーダルな検出機構としても動作する。

（グローバル位置推定部）
グローバル位置推定部２１Ａは、統合部１４Ａによる検出結果に基づいて、オブジェクトの過去の検出結果を示すオブジェクト情報２２Ａを、オブジェクトマップに蓄積する。ここで、オブジェクト情報２２Ａを蓄積する、とは、オブジェクトマップにオブジェクト情報２２Ａを新たに登録すること、既存のオブジェクト情報２２Ａを更新すること、及び、既存のオブジェクト情報２２Ａを削除することを含む。

具体的には、グローバル位置推定部２１Ａは、統合部１４Ａによる検出結果を参照して、オブジェクトの現実空間における位置を推定し、推定した位置をオブジェクト情報２２Ａに含めてオブジェクトマップに蓄積する。現実空間の位置は、例えば、グローバル座標系で表される。以降、現実空間における位置を、グローバル位置とも記載する。例えば、グローバル位置推定部２１Ａは、統合部１４Ａによる検出結果と、自己位置推定部１２Ａが推定したユーザ端末１０Ａの位置及び向きとに基づいて、グローバル位置を推定する。また、グローバル位置推定部２１Ａは、グローバル位置を推定するために、さらにオブジェクト情報２２Ａに含まれるオブジェクトのサイズを参照してもよい。また、グローバル位置推定部２１Ａは、グローバル位置と共に、グローバル位置の確度である位置コンフィデンスＤ５を算出する。例えば、グローバル位置推定部２１Ａは、各種のセンサデータを用いてグローバル位置を推定する公知の推定技術を採用可能である。例えば、推定技術の具体例としては、ＳＬＡＭ（Simultaneous Localization and Mapping）が挙げられる。ＳＬＡＭは、端末の自己位置の推定及び周辺オブジェクトの地図構築を同時に行う技術である。グローバル位置推定部２１Ａは、ＳＬＡＭを用いることにより、統合部１４Ａによる検出結果から、オブジェクトのグローバル位置及び位置コンフィデンスＤ５を算出可能である。

また、グローバル位置推定部２１Ａは、算出した位置コンフィデンスＤ５と、統合部１４Ａから受信した認識コンフィデンスＣ４とを参照して、検出したオブジェクトに関するオブジェクト情報２２Ａをオブジェクトマップに蓄積するか否かを決定する。

具体的には、グローバル位置推定部２１Ａは、検出したオブジェクトと同一ＩＤのオブジェクト情報２２Ａがオブジェクトマップに蓄積されていない場合、認識コンフィデンスＣ４に基づいて、当該オブジェクト情報２２Ａを登録するか否かを決定する。グローバル位置推定部２１Ａは、認識コンフィデンスＣ４が閾値未満であれば、当該オブジェクト情報２２Ａを登録しない。また、グローバル位置推定部２１Ａは、認識コンフィデンスＣ４が閾値以上であれば、当該オブジェクト情報２２Ａを登録する。登録されるオブジェクト情報２２Ａは、オブジェクトＩＤと、グローバル位置と、認識コンフィデンスＣ６と、位置コンフィデンスＤ６とを含む。登録するオブジェクト情報２２Ａに含める認識コンフィデンスＣ６としては、統合部１４Ａから受信した認識コンフィデンスＣ４の値が適用される。また、登録するオブジェクト情報２２Ａに含める位置コンフィデンスＤ６としては、グローバル位置に関して算出した位置コンフィデンスＤ５の値が適用される。

また、グローバル位置推定部２１Ａは、検出したオブジェクトと同一ＩＤのオブジェクト情報２２Ａがオブジェクトマップに蓄積されている場合、コンフィデンススコアに基づいて、当該オブジェクト情報２２Ａを更新するか否かを決定する。コンフィデンススコアとは、認識コンフィデンスと位置コンフィデンスとに基づき算出される指標であり、認識コンフィデンスＣ４と位置コンフィデンスＤ５との少なくとも一方の増加に対して、増加するスコアである。例えば、認識コンフィデンス及び位置コンフィデンスの和又は積である。ただし、コンフィデンススコアの計算方式は、上述した計算方式に限定されない。

具体的には、グローバル位置推定部２１Ａは、認識コンフィデンスＣ４と位置コンフィデンスＤ５とに基づいてコンフィデンススコアＳｃｏｒｅ１を算出する。また、グローバル位置推定部２１Ａは、オブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６及び位置コンフィデンスＤ６に基づいてコンフィデンススコアＳｃｏｒｅ２を算出する。コンフィデンススコアＳｃｏｒｅ２は、請求の範囲に記載した「過去のコンフィデンススコア」の一例である。グローバル位置推定部２１Ａは、コンフィデンススコアＳｃｏｒｅ１が過去のコンフィデンススコアＳｃｏｒｅ２より大きい場合に、オブジェクト情報２２Ａを更新することを決定する。

＜検出方法の流れ＞
以上のように構成された検出システム１Ａは、検出方法Ｓ１Ａを実行する。検出方法Ｓ１Ａは、ユーザ端末１０Ａが実行する検出方法Ｓ１０Ａと、サーバ２０Ａが実行する検出方法Ｓ２０Ａとを含む。

（ユーザ端末が実行する検出方法の流れ）
まず、ユーザ端末１０Ａが実行する検出方法Ｓ１０Ａの流れについて、図７を参照して説明する。図７は、検出方法Ｓ１０Ａの流れを示すフロー図である。図７に示すように、検出方法Ｓ１０Ａは、ステップＳ１０１～Ｓ１１４を含む。

（ステップＳ１０１）
ステップＳ１０１において、映像認識部１１Ａは、カメラ１３０Ａから映像フレームを取得する。

（ステップＳ１０２）
ステップＳ１０２において、映像認識部１１Ａは、映像フレームからオブジェクトを検出する。例えば、映像認識部１１Ａは、取得した映像フレームを検出モデルに入力し、検出モデルから出力されるオブジェクトＩＤ、オブジェクトを含む第１領域Ａｒｅａ１、及び認識コンフィデンスＣ１を取得する。

（ステップＳ１０３）
ステップＳ１０３において、ローカル位置推定部１３Ａは、ステップＳ１０２で検出したオブジェクトに関するオブジェクト情報２２Ａを、サーバ２０Ａに要求する。

また、ローカル位置推定部１３Ａは、受信したオブジェクト情報２２Ａを参照して、グローバル座標系においてオブジェクトが過去に検出された領域を算出する。当該領域を、以降、「過去の領域」とも記載する。例えば、ローカル位置推定部１３Ａは、オブジェクトのグローバル位置である中心座標を中心とし、オブジェクトのサイズを一辺とする立方体の領域を、過去の領域として算出する。

なお、オブジェクト情報２２Ａを受信する当該ステップは、任意の時点で実行可能である。例えば、ローカル位置推定部１３Ａは、認識対象の各オブジェクトに関するオブジェクト情報２２Ａを、定期的にサーバ２０Ａに要求することにより受信してもよい。また、サーバ２０Ａが、オブジェクト情報２２Ａを更新したことに応答してユーザ端末１０Ａにオブジェクト情報２２Ａを送信してもよい。

（ステップＳ１０４）
ステップＳ１０４において、ローカル位置推定部１３Ａは、ステップＳ１０３でオブジェクト情報２２Ａを取得できたか否かを判断する。換言すると、ローカル位置推定部１３Ａは、オブジェクトマップに、該当するオブジェクト情報２２Ａが蓄積されているか否かを判断する。

（ステップＳ１０４で「はい」：ステップＳ１０５）
ステップＳ１０４で「はい」と判断した場合、ステップＳ１０５において、自己位置推定部１２Ａは、ステップＳ１０１で取得した映像フレーム及びＩＭＵ１４０Ａからのセンサデータを参照して、ユーザ端末１０Ａの位置及び向きを推定する。また、自己位置推定部１２Ａは、推定結果の確度である位置コンフィデンスＤ２を算出する。また、自己位置推定部１２Ａは、オブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６を取得する。

（ステップＳ１０６）
ステップＳ１０６において、ローカル位置推定部１３Ａは、オブジェクト情報２２Ａと、ユーザ端末１０Ａの位置及び向きの情報とを用いて、第２領域Ａｒｅａ２を求める。第２領域Ａｒｅａ２を示す情報は、スクリーン座標系で表される。

（ステップＳ１０７）
ステップＳ１０７において、ローカル位置推定部１３Ａは、オブジェクト情報２２Ａに含まれる位置コンフィデンスＤ６と、自己位置推定部１２Ａが算出した位置コンフィデンスＤ２とを参照して、位置コンフィデンスＤ３を算出する。また、ローカル位置推定部１３Ａは、オブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６を出力する。

（ステップ１０８）
ステップＳ１０８において、ローカル位置推定部１３Ａは、位置コンフィデンスＤ３が閾値α１以上であるか否かを判断する。閾値α１は、認識コンフィデンスＣ６を参照するか否かを判断するための閾値である。

（ステップＳ１０８で「はい」：ステップＳ１０９）
ステップＳ１０８で「はい」と判断した場合、ステップＳ１０９において、統合部１４Ａは、第１領域Ａｒｅａ１及び第２領域Ａｒｅａ２の重なり度合いであるＩｏＵを算出する。

（ステップＳ１１０）
ステップＳ１１０において、統合部１４Ａは、ＩｏＵが閾値α２以上であるか否かを判断する。閾値α２は、認識コンフィデンスＣ６を参照するか否かを判断するための閾値である。

（ステップＳ１１０で「はい」：ステップＳ１１１）
ステップＳ１１０で「はい」と判断した場合、ステップＳ１１１において、統合部１４Ａは、映像認識部１１Ａが算出した認識コンフィデンスＣ１と、ローカル位置推定部１３Ａが出力した認識コンフィデンスＣ６とを参照して、認識コンフィデンスＣ４を算出する。例えば、認識コンフィデンスＣ４は、前述した式（２）により算出される。

（ステップＳ１１３）
ステップＳ１１３において、統合部１４Ａは、認識コンフィデンスＣ４が閾値α３以上であるか否かを判断する。閾値α３は、映像認識部１１Ａによる検出結果を採用するか否かを判断するための閾値である。

（ステップＳ１１３で「はい」：ステップＳ１１４）
ステップＳ１１３で「はい」と判断した場合、ステップＳ１１４において、統合部１４Ａは、映像認識部１１Ａによる検出結果であるオブジェクトＩＤ及び第１領域Ａｒｅａ１を示す情報を、統合した検出結果として出力する。また、統合部１４Ａは、統合した検出結果の認識に関する確度として、認識コンフィデンスＣ４を出力する。また、統合部１４Ａは、自己位置推定部１２Ａが推定したユーザ端末１０Ａの位置及び向きを出力する。具体的には、統合部１４Ａは、検出結果、認識コンフィデンスＣ４、及びユーザ端末１０Ａの位置及び向きをサーバ２０Ａに送信する。

（ステップＳ１０４、ステップＳ１０８、ステップＳ１１０で「いいえ」：ステップＳ１１２）
ステップＳ１０４、ステップＳ１０８、又はステップＳ１１０で「いいえ」と判断した場合、ステップＳ１１２において、統合部１４Ａは、映像認識部１１Ａが算出した認識コンフィデンスＣ１を、認識コンフィデンスＣ４とする。その後、ユーザ端末１０Ａは、ステップＳ１１３～Ｓ１１４を実行する。これにより、映像認識部１１Ａによる認識の確度（認識コンフィデンスＣ１、すなわち、この場合は認識コンフィデンスＣ４）が閾値α３以上であれば、映像認識部１１Ａによる検出結果（オブジェクトＩＤ及び第１領域Ａｒｅａ１）が、統合した検出結果として出力される。

（ステップＳ１１３で「いいえ」）
ステップＳ１１３で「いいえ」と判断した場合、ユーザ端末１０Ａは、検出方法Ｓ１０Ａを終了する。例えば、この場合、検出システム１Ａは、オブジェクトを検出できなかったとの検出結果を出力してもよい。

（サーバが実行する検出方法の流れ）
次に、サーバ２０Ａが実行する検出方法Ｓ２０Ａの流れについて、図８を参照して説明する。図８は、検出方法Ｓ２０Ａの流れを示すフロー図である。図８に示すように、検出方法Ｓ２０Ａは、ステップＳ２０１～Ｓ２０８を含む。

（ステップＳ２０１）
ステップＳ２０１において、サーバ２０Ａのグローバル位置推定部２１Ａは、ユーザ端末１０Ａから、統合部１４Ａによる検出結果（オブジェクトＩＤ、第１領域Ａｒｅａ１を示す情報）と、認識コンフィデンスＣ４とを取得する。

（ステップＳ２０２）
ステップＳ２０２において、グローバル位置推定部２１Ａは、認識コンフィデンスＣ４が閾値α４以上であるか否かを判断する。閾値α４は、オブジェクト情報２２Ａを蓄積するか否かを判断するための閾値である。

（ステップＳ２０２で「はい」：ステップＳ２０３）
ステップＳ２０２において「はい」と判断した場合、ステップＳ２０３において、グローバル位置推定部２１Ａは、統合部１４Ａによる検出結果、及びユーザ端末１０Ａの位置および向きを参照して、オブジェクトのグローバル位置を推定する。また、グローバル位置推定部２１Ａは、推定結果の位置コンフィデンスＤ５を算出する。

（ステップＳ２０４）
ステップＳ２０４において、グローバル位置推定部２１Ａは、位置コンフィデンスＤ５と、ユーザ端末１０Ａから取得した認識コンフィデンスＣ４とに基づいて、コンフィデンススコアＳｃｏｒｅ１を算出する。ここでは、コンフィデンススコアＳｃｏｒｅ１は、認識コンフィデンスＣ４及び位置コンフィデンスＤ５の和であるものとする。

（ステップＳ２０５）
ステップＳ２０５において、グローバル位置推定部２１Ａは、オブジェクトマップに、当該オブジェクトと同一ＩＤのオブジェクト情報２２Ａが蓄積されているか否かを判断する。

（ステップＳ２０５で「はい」：ステップＳ２０６）
ステップＳ２０５で「はい」と判断した場合、ステップＳ２０６において、グローバル位置推定部２１Ａは、オブジェクトマップから当該オブジェクト情報２２Ａを取得する。また、グローバル位置推定部２１Ａは、当該オブジェクト情報２２Ａに含まれる位置コンフィデンスＤ６と、認識コンフィデンスＣ６とに基づいて、コンフィデンススコアＳｃｏｒｅ２を算出する。ここでは、コンフィデンススコアＳｃｏｒｅ２は、認識コンフィデンスＣ６及び位置コンフィデンスＤ６の和であるものとする。

（ステップＳ２０７）
ステップＳ２０７において、グローバル位置推定部２１Ａは、コンフィデンススコアＳｃｏｒｅ１がＳｃｏｒｅ２より大きいか否かを判断する。

（ステップＳ２０７で「はい」：ステップＳ２０８）
ステップＳ２０７で「はい」と判断した場合、グローバル位置推定部２１Ａは、オブジェクトマップにオブジェクト情報２２Ａを蓄積する。具体的には、グローバル位置推定部２１Ａは、既に格納されている当該オブジェクトと同一ＩＤのオブジェクト情報２２Ａに含まれるグローバル位置を、ステップＳ２０３で算出したグローバル位置に更新する。また、グローバル位置推定部２１Ａは、当該オブジェクト情報２２Ａに含まれる位置コンフィデンスＤ６を、位置コンフィデンスＤ５の値に更新する。また、グローバル位置推定部２１Ａは、当該オブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６を、認識コンフィデンスＣ４の値に更新する。

（ステップＳ２０５で「いいえ」：ステップＳ２０８）
ステップＳ２０５で「いいえ」と判断した場合、グローバル位置推定部２１Ａは、ステップＳ２０８を実行する。すなわち、この場合、グローバル位置推定部２１Ａは、オブジェクトマップに、新たに当該オブジェクトと同一ＩＤのオブジェクト情報２２Ａを追加する。追加される新たなオブジェクト情報２２Ａは、ユーザ端末１０Ａから受信したオブジェクトＩＤ及びステップＳ２０３で算出したグローバル位置を含む。また、新たなオブジェクト情報２２Ａは、位置コンフィデンスＤ６として、ステップＳ２０３で算出した位置コンフィデンスＤ５の値を含む。また、新たなオブジェクト情報２２Ａは、認識コンフィデンスＣ６として、ユーザ端末１０Ａから受信した認識コンフィデンスＣ４の値を含む。

（ステップＳ２０２、ステップＳ２０７で「いいえ」）
ステップＳ２０２、又はステップＳ２０７において「いいえ」と判断した場合、サーバ２０Ａは、検出方法Ｓ２０Ａを終了する。

＜具体例＞
検出システム１Ａが実行する検出方法Ｓ１Ａの具体例を、図９～図１６を参照して説明する。ここでは、検出システム１Ａが、オブジェクトＯＢＪを初めて検出する具体例１と、その後、再度オブジェクトＯＢＪを検出する具体例２及び具体例３とについて説明する。

（具体例１：オブジェクトＯＢＪの初めての検出）
（ステップＳ１０１の具体例）
図９は、本具体例１において検出対象となる現実空間を模式的に示す図である。図９に示すように、現実空間には、グローバル座標系（Ｘ，Ｙ，Ｚ）が設定される。現実空間には、ユーザＵと、ユーザＵが保持するユーザ端末１０Ａと、オブジェクトＯＢＪとが存在する。図９に示すように、ユーザＵは、オブジェクトＯＢＪに充分近い状態である。ここで、「充分近い」とは、閾値α３以上の認識コンフィデンスＣ１でオブジェクトＯＢＪを検出可能な程度に近いことをいう。この状態で、ユーザＵは、ユーザ端末１０Ａに搭載されたカメラ１３０ＡをオブジェクトＯＢＪに向ける。カメラ１３０Ａは、オブジェクトＯＢＪを含む映像フレームを生成する。ユーザ端末１０Ａは、ステップＳ１０１を実行し、当該映像フレームを取得する。

（ステップＳ１０２の具体例）
ユーザ端末１０Ａの映像認識部１１Ａは、映像フレームを検出モデルに入力することにより、オブジェクトＯＢＪのオブジェクトＩＤ＝１と、映像フレームにおいてオブジェクトＯＢＪを含む第１領域Ａｒｅａ１とを得る。このとき、映像認識部１１Ａは、認識コンフィデンスＣ１として０．９を算出したとする。この例では、認識コンフィデンスＣ１＝０．９は、閾値α３以上である。

（ステップＳ１０３～Ｓ１０４の具体例）
オブジェクトＯＢＪを初めて検出する場合、ステップＳ１０３～Ｓ１０４を実行する時点で、オブジェクトＯＢＪに関するオブジェクト情報２２Ａは、オブジェクトマップに蓄積されていない。したがって、ローカル位置推定部１３Ａは、ステップＳ１０４でＮｏと判断する。

（ステップＳ１１２～Ｓ１１４の具体例）
そこで、統合部１４Ａは、ステップＳ１１２を実行し、映像認識部１１Ａが算出した認識コンフィデンスＣ１を、認識コンフィデンスＣ４とする。すなわち、認識コンフィデンスＣ４＝０．９となる。また、統合部１４Ａは、認識コンフィデンスＣ４が閾値α３以上であるため（ステップＳ１１３で「はい」）、ステップＳ１１４を実行する。すなわち、統合部１４Ａは、映像認識部１１Ａによる検出結果（オブジェクトＩＤ及び第１領域Ａｒｅａ１）と、認識コンフィデンスＣ４と、ユーザ端末１０Ａの位置及び向きとを、サーバ２０Ａに送信する。

（ステップＳ２０１～Ｓ２０２の具体例）
サーバ２０Ａのグローバル位置推定部２１Ａは、ユーザ端末１０Ａから上述の検出結果及び認識コンフィデンスＣ４を受信すると、受信した認識コンフィデンスＣ４＝０．９が閾値α４以上であるため、ステップＳ２０２で「はい」と判断する。

（ステップＳ２０３の具体例）
ステップＳ２０３において、グローバル位置推定部２１Ａは、ユーザ端末１０Ａから受信した検出結果と、ユーザ端末１０Ａの位置及び向きとに基づいて、オブジェクトＯＢＪのグローバル位置を推定する。ここでは、グローバル位置（Ｘ＝４．０（ｍ：メートル），Ｙ＝５．０（ｍ）、Ｚ＝０．５（ｍ））が推定されたものとする。また、グローバル位置推定部２１Ａは、推定結果の位置コンフィデンスＤ５として０．９を算出する。

（ステップＳ２０４の具体例）
ステップＳ２０４において、グローバル位置推定部２１Ａは、コンフィデンススコアＳｃｏｒｅ１として、認識コンフィデンスＣ４＝０．９及び位置コンフィデンスＤ５＝０．９の和である１．８を算出する。

（ステップＳ２０５、Ｓ２０８の具体例）
ステップＳ２０５において、グローバル位置推定部２１Ａは、オブジェクトマップには、当該オブジェクトのオブジェクト情報２２Ａが未だ格納されていないため（ステップＳ２０５で「いいえ」）、ステップＳ２０８を実行する。すなわち、グローバル位置推定部２１Ａは、オブジェクトＯＢＪに関するオブジェクト情報２２Ａを、オブジェクトマップに新たに追加する。図１０は、新たなオブジェクト情報２２Ａの一例を示す図である。図１０に示すように、オブジェクト情報２２Ａは、オブジェクトＩＤ＝１と、グローバル位置（Ｘ＝４．０（ｍ：メートル），Ｙ＝５．０（ｍ）、Ｚ＝０．５（ｍ））とを含む。また、オブジェクト情報２２Ａは、サイズとして、事前に与えられた値０．５（ｍ）を含む。また、オブジェクト情報２２Ａは、位置コンフィデンスＤ６として、位置コンフィデンスＤ５の値０．９を含む。また、オブジェクト情報２２Ａは、認識コンフィデンスＣ６として、認識コンフィデンスＣ４の値０．９を含む。

（具体例２：オブジェクトＯＢＪを再度検出）
（ステップＳ１０１の具体例）
その後、ユーザＵがオブジェクトＯＢＪから離れてより遠方に移動したとする。図１１は、ユーザＵがオブジェクトＯＢＪから離れた状態での現実空間を模式的に示す図である。図１１に示すように、ユーザＵは、オブジェクトＯＢＪから離れた状態で、ユーザ端末１０Ａに搭載されたカメラ１３０ＡをオブジェクトＯＢＪに向ける。カメラ１３０Ａは、オブジェクトＯＢＪを含む映像フレームを生成する。ユーザ端末１０Ａは、ステップＳ１０１を実行し、当該映像フレームを取得する。

（ステップＳ１０２の具体例）
具体例１と同様に、ユーザ端末１０Ａの映像認識部１１Ａは、映像フレームを検出モデルに入力することにより、オブジェクトＯＢＪのオブジェクトＩＤ＝１と、映像フレームにおいてオブジェクトＯＢＪを含む第１領域Ａｒｅａ１とを得る。このとき、映像認識部１１Ａは、認識コンフィデンスＣ１として０．３を算出したとする。これは、オブジェクトＯＢＪが具体例１より相対的に遠くに移動したことにより、映像認識部１１Ａが算出する認識コンフィデンスＣ１が、具体例１より低くなったためである。

図１２は、映像認識部１１Ａが検出した第１領域Ａｒｅａ１を説明する模式図である。図１２に示すように、この具体例２では、映像認識部１１Ａは、映像フレームにおいてオブジェクトＯＢＪを含む矩形の第１領域Ａｒｅａ１を検出している。なお、図１２は、第１領域Ａｒｅａ１を説明するための模式図であり、必ずしも当該ステップにおいてディスプレイ１５０Ａに第１領域Ａｒｅａ１を示す矩形が表示されることを限定するものではない。

（ステップＳ１０３～Ｓ１０４の具体例）
ここで、サーバ２０Ａのオブジェクトマップには、図１０に示した通り、オブジェクトＯＢＪに関するオブジェクト情報２２Ａが格納されている。そこで、ローカル位置推定部１３Ａは、ステップＳ１０３で、図１０に示したオブジェクト情報２２Ａを取得する。ローカル位置推定部１３Ａは、オブジェクト情報２２Ａを取得できたため、ステップＳ１０４では「はい」と判断する。

（ステップＳ１０５の具体例）
ステップＳ１０５において、自己位置推定部１２Ａは、ユーザ端末１０Ａの位置及び向きとして、グローバル座標系における位置Ｐ１及び方向ｄ１を推定する。また、自己位置推定部１２Ａは、これらの推定結果の位置コンフィデンスＤ２として、０．９５を算出する。

（ステップＳ１０６の具体例）
図１３は、ステップＳ１０６において、ローカル位置推定部１３Ａが推定した第２領域Ａｒｅａ２を説明する模式図である。図１３に示すように、第２領域Ａｒｅａ２は、スクリーン座標系における矩形（バウンディングボックス）として表される。なお、図１３は、第２領域Ａｒｅａ２を説明するための模式図であり、必ずしも当該ステップにおいてディスプレイ１５０Ａに第２領域Ａｒｅａ２を示す矩形が表示されることを限定するものではない。

ローカル位置推定部１３Ａが、スクリーン座標系における第２領域Ａｒｅａ２を推定する処理の具体例について、次式（３）、及び図１４～図１５を参照して説明する。

まず、ローカル位置推定部１３Ａは、オブジェクト情報２２Ａに含まれるグローバル座標（Ｘ，Ｙ，Ｚ）を、式（３）を用いてスクリーン座標（ｕ，ｖ）に変換する。ここで、グローバル座標（Ｘ，Ｙ，Ｚ）は、オブジェクトＯＢＪの中心点をグローバル座標系で表したものである。また、ｒ１１～ｒ３３は、回転パラメータである。ｔ１～ｔ３は、移動パラメータである。これらのパラメータは、それぞれ、端末の位置Ｐ１及び向きｄ１から計算される。また、ｆｘ，ｆｙ，ｃｘ，ｃｙは、カメラ１３０Ａの内部パラメータである。なお、式（３）は、ピンホールカメラの歪みを考慮しない方式である。ローカル位置推定部１３Ａは、式（３）の代わりに、歪みを考慮した方式を用いてもよい。また、ローカル位置推定部１３Ａは、式（３）の代わりに、カメラ１３０Ａの種別に応じた方式を用いてもよい。

図１４は、オブジェクトＯＢＪの中心点のグローバル座標（Ｘ，Ｙ，Ｚ）をスクリーン座標（ｕ，ｖ）に変換する処理を説明する模式図である。図１４の上部は、グローバル座標系におけるユーザ端末１０Ａの位置Ｐ１と、向きｄ１と、オブジェクトＯＢＪの中心点Ｐ２とを示す。図１４の下部は、スクリーン座標系におけるオブジェクトＯＢＪの中心点Ｐ２を示す。

次に、ローカル位置推定部１３Ａは、オブジェクト情報２２Ａに含まれるオブジェクトＯＢＪのサイズ０．５（ｍ）に基づいて、オブジェクトＯＢＪの中心点を中心とする、１辺の長さが０．５（ｍ）の立方体を仮想的に形成する。また、ローカル位置推定部１３Ａは、仮想的に形成した立方体の８つの頂点のグローバル座標を、式（３）を用いてスクリーン座標系に変換する。

図１５は、仮想的に形成した立方体の８つの頂点のグローバル座標をスクリーン座標に変換する処理を説明する模式図である。図１５の上部は、グローバル座標系において、位置Ｐ２を中心とする立方体の８つの頂点Ｐ３～Ｐ１０を示す。図１５の下部は、スクリーン座標系に変換された８つの頂点Ｐ３～Ｐ１０を示す。

次に、ローカル位置推定部１３Ａは、スクリーン座標系において、頂点Ｐ３～Ｐ１０を全て含むバウンディングボックスを、第２領域Ａｒｅａ２として算出する。

（ステップＳ１０７～Ｓ１０８の具体例）
ステップＳ１０７において、ローカル位置推定部１３Ａは、オブジェクトＯＢＪのオブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６＝０．９を出力する。また、ローカル位置推定部１３Ａは、位置コンフィデンスＤ３として、ユーザ端末１０Ａの位置Ｐ１に関する位置コンフィデンスＤ２＝０．９５と、オブジェクト情報２２Ａに含まれる位置コンフィデンスＤ６＝０．９とを乗算する。これにより、位置コンフィデンスＤ３＝０．８５５が算出される。当該位置コンフィデンスＤ３は、閾値α１以上であるものとする。したがって、ローカル位置推定部１３Ａは、ステップＳ１０８で「はい」と判断する。

（ステップＳ１０９～Ｓ１１０の具体例）
図１６は、ステップＳ１０９において、統合部１４Ａが算出するＩｏＵを説明するための模式図である。図１６に示すように、スクリーン座標系において、映像認識部１１Ａが算出した第１領域Ａｒｅａ１と、ローカル位置推定部１３Ａが推定した第２領域Ａｒｅａ２とが重なり合う領域（斜線パターンで塗りつぶした領域）を第３領域Ａｒｅａ３とする。統合部１４Ａは、第３領域Ａｒｅａ３の面積を、第１領域Ａｒｅａ１及び第２領域Ａｒｅａ２を結合した結合領域の面積で除算した値を、ＩｏＵとして算出する。ここでは、ＩｏＵとして、０．８が算出されたものとする。当該ＩｏＵは、閾値α２以上であるものとする。したがって、統合部１４Ａは、ステップＳ１１０で「はい」と判断する。

（ステップＳ１１１、Ｓ１１３の具体例）
ステップＳ１１１において、統合部１４Ａは、式（２）を用いて、認識コンフィデンスＣ４を算出する。具体的には、統合部１４Ａは、映像認識部１１Ａが算出した認識コンフィデンスＣ１＝０．３と、ローカル位置推定部１３Ａが出力した認識コンフィデンスＣ６＝０．９とのうち、最大値である０．９を、認識コンフィデンスＣ４とする。この具体例では、映像認識部１１Ａによる検出結果を採用するか否かを判断するための閾値α３は０．５である。統合部１４Ａが算出した認識コンフィデンスＣ４＝０．９は、閾値α３＝０．５以上であるため、統合部１４Ａは、ステップＳ１１３で「はい」と判断する。

（ステップＳ１１４の具体例）
統合部１４Ａは、オブジェクトＯＢＪを検出できたとみなして、映像認識部１１Ａが検出した第１領域Ａｒｅａ１を、検出結果として採用し出力する。統合部１４Ａは、検出結果であるオブジェクトＩＤ＝１及び第１領域Ａｒｅａ１と、認識コンフィデンスＣ４＝０．９と、ユーザ端末１０Ａの位置及び向きとを、サーバ２０Ａに送信する。このように、具体例２は、映像認識部１１Ａによる認識コンフィデンスＣ１が低い場合であっても、ローカル位置推定部１３Ａによる認識結果を統合することにより、オブジェクトＯＢＪを高精度に検出することができる。

（ステップＳ２０１～Ｓ２０２の具体例）
サーバ２０Ａのグローバル位置推定部２１Ａは、ユーザ端末１０Ａから上述の検出結果及び認識コンフィデンスＣ４＝０．９を受信する。また、グローバル位置推定部２１Ａは、受信した認識コンフィデンスＣ４＝０．９が閾値α４以上であるため、ステップＳ２０２で「はい」と判断する。

（ステップＳ２０３の具体例）
ステップＳ２０３において、グローバル位置推定部２１Ａは、ユーザ端末１０Ａから受信した検出結果と、ユーザ端末１０Ａの位置及び向きとに基づいて、オブジェクトＯＢＪのグローバル位置を推定する。ここでは、グローバル位置として、オブジェクト情報２２Ａに既に含まれているグローバル位置とは異なる位置（Ｘ＝３．９（ｍ：メートル），Ｙ＝５．１（ｍ）、Ｚ＝０．５（ｍ））が推定されたものとする。また、グローバル位置推定部２１Ａは、推定結果の位置コンフィデンスＤ５として、具体例１より小さい０．７を算出する。これは、具体例２では、ユーザ端末１０ＡからオブジェクトＯＢＪまでの距離が具体例１より遠いためである。

（ステップＳ２０４～Ｓ２０６の具体例）
ステップＳ２０４において、グローバル位置推定部２１Ａは、統合部１４Ａから受信した認識コンフィデンスＣ４＝０．９、及び算出した位置コンフィデンスＤ５＝０．７の和であるコンフィデンススコアＳｃｏｒｅ１＝１．６を算出する。

また、オブジェクトマップには、オブジェクト情報２２Ａが蓄積されているため、グローバル位置推定部２１Ａは、ステップＳ２０５で「はい」と判断し、ステップＳ２０６を実行する。すなわち、グローバル位置推定部２１Ａは、オブジェクト情報２２Ａに含まれる認識コンフィデンスＣ６＝０．９、及び位置コンフィデンスＤ６＝０．９の和であるコンフィデンススコアＳｃｏｒｅ２＝１．８を算出する。

（ステップＳ２０７～Ｓ２０８の具体例）
ここで、Ｓｃｏｒｅ１＞Ｓｃｏｒｅ２でないため、グローバル位置推定部２１Ａは、ステップＳ２０７で「いいえ」と判断し、検出方法Ｓ２０Ａを終了する。すなわち、グローバル位置推定部２１Ａは、オブジェクトマップに蓄積されたオブジェクト情報２２Ａを更新しない。

このように、具体例２は、ユーザがオブジェクトＯＢＪから離れて遠方に移動した場合にもオブジェクトＯＢＪを高精度に検出できる。ただし、過去の検出結果であるオブジェクト情報２２Ａは、ユーザがオブジェクトＯＢＪから離れて遠方に移動した場合の検出結果によって更新されない。

（具体例３：オブジェクトＯＢＪを再度検出）
その後、図９に示すように、ユーザＵが再びオブジェクトＯＢＪの近傍に移動したとする。

（ステップＳ１０１～Ｓ１１４の具体例）
具体例３では、ユーザ端末１０Ａは、具体例２とほぼ同様に検出方法Ｓ１０Ａを実行する。なお、具体例３では、ユーザ端末１０ＡからオブジェクトＯＢＪまでの距離が具体例２より近いため、ステップＳ１０２において算出する認識コンフィデンスＣ１の値は具体例２より大きくなる。ただし、ステップＳ１１４においてユーザ端末１０Ａからサーバ２０Ａに対して出力される認識コンフィデンスＣ４の値は、０．９で具体例２と同一であったものとする。

（ステップＳ２０１～Ｓ２０６の具体例）
また、具体例３では、サーバ２０Ａは、ステップＳ２０１～Ｓ２０６まで具体例２とほぼ同様に検出方法Ｓ２０Ａを実行する。ただし、ステップＳ２０３において、位置コンフィデンスＤ５として、具体例２より大きい０．９５が算出される点が異なる。これは、具体例３では、ユーザ端末１０ＡからオブジェクトＯＢＪまでの距離が具体例２より近いためである。その結果、ステップＳ２０４において、コンフィデンススコアＳｃｏｒｅ１として、具体例２より大きい１．８５が算出される点も異なる。このコンフィデンススコアＳｃｏｒｅ１の値１．８５は、統合部１４Ａから受信した認識コンフィデンスＣ４＝０．９、及び算出した位置コンフィデンスＤ５＝０．９５の和である。

（ステップＳ２０７～Ｓ２０８の具体例）
ここで、Ｓｃｏｒｅ１＞Ｓｃｏｒｅ２であるため、グローバル位置推定部２１Ａは、ステップＳ２０７で「はい」と判断し、ステップＳ２０８を実行する。すなわち、グローバル位置推定部２１Ａは、オブジェクトマップに蓄積されたオブジェクト情報２２Ａを更新する。

図１７は、更新されたオブジェクト情報２２Ａを説明する図である。図１７に示すように、オブジェクト情報２２Ａに含まれるグローバル位置は、（Ｘ＝３．９（ｍ：メートル），Ｙ＝５．１（ｍ）、Ｚ＝０．５（ｍ））に更新される。また、認識コンフィデンスＣ６は、既に格納されている値０．９が、ユーザ端末１０Ａから受信した認識コンフィデンスＣ４＝０．９と同一であるため、更新されない。また、位置コンフィデンスＤ６は、グローバル位置推定部２１Ａが算出した位置コンフィデンスＤ５＝０．９５に更新される。

このように、具体例３では、ユーザがオブジェクトＯＢＪに再度接近した場合にオブジェクトＯＢＪを高精度に検出できる。また、過去の検出結果であるオブジェクト情報２２Ａは、ユーザがオブジェクトＯＢＪに再度接近した場合の検出結果によって更新される。したがって、検出システム１Ａは、移動するオブジェクトＯＢＪであっても、高精度に検出することができる。

＜本例示的実施形態の効果＞
本例示的実施形態は、ユーザ端末１０Ａに高い処理性能を要求することなく、オブジェクトを高精度に検出することができる。その理由について説明する。

まず、ユーザ端末１０ＡにＡＲを実現する場合を考える。この場合、カメラ１３０Ａが映像フレームを生成してから、仮想オブジェクトが重畳された映像フレームをディスプレイ１５０Ａに表示するまでの処理速度は、短いことが要求される。つまり、ユーザ端末１０Ａがオブジェクトを検出する処理速度は、できるだけ短いことが望ましい。本実施形態では、映像認識部１１Ａによる検出精度を、ローカル位置推定部１３Ａの検出結果によって高めることができる。その結果、映像認識部１１Ａを、高い端末の処理性能が要求されるような高精度な映像認識技術を用いて実現しなくてもよい。したがって、本例示的実施形態は、ユーザ端末１０Ａの処理性能に関わらず、高速に、かつ、高精度に、オブジェクトを検出することができる。

また、本例示的実施形態は、移動するオブジェクトであっても、より精度よく検出することができる。その理由について説明する。

ここで、認識したいオブジェクトがユーザ端末１０Ａから遠くなるほど、映像認識部１１Ａによる検出精度が低くなると考えられる。本例示的実施形態は、オブジェクトがユーザ端末１０Ａの近傍にある場合（例えば、具体例１）に、映像認識部１１Ａは確度（認識コンフィデンスＣ１）の高い検出結果を出力する。ローカル位置推定部１３Ａは、オブジェクトマップにオブジェクト情報２２Ａの登録が無ければ、検出結果を出力しない。この場合、統合部１４Ａは、確度の高い映像認識部１１Ａによる検出結果のみを用いて検出結果を出力する。また、オブジェクトマップには、当該オブジェクトのグローバル位置と、認識コンフィデンスと、位置コンフィデンスとが記録される。このとき、オブジェクトが近傍にあるほど、オブジェクトマップに記録する位置コンフィデンス及び認識コンフィデンスは高い値になる。

次に、ユーザ端末１０Ａが移動すると、オブジェクトがユーザ端末１０Ａから相対的に遠くに移動する（例えば、具体例２）。この場合、映像認識部１１Ａは、確度（認識コンフィデンスＣ１）が低下した検出結果を出力する。ローカル位置推定部１３Ａは、オブジェクトマップに格納されたオブジェクト情報２２Ａに基づいてローカル位置を推定する。統合部１４Ａは、映像認識部１１Ａによる検出結果とローカル位置推定部１３Ａによる検出結果とを統合することで、映像認識部１１Ａによる検出結果の確度が低下していても、当該検出結果を採用することができる。その結果、検出精度が向上する。

また、オブジェクト自体が移動すると、ＩｏＵが閾値以下となることが多い。この場合、ローカル位置推定部１３Ａによる検出結果は統合の対象とならない。したがって、移動したオブジェクトの過去の検出結果が参照されることがなく、映像認識部１１Ａによる検出結果が検出結果として採用される。このように、移動するオブジェクトに対して過去の検出結果を参照しないことにより、移動するオブジェクトに対して過去の検出結果を参照する非特許文献１に記載の技術に比べて、検出精度が向上する。

〔例示的実施形態３〕
本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

＜検出システムの構成＞
本例示的実施形態に係る検出システム１Ｂの構成について、図１８を参照して説明する。図１８は、検出システム１Ｂの構成を示すブロック図である。検出システム１Ｂは、例示的実施形態２に係る検出システム１Ａとほぼ同様に構成されるが、ユーザ端末１０Ａに代えてユーザ端末１０Ｂを含む点が異なる。ユーザ端末１０Ｂは、例示的実施形態２に係るユーザ端末１０Ａとほぼ同様に構成されるが、三次元センサ１７０Ｂをさらに含む点が異なる。また、映像認識部１１Ａと、ローカル位置推定部１３Ａと、統合部１４Ａとに代えて、映像認識部１１Ｂと、ローカル位置推定部１３Ｂと、統合部１４Ｂとを含む点も異なる。

（三次元センサ）
三次元センサ１７０Ｂは、オブジェクトＯＢＪに関する深度情報を取得するセンサである。例えば、三次元センサ１７０Ｂは、赤外線センサ、三次元ＬｉＤａｒ、又はステレオカメラであってもよいが、これに限られない。

（映像認識部）
映像認識部１１Ｂは、例示的実施形態２における映像認識部１１Ａとほぼ同様に構成されるが、映像フレームに加えて深度情報を用いる点と、三次元的な第１領域を示す情報を出力する点とが異なる。換言すると、映像認識部１１Ｂは、二次元画像である映像フレームを分析する代わりに、映像フレームに深度情報を加えた三次元データを分析する。

具体的には、映像認識部１１Ｂは、映像フレーム及び深度情報から、オブジェクトの三次元的な領域を検出するよう機械学習により学習された検出モデルを用いて、オブジェクトの検出を行う。一例として、検出モデルは、映像フレーム及び深度情報を入力として、検出したオブジェクトのオブジェクトＩＤと、オブジェクトを含む三次元的な第１領域を示す情報と、認識コンフィデンスＣ１とを出力する。三次元的な第１領域を示す情報は、例えば、カメラ座標系で表される。ここで、カメラ座標系とは、ユーザ端末１０Ｂの位置を原点とする三次元座標系である。このような検出モデルは、認識対象となるオブジェクトを含む映像フレーム及び同時に取得された深度情報と、正解となる三次元的な第１領域とを関連付けた教師データを用いることにより生成可能である。

（ローカル位置推定部）
ローカル位置推定部１３Ｂは、例示的実施形態２におけるローカル位置推定部１３Ａとほぼ同様に構成されるが、オブジェクトのローカル位置、及び第２領域を三次元的に算出する点が異なる。

具体的には、ローカル位置推定部１３Ｂは、蓄積されたオブジェクト情報２２Ａと、ユーザ端末１０Ｂの位置及び向きとを参照して、ユーザ端末１０Ｂの位置を原点とする三次元座標系（すなわち、カメラ座標系）におけるオブジェクトのローカル位置を推定する。具体的には、ローカル位置推定部１３Ｂは、蓄積されたオブジェクト情報２２Ａに含まれるグローバル位置を示すグローバル座標を、ユーザ端末１０Ｂの位置及び向きに基づいて、カメラ座標系を用いたカメラ座標に座標変換する。座標変換した結果が、ローカル位置である。

また、ローカル位置推定部１３Ｂは、算出したローカル位置と、オブジェクト情報２２Ａに含まれるサイズ情報とに基づいて、カメラ座標系においてオブジェクトを含む三次元的な第２領域を算出する。例えば、ローカル位置推定部１３Ｂは、カメラ座標系において、ローカル位置を中心とし、１辺の長さがサイズ情報の示す長さとなる立方体の領域を、オブジェクトを含む三次元的な第２領域として算出する。

ローカル位置推定部１３Ｂは、三次元的な第２領域の位置に関する位置コンフィデンスＤ３を算出する。位置コンフィデンスＤ３の算出手法については、ローカル位置推定部１３Ａと同様である。

（統合部）
統合部１４Ｂは、例示的実施形態２における統合部１４Ａとほぼ同様に構成されるが、ＩｏＵを三次元的に算出する点が異なる。

具体的には、統合部１４Ｂは、映像認識部１１Ｂが検出した三次元的な第１領域（例えば、直方体）と、ローカル位置推定部１３Ｂが検出した三次元的な第２領域（上述した例では、立方体）との共通部分の体積を求める。また、統合部１４Ｂは、第１領域及び第２領域を結合した結合領域の体積を求める。統合部１４Ｂは、共通部分の体積を結合領域の体積で除算することにより、ＩｏＵを算出する。

＜検出方法の流れ＞
以上のように構成された検出システム１Ｂが実行する検出方法は、図７を参照して説明した例示的実施形態２における検出方法Ｓ１Ａとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法Ｓ１Ａにおいて説明した通りである。

（ステップＳ１０１）
ステップＳ１０１において、映像認識部１１Ａは、映像フレームに加えて、三次元センサ１７０Ｂから深度情報を取得する。その他の点については、上述したステップＳ１０１と同様である。

（ステップＳ１０２）
ステップＳ１０２において、映像認識部１１Ｂは、カメラ座標系における三次元的な第１領域を示す情報を出力する。その他の点については、上述したステップＳ１０２と同様である。

（ステップＳ１０６）
ステップＳ１０６において、ローカル位置推定部１３Ｂは、カメラ座標系における三次元的な第２領域を算出する。その他の点については、上述したステップＳ１０６と同様である。

（ステップＳ１０９）
ステップＳ１０９において、統合部１４Ｂは、ＩｏＵを、三次元的な第１領域及び第２領域を参照して算出する。その他の点については、上述したステップＳ１０９と同様である。

＜本例示的実施形態の効果＞
本例示的実施形態は、第１検出部及び第２検出部が三次元的にオブジェクトを検出することにより、オブジェクトをさらに精度よく検出することができる。

〔例示的実施形態４〕
本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

＜検出システムの構成＞
本例示的実施形態に係る検出システム１Ｃの構成について、図１９を参照して説明する。図１９は、検出システム１Ｃの構成を示すブロック図である。検出システム１Ｃは、例示的実施形態２に係る検出システム１Ａとほぼ同様に構成されるが、ユーザ端末１０Ａに代えてユーザ端末１０Ｃを含む点が異なる。ユーザ端末１０Ｃは、例示的実施形態２に係るユーザ端末１０Ａとほぼ同様に構成されるが、映像認識部１１Ａに代えて映像認識部１１Ｃを含む点が異なる。

（映像認識部１１Ｃ）
映像認識部１１Ｃは、例示的実施形態２における映像認識部１１Ａとほぼ同様に構成されるが、映像フレームを参照することに加えて、オブジェクトのサイズに関する情報と、ユーザ端末１０Ｃの位置及び向きとをさらに参照する点が異なる。映像認識部１１Ｃは、オブジェクトの実際の大きさの情報と、ユーザ端末１０Ｃの位置及び向きに関する情報を使うことで、映像フレーム上におけるオブジェクトのサイズを推定することができる。

具体的には、映像認識部１１Ｃは、オブジェクト情報２２Ａを参照して、オブジェクトのサイズに関する情報を取得する。例えば、サーバ２０Ａは、定期的に、又はオブジェクト情報２２Ａを更新したタイミングで、オブジェクトのサイズに関する情報をユーザ端末１０Ｃに送信するよう構成されていてもよい。また、映像認識部１１Ｃは、サーバ２０Ａに対して、定期的にオブジェクト情報２２Ａを要求することにより、当該情報を取得してもよい。

また、映像認識部１１Ｃは、自己位置推定部１２Ａから、ユーザ端末１０Ｃの位置及び向きを示す情報を取得する。

また、映像認識部１１Ｃが用いる検出モデルは、例示的実施形態２における映像認識部１１Ａが用いる検出モデルとほぼ同様に構成されるが、オブジェクトを含み得る複数の候補領域を出力する点が異なる。複数の候補領域は、少なくとも領域のサイズが異なる。この場合、映像認識部１１Ｃは、ユーザ端末１０Ｃの位置及び向きを参照して、複数の候補領域のうち、映像フレームに含まれ得るオブジェクトのサイズに整合するサイズの候補領域を選択する。そして、映像認識部１１Ｃは、選択した候補領域を、第１領域として出力する。

なお、映像認識部１１Ｃがその他の映像認識技術を用いる場合について説明する。この場合、当該映像認識技術が、オブジェクトを含み得る複数の候補領域を検出することが前提である。このような場合、映像認識部１１Ｃは、検出モデルを用いる場合と同様に、ユーザ端末１０Ｃの位置及び向きを参照して、複数の候補領域のうち、映像フレームに含まれ得るオブジェクトのサイズに整合するサイズの候補領域を選択することが可能である。

＜検出方法の流れ＞
以上のように構成された検出システム１Ｃが実行する検出方法は、図７を参照して説明した例示的実施形態２における検出方法Ｓ１Ａとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法Ｓ１Ａにおいて説明した通りである。

（ステップＳ１０２）
ステップＳ１０２において、映像認識部１１Ｃは、映像フレームに加えて、オブジェクトのサイズに関する情報と、ユーザ端末１０Ｃの位置及び向きを示す情報とを参照して、映像フレームに含まれ得るオブジェクトのサイズに整合する第１領域を検出する。

＜本例示的実施形態の効果＞
本例示的実施形態は、オブジェクト情報２２Ａに含まれるオブジェクトのサイズに関する情報を考慮することにより、映像認識部１１Ｃの検出精度を向上させることができる。その結果、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。

〔例示的実施形態５〕
本発明の第５の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～４にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

＜検出システムの構成＞
本例示的実施形態に係る検出システム１Ｄの構成について、図２０を参照して説明する。図２０は、検出システム１Ｄの構成を示すブロック図である。検出システム１Ｄは、ユーザ端末１０Ｄと、サーバ２０Ｄとを含む。ユーザ端末１０Ｄは、例示的実施形態２に係るユーザ端末１０Ａとほぼ同様に構成されるが、ローカル位置推定部１３Ａ及び統合部１４Ａに代えて、ローカル位置推定部１３Ｄ及び統合部１４Ｄを含む点が異なる。また、サーバ２０Ｄは、例示的実施形態２に係るサーバ２０Ａとほぼ同様に構成されるが、グローバル位置推定部２１Ａに代えて、グローバル位置推定部２１Ｄを含む点が異なる。また、記憶部２２０Ａが、オブジェクト情報２２Ａの代わりにオブジェクト情報２２Ｄを記憶する点が異なる。また、記憶部２２０Ａが、さらにキネマティクス情報２３Ｄを記憶する点が異なる。

（キネマティクス情報）
キネマティクス情報２３Ｄは、オブジェクトの移動に関する特徴を示す情報である。キネマティクス情報２３Ｄは、オブジェクトＩＤに関連付けて記憶される。キネマティクス情報２３Ｄは、例えば、オブジェクトの平均移動速度、最大移動速度、又は、移動速度に関する確率分布を含む。

（オブジェクトマップ）
オブジェクトマップは、各オブジェクトについて、オブジェクト情報２２Ａの代わりにオブジェクト情報２２Ｄを格納する。オブジェクト情報２２Ｄは、図６を参照して説明した項目に加えて、さらに、検出時刻を含む。検出時刻は、当該オブジェクトを直近に検出した時刻を示す。

（グローバル位置推定部）
グローバル位置推定部２１Ｄは、例示的実施形態２におけるグローバル位置推定部２１Ａとほぼ同様に構成されるが、オブジェクトマップに蓄積するオブジェクト情報２２Ｄに、さらに検出時刻を含める点が異なる。例えば、グローバル位置推定部２１Ｄは、オブジェクト情報２２Ｄに含める検出時刻として、統合部１４Ｄから検出結果を受信した時刻を用いてもよいし、オブジェクト情報２２Ｄを追加又は更新する時刻を用いてもよいが、これらに限られない。

（ローカル位置推定部）
ローカル位置推定部１３Ｄは、例示的実施形態２に係るローカル位置推定部１３Ａとほぼ同様に構成されるが、蓄積されたオブジェクト情報２２Ｄと、ユーザ端末１０Ｄの位置及び向きとを参照することに加えて、キネマティクス情報２３Ｄを参照する点が異なる。

具体的には、ローカル位置推定部１３Ｄは、オブジェクトの検出時刻と、キネマティクス情報２３Ｄとを参照することにより、現在のオブジェクトを含む第２領域を推定する。例えば、キネマティクス情報が移動に関する確率分布を含む場合、ローカル位置推定部１３Ｄは、検出時刻及びキネマティクス情報２３Ｄとから、第２領域の確率分布Ｐ（ｘ，ｙ）を推定する。

（統合部）
統合部１４Ｄは、例示的実施形態２に係る統合部１４Ａとほぼ同様に構成されるが、ＩｏＵの代わりに、判定パラメータを用いる点が異なる。判定パラメータは、第１領域内での第２領域の確率分布の積算値により求められる。この場合、統合部１４Ｄは、判定パラメータが閾値以上である場合に、ＩｏＵが閾値α２以上である場合と同様に動作する。

＜検出方法の流れ＞
以上のように構成された検出システム１Ｄが実行する検出方法は、図７～図８を参照して説明した例示的実施形態２における検出方法Ｓ１Ａとほぼ同様であるが、次のステップが異なる。その他のステップについては、検出方法Ｓ１Ａにおいて説明した通りである。

（ステップＳ１０３）
ステップＳ１０３において、ローカル位置推定部１３Ｄは、オブジェクト情報２２Ｄに加えて、キネマティクス情報２３Ｄをサーバ２０Ａに要求する。その他の点については、例示的実施形態２について説明したステップＳ１０３と同様である。

（ステップＳ１０４）
ステップＳ１０４において、ローカル位置推定部１３Ｄは、オブジェクト情報２２Ｄ及びキネマティクス情報２３Ｄが取得できたか否かを判断する。ローカル位置推定部１３Ｄは、両方取得できた場合には、「はい」と判断し、何れか１つを取得できない場合には、「いいえ」と判断する。その他の点については、例示的実施形態２について説明したステップＳ１０４と同様である。

（ステップＳ１０６）
ステップＳ１０６において、ローカル位置推定部１３Ｄは、蓄積されたオブジェクト情報２２Ｄと、ユーザ端末１０Ｄの位置及び向きとを参照することに加えて、キネマティクス情報２３Ｄを参照することにより、現在のオブジェクトが含まれる第２領域を算出する。ここでは、キネマティクス情報２３Ｄが移動速度に関する確率分布を含むものとし、第２領域の確率分布が算出される。その他の点については、例示的実施形態２について説明したステップＳ１０６と同様である。

（ステップＳ１０９）
ステップＳ１０９において、統合部１４Ｄは、第１領域と、第２領域の確率分布とから、判定パラメータを算出する。その他の点については、例示的実施形態２について説明したステップＳ１０９と同様である。

（ステップＳ１１０）
ステップＳ１１０において、統合部１４Ｄは、判定パラメータが閾値以上であるか否かを判断する。

（ステップＳ２０８）
ステップＳ２０８において、グローバル位置推定部２１Ｄは、オブジェクト情報２２Ｄに、検出時刻を含めてオブジェクトマップに追加又は更新する。その他の点については、例示的実施形態２について説明したステップＳ２０８と同様である。

＜本例示的実施形態の効果＞
本例示的実施形態は、オブジェクトのキネマティクス情報を利用することにより、映像認識部１１Ａが検出した第１領域が、過去に検出した位置からの移動先として可能性が高い場合に、当該第１領域を検出結果として採用し、低い場合には採用しない。したがって、本例示的実施形態は、オブジェクトをさらに精度よく検出することができる。

なお、上述した例示的実施形態２～５において、ユーザ端末に含まれる機能ブロックの一部または全部は、サーバに含まれていてもよい。また、ユーザ端末が実行するステップの一部または全部は、サーバが実行してもよい。また、サーバに含まれる機能ブロックの一部または全部は、ユーザ端末に含まれていてもよい。また、サーバが実行するステップの一部または全部は、ユーザ端末が実行してもよい。また、ユーザ端末及びサーバは、一体の装置として構成されてもよい。

〔ソフトウェアによる実現例〕
検出システム１、ユーザ端末１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、サーバ２０Ａ、及びサーバ２０Ｄの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、検出システム１、ユーザ端末１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、サーバ２０Ａ、及びサーバ２０Ｄは、それぞれ、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図２１に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを、検出システム１、ユーザ端末１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、サーバ２０Ａ、サーバ２０Ｄとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、検出システム１、ユーザ端末１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、サーバ２０Ａ、サーバ２０Ｄの各機能が実現される。

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

（付記１）
第１センサの検出値を参照してオブジェクトを検出する第１検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、
前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備えた検出システム。

上記構成により、第１センサの検出値を参照することによるオブジェクトの検出結果と、過去の検出結果を参照することによるオブジェクトの検出結果とを統合してオブジェクトを検出する。これにより、いずれかの検出結果のみを用いる場合と比べて、より精度よくオブジェクトを検出することができる。

（付記２）
前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
前記第２検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、付記１に記載の検出システム。

上記構成により、過去の検出結果を参照してオブジェクトを検出することができる。

（付記３）
前記第１検出手段は、ユーザ端末に搭載されたカメラを前記第１センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第２検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第２センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、付記１又は２に記載の検出システム。

上記構成により、撮影画像を参照することによるオブジェクトの検出結果と、過去の検出結果及びユーザ端末の位置／向きを考慮することによるオブジェクトの検出結果とを統合して、オブジェクトを検出することができる。これにより、さらに精度よくオブジェクトを検出することができる。

（付記４）
前記第２検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、付記３に記載の検出システム。

上記構成により、過去の検出結果及びユーザ端末の位置／向きに基づいて、より精度よくオブジェクトを検出することができる。

（付記５）
前記第１検出手段及び前記第２検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を、それぞれの前記確度を参照して統合する、付記１から４の何れかに記載の検出システム。

上記構成により、各検出結果の確度を考慮して、より確度の高い検出結果を得るよう統合を行うことができる。

（付記６）
前記統合手段は、前記第１検出手段が検出した前記オブジェクトの位置と、前記第２検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第２検出手段が算出した確度を参照するか否かを決定する、付記５に記載の検出システム。

上記構成により、映像フレームを参照することによる検出結果と、過去の検出結果を参照することによる検出結果とが、位置関係において条件を満たしていれば、過去の検出結果の確度を採用することができる。

（付記７）
前記第１検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、付記１から６の何れか１項に記載の検出システム。

上記構成により、オブジェクトの大きさを考慮して、より精度よくオブジェクトを検出することができる。

（付記８）
前記第２検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、付記１から７の何れかに記載の検出システム。

上記構成により、オブジェクトのキネマティクス情報を考慮して、移動するオブジェクトをより精度よく検出することができる。

（付記９）
前記第１検出手段は、前記確度として、検出した前記オブジェクトの認識に関する確度である認識コンフィデンスＣ１を算出し、
前記第２検出手段は、前記確度として、検出した前記オブジェクトの位置に関する確度である位置コンフィデンスＤ３と、前記過去の検出結果の認識に関する確度である認識コンフィデンスＣ６と、を算出し、
前記統合手段は、前記認識コンフィデンスＣ１、前記位置コンフィデンスＤ３、及び前記認識コンフィデンスＣ６に基づいて、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合する、付記５に記載の検出システム。

上記構成により、認識コンフィデンスＣ１、位置コンフィデンスＤ３、及び認識コンフィデンスＣ６に基づいて、より精度よくオブジェクトを検出することができる。

（付記１０）
前記第１検出手段は、ユーザ端末に搭載されたカメラを前記第１センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第２検出手段は、
前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第２センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出し、
前記ユーザ端末の位置及び向きに関する確度である位置コンフィデンスＤ２と、前記過去の検出結果の位置に関する確度である位置コンフィデンスＤ６と、を参照して前記位置コンフィデンスＤ３を算出し、
前記位置コンフィデンスＤ２、及び前記位置コンフィデンスＤ６の少なくとも一方が大きいほど、より大きい前記位置コンフィデンスＤ３を算出する、付記９に記載の検出システム。

上記構成により、ユーザ端末の位置及び向きと過去の検出結果とに基づいて検出したオブジェクトの位置について、その確度を求めることができる。

（付記１１）
前記統合手段は、
当該統合手段による検出結果の認識に関する確度として、前記認識コンフィデンスＣ１及び前記認識コンフィデンスＣ６を参照して認識コンフィデンスＣ４を算出し、前記認識コンフィデンスＣ１及び前記認識コンフィデンスＣ６の少なくとも一方が大きいほど、より大きい認識コンフィデンスＣ４を算出する、付記９又は付記１０に記載の検出システム。

上記構成により、第１検出手段の検出結果及び第２検出手段の検出結果の何れか一方の確度が低くても他方が大きければ、統合部による検出結果の確度を高めることができる。

（付記１２）
前記蓄積手段は、前記統合手段による検出結果を参照して、前記オブジェクトの前記現実空間における位置を推定し、推定した位置を前記オブジェクト情報に含めて蓄積する、付記２に記載の検出システム。

上記構成により、過去の検出結果を、ユーザ端末の位置の変化に関わらず参照しやすいグローバル位置として蓄積することができる。

（付記１３）
前記蓄積手段は、前記統合手段による検出結果の確度である認識コンフィデンスＣ４を参照して、前記オブジェクト情報を更新するか否かを決定する、付記２又は付記１２に記載の検出システム。

上記構成により、検出結果の確度に応じて過去の検出結果を更新するか否かを決定するので、過去の検出結果としてより精度の高い情報を蓄積できる。

（付記１４）
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記検出結果に基づき推定された前記オブジェクトの前記現実空間における位置の確度である位置コンフィデンスＤ５をさらに参照する、付記１３に記載の検出システム。

上記構成により、現実空間における位置の推定結果の確度に応じて過去の検出結果を更新するか否かを決定するので、過去の検出結果としてより精度の高い情報を蓄積できる。

（付記１５）
前記蓄積手段は、前記オブジェクト情報を更新するか否かを決定するために、前記認識コンフィデンスＣ４及び前記位置コンフィデンスＤ５を参照して算出したコンフィデンススコアが、前記オブジェクト情報を参照して算出した過去の前記コンフィデンススコアより大きい場合に、前記オブジェクト情報を更新することを決定し、
前記認識コンフィデンスＣ４及び前記位置コンフィデンスＤ５の少なくとも一方が大きくなった場合に、前記コンフィデンススコアが小さくならないように前記コンフィデンススコアを算出する、付記１４に記載の検出システム。

上記構成により、過去の検出結果としてより精度の高い情報を蓄積できる。

（付記１６）
第１センサの検出値を参照して現実空間に存在するオブジェクトを検出すること、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出すること、及び、
前記第１センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出すること、を含む検出方法。

上記構成により、付記１と同様の効果を奏する。

（付記１７）
コンピュータを検出システムとして機能させるプログラムであって、
前記コンピュータを、
第１センサの検出値を参照して現実空間に存在するオブジェクトを検出する第１検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、
前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させるプログラム。

上記構成により、付記１と同様の効果を奏する。

（付記１８）
少なくとも１つのプロセッサを備え、前記プロセッサは、第１センサの検出値を参照してオブジェクトを検出する第１検出処理と、前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出処理と、前記第１センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合処理と、を実行する検出システム。

なお、この検出システムは、更にメモリを備えていてもよく、このメモリには、前記第１検出処理と、前記第２検出処理と、前記統合処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ検出システム
１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄユーザ端末
１７０Ｂ三次元センサ
１１第１検出部
１２第２検出部
１１Ａ、１１Ｂ、１１Ｃ映像認識部
１２Ａ自己位置推定部
１３Ａ、１３Ｂ、１３Ｄローカル位置推定部
１４、１４Ａ、１４Ｂ、１４Ｄ統合部
２０、２０Ａ、２０Ｄサーバ
２１Ａ、２１Ｄグローバル位置推定部
２２Ａ、２２Ｄオブジェクト情報
２３Ｄキネマティクス情報
１１０Ａ、２１０Ａ制御部
１３０Ａカメラ
１４０ＡＩＭＵ
１５０Ａディスプレイ
１６０Ａ、２６０Ａ通信部
２２０Ａ記憶部

Claims

第１センサの検出値を参照してオブジェクトを検出する第１検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、
前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、を備え、
前記第１検出手段及び前記第２検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を、それぞれの前記確度を参照して統合する、
検出システム。
前記統合手段による検出結果に基づいて、前記過去の検出結果を示すオブジェクト情報を記憶装置に蓄積する蓄積手段をさらに備え、
前記第２検出手段は、前記オブジェクト情報を参照して前記オブジェクトを検出する、請求項１に記載の検出システム。
前記第１検出手段は、ユーザ端末に搭載されたカメラを前記第１センサとして用いて、前記カメラが撮影した撮影画像を参照して前記オブジェクトを検出し、
前記第２検出手段は、前記オブジェクトの過去の検出結果を参照することに加えて、前記ユーザ端末の位置及び向きを検出する第２センサの検出値をさらに参照して、前記ユーザ端末の位置から見た前記オブジェクトの相対的な位置を検出する、請求項１又は２に記載の検出システム。
前記第２検出手段は、前記オブジェクトの相対的な位置として、前記ユーザ端末の位置を原点とする三次元座標系における前記オブジェクトの位置、又は、前記ユーザ端末の位置から見た二次元の視野画像における前記オブジェクトの位置を検出する、請求項３に記載の検出システム。
前記統合手段は、前記第１検出手段が検出した前記オブジェクトの位置と、前記第２検出手段が検出した前記オブジェクトの位置との関係が条件を満たすか否かに基づいて、前記第２検出手段が算出した確度を参照するか否かを決定する、請求項１から４のいずれか１項に記載の検出システム。
前記第１検出手段は、前記オブジェクトを検出するために、前記オブジェクトの大きさに関する情報をさらに参照する、請求項１から５の何れか１項に記載の検出システム。
前記第２検出手段は、前記オブジェクトを検出するために、前記オブジェクトに関するキネマティクス情報をさらに参照する、請求項１から６の何れか１項に記載の検出システム。
第１センサの検出値を参照して現実空間に存在するオブジェクトを検出する第１検出工程と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出工程と、
前記第１センサの検出値を参照することによる検出結果、及び前記過去の検出結果を参照することによる検出結果を統合して前記オブジェクトを検出する統合工程と、を含み、
前記第１検出工程及び前記第２検出工程において、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合工程において、前記第１検出工程における検出結果及び前記第２検出工程における検出結果を、それぞれの前記確度を参照して統合する、
検出方法。
コンピュータを検出システムとして機能させるプログラムであって、
前記コンピュータを、
第１センサの検出値を参照して現実空間に存在するオブジェクトを検出する第１検出手段と、
前記オブジェクトの過去の検出結果を参照して前記オブジェクトを検出する第２検出手段と、
前記第１検出手段による検出結果及び前記第２検出手段による検出結果を統合して前記オブジェクトを検出する統合手段と、として機能させ、
前記第１検出手段及び前記第２検出手段は、前記オブジェクトの検出結果の確度をそれぞれ算出し、
前記統合手段は、前記第１検出手段による検出結果及び前記第２検出手段による検出結果を、それぞれの前記確度を参照して統合する、
プログラム。