WO2019188392A1

WO2019188392A1 - 情報処理装置、情報処理方法、プログラム、及び、移動体

Info

Publication number: WO2019188392A1
Application number: PCT/JP2019/010761
Authority: WO
Inventors: 真一郎阿部
Original assignee: ソニー株式会社
Priority date: 2018-03-29
Filing date: 2019-03-15
Publication date: 2019-10-03

Abstract

本技術は、画像内のオブジェクト毎の領域の位置を迅速に認識することができるようにする情報処理装置、情報処理方法、プログラム、及び、移動体に関する。情報処理装置は、複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、画像間の動き推定を行う動き推定部と、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部とを備える。本技術は、例えば、車両に適用することができる。

Description

情報処理装置、情報処理方法、プログラム、及び、移動体

　本技術は、情報処理装置、情報処理方法、プログラム、及び、移動体に関し、特に、画像内のオブジェクト毎の領域の検出結果を使用する場合に用いて好適な情報処理装置、情報処理方法、プログラム、及び、移動体に関する。

　従来、車両の周囲の動物体を検出し、検出した動物体の影響を除去することにより、車両の自己位置推定の精度を向上させる技術が提案されている。例えば、動物体を追跡することにより、ＳＬＡＭ（Simultaneous Localization and Mapping）の精度を向上させる技術が提案されている（例えば、非特許文献１参照）。

Wangsiripitak、外１名、Avoiding moving outliers in visual SLAM by tracking moving objects、Robotics and Automation, 2009. ICRA '09. IEEE International Conference、IEEE、２００９年１２月

　ところで、移動体の周囲の画像内の動物体領域を検出するために、例えばセマンティックセグメンテーションが用いられる。

　しかしながら、セマンティックセグメンテーションは、処理負荷が大きく、処理時間が長くなる。そのため、自動運転のようなリアルタイム性が要求される処理においては、セマンティックセグメンテーションの処理が遅延し、他の処理に悪影響を及ぼす可能性がある。

　本技術は、このような状況に鑑みてなされたものであり、画像内のオブジェクト毎の領域の位置を迅速に認識できるようにするものである。

　本技術の第１の側面の情報処理装置は、複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、画像間の動き推定を行う動き推定部と、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部とを備える。

　本技術の第１の側面の情報処理方法は、情報処理装置が、複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、画像間の動き推定を行い、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する。

　本技術の第１の側面のプログラムは、複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、画像間の動き推定を行い、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する処理をコンピュータに実行させる。

　本技術の第２の側面の移動体は、周囲を撮影する撮影部と、前記撮影部により撮影された画像のうち複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、画像間の動き推定を行う動き推定部と、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部と、前記オブジェクト領域の位置の推定結果に基づいて、所定の処理を実行する実行部とを備える。

　本技術の第１の側面においては、複数の画像内のオブジェクト毎の領域であるオブジェクト領域が検出され、画像間の動き推定が行われ、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置が推定される。

　本技術の第２の側面においては、周囲が撮影され、撮影された画像のうち複数の画像内のオブジェクト毎の領域であるオブジェクト領域が検出され、画像間の動き推定が行われ、第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置が推定され、前記オブジェクト領域の位置の推定結果に基づいて、所定の処理が実行される。

　本技術の第１の側面又は第２の側面によれば、画像内のオブジェクト毎の領域の位置を迅速に認識することができる。その結果、例えば、認識した画像内のオブジェクト毎の領域を用いる処理を迅速かつ適切に行うことができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

本技術を適用した車両の一実施の形態を示すブロック図である。車両により実行される自己位置推定処理を説明するためのフローチャートである。車両により実行される自己位置推定処理を説明するためのタイミングチャートである。周囲画像の例を示す模式図である。領域分割画像の例を示す模式図である。輪郭画像の例を示す模式図である。領域管理テーブルの例を示す図である。静止物体のオブジェクト領域の輪郭画素の画素フローの推定方法を説明するための図である。動物体のオブジェクト領域の輪郭画素の画素フローの推定方法を説明するための図である。静止物体及び動物体のオブジェクト領域の輪郭画素の画素フローを統合した例を示す図である。輪郭画素の移動例を示す図である。輪郭画像の推定方法の例を説明するための図である。オブジェクト領域の推定方法の例を説明するための図である。領域推定処理の効果を説明するための図である。自己位置推定処理の例を説明するための図である。車両により実行されるＡＥ制御及び物体認識処理を説明するためのフローチャートである。物体認識処理の例を説明するための図である。ＡＥの例を説明するための図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．その他

　＜＜１．実施の形態＞＞
　＜車両１０の構成例＞
　図１は、本技術の実施の形態に係る車両１０の構成例を示している。

　車両１０は、データ取得部１１、情報処理部１２、及び、動作制御部１３を備える。

　データ取得部１１は、車両１０の制御に用いる各種のデータを取得する。データ取得部１１は、撮影部２１及びセンサ部２２を備える。

　撮影部２１は、車両１０の周囲を撮影するカメラを備える。カメラの種類は特に限定されるものではなく、用途等に応じて任意の種類のカメラが用いられる。例えば、撮影部２１は、ＴｏＦ（Time Of Flight）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ等のうちの１つ以上を備える。撮影部２１は、車両１０の周囲を撮影した画像（以下、周囲画像と称する）を情報処理部１２に供給する。

　センサ部２２は、画像以外の車両１０の制御に用いる各種のデータを取得するセンサを備える。例えば、センサ部２２は、デプスセンサ、慣性計測装置（ＩＭＵ）、超音波センサ、レーダ、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）、ソナー、ＧＮＳＳ（Global Navigation Satellite System）受信機等を備える。センサ部２２は、各センサが取得したセンサデータを情報処理部１２に供給する。

　情報処理部１２は、車両１０の自己位置推定処理、及び、車両１０の周囲の物体の認識処理等を行う。情報処理部１２は、自己位置推定部３１、デプス推定部３２、領域検出部３３、記憶部３４、動き推定部３５、領域推定部３６、記憶部３７、マスク情報生成部３８、及び、物体認識部３９を備える。

　なお、記憶部３４と記憶部３７は、１つにまとめることも可能である。

　自己位置推定部３１は、周囲画像及びマスク情報生成部３８により生成されたマスク情報、並びに、必要に応じてセンサデータに基づいて、車両１０の自己位置推定処理を行う。自己位置推定部３１は、車両１０の自己位置の推定結果を示す情報を、動き推定部３５及び動作制御部１３に供給する。

　デプス推定部３２は、周囲画像及びセンサデータのうち少なくとも一方に基づいて、車両１０の周囲の物体までの距離を示すデプスの推定処理を行う。デプス推定部３２は、デプスの推定結果を示す情報を動き推定部３５に供給する。

　領域検出部３３は、周囲画像内のオブジェクト毎の領域（以下、オブジェクト領域と称する）を検出し、各オブジェクト領域を示す画像（以下、領域分割画像と称する）を生成する。また、領域検出部３３は、領域分割画像内の各オブジェクト領域に関する情報を示す領域管理テーブルを生成する。領域検出部３３は、領域分割画像及び領域管理テーブルを記憶部３４に記憶させる。

　なお、本明細書において、オブジェクトには、あらゆる種類の物体が含まれる。例えば、オブジェクトは、他の車両、歩行者、障害物、路面等の車両１０の周囲に存在し得る物体だけでなく、空等の周囲画像に含まれ得る物体を含む。

　動き推定部３５は、周囲画像、自己位置の推定結果、デプスの推定結果、領域管理テーブル、及び、後述する推定領域管理テーブルに基づいて、異なるフレームの周囲画像間の動き推定を行う。より具体的は、動き推定部３５は、異なるフレームの周囲画像間の画素の動きを示す画素フローの推定処理を行う。動き推定部３５は、動き推定の結果（画素フローの推定結果）を示す情報を領域推定部３６に供給する。

　領域推定部３６は、領域管理テーブル又は推定領域管理テーブル、及び、推定された画素フローに基づいて、周囲画像内のオブジェクト領域を推定し、推定した各オブジェクト領域を示す画像（以下、推定領域分割画像と称する）を生成する。また、領域推定部３６は、推定領域分割画像内の各オブジェクト領域に関する情報を示す推定領域管理テーブルを生成する。領域推定部３６は、推定領域分割画像及び推定領域管理テーブルを記憶部３７に記憶させる。

　マスク情報生成部３８は、推定領域管理テーブルに基づいて、周囲画像のうち後段の処理で使用する領域及び使用しない領域を示すマスク情報を生成する実行部である。マスク情報生成部３８は、データ取得部１１、自己位置推定部３１、及び、物体認識部３９にマスク情報を生成する。

　物体認識部３９は、周囲画像及びマスク情報、並びに、必要に応じてセンサデータに基づいて、車両１０の周囲の物体の認識処理を行う。物体認識部３９は、車両１０の周囲の物体の認識結果を示す情報を動作制御部１３に供給する。

　動作制御部１３は、車両１０の自己位置の推定結果、及び、車両１０の周囲の物体の認識結果等に基づいて、車両１０の動作を制御する。例えば、動作制御部１３は、車両１０の加速、減速、停車、操舵、自動運転等の制御を行う。

　＜車両１０の処理＞
　次に、図２乃至図１８を参照して、車両１０の処理について説明する。

　＜自己位置推定処理＞
　まず、図２のフローチャート及び図３のタイミングチャートを参照して、車両１０により実行される自己位置推定処理について説明する。

　なお、図３のタイミングチャートにおいて、時刻ｔ０乃至時刻ｔ１１は、周囲画像が撮影されるタイミングを示している。また、期間Ｔ０乃至期間Ｔ１１は、隣接するフレームの周囲画像の撮影タイミングの間の期間を示している。例えば、期間Ｔ０は時刻ｔ０と時刻ｔ１の間の期間であり、期間Ｔ１は時刻ｔ１と時刻ｔ２の間の期間である。なお、以下、時刻ｔ０乃至時刻ｔ１１に撮影された周囲画像を区別する必要がある場合、周囲画像Ｐ（ｔ０）乃至周囲画像Ｐ（ｔ１１）と称する。

　この処理は、例えば、車両１０を起動し、運転を開始するための操作が行われたとき、例えば、車両１０のイグニッションスイッチ、パワースイッチ、又は、スタートスイッチ等がオンされたとき開始される。また、この処理は、例えば、運転を終了するための操作が行われたとき、例えば、車両１０のイグニッションスイッチ、パワースイッチ、又は、スタートスイッチ等がオフされたとき終了する。

　ステップＳ１において、撮影部２１は、周囲画像を取得する。すなわち、撮影部２１は、車両１０の周囲を撮影し、その結果得られた周囲画像を情報処理部１２に供給する。

　ステップＳ２において、デプス推定部３２は、デプス推定処理を行う。すなわち、デプス推定部３２は、周囲画像及びセンサデータのうち少なくとも１つに基づいて、車両１０の周囲の物体までの距離であるデプスの推定処理を行う。

　なお、デプス推定処理には、任意の方法を用いることができる。例えば、撮影部２１がステレオカメラを備える場合、デプス推定部３２は、ステレオマッチングによりデプス推定処理を行う。或いは、例えば、センサ部２２がＬｉＤＡＲ等のデプスセンサを備える場合、デプス推定部３２は、デプスセンサからのセンサデータに基づいてデプス推定処理を行う。

　デプス推定部３２は、例えば、デプスの推定結果を示す３Ｄ情報（例えば、３Ｄポイントクラウド等）を生成し、生成した３Ｄ情報を動き推定部３５に供給する。

　ステップＳ３において、自己位置推定部３１は、自己位置推定処理を行う。すなわち、自己位置推定部３１は、車両１０の位置及び姿勢を推定する。

　なお、自己位置推定処理には、任意の方法を用いることができる。例えば、自己位置推定部３１は、周囲画像、及び、ＬｉＤＡＲ等のデプスセンサのセンサデータに基づいて、ＳＬＡＭを行うことにより、自己位置推定を行う。この場合、自己位置推定部３１は、例えば、ＧＮＳＳ受信機により受信されたＧＮＳＳ信号、ＩＭＵにより検出されたセンサデータ、レーダにより検出されたセンサデータ等を用いてもよい。

　なお、例えば、自己位置推定部３１は、最初の自己位置推定処理により、ワールド座標系における車両１０の絶対位置及び絶対姿勢を推定する。その後、自己位置推定部３１は、２回目以降の自己位置推定処理により、例えば、１つ前の自己位置推定処理により推定された車両１０の位置及び姿勢からの変化量を推定する。そして、自己位置推定部３１は、推定した車両１０の位置及び姿勢の変化量に基づいて、車両１０の絶対位置及び絶対姿勢を推定する。

　自己位置推定部３１は、車両１０の自己位置の推定結果を示す情報を動き推定部３５に供給する。

　ステップＳ４において、領域検出部３３は、領域検出処理を行うタイミングであるか否かを判定する。領域検出処理を行うタイミングであると判定された場合、処理はステップＳ５に進む。

　なお、領域検出処理は、デプス推定処理、自己位置推定処理、及び、後述する画素フロー推定処理より処理負荷が大きく、所要時間が長い。そのため、領域検出処理の実行頻度は、デプス推定処理、自己位置推定処理、及び、画素フロー推定処理の実行頻度より低く設定される。

　例えば、デプス推定処理、自己位置推定処理、及び、画素フロー推定処理は、周囲画像の撮影に同期して、周囲画像のフレーム毎に実行される。

　一方、領域検出処理は、例えば図３に示されるように、周囲画像の５フレーム毎に実行される。具体的には、時刻ｔ０、時刻ｔ５、及び、時刻ｔ１０に撮影された周囲画像に対して領域検出処理が行われる。従って、時刻ｔ０、時刻ｔ５、及び、時刻ｔ１０に撮影された周囲画像が取得された後の期間Ｔ０、期間Ｔ５、及び、期間Ｔ１０において、領域検出処理を行うタイミングであると判定される。

　ステップＳ５において、領域検出部３３は、領域検出処理を行う。

　例えば、領域検出部３３は、事前にＣＮＮ（Convolutional Neural Network）等を用いた学習処理により得られた領域分割画像生成器を用いて、周囲画像に対してセマンティックセグメンテーションを行う。これにより、周囲画像内の各画素に対して、各画素が属するオブジェクトの種類を示すラベル付けが行われる。その結果、周囲画像内の各オブジェクトに対応するオブジェクト領域が検出され、周囲画像が１以上のオブジェクト領域に分割される。

　そして、領域検出部３３は、周囲画像の各画素のラベルを示す画像（以下、領域分割画像と称する）を生成する。この各画素のラベルにより、領域分割画像内の各オブジェクト領域の位置が示され、その結果、領域分割画像は、各オブジェクト領域により分割された画像となる。

　図４は、周囲画像の具体例を模式的に示している。図４の周囲画像Ｐには、車両１１１、路面１１２、木１１３－１乃至木１１３－８、及び、空１１４が写っている。

　そして、領域検出部３３は、周囲画像Ｐに対してセマンティックセグメンテーションを行うことにより、図５に模式的に示される領域分割画像ＰＳを生成する。領域分割画像ＰＳは、周囲画像Ｐの車両１１１、路面１１２、木１１３－１乃至木１１３－８、及び、空１１４にそれぞれ対応するオブジェクト領域２１１、オブジェクト領域２１２、オブジェクト領域２１３－１乃至オブジェクト領域２１３－８、及び、オブジェクト領域２１４に分割されている。

　なお、領域分割画像ＰＳの座標系は、左上隅の画素を原点とし、水平方向をｕ軸とし、垂直方向をｖ軸とする座標系である。

　次に、領域検出部３３は、領域分割画像内の各オブジェクト領域の輪郭を検出する。

　例えば、領域検出部３３は、図５に示されるように、枠Ａ１内のオブジェクト領域２１３－７の輪郭を構成する画素（以下、輪郭画素と称する）からなる輪郭画像を検出する。領域検出部３３は、領域分割画像ＰＳ内の全てのオブジェクト領域に対して、この処理を行う。

　これにより、例えば、図６に示されるように、オブジェクト領域２１１、オブジェクト領域２１２、オブジェクト領域２１３－１乃至オブジェクト領域２１３－８、及び、オブジェクト領域２１４にそれぞれ対応する、輪郭画像２１１Ａ、輪郭画像２１２Ａ、輪郭画像２１３Ａ－１乃至輪郭画像２１３Ａ－８、及び、輪郭画像２１４Ａが検出される。

　次に、領域検出部３３は、各オブジェクト領域に関する情報を示す領域管理テーブルを生成する。

　図７は、図５の領域分割画像ＰＳに基づいて生成される領域管理テーブルの例を示している。領域管理テーブルは、ＩＤ、ラベル、動物体フラグ、及び、輪郭画素の各項目を含む。

　ＩＤは、各オブジェクト領域に一意に割り当てられる識別番号を示す。

　ラベルは、各オブジェクト領域に対応するオブジェクトの種類を示す。

　動物体フラグは、各オブジェクト領域に対応するオブジェクトが動物体か否かを示す。動物体フラグは、オブジェクトが動物体である場合に１に設定され、オブジェクトが静止物体である場合に０に設定される。

　輪郭画素は、各オブジェクト領域の輪郭画像を構成する輪郭画素の座標を示す。

　そして、領域検出部３３は、領域分割画像及び領域管理テーブルを記憶部３４に記憶させる。

　その後、処理はステップＳ６に進む。

　なお、領域検出処理は、周囲画像の複数のフレーム期間に渡って実行される。例えば、時刻ｔ０に撮影された周囲画像Ｐ（ｔ０）に対する領域検出処理は、期間Ｔ０乃至期間Ｔ４に渡って行われ、期間Ｔ５内に検出結果が取得される。

　図２に戻り、一方、ステップＳ４において、領域検出処理を行うタイミングでないと判定された場合、ステップＳ５の処理はスキップされ、処理はステップＳ６に進む。

　ステップＳ６において、動き推定部３５は、フレーム間の画素フローの推定処理を行う。

　例えば、動き推定部３５は、１フレーム前の周囲画像の輪郭画素が検出及び推定されていない場合、１フレーム前の周囲画像の全ての画素の画素フローを推定する。例えば、図３の期間Ｔ１乃至期間Ｔ４においては、まだ領域検出処理が行われておらず、１フレーム前の周囲画像の輪郭画素が検出及び推定されていないため、１フレーム前の周囲画像の全ての画素の画素フローが推定される。

　具体的には、例えば、動き推定部３５は、１フレーム前の周囲画像と現在の周囲画像との間の画像マッチングにより、各画素の画素フロー（例えば、オプティカルフロー）を推定する。

　なお、画像マッチングには、例えば、ＳＩＦＴ（Scale-Invariant Feature Transform）、テンプレート画像マッチング、Lukas-kanadeトラッカー等の任意の方法を用いることができる。

　動き推定部３５は、画素フローの推定結果を示す情報を領域推定部３６に供給する。

　一方、例えば、動き推定部３５は、１フレーム前の周囲画像の輪郭画素が検出又は推定されている場合、各輪郭画素の画素フローを推定する。例えば、図３の期間Ｔ５以降においては、１フレーム前の周囲画像の輪郭画素が検出又は推定されているため、各輪郭画素の画素フローが推定される。

　例えば、動き推定部３５は、デプス推定部３２により生成された３Ｄ情報、並びに、自己位置推定部３１により推定された、１フレーム前の周囲画像と現在のフレームの周囲画像との間の車両１０の位置及び姿勢の変化量に基づいて、静止物体のオブジェクト領域の輪郭画素の画素フローを推定する。

　例えば、図８のＡは、図５の領域分割画像ＰＳの各オブジェクト領域のうちの静止物体のオブジェクト領域の輪郭画像を示している。すなわち、図８のＡは、静止物体のオブジェクト領域２１２、オブジェクト領域２１３－１乃至オブジェクト領域２１３－８、及び、オブジェクト領域２１４にそれぞれ対応する輪郭画像２１２Ａ、輪郭画像２１３Ａ－１乃至輪郭画像２１３Ａ－８、及び、輪郭画像２１４Ａを示している。

　そして、図８のＢに模式的に示されるように、輪郭画像２１２Ａ、輪郭画像２１３Ａ－１乃至輪郭画像２１３Ａ－８、及び、輪郭画像２１４Ａを構成する各輪郭画素の画素フローが推定される。

　なお、３Ｄ情報、並びに、車両１０の位置及び姿勢の変化量に基づいて、静止物体のオブジェクト領域の輪郭画素の画素フローを推定することにより、画像マッチングを用いる場合と比較して、計算量が削減されるとともに、推定精度が向上する。

　また、動き推定部３５は、画像マッチングを用いて、動物体のオブジェクト領域の輪郭画素の画素フローを推定する。

　例えば、図９のＡは、図５の領域分割画像ＰＳの各オブジェクト領域のうちの動物体のオブジェクト領域の輪郭画像を示している。すなわち、図９のＡは、動物体のオブジェクト領域２１１に対応する輪郭画像２１１Ａを示している。

　そして、図９のＢに模式的に示されるように、輪郭画像２１１Ａを構成する各輪郭画素の画素フローが推定される。

　次に、動き推定部３５は、静止物体のオブジェクト領域の輪郭画素の画素フローと動物体のオブジェクト領域の輪郭画素の画素フローの推定結果を統合する。

　例えば、図１０に模式的に示されるように、図８のＢの各静止物体のオブジェクト領域の輪郭画素の画素フロー、及び、図９のＢの動物体のオブジェクト領域の輪郭画素の画素フローが統合される。

　動き推定部３５は、統合後の画素フローの推定結果を示す情報を領域推定部３６に供給する。

　図２に戻り、ステップＳ７において、動き推定部３５は、領域検出結果が得られているか否かを判定する。領域検出結果が得られていないと判定された場合、処理はステップＳ１に戻る。

　これは、例えば、図３の例において、時刻ｔ５より前の期間Ｔ０乃至期間Ｔ４において、最初の領域検出処理が終了する前の場合である。

　その後、ステップＳ７において、領域検出結果が得られていると判定されるまで、ステップＳ１乃至ステップＳ７の処理が繰り返し実行される。

　一方、ステップＳ７において、領域検出結果が得られていると判定された場合、処理はステップＳ８に進む。

　ステップＳ８において、動き推定部３５は、新たな領域検出結果が得られたか否かを判定する。新たな領域検出結果が得られたと判定された場合、処理はステップＳ９に進む。

　例えば、図３の例では、時刻ｔ５の前及び時刻ｔ１０の前に領域検出処理が終了し、領域検出結果が得られている。従って、その後の期間Ｔ５及び期間Ｔ１０において、新たな領域検出結果が得られたと判定される。

　ステップＳ９において、動き推定部３５は、領域検出処理中の画素フローの推定処理を行う。例えば、動き推定部３５は、領域検出処理に用いられた周囲画像と、その領域検出処理中に得られた周囲画像のうち最も新しい周囲画像との間の画素フローの推定処理を行う。

　例えば、図３の例の場合、周囲画像Ｐ（ｔ０）が領域検出処理に用いられ、その領域検出処理中に周囲画像Ｐ（ｔ１）乃至周囲画像Ｐ（ｔ４）が得られている。この場合、周囲画像Ｐ（ｔ０）と周囲画像Ｐ（ｔ４）との間の画素フローの推定処理が行われる。例えば、期間Ｔ１乃至期間Ｔ４に得られた画素フローの推定結果を画素毎に加算することにより、周囲画像Ｐ（ｔ０）と周囲画像Ｐ（ｔ４）との間の各画素の画素フローが推定される。

　また、周囲画像Ｐ（ｔ５）が領域検出処理に用いられ、その領域検出処理中に周囲画像Ｐ（ｔ６）乃至周囲画像Ｐ（ｔ９）が得られている。この場合、周囲画像Ｐ（ｔ５）と周囲画像Ｐ（ｔ９）との間の画素フローの推定処理が行われる。例えば、期間Ｔ６乃至期間Ｔ９に得られた画素フローの推定結果を輪郭画素毎に加算することにより、周囲画像Ｐ（ｔ５）と周囲画像Ｐ（ｔ９）との間の各輪郭画素の画素フローが推定される。

　動き推定部３５は、領域検出処理中の画素フローの推定結果を示す情報を領域推定部３６に供給する。

　ステップＳ１０において、領域推定部３６は、領域検出結果、及び、領域検出処理中の画素フローの推定結果に基づいて、領域推定処理を行う。

　例えば、領域推定部３６は、周囲画像において検出された各オブジェクト領域の輪郭画素を、ステップＳ９の処理で推定された画素フローを用いて移動させる。

　例えば、期間Ｔ５において、周囲画像Ｐ（ｔ０）において検出された各オブジェクト領域の輪郭画素が、周囲画像Ｐ（ｔ０）と周囲画像Ｐ（ｔ４）の間の画素フローを用いて移動される。これにより、周囲画像Ｐ（ｔ４）における各オブジェクト領域の輪郭画素の位置が推定される。

　また、例えば、期間Ｔ１０において、周囲画像Ｐ（ｔ５）において検出された各オブジェクト領域の輪郭画素が、周囲画像Ｐ（ｔ５）と周囲画像Ｐ（ｔ９）の間の画素フローを用いて移動される。これにより、周囲画像Ｐ（ｔ９）における各オブジェクト領域の輪郭画素の位置が推定される。

　次に、領域推定部３６は、移動後の各オブジェクト領域の輪郭画素に基づいて多角形近似を行うことにより、移動後の各オブジェクト領域の輪郭画像を推定する。

　次に、領域推定部３６は、推定した輪郭画像毎に多角形の内外判定を行うことにより、輪郭画像内の各画素のラベルを決定する。

　例えば、図１１に模式的に示されるように、輪郭画像２１１Ａの各輪郭画素が、画素フローを用いて枠Ａ２内の丸で示される位置に移動される。

　この場合、輪郭画像２１１Ａは、車両１０に接近する方向に移動しているため、移動後の輪郭画素間に隙間が生じる。そこで、枠Ａ２内の輪郭画素に対して多角形近似を行うことにより、図１２の輪郭画像２５１Ａが推定される。

　そして、推定した輪郭画像２５１Ａに対して多角形の内外判定が行われ、輪郭画像２５１Ａ内の各画素のラベルが決定する。これにより、図１３に模式的に示されるように、オブジェクト領域２１１の移動先のオブジェクト領域２６１が推定される。

　また、移動前のオブジェクト領域２１１の穴埋め処理が行われる。例えば、移動前のオブジェクト領域２１１内の各画素のラベルが、オブジェクト領域２１１の周囲の画素のラベルを用いた投票処理により決定される。

　このようにして、例えば、周囲画像Ｐ（ｔ０）内の各オブジェクト領域の周囲画像Ｐ（ｔ４）内における位置が推定されるとともに、移動前の各オブジェクト領域の穴埋め処理が行われる。その結果、周囲画像Ｐ（ｔ４）を各オブジェクト領域により分割した推定領域分割画像が生成される。

　また、例えば、周囲画像Ｐ（ｔ５）内の各オブジェクト領域の周囲画像Ｐ（ｔ９）内における位置が推定されるとともに、移動前の各オブジェクト領域の穴埋め処理が行われる。その結果、周囲画像Ｐ（ｔ９）を各オブジェクト領域により分割した推定領域分割画像が生成される。

　次に、領域推定部３６は、生成した推定分割領域画像の各オブジェクト領域に関する情報を示す推定領域管理テーブルを生成する。なお、推定領域管理テーブルは、図７の領域管理テーブルと同様の構成とされる。

　そして、領域推定部３６は、推定領域分割画像及び推定領域管理テーブルを記憶部３７に記憶させる。

　その後、処理はステップＳ１２に進む。

　一方、ステップＳ８において、新たな領域検出結果が得られていないと判定された場合、処理はステップＳ１１に進む。例えば、図３の期間Ｔ６乃至期間Ｔ９及び期間Ｔ１１においては、その前の期間において領域検出処理が終了していないため、新たな領域検出結果が得られていないと判定される。

　ステップＳ１１において、領域推定部３６は、１つ前の領域推定結果、及び、フレーム間の画素フローの推定結果に基づいて、領域推定処理を行う。

　例えば、領域推定部３６は、期間Ｔ６において、１つ前の期間Ｔ５の領域推定処理により生成された推定領域分割画像、及び、推定領域管理テーブルを記憶部３７から読み出す。そして、領域推定部３６は、ステップＳ１０と同様の処理により、読み出した推定領域分割画像内の各オブジェクト領域を、周囲画像Ｐ（ｔ５）と周囲画像Ｐ（ｔ６）の間の画素フローを用いて移動させる。

　これにより、例えば、周囲画像Ｐ（ｔ５）内の各オブジェクト領域の周囲画像Ｐ（ｔ６）内における位置が推定される。さらに、移動前の各オブジェクト領域の穴埋め処理が行われる。その結果、周囲画像Ｐ（ｔ６）を各オブジェクト領域により分割した推定領域分割画像が生成される。

　また、例えば、領域推定部３６は、期間Ｔ７において、１つ前の期間Ｔ６の領域推定処理により生成された推定領域分割画像、及び、推定領域管理テーブルを記憶部３７から読み出す。そして、領域推定部３６は、ステップＳ１０と同様の処理により、読み出した推定領域分割画像内の各オブジェクト領域を、周囲画像Ｐ（ｔ６）と周囲画像Ｐ（ｔ７）の間の画素フローを用いて移動させる。

　これにより、例えば、周囲画像Ｐ（ｔ６）内の各オブジェクト領域の周囲画像Ｐ（ｔ７）内における位置が推定される。さらに、移動前の各オブジェクト領域に対応する領域の穴埋め処理が行われる。その結果、位置が推定された各オブジェクト領域により周囲画像Ｐ（ｔ７）を分割した推定領域分割画像が生成される。

　また、領域推定部３６は、生成した推定分割領域画像の各オブジェクト領域に関する情報を示す推定領域管理テーブルを生成する。

　領域推定部３６は、推定領域分割画像及び推定領域管理テーブルを記憶部３７に記憶させる。

　その後、処理はステップＳ１２に進む。

　以上のステップＳ８乃至ステップＳ１１の処理により、領域検出処理により得られる領域分割画像よりリアルタイム性の高い推定領域分割画像が得られる。換言すれば、各オブジェクト領域の位置が領域分割画像より現在の位置に近い推定領域分割画像が得られる。その結果、領域分割処理のみを行う場合と比較して、各オブジェクト領域の位置をより迅速かつ詳細に認識することができる。

　例えば、図１４に示されるように、期間Ｔ４において、周囲画像Ｐ（ｔ０）に対応する領域分割画像ＰＳ（ｔ０）が得られてから、期間Ｔ９において、周囲画像Ｐ（ｔ５）に対応する領域分割画像ＰＳ（ｔ５）が得られるまでの間に、周囲画像Ｐ（ｔ４）乃至周囲画像Ｐ（ｔ８）に対応する推定領域分割画像ＰＳｅ（ｔ４）乃至推定領域分割画像ＰＳｅ（ｔ８）が得られる。

　すなわち、領域分割処理のみを行う場合、期間Ｔ４において、時刻ｔ０に撮影された周囲画像Ｐ（ｔ０）の各オブジェクト領域の位置が検出され、期間Ｔ９において、時刻ｔ５に撮影された周囲画像Ｐ（ｔ５）における各オブジェクト領域の位置が検出される。

　一方、領域推定処理を行うことにより、期間Ｔ５乃至期間Ｔ９において、時刻ｔ４乃至時刻ｔ８に撮影された周囲画像Ｐ（ｔ４）乃至周囲画像Ｐ（ｔ８）の各オブジェクト領域の位置が推定される（補間される）。すなわち、各周囲画像の各オブジェクト領域の位置が、迅速かつ詳細に認識される。

　なお、図１４では、図を分かりやすくするために、車両１１１に対応するオブジェクト領域の位置のみを移動させている。

　図２に戻り、ステップＳ１２において、マスク情報生成部３８は、領域推定結果に基づいて、マスク情報を生成する。具体的には、マスク情報生成部３８は、最新の推定領域管理テーブルを記憶部３７から読み出す。そして、マスク情報生成部３８は、推定領域管理テーブルにおいて動物体フラグが１に設定されているオブジェクト領域（以下、動物体領域と称する）をマスクしたマスク情報を生成する。このマスク情報においては、動物体領域の輪郭画素からなる輪郭画像内の各画素の画素値が０に設定され、それ以外の画素の画素値が１に設定される。マスク情報生成部３８は、生成したマスク情報を自己位置推定部３１に供給する。

　自己位置推定部３１は、次のステップＳ３の自己位置推定処理において、マスク情報を用いて周囲画像をマスクして、自己位置推定処理を行う。すなわち、自己位置推定部３１は、周囲画像のうち、マスク情報に示される動物体領域内の画像を用いずに、自己位置推定処理を行う。

　例えば、図１５に模式的に示されるように、周囲画像Ｐ１１の枠Ａ１１内の車両３０１の画像を用いずに、自己位置推定処理が行われる。

　これにより、周囲画像内の動物体を用いずに、静止物体のみを用いて車両１０の位置及び姿勢が推定されるため、推定精度が向上する。

　その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

　以上のようにして、領域分割処理のみを行う場合と比較して、各オブジェクト領域の位置の認識の遅れを抑制し、迅速かつ詳細に各オブジェクト領域の位置を認識することができる。その結果、より適切にマスク情報を生成することができ、車両１０の自己位置の推定精度が向上する。

　＜ＡＥ制御及び物体認識処理＞
　次に、図１６のフローチャートを参照して、車両１０により実行されるＡＥ（自動露出）制御及び物体認識処理について説明する。

　ステップＳ１０１乃至ステップＳ１１１において、図２のステップＳ１乃至ステップＳ１１と同様の処理が行われる。

　ステップＳ１１２において、マスク情報生成部３８は、領域推定結果に基づいて、マスク情報を生成する。具体的には、マスク情報生成部３８は、最新の推定領域管理テーブルを記憶部３７から読み出す。そして、マスク情報生成部３８は、推定領域管理テーブルにおいて演算対象となるオブジェクトのラベルが設定されているオブジェクト領域（以下、演算対象領域と称する）以外の領域をマスクしたマスク情報を生成する。このマスク情報においては、演算対象領域の輪郭画素からなる輪郭画像内の各画素の画素値が１に設定され、それ以外の画素の画素値が０に設定される。マスク情報生成部３８は、生成したマスク情報をデータ取得部１１又は物体認識部３９に供給する。

　なお、演算対象とするオブジェクトの種類は、例えば、事前に設定されていてもよいし、ユーザにより設定されてもよい。

　ステップＳ１１３において、車両１０は、マスク情報に基づいて、ＡＥ又は物体認識処理を行う。

　例えば、物体認識部３９は、周囲画像のうち、マスク情報に示される演算対象領域内の画像のみを対象に物体認識処理を行う。例えば、図１７に模式的に示されるように、周囲画像Ｐ１２の枠Ａ１２内の標識３２１の画像のみを対象に物体認識処理が行われる。これにより、所望の物体をより迅速かつ正確に認識することができる。

　また、例えば、撮影部２１は、周囲画像のうち、マスク情報に示される演算対象領域内の画像のみを用いてＡＥを行う。例えば、図１８に模式的に示されるように、周囲画像Ｐ１３の枠Ａ１３内の白飛びした領域を除いてＡＥが行われる。その結果、ＡＥを迅速かつ適切に行うことができる。例えば、特徴点が多いと推定される建物の白飛びしている部分を白飛びしないようにすることができる。

　その後、処理はステップＳ１０１に戻り、ステップＳ１０１以降の処理が実行される。

　以上のようにして、領域分割処理のみを行う場合と比較して、各オブジェクト領域の位置の認識の遅れを抑制し、迅速かつ詳細に各オブジェクト領域の位置を認識することができる。その結果、より適切にマスク情報を生成することができ、より迅速かつ正確に物体を認識したり、より迅速かつ適切にＡＥを実行したりすることができる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　以上の説明では、周囲画像のフレーム毎にデプス推定処理、自己値推定処理、及び、画素フロー推定処理を実行する例を示したが、これらの処理を複数のフレーム毎に実行するようにしてもよい。

　また、画素フローの推定処理に、デプスの推定結果及び車両１０の自己位置の推定結果を用いないようにしてもよい。

　さらに、例えば、動き推定部３５が、画素単位でなく、例えば、ブロック単位、オブジェクト単位等の動きを推定するようにしてもよい。

　また、例えば、領域検出部３３が、セマンティックセグメンテーション以外の手法を用いて、周囲画像内のオブジェクト領域の検出を行うようにしてもよい。

　さらに、以上の説明では、オブジェクト領域の検出結果及び推定結果をマスク情報の生成処理に用いる例を示したが、その他の処理に用いるようにしてもよい。その場合、例えば、該当する処理を実行する実行部が情報処理部１２に設けられる。

　また、本技術を適用可能な車両の種類は、画像内のオブジェクト領域の検出結果を用いる車両であれば特に限定されない。また、本技術は、画像内の各オブジェクト領域の検出結果を用いる各種の移動体にも適用することができる。例えば、パーソナルモビリティ、飛行機、船舶、建設機械、農業機械（トラクター）等の移動体にも本技術を適用することができる。なお、本技術が適用可能な移動体には、例えば、ドローン、ロボット等のユーザが搭乗せずにリモートで運転（操作）する移動体も含まれる。

　＜＜３．その他＞＞
　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータ５００において、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータ５００では、CPU５０１が、例えば、記憶部５０８に記録されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ５００（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インタネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ５００では、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記憶部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、
　画像間の動き推定を行う動き推定部と、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部と
　を備える情報処理装置。
（２）
　前記領域推定部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果、及び、前記第２の画像と前記第２の画像より後の第３の画像との間の動き推定の結果に基づいて、前記第３の画像内の前記オブジェクト領域の位置を推定する
　前記（１）に記載の情報処理装置。
（３）
　前記第２の画像は、前記領域検出部が前記第１の画像の次に前記オブジェクト領域を検出する第４の画像より前の画像である
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記第２の画像は、前記第４の画像の１つ前の画像である
　前記（３）に記載の情報処理装置。
（５）
　前記動き推定部は、前記オブジェクト領域の輪郭を構成する画素である輪郭画素の動きを推定し、
　前記領域推定部は、前記輪郭画素の動きの推定結果に基づいて、前記オブジェクト領域の位置を推定する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記オブジェクト領域の位置の推定結果に基づいて、所定の処理を実行する実行部を
　さらに備える前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記第１の画像及び前記第２の画像は、移動体の周囲を撮影した画像であり、
　前記実行部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果に基づいて、前記移動体の自己位置推定に用いる領域と用いない領域を示すマスク情報を生成する
　前記（６）に記載の情報処理装置。
（８）
　前記第１の画像及び前記第２の画像は、移動体の周囲を撮影した画像であり、
　前記実行部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果に基づいて、前記移動体の周囲の物体認識に用いる領域と用いない領域を示すマスク情報を生成する
　前記（６）に記載の情報処理装置。
（９）
　前記実行部は、前記第１の画像及び前記第２の画像を撮影した撮影部の露出制御に用いる領域と用いない領域を示すマスク情報を生成する
　前記（６）に記載の情報処理装置。
（１０）
　前記領域検出部は、検出した前記オブジェクト領域の位置を示す画像である領域分割画像を生成する
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記領域推定部は、推定した各前記オブジェクト領域の位置を示す画像である推定領域分割画像を生成する
　前記（１０）に記載の情報処理装置。
（１２）
　前記領域検出部は、セマンティックセグメンテーションにより前記領域分割画像を生成する
　前記（１０）又は（１１）に記載の情報処理装置。
（１３）
　情報処理装置が、
　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、
　画像間の動き推定を行い、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する
　情報処理方法。
（１４）
　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、
　画像間の動き推定を行い、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する
　処理をコンピュータに実行させるためのプログラム。
（１５）
　周囲を撮影する撮影部と、
　前記撮影部により撮影された画像のうち複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、
　画像間の動き推定を行う動き推定部と、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部と、
　前記オブジェクト領域の位置の推定結果に基づいて、所定の処理を実行する実行部と
　を備える移動体。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１０　車両，　１１　データ取得部，　１２　情報処理部，　１３　動作制御部，　２１　撮影部，　２２　センサ部，　３１　自己位置推定部，　３２　デプス推定部，　３３　領域検出部，　３５　動き推定部，　３６　領域推定部,　３８　マスク情報生成部，　３９　物体認識部

Claims

　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、
　画像間の動き推定を行う動き推定部と、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部と
　を備える情報処理装置。
　前記領域推定部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果、及び、前記第２の画像と前記第２の画像より後の第３の画像との間の動き推定の結果に基づいて、前記第３の画像内の前記オブジェクト領域の位置を推定する
　請求項１に記載の情報処理装置。
　前記第２の画像は、前記領域検出部が前記第１の画像の次に前記オブジェクト領域を検出する第４の画像より前の画像である
　請求項１に記載の情報処理装置。
　前記第２の画像は、前記第４の画像の１つ前の画像である
　請求項３に記載の情報処理装置。
　前記動き推定部は、前記オブジェクト領域の輪郭を構成する画素である輪郭画素の動きを推定し、
　前記領域推定部は、前記輪郭画素の動きの推定結果に基づいて、前記オブジェクト領域の位置を推定する
　請求項１に記載の情報処理装置。
　前記オブジェクト領域の位置の推定結果に基づいて、所定の処理を実行する実行部を
　さらに備える請求項１に記載の情報処理装置。
　前記第１の画像及び前記第２の画像は、移動体の周囲を撮影した画像であり、
　前記実行部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果に基づいて、前記移動体の自己位置推定に用いる領域と用いない領域を示すマスク情報を生成する
　請求項６に記載の情報処理装置。
　前記第１の画像及び前記第２の画像は、移動体の周囲を撮影した画像であり、
　前記実行部は、前記第２の画像内の前記オブジェクト領域の位置の推定結果に基づいて、前記移動体の周囲の物体認識に用いる領域と用いない領域を示すマスク情報を生成する
　請求項６に記載の情報処理装置。
　前記実行部は、前記第１の画像及び前記第２の画像を撮影した撮影部の露出制御に用いる領域と用いない領域を示すマスク情報を生成する
　請求項６に記載の情報処理装置。
　前記領域検出部は、検出した前記オブジェクト領域の位置を示す画像である領域分割画像を生成する
　請求項１に記載の情報処理装置。
　前記領域推定部は、推定した各前記オブジェクト領域の位置を示す画像である推定領域分割画像を生成する
　請求項１０に記載の情報処理装置。
　前記領域検出部は、セマンティックセグメンテーションにより前記領域分割画像を生成する
　請求項１０に記載の情報処理装置。
　情報処理装置が、
　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、
　画像間の動き推定を行い、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する
　情報処理方法。
　複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出し、
　画像間の動き推定を行い、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する
　処理をコンピュータに実行させるためのプログラム。
　周囲を撮影する撮影部と、
　前記撮影部により撮影された画像のうち複数の画像内のオブジェクト毎の領域であるオブジェクト領域を検出する領域検出部と、
　画像間の動き推定を行う動き推定部と、
　第１の画像内の前記オブジェクト領域の検出結果、及び、前記第１の画像と前記第１の画像より後の第２の画像との間の動き推定の結果に基づいて、前記第２の画像内の前記オブジェクト領域の位置を推定する領域推定部と、
　前記オブジェクト領域の位置の推定結果に基づいて、所定の処理を実行する実行部と
　を備える移動体。