WO2023068062A1

WO2023068062A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2023068062A1
Application number: PCT/JP2022/037378
Authority: WO
Inventors: 佑介日永田; 悠石原; 皓上原; 悠西村
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-18
Filing date: 2022-10-06
Publication date: 2023-04-27

Abstract

本技術は、オペレータが複数のシステムの周囲を監視する場合の負荷を軽減することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。情報処理装置は、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、前記要注意領域を含む前記撮像画像に基づいて、第１の俯瞰画像を生成する画像処理部とを備える。本技術は、例えば、オペレータによるシステムの監視及びシステムへの介入を仲介するサーバに適用できる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、１人のオペレータが複数のシステムの周囲を監視する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。

　従来、現場にいるユーザが装着したシステムが撮像した画像を現場にいないオペレータとリアルタイムに共有し、ユーザとオペレータとがコミュニケーションできるようにする技術が提案されている。この技術を用いて、例えば、異なる位置に存在するユーザが装着したシステムが撮像した画像を、現場にいないオペレータとリアルタイムに共有することにより、１人のオペレータが複数のシステム（ユーザ）の周囲を監視することが可能である（例えば、特許文献１参照）。

特許第６８２２４１３号公報

　しかしながら、１人のオペレータが複数のシステムの周囲を監視する場合、オペレータの視覚的な負荷が大きくなる。そのため、オペレータがシステムの周囲の危険な状況を見逃してしまうおそれがある。

　本技術は、このような状況に鑑みてなされたものであり、オペレータが複数のシステムの周囲を監視する場合の負荷を軽減できるようにするものである。

　本技術の一側面の情報処理装置は、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、前記要注意領域を含む前記撮像画像に基づいて、第１の俯瞰画像を生成する画像処理部とを備える。

　本技術の一側面の情報処理方法は、情報処理装置が、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する。

　本技術の一側面のプログラムは、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する処理をコンピュータに実行させる。

　本技術の一側面においては、複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域が抽出され、前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像が生成される。

本技術を適用した情報処理システムの第１の実施の形態を示すブロック図である。ユーザ支援システムの構成例を示すブロック図である。ユーザ支援システムの具体例を示す模式図である。車両の構成例を示すブロック図である。操作端末の構成例を示すブロック図である。操作端末の具体例を示す模式図である。管理サーバの構成例を示すブロック図である。情報処理システムの処理の一例を説明するためのブロック図である。監視支援処理の第１の実施の形態を説明するためのフローチャートである。監視用画像の生成方法を説明するための図である。オペレータによる介入方法を説明するための図である。監視支援処理の第２の実施の形態を説明するためのフローチャートである。大局的な監視用画像と局所的な監視用画像の例を示す図である。車両が巡回するルートの例を示す図である。アクシデントの発生地点の例を示す図である。アクシデント対応処理を説明するためのフローチャートである。監視用画像の例を示す図である。アクシデント区間の例を示す図である。本技術を適用した情報処理システムの第２の実施の形態を示すブロック図である。学習データ生成処理を説明するためのフローチャートである。ラベルなしデータの例を示す図である。ラベルの付与方法を説明するための図である。学習データの例を示す図である。学習データ及びトークンのデータ構成例を示す図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．第１の実施の形態
　２．第２の実施の形態
　３．変形例
　４．その他

　＜＜１．第１の実施の形態＞＞
　まず、図１乃至図１８を参照して、本技術の第１の実施の形態について説明する。

　　＜情報処理システム１の構成例＞
　図１は、本技術を適用した情報処理システム１の第１の実施の形態である情報処理システム１の構成例を示している。

　情報処理システム１は、システム１１－１乃至システム１１－ｍ、操作端末１２－１乃至操作端末１２－ｎ、及び、管理サーバ１３を備える。システム１１－１乃至システム１１－ｍ、操作端末１２－１乃至操作端末１２－ｎ、及び、管理サーバ１３は、ネットワーク２１を介して相互に接続されている。

　なお、以下、システム１１－１乃至システム１１－ｍを個々に区別する必要がない場合、単にシステム１１と称する。以下、操作端末１２－１乃至操作端末１２－ｎを個々に区別する必要がない場合、単に操作端末１２と称する。

　システム１１は、例えば、ユーザの支援を行うユーザ支援システム、又は、自律的に移動する自律移動体等により構成される。

　ユーザ支援システムは、例えば、セキュリティシステム、操作支援システム、行動支援システム等により構成される。

　セキュリティシステムは、例えば、ユーザが装着又は携帯し、セキュリティシステム（ユーザ）の周囲を監視し、ユーザを危険から守るシステムである。

　操作支援システムは、例えば、ユーザが使用する装置に設けられたり、ユーザが装着又は携帯したりして、ユーザの当該装置に対する操作を支援するシステムである。操作支援の対象となる装置には、例えば、車両等のユーザ操作により移動する移動体、ユーザ操作により動作する工作機械等がある。

　行動支援システムは、例えば、ユーザに装着され、ユーザの行動を支援するシステムである。行動支援システムには、例えば、ユーザが腕、手、脚等に装着するパワースーツ、義足等がある。

　自律移動体は、例えば、自律的に移動可能な車両、ドローン、ロボット等である。また、自律移動体は、ユーザが搭乗する移動体、又は、ユーザが搭乗しない移動体のいずれであってもよい。

　操作端末１２は、オペレータにより使用される情報処理装置である。オペレータは、操作端末１２を用いて、各システム１１の周囲を監視したり、必要に応じてシステム１１に介入したりする。

　オペレータが実行する介入には、例えば、視界介入、聴覚介入、身体介入、操作介入等のうち少なくとも１つが用いられる。

　視界介入は、例えば、システム１１を使用するユーザの視界内に、システム１１を用いて視覚的な情報（以下、視覚情報と称する）を提示することにより、ユーザの視界に介入し、ユーザの支援等を行う処理である。提示される視覚情報としては、例えば、画像、表示メッセージ、光の点灯又は点滅等がある。

　聴覚介入は、例えば、システム１１を使用するユーザに対して、システム１１を用いて聴覚的な情報（以下、聴覚情報と称する）を出力することにより、ユーザの聴覚に介入し、ユーザの支援等を行う処理である。出力される聴覚情報としては、例えば、音声メッセージ、警告音、効果音等がある。

　身体介入は、例えば、システム１１を使用するユーザに対して、システム１１を用いて身体を動作させたり、身体に刺激を与えたりして、ユーザの身体に介入し、ユーザの支援等を行う処理である。

　操作介入は、例えば、システム１１を遠隔から操作することにより、システム１１の動作に介入し、システム１１又はシステム１１を操作するユーザの支援等を行う処理である。

　なお、オペレータは、操作端末１２を用いて、複数の種類の介入を組み合わせて用いることが可能である。例えば、オペレータは、操作端末１２を用いて、視界介入、聴覚介入、身体介入、及び、操作介入のうち２つ以上を組み合わせて用いることが可能である。複数の種類の介入が組み合わされることにより、例えば、よりimmersiveな(＝没入感のある)インタラクションが実現される。

　管理サーバ１３は、各システム１１と各操作端末１２との間を仲介し、オペレータ、ユーザ、及び、システム１１の支援を行う。また、管理サーバ１３は、必要に応じて、オペレータの代わりに、システム１１に介入する。さらに、管理サーバ１３は、各システム１１及び各操作端末１２に地図情報を提供する。

　　＜ユーザ支援システム５１の構成例＞
　図２は、システム１１の一例であるユーザ支援システム５１の構成例を示している。

　ユーザ支援システム５１は、外界センサ６１、内界センサ６２、操作入力部６３、通信部６４、制御部６５、及び、出力部６６を備える。

　外界センサ６１は、ユーザ支援システム５１（ユーザ）の周囲の状況をセンシングするセンサを備える。例えば、外界センサ６１は、カメラ、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）、ＴｏＦ（Time Of Flight）センサ、ミリ波レーダ、超音波センサ、距離センサ等のうち１つ以上を備える。外界センサ６１は、各センサにより得られたセンサデータ（以下、外界センサデータと称する）を制御部６５に供給する。

　外界センサデータは、ユーザの周囲を撮像した撮像画像を含む。撮像画像は、動画又は静止画のいずれであってもよい。なお、例えば、魚眼カメラ等によりユーザ支援システム５１の周囲３６０度を撮像した画像を撮像画像に用いることが可能である。

　内界センサ６２は、ユーザ支援システム５１及びユーザの状態をセンシングするセンサを備える。例えば、内界センサ６２は、ＧＮＳＳ受信機（Global Navigation Satellite System）、ＩＭＵ（Inertial Measurement Unit）等を備える。内界センサ６２は、各センサにより得られたセンサデータ（以下、内界センサデータと称する）を制御部６５に供給する。

　操作入力部６３は、各種の操作デバイスを備え、ユーザの操作に用いられる。操作入力部６３は、ユーザの操作に対応した操作信号を制御部６５に供給する。

　通信部６４は、各種の通信デバイスを備え、ネットワーク２１を介して、他のシステム１１、操作端末１２、管理サーバ１３等の他の装置と通信可能である。通信部６４は、他の装置から受信したデータを制御部６５に供給し、他の装置に送信するデータを制御部６５から取得する。

　制御部６５は、例えば、ＣＰＵ等のプロセッサを備える。制御部６５は、ユーザ支援システム５１の制御及び各種の処理を実行する。制御部６５は、位置推定部７１、認識部７２、情報処理判断部７３、及び、出力制御部７４を備える。

　位置推定部７１は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム５１（ユーザ）の位置及び姿勢を推定する。

　認識部７２は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム５１の周囲の状況、並びに、ユーザ支援システム５１及びユーザの状態を認識する。例えば、認識部７２は、ユーザ支援システム５１の周囲の物体の認識処理を実行し、物体の種類、位置、大きさ、形、動き等を認識する。

　情報処理判断部７３は、操作入力部６３からの操作信号、位置推定部７１の推定結果、及び、認識部７２の認識結果に基づいて、各種の情報処理を実行したり、ユーザ支援システム５１の動作や処理についての判断及び制御を行ったりする。また、例えば、オペレータ又は管理サーバ１３からの介入に従って、情報処理判断部７３が、各種の情報処理を実行したり、ユーザ支援システム５１の動作や処理についての判断及び制御を行ったりすることより、操作介入が実現される。

　出力制御部７４は、出力部６６が備える表示部８１、音声出力部８２、及び、駆動部８３の制御を行う。また、出力制御部７４は、監視用情報を生成し、通信部６４及びネットワーク２１を介して、操作端末１２及び管理サーバ１３に送信する。

　監視用情報は、例えば、ユーザ支援システム５１の周囲を撮像した撮像画像、ユーザ支援システム５１の周囲の状況の認識結果、並びに、ユーザ支援システム５１及びユーザの状態の認識結果を含む。

　出力部６６は、表示部８１、音声出力部８２、及び、駆動部８３を備える。

　表示部８１は、ディスプレイ、ヘッドマウントディスプレイ等の各種の表示デバイスを備え、視覚情報を出力する。また、例えば、オペレータ又は管理サーバ１３からの介入に従って、表示部８１が視覚情報を出力することにより、視界介入が実現される。

　音声出力部８２は、ヘッドフォン、イヤフォン、スピーカ等の各種の音声出力デバイスを備え、聴覚情報を出力する。また、例えば、オペレータ又は管理サーバ１３からの介入に従って、音声出力部８２が聴覚情報を出力することにより、聴覚介入が実現される。

　駆動部８３は、例えば、触覚（タクタイル）や健康に害のない程度の軽微な電気刺激をユーザの身体に与えるアクチュエータ等により構成される。例えば、駆動部８３は、ユーザが、腕、手、脚等に装着するパワースーツや、外骨格を駆動することで身体の運動を補助又は拘束する装置により構成される。また、例えば、オペレータ又は管理サーバ１３からの介入に従って、駆動部８３がユーザの身体を動作させたり、ユーザの身体に刺激を与えたりすることにより、身体介入が実現される。

　図３は、ユーザ支援システム５１の装着例を示している。この例では、ユーザ支援システム５１が、ユーザの頭部に装着されるリング状のウエアラブルデバイスである例が示されている。

　なお、ユーザ支援システム５１は、他の種類のウエアラブルデバイスにより構成されてもよい。また、ユーザ支援システム５１は、２以上の装置の組み合わせにより構成されてもよい。例えば、ユーザ支援システム５１は、ウエアラブルデバイスとスマートフォンの組み合わせにより構成されてもよい。

　なお、以下、ユーザ支援システム５１の各部が、通信部６４及びネットワーク２１を介して、他の装置と通信を行う場合、通信部６４及びネットワーク２１の記載を省略する。例えば、制御部６５が、通信部６４及びネットワーク２１を介して、管理サーバ１３とデータの送受信を行う場合、制御部６５が、管理サーバ１３とデータの送受信を行うと記載する。

　　＜車両１０１の構成例＞
　図４は、システム１１の一例である車両１０１の構成例を示している。車両１０１は、自動運転により自律的な移動が可能な車両である。

　車両１０１は、外界センサ１１１、内界センサ１１２、センサ情報取得部１１３、位置推定部１１４、認識部１１５、監視用情報送信部１１６、アンテナ１１７、差分検出部１１８、遠隔操作受信部１１９、アクシデント検出部１２０、状況判断部１２１、経路生成部１２２、車両制御部１２３、地図情報受信部１２４、地図更新部１２５、及び、地図ＤＢ（データベース）１２６を備える。

　外界センサ１１１は、車両１０１の周囲の状況の認識に用いられる各種のセンサを備える。例えば、外界センサ１１１は、カメラ、レーダ、ＬｉＤＡＲ、超音波センサ、距離センサ等のうち１つ以上を備える。外界センサ１１１は、各センサから出力されるセンサデータ（以下、外界センサデータと称する）をセンサ情報取得部１１３に供給する。外界センサデータは、車両１０１の周囲を撮像した撮像画像を含む。

　内界センサ１１２は、車両１０１の状態の認識に用いられる各種のセンサを備える。例えば、内界センサ１１２は、ＧＮＳＳ受信機、ＩＭＵ、速度センサ、アクセルセンサ、ブレーキセンサ、車輪速センサ等を備える。内界センサ６２は、各センサにより得られたセンサデータ（以下、内界センサデータと称する）をセンサ情報取得部１１３に供給する。

　センサ情報取得部１１３は、外界センサデータ及び内界センサデータを位置推定部１１４、認識部１１５、及び、監視用情報送信部１１６に供給する。

　位置推定部１１４は、外界センサデータ及び内界センサデータに基づいて、車両１０１の位置及び姿勢を推定する。位置推定部１１４は、車両１０１の位置及び姿勢の推定結果を示す情報を認識部１１５に供給する。

　認識部１１５は、外界センサデータ、内界センサデータ、並びに、車両１０１の位置及び姿勢の推定結果に基づいて、車両１０１の周囲の状況、及び、車両１０１の状態を認識する。例えば、認識部１１５は、車両１０１の周囲の物体の認識処理を実行し、物体の種類、位置、大きさ、形、動き等を認識する。認識部１１５は、認識結果を示す情報を、監視用情報送信部１１６、差分検出部１１８、及び、状況判断部１２１に供給する。

　監視用情報送信部１１６は、アンテナ１１７及びネットワーク２１を介して、操作端末１２及び管理サーバ１３に監視用情報を送信する。

　監視用情報は、例えば、車両１０１の周囲を撮像した撮像画像、車両１０１の位置及び姿勢の推定結果、並びに、車両１０１の周囲の状況及び車両の１０１の状態の認識結果を含む。撮像画像は、動画又は静止画のいずれであってもよい。

　差分検出部１１８は、認識部１１５により認識された車両１０１の周囲の状況と、地図ＤＢ１２６に蓄積されている地図情報との差分の検出処理を実行する。差分検出部１１８は、車両１０１の周囲の状況と地図情報との差分の検出結果を示す差分情報をアクシデント検出部１２０及び地図更新部１２５に供給する。

　遠隔操作受信部１１９は、ネットワーク２１及びアンテナ１１７を介して、車両１０１を遠隔操作するための遠隔操作信号を、操作端末１２又は管理サーバ１３から受信する。遠隔操作受信部１１９は、受信した遠隔操作信号をアクシデント検出部１２０及び車両制御部１２３に供給する。

　アクシデント検出部１２０は、差分情報及び遠隔操作信号に基づいて、車両１０１の周囲のアクシデントの検出処理を実行する。ここで、アクシデントとは、例えば、車両１０１の通行に支障をもたらす外部の事象である。具体的には、例えば、災害、事故、工事、障害物、道路の破損等が、アクシデントして想定される。アクシデント検出部１２０は、アクシデントの検出結果を示すアクシデント情報を状況判断部１２１に供給する。

　状況判断部１２１は、監視用情報及びアクシデント情報に基づいて、走行方式を制御する。ここで、走行方式とは、例えば、通常走行、低速走行、マニュアル走行、オペレータの操作介入に従った走行等である。通常走行及び低速走行は、車両１０１が自動運転により自律的に走行する方式である。マニュアル走行は、運転者の操作により走行する方式である。状況判断部１２１は、設定した車両１０１の走行方式を経路生成部１２２に通知するとともに、監視用情報及びアクシデント情報を経路生成部１２２に供給する。

　経路生成部１２２は、車両１０１が自律的に走行する場合、監視用情報、アクシデント情報、及び、地図ＤＢ１２６に蓄積されている地図情報に基づいて、車両１０１が走行する経路を示す経路情報を生成する。経路生成部１２２は、経路情報を車両制御部１２３に供給する。

　車両制御部１２３は、経路情報、遠隔操作信号、又は、運転者による操作に従って、車両１０１の走行を制御する。

　地図情報受信部１２４は、ネットワーク２１及びアンテナ１１７を介して、管理サーバ１３から地図情報を受信する。地図情報受信部１２４は、受信した地図情報を地図更新部１２５に供給する。

　地図更新部１２５は、地図ＤＢ１２６に蓄積されている地図情報を、外部から受信した地図情報に更新する。なお、地図更新部１２５は、差分情報に基づいて、必要に応じて地図ＤＢ１２６に蓄積されている地図情報を修正する。

　なお、以下、車両１０１の各部が、アンテナ１１７及びネットワーク２１を介して、他の装置と通信を行う場合、アンテナ１１７及びネットワーク２１の記載を省略する。例えば、監視用情報送信部１１６が、アンテナ１１７及びネットワーク２１を介して、管理サーバ１３に監視用情報を送信する場合、監視用情報送信部１１６が、管理サーバ１３に監視用情報を送信すると記載する。

　　＜操作端末１２の構成例＞
　図５は、操作端末１２の構成例を示している。

　操作端末１２は、通信部１５１、制御部１５２、表示部１５３、音声出力部１５４、操作入力部１５５、撮像部１５６、及び、音声入力部１５７を備える。

　通信部１５１は、各種の通信デバイスを備え、ネットワーク２１を介して、システム１１、他の操作端末１２、管理サーバ１３等の他の装置と通信可能である。通信部１５１は、他の装置から受信したデータを制御部１５２に供給し、他の装置に送信するデータを制御部１５２から取得する。

　制御部１５２は、例えば、ＣＰＵ等のプロセッサを備える。制御部１５２は、操作端末１２の制御及び各種の処理を実行する。制御部１５２は、出力制御部１６１、行動認識部１６２、及び、介入部１６３を備える。

　出力制御部１６１は、表示部１５３による視覚情報の出力、及び、音声出力部１５４による聴覚情報の出力を制御する。

　行動認識部１６２は、撮像部１５６により撮像されるオペレータの撮像画像に基づいて、オペレータの行動（例えば、ジェスチャ）を認識する。

　介入部１６３は、操作入力部１５５若しくは音声入力部１５７を介してオペレータにより入力される情報、又は、行動認識部１６２により認識されたオペレータのジェスチャに基づいて、システム１１に対する介入を実行するための介入情報を生成する。介入情報は、例えば、視覚介入に用いる視覚情報、聴覚介入に用いる聴覚信号、又は、身体介入又は操作介入に用いられ、システム１１を遠隔操作する遠隔操作信号を含む。介入部１６３は、通信部１５１及びネットワーク２１を介して、システム１１又は管理サーバ１３に介入情報を送信する。

　表示部１５３は、例えば、ディスプレイ、ヘッドマウントディスプレイ等の各種の表示デバイスを備え、視覚情報を出力する。

　音声出力部１５４は、ヘッドフォン、イヤフォン、スピーカ等の各種の音声出力デバイスを備え、聴覚情報を出力する。

　操作入力部１５５は、各種の操作デバイスを備え、オペレータの操作に用いられる。操作入力部１５５は、オペレータの操作に対応した操作信号を制御部１５２に供給する。

　撮像部１５６は、例えば、カメラを備える。撮像部１５６は、例えば、オペレータを撮像し、得られた撮像画像を制御部１５２に供給する。

　音声入力部１５７は、例えば、マイクロフォンを備える。音声入力部１５７は、オペレータの声等を収集し、得られた音声データを制御部１５２に供給する。

　図６は、操作端末１２の装着例を示している。この例では、操作端末１２が、オペレータの頭部に装着されるヘッドマウントディスプレイである例が示されている。

　なお、操作端末１２は、他の種類のウエアラブルデバイスにより構成されてもよい。また、操作端末１２は、ＰＣ（Personal Computer）、スマートフォン、タブレット端末等のウエアラブルデバイス以外の情報処理装置により構成されてもよい。さらに、操作端末１２は、２以上の装置の組み合わせにより構成されてもよい。例えば、操作端末１２は、ウエアラブルデバイスとスマートフォンの組み合わせにより構成されてもよい。例えば、操作端末１２は、複数のディスプレイとコンピュータの組み合わせにより構成されてもよい。

　なお、以下、操作端末１２の各部が、通信部１５１及びネットワーク２１を介して、他の装置と通信を行う場合、通信部１５１及びネットワーク２１の記載を省略する。例えば、制御部１５２が、通信部１５１及びネットワーク２１を介して、管理サーバ１３とデータの送受信を行う場合、制御部１５２が、管理サーバ１３とデータの送受信を行うと記載する。

　　＜管理サーバ１３の構成例＞
　図７は、管理サーバ１３の構成例を示している。

　管理サーバ１３は、通信部２０１及び制御部２０２を備える。

　通信部２０１は、各種の通信デバイスを備える。通信部２０１は、ネットワーク２１を介して、システム１１、及び、操作端末１２等の他の装置と通信可能である。通信部２０１は、他の装置から受信したデータを制御部２０２に供給し、他の装置に送信するデータを制御部２０２から取得する。

　制御部２０２は、ＣＰＵ等のプロセッサを備え、管理サーバ１３の制御及び各種の処理を実行する。制御部２０２は、認識部２１１、画像処理部２１２、アクシデント区間設定部２１３、仲介部２１４、介入部２１５、学習部２１６、及び、地図情報提供部２１７を備える。

　認識部２１１は、システム１１から受信した監視用情報に基づいて、システム１１の周囲の状況を認識する。

　画像処理部２１２は、システム１１から取得した撮像画像に対して、各種の画像処理を実行する。例えば、画像処理部２１２は、各システム１１から取得した撮像画像に基づいて、オペレータがシステム１１の周囲の環境の監視に用いる監視用画像を生成する。

　アクシデント区間設定部２１３は、オペレータによるシステム１１への操作介入時に操作端末１２から送信される介入情報、及び、操作介入時にシステム１１から送信される監視用情報に基づいて、アクシデント区間を設定する。アクシデント区間とは、例えば、アクシデントの発生地点を含み、オペレータにより操作介入が行われた区間である。

　仲介部２１４は、操作端末１２（オペレータ）によるシステム１１の周囲の監視、及び、操作端末１２（オペレータ）によるシステム１１への介入処理を仲介する。例えば、仲介部２１４は、通信部２０１及びネットワーク２１を介して、画像処理部２１２により生成された監視用画像を操作端末１２に送信する。例えば、仲介部２１４は、操作端末１２から受信した介入情報を、通信部２０１及びネットワーク２１を介して、介入する対象となるシステム１１に送信する。このとき、仲介部２１４は、必要に応じて、介入情報の加工を行う。

　介入部２１５は、オペレータの代わりに、又は、オペレータと共に、システム１１への介入処理を実行する。例えば、介入部２１５は、システム１１への介入を実行するための介入情報を生成し、対象となるシステム１１に送信する。

　学習部２１６は、システム１１から取得した監視用情報、及び、操作端末１２から取得した介入情報に含まれる遠隔操作信号に基づいて、オペレータによるシステム１１の操作を学習する。例えば、学習部２１６は、システム１１の一種である車両１０１のオペレータによる操作を学習する。

　地図情報提供部２１７は、各システム１１及び各操作端末１２に地図情報を提供する。

　　＜情報処理システム１の処理＞
　次に、図８乃至図１８を参照して、情報処理システム１の処理について説明する。

　　　＜操作支援処理＞
　まず、図８のフローチャートを参照して、情報処理システム１により実行される操作支援処理について説明する。

　以下、ユーザがユーザ支援システム５１の操作を行い、オペレータが必要に応じて操作介入する場合の例について説明する。

　ステップＳ１において、ユーザ支援システム５１は、ユーザの状態及び操作、並びに、周囲の状況をセンシングする。具体的には、外界センサ６１は、ユーザ支援システム５１（ユーザ）の周囲の状況をセンシングし、外界センサデータを制御部６５に供給する。内界センサ６２は、ユーザ支援システム５１及びユーザの状態をセンシングし、内界センサデータを制御部６５に供給する。操作入力部６３は、ユーザ操作に伴い、ユーザ操作に対応した操作信号を制御部６５に供給する。

　位置推定部７１は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム５１（ユーザ）の位置及び姿勢を推定する。認識部７２は、外界センサデータ及び内界センサデータに基づいて、ユーザ支援システム５１の周囲の状況、並びに、ユーザ支援システム５１及びユーザの状態を認識する。

　出力制御部７４は、監視用情報を生成し、管理サーバ１３に送信する。監視用情報は、例えば、ユーザ支援システム５１の周囲を撮像した撮像画像、ユーザ支援システム５１の周囲の状況の認識結果、並びに、ユーザ支援システム５１及びユーザの状態の認識結果を含む。

　これに対して、管理サーバ１３の制御部２０２は、システム１１から監視用情報を受信する。画像処理部２１２は、監視用情報に含まれる撮像画像に基づいて、監視用画像を生成する。仲介部２１４は、オペレータの操作端末１２に監視用画像を送信する。

　これに対して、操作端末１２の制御部１５２は、管理サーバ１３から監視用画像を受信する。表示部１５３は、出力制御部１６１の制御の下に、監視用画像を表示する。オペレータは、表示部１５３に表示された監視用画像を見ながら、ユーザの周囲の状況を監視する。

　ステップＳ２において、ユーザ支援システム５１は、オペレータのサポートの必要度を推定する。例えば、認識部７２は、ステップＳ１の処理の結果に基づいて、ユーザが危険に遭遇する確率を示す危険度を推定する。情報処理判断部７３は、推定した危険度に基づいて、オペレータのサポートの必要度を推定する。例えば、サポートの必要度は、危険度が高くなるほど高くなり、危険度が低くなるほど低くなる。

　ステップＳ３において、情報処理判断部７３は、オペレータのサポートが必要であるか否かを判定する。例えば、情報処理判断部７３は、ステップＳ２の処理で推定したサポートの必要度が所定の閾値未満である場合、オペレータのサポートが必要でないと判定し、処理はステップＳ１に戻る。

　その後、ステップＳ３において、オペレータのサポートが必要であると判定されるまで、ステップＳ１乃至ステップＳ３の処理が繰り返し実行される。

　一方、ステップＳ３において、情報処理判断部７３は、ステップＳ２の処理で推定したサポートの必要度が所定の閾値以上である場合、オペレータのサポートが必要であると判定し、処理はステップＳ４に進む。

　ステップＳ４において、管理サーバ１３は、オペレータが対応可能であるか否かを判定する。

　例えば、ユーザ支援システム５１の情報処理判断部７３は、管理サーバ１３にオペレータのサポートを要求する。

　これに対して、管理サーバ１３の仲介部２１４は、ユーザ支援システム５１からのサポートの要求を受け、オペレータの操作端末１２にユーザのサポートの可否を問い合わせる。

　これに対して、操作端末１２の制御部１５２は、管理サーバ１３からのユーザのサポートの可否の問い合わせを受ける。表示部１５３は、出力制御部１６１の制御の下に、ユーザのサポートの可否を問い合わせるメッセージを表示する。

　これに対して、オペレータは、ユーザのサポートの可否を判定し、操作入力部１５５を介して、判定結果を操作端末１２に入力する。操作端末１２の介入部１６３は、オペレータによるユーザのサポートの可否の判定結果を管理サーバ１３に通知する。

　これに対して、管理サーバ１３の仲介部２１４は、オペレータによるユーザのサポートの可否の判定結果の通知を受ける。仲介部２１４が、オペレータによる判定結果に基づいて、オペレータが対応可能でないと判定した場合、処理はステップＳ５に進む。

　ステップＳ５において、ユーザ支援システム５１は、自律的に動作を停止する。具体的には、管理サーバ１３の仲介部２１４は、ユーザ支援システム５１にオペレータが対応可能でないことを通知する。

　これに対して、ユーザ支援システム５１の制御部６５は、オペレータが対応可能ないとの通知を受ける。ユーザ支援システム５１は、情報処理判断部７３の制御の下に、自律的に動作を停止する。これにより、局所的にユーザの安全が確保される。

　その後、処理はステップＳ４に戻り、ステップＳ４において、オペレータが対応可能であると判定されるまで、ステップＳ４及びステップＳ５の処理が繰り返し実行される。

　一方、ステップＳ４において、管理サーバ１３の仲介部２１４が、オペレータによる判定結果に基づいて、オペレータが対応可能であると判定した場合、処理はステップＳ６に進む。

　ステップＳ６において、管理サーバ１３は、オペレータの判断結果を取得する。例えば、オペレータは、監視用画像を見ながら、ユーザを支援するための介入方法を判断し、介入方法に関する情報を、操作入力部１５５等を用いて入力する。介入部１６３は、オペレータにより入力された情報に基づいて、ユーザ支援システム５１に対する介入を実行するための介入情報を生成する。介入部１６３は、介入情報を管理サーバ１３に送信する。

　これに対して、管理サーバ１３の制御部２０２は、介入情報を操作端末１２から受信する。

　ステップＳ７において、ユーザ支援システム５１は、ユーザの能力や状態に応じて、半自動制御を行う。具体的には、管理サーバ１３の介入部２１５は、操作端末１２から受信した介入情報をユーザ支援システム５１に送信する。

　これに対して、ユーザ支援システム５１の制御部６５は、管理サーバ１３から介入情報を受信する。例えば、情報処理判断部７３は、介入情報に基づいて、ユーザの能力や状態に応じて、オペレータの介入による自動制御の割合を決定する。出力制御部７４は、決定された自動制御の割合に基づいて、出力部６６を制御する。これにより、オペレータによる操作介入が実行される。

　その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

　以上のようにして、オペレータの介入により、ユーザを支援することができる。

　　　＜監視支援処理の第１の実施の形態＞
　例えば、オペレータが監視するシステム１１の数が多くなるほど、オペレータの負荷が大きくなる。そのため、例えば、図８のステップＳ４において、オペレータが対応可能でないと判定され、ユーザ支援システム５１が動作を停止したり、オペレータがユーザを支援できなくなったりする可能性が高くなる。

　これに対して、以下に説明するように、管理サーバ１３がオペレータの監視を支援し、オペレータの負荷を軽減する。

　ここで、図９のフローチャートを参照して、管理サーバ１３により実行される監視支援処理の第１の実施の形態について説明する。

　この処理は、例えば、管理サーバ１３の電源がオンされたとき開始され、管理サーバ１３の電源がオフされたとき終了する。

　以下、複数のシステム１１（ユーザ）の周囲の状況を監視する１人のオペレータを支援する場合を例に挙げて説明する。

　ステップＳ３１において、管理サーバ１３は、各システム１１から監視用情報を取得する。すなわち、管理サーバ１３の制御部２０２は、オペレータが監視している各システム１１から送信されてくる監視用情報を受信する。

　監視用情報は、例えば、システム１１の周囲を撮像した撮像画像、システム１１の周囲の状況の認識結果、並びに、システム１１の状態の認識結果を含む。また、監視用情報は、システム１１がユーザにより使用されている場合（例えば、システム１１が、ユーザが搭乗しないロボット等でない場合）、ユーザの状態の認識結果を含む。

　ステップＳ３２において、認識部２１１は、各システム１１の撮像画像から要注意領域を抽出する。例えば、認識部２１１は、各システム１１から受信した監視用情報に基づいて、監視用情報に含まれる撮像画像から要注意領域を抽出する。

　ここで、要注意領域とは、ユーザ又はシステム１１が注意する必要があると推測される領域である。例えば、要注意領域は、危険物を含む領域、及び、ユーザ又はシステム１１が確認する必要がある物体を含む領域を含む。

　危険物とは、例えば、ユーザ又はシステム１１に危険を及ぼす可能性がある物体、及び、逆にユーザ又はシステム１１が危険を及ぼす可能性がある物体である。例えば、危険物は、周囲の車両、歩行者、障害物等のユーザ又はシステム１１が衝突又は接触する可能性がある物体を含む。例えば、危険物は、水たまりや工事現場の穴等のユーザ又はシステム１１が転倒又は落下する可能性がある物体を含む。

　ユーザ又はシステム１１が確認する必要がある物体は、例えば、信号機、道路標識、交差点、踏切等を含む。

　なお、必ずしも全ての撮像画像から要注意領域が抽出されるとは限らず、要注意領域が抽出されない撮像画像も存在し得る。

　ステップＳ３３において、画像処理部２１２は、各要注意領域を合成することにより、監視用画像を生成する。具体的には、画像処理部２１２は、各撮像画像から要注意領域の画像（以下、要注意領域画像と称する）を抽出し、抽出した要注意領域画像を合成することにより、監視用画像を生成する。このとき、画像処理部２１２は、監視用画像において、各要注意領域画像を元の撮像画像における位置に対応する位置に配置する。これにより、各要注意領域画像が、各システム１１から見た位置が保持されたまま監視用画像内に配置され、各要注意領域を一度に俯瞰した俯瞰画像が生成される。

　なお、例えば、画像処理部２１２は、撮像画像から抽出した画像の代わりに、要注意領域に存在するオブジェクトの２次元モデル又は３次元モデルを生成し、要注意領域画像として用いてもよい。

　ステップＳ３４において、仲介部２１４は、監視用画像をオペレータに送信する。すなわち、仲介部２１４は、オペレータが使用している操作端末１２に監視用画像を送信する。

　これに対して、操作端末１２は、監視用画像を受信し、表示部１５３に表示させる。オペレータは、表示部１５３に表示された監視用画像を見ながら、各システム１１の周囲を監視する。

　ここで、図１０を参照して、監視用画像の生成方法の例について説明する。図１０は、オペレータＯＰが、ユーザＵ１乃至ユーザＵ３（が使用しているシステム１１）の周囲を監視している場合の例を示している。

　例えば、ユーザＵ１の右前方に木３０１が存在しており、ユーザＵ１のシステム１１により、木３０１を含む撮像画像が撮像される。そして、ユーザＵ１の撮像画像から、木３０１を含む領域が要注意領域として抽出される。

　例えば、ユーザＵ２の中央前方に信号機３０２が存在しており、ユーザＵ２のシステム１１により、信号機３０２を含む撮像画像が取得される。そして、ユーザＵ２の撮像画像から、信号機３０２を含む領域が要注意領域として抽出される。

　例えば、ユーザＵ３の左前方に車両３０３が存在しており、ユーザＵ３のシステム１１により、車両３０３を含む撮像画像が取得される。そして、ユーザＵ３の撮像画像から、車両３０３を含む領域が要注意領域として抽出される。

　そして、木３０１、信号機３０２、及び、車両３０３の画像を含む監視用画像３１１が生成される。木３０１、信号機３０２、及び、車両３０３は、監視用画像３１１内において、元の撮像画像内の位置に対応する位置に配置される。

　このように、実際には異なる場所に存在する木３０１、信号機３０２、及び、車両３０３が、１つの監視用画像３１１内に配置される。また、木３０１、信号機３０２、及び、車両３０３が、監視用画像内において各ユーザ（のシステム１１）から見た位置と同様の位置に配置される。

　これにより、オペレータＯＰは、監視用画像を見ることにより、各ユーザ（のシステム１１）の周囲の要注意領域を一度に確認することができる。また、監視用画像には要注意領域以外の領域が表示されないため、要注意領域の視認性が向上し、オペレータＯＰは、要注意領域を容易に認識することが可能になる。さらに、オペレータＯＰは、各ユーザ（のシステム１１）に対する要注意領域の相対位置を容易に認識することができる。すなわち、オペレータＯＰは、各ユーザ（のシステム１１）から見た要注意領域の位置を容易に認識することができる。

　ステップＳ３５において、管理サーバ１３は、オペレータにより要注意領域が指定されたか否かを判定する。

　例えば、オペレータは、監視用画像内の要注意領域のうち、ユーザ又はシステム１１を危険から回避させるために介入する必要があると判定した要注意領域が存在する場合、その要注意領域（以下、注目領域と称する）を指定する。

　なお、注目領域の指定方法は特に限定されない。例えば、オペレータは、操作入力部１５５を用いたり、ジェスチャ（例えば、指差し等）や音声を用いたりして、注目領域を指定する。

　操作端末１２の介入部１６３は、オペレータにより指定された注目領域を示す情報（以下、注目領域情報と称する）を管理サーバ１３に送信する。

　これに対して、管理サーバ１３の制御部２０２は、操作端末１２から注目領域情報を受信する。そして、仲介部２１４は、オペレータにより要注意領域が指定されたと判定し、処理はステップＳ３６に進む。

　ステップＳ３６において、仲介部２１４は、介入するシステム１１を特定する。具体的には、仲介部２１４は、注目領域情報に基づいて、オペレータにより指定された注目領域の抽出元となる撮像画像を特定する。また、仲介部２１４は、特定した撮像画像を撮像したシステム１１を特定する。これにより、介入する対象となるシステム１１（以下、介入対象システムと称する）が特定される。

　ステップＳ３７において、管理サーバ１３は、特定したシステム１１への介入を仲介する。

　例えば、オペレータは、注目領域を指定した後、介入対象システムに介入に必要な情報を操作端末１２に入力する。なお、オペレータの介入方法は、上述した視覚介入、聴覚介入、身体介入、及び、操作介入のいずれであってもよい。また、２種類以上の介入方法が組み合わされてもよい。

　また、介入な必要な情報の入力方法は、特に限定されない。例えば、オペレータは、操作入力部１５５を用いたり、ジェスチャや音声を用いたりして、介入に必要な情報を操作端末１２に入力する。

　操作端末１２の介入部１６３は、オペレータにより入力された情報に基づいて、介入情報を生成し、管理サーバ１３に送信する。

　これに対して、管理サーバ１３の仲介部２１４は、介入情報を操作端末１２から受信する。仲介部２１４は、受信した介入情報を介入対象システムに送信する。

　これに対して、介入対象システムは、介入情報を受信し、介入情報に基づいて、オペレータによる介入に従った処理を実行する。

　例えば、介入対象システムがユーザ支援システム５１の場合、出力部６６は、出力制御部７４の制御の下に、介入情報に基づいて、視覚介入、聴覚介入、身体介入、又は、操作介入に従った処理を実行する。

　例えば、介入対象システムが車両１０１の場合、車両制御部１２３は、介入情報に基づいて、車両１０１の動作を制御することにより、操作介入に従った処理を実行する。

　例えば、図１１に模式的に示されるように、オペレータＯＰが、監視用画像３１１内の車両３０３を指定し、「左手に車が来ています」という音声メッセージを操作端末１２に入力した場合、操作端末１２は、当該音声メッセージを含む介入情報を管理サーバ１３に送信する。

　これに対して、管理サーバ１３の仲介部２１４は、介入情報を操作端末１２から受信し、ユーザＵ３のシステム１１に送信する。

　これに対して、ユーザＵ３のシステム１１は、介入情報に基づいて、「左手に車が来ています」という音声メッセージを出力する。

　このようにして、オペレータによるユーザＵ３のシステム１１への聴覚介入が実現される。

　その後、処理はステップＳ３１に戻り、ステップＳ３１以降の処理が実行される。

　一方、ステップＳ３５において、仲介部２１４は、操作端末１２から注目領域情報を受信していない場合、オペレータにより要注意領域が指定されていないと判定し、処理はステップＳ３１に戻る。

　その後、ステップＳ３１以降の処理が実行される。

　以上のようにして、オペレータは、複数のシステム１１の周囲を効率的に監視することが可能になる。また、オペレータは、各システム１１の周囲の危険を迅速に察知し、容易かつ迅速にシステム１１に介入することができる。これにより、オペレータは、ユーザ又はシステム１１を迅速かつ確実に危険から回避させることができ、オペレータによる介入の信頼性が向上する。

　　　＜監視支援処理の第２の実施の形態＞
　次に、図１２のフローチャートを参照して、管理サーバ１３により実行される監視支援処理の第２の実施の形態について説明する。

　ステップＳ６１において、図９のステップＳ３１の処理と同様に、各システム１１から監視用情報が取得される。

　ステップＳ６２において、図９のステップＳ３２の処理と同様に、各システム１１の撮像画像から要注意領域が抽出される。

　ステップＳ６３において、認識部２１１は、各地点の危険度を推定する。例えば、認識部２１１は、ステップＳ６２の処理で抽出した各要注意領域の危険度を推定する。

　ここで、危険度の推定方法は、特に限定されない。例えば、認識部２１１は、要注意領域においてユーザ又はシステム１１に危険を及ぼす確率及び危険の程度、並びに、逆に要注意領域においてユーザ又はシステム１１が危険を及ぼす確率及び危険の程度等を推定する。そして、認識部２１１は、推定した結果に基づいて、要注意領域の危険度を推定する。

　また、例えば、認識部２１１は、各地点の危険度を推定する。例えば、認識部２１１は、所定の範囲内に存在する要注意領域を１つの地点にまとめる。そして、例えば、認識部２１１は、各地点内に存在する要注意領域の危険度の平均値を各地点の危険度として算出する。

　ステップＳ６４において、仲介部２１４は、大局的な監視用画像をオペレータに提示するか否かを判定する。例えば、仲介部２１４は、大局的な監視用画像をオペレータに提示する条件が満たされている場合、大局的な監視用画像をオペレータに提示すると判定し、処理はステップＳ６５に進む。

　大局的な監視用画像をオペレータに提示する条件は、例えば、オペレータにより大局的な監視用画像の提示が指示された場合、又は、危険度が所定の閾値以上の地点が存在しない場合等が想定される。

　ステップＳ６５において、画像処理部２１２は、大局的な監視用画像を生成する。

　その後、処理はステップＳ６７に進む。

　一方、ステップＳ６４において、例えば、画像処理部２１２は、局所的な監視用画像をオペレータに提示する条件が満たされている場合、局所的な監視用画像をオペレータに提示すると判定し、処理はステップＳ６６に進む。

　局所的な監視用画像をオペレータに提示する条件は、例えば、オペレータにより局所的な監視用画像の提示が指示された場合、又は、危険度が所定の閾値以上の地点が存在する場合等が想定される。

　なお、危険度が所定の閾値以上となる状況としては、例えば、災害や事故等によって、道路上に障害物が散乱したり、動線が欠損したりしている状況が想定される。この状況は、例えば、カメラや距離センサのデータに基づいて、パターンマッチングや機械学習を用いて非定常の度合いを推定することにより認識される。

　また、危険度が所定の閾値以上となる状況としては、例えば、遮断機が下りているにも関わらず、踏切へ侵入しようとしている状況が想定される。この状況は、例えば、カメラや距離センサのデータに基づいて、画像処理や機械学習を用いて、予め設定したシナリオに基づいて認識される。

　ステップＳ６６において、画像処理部２１２は、局所的な監視用画像を生成する。

　その後、処理はステップＳ６７に進む。

　ステップＳ６７において、図９のステップＳ３４の処理と同様に、監視用画像がオペレータに送信される。これにより、大局的な監視用画像又は局所的な監視用画像がオペレータに提示される。

　ここで、図１３を参照して、オペレータＯＰに提示される大局的な監視用画像と局所的な監視用画像の例について説明する。図１３の右側は、大局的な監視用画像の例を示し、左側は、局所的な監視用画像の例を示している。

　大局的な監視用画像は、要注意領域を含む各地点の分布及び危険度が地図上に俯瞰的に示される俯瞰画像である。この例では、地点Ａ乃至地点Ｃが、要注意領域を含む地点として地図上に表示されている。また、地点Ａの危険度が０．８９、地点Ｂの危険度が０．５４、地点Ｃの危険度が、０．８１であることが示されている。

　なお、例えば、危険度に応じて、各地点の位置を示す円の表示態様が変化する。例えば、危険度が高くなるほど、円が大きくなったり、円の色が濃くなったりする。一方、危険度が低くなるほど、円が小さくなったり、円の色が薄くなったりする。

　局所的な監視用画像には、例えば、最も危険度が高い地点付近の要注意領域が抽出され、合成された俯瞰画像が用いられる。局地的な監視用画像は、例えば、上述した図１０の例と同様の方法により生成される。ここでは、地点Ａ付近に存在する各システム１１の撮像画像から要注意領域が抽出され、合成された監視用画像の例が示されている。

　また、この例では、地点Ａの危険度が監視用画像内に示されている。また、特に危険度が高い要注意領域が、四角の枠（以下、バウンディングボックスと称する）で囲まれ、強調表示されている。この例では、電車３５１、車両３５２、及び、モータバイク３５３が、バウンディングボックスにより囲まれている。

　バウンディングボックスは、例えば、バウンディングボックス内の要注意領域の危険度に基づいて表示態様が変化する。例えば、危険度が高くなるほど、バウンディングボックスの枠が太くなったり、枠の色が濃くなったりする。一方、危険度が低くなるほど、バウンディングボックスの枠が細くなったり、枠の色が薄くなったりする。また、例えば、バウンディングボックス内が半透明である場合、危険度が高くなるほど、バウンディングボックス内の色が濃くなり、危険度が低くなるほど、バウンディングボックス内の色が薄くなる。

　なお、例えば、音声出力部１５４が、出力制御部１６１の制御の下に、各要注意領域内のオブジェクトに対応する音（例えば、警告音）を出力するようにしてもよい。この場合、例えば、各要注意領域の危険度に基づいて、出力音の大きさやピッチ等が変化するようにしてもよい。

　その後、処理はステップＳ６１に戻り、ステップＳ６１以降の処理が実行される。

　なお、例えば、局所的な監視用画像がオペレータに提示されている場合に、図９のステップＳ３５乃至ステップＳ３７と同様の処理が実行されるようにしてもよい。すなわち、オペレータが局所的な監視用画像内の要注意領域を指定することにより、指定した要注意領域を含む撮像画像を撮像したシステム１１への介入が行われるようにしてもよい。

　以上のようにして、オペレータは、各システム１１の周囲の状況を大局的及び局所的に監視することが可能になる。

　なお、例えば、大局的な監視用画像及び局所的な監視用画像の両方が同時にオペレータに提示されるようにしてもよい。そして、オペレータがいずれかの監視用画像を選択することにより、選択した監視用画像が拡大して表示されるようにしてもよい。

　　　＜アクシデント対応処理＞
　例えば、図１４に示されるように、自律走行するバスである車両１０１－１乃至車両１０１－４が定められたルート４０１を巡回している場合、安全を確保するために、本技術を適用して、オペレータが車両１０１－１乃至車両１０１－４の周囲を監視することが想定される。

　なお、以下、車両１０１－１乃至車両１０１－４を個々に区別する必要がない場合、単に車両１０１と称する。

　この図では、４台の車両１０１がルート４０１を巡回する例を示しているが、車両１０１の数は特に制限されない。しかし、オペレータの視覚的な負荷が大きくなるため、現実的には、１人のオペレータが監視できる車両１０１の数は、数台程度が限界となる。

　また、例えば、図１５に示されるように、ルート４０１上の地点Ｐ１においてアクシデントが発生した場合、オペレータが、アクシデントを回避するために、車両１０１に対して操作介入する必要が生じる場合が想定される。

　この場合、オペレータは、アクシデントが発生した区間を各車両１０１が走行する度に、各車両１０１に対して操作介入する必要が生じる。そのため、オペレータの負荷が増大し、オペレータの介入待ちが律速となり、車両１０１の運行が遅延するおそれがある。

　これに対して、管理サーバ１３により実行されるアクシデント対応処理について、図１６のフローチャートを参照して説明する。

　この処理は、例えば、管理サーバ１３の電源がオンされたとき開始され、オフされたとき終了する。

　なお、この処理中に、例えば、各車両１０１から管理サーバ１３に監視用情報が送信される。

　これに対して、管理サーバ１３の画像処理部２１２は、各車両１０１の監視用情報に含まれる撮像画像に基づいて、監視用画像を生成する。なお、画像処理部２１２は、例えば、各車両１０１の撮像画像をそのまま監視用画像として用いてもよいし、図９又は図１２を参照して上述した方法により監視用画像を生成するようにしてもよい。仲介部２１４は、監視用画像を操作端末１２に送信する。

　操作端末１２の表示部１５３は、出力制御部１６１の制御の下に、監視用画像を表示する。オペレータは、監視用画像を見ながら、各車両１０１の周囲を監視する。

　ステップＳ１０１において、認識部２１１は、アクシデントが発生したか否かを判定する。この処理は、アクシデントが発生したと判定されるまで、繰り返し実行され、アクシデントが発生したと判定された場合、処理はステップＳ１０２に進む。

　なお、アクシデントの検出は、管理サーバ１３、車両１０１、及び、オペレータのいずれで行ってもよい。

　例えば、管理サーバ１３の認識部２１１は、車両１０１から取得した監視用情報に基づいて、アクシデントを検出する。

　例えば、車両１０１がアクシデントを検出した場合、アクシデントの検出結果を含む監視用情報が、車両１０１から管理サーバ１３に送信される。これに対して、管理サーバ１３の認識部２１１は、車両１０１から受信した監視用情報に基づいて、アクシデントの発生を認識する。

　例えば、オペレータは、アクシデントを検出した場合、操作端末１２を用いて、アクシデントの発生を管理サーバ１３に通知する。これに対して、管理サーバ１３の認識部２１１は、操作端末１２からの通知に基づいて、アクシデントの発生を認識する。

　ステップＳ１０２において、仲介部２１４は、オペレータが操作介入したか否かを判定する。

　例えば、オペレータは、操作端末１２の表示部１５３に表示されている監視用画像を見ながら、操作介入が必要であるか否かを判定する。

　図１７は、オペレータに対して表示される監視用画像の例を示している。この例では、車両１０１の前方に障害物４１１が存在している。例えば、オペレータは、この監視用画像を見ながら、障害物４１１を避けるために、車両１０１に対して操作介入が必要か否かを判定する。

　オペレータは、操作介入が必要であると判定した場合、操作介入に必要な情報を操作端末１２に入力する。

　なお、操作介入に必要な入力方法は、特に限定されない。例えば、オペレータは、操作入力部１５５を用いたり、ジェスチャや音声を用いたりして、操作介入に必要な情報を操作端末１２に入力する。

　これに対して、操作端末１２の介入部１６３は、オペレータにより入力された情報に基づいて、介入情報を生成する。介入情報は、例えば、車両１０１を遠隔操作するための遠隔操作信号、オペレータの視線方向を示す情報を含む。介入部１６３は、介入情報を管理サーバ１３に送信する。

　これに対して、管理サーバ１３の仲介部２１４は、操作端末１２から介入情報を受信した場合、オペレータが操作介入したと判定し、処理はステップＳ１０４に進む。

　ステップＳ１０３において、管理サーバ１３は、操作介入の仲介を行う。具体的には、仲介部２１４は、操作端末１２から受信した介入情報を、操作介入の対象となる車両１０１に送信する。

　これに対して、操作介入の対象となる車両１０１の車両制御部１２３は、介入情報を管理サーバ１３から受信する。車両制御部１２３は、受信した介入情報に基づいて、車両１０１の動作を制御することにより、操作介入に従った処理を実行する。

　ステップＳ１０４において、管理サーバ１３は、操作介入に関する情報を収集する。具体的には、学習部２１６は、介入情報に含まれる遠隔操作信号に基づいて、操作介入中のオペレータの操作履歴を収集する。操作履歴は、例えば、車両１０１のステアリングホイール（操舵角）、アクセル、ブレーキの操作タイミングや操作量、並びに、操作介入した区間を含む。さらに、学習部２１６は、介入情報に含まれるオペレータの視線方向と、操作介入中にオペレータに提示された監視用画像とに基づいて、操作介入中にオペレータが視認した物体等に関する視認情報を収集する。また、学習部２１６は、車両１０１から受信した監視用情報に基づいて、操作介入時のセンサ情報を収集する。

　ステップＳ１０５において、アクシデント区間設定部２１３は、アクシデント区間を設定する。例えば、アクシデント区間設定部２１３は、ステップＳ１０４の処理で学習部２１６により収集された情報に基づいて、オペレータによる操作介入が行われた区間をアクシデント区間に設定する。

　例えば、図１８に示されるように、ルート４０１において、アクシデントが発生した地点Ｐ１を含む区間４０１Ａがアクシデント区間に設定される。

　ステップＳ１０６において、学習部２１６は、オペレータの操作を学習する。例えば、学習部２１６は、アクシデント区間におけるオペレータの操作をエキスパートとし、アクシデント区間におけるオペレータの視認情報等も利用して、アクシデント区間におけるオペレータの操作を学習する。学習部２１６は、アクシデント区間においてオペレータによる操作を模倣する学習モデルのパラメータを求め、求めたパラメータを用いて学習モデルを生成する。

　オペレータの操作の学習には、任意の学習手法を採用することが可能である。例えば、シミュレーションを組み合わせた逆強化学習、ＧＡＩＬ（Generative Adversarial Imitation Learning）を用いた逆強化学習、エキスパートの操作を利用した模倣学習等を採用することが可能である。逆強化学習を用いて再学習（Fine-tuning）を行うことにより、オペレータの操作を単純に模倣するだけでなく、車両や歩行者等の移動物体を回避することが可能な学習モデルが生成される。

　ステップＳ１０７において、介入部２１５は、学習結果に基づいて、アクシデント区間において操作介入を実行する。具体的には、介入部２１５は、アクシデント区間を走行する車両１０１に対して、学習モデルを用いて遠隔操作信号を含む介入情報を生成し、当該車両１０１に送信する。

　これに対して、当該車両１０１の車両制御部１２３は、介入情報を管理サーバ１３から受信し、受信した介入情報に基づいて、車両１０１の動作を制御することにより、操作介入に従った処理を実行する。

　これにより、オペレータを介さずに管理サーバ１３により、オペレータと同様の操作介入が、アクシデント区間を走行する車両１０１に対して実行される。その結果、オペレータの負荷を軽減しつつ、各車両１０１がアクシデントを回避できるようになる。

　ステップＳ１０８において、管理サーバ１３は、アクシデント区間を解除するか否かを判定する。例えば、認識部２１１は、車両１０１から送信されてくる監視用情報に基づいて、アクシデント区間の状況の変化を監視する。認識部２１１は、アクシデント区間の状況に大きな変化があったと判定した場合、アクシデント区間の変化をオペレータの操作端末１２に通知する。

　これに対して、操作端末１２の出力制御部１６１は、アクシデント区間の状況の変化の通知を受け、表示部１５３又は音声出力部１５４を制御して、アクシデント区間の変化をオペレータに通知する。

　これに対して、オペレータは、表示部１５３に表示される監視用画像を確認し、アクシデント区間において操作介入が不要であるか否かを判定する。オペレータは、判定結果を操作端末１２に入力する。

　なお、判定結果の入力方法は、特に限定されない。例えば、オペレータは、操作入力部１５５を用いたり、ジェスチャや音声を用いたりして、判定結果を操作端末１２に入力する。

　操作端末１２の介入部１６３は、アクシデント区間における操作介入の要否の判定結果を管理サーバ１３に通知する。

　これに対して、管理サーバ１３のアクシデント区間設定部２１３は、オペレータがアクシデント区間において操作介入が必要であると判定した場合、アクシデント区間を解除しないと判定し、処理はステップＳ１０７に戻る。

　また、アクシデント区間設定部２１３は、アクシデント区間の状況に大きな変化がない場合、アクシデント区間を解除しないと判定し、処理はステップＳ１０７に戻る。

　その後、ステップＳ１０８において、アクシデント区間を解除すると判定されるまで、ステップＳ１０７乃至ステップＳ１０８の処理が繰り返し実行される。これにより、アクシデント区間が解除されるまで、管理サーバ１３が、アクシデント区間を走行する車両１０１に対して操作介入を行う。

　一方、ステップＳ１０８において、アクシデント区間設定部２１３は、オペレータがアクシデント区間において操作介入が不要であると判定した場合、アクシデント区間を解除すると判定し、処理はステップＳ１０９に進む。

　ステップＳ１０９において、アクシデント区間設定部２１３は、アクシデント区間を解除する。アクシデント区間の解除に伴い、管理サーバ１３の介入部２１５は、車両１０１への操作介入を停止する。

　その後、処理はステップＳ１０１に戻り、ステップＳ１０１以降の処理が実行される。

　以上のようにして、オペレータの代わりに、管理サーバ１３が各車両１０１に対して操作介入を行うことにより、オペレータの負荷が軽減される。

　また、オペレータの操作介入中の操作履歴等に基づいて学習処理を実行することにより生成された学習モデルを用いて、管理サーバ１３の操作介入が実行されるため、各車両１０１が安全にアクシデントを回避することが可能になる。

　さらに、将来同様のアクシデントが発生した場合に、当該アクシデントの発生地点を含むアクシデント区間において、学習済みの学習モデルを用いて管理サーバ１３が操作介入を行うことにより、各車両１０１が安全にアクシデントを回避することが可能になる。

　＜＜２．第２の実施の形態＞＞
　次に、図１９乃至図２４を参照して、本技術の第２の実施の形態について説明する。

　上述したように、管理サーバ１３の認識部２１１は、撮像画像から要注意領域を抽出する処理を実行する。この処理において、認識部２１１は、例えば、撮像画像内の危険物を認識し、危険物を含む領域を要注意領域として抽出する。

　この場合、認識部２１１は、例えば、撮像画像内の状況や物体が危険であるか否かを判定する必要がある。この判定処理に、例えば、機械学習により得られた学習モデルを用いることが可能である。

　また、より多くの学習データを用いて機械学習を実行することにより、学習モデルの精度が向上する。しかし、大量の良質な学習データを収集するには、大量のデータに正確なラベルを付与する必要がある。

　これに対して、本技術の第２の実施の形態は、学習用のデータに正確なラベルを迅速に付与できるようにするものである。

　　＜情報処理システム５０１の構成例＞
　図１９は、本技術を適用した情報処理システムの第２の実施の形態である情報処理システム５０１の構成例を示している。

　情報処理システム５０１は、データ送信端末５１１、ラベルなしデータサーバ５１２、学習データ生成サーバ５１３、クライアント端末５１４－１乃至クライアント端末５１４－ｎ、及び、学習データサーバ５１５を備える。

　以下、クライアント端末５１４－１乃至クライアント端末５１４－ｎを個々に区別する必要がない場合、単にクライアント端末５１４と称する。

　データ送信端末５１１は、ラベル付けの対象となるラベルなしデータを選択し、選択したラベルなしデータをラベルなしデータサーバ５１２にアップロードする。ラベルなしデータは、ラベルが付与されていないデータである。

　学習データ生成サーバ５１３は、ラベルなしデータサーバ５１２からラベルなしデータを取得し、各クライアント端末５１４に送信する。

　各クライアント端末５１４は、ラベルなしデータを評価者に提示する。ここで、評価者は、ラベルを付与する作業を行うユーザのことである。

　各クライアント端末５１４は、評価者により付与されたラベルを取得し、ラベルなしデータに付与することにより、ラベル付きデータを生成する。各クライアント端末５１４は、ラベル付きデータを学習データ生成サーバ５１３に送信する。

　学習データ生成サーバ５１３は、各評価者により付与されたラベルに基づいて、正解ラベルを決定する。学習データ生成サーバ５１３は、ラベルなしデータに正解ラベルを付与することにより、学習データを生成する。学習データ生成サーバ５１３は、学習データを学習データサーバ５１５に保存する。

　そして、データ利用者は、学習データサーバ５１５に保存されている学習データを利用して、機械学習を行う。

　　＜学習データ生成処理＞
　次に、図２０のフローチャートを参照して、情報処理システム５０１により実行される学習データ生成処理の詳細について説明する。

　ステップＳ２０１において、データ送信端末５１１は、ラベル付けするデータを選択する。すなわち、データ送信端末５１１は、まだラベル付けが済んでいないラベルなしデータのうちの１つを、ラベル付けするデータに選択する。

　図２１は、ラベルなしデータの例を示している。この例では、ラベルなしデータは、画像及びセンサ情報を含む。画像は、動画及び静止画のいずれでもよい。センサ情報は、例えば、画像内に示される状況下で所定のセンサにより検出された情報である。例えば、センサ情報は、画像内の車両の速度を示す情報を含む。

　ステップＳ２０２において、データ送信端末５１１は、選択したデータをラベルなしデータサーバ５１２にアップロードする。

　ステップＳ２０３において、学習データ生成サーバ５１３は、ラベル付けする対象となるデータを各クライアント端末５１４に配布する。具体的には、学習データ生成サーバ５１３は、データ送信端末５１１からアップロードされたデータをラベルなしデータサーバ５１２から取得し、各クライアント端末５１４に送信する。

　ステップＳ２０４において、各クライアント端末５１４は、配布されたデータにラベルを付与する。

　例えば、図２２に示されるように、クライアント端末５１４は、取得したラベルなしデータに含まれる画像及びセンサ情報により示される状況を評価者に提示する。また、クライアント端末５１４は、「これは危険ですか？」というメッセージを表示したり、音声を出力したりすることにより、提示した状況が危険であるか否かを評価者に問い合わせる。

　これに対して、評価者は、提示された状況が危険であるか否かを判断し、判断した結果を示すラベルをクライアント端末５１４に入力する。例えば、評価者は、「危険」又は「大丈夫」のいずれかの値のラベルを入力する。

　クライアント端末５１４は、評価者により入力されたラベルを配布されたデータに付与することにより、ラベル付きデータを生成する。

　ステップＳ２０５において、学習データ生成サーバ５１３は、ラベル付きデータを各クライアント端末５１４から収集する。

　ステップＳ２０６において、学習データ生成サーバ５１３は、収集したデータに付与されたラベルに基づいて、正解ラベルを決定する。例えば、学習データ生成サーバ５１３は、収集したラベル付きデータに付与されているラベルの中から、多数決で正解ラベルを決定する。すなわち、学習データ生成サーバ５１３は、収集したラベル付きデータに付与されているラベルのうち最も数が多いラベルを正解ラベルに決定する。

　学習データ生成サーバ５１３は、ラベル付けの対象になっているデータに正解ラベルを付与することにより、学習データを生成する。

　例えば、図２３に示されるように、図２１のラベルなしデータに、値が「危険」である正解ラベルが付与されることにより、学習データが生成される。

　ステップＳ２０７において、学習データ生成サーバ５１３は、正解ラベルを付与した評価者にトークンを配布する。トークンは、例えば、報酬と交換可能なデータである。なお、トークンにより交換可能な報酬の種類は、特に限定されない。

　具体的には、学習データ生成サーバ５１３は、正解ラベルが付与されたラベル付きデータの送信元であるクライアント端末５１４にトークンを送付する。これにより、正解ラベルを付与した評価者にトークンが配布される。

　図２４の右側は、トークンのデータ構成例を示している。トークンは、データＩＤ及びトークンＩＤを含む。

　データＩＤは、正解ラベルを付与したデータを識別するためのＩＤである。

　トークンＩＤは、配布したトークンを識別するためのＩＤである。

　ステップＳ２０８において、学習データ生成サーバ５１３は、学習データと配布したトークンを紐づける。例えば、学習データ生成サーバ５１３は、学習データに、配布したトークンに関する情報を追加することにより、学習データと配布したトークンを紐づける。

　図２４の左側は、配布したトークンに関する情報を紐づけた後の学習データのデータ構成例を示している。学習データは、データ、ラベル、データＩＤ、及び、トークンＩＤリストを含む。

　データＩＤは、配布したトークンに含まれるデータＩＤと対応する。

　トークンＩＤリストは、トークンが配布された評価者毎にトークンＩＤ及びユーザＩＤの組を含む。トークンＩＤは、配布したトークンに含まれるトークンＩＤと対応する。ユーザＩＤは、トークンが配布された評価者を識別するためのＩＤである。

　これにより、学習データ毎に、正解ラベルを付与することによりトークンが配布された評価者を把握することが可能になる。

　ステップＳ２０９において、学習データ生成サーバ５１３は、学習データを学習データサーバ５１５に保存する。

　以上の処理が繰り返されることにより、適切なラベルが付与された学習データを大量かつ迅速に収集することができる。

　すなわち、複数の評価者により付与されたラベルの中から多数決で正解ラベルが決定される。また、正解ラベルを付与した評価者にトークンが配布されるため、各評価者が適切なラベルを付与するように動機づけられる。これにより、ラベルの精度が向上する。また、不適切なラベルが付与されることが抑制される。

　また、不特定多数の評価者がラベル付けに参加できるため、各データに対するラベルを迅速に収集することができる。

　さらに、正解ラベルが多数決により決定され、正解ラベルの内容を確認する作業が省略されるため、より低コストで迅速に各データに正解ラベルを付与することができる。

　なお、例えば、各学習データのトークンＩＤリストに基づいて、評価者毎に正解ラベルを付与する確率（以下、正解率と称する）を算出することが可能である。これにより、各評価者の優劣を判定することができ、例えば、評価者の優劣に基づいて、報酬を変えることができる。例えば、正解率が高い評者者ほど、付与する報酬を高価にすることができる。

　また、例えば、正解ラベルを付与した評価者に、トークンではなく、お金等の報酬を直接付与するようにしてもよい。

　さらに、例えば、複数のデータをまとめて評価者に配布し、各データにラベルをまとめて付与してもらうようにしてもよい。

　また、データ利用者は、学習データサーバ５１５に蓄積されている学習データを個別に利用してもよいし、複数の学習データをまとめた学習データ群を利用してもよい。なお、学習データ群は、例えば、データの種類や使用目的等により分類される。

　また、データ利用者は、学習データを管理するデータ管理者に学習データ毎に対価を与えてもよいし、学習データ群に対して対価を与えてもよい。いずれの場合も、トークンＩＤリストにより、各学習データに正解ラベルを付与した評価者が把握されるため、データ利用者から与えられた対価の一部を、正解ラベルを付与した評価者に還元することが可能である。

　さらに、データ管理者は、例えば、個人ではなく、会社や団体等のグループにラベル付けを依頼するようにしてもよい。この場合、例えば、グループ内の評価者の正解率の平均等に基づいて、当該グループが評価され、報酬が付与される。

　＜＜３．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　　＜処理の分担に関する変形例＞
　情報処理システム１において、各処理の分担を必要に応じて変更することが可能である。

　例えば、システム１１の周囲の状況、並びに、システム１１及びユーザの状態の認識処理の全部又は一部を、操作端末１２又は管理サーバ１３が実行するようにしてもよい。

　例えば、操作端末１２が、管理サーバ１３の処理を実行し、操作端末１２が、各システム１１に直接介入するようにしてもよい。この場合、例えば、図９及び図１２を参照して上述した監視用画像の生成処理が、操作端末１２により実行される。

　例えば、図１９等を参照して上述した学習データ生成処理を、管理サーバ１３が実行するようにしてもよい。また、学習データ生成処理により生成された学習データを用いた学習処理を、管理サーバ１３が実行するようにしてもよい。

　　＜その他の変形例＞
　図１の情報処理システム１のシステム１１を、監視用に道路等の任意の場所に設置することが可能である。この場合、例えば、当該システム１１により得られた監視用情報に基づいて、システム１１の周囲の状況が監視される。なお、当該システム１１は、特にユーザが使用したり、移動したりしないため、基本的にオペレータの介入は不要である。

　図１９等を参照して上述した学習データ生成処理は、学習方法、学習の目的、学習データの種類等に関わらず、学習データにラベルを付与する処理全般に適用することができる。

　＜＜４．その他＞＞
　　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１，ROM（Read Only Memory）１００２，RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記憶部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記憶部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記憶部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、
　前記要注意領域を含む前記撮像画像に基づいて、第１の俯瞰画像を生成する画像処理部と
　備える情報処理装置。
（２）
　前記画像処理部は、複数の前記要注意領域をそれぞれ示す複数の要注意領域画像を合成することにより前記第１の俯瞰画像を生成する
　前記（１）に記載の情報処理装置。
（３）
　前記画像処理部は、前記第１の俯瞰画像において各前記要注意領域画像を元の前記撮像画像における位置に対応する位置に配置する
　前記（２）に記載の情報処理装置。
（４）
　前記第１の俯瞰画像内の前記要注意領域のうちオペレータにより指定された前記要注意領域を含む前記撮像画像を撮像した前記システムに対して、前記オペレータによる介入を仲介する仲介部を
　さらに備える前記（３）に記載の情報処理装置。
（５）
　前記オペレータによる介入には、視覚介入、聴覚介入、身体介入、又は、操作介入のうち少なくとも１つが用いられる
　前記（４）に記載の情報処理装置。
（６）
　前記要注意領域画像は、前記撮像画像から抽出された画像である
　前記（２）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記要注意領域画像は、前記要注意領域に存在するオブジェクトの２次元モデル又は３次元モデルである
　前記（２）乃至（５）のいずれかに記載の情報処理装置。
（８）
　前記認識部は、各前記要注意領域の危険度を推定し、
　前記画像処理部は、前記要注意領域の危険度に基づいて、前記要注意領域画像の表示態様を変化させる
　前記（２）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す第２の俯瞰画像を生成する
　前記（２）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記認識部は、各前記地点の危険度を推定し、
　各前記地点の危険度に基づいて、前記第１の俯瞰画像及び前記第２の俯瞰画像のうちいずれかを選択して、オペレータが用いる操作端末に送信する
　前記（９）に記載の情報処理装置。
（１１）
　前記画像処理部は、危険度が所定の閾値以上の前記地点に含まれる前記要注意領域を示す前記要注意領域画像を合成することにより前記第１の俯瞰画像を生成する
　前記（１０）に記載の情報処理装置。
（１２）
　前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す前記第１の俯瞰画像を生成する
　前記（１）に記載の情報処理装置。
（１３）
　前記要注意領域は、危険物、及び、前記システム又は前記システムを使用するユーザが確認する必要がある物体のうち少なくとも１つを含む
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　オペレータが第１のアクシデントを回避するために前記システムである車両に対して操作介入を行った区間に基づいて、前記第１のアクシデントの発生地点を含む第１のアクシデント区間を設定するアクシデント区間設定部と、
　前記第１のアクシデント区間における前記車両に対する前記オペレータの操作を学習することにより学習モデルを生成する学習部と、
　前記学習モデルを用いて、前記第１のアクシデント区間において他の車両に対する操作介入を行う介入部と
　を備える前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記アクシデント区間設定部は、前記オペレータにより前記第１のアクシデント区間における操作介入が不要と判定された場合、前記第１のアクシデント区間を解除し、
　前記介入部は、前記第１のアクシデント区間が解除された場合、前記他の車両に対する操作介入を停止する
　前記（１４）に記載の情報処理装置。
（１６）
　前記介入部は、前記第１のアクシデントと同様の第２のアクシデントが発生した場合、前記学習モデルを用いて、前記第２のアクシデントの発生地点を含む第２のアクシデント区間において車両に対する操作介入を行う
　前記（１４）又は（１５）に記載の情報処理装置。
（１７）
　前記認識部が用いる学習モデルの学習に用いるデータに、複数の評価者により前記データに付与されたラベルに基づいて決定した正解ラベルを付与することにより、学習データを生成する学習データ生成部を
　さらに備える前記（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記学習データ生成部は、複数の前記評価者のうち、前記正解ラベルを付与した前記評価者に報酬を付与する
　前記（１７）に記載の情報処理装置。
（１９）
　情報処理装置が、
　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
　前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
　情報処理方法。
（２０）
　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
　前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
　処理をコンピュータに実行させるためのプログラム。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１　情報処理システム，　１１－１乃至１１－ｍ　システム，　１２－１乃至１２－ｍ，　１３　管理サーバ，　５１　ユーザ支援システム，　６１　外界センサ，　６２　内界センサ，　６５　制御部，　６６　出力部，　１０１　車両，　１１１　外界センサ，　１１３　内界センサ，　１１５　認識部，　１１６　監視用情報送信部，　１２０　アクシデント検出部，　１２１　状況判断部，　１２２　経路生成部，　１２３　車両制御部，　１５２　制御部，　１５３　表示部，　１５４　音声出力部，　１５５　操作入力部，　１５６　撮像部，　１５７　音声入力部，　１６１　出力制御部，　１６２　行動認識部，　１６３　介入部，　２０２　制御部，　２１１　認識部，　２１２　画像処理部，　２１３　アクシデント区間設定部，　２１４　仲介部，　２１５　介入部，　２１６　学習部，　５０１　情報処理システム，　５１３　学習データ生成サーバ，　５１４－１乃至５１４－ｎ　クライアント端末，　５１５　学習データサーバ

Claims

　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出する認識部と、
　前記要注意領域を含む前記撮像画像に基づいて、第１の俯瞰画像を生成する画像処理部と
　備える情報処理装置。
　前記画像処理部は、複数の前記要注意領域をそれぞれ示す複数の要注意領域画像を合成することにより前記第１の俯瞰画像を生成する
　請求項１に記載の情報処理装置。
　前記画像処理部は、前記第１の俯瞰画像において各前記要注意領域画像を元の前記撮像画像における位置に対応する位置に配置する
　請求項２に記載の情報処理装置。
　前記第１の俯瞰画像内の前記要注意領域のうちオペレータにより指定された前記要注意領域を含む前記撮像画像を撮像した前記システムに対して、前記オペレータによる介入を仲介する仲介部を
　さらに備える請求項３に記載の情報処理装置。
　前記オペレータによる介入には、視覚介入、聴覚介入、身体介入、又は、操作介入のうち少なくとも１つが用いられる
　請求項４に記載の情報処理装置。
　前記要注意領域画像は、前記撮像画像から抽出された画像である
　請求項２に記載の情報処理装置。
　前記要注意領域画像は、前記要注意領域に存在するオブジェクトの２次元モデル又は３次元モデルである
　請求項２に記載の情報処理装置。
　前記認識部は、各前記要注意領域の危険度を推定し、
　前記画像処理部は、前記要注意領域の危険度に基づいて、前記要注意領域画像の表示態様を変化させる
　請求項２に記載の情報処理装置。
　前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す第２の俯瞰画像を生成する
　請求項２に記載の情報処理装置。
　前記認識部は、各前記地点の危険度を推定し、
　各前記地点の危険度に基づいて、前記第１の俯瞰画像及び前記第２の俯瞰画像のうちいずれかを選択して、オペレータが用いる操作端末に送信する
　請求項９に記載の情報処理装置。
　前記画像処理部は、危険度が所定の閾値以上の前記地点に含まれる前記要注意領域を示す前記要注意領域画像を合成することにより前記第１の俯瞰画像を生成する
　請求項１０に記載の情報処理装置。
　前記画像処理部は、前記要注意領域を含む地点の分布を地図上に示す前記第１の俯瞰画像を生成する
　請求項１に記載の情報処理装置。
　前記要注意領域は、危険物、及び、前記システム又は前記システムを使用するユーザが確認する必要がある物体のうち少なくとも１つを含む
　請求項１に記載の情報処理装置。
　オペレータが第１のアクシデントを回避するために前記システムである車両に対して操作介入を行った区間に基づいて、前記第１のアクシデントの発生地点を含む第１のアクシデント区間を設定するアクシデント区間設定部と、
　前記第１のアクシデント区間における前記車両に対する前記オペレータの操作を学習することにより学習モデルを生成する学習部と、
　前記学習モデルを用いて、前記第１のアクシデント区間において他の車両に対する操作介入を行う介入部と
　を備える請求項１に記載の情報処理装置。
　前記アクシデント区間設定部は、前記オペレータにより前記第１のアクシデント区間における操作介入が不要と判定された場合、前記第１のアクシデント区間を解除し、
　前記介入部は、前記第１のアクシデント区間が解除された場合、前記他の車両に対する操作介入を停止する
　請求項１４に記載の情報処理装置。
　前記介入部は、前記第１のアクシデントと同様の第２のアクシデントが発生した場合、前記学習モデルを用いて、前記第２のアクシデントの発生地点を含む第２のアクシデント区間において車両に対する操作介入を行う
　請求項１４に記載の情報処理装置。
　前記認識部が用いる学習モデルの学習に用いるデータに、複数の評価者により前記データに付与されたラベルに基づいて決定した正解ラベルを付与することにより、学習データを生成する学習データ生成部を
　さらに備える請求項１に記載の情報処理装置。
　前記学習データ生成部は、複数の前記評価者のうち、前記正解ラベルを付与した前記評価者に報酬を付与する
　請求項１７に記載の情報処理装置。
　情報処理装置が、
　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
　前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
　情報処理方法。
　複数のシステムにより異なる位置で撮像された複数の撮像画像に基づいて、各前記システムの周囲において注意が必要な領域である要注意領域を抽出し、
　前記要注意領域を含む前記撮像画像に基づいて、俯瞰画像を生成する
　処理をコンピュータに実行させるためのプログラム。