JP6681800B2

JP6681800B2 - 制御装置、制御システム、および制御方法

Info

Publication number: JP6681800B2
Application number: JP2016140185A
Authority: JP
Inventors: 貴志住吉; 義崇平松; 真人戸上
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2020-04-15
Anticipated expiration: 2036-07-15
Also published as: CN107618036A; EP3279754A1; JP2018008358A; CN107618036B; US20180018520A1; US10339381B2

Description

本発明は、データ取得装置群を制御する制御装置、制御システム、および制御方法に関する。

近年、人間と同じ空間において移動しながら様々なサービスを提供するサービスロボットが広く開発されている。そのようなロボットの中には、人間に近い容姿で、音声やジェスチャによりコミュニケーションを行うことで利用者の意図に沿ったサービスを行うロボットがある。利用者の意図をロボットが正確に把握するためには、利用者が発する音声やジェスチャのみならず、利用者やロボットが置かれている状況や、過去に起こった事柄を把握する必要がある。

例えば、特許文献１は、利用者やロボットの位置や向きを公知のモーションキャプチャシステムおよび赤外線反射マーカにより検出し、対話が行えるような位置関係（陣形）に移動したのち、会話を開始するというロボットを開示する。対話が行える位置関係の定義として、利用者とロボットの視界、視野、距離等の条件が何通りか具体的に提示されている。

また、例えば、特許文献２は、サービス対象者を判別する方法を開示する。特許文献２は、行動認識センサによりサービス対象候補者を選び、ロボットにより確認動作を行うことで、高精度なサービスを実現する。

また、例えば、特許文献３は、ロボットが存在する環境を１つ以上の手段で認識した結果に基づきターゲット（物体）を検出し、ターゲットに関する情報を保持する方法を開示する。

また、例えば特許文献４は、環境内に設置した各種観測装置で取得した対話対象（利用者）の行動履歴にもとづきロボットの対話相手および行動を決定することで、展示会場での展示対象物の案内や推薦を行うロボットを開示する。

特開２０１２−１６１８５１号公報特開２００８−１４２８７６号公報ＷＯ２００３／０３５３３４号公報特開２００５−１３１７１３号公報

一般にサービスロボットには、案内、客寄せ、販売支援、巡回監視などの複数種類のサービスを提供することが求められる。提供すべきサービスは、ロボットの導入者により予め指定されることなく、状況に応じて適切に選択され、提供されなければならない。その際、環境をセンシングすることで得られた情報や、利用者に関する情報、過去の応対履歴情報などをデータベースとして保存し、サービス間で共有することが望まれる。

さらに、サービスの種類は将来にわたり拡張可能であることが強く望まれる。サービスで共通する機能は、サービス開発者が容易に使用可能なソフトウェアライブラリなどの形式で提供されるべきである。前述した特許文献１、特許文献２、特許文献３、特許文献４はいずれも、複数種類のサービス提供に適したデータベースシステムの形式を規定していない。

本発明は、複数種類のサービス提供に適したデータベースシステムを構築し提供することを目的とする。

本願において開示される発明の一側面となる制御システムは、空間内に存在する対象物の位置および画像を取得可能な１以上のデータ取得装置を含むデータ取得装置群と、前記データ取得装置群を制御して、前記空間内または前記対象物に対する複数の異なる処理を実行する制御装置と、を有する制御システムであって、前記データ取得装置群は、前記対象物の位置、画像および前記対象物からの音声を取得可能な特定のデータ取得装置を含み、前記制御装置は、前記複数の異なる処理に関するプログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記データ取得装置群および端末と通信可能な通信インタフェースと、を有し、前記記憶デバイスは、前記プロセッサが前記複数の異なる処理のうちいずれか１つの処理を実行したことにより、前記データ取得装置が第１対象物を検出してからの第１対象物の一連の位置および画像を示す時系列データを第１対象物に関するデータとして記憶しており、前記プロセッサは、前記複数の異なる処理の各々の処理で、前記データ取得装置が第２対象物を検出してからの前記第２対象物の一連の位置および画像を示す時系列データを第２対象物に関するデータとして前記データ取得装置から取得する取得処理と、前記記憶デバイスに記憶されている前記第１対象物に関するデータ内の前記第１対象物の画像と、前記取得処理によって取得された第２対象物に関するデータ内の前記第２対象物の画像と、に基づいて、前記第１対象物と前記第２対象物との同一性を判定する判定処理と、前記判定処理によって同一性ありと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けずに前記記憶デバイスに格納する格納処理と、を実行し、前記記憶デバイスは、前記プロセッサが前記いずれか１つの処理を実行したことにより、前記特定のデータ取得装置が第３対象物を検出してからの第３対象物の一連の位置、画像、および前記第３対象物からの音声を示す時系列データを第３対象物に関するデータとして記憶し、前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、前記取得処理において、前記特定のデータ取得装置が第４対象物を検出してからの前記第４対象物の一連の位置、画像および前記第４対象物からの音声を示す時系列データを第４対象物に関するデータとして前記特定のデータ取得装置から取得し、前記判定処理において、前記記憶デバイスに記憶されている前記第３対象物に関するデータ内の前記第３対象物の画像と、前記取得処理によって取得された第４対象物に関するデータ内の前記第４対象物の画像と、に基づいて、前記第３対象物と前記第４対象物との同一性を判定し、前記格納処理において、前記判定処理によって同一性ありと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けずに前記記憶デバイスに格納し、前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、前記第４対象物の画像の特徴に基づいて、前記第４対象物が人物であるか否かを認識する認識処理を実行し、前記認識処理によって前記第４対象物が人物であると認識された場合、前記判定処理を実行し、前記取得処理において、前記特定のデータ取得装置が前記第４対象物から所定距離以内に存在する第５対象物を検出してからの前記第５対象物の一連の位置、画像および前記第５対象物からの音声を示す時系列データを第５対象物に関するデータとして前記特定のデータ取得装置から取得し、前記認識処理において、前記第５対象物の画像の特徴に基づいて、前記第５対象物が人物であるか否かを認識し、前記第５対象物が前記第４対象物から前記所定距離以内に存在する時間帯における前記第４対象物に関するデータを、前記第５対象物の端末に送信する送信処理を実行することを特徴とする。

本発明の代表的な実施の形態によれば、複数の異なる処理で連携しながらどの対象物がいつどこに存在するかを特定することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、本実施例にかかる制御システムの利用例を示す説明図である。図２は、制御システムのハードウェア構成例を示すブロック図である。図３は、制御装置のハードウェア構成例を示すブロック図である。図４は、ロボットのハードウェア構成例を示すブロック図である。図５は、実世界ＤＢおよび時系列ＤＢの記憶内容例を示す説明図である。図６は、人物像検出・認識プログラムによる人物像検出・認識処理手順例を示すフローチャートである。図７は、音声検出・認識プログラムによる音声検出・認識処理手順例を示すフローチャートである。図８は、人物同定プログラムによる人物同定処理手順例を示すフローチャートである。図９は、物販支援における実世界ＤＢおよび時系列ＤＢの更新例を示す説明図である。図１０は、案内における実世界ＤＢおよび時系列ＤＢの更新例を示す説明図である。図１１は、案内における実世界ＤＢおよび時系列ＤＢの更新例を示す説明図である。

＜制御システムの利用例＞
図１は、本実施例にかかる制御システムの利用例を示す説明図である。空間１は、たとえば、商業施設のように、人物Ｈが出入口２から入退場して、人物Ｈが商品を購入したり、サービスの提供を受けたりする空間である。空間１は、制御装置１０により制御される。制御装置１０は、空間１に設けられたデータ処理装置を制御する。データ処理装置には、移動式のデータ処理装置と、固定式のデータ処理装置と、がある。

移動式のデータ処理装置は、空間１内を移動するデータ処理装置である。移動式のデータ処理装置は、たとえば、自律的に移動し、制御装置１０と通信するロボット２０である。ロボット２０は、制御装置１０の制御により、空間１内の音声や画像を取得して制御装置１０に送信し、人物Ｈに必要な音声や画像を制御装置１０から受信して出力するデータ処理装置である。ロボット２０は、車輪により走行してもよく、複数の脚により歩行または走行してもよい。また、ロボット２０は、ドローンのように空間１内を飛行するデータ処理装置でもよい。

固定式のデータ処理装置は、空間１内で固定されたデータ処理装置である。固定式のデータ処理装置は、たとえば、環境カメラ３０またはデジタルサイネージ４０である。環境カメラ３０は、制御装置１０の制御により、空間１内の画像を取得して制御装置１０に送信するデータ処理装置である。環境カメラ３０は、たとえば、被写体までの距離を計測可能な３次元カメラである。デジタルサイネージ４０は、制御装置１０の制御により、人間に必要な音声や画像を制御装置１０から受信して出力するデータ処理装置である。

なお、データ処理装置のうち、画像および音声を取得可能なロボット２０と、画像を取得可能な環境カメラ３０を、データ取得装置と称す。また、データ処理装置のうち、画像および音声を出力可能なロボット２０およびデジタルサイネージ４０を、データ出力装置と称す。

＜制御システムのハードウェア構成例＞
図２は、制御システムのハードウェア構成例を示すブロック図である。制御システム２００は、制御装置１０や、データ処理装置群２０１、遺失物管理システム１１３０が、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ），ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ），インターネットなどのネットワーク２０２を介して通信可能に接続されるシステムである。遺失物管理システム１１３０は、遺失物の画像、拾得日時、拾得場所、拾得者といった遺失物情報が管理されているシステムである。

＜制御装置１０のハードウェア構成例＞
図３は、制御装置１０のハードウェア構成例を示すブロック図である。制御装置１０は、第１プロセッサ３０１と、第１記憶デバイス３０２と、第１通信ＩＦ（Ｉｎｔｅｒｆａｃｅ）３０３と、これらを接続するバス３０４と、を有する。第１プロセッサ３０１は、第１記憶デバイス３０２の一部を作業エリアとして制御装置１０を制御する。第１プロセッサ３０１は、第１記憶デバイス３０２に記憶されているプログラムを実行したり、第１記憶デバイス３０２に記憶されているモデルを参照したり、実世界ＤＢ３４１および時系列ＤＢ３４２からデータを読み出したり、書き込んだりする。

第１記憶デバイス３０２は、たとえば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリである。第１記憶デバイス３０２は、メディア処理プログラム３１０と、実世界ＤＢ管理プログラム３２１と、時系列ＤＢ管理プログラム３２２と、統合制御プログラム３２３と、メディア処理モデル３３０と、実世界ＤＢ３４１と、時系列ＤＢ３４２と、を記憶する。

メディア処理プログラム３１０は、メディア処理を実行するプログラムである。メディア処理とは、メディア処理プログラム３１０に含まれる各種プログラムで実行される処理である。メディア処理プログラム３１０は、人物像検出・認識プログラム３１１と、顔検出・認識プログラム３１２と、音声検出・認識プログラム３１３と、人物同定プログラム３１４と、人物状態推定プログラム３１５と、を含む。人物像検出・認識プログラム３１１は、人物像検出・認識モデル３３１を参照して、人物像を検出し、検出した人物像がどのような人物であるかを認識するプログラムである。顔検出・認識プログラム３１２は、顔検出・認識モデル３３２を参照して、顔を検出して、検出した顔がどのような顔であるかを認識するプログラムである。音声検出・認識プログラム３１３は、音声検出・認識モデル３３３を参照して、音声を検出して、検出した音声がどのような音声であるかを認識するプログラムである。人物同定プログラム３１４は、人物同定モデル３３４を参照して、人物を同定するプログラムである。人物状態推定プログラム３１５は、人物状態推定モデル３３５を参照して、人物の状態を推定するプログラムである。

実世界ＤＢ管理プログラム３２１は、実世界ＤＢ３４１を管理するプログラムである。時系列ＤＢ管理プログラム３２２は、時系列ＤＢ３４２を管理するプログラムである。統合制御プログラム３２３は、実世界ＤＢ３４１および時系列ＤＢ３４２を参照して、データ処理装置を制御するプログラムである。たとえば、統合制御プログラム３２３は、ロボット２０の動作指示を作成してロボット２０に送信するプログラムである。

メディア処理モデル３３０は、メディア処理プログラム３１０でのメディア処理に用いられるモデルである。メディア処理モデル３３０は、人物像検出・認識モデル３３１と、顔検出・認識モデル３３２と、音声検出・認識モデル３３３と、人物同定モデル３３４と、人物状態推定モデル３３５と、を含む。

人物像検出・認識モデル３３１は、テンプレートとなる各種人物像（たとえば、体形、性別）のデータである。顔検出・認識モデル３３２は、テンプレートとなる各種顔（たとえば、顔の形、髪型、目、耳、鼻、口の大きさや形）を示すデータである。音声検出・認識モデル３３３は、テンプレートとなる各種音声モデル（たとえば、振幅に応じた音素）や音声に応じた性別や年齢層のモデルを示すデータである。音声モデルにより音声認識結果が得られ、性別や年齢層のモデルにより話者認識結果が得られる。

人物同定モデル３３４は、ある空間のある時間帯で特定される空間内人物像領域の時系列データおよび空間内音声領域の時系列データが同一人物であるか否かを同定するモデルである。具体的には、たとえば、人物同定モデル３３４は、空間内人物像領域の時系列データのしきい値と、空間内音声領域の時系列データのしきい値との組み合わせである。ある空間のある時間帯で特定される空間内人物像領域の時系列データおよび空間内音声領域の時系列データが、それぞれのしきい値以上となった場合、空間内人物像領域の時系列データおよび空間内音声領域の時系列データは、ある一人の人物を特定するデータとして同定される。

人物状態推定モデル３３５は、テンプレートとなる人物の状態（たとえば、立っている状態、座っている状態）を示すデータである。

実世界ＤＢ３４１は、実世界、すなわち、空間１内の人物に関する情報をインデックスとして管理するデータベースである。具体的には、たとえば、実世界ＤＢ３４１は、データ処理装置からの入力画像や入力音声、人物像領域、空間内人物像領域、音声認識結果、話者認識結果をインデックスとして記憶する。時系列ＤＢ３４２は、インデックスとして管理された情報の時系列データを管理するデータベースである。これらについては図５で後述する。

＜ロボット２０のハードウェア構成例＞
図４は、ロボット２０のハードウェア構成例を示すブロック図である。ロボット２０は、第２プロセッサ４０１と、第２記憶デバイス４０２と、第２通信ＩＦ４０３と、マイク４０４と、スピーカ４０５と、カメラ４０６と、ＬＩＤＡＲ（ＬａｓｅｒＩｍａｇｉｎｇＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）４０７と、移動装置４０８と、これらを接続するバス３０４と、を有する。第２プロセッサ４０１は、第２記憶デバイス４０２の一部を作業エリアとしてロボット２０を制御する。第２プロセッサ４０１は、第２記憶デバイス４０２に記憶されているプログラムを実行する。

第２記憶デバイス４０２は、たとえば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリである。第２記憶デバイス４０２は、制御プログラム４２１と、ネットワーク送受信プログラム４２２と、音声入出力プログラム４２３と、画像入力プログラム４２４と、ＬＩＤＡＲ入力プログラム４２５と、移動プログラム４２６と、を記憶する。

制御プログラム４２１は、制御装置１０のメディア処理プログラム３１０からの行動指令にしたがって、第２記憶デバイス４０２内の他のプログラムと連携して、ロボット２０を制御するプログラムである。また、制御プログラム４２１は、人工知能としても機能する。

ネットワーク送受信プログラム４２２は、制御プログラム４２１からの指令にしたがって、制御装置１０とデータを送受信するプログラムである。たとえば、ネットワーク送受信プログラム４２２は、音声データや画像データ、方向データ、距離データといった入力データを、第２通信ＩＦ４０３からネットワーク２０２を介して制御装置１０に送信する。また、ネットワーク送受信プログラム４２２は、制御装置１０からの行動指令や出力データをネットワーク２０２から第２通信ＩＦ４０３を介して受信する。

音声入出力プログラム４２３は、制御装置１０のメディア処理プログラム３１０からの音声入力指令にしたがって、外部環境の音声をマイク４０４から入力して音声データとして第２記憶デバイス４０２に格納したり、制御装置１０のメディア処理プログラム３１０からの音声データを用いて音声をスピーカ４０５から出力したりするプログラムである。

画像入力プログラム４２４は、制御装置１０のメディア処理プログラム３１０からの音声入力指令にしたがって、外部環境をカメラ４０６で撮影し、画像データとして第２記憶デバイス４０２に入力するプログラムである。

ＬＩＤＡＲ入力プログラム４２５は、ＬＩＤＡＲ４０７から得られるロボット２０から見た対象物の方向を示す方向データおよびロボット２０との間の距離を示す距離データを入力するプログラムである。

移動プログラム４２６は、制御装置１０のメディア処理プログラム３１０からの行動指令にしたがって、移動装置４０８を駆動制御して、目的位置にロボット２０を移動させるプログラムである。

第２通信ＩＦ４０３は、制御装置１０とデータや指令を送受信するデバイスである。第２通信ＩＦ４０３は、制御装置１０からのデータや指令を受信して第２記憶デバイス４０２に格納する。また、第２通信ＩＦ４０３は、ネットワーク送受信プログラム４２２からの制御により、第２記憶デバイス４０２内の各種プログラムからのデータを制御装置１０に送信する。

マイク４０４は、ロボット２０の外部環境の音声を入力するデバイスである。マイク４０４は、音声入出力プログラム４２３からの制御により、音声を第２記憶デバイス４０２に格納する。マイク４０４はたとえばアレイ状に構成され、音源からの方向も検出することができる。スピーカ４０５は、制御装置１０からの音声データを外部環境に出力するデバイスである。スピーカ４０５は、音声入出力プログラム４２３からの制御により、音声を出力する。

カメラ４０６は、ロボット２０の外部環境を撮像するデバイスである。カメラ４０６は、画像入力プログラム４２４からの制御により、外部環境を撮像した画像データを第２記憶デバイス４０２に格納する。

ＬＩＤＡＲ４０７は、可視光線などの電磁波を障害物に放射し、その反射波を計測することで、観測平面上の各方向の障害物までの距離を測定するデバイスである。本実施例では、一例として、観測平面は地面と平行であり、方向分解能は１度とする。

移動装置４０８は、ロボット２０を移動させる機構である。移動装置４０８は、たとえば、車輪を有する機構である。また、複数の脚を有する歩行／走行機構でもよい。

＜実世界ＤＢ３４１および時系列ＤＢ３４２＞
図５は、実世界ＤＢ３４１および時系列ＤＢ３４２の記憶内容例を示す説明図である。図５は、実世界ＤＢ３４１に記憶されるインデックスと、時系列ＤＢ３４２に記憶される時系列データと、の関連性を説明するために、説明上、実世界ＤＢ３４１および時系列ＤＢ３４２を統合した状態で説明する。記憶されるデータの種類については、図５の凡例に示した通りである。インデックスは、実世界ＤＢ３４１に格納され、時系列データおよびクラスタは、時系列ＤＢ３４２に格納される。クラスタは時系列データのクラスタリング結果である。実世界ＤＢ３４１および時系列ＤＢ３４２に格納されるデータは、データ処理装置の種類ごとにツリー構造を構成する。

第１ツリー５０１は、ロボット２０に起因するツリー構造データであり、第２ツリー５０２は、環境カメラ３０に起因するツリー構造データである。第１ツリー５０１は、ロボットインデックス５１０をルートノードとし、入力画像インデックス５１１、入力画像時系列データ５１２、人物像領域インデックス５１３、人物像領域時系列データ５１４、空間内人物像領域インデックス５１５、空間内人物像領域時系列データ５１６、入力音声インデックス５１７、入力音声時系列データ５１８、音声区間インデックス５１９、音声区間時系列データ５２１、音声認識結果インデックス５２２、話者認識結果インデックス５２３、空間内音声領域インデックス５２４、空間内音声領域時系列データ５２５、クラスタＣを中間ノードとする。ノード間はリンクで接続される。

ロボットインデックス５１０は、ロボット２０を一意に特定するロボットＩＤを含むインデックスである。ロボットインデックス５１０は、ロボット２０のローカル座標系での位置データおよび方向データも含む。

入力画像インデックス５１１は、入力画像時系列データ５１２を特定するインデックスである。入力画像インデックス５１１は、ロボット２０からの入力画像時系列データ５１２が入力された場合に生成され、順次入力されてくる入力画像時系列データ５１２とリンクされる。

入力画像時系列データ５１２は、時系列に入力されてくる一連の入力画像データである。入力画像時系列データ５１２の個々の入力画像データには、ロボット２０のローカル座標系にいて、ロボット２０からみた当該入力画像データにより特定される対象物（たとえば、人物）の位置データおよび方向データを含む。

人物像領域インデックス５１３は、人物像領域時系列データ５１４を特定するインデックスである。人物像領域インデックス５１３は、ロボット２０からの入力画像時系列データ５１２が入力された場合に生成され、順次生成される人物像領域時系列データ５１４とリンクされる。

人物像領域時系列データ５１４は、時系列に生成される一連の人物像領域データである。人物像領域データとは、同時刻の入力画像データから検出された人物の画像（人物像）を包含する領域（たとえば、矩形）を示すデータである。人物像領域データは、同時刻の入力画像データの位置データおよび方向データも含む。

空間内人物像領域インデックス５１５は、空間内人物像領域時系列データ５１６を特定するインデックスである。空間内人物像領域インデックス５１５は、人物像領域時系列データ５１４が生成された場合に生成され、順次生成される空間内人物像領域時系列データ５１６とリンクされる。

空間内人物像領域時系列データ５１６は、時系列に生成される一連の空間内人物像領域データである。空間内人物像領域データとは、同時刻の人物像領域データの位置データおよび方向データを空間１のグローバル座標系に変換した人物像領域データである。

入力音声インデックス５１７は、入力音声時系列データ５１８を特定するインデックスである。入力音声インデックス５１７は、ロボット２０からの入力音声時系列データ５１８が入力された場合に生成され、順次入力されてくる入力音声時系列データ５１８とリンクされる。

入力音声時系列データ５１８は、時系列に入力されてくる一連の入力音声データである。入力音声時系列データ５１８の個々の入力音声データには、ロボット２０のローカル座標系にいて、ロボット２０からみた当該入力音声データにより特定される対象物（たとえば、人物Ｈ）の位置データおよび方向データを含む。

音声区間インデックス５１９は、音声区間時系列データ５２１を特定するインデックスである。音声区間インデックス５１９は、ロボット２０からの入力音声時系列データ５１８が入力された場合に生成され、順次入力されてくる音声区間時系列データ５２１とリンクされる。

音声区間時系列データ５２１は、入力音声時系列データ５１８に対応した一連の音声区間データである。音声区間データとは、音声の発話開始時刻から発話終了時刻までの音声区間を示すデータである。

音声認識結果インデックス５２２は、音声区間ごとの入力音声データに関する音声認識結果を含むノードである。音声認識結果とは、音声検出・認識プログラム３１３によって検出および認識された情報である。音声認識結果は、音声区間ごとの波形データでもよく、入力音声データをテキスト化した文字列データでもよい。

話者認識結果インデックス５２３は、音声区間ごとの入力音声データに関する話者認識結果を含むノードである。話者認識結果は、音声検出・認識プログラム３１３によって検出および認識された音声の発話者を特定する情報である。話者認識結果の発話者とは、具体的には、たとえば、音声区間時系列データ５２１で特定されるある時間帯の入力音声データと、当該時間帯における位置データおよび方向データと、を組み合わせた情報である。

空間内音声領域インデックス５２４は、空間内音声領域時系列データ５２５を特定するインデックスである。空間内音声領域インデックス５２４は、音声区間時系列データ５２１が生成された場合に生成され、順次生成される空間内音声領域時系列データ５２５とリンクされる。

空間内音声領域時系列データ５２５は、時系列に生成される一連の空間内音声領域データである。空間内音声領域データとは、対応する音声区間データでの位置データおよび方向データを空間１のグローバル座標系に変換した音声領域データである。

クラスタＣは、空間内人物像領域時系列データ５１６および空間内音声領域時系列データ５２５をある時間帯でクラスタリングした結果である。

第２ツリー５０２は、環境カメラインデックス５２０をルートノードとし、入力画像インデックス５１１、入力画像時系列データ５１２、人物像領域インデックス５１３、人物像領域時系列データ５１４、空間内人物像領域インデックス５１５、空間内人物像領域時系列データ５１６、クラスタを中間ノードとする。ノード間はリンクで接続される。環境カメラインデックス５２０は、環境カメラ３０を一意に特定する環境カメラＩＤを含むインデックスである。環境カメラインデックス５２０は、環境カメラ３０のローカル座標系での位置データおよび方向データを含む。なお、各中間ノードについては、第１ツリー５０１の説明において、「ロボット２０」を「環境カメラ３０」に置き換えるだけでよいため省略する。

＜メディア処理プログラム３１０による処理手順例＞
つぎに、メディア処理プログラム３１０による処理手順例について説明する。

図６は、人物像検出・認識プログラム３１１による人物像検出・認識処理手順例を示すフローチャートである。第１プロセッサ３０１は、データ処理装置Ｄ（以下、「装置Ｄ」）の入力画像Ｉを待ち受け（ステップＳ６０１：Ｎｏ）、装置Ｄの入力画像Ｉを取得した場合（ステップＳ６０１：Ｙｅｓ）、［装置Ｄ、入力画像時系列データ５１２＜Ｉ＞、“入力画像”］のエントリがなければ、実世界ＤＢ３４１に、当該エントリを作成する（ステップＳ６０２）。すなわち、第１プロセッサ３０１は、ルートノードである装置インデックスにリンクする入力画像インデックス５１１を作成する。装置インデックスとは、データ処理装置がロボット２０であればロボットインデックス５１０であり、データ処理装置が環境カメラ３０であれば環境カメラインデックス５２０である。

つぎに、第１プロセッサ３０１は、時系列ＤＢ３４２において、入力画像時系列データ５１２＜Ｉ＞の現在時刻Ｔに入力画像Ｉを追加する（ステップＳ６０３）。そして、第１プロセッサ３０１は、人物像検出・認識モデル３３１を用いて、入力画像Ｉから人物像検出・認識モデル３３１にマッチングする人物像領域Ａを検出する（ステップＳ６０４）。

つぎに、第１プロセッサ３０１は、実世界ＤＢ３４１に、［入力画像時系列データ５１２＜Ｉ＞、人物像領域時系列データ５１４＜Ａ＞、“人物像領域”］のエントリがなければ、当該エントリを作成する（ステップＳ６０５）。すなわち、第１プロセッサ３０１は、入力画像時系列データ５１２＜Ｉ＞にリンクする人物像領域インデックス５１３を作成する。そして、第１プロセッサ３０１は、時系列ＤＢ３４２において、人物像領域時系列データ５１４＜Ａ＞の現在時刻Ｔに、ステップＳ６０４で検出した人物像領域Ａを追加する（ステップＳ６０６）。

つぎに、第１プロセッサ３０１は、人物像領域Ａから空間内人物像領域Ａ’を計算する（ステップＳ６０７）。すなわち、ローカル座標系である人物像領域Ａの位置データおよび方向データをグローバル座標系の人物像領域Ａの位置データおよび方向データに変換する。なお、ローカル座標系である人物像領域Ａの位置データおよび方向データは、装置Ｄのローカル座標系である人物の位置データおよび方向データと、ＬＩＤＡＲ４０７から得られる装置Ｄから人物までの距離および方向により決定される。

つぎに、第１プロセッサ３０１は、実世界ＤＢ３４１に、［人物像領域Ａ、空間内人物像領域時系列データ５１６＜Ａ’＞、“空間内人物像領域”］のエントリがなければ、当該エントリを作成する（ステップＳ６０８）。すなわち、第１プロセッサ３０１は、人物像領域時系列データ５１４＜Ａ＞にリンクする空間内人物像領域インデックス５１５を作成する。そして、第１プロセッサ３０１は、時系列ＤＢ３４２において、空間内人物像領域時系列データ５１６＜Ａ’＞の現在時刻Ｔに、ステップＳ６０７で計算した空間内人物像領域Ａ’を追加する（ステップＳ６０８）。そして、ステップＳ６０１に戻る。

図７は、音声検出・認識プログラム３１３による音声検出・認識処理手順例を示すフローチャートである。第１プロセッサ３０１は、装置Ｄの入力音声Ｓを待ち受け（ステップＳ７０１：Ｎｏ）、装置Ｄの入力音声Ｓを取得した場合（ステップＳ７０１：Ｙｅｓ）、［装置Ｄ、入力音声時系列データ５１８＜Ｓ＞、“入力音声”］のエントリがなければ、実世界ＤＢ３４１に、当該エントリを作成する（ステップＳ７０２）。すなわち、第１プロセッサ３０１は、ルートノードである装置インデックスにリンクする入力音声インデックス５１７を作成する。

つぎに、第１プロセッサ３０１は、時系列ＤＢ３４２において、入力音声時系列データ５１８＜Ｓ＞の現在時刻Ｔに入力音声Ｓを追加する（ステップＳ７０３）。そして、第１プロセッサ３０１は、音声検出・認識モデル３３３を用いて、入力音声Ｓから音声検出・認識モデル３３３にマッチングする音声の音声区間Ｒを検出する（ステップＳ７０４）。

つぎに、第１プロセッサ３０１は、実世界ＤＢ３４１に、［装置Ｄ、音声区間時系列データ５２１＜Ｒ＞、“音声区間”］のエントリがなければ、当該エントリを作成する（ステップＳ７０５）。すなわち、第１プロセッサ３０１は、音声区間時系列データ５２１＜Ｒ＞にリンクする音声区間インデックス５１９を作成する。そして、第１プロセッサ３０１は、時系列ＤＢ３４２において、音声区間時系列データ５２１＜Ｒ＞の現在時刻Ｔに、ステップＳ７０４で検出した音声区間Ｒを追加する（ステップＳ７０６）。

つぎに、第１プロセッサ３０１は、装置Ｄの位置データおよび方向データに基づいて、音声区間Ｒから空間内音声領域Ｐを計算する（ステップＳ７０７）。すなわち、第１プロセッサ３０１は、ローカル座標系である音声区間Ｒの位置データおよび方向データをグローバル座標系の音声区間Ｒの位置データおよび方向データに変換する。なお、ローカル座標系である音声区間Ｒの位置データおよび方向データは、装置Ｄのローカル座標系である人物の位置データおよび方向データと、ＬＩＤＡＲから得られる装置Ｄから人物までの距離および方向により決定される。

つぎに、第１プロセッサ３０１は、実世界ＤＢ３４１に、［装置Ｄ、空間内音声領域時系列データ５２５＜Ｐ＞、“空間内音声領域”］のエントリがなければ、当該エントリを作成する（ステップＳ７０８）。すなわち、第１プロセッサ３０１は、空間内音声領域時系列データ５２５＜Ｐ＞にリンクする空間内音声領域インデックス５２４を作成する。そして、第１プロセッサ３０１は、時系列ＤＢ３４２において、空間内音声領域時系列データ５２５＜Ｐ＞の現在時刻Ｔに、ステップＳ７０７で計算した空間内音声領域Ｐを追加する（ステップＳ７０９）。

つぎに、第１プロセッサ３０１は、実世界ＤＢ３４１に、音声検出・認識モデル３３３を用いて、音声区間Ｒごとに音声検出・認識モデル３３３にマッチングする音声認識結果Ｖを作成する（ステップＳ７１０）。そして、第１プロセッサ３０１は、実世界ＤＢ３４１に、［音声区間Ｒ、音声認識結果Ｖ、“音声認識結果”］のエントリがなければ、当該エントリを作成する（ステップＳ７１１）。すなわち、第１プロセッサ３０１は、音声区間時系列データ５２１＜Ｒ＞にリンクする音声認識結果インデックス５２２を作成する。そして、第１プロセッサ３０１は、ステップＳ７１０で作成した音声区間Ｒごとの音声認識結果Ｖを音声認識結果インデックス５２２に関連付ける。

同様に、第１プロセッサ３０１は、実世界ＤＢ３４１に、音声検出・認識モデル３３３を用いて、音声区間Ｒごとに音声検出・認識モデル３３３にマッチングする話者認識結果Ｗを作成する（ステップＳ７１２）。そして、第１プロセッサ３０１は、実世界ＤＢ３４１に、［音声区間Ｒ、話者認識結果Ｗ、“話者認識結果”］のエントリがなければ、当該エントリを作成する（ステップＳ７１３）。すなわち、第１プロセッサ３０１は、音声区間時系列データ５２１＜Ｒ＞にリンクする話者認識結果インデックス５２３を作成する。そして、第１プロセッサ３０１は、ステップＳ７１２で作成した音声区間Ｒごとの話者認識結果Ｗを音声認識結果インデックス５２２に関連付ける。そして、ステップＳ７０１に戻る。

図８は、人物同定プログラム３１４による人物同定処理手順例を示すフローチャートである。まず、第１プロセッサ３０１は、時系列ＤＢ３４２に、空間内人物像領域時系列データ５１６＜Ａ’＞または空間内音声領域時系列データ５２５＜Ｐ＞が追加されるのを待ち受ける（ステップＳ８０１：Ｎｏ）。追加された場合（ステップＳ８０１：Ｙｅｓ）、第１プロセッサ３０１は、追加されたデータと同時刻Ｔを含む空間内人物像領域時系列データ５１６および空間内音声領域時系列データ５２５を収集する（ステップＳ８０２）。そして、第１プロセッサ３０１は、人物同定モデル３３４を用いて、収集した時系列データで人物を同定する（ステップＳ８０３）。同定できなかった場合（ステップＳ８０４：Ｎｏ）、ステップＳ８０１に戻る。同定できた場合（ステップＳ８０４：Ｙｅｓ）、第１プロセッサ３０１は、収集した時系列データを時刻Ｔ前後の位置データに基づきクラスタリングする（ステップＳ８０５）。これにより、ある時間帯のある位置における収集時系列データごとにクラスタが生成される。

つぎに、第１プロセッサ３０１は、ステップＳ８０６〜Ｓ８１２を実行して、クラスタ内の他人の時系列データを削除する。具体的には、たとえば、第１プロセッサ３０１は、ステップＳ８０５で生成されたクラスタ群のうち未選択のクラスタＣがあるか否かを判断する（ステップＳ８０６）。未選択のクラスタＣがある場合（ステップＳ８０６：Ｙｅｓ）、第１プロセッサ３０１は、未選択のクラスタＣを１つ選択する（ステップＳ８０７）。そして、第１プロセッサ３０１は、選択クラスタＣに属する未選択のデータ＜Ｘ＞があるか否かを判断する（ステップＳ８０８）。データ＜Ｘ＞は、選択クラスタＣ内の時系列データのうちある時刻のデータである。

未選択のデータ＜Ｘ＞がある場合（ステップＳ８０８：Ｙｅｓ）、第１プロセッサ３０１は、未選択のデータ＜Ｘ＞を選択する（ステップＳ８０９）。そして、第１プロセッサ３０１は、実世界ＤＢ３４１に、［クラスタＣ、データ＜Ｘ＞、“人物同定”］のエントリがなければ作成する。すなわち、第１プロセッサ３０１は、人物同定インデックスが作成されていなければ作成し、クラスタＣに、選択データ＜Ｘ＞と人物同定インデックスとを関連付ける。人物同定インデックスが作成されていれば、第１プロセッサ３０１は、選択クラスタＣの人物同定インデックスに選択データ＜Ｘ＞を関連付ける。

そして、第１プロセッサ３０１は、実世界ＤＢ３４１に、選択クラスタＣ以外の［クラスタＣ’、データ＜Ｘ＞、“人物同定”］のエントリがあれば、当該エントリに削除フラグを設定し（ステップＳ８１１）、ステップＳ８０８に戻る。ステップＳ８０８において、未選択のデータ＜Ｘ＞がない場合（ステップＳ８０８：Ｎｏ）、ステップＳ８０６に戻る。ステップＳ８０６において、未選択のクラスタＣがない場合（ステップＳ８０６：Ｎｏ）、第１プロセッサ３０１は、クラスタ群の各クラスタにおいて削除フラグが設定されたエントリを削除し（ステップＳ８１２）、ステップＳ８０１に戻る。これにより、各クラスタは、ある時間帯のある位置における収集時系列データで特定される１人の人物を示すデータとなる。

なお、顔検出・認識プログラム３１２の処理については、図示はしないが、第１プロセッサ３０１は、図６のステップＳ６０４で検出された人物像領域Ａから、顔検出・認識モデル３３２を用いて顔を検出し、どのようなタイプの顔であるかを認識する。顔認識結果は、人物像領域Ａに保存される。また、人物状態推定プログラム３１５の処理についても、図示はしないが、第１プロセッサ３０１は、図６のステップＳ６０４で検出された人物像領域Ａから、人物状態推定モデル３３５を用いて人物像領域Ａ内の人物の状態を推定する。人物状態推定結果は、人物像領域Ａに保存される。

＜制御システム２００の運用例＞
つぎに、図９〜図１１を用いて、制御システム２００の運用例について説明する。図９〜図１１では、制御システム２００は、物販支援（図９）、案内（図１０）、および監視（図１１）という３つのタスクを、実世界ＤＢ３４１および時系列ＤＢ３４２を参照し更新しながら実行する。物販支援は、空間１内でロボット２０が人物に接近して商品を推薦する処理を、制御装置１０がロボット２０に実行させる処理である。案内は、空間１内で人物がロボット２０に接近した場合にロボット２０が当該人物の要求に応じて情報を提供する処理を、制御装置１０がロボット２０に実行させる処理である。ロボット２０ではなく、デジタルサイネージ４０でもよい。監視は、空間１内でロボット２０が不審者を監視する処理を、制御装置１０がロボット２０に実行させる処理である。ロボット２０ではなく、環境カメラ３０でもよい。

これら３つのタスクは、統合制御プログラム３２３により実行される。本例では、物販支援（図９）、案内（図１０）、および監視（図１１）が同時並行で実行されるものとする。ただし、たとえば、物販支援（図９）、案内（図１０）、および監視（図１１）の順に時系列に実行されてもよい。図９〜図１１は、図５に示した実世界ＤＢ３４１および時系列ＤＢ３４２の具体的な記憶内容例を示すが、インデックスおよび時系列データをまとめて表記する。なお、図９〜図１１では、便宜上、ロボット２０や環境カメラ３０を動作主体とした処理を説明するが、実質的には、制御装置１０がロボット２０や環境カメラ３０に処理を実行させている。

＜物販支援＞
図９は、物販支援における実世界ＤＢ３４１および時系列ＤＢ３４２の更新例を示す説明図である。ステップＳ９０１において、環境カメラ３０が人物Ｈを撮像して画像９１１を取得し、取得した画像９１１から人物像を含む人物領域９１２を検出する。また、環境カメラ３０は、環境カメラ３０から人物Ｈまでの距離とその方向を測定する。制御装置１０は、地図ＤＢ９２０を参照して、環境カメラ３０があらかじめ保持する自己位置９１３と、測定した距離および方向と、から、人物領域９１２の位置である人物位置９１４を算出する。地図ＤＢ９２０は、グローバル座標系を基準とした空間１の地図データを記憶する。人物位置９１４は、空間１のグローバル座標系に変換された位置データである。

ステップＳ９０２は、ステップＳ９０１で、人物位置９１４である一定時間内の時系列データの各位置データが許容範囲内である場合に実行される。ステップＳ９０２において、ロボット２０は、環境カメラ３０によって特定された人物位置９１４に移動して接近する。このとき、ロボット２０は、たとえば、ＬＲＦ（ＬａｓｅｒＲａｎｇｅＦｉｎｄｅｒ）と地図ＤＢ９２０とを用いたスキャンマッチングにより空間１のグローバル座標系における自己位置９２１を更新しながら移動する。ロボット２０は、人物位置９１４に存在する人物Ｈをカメラ４０６で撮像して画像９２２を取得し、取得した画像９２２から人物像を含む人物領域９２３を検出する。また、ロボット２０は、カメラ４０６から人物Ｈまでの距離とその方向をＬＩＤＡＲ４０７で測定し、地図ＤＢ９２０を参照して、ロボット２０の現在の自己位置９２１と、測定した距離および方向と、から、人物領域９２３の位置である人物位置９２４を算出する。人物位置９２４は、空間１のグローバル座標系に変換された位置データである。また、ロボット２０は、画像９２２から顔領域９２５を認識する。

ステップＳ９０３は、ステップＳ９０２が終了すると実行される。ステップＳ９０３において、制御装置１０は、ステップＳ９０１で特定された人物位置９１４の時系列データとステップＳ９０２で特定された人物位置９２４の時系列データとが、同一時間帯内で類似するか否かを判定する。類似性は、たとえば、両時系列データのユークリッド距離により判定される。たとえば、ユークリッド距離がしきい値以下であれば類似する。類似する場合、同一時間帯に人物位置９１４および人物位置９２４に存在する人物Ｈは同一人物Ｈとなり、制御装置１０は、人物９３１として保存する。人物９３１は、人物領域９１２，９２３、顔領域９２５にリンクされる。これにより、ある時間帯に存在する人物Ｈおよび顔が特定される。

ステップＳ９０４は、ステップＳ９０３が終了すると実行される。ステップＳ９０４において、ロボット２０は、人物９３１（で特定される人物Ｈ）の近傍に位置する。ロボット２０は、周辺音声９４１をマイク４０４で検出し、マイク４０４で検出した音源からの方向と現在の自己位置９２１とから、音声が発せられた位置である音声位置９４２Ａ，９４２Ｂを算出する。音声位置９４２Ａ，９４２Ｂは、空間１のグローバル座標系に変換された位置データである。

また、ロボット２０は、ステップＳ９０２で特定された人物位置９２４の時系列データと音声位置９４２Ａの時系列データとが、同一時間帯内で類似するか否かを判定する。類似性は、たとえば、両時系列データのユークリッド距離により判定される。たとえば、ユークリッド距離がしきい値以下であれば類似する。類似する場合、同一時間帯に人物位置９２４および音声位置９４２Ａに存在する人物Ｈは同一人物となる。したがって、ロボット２０は、周辺音声９４１のうち音声位置９４２Ａで発話された音声９４３Ａの認識結果９４４Ａを取得し、その音声９４３Ａを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、当該人物Ｈを一意に特定する識別子である個人９４５をインデックスとする個人ＤＢ９４６に格納する。音声位置９４２Ｂについても同様に処理することで、ロボット２０は、音声９４３Ｂおよび認識結果９４４Ｂを取得し、その音声９４３Ｂを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、個人９４５をインデックスとする個人ＤＢ９４６に格納する。

なお、ステップＳ９０４では、音声位置９４２Ａ，９４２Ｂは同一の人物９３１の音声位置としたが、ロボット２０近傍で複数の人物Ｈが対話する場合がある。たとえば、レジ前に人物Ｈａが移動した場合、客である人物Ｈａは、店員である人物Ｈｂと対話する場合がある。人物Ｈａ，Ｈｂごとに、人物９３１が特定される。したがって、たとえば、制御装置１０は、音声位置９４２Ａ，音声９４３Ａ，認識結果９４４Ａ（例：「商品Ｘを試着したいのですが」）を、人物Ｈａの人物９３１と関連付け、認識結果９４４Ａを、当該人物Ｈａを一意に特定する識別子である個人９４５をインデックスとする個人ＤＢ９４６に格納する。同様に、制御装置１０は、音声位置９４２Ｂ，音声９４３Ｂ，認識結果９４４Ｂ（例：フィッティングルームはあちらでございます。）を、人物Ｈｂの人物９３１と関連付け、認識結果９４４Ｂを、当該人物Ｈｂを一意に特定する識別子である個人９４５をインデックスとする個人ＤＢ９４６に格納する。

また、制御装置１０は、店員である人物Ｈｂの携帯端末（不図示）と通信可能としてもよい。たとえば、この場合、客である人物Ｈａの音声位置９４２Ａの時系列データと店員である人物Ｈｂの音声位置９４２Ｂの時系列データは、同一時間帯内で類似する。したがって、制御装置１０は、人物Ｈａを人物Ｈｂの対話相手と特定し、人物Ｈａ，Ｈｂの各個人ＤＢ９４６内のデータを人物Ｈｂの携帯端末に転送する。これにより、店員である人物Ｈｂは、いつどこでだれとどのような会話をしたかを確認することができる。また、人物Ｈａの個人ＤＢ９４６を参照することができるため、人物Ｈａの空間１内での時系列な移動軌跡も確認することができる。したがって、人物Ｈｂは人物Ｈａの嗜好を特定して物販に役立てることができる。

また、人物Ｈｂは、人物Ｈａの個人情報を携帯端末に入力して、個人ＤＢ９４６を更新してもよい。これにより、これ以降、制御装置は、個人ＤＢ９４６で特定される人物Ｈａがどのような人物Ｈであるかを特定することができる。

＜案内＞
図１０は、案内における実世界ＤＢ３４１および時系列ＤＢ３４２の更新例を示す説明図である。図９と同一データには同一符号を付しその説明を省略する。物販支援では、ロボット２０から人物Ｈに接近したが、案内では、ロボット２０が、ロボット２０に接近してくる人物Ｈを検出して案内する。

ステップＳ１００１において、ロボット２０は、接近してくる対象物をＬＩＤＡＲ４０７で検出する。なお、ロボット２０は、たとえば、ＬＲＦと地図ＤＢ９２０を用いたスキャンマッチングにより空間１のグローバル座標系における自己位置１０１１を更新しながら移動する。ロボット２０は、接近してくる対象物をカメラ４０６で撮像して画像１０１２を取得し、取得した画像１０１２から人物像を含む人物領域１０１３を検出する。また、ロボット２０は、カメラ４０６から人物Ｈまでの距離とその方向をＬＩＤＡＲ４０７で測定する。制御装置１０は、地図ＤＢ９２０を参照して、ロボット２０の現在の自己位置１０１１と、測定した距離および方向と、から、人物領域１０１３の位置である人物位置１０１４を算出する。人物位置１０１４は、空間１のグローバル座標系に変換された位置データである。また、ロボット２０は、画像１０１２から顔領域１０１５を認識する。

ステップＳ１００２は、ステップＳ１００１で、人物位置１０１４である一定時間内の時系列データの各位置データが許容範囲内である場合に実行される。ステップＳ１００２において、ロボット２０は、周辺音声１０２１をマイク４０４で検出し、マイク４０４で検出した音源からの方向と現在の自己位置１０１１とから、音声が発せられた位置である音声位置１０２２Ａ，１０２２Ｂを算出する。音声位置１０２２Ａ，１０２２Ｂは、空間１のグローバル座標系に変換された位置データである。

また、ロボット２０は、ステップＳ１００１で特定された人物位置１０１４の時系列データと音声位置１０２２Ａの時系列データとが、同一時間帯内で類似するか否かを判定する。類似性は、たとえば、両時系列データのユークリッド距離により判定される。たとえば、ユークリッド距離がしきい値以下であれば類似する。類似する場合、同一時間帯に人物位置１０１４および音声位置１０２２Ａに存在する人物Ｈは同一人物Ｈとなる。したがって、ロボット２０は、周辺音声１０２１のうち音声位置１０２２Ａで発話された音声１０２３Ａの認識結果１０２４Ａを取得し、その音声１０２３Ａを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、当該人物Ｈを一意に特定する識別子である個人９４５をインデックスとする個人ＤＢ９４６に格納する。音声位置１０２２Ｂについても同様に処理することで、ロボット２０は、音声１０２３Ｂおよび認識結果１０２４Ｂを取得し、その音声１０２３Ｂを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、個人９４５をインデックスとする個人ＤＢ９４６に格納する。

ステップＳ１００３は、ステップＳ１００２の後に実行される。ロボット２０は、ステップＳ１００１で特定された人物位置１０１４の時系列データと音声位置１０２２Ａの時系列データとが、同一時間帯内で類似するか否かを判定する。類似性は、たとえば、両時系列データのユークリッド距離により判定される。たとえば、ユークリッド距離がしきい値以下であれば類似する。類似する場合、同一時間帯に人物位置１０１４および音声位置１０２２Ａに存在する人物Ｈは同一人物となる。したがって、ロボット２０は、周辺音声１０２１のうち音声位置１０２２Ａで発話された音声１０２３Ａの認識結果１０２４Ａを取得し、その音声１０２３Ａを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、個人９４５をインデックスとする個人ＤＢ９４６に格納する。音声位置１０２２Ｂについても同様に処理することで、ロボット２０は、音声１０２３Ｂおよび認識結果１０２４Ｂを取得し、その音声１０２３Ｂを人物９３１に関連付ける。そして、制御装置１０は、人物９３１に関連付けられたこれらのデータを、個人９４５をインデックスとする個人ＤＢ９４６に格納する。

この場合、人物９３１で特定される人物Ｈがロボット２０に接近してロボット２０と対話するため、音声１０２３Ａ，１０２３Ｂの認識結果１０２４Ａ，１０２４Ｂは、人物Ｈが発話した音声とする。なお、ロボット２０は、自己位置１０１１から所定距離以内に人物Ｈが接近してきた場合に、「何かご用でしょうか？」と発話する。たとえば、音声１０２３Ａの認識結果１０２４Ａが「ｗｗはどこですか？」であれば、ロボット２０は、「よろしければ、ｗｗまでご案内しましょうか？」と発話する。その次の音声１０２３Ｂの認識結果１０２４Ｂが「お願いします」であれば、ロボット２０は、「では、ついてきてください。」と発話する。

また、移動中は、ロボット２０は、個人ＤＢ群の中から今回特定した人物９３１の個人ＤＢ９４６内のデータを用いて、当該人物９３１の嗜好に応じた対話や情報提供をしてもよい。たとえば、ロボット２０は、個人ＤＢ９４６内の認識結果９４４Ａ，９４４Ｂを参照して、キーワードを特定し、キーワードと話題とを対応付けた雑談ＤＢ（不図示）から、特定したキーワードに対応する話題を用いて、人物Ｈと対話してもよい。雑談ＤＢは、ロボット２０に記憶されていてもよく、制御装置１０に記憶されていてもよい。また、ロボット２０は、ネットワーク２０２から対応する話題を検索してもよい。

＜監視＞
図１１は、案内における実世界ＤＢ３４１および時系列ＤＢ３４２の更新例を示す説明図である。図９および図１０と同一データには同一符号を付しその説明を省略する。監視では、ロボット２０や環境カメラ３０が空間１内を監視する。

ステップＳ１１０１において、環境カメラ３０は、自己位置１１１１において外部環境を撮像して画像１１１２を取得する。制御装置１０は、画像１１１２と同一位置から撮像した過去の画像との差分領域１１１３を検出する。また、環境カメラ３０は、自己位置１１１１から差分領域１１１３までの距離とその方向を測定する。制御装置１０は、地図ＤＢ９２０を参照して、環境カメラ３０があらかじめ保持する自己位置１１１１と、測定した距離および方向と、から、差分領域１１１３の位置である差分位置１１１４を算出する。地図ＤＢ９２０は、グローバル座標系を基準とした空間１の地図データを記憶する。差分位置１１１４は、空間１のグローバル座標系に変換された位置データである。そして、制御装置１０は、差分領域１１１３内の物体を認識して物体識別結果１１１５として出力する。

ステップＳ１１０２は、ステップＳ１１０１と同時並行で実行される。ステップＳ１１０２において、ロボット２０は、空間１内を巡回しており、たとえば、ＬＲＦ（ＬａｓｅｒＲａｎｇｅＦｉｎｄｅｒ）と地図ＤＢ９２０とを用いたスキャンマッチングにより空間１のグローバル座標系における自己位置１１２１を更新しながら移動する。ロボット２０は、自己位置１１２１において外部環境を撮像して画像１１２２を取得する。制御装置１０は、画像１１２２と同一位置から撮像した過去の画像との差分領域１１２３を検出する。また、ロボット２０は、現在の自己位置１１２１から差分領域１１２３までの距離とその方向を測定する。制御装置１０は、地図ＤＢ９２０を参照して、現在の自己位置１１２１と、測定した距離および方向と、から、差分領域１１２３の位置である差分位置１１２４を算出する。地図ＤＢ９２０は、グローバル座標系を基準とした空間１の地図データを記憶する。差分位置１１２４は、空間１のグローバル座標系に変換された位置データである。そして、制御装置１０は、差分領域１１２３内の物体を認識して物体識別結果１１２５として出力する。

ステップＳ１１０３は、ステップＳ１１０１の物体識別結果１１１５またはステップＳ１１０２の物体識別結果１１２５を用いて、過去に蓄積されたデータと照合する処理である。たとえば、制御装置１０は、人物ＤＢ群を参照して、物体識別結果１１１５または物体識別結果１１２５に一致する人物９３１があれば、人物９３１で特定される人物Ｈの存在を検出する。また、制御装置１０は、制御装置１０に通信可能接続される遺失物管理システム１１３０にアクセスして、物体識別結果１１１５または物体識別結果１１２５に一致する遺失物の画像があれば、物体識別結果１１１５または物体識別結果１１２５は、遺失物であると判定する。

以上説明したように、本実施例の制御装置１０は、空間１内に存在する対象物（たとえば、人物や物品）の位置および画像を取得可能なデータ取得装置群（ロボット２０や環境カメラ３０）を制御して、空間１内または対象物に対する複数の異なる処理として、たとえば、上述した物販支援（図９）、案内（図１０）、および監視（図１１）という３つのタスクを実行する。

第１記憶デバイス３０２は、第１プロセッサ３０１が複数の異なる処理のうちいずれか１つの処理を実行したことにより、データ取得装置が第１対象物（たとえば、人物Ｈａ）を検出してからの第１対象物の一連の位置および画像を示す時系列データを第１対象物に関するデータ（たとえば、人物Ｈａについての個人ＤＢ９４６）として記憶する。第１プロセッサ３０１は、複数の異なる処理の各々の処理で、取得処理、判定処理、および格納処理を実行する。

取得処理は、第１プロセッサ３０１が、データ取得装置が第２対象物（ある人物Ｈ）を検出してからの第２対象物の一連の情報（たとえば、位置および画像）を示す時系列データを第２対象物に関するデータとしてデータ取得装置から取得する処理である。取得処理は、たとえば、人物像検出・認識プログラム３１１に相当する。

判定処理は、第１プロセッサ３０１が、第１記憶デバイス３０２に記憶されている第１対象物に関するデータ内の第１対象物に関する情報（たとえば、第１対象物の画像）と、取得処理によって取得された第２対象物に関する情報（たとえば、第２対象物に関するデータ内の第２対象物の画像）と、に基づいて、第１対象物と第２対象物との同一性を判定する処理である。判定処理は、たとえば、人物同定プログラム３１４に相当する。

格納処理は、判定処理によって同一性ありと判定された場合、第２対象物に関するデータを第１対象物に関するデータに関連付けて第１記憶デバイス３０２（実世界ＤＢ３４１および時系列ＤＢ３４２）に格納し、判定処理によって同一性なしと判定された場合、第２対象物に関するデータを第１対象物に関するデータに関連付けずに第１記憶デバイス３０２に格納する処理である。

これにより、複数の異なる処理のいずれかの処理（たとえば、物販支援）で得られた第１対象物に関するデータと、他の処理（たとえば、案内）で得られた第２対象物に関するデータとを関連付けることができる。これにより、複数の異なる処理で連携しながらどの対象物がいつどこに存在するかを特定することができる。

また、第１記憶デバイス３０２は、第１プロセッサ３０１がいずれか１つの処理を実行したことにより、特定のデータ取得装置（ロボット２０）が第３対象物を検出してからの第３対象物の一連の位置、画像、および第３対象物からの音声を示す時系列データを第３対象物に関するデータとして記憶する。この場合、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、取得処理、判定処理、および格納処理を実行する。

取得処理では、第１プロセッサ３０１は、特定のデータ取得装置が第４対象物を検出してからの第４対象物の一連の位置、画像および前記第４対象物からの音声を示す時系列データを第４対象物に関するデータとして前記特定のデータ取得装置から取得する。

また、判定処理では、第１プロセッサ３０１は、第１記憶デバイス３０２に記憶されている第３対象物に関するデータ内の第３対象物の画像と、取得処理によって取得された第４対象物に関するデータ内の第４対象物の画像と、に基づいて、第３対象物と第４対象物との同一性を判定する。

また、格納処理では、第１プロセッサ３０１は、判定処理によって同一性ありと判定された場合、第４対象物に関するデータを第３対象物に関するデータに関連付けて第１記憶デバイス３０２に格納し、判定処理によって同一性なしと判定された場合、第４対象物に関するデータを第３対象物に関するデータに関連付けずに第１記憶デバイス３０２に格納する。

これにより、複数の異なる処理のいずれかの処理（たとえば、物販支援）で得られた第３対象物に関するデータと、他の処理（たとえば、案内）で得られた第４対象物に関するデータとを関連付けることができる。これにより、複数の異なる処理で連携しながらどの対象物がいつどこで音声を発したかを特定することができる。

また、取得処理、判定処理、および格納処理を実行することにより、第４対象物は、音声の時系列データを含まない第１対象物と関連付けられてもよい。同様に、取得処理、判定処理、および格納処理を実行することにより、第２対象物は、音声の時系列データを含む第３対象物と関連付けられてもよい。

また、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、第４対象物の画像の特徴に基づいて、第４対象物が人物であると認識する認識処理を実行する。認識処理は、たとえば、人物像検出・認識プログラム３１１と顔検出・認識プログラム３１２とに相当する。これにより、対象物が人物であることが特定される。

また、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、取得処理、認識処理、および送信処理を実行する。取得処理では、第１プロセッサ３０１は、特定のデータ取得装置が第４対象物から所定距離以内に存在する第５対象物を検出してからの第５対象物の一連の位置、画像および第５対象物からの音声を示す時系列データを第５対象物に関するデータとして特定のデータ取得装置から取得する。第５対象物は、たとえば、だい４対象物（人物Ｈａ）と対話する店員Ｈｂである。認識処理において、第１プロセッサ３０１は、第５対象物の画像の特徴に基づいて、第５対象物が人物であると認識する。送信処理では、第１プロセッサ３０１は、第５対象物が第４対象物から所定距離以内に存在する時間帯における第４対象物に関するデータを、第５対象物の端末に送信する。

これにより、店員である人物Ｈｂは、いつどこでだれとどのような会話をしたかを確認することができる。また、人物Ｈａの個人ＤＢ９４６を参照することができるため、人物Ｈａの空間１内での時系列な移動軌跡も確認することができる。したがって、人物Ｈｂは人物Ｈａの嗜好を特定して物販に役立てることができる。

また、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、取得処理において、端末からの入力情報を取得し、格納処理において、入力情報を第４対象物に関するデータに関連付けて格納する。

また、特定のデータ取得装置は、空間１内を移動可能なロボット２０であり、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、特定のデータ取得装置が人物の接近を検出した場合に、取得処理を実行する。これにより、ロボット２０に接近した人物に対して上述した案内のタスクを実行することができる。

また、特定のデータ取得装置は、空間１内を移動可能なロボット２０であり、第１プロセッサ３０１は、複数の異なる処理のうち特定のデータ取得装置を制御する処理で、特定のデータ取得装置が人物を検出した場合に人物に移動させ、取得処理を実行する。これにより、ロボット２０から人物に接近して上述した物販支援のタスクを実行することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１０制御装置
２０ロボット
３０環境カメラ
２００制御システム
２０１データ処理装置群
３０１第１プロセッサ
３０２第１記憶デバイス
３１０メディア処理プログラム
３２３統合制御プログラム
３４１実世界ＤＢ
３４２時系列ＤＢ

Claims

空間内に存在する対象物の位置および画像を取得可能な１以上のデータ取得装置を含むデータ取得装置群を制御して、前記空間内または前記対象物に対する複数の異なる処理を実行する制御装置であって、
前記データ取得装置群は、前記対象物の位置、画像および前記対象物からの音声を取得可能な特定のデータ取得装置を含み、
前記複数の異なる処理に関するプログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記データ取得装置群および端末と通信可能な通信インタフェースと、を有し、
前記記憶デバイスは、前記プロセッサが前記複数の異なる処理のうちいずれか１つの処理を実行したことにより、前記データ取得装置が第１対象物を検出してからの第１対象物の一連の位置および画像を示す時系列データを第１対象物に関するデータとして記憶しており、
前記プロセッサは、前記複数の異なる処理の各々の処理で、
前記データ取得装置が第２対象物を検出してからの前記第２対象物の一連の位置および画像を示す時系列データを第２対象物に関するデータとして前記データ取得装置から取得する取得処理と、
前記記憶デバイスに記憶されている前記第１対象物に関するデータ内の前記第１対象物の画像と、前記取得処理によって取得された第２対象物に関するデータ内の前記第２対象物の画像と、に基づいて、前記第１対象物と前記第２対象物との同一性を判定する判定処理と、
前記判定処理によって同一性ありと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けずに前記記憶デバイスに格納する格納処理と、を実行し、
前記記憶デバイスは、前記プロセッサが前記いずれか１つの処理を実行したことにより、前記特定のデータ取得装置が第３対象物を検出してからの第３対象物の一連の位置、画像、および前記第３対象物からの音声を示す時系列データを第３対象物に関するデータとして記憶し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記取得処理において、前記特定のデータ取得装置が第４対象物を検出してからの前記第４対象物の一連の位置、画像および前記第４対象物からの音声を示す時系列データを第４対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記判定処理において、前記記憶デバイスに記憶されている前記第３対象物に関するデータ内の前記第３対象物の画像と、前記取得処理によって取得された第４対象物に関するデータ内の前記第４対象物の画像と、に基づいて、前記第３対象物と前記第４対象物との同一性を判定し、
前記格納処理において、前記判定処理によって同一性ありと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けずに前記記憶デバイスに格納し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、前記第４対象物の画像の特徴に基づいて、前記第４対象物が人物であるか否かを認識する認識処理を実行し、
前記認識処理によって前記第４対象物が人物であると認識された場合、前記判定処理を実行し、
前記取得処理において、前記特定のデータ取得装置が前記第４対象物から所定距離以内に存在する第５対象物を検出してからの前記第５対象物の一連の位置、画像および前記第５対象物からの音声を示す時系列データを第５対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記認識処理において、前記第５対象物の画像の特徴に基づいて、前記第５対象物が人物であるか否かを認識し、
前記第５対象物が前記第４対象物から前記所定距離以内に存在する時間帯における前記第４対象物に関するデータを、前記第５対象物の端末に送信する送信処理を実行することを特徴とする制御装置。
請求項１に記載の制御装置であって、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記取得処理において、前記端末からの入力情報を取得し、
前記格納処理において、前記入力情報を前記第４対象物に関するデータに関連付けて格納することを特徴とする制御装置。
請求項１に記載の制御装置であって、
前記特定のデータ取得装置は、前記空間内を移動可能なロボットであり、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記特定のデータ取得装置が前記人物の接近を検出した場合に、前記取得処理を実行することを特徴とする制御装置。
請求項１に記載の制御装置であって、
前記特定のデータ取得装置は、前記空間内を移動可能なロボットであり、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記特定のデータ取得装置が前記人物を検出した場合に前記人物に移動させ、前記取得処理を実行することを特徴とする制御装置。
空間内に存在する対象物の位置および画像を取得可能な１以上のデータ取得装置を含むデータ取得装置群と、前記データ取得装置群を制御して、前記空間内または前記対象物に対する複数の異なる処理を実行する制御装置と、を有する制御システムであって、
前記データ取得装置群は、前記対象物の位置、画像および前記対象物からの音声を取得可能な特定のデータ取得装置を含み、
前記制御装置は、
前記複数の異なる処理に関するプログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記データ取得装置群および端末と通信可能な通信インタフェースと、を有し、
前記記憶デバイスは、前記プロセッサが前記複数の異なる処理のうちいずれか１つの処理を実行したことにより、前記データ取得装置が第１対象物を検出してからの第１対象物の一連の位置および画像を示す時系列データを第１対象物に関するデータとして記憶しており、
前記プロセッサは、前記複数の異なる処理の各々の処理で、
前記データ取得装置が第２対象物を検出してからの前記第２対象物の一連の位置および画像を示す時系列データを第２対象物に関するデータとして前記データ取得装置から取得する取得処理と、
前記記憶デバイスに記憶されている前記第１対象物に関するデータ内の前記第１対象物の画像と、前記取得処理によって取得された第２対象物に関するデータ内の前記第２対象物の画像と、に基づいて、前記第１対象物と前記第２対象物との同一性を判定する判定処理と、
前記判定処理によって同一性ありと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けずに前記記憶デバイスに格納する格納処理と、を実行し、
前記記憶デバイスは、前記プロセッサが前記いずれか１つの処理を実行したことにより、前記特定のデータ取得装置が第３対象物を検出してからの第３対象物の一連の位置、画像、および前記第３対象物からの音声を示す時系列データを第３対象物に関するデータとして記憶し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記取得処理において、前記特定のデータ取得装置が第４対象物を検出してからの前記第４対象物の一連の位置、画像および前記第４対象物からの音声を示す時系列データを第４対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記判定処理において、前記記憶デバイスに記憶されている前記第３対象物に関するデータ内の前記第３対象物の画像と、前記取得処理によって取得された第４対象物に関するデータ内の前記第４対象物の画像と、に基づいて、前記第３対象物と前記第４対象物との同一性を判定し、
前記格納処理において、前記判定処理によって同一性ありと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けずに前記記憶デバイスに格納し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、前記第４対象物の画像の特徴に基づいて、前記第４対象物が人物であるか否かを認識する認識処理を実行し、
前記認識処理によって前記第４対象物が人物であると認識された場合、前記判定処理を実行し、
前記取得処理において、前記特定のデータ取得装置が前記第４対象物から所定距離以内に存在する第５対象物を検出してからの前記第５対象物の一連の位置、画像および前記第５対象物からの音声を示す時系列データを第５対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記認識処理において、前記第５対象物の画像の特徴に基づいて、前記第５対象物が人物であるか否かを認識し、
前記第５対象物が前記第４対象物から前記所定距離以内に存在する時間帯における前記第４対象物に関するデータを、前記第５対象物の端末に送信する送信処理を実行することを特徴とする制御システム。
空間内に存在する対象物の位置および画像を取得可能な１以上のデータ取得装置を含むデータ取得装置群を制御して、前記空間内または前記対象物に対する複数の異なる処理を実行する制御装置による制御方法であって、
前記データ取得装置群は、前記対象物の位置、画像および前記対象物からの音声を取得可能な特定のデータ取得装置を含み、
前記制御装置は、
前記複数の異なる処理に関するプログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記データ取得装置群および端末と通信可能な通信インタフェースと、を有し、
前記記憶デバイスは、前記プロセッサが前記複数の異なる処理のうちいずれか１つの処理を実行したことにより、前記データ取得装置が第１対象物を検出してからの第１対象物の一連の位置および画像を示す時系列データを第１対象物に関するデータとして記憶しており、
前記プロセッサは、前記複数の異なる処理の各々の処理で、
前記データ取得装置が第２対象物を検出してからの前記第２対象物の一連の位置および画像を示す時系列データを第２対象物に関するデータとして前記データ取得装置から取得する取得処理と、
前記記憶デバイスに記憶されている前記第１対象物に関するデータ内の前記第１対象物の画像と、前記取得処理によって取得された第２対象物に関するデータ内の前記第２対象物の画像と、に基づいて、前記第１対象物と前記第２対象物との同一性を判定する判定処理と、
前記判定処理によって同一性ありと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第２対象物に関するデータを前記第１対象物に関するデータに関連付けずに前記記憶デバイスに格納する格納処理と、を実行し、
前記記憶デバイスは、前記プロセッサが前記いずれか１つの処理を実行したことにより、前記特定のデータ取得装置が第３対象物を検出してからの第３対象物の一連の位置、画像、および前記第３対象物からの音声を示す時系列データを第３対象物に関するデータとして記憶し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、
前記取得処理において、前記特定のデータ取得装置が第４対象物を検出してからの前記第４対象物の一連の位置、画像および前記第４対象物からの音声を示す時系列データを第４対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記判定処理において、前記記憶デバイスに記憶されている前記第３対象物に関するデータ内の前記第３対象物の画像と、前記取得処理によって取得された第４対象物に関するデータ内の前記第４対象物の画像と、に基づいて、前記第３対象物と前記第４対象物との同一性を判定し、
前記格納処理において、前記判定処理によって同一性ありと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けて前記記憶デバイスに格納し、前記判定処理によって同一性なしと判定された場合、前記第４対象物に関するデータを前記第３対象物に関するデータに関連付けずに前記記憶デバイスに格納し、
前記プロセッサは、前記複数の異なる処理のうち前記特定のデータ取得装置を制御する処理で、前記第４対象物の画像の特徴に基づいて、前記第４対象物が人物であるか否かを認識する認識処理を実行し、
前記認識処理によって前記第４対象物が人物であると認識された場合、前記判定処理を実行し、
前記取得処理において、前記特定のデータ取得装置が前記第４対象物から所定距離以内に存在する第５対象物を検出してからの前記第５対象物の一連の位置、画像および前記第５対象物からの音声を示す時系列データを第５対象物に関するデータとして前記特定のデータ取得装置から取得し、
前記認識処理において、前記第５対象物の画像の特徴に基づいて、前記第５対象物が人物であるか否かを認識し、
前記第５対象物が前記第４対象物から前記所定距離以内に存在する時間帯における前記第４対象物に関するデータを、前記第５対象物の端末に送信する送信処理を実行することを特徴とする制御方法。