JP7428189B2

JP7428189B2 - 情報処理装置、制御方法及び制御プログラム

Info

Publication number: JP7428189B2
Application number: JP2021562705A
Authority: JP
Inventors: 俊一丸山; 紫水子鐘ヶ江; いづみ遠藤; 一成染谷; 郷柴田; 清森崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-12-03
Filing date: 2020-12-03
Publication date: 2024-02-06
Anticipated expiration: 2040-12-03
Also published as: US20230059119A1; JPWO2021112161A1; WO2021112161A1

Description

本開示は、情報処理装置、制御方法及び制御プログラムに関する。

擬人化されたオブジェクトから発せられた音をユーザに提供するために、擬人化されたオブジェクトに音像を定位させた音を生成する技術が知られている。特許文献１は、ウェアラブル情報表示装置が取得したセンサデータに基づいて、擬人化されたオブジェクトの音声データが、拡張現実（ＡＲ：Augmented Reality）で表示された当該オブジェクトの位置に応じた音量でスピーカーから出力される技術を開示する。

特開２０１８－０９７４３７号公報

特許文献１に開示された技術では、ユーザの視線、移動方向及び動きに関するセンサデータに基づいて、オブジェクトの音声データを処理する。換言すると、特許文献１に開示された関連技術では、音像を定位させるオブジェクトの位置が固定であることを前提として、ユーザ情報のみに基づいて音声データを処理する。

ところで、情報サービスの多様化及び高度化に伴い、実際の物に音像を定位させて、当該物から仮想的に音が出力されるように体感できるサービスが検討されている。さらに、現実世界では味わうことができない新体感サービスを提供するために、動く物に対しても音像を定位させたサービスが検討されている。

特許文献１に開示された技術は、音像を定位させる対象が移動しないことを前提としている。そのため、音像を定位させる物が動く可能性があり、当該物の位置変化が生じた場合、その位置とは異なる位置から音が発せられたような音声データが生成されてしまう。したがって、特許文献１に開示された技術を用いると、音像を定位させる対象の位置が変化する場合、ユーザに対し所望する音声データが出力されないという問題が生じる。

本開示の目的の１つは、上述した課題を鑑み、ユーザに所望の音を出力可能な情報処理装置、制御方法及び制御プログラムを提供することにある。

本開示にかかる情報処理装置は、
ユーザの位置情報を示す第１位置情報を取得する第１取得部と、
所定の物体の位置情報を示す第２位置情報を取得する第２取得部と、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成部と、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御部と、を備える。

本開示にかかる制御方法は、
ユーザの位置情報を示す第１位置情報を取得し、
所定の物体の位置情報を示す第２位置情報を取得し、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、制御方法である。

本開示にかかる制御プログラムは、
ユーザの位置情報を示す第１位置情報を取得し、
所定の物体の位置情報を示す第２位置情報を取得し、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理をコンピュータに実行させる制御プログラムである。

本開示によれば、ユーザに所望の音を出力可能な情報処理装置、制御方法及び制御プログラムを提供できる。

実施の形態１にかかる情報処理装置の構成例を示す図である。実施の形態１にかかる情報処理装置の動作例を示す図である。実施の形態２にかかる情報処理システムの概要を説明するための図である。実施の形態２にかかる情報処理システムの構成例を示す図である。実施の形態２にかかるサーバ装置の動作例を示すフローチャートである。実施の形態３にかかるサーバ装置の構成例を示す図である。音像を定位させる対象の位置情報を取得する処理を説明するための図である。実施の形態４にかかる情報処理システムの構成例を示す図である。実施の形態４にかかるサーバ装置の動作例を示すフローチャートである。実施の形態５にかかるサーバ装置の構成例を示す図である。実施の形態５にかかるサーバ装置の動作例を示すフローチャートである。本開示の各実施の形態にかかる情報処理装置等のハードウェア構成を例示するブロック図である。

以下、図面を参照しつつ、実施形態について説明する。なお、実施形態において、同一の要素には、同一の符号を付し、重複する説明は省略される。

（実施の形態１）
図１を用いて、実施の形態１にかかる情報処理装置１の構成例について説明する。図１は、実施の形態１にかかる情報処理装置の構成例を示す図である。情報処理装置１は、第１取得部１１と、第２取得部１２と、生成部１３と、制御部１４とを備える。

第１取得部１１は、図示しない通信端末から、ユーザの位置情報を取得する。
第２取得部１２は、所定の物体の位置情報を取得する。所定の物体は、音像を定位させる対象物である。第２取得部１２は、所定の物体に関連する、位置測定信号、撮像画像、又はセンシングデータに基づいて、所定の物体の位置情報を取得してもよい。なお、第２取得部１２は、所定の物体の位置情報を、常時取得してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に取得してもよい。

第２取得部１２は、位置測定信号に基づく場合、例えば、ＧＰＳ（Global Positioning System）信号、ＷｉＦｉ等の無線通信信号を用いて、所定の物体の位置情報を取得してもよい。もしくは、第２取得部１２は、撮像画像に基づく場合、所定の物体が撮像された撮像画像から、所定の物体と、撮像画像を生成した撮像装置との距離及び方向を推定し、所定の物体の位置情報を取得してもよい。もしくは、第２取得部１２は、撮像画像に含まれる、所定の物体に付された所定のマークの大きさ及び方向に基づいて、所定の物体の位置情報を取得してもよい。もしくは、第２取得部１２は、例えば、可視光センサ等のセンシングデータに基づいて、所定の物体の位置情報を取得してもよい。

生成部１３は、ユーザの位置情報と、所定の物体の位置情報とに基づいて、所定の物体に関連する音声情報であって、所定の物体に音像が定位された音声情報を生成する。生成部１３が生成する音声情報は、予め定められた音声情報であってもよく、ユーザからの発話音声が音声認識された内容に基づく音声情報であってもよい。また、生成部１３は、上記音声情報を、常時生成してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に生成してもよい。

制御部１４は、生成部１３が生成した音声情報をユーザに対して出力する制御を実行する。制御部１４は、上記音声情報を、常時出力するように制御してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に出力するように制御してもよい。

次に、図２を用いて、実施の形態１にかかる情報処理装置１の動作例について説明する。図２は、実施の形態１にかかる情報処理装置の動作例を示すフローチャートである。

第１取得部１１は、図示しない通信端末からユーザの位置情報を取得する（ステップＳ１）。
第２取得部１２は、音像を定位させる対象の物体の位置情報を取得する（ステップＳ２）。

生成部１３は、ユーザの位置情報と、音像を定位させる対象の物体の位置情報とに基づいて、音像を定位させる物体に関連する音声情報であって、当該物体に音像が定位された音声情報を生成する（ステップＳ３）。
制御部１４は、生成部１３が生成した音声情報をユーザに対して出力する制御を実行する（ステップＳ４）。

情報処理装置１は、音像を定位させる所定の物体の位置情報を取得し、ユーザの位置情報だけでなく、所定の物体の位置情報を用いて音声情報を生成する。つまり、情報処理装置１は、音像を定位させる所定の物体の位置が変化した場合でも、所定の物体の位置に応じた音声情報を生成できる。そのため、ユーザは、所定の物体がいる位置から発せられた音であるかのような音声情報を聞くことができる。したがって、実施の形態１にかかる情報処理装置１によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。

（実施の形態２）
続いて、実施の形態２について説明する。実施の形態２は、実施の形態１を具体的にした実施の形態である。まず、実施の形態２の具体的な構成例を説明する前に、実施の形態２の概要を説明する。

＜概要＞
近年、ＡＲ技術を用いたサービスが検討されている。ＡＲ技術を用いたサービスとして、例えば、動物園において、仮想的に、動物が話しかけてくるサービスが検討されている。実際には、当該動物は、話をすることができないため、当該サービスは現実世界を拡張するＡＲサービスといえ、音響ＡＲサービスと称されてもよい。このようなサービスは、動物園だけでなく、例えば、店舗、観光スポット等においても提供され得る。

実施の形態２は、上記した、いわゆる音響ＡＲサービスを実現する情報処理システムに関する。なお、上記のように当該情報処理システムは、音響ＡＲサービスを実現するシステムであるため、音響ＡＲシステムと称されてもよい。

ここで、図３を用いて、実施の形態２にかかる情報システムの概要を説明する。図３は、実施の形態２にかかる情報処理システムの概要を説明するための図である。ここでは、一例として、実施の形態２にかかる情報処理システムは、動物園で実現される音響ＡＲサービスを提供するシステムとして説明する。

図３は、動物園において物体Ｏが収容されているエリアを鉛直上方から下方に見たときの状況を模式した模式図である。図３において、四角の実線で囲われているエリア２１は、例えば、物体Ｏが収容されているエリアであり、四角の実線は、例えば、物体Ｏが収容されている檻の境界線を表している。物体Ｏは、例えば、ライオン等の特定の動物を表している。図３では、物体Ｏは、位置が固定されているように図示されているが、実際にはエリア２１の中を移動する。図３では、物体Ｏは、特定の動物であるとして記載をしているが、特定の動物に限られず、エリア２１に存在する任意の物体でもよい。なお、以降の説明において、物体Ｏを動物Ｏとしても記載することがある。

実施の形態２にかかる情報処理システムは、通信端末４０を装着したユーザＵが、例えば、エリア２１に近づいてきた場合等、所定条件が満たされたときに、物体Ｏに音像が定位された音声情報をユーザＵに出力する。換言すると、実施の形態２にかかる情報処理システムは、所定条件が満たされたときに、物体Ｏの位置から、物体Ｏがあたかも話しかけてくるような音声情報をユーザＵに出力する。なお、実線の矢印は、ユーザＵの前後左右方向を示している。

なお、本実施の形態では、通信端末４０は、ユーザＵの左耳に装着される左ユニット４０Ｌと、右耳に装着される右ユニット４０Ｒとを含む通信端末であることとして説明する。また、ユーザＵに対して出力する音声情報は、左ユニット４０Ｌ及び右ユニット４０Ｒのそれぞれに出力する音声情報であって、左ユニット４０Ｌに対応する左耳音声情報と、右ユニット４０Ｒに対応する右耳音声情報とを含むこととして説明する。

＜情報処理システムの構成例＞
次に、図４を用いて、情報処理システム１００の構成例について説明する。図４は、実施の形態２にかかる情報処理システムの構成例を示す図である。情報処理システム１００は、通信端末４０及び５０と、サーバ装置６０とを備える。

通信端末４０は、図３に示した通信端末４０であり、ユーザに装着される通信端末である。上述したように、通信端末４０は、ユーザの両耳の各々に装着される通信端末であり、ユーザの左耳に装着される左ユニット４０Ｌと、ユーザの右耳に装着される右ユニット４０Ｒとを含む。通信端末４０は、ユーザの両耳に装着されるデバイスであるため、ヒアラブルデバイスと称されてもよい。なお、通信端末４０は、左ユニット４０Ｌ及び右ユニット４０Ｒが一体型となった通信端末であってもよい。

通信端末４０は、例えば、通信事業者が提供する無線通信が可能な通信端末であり、通信事業者が提供するネットワークを介してサーバ装置６０と通信を行う。通信端末４０は、ユーザの方向情報を取得し、取得した方向情報をサーバ装置６０に送信する。通信端末４０は、サーバ装置６０が生成した音声情報を、ユーザの両耳の各々に出力する。具体的には、通信端末４０は、図３に示した物体Ｏに音像が定位された音声情報を、ユーザの両耳の各々に出力する。なお、通信端末４０（左ユニット４０Ｌ及び右ユニット４０Ｒ）は、サーバ装置６０と直接通信を行うこととして説明するが、通信端末５０を介してサーバ装置６０と通信を行う構成であってもよい。

通信端末５０は、例えば、スマートフォン端末、タブレット端末、携帯電話、パーソナルコンピュータ装置であってもよい。通信端末５０は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ等の無線通信により、通信端末４０と接続及び通信を行う。また、通信端末５０は、例えば、通信事業者が提供するネットワークを介してサーバ装置６０と通信を行う。通信端末５０は、ユーザの位置情報を取得し、取得したユーザの位置情報をサーバ装置６０に送信する。

なお、図４において、情報処理システム１００は、２つの通信端末（通信端末４０及び５０）を含む構成としているが、通信端末４０及び５０は、例えば、ヘッドマウントディスプレイ等のように、１つの通信端末により構成されてもよい。また、通信端末４０がユーザの方向情報だけでなくユーザの位置情報を取得する構成であってもよい。つまり、情報処理システム１００は、少なくとも１つの通信端末を有する構成であればよい。

サーバ装置６０は、実施の形態１における情報処理装置１に対応する。サーバ装置６０は、例えば、通信事業者が提供するネットワークを介して、通信端末４０及び５０と通信を行う。サーバ装置６０は、通信端末４０及び５０のそれぞれから、方向情報及びユーザの位置情報を取得する。

サーバ装置６０は、図３に示した物体Ｏのように、音像を定位させる対象の物体の位置情報を取得する。サーバ装置６０は、方向情報、ユーザの位置情報、及び当該物体の位置情報に基づいて、上記物体に音像が定位した音声情報を生成し、生成された音声情報を出力する。なお、本実施の形態では、音像を定位させる対象の物体は、動物であるとして説明するが、任意の物体であればよいため、これに限られない。

＜通信端末の構成例＞
次に、通信端末４０の構成例について説明する。通信端末４０は、方向情報取得部４１と、出力部４２とを備える。なお、通信端末４０は、左ユニット４０Ｌと、右ユニット４０Ｒとを含むため、左ユニット４０Ｌ及び右ユニット４０Ｒの両方が、方向情報取得部４１、及び出力部４２を有する構成であってもよい。

方向情報取得部４１は、例えば、９軸センサ（３軸加速度センサ、３軸ジャイロセンサ、３軸コンパスセンサ）等を含むように構成される。方向情報取得部４１は、９軸センサにより、ユーザが向いている方向を示すユーザの方向情報を取得する。具体的には、方向情報取得部４１は、９軸センサにより取得した、ユーザの顔方向を含む方向情報として取得する。方向情報取得部４１は、取得した方向情報をサーバ装置６０に送信する。なお、方向情報取得部４１は、取得した方向情報を通信端末５０に送信してもよい。

方向情報取得部４１は、９軸センサを含むため、ユーザの顔方向だけでなく、ユーザの姿勢についても取得できるので、方向情報は、ユーザの姿勢も含むように構成され姿勢情報と称されてもよい。方向情報は、９軸センサにより取得されたデータであるため、センシングデータと称されてもよい。なお、方向情報取得部４１は、ユーザの顔が少なくとも撮像された撮像画像に基づいて、ユーザの視線を推定し、ユーザの視線方向を方向情報に含めてもよい。

方向情報取得部４１は、周期的に又は非周期的に方向情報を取得する。方向情報取得部４１は、例えば、ユーザの顔方向が変化したことを検知したときに方向情報を取得してもよい。もしくは、方向情報取得部４１は、図３に示した物体Ｏのように、音像を定位させる対象の動物に関連付けられたエリアに入った場合に、方向情報を取得してもよい。音像を定位させる対象の動物に関連付けられたエリアは、ジオフェンスと称されるエリアであってもよい。

出力部４２は、例えば、ステレオスピーカ等を含むように構成される。出力部４２は、通信部としても機能し、サーバ装置６０が生成する音声情報を受信し、受信した音声情報をユーザの耳に出力する。サーバ装置６０が生成する音声情報は、左ユニット４０Ｌのための左耳用音声情報と、右ユニット４０Ｒのための右耳用音声情報とを含む。左ユニット４０Ｌの出力部４２は、左耳用音声情報を出力し、右ユニット４０Ｒの出力部４２は、右耳用音声情報を出力する。

次に、通信端末５０の構成例について説明する。通信端末５０は、ユーザ位置情報取得部５１を備える。

ユーザ位置情報取得部５１は、例えば、ＧＰＳ受信機等を含むように構成される。ユーザ位置情報取得部５１は、ＧＰＳ信号を受信し、ＧＰＳ信号に基づいてユーザの位置情報を取得する。ユーザ位置情報取得部５１は、取得したユーザの位置情報をサーバ装置６０に送信する。なお、位置情報は、緯度経度情報であってもよく、所定の位置を基準とした座標情報であってもよい。また、位置情報は、高度情報を含んでもよい。

ユーザ位置情報取得部５１は、通信端末４０の左ユニット４０Ｌ及び右ユニット４０Ｒのそれぞれの位置を取得する。上述したように、通信端末５０は、例えば、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ等の無線通信により、左ユニット４０Ｌ及び右ユニット４０Ｒと通信する。ユーザ位置情報取得部５１は、左ユニット４０Ｌ及び右ユニット４０Ｒの方向情報取得部４１が取得した方向情報（センシングデータ）を用いて、左ユニット４０Ｌ及び右ユニット４０Ｒの各々の位置情報を取得する。ユーザ位置情報取得部５１は、左ユニット４０Ｌ及び右ユニット４０Ｒの各々の位置情報を、ユーザの両耳の各々の位置情報とする。ユーザ位置情報取得部５１は、ユーザの両耳の各々の位置情報を含む、ユーザの位置情報をサーバ装置６０に送信する。なお、ユーザ位置情報取得部５１は、左ユニット４０Ｌ及び右ユニット４０Ｒとの通信に用いられる無線信号の信号強度及び到来方向に基づいて、左ユニット４０Ｌ及び右ユニット４０Ｒの各々の位置情報を取得してもよい。

ユーザ位置情報取得部５１は、周期的に、左ユニット４０Ｌ及び右ユニット４０Ｒのそれぞれの位置を取得する。なお、ユーザ位置情報取得部５１は、左ユニット４０Ｌの位置、及び右ユニット４０Ｒの位置の少なくとも一方が変化したことを検知したときに左ユニット４０Ｌ及び右ユニット４０Ｒのそれぞれの位置を取得してもよい。

＜サーバ装置の構成例＞
次に、サーバ装置６０の構成例について説明する。サーバ装置６０は、ユーザ情報取得部６１と、ターゲット情報取得部６２と、生成部６３と、制御部６４とを備える。

ユーザ情報取得部６１は、実施の形態１における第１取得部１１に対応する。ユーザ情報取得部６１は、ユーザの位置情報と、ユーザの方向情報とを取得する。ユーザ情報取得部６１は、通信部としても機能し、方向情報を通信端末４０から受信することにより方向情報を取得する。また、ユーザ情報取得部６１は、ユーザの位置情報を通信端末５０から受信することにより、ユーザの位置情報を取得する。ユーザ情報取得部６１は、ユーザの位置情報と、ユーザの方向情報とを生成部６３に出力する。

ターゲット情報取得部６２は、実施の形態１における第２取得部１２に対応する。ターゲット情報取得部６２は、音像を定位させる対象の動物の位置情報を取得し、取得した当該動物の位置情報を生成部６３に出力する。音像を定位させる対象の動物は、図２の物体Ｏで示した動物である。なお、ターゲット情報取得部６２は、音像を定位させる対象の動物の位置情報を常時取得してもよいし、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、当該動物の位置情報を取得してもよい。

ターゲット情報取得部６２は、位置測定信号、撮像装置により撮像された撮像画像、又は音像を定位させる対象の動物に関連するセンシングデータに基づいて、音像を定位させる対象の動物の位置情報を取得する。

ターゲット情報取得部６２は、位置測定信号に基づく場合、例えば、ＧＰＳ信号、ＷｉＦｉ等の無線通信信号を用いて、音像を定位させる動物の位置情報を取得する。

ターゲット情報取得部６２は、撮像画像に基づく場合、音像を定位させる動物が撮像された撮像画像から、当該動物と、撮像画像を生成した撮像装置との距離及び方向を推定し、所定の物体の位置情報を取得してもよい。もしくは、ターゲット情報取得部６２は、撮像画像に含まれる、音像を定位させる動物に付された所定のマークの大きさ及び方向に基づいて、当該動物の位置情報を取得してもよい。もしくは、ターゲット情報取得部６２は、例えば、可視光センサ等のセンシングデータに基づいて、音像を定位させる動物の位置情報を取得してもよい。

生成部６３は、実施の形態１における生成部１３に対応する。生成部６３は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、音像を定位させる動物に関連する音声情報を生成する。つまり、生成部６５は、当該動物が話しかけてきた音声であるとユーザが認識できるような音声情報を生成する。上記音声情報は、予め定められた１つ又は複数の音声情報であってもよいし、ユーザからの発話音声を音声認識した結果に基づく音声情報であってもよい。

なお、生成部６３は、上記音声情報を、常時生成してもよく、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、生成してもよい。

上記したように、ユーザの位置情報は、ユーザの両耳の各々の位置情報を含み、音声情報は、左ユニット４０Ｌのための左耳用音声情報と、右ユニット４０Ｒのための右耳用音声情報とを含む。生成部６３は、ユーザの左耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する左耳用音声情報を生成する。生成部６３は、ユーザの右耳の位置情報と、方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する右耳用音声情報を生成する。生成部６３は、生成した音声情報を、制御部６４に出力する。

制御部６４は、実施の形態１における制御部１４に対応する。制御部６４は、生成された音声情報を出力部４２からユーザに対して出力する制御を実行する。制御部６４は、通信部としても機能し、生成部６３が生成した音声情報を通信端末４０に送信する。制御部６４は、左耳用音声情報を左ユニット４０Ｌに送信し、右耳用音声情報を右ユニット４０Ｒに送信する。

なお、制御部６４は、所定のタイミングにおいて、上記音声情報を出力部４２から出力する制御を実行する。制御部６４は、上記音声情報を、常時出力してもよく、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、出力してもよい。

制御部６４は、出力部４２が出力する音声情報を制御する。制御部６４は、ユーザの位置情報と、ユーザの方向情報に含まれる顔方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの顔方向に当該動物が存在しているか否かに応じた音声情報を出力する。

具体的には、制御部６４は、ユーザの顔方向に当該動物が存在している場合、出力部４２を介して、第１の音声情報をユーザに対して出力する。また、制御部６４は、ユーザの顔方向に当該動物が存在していない場合、出力部４２を介して、第２の音声情報をユーザに対して出力する。換言すると、制御部６４は、ユーザが音像を定位させる対象の動物と相対したか否かを検出し、相対したか否かに応じて音声情報を調整する。つまり、制御部６４は、ユーザが音像を定位させる対象の動物と相対する前後で出力する音声情報を変更する。

また、制御部６４は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報のうちの少なくとも１つの変位に応じて、生成部６３が生成した音声情報を補正する。制御部６４は、補正した音声情報を、出力部４２を介して、ユーザに対して出力するように制御する。

＜サーバ装置の動作例＞
次に、図５を用いて、サーバ装置６０の動作例について説明する。図５は、実施の形態２にかかるサーバ装置の動作例を示すフローチャートである。

ユーザ情報取得部６１は、ユーザの位置情報及び方向情報を取得する（ステップＳ１１）。ユーザ位置情報取得部５１は、周期的に、ユーザ位置情報取得部５１からユーザの位置情報を受信することにより、ユーザの位置情報を取得する。ユーザの位置情報は、ユーザの両耳の各々の位置情報を含む。また、ユーザ情報取得部６１は、周期的に、方向情報取得部４１からユーザの方向情報を受信することにより、方向情報を取得する。ユーザ情報取得部６１は、ユーザの位置情報及び方向情報を生成部６３に出力する。

なお、図５では、ユーザ情報取得部６１は、ステップＳ１１において、ユーザの位置情報及び方向情報を取得することとしたが、ステップＳ１１が、ユーザの位置情報を取得するステップと、方向情報を取得するステップとを含んでもよい。また、図５では、ステップＳ１１が１回のみ実行するように図示されているが、ステップＳ１１は、周期的に実行される処理ステップであり、ステップＳ１１が実行される順序は、図５に限られない。

ターゲット情報取得部６２は、音像を定位させる対象の動物の位置情報を取得する（ステップＳ１２）。ターゲット情報取得部６２は、位置測定信号、所定の物体が撮像された撮像画像、又は所定の物体に関連するセンシングデータに基づいて、所定の物体の位置情報を取得する。

なお、図５では、ステップＳ１２が１回のみ実行するように図示されているが、ステップＳ１２は、周期的に実行される処理ステップであり、ステップＳ１２が実行される順序は、図５に限られない。

生成部６３は、音像を定位させる動物に関連し、当該動物に音像が定位された音声情報を生成する（ステップＳ１３）。生成部６３は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報に基づいて、当該動物に音像が定位され、かつ当該動物に関連する音声情報を生成する。つまり、生成部６３は、音像を定位させる動物の位置を基準とした、ユーザとの距離、及び方向に合った、音量、方向、及びその時にあった内容を含み、当該動物が話しかけてきた音声であるとユーザが認識するような音声情報を生成する。

生成部６３は、ユーザの左耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する左耳用音声情報を生成する。生成部６３は、ユーザの右耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する右耳用音声情報を生成する。

制御部６４は、生成された音声情報の出力制御を実行する（ステップＳ１４）。制御部６４は、生成された音声情報を出力部４２からユーザに対して出力する制御を実行する。制御部６４は、生成部６３が生成した音声情報を通信端末４０に送信する。制御部６４は、左耳用音声情報を左ユニット４０Ｌに送信し、右耳用音声情報を右ユニット４０Ｒに送信する。

制御部６４は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報のうちの少なくとも１つの変位に応じて、生成部６３が生成した音声情報を補正する。制御部６４は、補正した音声情報が出力部４２からユーザに対して出力されるように制御する。

以上説明したように、ユーザ情報取得部６１は、通信端末４０及び５０のそれぞれから、方向情報及びユーザの位置情報を取得する。ターゲット情報取得部６２は、音像を定位させる動物の位置情報を取得する。生成部６３は、ユーザの位置情報及び方向情報だけでなく、音像を定位させる動物の位置情報を用いて、当該動物に関連する音声情報を生成する。すなわち、生成部６３は、音像を定位させる動物が移動した場合でも、当該動物の位置に応じた音声情報を生成できる。そのため、実施の形態２にかかるサーバ装置６０を用いることにより、ユーザに対して、音像を定位させる動物から発せられたとユーザが認識し得る音声情報を出力できる。したがって、実施の形態２にかかるサーバ装置６０によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。

また、制御部６４は、音像を定位させる動物が移動した場合、通信端末４０に出力される音声情報を補正する。したがって、実施の形態２にかかるサーバ装置６０によれば、音像を定位させる対象が動的なものであっても、その動きにあわせた音声情報を出力することができるため、より臨場感のある音声情報をユーザに対して出力できる。

（変形例）
実施の形態２において、以下の変形を施してもよい。実施の形態２を以下のように変形しても実施の形態２と同様の効果を奏することができる。

生成部６３は、ユーザの位置情報と、ユーザの方向情報に含まれる顔方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの顔方向に、当該動物が存在している場合、上記音声情報を生成してもよい。もしくは、生成部６３は、ユーザの位置情報と、ユーザの方向情報に含まれるユーザの視線方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの視線方向に、当該動物が存在している場合、上記音声情報を生成してもよい。なお、ユーザの視線方向は、方向情報取得部４１が取得して方向情報に含まれたものでもよい。もしくは、ユーザの視線方向は、ユーザ情報取得部６１がユーザの顔が撮像された撮像画像に基づいて推定し、ユーザ情報取得部６１が方向情報に含めたものであってもよい。

制御部６４は、ユーザの顔方向に、当該動物が存在している場合、上記音声情報を出力部４２に送信し、出力部４２がユーザに対して送信された音声情報を出力するように制御してもよい。もしくは、制御部６４は、ユーザの視線方向に、当該動物が存在している場合、上記音声情報を出力部４２に送信し、出力部４２がユーザに対して送信された音声情報を出力するように制御してもよい。

（実施の形態３）
続いて、実施の形態３について説明する。実施の形態３は、実施の形態２と比較して、音像を定位させる対象の動物の位置情報を取得する処理内容が異なる。なお、実施の形態３においても、情報処理システムの構成例、通信端末４０及び５０の構成例は、実施の形態２と同様である。そのため、情報処理システムの構成例、通信端末４０及び５０の構成例については説明を適宜割愛する。

＜サーバ装置の構成例＞
次に、実施の形態３にかかるサーバ装置７０の構成例について説明する。図６は、実施の形態３にかかるサーバ装置の構成例を示す図である。図６に示すように、サーバ装置７０は、ユーザ情報取得部６１と、ターゲット情報取得部７２と、生成部６３と、制御部６４とを備える。なお、ユーザ情報取得部６１、生成部６３、及び制御部６４の構成例については、実施の形態２にかかるサーバ装置６０と同様である。そのため、ユーザ情報取得部６１、生成部６３、及び制御部６４の構成例については適宜割愛して説明する。

ターゲット情報取得部７２は、実施の形態２と同様に、音像を定位させる対象の動物の位置情報を取得し、取得した当該動物の位置情報を生成部６３に出力する。なお、ターゲット情報取得部７２は、音像を定位させる対象の動物の位置情報を常時取得してもよいし、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、当該動物の位置情報を取得してもよい。

ターゲット情報取得部７２は、音像を定位させる対象の動物を見ている複数の人物が撮像された撮像画像に基づいて、当該複数の人物の各々の注視方向を推定する。ターゲット情報取得部７２は、推定された複数の人物の各々の位置を基準とした注視方向が交わる位置を推定し、推定した位置を、音像を定位させる対象の動物の位置情報として取得する。なお、位置情報は、緯度経度情報であってもよく、所定の位置を基準とした座標情報であってもよい。また、位置情報は、高度情報を含んでもよい。撮像画像は、静止画像であってもよく、動画像であってもよい。

ターゲット情報取得部７２は、撮像画像を画像認識し、複数の人物の各々の顔を特定する。ターゲット情報取得部７２は、特定した各人物の顔が向いている顔方向を推定し、推定した顔方向を、各人物の注視方向と特定してもよい。もしくは、ターゲット情報取得部７２は、特定した各人物の顔の特徴点を検出し、検出した特徴点から、目頭や目尻、瞳等、目の周囲の特徴を特定することにより、各人物の視線方向を推定し、推定した視線方向を各人物の注視方向として特定してもよい。

ここで、図７を用いて、ターゲット情報取得部７２により実行される、音像を定位させる対象の動物の位置情報を取得する処理について説明する。図７は、音像を定位させる対象の位置情報を取得する処理を説明するための図である。

図７は、図３のエリア２１を拡大した図であり、エリア２１の周辺にいる複数の人物が、動物Ｏを見ている状況を表す図である。なお、図７では、動物Ｏの図示を省略している。

エリア２１には、動物Ｏを監視するために、又はエリア２１の周辺状況を確認するために、例えば、監視カメラ等の撮像装置３０が配置されている。図７において、人物Ｐ１～Ｐ１０は、エリア２１の周辺にいる複数の人物を表している。撮像装置３０は、動物Ｏを見ている複数の人物（人物Ｐ１～Ｐ１０）の顔を少なくとも含むように撮像する。ターゲット情報取得部７２は、撮像装置３０が撮像した撮像画像を撮像装置３０から取得し、撮像画像に基づいて、複数の人物（人物Ｐ１～Ｐ１０）の各々の注視方向を推定する。

点線（点線の矢印）Ｌ１～Ｌ１０のそれぞれは、人物Ｐ１～Ｐ１０の注視方向を示している。点線Ｌ２～Ｌ９は、交点Ｔ１～Ｔ４により他の点線と交わっており、交点Ｔ１～Ｔ４は、人物Ｐ２～Ｐ９の注視方向が交わる位置を示している。

交点Ｔ１は、７つの点線が交わる点であり、７人の人物の注視方向が交わる点であり、７人の人物が注視している位置を表していると言える。交点Ｔ２は、２つの点線が交わる点であり、２人の人物の注視方向が交わる点であり、２人の人物が注視している位置を表していると言える。交点Ｔ３は、２つの点線が交わる点であり、２人の人物の注視方向が交わる点であり、２人の人物が注視している位置を表していると言える。交点Ｔ４は、２つの点線が交わる点であり、２人の人物の注視方向が交わる点であり、２人の人物が注視している位置を表していると言える。

ターゲット情報取得部７２は、人物Ｐ１～Ｐ１０の注視方向が交わる位置に基づいて、動物Ｏの位置情報を特定（取得）する。ターゲット情報取得部７２は、交点Ｔ１～Ｔ４のうち、各交点を構成する注視方向を示す点線の数が最も多い交点の位置を、動物Ｏの位置情報として特定してもよい。図７では、交点Ｔ１が各交点を構成する点線の数が多いため、ターゲット情報取得部７２は、交点Ｔ１の位置を、動物Ｏの位置情報としてもよい。交点Ｔ１～Ｔ４は、各人物が注視している位置の候補を示しているとも言える。そのため、ターゲット情報取得部７２は、交点Ｔ１～Ｔ４のうち、注視している人物が最も多い位置を、動物Ｏの位置情報としてもよい。

また、ターゲット情報取得部７２は、交点Ｔ１～Ｔ４により構成される図形の中心の位置を、動物Ｏの位置情報としてもよい。なお、図７では交点が４つ存在しているが、交点が２つである場合、ターゲット情報取得部７２は、２つの交点の中点を、動物の位置情報としてもよい。

あるいは、ターゲット情報取得部７２は、各交点を構成する、各人物の注視方向を示す点線の数を重み係数として、各交点の位置に重み係数を乗じて求められた位置により求まる図形の中心の位置を、動物Ｏの位置情報としてもよい。図７では、交点Ｔ１は、７本の点線が交わっており、交点Ｔ２～Ｔ４は、２本の点線が交わっている。そのため、ターゲット情報取得部６２は、交点Ｔ１の位置に７／１３（＝７＋２＋２＋２）の重み係数を乗じて求まる位置Ｔ１’を求め、交点Ｔ２～Ｔ４のそれぞれの位置に２／１３の重み係数を乗じて求まる位置Ｔ２’～Ｔ４’を求める。そして、ターゲット情報取得部６２は、位置Ｔ１’～Ｔ４’により求まる図形の中心の位置を、動物Ｏの位置情報としてもよい。

もしくは、ターゲット情報取得部７２は、人物Ｐ１～Ｐ１０のうち、他の人物と異なる位置を見ている人物の注視方向を除外して、選択された人物の注視方向により決定される交点の位置を、動物Ｏの位置情報としてもよい。

図７の例では、人物Ｐ１及びＰ１０は、人物Ｐ２～Ｐ９と異なる位置を見ているため、ターゲット情報取得部７２は、人物Ｐ１及びＰ１０の注視方向を示す点線を除外する。そして、ターゲット情報取得部７２は、人物Ｐ２～Ｐ９の注視方向により決定される交点の位置のうち、最も多くの人物が注目している位置（図７では交点Ｔ１）を、動物Ｏの位置情報としてもよい。図７において、例えば、人物Ｐ５が他の人物と全く異なる方向を向いていたとする。この場合、人物Ｐ５の注視方向を示す点線は除外される。そうすると、交点Ｔ２～Ｔ４も存在しないことになり、各人物の注視方向により決定される交点は、交点Ｔ１に一意に決まることになる。

なお、図７では、人物Ｐ１～Ｐ１０の各々の注視方向を点線（点線の矢印）で示したが、例えば、人物Ｐ１～Ｐ１０の各々の注視方向を、図７で示した点線を基準として、例えば、各人物の顔幅等の所定の幅を有する範囲（エリア）として定義してもよい。この場合、ターゲット情報取得部７２は、各人物の注視方向（注視範囲又は注視エリア）が重複するエリアの中心位置を、動物Ｏの位置情報としてもよい。

＜サーバ装置の動作例＞
次に、サーバ装置７０の動作例について説明する。サーバ装置７０が実行する動作は、図５で示した動作例と基本的に同様であるため、図５を参照して説明する。サーバ装置７０が実行する動作は、図５で示したステップＳ１２の内容が、実施の形態２と異なる。そのため、図５のステップＳ１２で実施される動作について説明する。

ステップＳ１２において、ターゲット情報取得部７２は、音像を定位させる対象の動物がいるエリアの周辺が撮像された撮像画像に基づいて、当該エリアの周辺にいる複数の人物の各々の注視方向を推定する。ターゲット情報取得部７２は、推定された複数の人物の各々の注視方向に基づいて、注視方向が交わる位置を推定する。ターゲット情報取得部７２は、推定した位置に基づいて、音像を定位させる対象の動物の位置情報として取得する。ターゲット情報取得部７２は、音像を定位させる対象の動物の位置情報を生成部６３に出力する。

以上説明したように、ターゲット情報取得部７２は、音像を定位させる動物を見ている複数の人物の注視方向に基づいて、当該動物の位置情報を取得する。ターゲット情報取得部７２が、実施の形態３のように構成されたとしても、実施の形態２と同様の効果を奏することができる。すなわち、実施の形態３にかかるサーバ装置７０によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。また、実施の形態２にかかるサーバ装置７０によれば、音像を定位させる対象が動的なものであっても、その動きにあわせた音声情報を出力することができるため、より臨場感のある音声情報をユーザに対して出力できる。

（実施の形態４）
続いて、実施の形態４について説明する。実施の形態４は、実施の形態２及び３の改良例である。実施の形態２及び３では、サーバ装置は、ユーザに対して音声情報を出力する構成であったが、本実施の形態では、ユーザに対して表示情報も出力する。なお、以降の説明では、実施の形態２を用いて、実施の形態２との差分内容を説明する。

＜情報処理システムの構成例＞
図８を用いて、実施の形態４にかかる情報処理システム２００の構成例について説明する。図８は、実施の形態４にかかる情報処理システムの構成例を示す図である。情報処理システム２００は、実施の形態２にかかる通信端末５０及びサーバ装置６０のそれぞれが通信端末８０及びサーバ装置９０に置き換わった構成である。なお、通信端末４０の構成例については、実施の形態２と同様であるため、説明を適宜割愛する。

＜通信端末の構成例＞
次に、通信端末８０の構成例を説明する。通信端末８０は、実施の形態２における通信端末５０の構成に、撮像部８１及び表示部８２が加わった構成である。なお、ユーザ位置情報取得部５１の構成については、実施の形態２と同様であるため、説明を適宜割愛する。

撮像部８１は、例えば、カメラ等を含むように構成される。撮像部８１は、所定の範囲を撮像して、撮像画像を生成する。撮像部８１は、生成した撮像画像を表示部８２に出力する。なお、撮像画像は、静止画像であってもよく、動画像であってもよい。また、撮像部８１は、生成した撮像画像を、サーバ装置９０のユーザ情報取得部６１に送信してもよい。

表示部８２は、例えば、ディスプレイ等を含むように構成される。表示部８２は、撮像部８１により撮像された撮像画像をディスプレイに表示する。また、表示部８２は、サーバ装置９０が生成する表示情報を受信し、受信した表示情報をディスプレイに表示する。表示部８２は、音像を定位させる対象の動物が撮像画像に含まれているか否かを判定する。表示部８２は、音像を定位させる対象の動物が撮像画像に含まれている場合、当該動物に関連する位置に、サーバ装置９０から受信した表示情報を表示する。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。

なお、表示部８２は、撮像部８１が撮像した撮像画像に、音像を定位させる対象の動物が含まれており、当該動物にＡＲマーカが配置されている場合、ＡＲマーカに指定された表示情報（コンテンツ）をディスプレイに表示してもよい。

＜サーバ装置の構成例＞
次に、サーバ装置９０の構成例について説明する。サーバ装置９０は、ユーザ情報取得部６１と、ターゲット情報取得部６２と、生成部９１と、制御部９２とを備える。サーバ装置９０は、実施の形態２における生成部６３及び制御部６４のそれぞれが生成部９１及び制御部９２に置き換わった構成である。なお、ユーザ情報取得部６１及びターゲット情報取得部６２の構成例については、実施の形態２と基本的に同様であるため、説明を適宜割愛する。

ユーザ情報取得部６１は、実施の形態２におけるユーザ情報取得部６１の構成を有している。なお、ユーザ情報取得部６１は、撮像部８１が生成した撮像画像を通信端末８０からさらに取得してもよく、撮像画像を通信端末８０から取得した場合、取得した撮像画像を生成部９１及び制御部９２に出力してもよい。

生成部９１は、実施の形態２における生成部６３の構成を有しており、表示部８２がディスプレイに表示する表示情報をさらに生成する。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。生成部９１は、生成した表示情報を制御部９２に出力する。

なお、生成部９１は、ユーザ情報取得部６１が取得した撮像画像に、音像を定位させる対象の動物だけでなく、他の動物も含まれている場合、当該他の動物に関する表示情報を生成してもよい。そして、生成部９１は、制御部９２を介して、表示部８２が上記他の動物に関する表示情報もディスプレイに表示させる制御を実行してもよい。

制御部９２は、実施の形態２における制御部６４の構成を有しており、生成された音声情報を出力部４２から出力する制御を実行するとともに、表示部８２が表示情報をディスプレイ（画面）に表示する制御を実行する。

制御部９２は、生成部９１が生成した表示情報を通信端末８０に送信する。制御部９２は、出力部４２が音声情報を出力するタイミングと、表示部８２がディスプレイに表示情報を表示するタイミングとを制御する。制御部９２は、音声情報を出力するタイミングにおいて表示可能に制御する。制御部９２は、音声情報を出力するタイミングにおいて、ユーザが通信端末８０のディスプレイで表示情報を見ることができることを認識できる通知を、通信端末４０及び８０の少なくとも１つに送信する。

制御部９２は、音像を定位させる対象の動物に関連付けられたエリアにユーザが入ったタイミングで、出力部４２が音声情報を出力するように制御し、表示部８２が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。もしくは、制御部９２は、ユーザの方向情報に対応する方向（顔方向又は視線方向）に、音像を定位させる動物が存在するタイミングで、出力部４２が音声情報を出力するように制御してもよい。そして、制御部９２は、表示部８２が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。もしくは、制御部９２は、撮像部８１により生成された撮像画像に当該動物が含まれている場合、出力部４２が音声情報を出力するように制御し、表示部８２が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。

＜サーバ装置の動作例＞
次に、図９を用いて、実施の形態４にかかるサーバ装置９０の動作例について説明する。図９は、実施の形態４にかかるサーバ装置の動作例を示すフローチャートである。図９に示すフローチャートは、図５に対応しており、図５に示したフローチャートのステップＳ１４がステップＳ２２に置き換わっている。また、図９に示すフローチャートは、図５に示したフローチャートにステップＳ２１が加わったフローチャートである。

図９の動作のうち、ステップＳ１１～Ｓ１３において実行される動作については、図５と同様であるため、説明を割愛する。

ステップＳ２１において、生成部９１は、表示部８２がディスプレイに表示する表示情報を生成する（ステップＳ２１）。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。

制御部９２は、生成された音声情報の出力制御、及び生成された表示情報の表示制御を実行する（ステップＳ２２）。制御部９２は、生成された音声情報を出力部４２が出力する制御を実行するとともに、通信端末８０のディスプレイ（画面）に表示部８２が表示情報を表示する制御を実行する。

制御部９２は、生成部９１が生成した音声情報を通信端末４０に送信するとともに、生成部９１が生成した表示情報を通信端末８０に送信する。制御部９２は、出力部４２が音声情報を出力するタイミングと、表示部８２がディスプレイに表示情報を表示するタイミングとを制御する。制御部９２は、出力部４２が音声情報を出力するタイミングで、表示部８２が表示情報をディスプレイに表示可能に制御する。そして、制御部９２は、ユーザが通信端末８０のディスプレイで表示情報を見ることが可能であることを認識できる通知を、通信端末４０及び８０の少なくとも１つに送信する。

以上説明したように、生成部９１は、音像を定位させる対象の動物の表示情報を生成する。制御部９２は、生成部９１が生成した表示情報を表示部８２がディスプレイに表示する制御を実行する。ユーザは、通信端末８０の撮像部８１を用いて、音像を定位させる対象の動物を撮像することにより、ユーザが求める情報を表示情報として見ることができる。したがって、実施の形態４にかかるサーバ装置９０によれば、ユーザが求めている情報をユーザに提供できる。

（実施の形態５）
続いて、実施の形態５について説明する。実施の形態５は、実施の形態２～４の改良例である。実施の形態５は、音像を定位させる対象の動物が複数である場合の実施の形態である。なお、以降の説明では、実施の形態４を用いて、実施の形態４との差分内容を説明する。また、実施の形態５においても、情報処理システムの構成例、通信端末４０及び８０の構成例は、実施の形態４と同様である。そのため、情報処理システムの構成例、通信端末４０及び８０の構成例については説明を適宜割愛する。

＜サーバ装置の構成例＞
図１０を用いて、実施の形態５にかかるサーバ装置１１０の構成例について説明する。図１０は、実施の形態５にかかるサーバ装置の構成例を示す図である。図１０に示すように、サーバ装置１１０は、ユーザ情報取得部６１と、ターゲット情報取得部１１１と、生成部１１２と、制御部１１３とを備える。なお、ユーザ情報取得部６１の構成例については、実施の形態４にかかるサーバ装置９０と同様である。そのため、ユーザ情報取得部６１の構成については適宜割愛して説明する。

ターゲット情報取得部１１１は、音像を定位させる複数の動物の各々の位置情報を取得する。音像を定位させる動物が撮像された撮像画像、位置測定信号又はセンサデータに基づく場合、ターゲット情報取得部１１１は、音像を定位させる動物の数及び位置が特定できる。そのため、ターゲット情報取得部１１１は、特定した位置を、音像を定位させる各動物の位置情報として取得すればよい。

音像を定位させる複数の人物の注視方向を用いる場合、ターゲット情報取得部１１１は、各動物が撮像された撮像画像に基づいて、音像を定位させる動物の数を特定する。そして、ターゲット情報取得部１１１は、各人物の注視方向が交わる位置（交点）のうち、各交点を構成する注視方向を示す点線の数が多い方から順に音像を定位させる動物の数だけ選択すればよい。

また、ターゲット情報取得部１１１は、音像を定位させる複数の動物が同種類であるか否かを判定する。ターゲット情報取得部１１１は、音像を定位させる複数の動物の位置情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部６２は、例えば、音像を定位させる複数の動物が所定範囲内にいる場合、音像を定位させる複数の動物が同種類であると判定してもよい。

もしくは、ターゲット情報取得部１１１は、音像を定位させる各動物の特徴情報を取得し、取得した各動物の特徴情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部１１１は、例えば、音像を定位させる複数の動物の特徴情報の類似度を算出し、当該類似度が所定値以上である場合、音像を定位させる複数の動物が同種類であると判定してもよい。

なお、ターゲット情報取得部１１１は、音像を定位させる各動物の特徴情報に基づいて、各動物を識別してもよい。ターゲット情報取得部１１１は、各動物の特徴情報に基づいて、各動物に与えられている名前、他の動物と異なる特性等を識別してもよい。

生成部１１２は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向（顔方向又は視線方向）に存在する動物を特定する。そして、生成部１１２は、特定した動物に関連し、特定した動物に音像が定位された音声情報を生成する。また、生成部１１２は、特定した動物に関連する表示情報を生成する。

また、生成部１１２は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた音声情報及び表示情報を生成する。なお、ターゲット情報取得部１１１は、各動物の特徴情報に応じた音声情報及び表示情報を生成してもよい。

制御部１１３は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向（顔方向又は視線方向）に存在する動物を特定する。そして、制御部１１３は、特定された動物に関連する音声情報を出力部４２が出力するように制御する。また、制御部１１３は、特定された動物に関連する表示情報を表示部８２が表示するように制御する。

＜サーバ装置の動作例＞
次に、図１１を用いて、実施の形態５にかかるサーバ装置１１０の動作例について説明する。図１１は、実施の形態５にかかるサーバ装置の動作例を示すフローチャートである。図１１に示すフローチャートは、図９に対応しており、図９に示したフローチャートのステップＳ１２、Ｓ１３、Ｓ２１及びＳ２２のそれぞれがステップＳ３１、Ｓ３３～Ｓ３５に置き換わっている。また、図１１に示すフローチャートは、図９に示したフローチャートにステップＳ３２が加わったフローチャートである。

図１１の動作のうち、ステップＳ１１において実行される動作については、図９と同様であるため、説明を割愛する。

ステップＳ３１において、ターゲット情報取得部１１１は、音像を定位させる複数の動物の各々の位置情報を取得する（ステップＳ３１）。音像を定位させる動物が撮像された撮像画像、位置測定信号又はセンサデータに基づく場合、ターゲット情報取得部１１１は、音像を定位させる動物の数及び位置が特定できる。そのため、ターゲット情報取得部１１１は、特定した位置を、音像を定位させる各動物の位置情報として取得する。

音像を定位させる複数の人物の注視方向を用いる場合、ターゲット情報取得部１１１は、各動物が撮像された撮像画像に基づいて、音像を定位させる動物の数を特定する。そして、ターゲット情報取得部１１１は、各人物の注視方向が交わる位置（交点）のうち、各交点を構成する注視方向を示す点線の数が多い方から順に音像を定位させる動物の数だけ選択する。

次に、ターゲット情報取得部１１１は、音像を定位させる複数の動物が同種類であるか否かの同種判定を行う（ステップＳ３２）。ターゲット情報取得部１１１は、音像を定位させる複数の動物の位置情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部６２は、例えば、音像を定位させる複数の動物が所定範囲内にいる場合、音像を定位させる複数の動物が同種類であると判定してもよい。

次に、生成部１１２は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向に存在する動物に関連する音声情報を生成する（ステップＳ３３）。生成部１１２は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの顔方向又は視線方向に存在する動物を特定する。そして、生成部１１２は、特定した動物に関連し、特定した動物に音像が定位された音声情報を生成する。生成部１１２は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた音声情報を生成する。

次に、生成部１１２は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向（顔方向又は視線方向）に存在する動物に関連する表示情報を生成する（ステップＳ３４）。生成部１１２は、ステップＳ３３において特定した動物に関連する表示情報を生成する。生成部１１２は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた表示情報を生成する。

次に、制御部１１３は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向（顔方向又は視線方向）に存在する動物に関する音声情報の出力制御及び表示情報の表示制御を実行する（ステップＳ３５）。制御部１１３は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの顔方向又は視線方向に存在する動物を特定する。そして、制御部１１３は、特定された動物に関連する音声情報を出力部４２が出力するように制御する。また、制御部１１３は、特定された動物に関連する表示情報を表示部８２が表示するように制御する。

以上説明したように、サーバ装置１１０を上述した構成とすれば、音像を定位させる対象の動物が複数であっても、各動物に応じた音声情報及び表示情報を出力できるので、各動物に応じた音声情報及び表示情報をユーザに対して提供できる。

（他の実施の形態）
上述した実施の形態において説明した情報処理装置１、通信端末４０、５０、８０、及びサーバ装置６０、７０、９０、１１０（以下、情報処理装置１等と称する）は、次のようなハードウェア構成を有していてもよい。図１２は、本開示の各実施の形態にかかる情報処理装置等のハードウェア構成を例示するブロック図である。

図１２を参照すると、情報処理装置１等は、ネットワーク・インターフェース１２０１、プロセッサ１２０２及びメモリ１２０３を含む。ネットワーク・インターフェース１２０１は、通信機能を有する他の通信装置と通信するために使用される。ネットワーク・インターフェース１２０１は、例えば、IEEE（Institute of Electrical and Electronics Engineers） 802.11 series、IEEE 802.3 series等を含む通信方式に準拠したネットワークインターフェースカード（NIC）を含んでもよい。

プロセッサ１２０２は、メモリ１２０３からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された情報処理装置１等の処理を行う。プロセッサ１２０２は、例えば、マイクロプロセッサ、MPU（Micro Processing Unit）、又はCPU（Central Processing Unit）であってもよい。プロセッサ１２０２は、複数のプロセッサを含んでもよい。

メモリ１２０３は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１２０３は、プロセッサ１２０２から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１２０２は、図示されていないI/Oインターフェースを介してメモリ１２０３にアクセスしてもよい。

図１２の例では、メモリ１２０３は、ソフトウェアモジュール群を格納するために使用される。プロセッサ１２０２は、これらのソフトウェアモジュール群をメモリ１２０３から読み出して実行することで、上述の実施形態において説明された情報処理装置１等の処理を行うことができる。

図１２を用いて説明したように、情報処理装置１等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１または複数のプログラムを実行する。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。さらに、非一時的なコンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
ユーザの位置情報を示す第１位置情報を取得する第１取得部と、
所定の物体の位置情報を示す第２位置情報を取得する第２取得部と、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成部と、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御部と、を備える情報処理装置。
（付記２）
前記第１取得部は、前記ユーザの方向情報をさらに取得し、
前記生成部は、前記第１位置情報と、前記第２位置情報と、前記方向情報とに基づいて、前記音声情報を生成する、付記１に記載の情報処理装置。
（付記３）
前記方向情報は、前記ユーザの顔方向を含み、
前記制御部は、前記第１位置情報と、前記顔方向と、前記第２位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、付記２に記載の情報処理装置。
（付記４）
前記方向情報は、前記ユーザの視線方向を含み、
前記制御部は、前記第１位置情報と、前記第２位置情報と、前記視線方向とに基づいて、前記視線方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、付記２又は３に記載の情報処理装置。
（付記５）
前記生成部は、前記所定の物体に関連する表示情報を生成し、
前記制御部は、前記ユーザが所有する通信端末の画面に前記表示情報を表示する制御を実行する、付記１～４のいずれか１項に記載の情報処理装置。
（付記６）
前記制御部は、前記音声情報を出力するタイミングにおいて、前記表示情報を表示可能に制御する、付記５に記載の情報処理装置。
（付記７）
前記制御部は、前記音声情報を出力するタイミングにおいて、前記表示情報が前記画面に表示されることを前記ユーザに通知する、付記５又は６に記載の情報処理装置。
（付記８）
前記所定の物体は、複数の物体を含み、
前記第２取得部は、前記複数の物体の各々の位置情報を取得するとともに、前記複数の物体が同種類であるのか否かを判定し、
前記生成部は、前記第２取得部の判定結果に応じた前記音声情報を生成する、付記１～７のいずれか１項に記載の情報処理装置。
（付記９）
ユーザの位置情報を示す第１位置情報を取得し、
所定の物体の位置情報を示す第２位置情報を取得し、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、制御方法。
（付記１０）
ユーザの位置情報を示す第１位置情報を取得し、
所定の物体の位置情報を示す第２位置情報を取得し、
前記第１位置情報と、前記第２位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理をコンピュータに実行させる制御プログラム。

この出願は、２０１９年１２月３日に出願された日本出願特願２０１９－２１９１０７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１情報処理装置
１１第１取得部
１２第２取得部
１３、６３、９１、１１２生成部
１４、６４、９２、１１３制御部
２１エリア
１００情報処理システム
４０、５０、８０通信端末
４１方向情報取得部
４２出力部
５１ユーザ位置情報取得部
６０、９０、１１０サーバ装置
６１ユーザ情報取得部
６２、７２、１１１ターゲット情報取得部
８１撮像部
８２表示部

Claims

ユーザの位置情報を示す第１位置情報と、前記ユーザの方向情報とを取得する第１取得手段と、
所定の物体の位置情報を示す第２位置情報を取得する第２取得手段と、
前記第１位置情報と、前記第２位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成手段と、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御手段と、を備え、
前記方向情報は、前記ユーザの顔方向を含み、
前記制御手段は、前記第１位置情報と、前記顔方向と、前記第２位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力し、
前記方向情報は、前記ユーザの視線方向を含み、
前記ユーザは、複数のユーザであり、
前記第２取得手段は、
前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第２位置情報を取得する情報処理装置。
前記制御手段は、前記第１位置情報と、前記第２位置情報と、前記視線方向とに基づいて、前記視線方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、請求項１に記載の情報処理装置。
前記生成手段は、前記所定の物体に関連する表示情報を生成し、
前記制御手段は、前記ユーザが所有する通信端末の画面に前記表示情報を表示する制御を実行する、請求項１又は２に記載の情報処理装置。
前記制御手段は、前記音声情報を出力するタイミングにおいて、前記表示情報を表示可能に制御する、請求項３に記載の情報処理装置。
前記制御手段は、前記音声情報を出力するタイミングにおいて、前記表示情報が前記画面に表示されることを前記ユーザに通知する、請求項３又は４に記載の情報処理装置。
前記所定の物体は、複数の物体を含み、
前記第２取得手段は、前記複数の物体の各々の位置情報を取得するとともに、前記複数の物体が同種類であるのか否かを判定し、
前記生成手段は、前記第２取得手段の判定結果に応じた前記音声情報を生成する、請求項１～５のいずれか１項に記載の情報処理装置。
ユーザの位置情報を示す第１位置情報と、前記ユーザの方向情報とを取得すること、
所定の物体の位置情報を示す第２位置情報を取得すること、
前記第１位置情報と、前記第２位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成すること、及び
前記生成された音声情報を前記ユーザに対して出力する制御を実行すること、を含み、
前記方向情報は、前記ユーザの顔方向を含み、
前記制御を実行することは、前記第１位置情報と、前記顔方向と、前記第２位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力することを含み、
前記方向情報は、前記ユーザの視線方向を含み、
前記ユーザは、複数のユーザであり、
前記所定の物体の位置情報を示す第２位置情報を取得することは、前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第２位置情報を取得することを含む、制御方法。
コンピュータに実行させる制御プログラムであって、
前記制御プログラムは、
ユーザの位置情報を示す第１位置情報と、前記ユーザの方向情報とを取得し、
所定の物体の位置情報を示す第２位置情報を取得し、
前記第１位置情報と、前記第２位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理を含み、
前記方向情報は、前記ユーザの顔方向を含み、
前記制御を実行する処理は、前記第１位置情報と、前記顔方向と、前記第２位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力する処理を含み、
前記方向情報は、前記ユーザの視線方向を含み、
前記ユーザは、複数のユーザであり、
前記所定の物体の位置情報を示す第２位置情報を取得する処理は、前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第２位置情報を取得する処理を含む、制御プログラム。