JP7428189B2 - 情報処理装置、制御方法及び制御プログラム - Google Patents

情報処理装置、制御方法及び制御プログラム Download PDF

Info

Publication number
JP7428189B2
JP7428189B2 JP2021562705A JP2021562705A JP7428189B2 JP 7428189 B2 JP7428189 B2 JP 7428189B2 JP 2021562705 A JP2021562705 A JP 2021562705A JP 2021562705 A JP2021562705 A JP 2021562705A JP 7428189 B2 JP7428189 B2 JP 7428189B2
Authority
JP
Japan
Prior art keywords
information
user
position information
predetermined object
animal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021562705A
Other languages
English (en)
Other versions
JPWO2021112161A5 (ja
JPWO2021112161A1 (ja
Inventor
俊一 丸山
紫水子 鐘ヶ江
いづみ 遠藤
一成 染谷
郷 柴田
清 森崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021112161A1 publication Critical patent/JPWO2021112161A1/ja
Publication of JPWO2021112161A5 publication Critical patent/JPWO2021112161A5/ja
Application granted granted Critical
Publication of JP7428189B2 publication Critical patent/JP7428189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、情報処理装置、制御方法及び制御プログラムに関する。
擬人化されたオブジェクトから発せられた音をユーザに提供するために、擬人化されたオブジェクトに音像を定位させた音を生成する技術が知られている。特許文献1は、ウェアラブル情報表示装置が取得したセンサデータに基づいて、擬人化されたオブジェクトの音声データが、拡張現実(AR:Augmented Reality)で表示された当該オブジェクトの位置に応じた音量でスピーカーから出力される技術を開示する。
特開2018-097437号公報
特許文献1に開示された技術では、ユーザの視線、移動方向及び動きに関するセンサデータに基づいて、オブジェクトの音声データを処理する。換言すると、特許文献1に開示された関連技術では、音像を定位させるオブジェクトの位置が固定であることを前提として、ユーザ情報のみに基づいて音声データを処理する。
ところで、情報サービスの多様化及び高度化に伴い、実際の物に音像を定位させて、当該物から仮想的に音が出力されるように体感できるサービスが検討されている。さらに、現実世界では味わうことができない新体感サービスを提供するために、動く物に対しても音像を定位させたサービスが検討されている。
特許文献1に開示された技術は、音像を定位させる対象が移動しないことを前提としている。そのため、音像を定位させる物が動く可能性があり、当該物の位置変化が生じた場合、その位置とは異なる位置から音が発せられたような音声データが生成されてしまう。したがって、特許文献1に開示された技術を用いると、音像を定位させる対象の位置が変化する場合、ユーザに対し所望する音声データが出力されないという問題が生じる。
本開示の目的の1つは、上述した課題を鑑み、ユーザに所望の音を出力可能な情報処理装置、制御方法及び制御プログラムを提供することにある。
本開示にかかる情報処理装置は、
ユーザの位置情報を示す第1位置情報を取得する第1取得部と、
所定の物体の位置情報を示す第2位置情報を取得する第2取得部と、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成部と、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御部と、を備える。
本開示にかかる制御方法は、
ユーザの位置情報を示す第1位置情報を取得し、
所定の物体の位置情報を示す第2位置情報を取得し、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、制御方法である。
本開示にかかる制御プログラムは、
ユーザの位置情報を示す第1位置情報を取得し、
所定の物体の位置情報を示す第2位置情報を取得し、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理をコンピュータに実行させる制御プログラムである。
本開示によれば、ユーザに所望の音を出力可能な情報処理装置、制御方法及び制御プログラムを提供できる。
実施の形態1にかかる情報処理装置の構成例を示す図である。 実施の形態1にかかる情報処理装置の動作例を示す図である。 実施の形態2にかかる情報処理システムの概要を説明するための図である。 実施の形態2にかかる情報処理システムの構成例を示す図である。 実施の形態2にかかるサーバ装置の動作例を示すフローチャートである。 実施の形態3にかかるサーバ装置の構成例を示す図である。 音像を定位させる対象の位置情報を取得する処理を説明するための図である。 実施の形態4にかかる情報処理システムの構成例を示す図である。 実施の形態4にかかるサーバ装置の動作例を示すフローチャートである。 実施の形態5にかかるサーバ装置の構成例を示す図である。 実施の形態5にかかるサーバ装置の動作例を示すフローチャートである。 本開示の各実施の形態にかかる情報処理装置等のハードウェア構成を例示するブロック図である。
以下、図面を参照しつつ、実施形態について説明する。なお、実施形態において、同一の要素には、同一の符号を付し、重複する説明は省略される。
(実施の形態1)
図1を用いて、実施の形態1にかかる情報処理装置1の構成例について説明する。図1は、実施の形態1にかかる情報処理装置の構成例を示す図である。情報処理装置1は、第1取得部11と、第2取得部12と、生成部13と、制御部14とを備える。
第1取得部11は、図示しない通信端末から、ユーザの位置情報を取得する。
第2取得部12は、所定の物体の位置情報を取得する。所定の物体は、音像を定位させる対象物である。第2取得部12は、所定の物体に関連する、位置測定信号、撮像画像、又はセンシングデータに基づいて、所定の物体の位置情報を取得してもよい。なお、第2取得部12は、所定の物体の位置情報を、常時取得してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に取得してもよい。
第2取得部12は、位置測定信号に基づく場合、例えば、GPS(Global Positioning System)信号、WiFi等の無線通信信号を用いて、所定の物体の位置情報を取得してもよい。もしくは、第2取得部12は、撮像画像に基づく場合、所定の物体が撮像された撮像画像から、所定の物体と、撮像画像を生成した撮像装置との距離及び方向を推定し、所定の物体の位置情報を取得してもよい。もしくは、第2取得部12は、撮像画像に含まれる、所定の物体に付された所定のマークの大きさ及び方向に基づいて、所定の物体の位置情報を取得してもよい。もしくは、第2取得部12は、例えば、可視光センサ等のセンシングデータに基づいて、所定の物体の位置情報を取得してもよい。
生成部13は、ユーザの位置情報と、所定の物体の位置情報とに基づいて、所定の物体に関連する音声情報であって、所定の物体に音像が定位された音声情報を生成する。生成部13が生成する音声情報は、予め定められた音声情報であってもよく、ユーザからの発話音声が音声認識された内容に基づく音声情報であってもよい。また、生成部13は、上記音声情報を、常時生成してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に生成してもよい。
制御部14は、生成部13が生成した音声情報をユーザに対して出力する制御を実行する。制御部14は、上記音声情報を、常時出力するように制御してもよいし、所定の物体に関連付けられた所定のエリアにユーザが存在する場合に出力するように制御してもよい。
次に、図2を用いて、実施の形態1にかかる情報処理装置1の動作例について説明する。図2は、実施の形態1にかかる情報処理装置の動作例を示すフローチャートである。
第1取得部11は、図示しない通信端末からユーザの位置情報を取得する(ステップS1)。
第2取得部12は、音像を定位させる対象の物体の位置情報を取得する(ステップS2)。
生成部13は、ユーザの位置情報と、音像を定位させる対象の物体の位置情報とに基づいて、音像を定位させる物体に関連する音声情報であって、当該物体に音像が定位された音声情報を生成する(ステップS3)。
制御部14は、生成部13が生成した音声情報をユーザに対して出力する制御を実行する(ステップS4)。
情報処理装置1は、音像を定位させる所定の物体の位置情報を取得し、ユーザの位置情報だけでなく、所定の物体の位置情報を用いて音声情報を生成する。つまり、情報処理装置1は、音像を定位させる所定の物体の位置が変化した場合でも、所定の物体の位置に応じた音声情報を生成できる。そのため、ユーザは、所定の物体がいる位置から発せられた音であるかのような音声情報を聞くことができる。したがって、実施の形態1にかかる情報処理装置1によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。
(実施の形態2)
続いて、実施の形態2について説明する。実施の形態2は、実施の形態1を具体的にした実施の形態である。まず、実施の形態2の具体的な構成例を説明する前に、実施の形態2の概要を説明する。
<概要>
近年、AR技術を用いたサービスが検討されている。AR技術を用いたサービスとして、例えば、動物園において、仮想的に、動物が話しかけてくるサービスが検討されている。実際には、当該動物は、話をすることができないため、当該サービスは現実世界を拡張するARサービスといえ、音響ARサービスと称されてもよい。このようなサービスは、動物園だけでなく、例えば、店舗、観光スポット等においても提供され得る。
実施の形態2は、上記した、いわゆる音響ARサービスを実現する情報処理システムに関する。なお、上記のように当該情報処理システムは、音響ARサービスを実現するシステムであるため、音響ARシステムと称されてもよい。
ここで、図3を用いて、実施の形態2にかかる情報システムの概要を説明する。図3は、実施の形態2にかかる情報処理システムの概要を説明するための図である。ここでは、一例として、実施の形態2にかかる情報処理システムは、動物園で実現される音響ARサービスを提供するシステムとして説明する。
図3は、動物園において物体Oが収容されているエリアを鉛直上方から下方に見たときの状況を模式した模式図である。図3において、四角の実線で囲われているエリア21は、例えば、物体Oが収容されているエリアであり、四角の実線は、例えば、物体Oが収容されている檻の境界線を表している。物体Oは、例えば、ライオン等の特定の動物を表している。図3では、物体Oは、位置が固定されているように図示されているが、実際にはエリア21の中を移動する。図3では、物体Oは、特定の動物であるとして記載をしているが、特定の動物に限られず、エリア21に存在する任意の物体でもよい。なお、以降の説明において、物体Oを動物Oとしても記載することがある。
実施の形態2にかかる情報処理システムは、通信端末40を装着したユーザUが、例えば、エリア21に近づいてきた場合等、所定条件が満たされたときに、物体Oに音像が定位された音声情報をユーザUに出力する。換言すると、実施の形態2にかかる情報処理システムは、所定条件が満たされたときに、物体Oの位置から、物体Oがあたかも話しかけてくるような音声情報をユーザUに出力する。なお、実線の矢印は、ユーザUの前後左右方向を示している。
なお、本実施の形態では、通信端末40は、ユーザUの左耳に装着される左ユニット40Lと、右耳に装着される右ユニット40Rとを含む通信端末であることとして説明する。また、ユーザUに対して出力する音声情報は、左ユニット40L及び右ユニット40Rのそれぞれに出力する音声情報であって、左ユニット40Lに対応する左耳音声情報と、右ユニット40Rに対応する右耳音声情報とを含むこととして説明する。
<情報処理システムの構成例>
次に、図4を用いて、情報処理システム100の構成例について説明する。図4は、実施の形態2にかかる情報処理システムの構成例を示す図である。情報処理システム100は、通信端末40及び50と、サーバ装置60とを備える。
通信端末40は、図3に示した通信端末40であり、ユーザに装着される通信端末である。上述したように、通信端末40は、ユーザの両耳の各々に装着される通信端末であり、ユーザの左耳に装着される左ユニット40Lと、ユーザの右耳に装着される右ユニット40Rとを含む。通信端末40は、ユーザの両耳に装着されるデバイスであるため、ヒアラブルデバイスと称されてもよい。なお、通信端末40は、左ユニット40L及び右ユニット40Rが一体型となった通信端末であってもよい。
通信端末40は、例えば、通信事業者が提供する無線通信が可能な通信端末であり、通信事業者が提供するネットワークを介してサーバ装置60と通信を行う。通信端末40は、ユーザの方向情報を取得し、取得した方向情報をサーバ装置60に送信する。通信端末40は、サーバ装置60が生成した音声情報を、ユーザの両耳の各々に出力する。具体的には、通信端末40は、図3に示した物体Oに音像が定位された音声情報を、ユーザの両耳の各々に出力する。なお、通信端末40(左ユニット40L及び右ユニット40R)は、サーバ装置60と直接通信を行うこととして説明するが、通信端末50を介してサーバ装置60と通信を行う構成であってもよい。
通信端末50は、例えば、スマートフォン端末、タブレット端末、携帯電話、パーソナルコンピュータ装置であってもよい。通信端末50は、例えば、Bluetooth(登録商標)、WiFi等の無線通信により、通信端末40と接続及び通信を行う。また、通信端末50は、例えば、通信事業者が提供するネットワークを介してサーバ装置60と通信を行う。通信端末50は、ユーザの位置情報を取得し、取得したユーザの位置情報をサーバ装置60に送信する。
なお、図4において、情報処理システム100は、2つの通信端末(通信端末40及び50)を含む構成としているが、通信端末40及び50は、例えば、ヘッドマウントディスプレイ等のように、1つの通信端末により構成されてもよい。また、通信端末40がユーザの方向情報だけでなくユーザの位置情報を取得する構成であってもよい。つまり、情報処理システム100は、少なくとも1つの通信端末を有する構成であればよい。
サーバ装置60は、実施の形態1における情報処理装置1に対応する。サーバ装置60は、例えば、通信事業者が提供するネットワークを介して、通信端末40及び50と通信を行う。サーバ装置60は、通信端末40及び50のそれぞれから、方向情報及びユーザの位置情報を取得する。
サーバ装置60は、図3に示した物体Oのように、音像を定位させる対象の物体の位置情報を取得する。サーバ装置60は、方向情報、ユーザの位置情報、及び当該物体の位置情報に基づいて、上記物体に音像が定位した音声情報を生成し、生成された音声情報を出力する。なお、本実施の形態では、音像を定位させる対象の物体は、動物であるとして説明するが、任意の物体であればよいため、これに限られない。
<通信端末の構成例>
次に、通信端末40の構成例について説明する。通信端末40は、方向情報取得部41と、出力部42とを備える。なお、通信端末40は、左ユニット40Lと、右ユニット40Rとを含むため、左ユニット40L及び右ユニット40Rの両方が、方向情報取得部41、及び出力部42を有する構成であってもよい。
方向情報取得部41は、例えば、9軸センサ(3軸加速度センサ、3軸ジャイロセンサ、3軸コンパスセンサ)等を含むように構成される。方向情報取得部41は、9軸センサにより、ユーザが向いている方向を示すユーザの方向情報を取得する。具体的には、方向情報取得部41は、9軸センサにより取得した、ユーザの顔方向を含む方向情報として取得する。方向情報取得部41は、取得した方向情報をサーバ装置60に送信する。なお、方向情報取得部41は、取得した方向情報を通信端末50に送信してもよい。
方向情報取得部41は、9軸センサを含むため、ユーザの顔方向だけでなく、ユーザの姿勢についても取得できるので、方向情報は、ユーザの姿勢も含むように構成され姿勢情報と称されてもよい。方向情報は、9軸センサにより取得されたデータであるため、センシングデータと称されてもよい。なお、方向情報取得部41は、ユーザの顔が少なくとも撮像された撮像画像に基づいて、ユーザの視線を推定し、ユーザの視線方向を方向情報に含めてもよい。
方向情報取得部41は、周期的に又は非周期的に方向情報を取得する。方向情報取得部41は、例えば、ユーザの顔方向が変化したことを検知したときに方向情報を取得してもよい。もしくは、方向情報取得部41は、図3に示した物体Oのように、音像を定位させる対象の動物に関連付けられたエリアに入った場合に、方向情報を取得してもよい。音像を定位させる対象の動物に関連付けられたエリアは、ジオフェンスと称されるエリアであってもよい。
出力部42は、例えば、ステレオスピーカ等を含むように構成される。出力部42は、通信部としても機能し、サーバ装置60が生成する音声情報を受信し、受信した音声情報をユーザの耳に出力する。サーバ装置60が生成する音声情報は、左ユニット40Lのための左耳用音声情報と、右ユニット40Rのための右耳用音声情報とを含む。左ユニット40Lの出力部42は、左耳用音声情報を出力し、右ユニット40Rの出力部42は、右耳用音声情報を出力する。
次に、通信端末50の構成例について説明する。通信端末50は、ユーザ位置情報取得部51を備える。
ユーザ位置情報取得部51は、例えば、GPS受信機等を含むように構成される。ユーザ位置情報取得部51は、GPS信号を受信し、GPS信号に基づいてユーザの位置情報を取得する。ユーザ位置情報取得部51は、取得したユーザの位置情報をサーバ装置60に送信する。なお、位置情報は、緯度経度情報であってもよく、所定の位置を基準とした座標情報であってもよい。また、位置情報は、高度情報を含んでもよい。
ユーザ位置情報取得部51は、通信端末40の左ユニット40L及び右ユニット40Rのそれぞれの位置を取得する。上述したように、通信端末50は、例えば、Bluetooth、WiFi等の無線通信により、左ユニット40L及び右ユニット40Rと通信する。ユーザ位置情報取得部51は、左ユニット40L及び右ユニット40Rの方向情報取得部41が取得した方向情報(センシングデータ)を用いて、左ユニット40L及び右ユニット40Rの各々の位置情報を取得する。ユーザ位置情報取得部51は、左ユニット40L及び右ユニット40Rの各々の位置情報を、ユーザの両耳の各々の位置情報とする。ユーザ位置情報取得部51は、ユーザの両耳の各々の位置情報を含む、ユーザの位置情報をサーバ装置60に送信する。なお、ユーザ位置情報取得部51は、左ユニット40L及び右ユニット40Rとの通信に用いられる無線信号の信号強度及び到来方向に基づいて、左ユニット40L及び右ユニット40Rの各々の位置情報を取得してもよい。
ユーザ位置情報取得部51は、周期的に、左ユニット40L及び右ユニット40Rのそれぞれの位置を取得する。なお、ユーザ位置情報取得部51は、左ユニット40Lの位置、及び右ユニット40Rの位置の少なくとも一方が変化したことを検知したときに左ユニット40L及び右ユニット40Rのそれぞれの位置を取得してもよい。
<サーバ装置の構成例>
次に、サーバ装置60の構成例について説明する。サーバ装置60は、ユーザ情報取得部61と、ターゲット情報取得部62と、生成部63と、制御部64とを備える。
ユーザ情報取得部61は、実施の形態1における第1取得部11に対応する。ユーザ情報取得部61は、ユーザの位置情報と、ユーザの方向情報とを取得する。ユーザ情報取得部61は、通信部としても機能し、方向情報を通信端末40から受信することにより方向情報を取得する。また、ユーザ情報取得部61は、ユーザの位置情報を通信端末50から受信することにより、ユーザの位置情報を取得する。ユーザ情報取得部61は、ユーザの位置情報と、ユーザの方向情報とを生成部63に出力する。
ターゲット情報取得部62は、実施の形態1における第2取得部12に対応する。ターゲット情報取得部62は、音像を定位させる対象の動物の位置情報を取得し、取得した当該動物の位置情報を生成部63に出力する。音像を定位させる対象の動物は、図2の物体Oで示した動物である。なお、ターゲット情報取得部62は、音像を定位させる対象の動物の位置情報を常時取得してもよいし、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、当該動物の位置情報を取得してもよい。
ターゲット情報取得部62は、位置測定信号、撮像装置により撮像された撮像画像、又は音像を定位させる対象の動物に関連するセンシングデータに基づいて、音像を定位させる対象の動物の位置情報を取得する。
ターゲット情報取得部62は、位置測定信号に基づく場合、例えば、GPS信号、WiFi等の無線通信信号を用いて、音像を定位させる動物の位置情報を取得する。
ターゲット情報取得部62は、撮像画像に基づく場合、音像を定位させる動物が撮像された撮像画像から、当該動物と、撮像画像を生成した撮像装置との距離及び方向を推定し、所定の物体の位置情報を取得してもよい。もしくは、ターゲット情報取得部62は、撮像画像に含まれる、音像を定位させる動物に付された所定のマークの大きさ及び方向に基づいて、当該動物の位置情報を取得してもよい。もしくは、ターゲット情報取得部62は、例えば、可視光センサ等のセンシングデータに基づいて、音像を定位させる動物の位置情報を取得してもよい。
生成部63は、実施の形態1における生成部13に対応する。生成部63は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、音像を定位させる動物に関連する音声情報を生成する。つまり、生成部65は、当該動物が話しかけてきた音声であるとユーザが認識できるような音声情報を生成する。上記音声情報は、予め定められた1つ又は複数の音声情報であってもよいし、ユーザからの発話音声を音声認識した結果に基づく音声情報であってもよい。
なお、生成部63は、上記音声情報を、常時生成してもよく、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、生成してもよい。
上記したように、ユーザの位置情報は、ユーザの両耳の各々の位置情報を含み、音声情報は、左ユニット40Lのための左耳用音声情報と、右ユニット40Rのための右耳用音声情報とを含む。生成部63は、ユーザの左耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する左耳用音声情報を生成する。生成部63は、ユーザの右耳の位置情報と、方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する右耳用音声情報を生成する。生成部63は、生成した音声情報を、制御部64に出力する。
制御部64は、実施の形態1における制御部14に対応する。制御部64は、生成された音声情報を出力部42からユーザに対して出力する制御を実行する。制御部64は、通信部としても機能し、生成部63が生成した音声情報を通信端末40に送信する。制御部64は、左耳用音声情報を左ユニット40Lに送信し、右耳用音声情報を右ユニット40Rに送信する。
なお、制御部64は、所定のタイミングにおいて、上記音声情報を出力部42から出力する制御を実行する。制御部64は、上記音声情報を、常時出力してもよく、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、出力してもよい。
制御部64は、出力部42が出力する音声情報を制御する。制御部64は、ユーザの位置情報と、ユーザの方向情報に含まれる顔方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの顔方向に当該動物が存在しているか否かに応じた音声情報を出力する。
具体的には、制御部64は、ユーザの顔方向に当該動物が存在している場合、出力部42を介して、第1の音声情報をユーザに対して出力する。また、制御部64は、ユーザの顔方向に当該動物が存在していない場合、出力部42を介して、第2の音声情報をユーザに対して出力する。換言すると、制御部64は、ユーザが音像を定位させる対象の動物と相対したか否かを検出し、相対したか否かに応じて音声情報を調整する。つまり、制御部64は、ユーザが音像を定位させる対象の動物と相対する前後で出力する音声情報を変更する。
また、制御部64は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報のうちの少なくとも1つの変位に応じて、生成部63が生成した音声情報を補正する。制御部64は、補正した音声情報を、出力部42を介して、ユーザに対して出力するように制御する。
<サーバ装置の動作例>
次に、図5を用いて、サーバ装置60の動作例について説明する。図5は、実施の形態2にかかるサーバ装置の動作例を示すフローチャートである。
ユーザ情報取得部61は、ユーザの位置情報及び方向情報を取得する(ステップS11)。ユーザ位置情報取得部51は、周期的に、ユーザ位置情報取得部51からユーザの位置情報を受信することにより、ユーザの位置情報を取得する。ユーザの位置情報は、ユーザの両耳の各々の位置情報を含む。また、ユーザ情報取得部61は、周期的に、方向情報取得部41からユーザの方向情報を受信することにより、方向情報を取得する。ユーザ情報取得部61は、ユーザの位置情報及び方向情報を生成部63に出力する。
なお、図5では、ユーザ情報取得部61は、ステップS11において、ユーザの位置情報及び方向情報を取得することとしたが、ステップS11が、ユーザの位置情報を取得するステップと、方向情報を取得するステップとを含んでもよい。また、図5では、ステップS11が1回のみ実行するように図示されているが、ステップS11は、周期的に実行される処理ステップであり、ステップS11が実行される順序は、図5に限られない。
ターゲット情報取得部62は、音像を定位させる対象の動物の位置情報を取得する(ステップS12)。ターゲット情報取得部62は、位置測定信号、所定の物体が撮像された撮像画像、又は所定の物体に関連するセンシングデータに基づいて、所定の物体の位置情報を取得する。
なお、図5では、ステップS12が1回のみ実行するように図示されているが、ステップS12は、周期的に実行される処理ステップであり、ステップS12が実行される順序は、図5に限られない。
生成部63は、音像を定位させる動物に関連し、当該動物に音像が定位された音声情報を生成する(ステップS13)。生成部63は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報に基づいて、当該動物に音像が定位され、かつ当該動物に関連する音声情報を生成する。つまり、生成部63は、音像を定位させる動物の位置を基準とした、ユーザとの距離、及び方向に合った、音量、方向、及びその時にあった内容を含み、当該動物が話しかけてきた音声であるとユーザが認識するような音声情報を生成する。
生成部63は、ユーザの左耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する左耳用音声情報を生成する。生成部63は、ユーザの右耳の位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、当該動物に音像が定位され、当該動物に関連する右耳用音声情報を生成する。
制御部64は、生成された音声情報の出力制御を実行する(ステップS14)。制御部64は、生成された音声情報を出力部42からユーザに対して出力する制御を実行する。制御部64は、生成部63が生成した音声情報を通信端末40に送信する。制御部64は、左耳用音声情報を左ユニット40Lに送信し、右耳用音声情報を右ユニット40Rに送信する。
制御部64は、ユーザの位置情報、方向情報、及び音像を定位させる動物の位置情報のうちの少なくとも1つの変位に応じて、生成部63が生成した音声情報を補正する。制御部64は、補正した音声情報が出力部42からユーザに対して出力されるように制御する。
以上説明したように、ユーザ情報取得部61は、通信端末40及び50のそれぞれから、方向情報及びユーザの位置情報を取得する。ターゲット情報取得部62は、音像を定位させる動物の位置情報を取得する。生成部63は、ユーザの位置情報及び方向情報だけでなく、音像を定位させる動物の位置情報を用いて、当該動物に関連する音声情報を生成する。すなわち、生成部63は、音像を定位させる動物が移動した場合でも、当該動物の位置に応じた音声情報を生成できる。そのため、実施の形態2にかかるサーバ装置60を用いることにより、ユーザに対して、音像を定位させる動物から発せられたとユーザが認識し得る音声情報を出力できる。したがって、実施の形態2にかかるサーバ装置60によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。
また、制御部64は、音像を定位させる動物が移動した場合、通信端末40に出力される音声情報を補正する。したがって、実施の形態2にかかるサーバ装置60によれば、音像を定位させる対象が動的なものであっても、その動きにあわせた音声情報を出力することができるため、より臨場感のある音声情報をユーザに対して出力できる。
(変形例)
実施の形態2において、以下の変形を施してもよい。実施の形態2を以下のように変形しても実施の形態2と同様の効果を奏することができる。
生成部63は、ユーザの位置情報と、ユーザの方向情報に含まれる顔方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの顔方向に、当該動物が存在している場合、上記音声情報を生成してもよい。もしくは、生成部63は、ユーザの位置情報と、ユーザの方向情報に含まれるユーザの視線方向と、音像を定位させる対象の動物の位置情報とに基づいて、ユーザの視線方向に、当該動物が存在している場合、上記音声情報を生成してもよい。なお、ユーザの視線方向は、方向情報取得部41が取得して方向情報に含まれたものでもよい。もしくは、ユーザの視線方向は、ユーザ情報取得部61がユーザの顔が撮像された撮像画像に基づいて推定し、ユーザ情報取得部61が方向情報に含めたものであってもよい。
制御部64は、ユーザの顔方向に、当該動物が存在している場合、上記音声情報を出力部42に送信し、出力部42がユーザに対して送信された音声情報を出力するように制御してもよい。もしくは、制御部64は、ユーザの視線方向に、当該動物が存在している場合、上記音声情報を出力部42に送信し、出力部42がユーザに対して送信された音声情報を出力するように制御してもよい。
(実施の形態3)
続いて、実施の形態3について説明する。実施の形態3は、実施の形態2と比較して、音像を定位させる対象の動物の位置情報を取得する処理内容が異なる。なお、実施の形態3においても、情報処理システムの構成例、通信端末40及び50の構成例は、実施の形態2と同様である。そのため、情報処理システムの構成例、通信端末40及び50の構成例については説明を適宜割愛する。
<サーバ装置の構成例>
次に、実施の形態3にかかるサーバ装置70の構成例について説明する。図6は、実施の形態3にかかるサーバ装置の構成例を示す図である。図6に示すように、サーバ装置70は、ユーザ情報取得部61と、ターゲット情報取得部72と、生成部63と、制御部64とを備える。なお、ユーザ情報取得部61、生成部63、及び制御部64の構成例については、実施の形態2にかかるサーバ装置60と同様である。そのため、ユーザ情報取得部61、生成部63、及び制御部64の構成例については適宜割愛して説明する。
ターゲット情報取得部72は、実施の形態2と同様に、音像を定位させる対象の動物の位置情報を取得し、取得した当該動物の位置情報を生成部63に出力する。なお、ターゲット情報取得部72は、音像を定位させる対象の動物の位置情報を常時取得してもよいし、音像を定位させる対象の動物に関連付けられるジオフェンスと称されるエリアにユーザが存在する場合、当該動物の位置情報を取得してもよい。
ターゲット情報取得部72は、音像を定位させる対象の動物を見ている複数の人物が撮像された撮像画像に基づいて、当該複数の人物の各々の注視方向を推定する。ターゲット情報取得部72は、推定された複数の人物の各々の位置を基準とした注視方向が交わる位置を推定し、推定した位置を、音像を定位させる対象の動物の位置情報として取得する。なお、位置情報は、緯度経度情報であってもよく、所定の位置を基準とした座標情報であってもよい。また、位置情報は、高度情報を含んでもよい。撮像画像は、静止画像であってもよく、動画像であってもよい。
ターゲット情報取得部72は、撮像画像を画像認識し、複数の人物の各々の顔を特定する。ターゲット情報取得部72は、特定した各人物の顔が向いている顔方向を推定し、推定した顔方向を、各人物の注視方向と特定してもよい。もしくは、ターゲット情報取得部72は、特定した各人物の顔の特徴点を検出し、検出した特徴点から、目頭や目尻、瞳等、目の周囲の特徴を特定することにより、各人物の視線方向を推定し、推定した視線方向を各人物の注視方向として特定してもよい。
ここで、図7を用いて、ターゲット情報取得部72により実行される、音像を定位させる対象の動物の位置情報を取得する処理について説明する。図7は、音像を定位させる対象の位置情報を取得する処理を説明するための図である。
図7は、図3のエリア21を拡大した図であり、エリア21の周辺にいる複数の人物が、動物Oを見ている状況を表す図である。なお、図7では、動物Oの図示を省略している。
エリア21には、動物Oを監視するために、又はエリア21の周辺状況を確認するために、例えば、監視カメラ等の撮像装置30が配置されている。図7において、人物P1~P10は、エリア21の周辺にいる複数の人物を表している。撮像装置30は、動物Oを見ている複数の人物(人物P1~P10)の顔を少なくとも含むように撮像する。ターゲット情報取得部72は、撮像装置30が撮像した撮像画像を撮像装置30から取得し、撮像画像に基づいて、複数の人物(人物P1~P10)の各々の注視方向を推定する。
点線(点線の矢印)L1~L10のそれぞれは、人物P1~P10の注視方向を示している。点線L2~L9は、交点T1~T4により他の点線と交わっており、交点T1~T4は、人物P2~P9の注視方向が交わる位置を示している。
交点T1は、7つの点線が交わる点であり、7人の人物の注視方向が交わる点であり、7人の人物が注視している位置を表していると言える。交点T2は、2つの点線が交わる点であり、2人の人物の注視方向が交わる点であり、2人の人物が注視している位置を表していると言える。交点T3は、2つの点線が交わる点であり、2人の人物の注視方向が交わる点であり、2人の人物が注視している位置を表していると言える。交点T4は、2つの点線が交わる点であり、2人の人物の注視方向が交わる点であり、2人の人物が注視している位置を表していると言える。
ターゲット情報取得部72は、人物P1~P10の注視方向が交わる位置に基づいて、動物Oの位置情報を特定(取得)する。ターゲット情報取得部72は、交点T1~T4のうち、各交点を構成する注視方向を示す点線の数が最も多い交点の位置を、動物Oの位置情報として特定してもよい。図7では、交点T1が各交点を構成する点線の数が多いため、ターゲット情報取得部72は、交点T1の位置を、動物Oの位置情報としてもよい。交点T1~T4は、各人物が注視している位置の候補を示しているとも言える。そのため、ターゲット情報取得部72は、交点T1~T4のうち、注視している人物が最も多い位置を、動物Oの位置情報としてもよい。
また、ターゲット情報取得部72は、交点T1~T4により構成される図形の中心の位置を、動物Oの位置情報としてもよい。なお、図7では交点が4つ存在しているが、交点が2つである場合、ターゲット情報取得部72は、2つの交点の中点を、動物の位置情報としてもよい。
あるいは、ターゲット情報取得部72は、各交点を構成する、各人物の注視方向を示す点線の数を重み係数として、各交点の位置に重み係数を乗じて求められた位置により求まる図形の中心の位置を、動物Oの位置情報としてもよい。図7では、交点T1は、7本の点線が交わっており、交点T2~T4は、2本の点線が交わっている。そのため、ターゲット情報取得部62は、交点T1の位置に7/13(=7+2+2+2)の重み係数を乗じて求まる位置T1’を求め、交点T2~T4のそれぞれの位置に2/13の重み係数を乗じて求まる位置T2’~T4’を求める。そして、ターゲット情報取得部62は、位置T1’~T4’により求まる図形の中心の位置を、動物Oの位置情報としてもよい。
もしくは、ターゲット情報取得部72は、人物P1~P10のうち、他の人物と異なる位置を見ている人物の注視方向を除外して、選択された人物の注視方向により決定される交点の位置を、動物Oの位置情報としてもよい。
図7の例では、人物P1及びP10は、人物P2~P9と異なる位置を見ているため、ターゲット情報取得部72は、人物P1及びP10の注視方向を示す点線を除外する。そして、ターゲット情報取得部72は、人物P2~P9の注視方向により決定される交点の位置のうち、最も多くの人物が注目している位置(図7では交点T1)を、動物Oの位置情報としてもよい。図7において、例えば、人物P5が他の人物と全く異なる方向を向いていたとする。この場合、人物P5の注視方向を示す点線は除外される。そうすると、交点T2~T4も存在しないことになり、各人物の注視方向により決定される交点は、交点T1に一意に決まることになる。
なお、図7では、人物P1~P10の各々の注視方向を点線(点線の矢印)で示したが、例えば、人物P1~P10の各々の注視方向を、図7で示した点線を基準として、例えば、各人物の顔幅等の所定の幅を有する範囲(エリア)として定義してもよい。この場合、ターゲット情報取得部72は、各人物の注視方向(注視範囲又は注視エリア)が重複するエリアの中心位置を、動物Oの位置情報としてもよい。
<サーバ装置の動作例>
次に、サーバ装置70の動作例について説明する。サーバ装置70が実行する動作は、図5で示した動作例と基本的に同様であるため、図5を参照して説明する。サーバ装置70が実行する動作は、図5で示したステップS12の内容が、実施の形態2と異なる。そのため、図5のステップS12で実施される動作について説明する。
ステップS12において、ターゲット情報取得部72は、音像を定位させる対象の動物がいるエリアの周辺が撮像された撮像画像に基づいて、当該エリアの周辺にいる複数の人物の各々の注視方向を推定する。ターゲット情報取得部72は、推定された複数の人物の各々の注視方向に基づいて、注視方向が交わる位置を推定する。ターゲット情報取得部72は、推定した位置に基づいて、音像を定位させる対象の動物の位置情報として取得する。ターゲット情報取得部72は、音像を定位させる対象の動物の位置情報を生成部63に出力する。
以上説明したように、ターゲット情報取得部72は、音像を定位させる動物を見ている複数の人物の注視方向に基づいて、当該動物の位置情報を取得する。ターゲット情報取得部72が、実施の形態3のように構成されたとしても、実施の形態2と同様の効果を奏することができる。すなわち、実施の形態3にかかるサーバ装置70によれば、音像を定位させる対象が移動する場合であっても、ユーザに所望の音を出力できる。また、実施の形態2にかかるサーバ装置70によれば、音像を定位させる対象が動的なものであっても、その動きにあわせた音声情報を出力することができるため、より臨場感のある音声情報をユーザに対して出力できる。
(実施の形態4)
続いて、実施の形態4について説明する。実施の形態4は、実施の形態2及び3の改良例である。実施の形態2及び3では、サーバ装置は、ユーザに対して音声情報を出力する構成であったが、本実施の形態では、ユーザに対して表示情報も出力する。なお、以降の説明では、実施の形態2を用いて、実施の形態2との差分内容を説明する。
<情報処理システムの構成例>
図8を用いて、実施の形態4にかかる情報処理システム200の構成例について説明する。図8は、実施の形態4にかかる情報処理システムの構成例を示す図である。情報処理システム200は、実施の形態2にかかる通信端末50及びサーバ装置60のそれぞれが通信端末80及びサーバ装置90に置き換わった構成である。なお、通信端末40の構成例については、実施の形態2と同様であるため、説明を適宜割愛する。
<通信端末の構成例>
次に、通信端末80の構成例を説明する。通信端末80は、実施の形態2における通信端末50の構成に、撮像部81及び表示部82が加わった構成である。なお、ユーザ位置情報取得部51の構成については、実施の形態2と同様であるため、説明を適宜割愛する。
撮像部81は、例えば、カメラ等を含むように構成される。撮像部81は、所定の範囲を撮像して、撮像画像を生成する。撮像部81は、生成した撮像画像を表示部82に出力する。なお、撮像画像は、静止画像であってもよく、動画像であってもよい。また、撮像部81は、生成した撮像画像を、サーバ装置90のユーザ情報取得部61に送信してもよい。
表示部82は、例えば、ディスプレイ等を含むように構成される。表示部82は、撮像部81により撮像された撮像画像をディスプレイに表示する。また、表示部82は、サーバ装置90が生成する表示情報を受信し、受信した表示情報をディスプレイに表示する。表示部82は、音像を定位させる対象の動物が撮像画像に含まれているか否かを判定する。表示部82は、音像を定位させる対象の動物が撮像画像に含まれている場合、当該動物に関連する位置に、サーバ装置90から受信した表示情報を表示する。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。
なお、表示部82は、撮像部81が撮像した撮像画像に、音像を定位させる対象の動物が含まれており、当該動物にARマーカが配置されている場合、ARマーカに指定された表示情報(コンテンツ)をディスプレイに表示してもよい。
<サーバ装置の構成例>
次に、サーバ装置90の構成例について説明する。サーバ装置90は、ユーザ情報取得部61と、ターゲット情報取得部62と、生成部91と、制御部92とを備える。サーバ装置90は、実施の形態2における生成部63及び制御部64のそれぞれが生成部91及び制御部92に置き換わった構成である。なお、ユーザ情報取得部61及びターゲット情報取得部62の構成例については、実施の形態2と基本的に同様であるため、説明を適宜割愛する。
ユーザ情報取得部61は、実施の形態2におけるユーザ情報取得部61の構成を有している。なお、ユーザ情報取得部61は、撮像部81が生成した撮像画像を通信端末80からさらに取得してもよく、撮像画像を通信端末80から取得した場合、取得した撮像画像を生成部91及び制御部92に出力してもよい。
生成部91は、実施の形態2における生成部63の構成を有しており、表示部82がディスプレイに表示する表示情報をさらに生成する。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。生成部91は、生成した表示情報を制御部92に出力する。
なお、生成部91は、ユーザ情報取得部61が取得した撮像画像に、音像を定位させる対象の動物だけでなく、他の動物も含まれている場合、当該他の動物に関する表示情報を生成してもよい。そして、生成部91は、制御部92を介して、表示部82が上記他の動物に関する表示情報もディスプレイに表示させる制御を実行してもよい。
制御部92は、実施の形態2における制御部64の構成を有しており、生成された音声情報を出力部42から出力する制御を実行するとともに、表示部82が表示情報をディスプレイ(画面)に表示する制御を実行する。
制御部92は、生成部91が生成した表示情報を通信端末80に送信する。制御部92は、出力部42が音声情報を出力するタイミングと、表示部82がディスプレイに表示情報を表示するタイミングとを制御する。制御部92は、音声情報を出力するタイミングにおいて表示可能に制御する。制御部92は、音声情報を出力するタイミングにおいて、ユーザが通信端末80のディスプレイで表示情報を見ることができることを認識できる通知を、通信端末40及び80の少なくとも1つに送信する。
制御部92は、音像を定位させる対象の動物に関連付けられたエリアにユーザが入ったタイミングで、出力部42が音声情報を出力するように制御し、表示部82が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。もしくは、制御部92は、ユーザの方向情報に対応する方向(顔方向又は視線方向)に、音像を定位させる動物が存在するタイミングで、出力部42が音声情報を出力するように制御してもよい。そして、制御部92は、表示部82が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。もしくは、制御部92は、撮像部81により生成された撮像画像に当該動物が含まれている場合、出力部42が音声情報を出力するように制御し、表示部82が表示情報をディスプレイに表示するように制御し、上記通知を送信してもよい。
<サーバ装置の動作例>
次に、図9を用いて、実施の形態4にかかるサーバ装置90の動作例について説明する。図9は、実施の形態4にかかるサーバ装置の動作例を示すフローチャートである。図9に示すフローチャートは、図5に対応しており、図5に示したフローチャートのステップS14がステップS22に置き換わっている。また、図9に示すフローチャートは、図5に示したフローチャートにステップS21が加わったフローチャートである。
図9の動作のうち、ステップS11~S13において実行される動作については、図5と同様であるため、説明を割愛する。
ステップS21において、生成部91は、表示部82がディスプレイに表示する表示情報を生成する(ステップS21)。表示情報は、音像を定位させる対象の動物に関連する動画、画像情報であってもよい。
制御部92は、生成された音声情報の出力制御、及び生成された表示情報の表示制御を実行する(ステップS22)。制御部92は、生成された音声情報を出力部42が出力する制御を実行するとともに、通信端末80のディスプレイ(画面)に表示部82が表示情報を表示する制御を実行する。
制御部92は、生成部91が生成した音声情報を通信端末40に送信するとともに、生成部91が生成した表示情報を通信端末80に送信する。制御部92は、出力部42が音声情報を出力するタイミングと、表示部82がディスプレイに表示情報を表示するタイミングとを制御する。制御部92は、出力部42が音声情報を出力するタイミングで、表示部82が表示情報をディスプレイに表示可能に制御する。そして、制御部92は、ユーザが通信端末80のディスプレイで表示情報を見ることが可能であることを認識できる通知を、通信端末40及び80の少なくとも1つに送信する。
以上説明したように、生成部91は、音像を定位させる対象の動物の表示情報を生成する。制御部92は、生成部91が生成した表示情報を表示部82がディスプレイに表示する制御を実行する。ユーザは、通信端末80の撮像部81を用いて、音像を定位させる対象の動物を撮像することにより、ユーザが求める情報を表示情報として見ることができる。したがって、実施の形態4にかかるサーバ装置90によれば、ユーザが求めている情報をユーザに提供できる。
(実施の形態5)
続いて、実施の形態5について説明する。実施の形態5は、実施の形態2~4の改良例である。実施の形態5は、音像を定位させる対象の動物が複数である場合の実施の形態である。なお、以降の説明では、実施の形態4を用いて、実施の形態4との差分内容を説明する。また、実施の形態5においても、情報処理システムの構成例、通信端末40及び80の構成例は、実施の形態4と同様である。そのため、情報処理システムの構成例、通信端末40及び80の構成例については説明を適宜割愛する。
<サーバ装置の構成例>
図10を用いて、実施の形態5にかかるサーバ装置110の構成例について説明する。図10は、実施の形態5にかかるサーバ装置の構成例を示す図である。図10に示すように、サーバ装置110は、ユーザ情報取得部61と、ターゲット情報取得部111と、生成部112と、制御部113とを備える。なお、ユーザ情報取得部61の構成例については、実施の形態4にかかるサーバ装置90と同様である。そのため、ユーザ情報取得部61の構成については適宜割愛して説明する。
ターゲット情報取得部111は、音像を定位させる複数の動物の各々の位置情報を取得する。音像を定位させる動物が撮像された撮像画像、位置測定信号又はセンサデータに基づく場合、ターゲット情報取得部111は、音像を定位させる動物の数及び位置が特定できる。そのため、ターゲット情報取得部111は、特定した位置を、音像を定位させる各動物の位置情報として取得すればよい。
音像を定位させる複数の人物の注視方向を用いる場合、ターゲット情報取得部111は、各動物が撮像された撮像画像に基づいて、音像を定位させる動物の数を特定する。そして、ターゲット情報取得部111は、各人物の注視方向が交わる位置(交点)のうち、各交点を構成する注視方向を示す点線の数が多い方から順に音像を定位させる動物の数だけ選択すればよい。
また、ターゲット情報取得部111は、音像を定位させる複数の動物が同種類であるか否かを判定する。ターゲット情報取得部111は、音像を定位させる複数の動物の位置情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部62は、例えば、音像を定位させる複数の動物が所定範囲内にいる場合、音像を定位させる複数の動物が同種類であると判定してもよい。
もしくは、ターゲット情報取得部111は、音像を定位させる各動物の特徴情報を取得し、取得した各動物の特徴情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部111は、例えば、音像を定位させる複数の動物の特徴情報の類似度を算出し、当該類似度が所定値以上である場合、音像を定位させる複数の動物が同種類であると判定してもよい。
なお、ターゲット情報取得部111は、音像を定位させる各動物の特徴情報に基づいて、各動物を識別してもよい。ターゲット情報取得部111は、各動物の特徴情報に基づいて、各動物に与えられている名前、他の動物と異なる特性等を識別してもよい。
生成部112は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向(顔方向又は視線方向)に存在する動物を特定する。そして、生成部112は、特定した動物に関連し、特定した動物に音像が定位された音声情報を生成する。また、生成部112は、特定した動物に関連する表示情報を生成する。
また、生成部112は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた音声情報及び表示情報を生成する。なお、ターゲット情報取得部111は、各動物の特徴情報に応じた音声情報及び表示情報を生成してもよい。
制御部113は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向(顔方向又は視線方向)に存在する動物を特定する。そして、制御部113は、特定された動物に関連する音声情報を出力部42が出力するように制御する。また、制御部113は、特定された動物に関連する表示情報を表示部82が表示するように制御する。
<サーバ装置の動作例>
次に、図11を用いて、実施の形態5にかかるサーバ装置110の動作例について説明する。図11は、実施の形態5にかかるサーバ装置の動作例を示すフローチャートである。図11に示すフローチャートは、図9に対応しており、図9に示したフローチャートのステップS12、S13、S21及びS22のそれぞれがステップS31、S33~S35に置き換わっている。また、図11に示すフローチャートは、図9に示したフローチャートにステップS32が加わったフローチャートである。
図11の動作のうち、ステップS11において実行される動作については、図9と同様であるため、説明を割愛する。
ステップS31において、ターゲット情報取得部111は、音像を定位させる複数の動物の各々の位置情報を取得する(ステップS31)。音像を定位させる動物が撮像された撮像画像、位置測定信号又はセンサデータに基づく場合、ターゲット情報取得部111は、音像を定位させる動物の数及び位置が特定できる。そのため、ターゲット情報取得部111は、特定した位置を、音像を定位させる各動物の位置情報として取得する。
音像を定位させる複数の人物の注視方向を用いる場合、ターゲット情報取得部111は、各動物が撮像された撮像画像に基づいて、音像を定位させる動物の数を特定する。そして、ターゲット情報取得部111は、各人物の注視方向が交わる位置(交点)のうち、各交点を構成する注視方向を示す点線の数が多い方から順に音像を定位させる動物の数だけ選択する。
次に、ターゲット情報取得部111は、音像を定位させる複数の動物が同種類であるか否かの同種判定を行う(ステップS32)。ターゲット情報取得部111は、音像を定位させる複数の動物の位置情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部62は、例えば、音像を定位させる複数の動物が所定範囲内にいる場合、音像を定位させる複数の動物が同種類であると判定してもよい。
もしくは、ターゲット情報取得部111は、音像を定位させる各動物の特徴情報を取得し、取得した各動物の特徴情報に基づいて、音像を定位させる複数の動物が同種類であるか否かを判定してもよい。ターゲット情報取得部111は、例えば、音像を定位させる複数の動物の特徴情報の類似度を算出し、当該類似度が所定値以上である場合、音像を定位させる複数の動物が同種類であると判定してもよい。
次に、生成部112は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向に存在する動物に関連する音声情報を生成する(ステップS33)。生成部112は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの顔方向又は視線方向に存在する動物を特定する。そして、生成部112は、特定した動物に関連し、特定した動物に音像が定位された音声情報を生成する。生成部112は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた音声情報を生成する。
次に、生成部112は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向(顔方向又は視線方向)に存在する動物に関連する表示情報を生成する(ステップS34)。生成部112は、ステップS33において特定した動物に関連する表示情報を生成する。生成部112は、音像を定位させる複数の動物が同種類であるか否かの判定結果に応じた表示情報を生成する。
次に、制御部113は、音像を定位させる複数の動物のうち、ユーザの方向情報に対応する方向(顔方向又は視線方向)に存在する動物に関する音声情報の出力制御及び表示情報の表示制御を実行する(ステップS35)。制御部113は、ユーザの位置情報と、ユーザの方向情報と、音像を定位させる動物の位置情報とに基づいて、音像を定位させる複数の動物のうち、ユーザの顔方向又は視線方向に存在する動物を特定する。そして、制御部113は、特定された動物に関連する音声情報を出力部42が出力するように制御する。また、制御部113は、特定された動物に関連する表示情報を表示部82が表示するように制御する。
以上説明したように、サーバ装置110を上述した構成とすれば、音像を定位させる対象の動物が複数であっても、各動物に応じた音声情報及び表示情報を出力できるので、各動物に応じた音声情報及び表示情報をユーザに対して提供できる。
(他の実施の形態)
上述した実施の形態において説明した情報処理装置1、通信端末40、50、80、及びサーバ装置60、70、90、110(以下、情報処理装置1等と称する)は、次のようなハードウェア構成を有していてもよい。図12は、本開示の各実施の形態にかかる情報処理装置等のハードウェア構成を例示するブロック図である。
図12を参照すると、情報処理装置1等は、ネットワーク・インターフェース1201、プロセッサ1202及びメモリ1203を含む。ネットワーク・インターフェース1201は、通信機能を有する他の通信装置と通信するために使用される。ネットワーク・インターフェース1201は、例えば、IEEE(Institute of Electrical and Electronics Engineers) 802.11 series、IEEE 802.3 series等を含む通信方式に準拠したネットワークインターフェースカード(NIC)を含んでもよい。
プロセッサ1202は、メモリ1203からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された情報処理装置1等の処理を行う。プロセッサ1202は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ1202は、複数のプロセッサを含んでもよい。
メモリ1203は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1203は、プロセッサ1202から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1202は、図示されていないI/Oインターフェースを介してメモリ1203にアクセスしてもよい。
図12の例では、メモリ1203は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1202は、これらのソフトウェアモジュール群をメモリ1203から読み出して実行することで、上述の実施形態において説明された情報処理装置1等の処理を行うことができる。
図12を用いて説明したように、情報処理装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
ユーザの位置情報を示す第1位置情報を取得する第1取得部と、
所定の物体の位置情報を示す第2位置情報を取得する第2取得部と、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成部と、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御部と、を備える情報処理装置。
(付記2)
前記第1取得部は、前記ユーザの方向情報をさらに取得し、
前記生成部は、前記第1位置情報と、前記第2位置情報と、前記方向情報とに基づいて、前記音声情報を生成する、付記1に記載の情報処理装置。
(付記3)
前記方向情報は、前記ユーザの顔方向を含み、
前記制御部は、前記第1位置情報と、前記顔方向と、前記第2位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、付記2に記載の情報処理装置。
(付記4)
前記方向情報は、前記ユーザの視線方向を含み、
前記制御部は、前記第1位置情報と、前記第2位置情報と、前記視線方向とに基づいて、前記視線方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、付記2又は3に記載の情報処理装置。
(付記5)
前記生成部は、前記所定の物体に関連する表示情報を生成し、
前記制御部は、前記ユーザが所有する通信端末の画面に前記表示情報を表示する制御を実行する、付記1~4のいずれか1項に記載の情報処理装置。
(付記6)
前記制御部は、前記音声情報を出力するタイミングにおいて、前記表示情報を表示可能に制御する、付記5に記載の情報処理装置。
(付記7)
前記制御部は、前記音声情報を出力するタイミングにおいて、前記表示情報が前記画面に表示されることを前記ユーザに通知する、付記5又は6に記載の情報処理装置。
(付記8)
前記所定の物体は、複数の物体を含み、
前記第2取得部は、前記複数の物体の各々の位置情報を取得するとともに、前記複数の物体が同種類であるのか否かを判定し、
前記生成部は、前記第2取得部の判定結果に応じた前記音声情報を生成する、付記1~7のいずれか1項に記載の情報処理装置。
(付記9)
ユーザの位置情報を示す第1位置情報を取得し、
所定の物体の位置情報を示す第2位置情報を取得し、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、制御方法。
(付記10)
ユーザの位置情報を示す第1位置情報を取得し、
所定の物体の位置情報を示す第2位置情報を取得し、
前記第1位置情報と、前記第2位置情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理をコンピュータに実行させる制御プログラム。
この出願は、2019年12月3日に出願された日本出願特願2019-219107を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 情報処理装置
11 第1取得部
12 第2取得部
13、63、91、112 生成部
14、64、92、113 制御部
21 エリア
100 情報処理システム
40、50、80 通信端末
41 方向情報取得部
42 出力部
51 ユーザ位置情報取得部
60、90、110 サーバ装置
61 ユーザ情報取得部
62、72、111 ターゲット情報取得部
81 撮像部
82 表示部

Claims (8)

  1. ユーザの位置情報を示す第1位置情報と、前記ユーザの方向情報とを取得する第1取得手段と、
    所定の物体の位置情報を示す第2位置情報を取得する第2取得手段と、
    前記第1位置情報と、前記第2位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成する生成手段と、
    前記生成された音声情報を前記ユーザに対して出力する制御を実行する制御手段と、を備え、
    前記方向情報は、前記ユーザの顔方向を含み、
    前記制御手段は、前記第1位置情報と、前記顔方向と、前記第2位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力し、
    前記方向情報は、前記ユーザの視線方向を含み、
    前記ユーザは、複数のユーザであり、
    前記第2取得手段は、
    前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第2位置情報を取得する情報処理装置。
  2. 記制御手段は、前記第1位置情報と、前記第2位置情報と、前記視線方向とに基づいて、前記視線方向に前記所定の物体が存在するか否かに応じた音声情報を出力する、請求項1に記載の情報処理装置。
  3. 前記生成手段は、前記所定の物体に関連する表示情報を生成し、
    前記制御手段は、前記ユーザが所有する通信端末の画面に前記表示情報を表示する制御を実行する、請求項1又は2に記載の情報処理装置。
  4. 前記制御手段は、前記音声情報を出力するタイミングにおいて、前記表示情報を表示可能に制御する、請求項3に記載の情報処理装置。
  5. 前記制御手段は、前記音声情報を出力するタイミングにおいて、前記表示情報が前記画面に表示されることを前記ユーザに通知する、請求項3又は4に記載の情報処理装置。
  6. 前記所定の物体は、複数の物体を含み、
    前記第2取得手段は、前記複数の物体の各々の位置情報を取得するとともに、前記複数の物体が同種類であるのか否かを判定し、
    前記生成手段は、前記第2取得手段の判定結果に応じた前記音声情報を生成する、請求項1~5のいずれか1項に記載の情報処理装置。
  7. ユーザの位置情報を示す第1位置情報と、前記ユーザの方向情報とを取得すること、
    所定の物体の位置情報を示す第2位置情報を取得すること、
    前記第1位置情報と、前記第2位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成すること、及び
    前記生成された音声情報を前記ユーザに対して出力する制御を実行すること、を含み、
    前記方向情報は、前記ユーザの顔方向を含み、
    前記制御を実行することは、前記第1位置情報と、前記顔方向と、前記第2位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力することを含み、
    前記方向情報は、前記ユーザの視線方向を含み、
    前記ユーザは、複数のユーザであり、
    前記所定の物体の位置情報を示す第2位置情報を取得することは、前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第2位置情報を取得することを含む、制御方法。
  8. コンピュータに実行させる制御プログラムであって、
    前記制御プログラムは、
    ユーザの位置情報を示す第1位置情報と、前記ユーザの方向情報とを取得し、
    所定の物体の位置情報を示す第2位置情報を取得し、
    前記第1位置情報と、前記第2位置情報と、前記方向情報とに基づいて、前記所定の物体に関連する音声情報であって、前記所定の物体に音像が定位された音声情報を生成し、
    前記生成された音声情報を前記ユーザに対して出力する制御を実行する、処理を含み、
    前記方向情報は、前記ユーザの顔方向を含み、
    前記制御を実行する処理は、前記第1位置情報と、前記顔方向と、前記第2位置情報とに基づいて、前記顔方向に前記所定の物体が存在するか否かに応じた音声情報を出力する処理を含み、
    前記方向情報は、前記ユーザの視線方向を含み、
    前記ユーザは、複数のユーザであり、
    前記所定の物体の位置情報を示す第2位置情報を取得する処理は、前記複数のユーザが撮像された撮像画像に基づいて、前記複数のユーザの各々の視線方向を推定し、前記推定された複数のユーザの各々の視線方向が交わる位置を推定し、前記推定された位置に基づいて前記所定の物体の位置情報を示す第2位置情報を取得する処理を含む、制御プログラム。
JP2021562705A 2019-12-03 2020-12-03 情報処理装置、制御方法及び制御プログラム Active JP7428189B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019219107 2019-12-03
JP2019219107 2019-12-03
PCT/JP2020/044988 WO2021112161A1 (ja) 2019-12-03 2020-12-03 情報処理装置、制御方法及び非一時的なコンピュータ可読媒体

Publications (3)

Publication Number Publication Date
JPWO2021112161A1 JPWO2021112161A1 (ja) 2021-06-10
JPWO2021112161A5 JPWO2021112161A5 (ja) 2022-08-05
JP7428189B2 true JP7428189B2 (ja) 2024-02-06

Family

ID=76222338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021562705A Active JP7428189B2 (ja) 2019-12-03 2020-12-03 情報処理装置、制御方法及び制御プログラム

Country Status (3)

Country Link
US (1) US20230059119A1 (ja)
JP (1) JP7428189B2 (ja)
WO (1) WO2021112161A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002199498A (ja) 2000-12-25 2002-07-12 Victor Co Of Japan Ltd 音源の音像定位方法及び音像定位を行うゲーム装置並びに音像定位プログラムの記録された記録媒体並びにかかるプログラムの伝送方法
JP2008200255A (ja) 2007-02-20 2008-09-04 Copcom Co Ltd ゲーム装置、ゲームプログラムおよび記憶媒体
JP2012212237A (ja) 2011-03-30 2012-11-01 Namco Bandai Games Inc 画像生成システム、サーバシステム、プログラム及び情報記憶媒体
JP2019197478A (ja) 2018-05-11 2019-11-14 株式会社ソニー・インタラクティブエンタテインメント プログラム、及び情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002199498A (ja) 2000-12-25 2002-07-12 Victor Co Of Japan Ltd 音源の音像定位方法及び音像定位を行うゲーム装置並びに音像定位プログラムの記録された記録媒体並びにかかるプログラムの伝送方法
JP2008200255A (ja) 2007-02-20 2008-09-04 Copcom Co Ltd ゲーム装置、ゲームプログラムおよび記憶媒体
JP2012212237A (ja) 2011-03-30 2012-11-01 Namco Bandai Games Inc 画像生成システム、サーバシステム、プログラム及び情報記憶媒体
JP2019197478A (ja) 2018-05-11 2019-11-14 株式会社ソニー・インタラクティブエンタテインメント プログラム、及び情報処理装置

Also Published As

Publication number Publication date
US20230059119A1 (en) 2023-02-23
JPWO2021112161A1 (ja) 2021-06-10
WO2021112161A1 (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
US11531518B2 (en) System and method for differentially locating and modifying audio sources
JP6747538B2 (ja) 情報処理装置
CN108141696B (zh) 用于空间音频调节的***和方法
US9271103B2 (en) Audio control based on orientation
US20220159117A1 (en) Server, client terminal, control method, and storage medium
US10257637B2 (en) Shoulder-mounted robotic speakers
US9774978B2 (en) Position determination apparatus, audio apparatus, position determination method, and program
WO2020210084A1 (en) Acoustic transfer function personalization using sound scene analysis and beamforming
US20220066207A1 (en) Method and head-mounted unit for assisting a user
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
US9832587B1 (en) Assisted near-distance communication using binaural cues
JP7326922B2 (ja) 符号化された光線を用いてスピーカアレイ及びマイクロフォンアレイを誘導するシステム、方法、及びプログラム
JP2020173656A (ja) 情報処理装置、情報処理方法、及び記録媒体
EP3113505A1 (en) A head mounted audio acquisition module
JP7428189B2 (ja) 情報処理装置、制御方法及び制御プログラム
ES2692828T3 (es) Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición
US9992536B2 (en) Information provision device, information provision method, and information provision system
US20230122450A1 (en) Anchored messages for augmented reality
US20240031759A1 (en) Information processing device, information processing method, and information processing system
JP7384222B2 (ja) 情報処理装置、制御方法及びプログラム
CN117981347A (zh) 用于对虚拟声源进行空间化的音频***
US10820132B2 (en) Voice providing device and voice providing method
KR20170022272A (ko) 녹음 시스템 및 녹음 방법
US20230370798A1 (en) Information processing device, control method, non-transitory computer-readable medium, and information processing system
US20230101693A1 (en) Sound processing apparatus, sound processing system, sound processing method, and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220601

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A527

Effective date: 20220601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240108

R151 Written notification of patent or utility model registration

Ref document number: 7428189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151