JP2017107482A

JP2017107482A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2017107482A
Application number: JP2015242190A
Authority: JP
Inventors: 真一河野; Shinichi Kono; 佑輔中川; Yusuke Nakagawa
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2017-06-15
Also published as: CN108369492B; WO2017098773A1; US20180254038A1; CN108369492A

Abstract

【課題】集音特性をより確実に向上させることが可能な仕組みを提供する。
【解決手段】集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、情報処理方法。および、上記制御の機能をコンピュータに実現させるためのプログラム。
【選択図】図２４

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、入力される音を分析する技術の研究開発が進んでいる。具体的には、ユーザによって発せられた音声を入力音声として受け付け、当該入力音声に対して音声認識を行うことによって当該入力音声から文字列を認識する、いわゆる音声認識技術が存在する。

さらに、当該音声認識技術の利便性を向上させる技術が開発されている。例えば、特許文献１では、入力音声に対して音声認識を行うモードが開始されたことをユーザに把握させる技術が開示されている。

特開２０１３−２５６０５号公報

しかし、特許文献１で開示されるような従来技術では、音声認識処理などの処理が可能なレベルの集音特性の音声が入力されるとは限らない。例えば、ユーザが集音装置の集音に適した方向と異なる方向に向かって発声する場合、仮に発声により生じた音声が集音されたとしても、集音された音声は、音声認識処理などの処理が要求する音圧レベルまたはＳＮ比（Signal Noise ratio）などの集音特性のレベルを満たさない可能性がある。その結果、所望の処理結果を得ることが困難となりかねない。

そこで、本開示では、集音特性をより確実に向上させることが可能な仕組みを提案する。

本開示によれば、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置が提供される。

また、本開示によれば、プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、情報処理方法が提供される。

また、本開示によれば、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、コンピュータに実現させるためのプログラムが提供される。

以上説明したように本開示によれば、集音特性をより確実に向上させることが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第１の実施形態に係る情報処理システムの概略的な構成例を説明するための図である。同実施形態に係る情報処理装置の概略的な物理構成例を示すブロック図である。同実施形態に係る表示集音装置の概略的な物理構成例を示すブロック図である。同実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。同実施形態における音声入力適性判定処理を説明するための図である。同実施形態における音声入力適性判定処理を説明するための図である。同実施形態における音声入力適性の判定パターンの例を示す図である。複数の雑音源が存在する状況の例を示す図である。複数の雑音源に係る音源方向情報から１つの方向を示す音源方向情報を決定する処理を説明するための図である。雑音の音圧に基づく音声入力適性の判定パターンの例を示す図である。同実施形態に係る情報処理装置の全体処理を概念的に示すフローチャートである。同実施形態に係る情報処理装置における方向判定値の算出処理を概念的に示すフローチャートである。同実施形態に係る情報処理装置における複数の音源方向情報の合算処理を概念的に示すフローチャートである。同実施形態に係る情報処理装置における音圧判定値の算出処理を概念的に示すフローチャートである。音声入力が可能な場合の情報処理システムの処理例の説明図である。音声入力が可能な場合の情報処理システムの処理例の説明図である。音声入力が可能な場合の情報処理システムの処理例の説明図である。音声入力が可能な場合の情報処理システムの処理例の説明図である。音声入力が可能な場合の情報処理システムの処理例の説明図である。音声入力が困難な場合の情報処理システムの処理例の説明図である。音声入力が困難な場合の情報処理システムの処理例の説明図である。音声入力が困難な場合の情報処理システムの処理例の説明図である。音声入力が困難な場合の情報処理システムの処理例の説明図である。音声入力が困難な場合の情報処理システムの処理例の説明図である。同実施形態の変形例における情報処理システムの処理例を説明するための図である。本開示の第２の実施形態に係る情報処理システムの概略的な構成例を説明するための図である。同実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。同実施形態における音声入力適性判定処理を説明するための図である。同実施形態における音声入力適性の判定パターンの例を示す図である。同実施形態に係る情報処理装置の全体処理を概念的に示すフローチャートである。同実施形態に係る情報処理装置における方向判定値の算出処理を概念的に示すフローチャートである。同実施形態に係る情報処理装置における制御量決定処理を概念的に示すフローチャートである。同実施形態に係る情報処理システムの処理例を説明するための図である。同実施形態に係る情報処理システムの処理例を説明するための図である。同実施形態に係る情報処理システムの処理例を説明するための図である。同実施形態に係る情報処理システムの処理例を説明するための図である。同実施形態に係る情報処理システムの処理例を説明するための図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる番号を付して区別する場合もある。例えば、実質的に同一の機能を有する複数の構成を、必要に応じて雑音源１０Ａおよび雑音源１０Ｂなどのように区別する。ただし、実質的に同一の機能構成を区別する必要が無い場合、同一符号のみを付する。例えば、雑音源１０Ａおよび雑音源１０Ｂを特に区別する必要がない場合には、単に雑音源１０と称する。

なお、説明は以下の順序で行うものとする。
１．第１の実施形態（雑音回避のためのユーザの誘導）
１−１．システム構成
１−２．装置の構成
１−３．装置の処理
１−４．処理例
１−５．第１の実施形態のまとめ
１−６．変形例
２．第２の実施形態（高感度集音のための集音部の制御とユーザの誘導）
２−１．システム構成
２−２．装置の構成
２−３．装置の処理
２−４．処理例
２−５．第２の実施形態のまとめ
３．適用例
４．むすび

＜１．第１の実施形態（雑音回避のためのユーザの誘導）＞
まず、本開示の第１の実施形態について説明する。第１の実施形態では、雑音が入力されにくくなるようにユーザの動作が誘導される。

＜１−１．システム構成＞
図１を参照して、本開示の第１の実施形態に係る情報処理システムの構成について説明する。図１は、本実施形態に係る情報処理システムの概略的な構成例を説明するための図である。

図１に示したように、本実施形態に係る情報処理システムは、情報処理装置１００−１、表示集音装置２００−１および音処理装置３００−１を備える。なお、説明の便宜上、第１および第２の実施形態に係る情報処理装置１００を、情報処理装置１００−１および情報処理装置１００−２のように、末尾に実施形態に対応する番号を付することにより区別する。他の装置についても同様である。

情報処理装置１００−１は、表示集音装置２００−１および音処理装置３００−１と通信を介して接続される。情報処理装置１００−１は、通信を介して表示集音装置２００−１の表示を制御する。また、情報処理装置１００−１は、通信を介して表示集音装置２００−１から得られる音情報を音処理装置３００−１に処理させ、処理結果に基づいて表示集音装置２００−１の表示または当該表示に係る処理を制御する。例えば、当該表示に係る処理は、ゲームアプリケーションの処理であってもよい。

表示集音装置２００−１は、ユーザに装着され、画像表示および集音を行う。表示集音装置２００−１は、集音により得られる音情報を情報処理装置１００−１に提供し、情報処理装置１００−１から得られる画像情報に基づいて画像を表示する。例えば、表示集音装置２００−１は、図１に示したようなヘッドマウントディスプレイ（ＨＭＤ：Head Mount Display）であり、また表示集音装置２００−１を装着するユーザの口元に位置するようにマイクロフォンを備える。なお、表示集音装置２００−１は、ヘッドアップディスプレイ（ＨＵＤ：Head Up Display）であってもよい。また、当該マイクロフォンは、表示集音装置２００−１と別個の独立した装置として設けられてもよい。

音処理装置３００−１は、音情報に基づいて音源方向、音圧および音声認識に係る処理を行う。音処理装置３００−１は、情報処理装置１００−１から提供される音情報に基づいて上記処理を行い、処理結果を情報処理装置１００−１に提供する。

ここで、集音の際には集音が所望される音と異なる音すなわち雑音も集音される場合がある。雑音が集音される一因として、雑音の発生タイミング、発生場所または発生数などが予測されにくいことにより雑音を回避することが難しいことが挙げられる。これに対し、入力される雑音を事後的に消すことが考えられる。しかし、雑音消去処理が別途追加されることにより、処理負荷の増大およびコスト増加が懸念される。また別の方法として、雑音が入力されにくくすることが考えられる。例えば、雑音に気付いたユーザがマイクロフォンを雑音源から遠ざける、といったことが挙げられる。しかし、ヘッドフォンなどをユーザが装着する場合にはユーザは雑音に気付きにくい。仮にユーザが雑音に気付けたとしても、雑音源を正確に把握することは難しい。また、雑音に気付いたとしても、当該雑音がマイクロフォンにより集音されるかどうかまでユーザが判断することはやはり困難である。さらに、雑音が入力されることを防ぐ適切な行動を取ることをユーザに期待することができない場合もある。例えば、雑音を回避するための望ましい顔の向きまたはマイクロフォンの覆い方などをユーザが適切に判断することは困難である。

そこで、本開示の第１の実施形態では、容易に雑音入力を抑制することが可能な情報処理システムを提案する。以下、第１の実施形態に係る情報処理システムの構成要素である各装置について詳細に説明する。

なお、上記では、情報処理システムが３つの装置を備える例を説明したが、情報処理装置１００−１および音処理装置３００−１は１つの装置で実現されてもよく、情報処理装置１００−１、表示集音装置２００−１および音処理装置３００−１が１つの装置で実現されてもよい。

＜１−２．装置の構成＞
次に、本実施形態に係る情報処理システムの各装置の構成について説明する。

まず、図２および図３を参照して、各装置の物理的な構成について説明する。図２は、本実施形態に係る情報処理装置１００−１の概略的な物理構成例を示すブロック図であり、図３は、本実施形態に係る表示集音装置２００−１の概略的な物理構成例を示すブロック図である。

（情報処理装置の物理構成）
図２に示したように、情報処理装置１００−１は、プロセッサ１０２、メモリ１０４、ブリッジ１０６、バス１０８、入力インタフェース１１０、出力インタフェース１１２、接続ポート１１４および通信インタフェース１１６を備える。なお、音処理装置３００−１の物理構成は、情報処理装置１００−１の物理構成と実質的に同一であるため、下記にまとめて説明する。

（プロセッサ）
プロセッサ１０２は、演算処理装置として機能し、各種プログラムと協働して情報処理装置１００−１内の後述するＶＲ（Virtual Reality）処理部１２２、音声入力適性判定部１２４および出力制御部１２６（音処理装置３００−１の場合は、音源方向推定部３２２、音圧推定部３２４および音声認識処理部３２６）の動作を実現する制御モジュールである。プロセッサ１０２は、制御回路を用いてメモリ１０４または他の記憶媒体に記憶されるプログラムを実行することにより、後述する情報処理装置１００−１の様々な論理的機能を動作させる。例えば、プロセッサ１０２はＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）またはＳｏＣ（System-on-a-Chip）であり得る。

（メモリ）
メモリ１０４は、プロセッサ１０２が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ１０４は、ＲＡＭ（Random Access Memory）を含み、プロセッサ１０２の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ１０４は、ＲＯＭ（Read Only Memory）を含み、ＲＡＭおよびＲＯＭにより情報処理装置１００−１の記憶部を実現する。なお、接続ポートまたは通信装置などを介して外部のストレージ装置がメモリ１０４の一部として利用されてもよい。

なお、プロセッサ１０２およびメモリ１０４は、ＣＰＵバスなどから構成される内部バスにより相互に接続されている。

（ブリッジおよびバス）
ブリッジ１０６は、バス間を接続する。具体的には、ブリッジ１０６は、プロセッサ１０２およびメモリ１０４が接続される内部バスと、入力インタフェース１１０、出力インタフェース１１２、接続ポート１１４および通信インタフェース１１６間を接続するバス１０８と、を接続する。

（入力インタフェース）
入力インタフェース１１０は、ユーザが情報処理装置１００−１を操作しまたは情報処理装置１００−１へ情報を入力するために使用される。例えば、入力インタフェース１１０は、情報処理装置１００−１を起動するためのボタンなどのユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ１０２に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチまたはレバーなどであってもよい。情報処理装置１００−１のユーザは、入力インタフェース１１０を操作することにより、情報処理装置１００−１に対して各種のデータを入力したり処理動作を指示したりすることができる。

（出力インタフェース）
出力インタフェース１１２は、ユーザに情報を通知するために使用される。例えば、出力インタフェース１１２は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、ＯＬＥＤ（Organic Light Emitting Diode）装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置への出力を行う。

（接続ポート）
接続ポート１１４は、機器を情報処理装置１００−１に直接接続するためのポートである。例えば、接続ポート１１４は、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどであり得る。また、接続ポート１１４は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート１１４に外部機器を接続することで、情報処理装置１００−１と当該機器との間でデータが交換されてもよい。

（通信インタフェース）
通信インタフェース１１６は、情報処理装置１００−１と外部装置との間の通信を仲介し、後述する通信部１２０（音処理装置３００−１の場合は、通信部３２０）の動作を実現する。例えば、通信インタフェース１１６は、Bluetooth（登録商標）、ＮＦＣ（Near Field Communication）、ワイヤレスＵＳＢもしくはTransferJet（登録商標）などの近距離無線通信方式、ＷＣＤＭＡ（登録商標）（Wideband Code Division Multiple Access）、ＷｉＭＡＸ（登録商標）、ＬＴＥ（Long Term Evolution）もしくはＬＴＥ−Ａなどのセルラ通信方式、またはＷｉ−Ｆｉ（登録商標）などの無線ＬＡＮ（Local Area Network）方式といった、任意の無線通信方式に従って無線通信を実行してよい。また、通信インタフェース１１６は、有線による通信を行うワイヤ通信を実行してもよい。

（表示集音装置の物理構成）
また、図３に示したように、表示集音装置２００−１は、プロセッサ２０２、メモリ２０４、ブリッジ２０６、バス２０８、センサモジュール２１０、入力インタフェース２１２、出力インタフェース２１４、接続ポート２１６および通信インタフェース２１８を備える。

（プロセッサ）
プロセッサ２０２は、演算処理装置として機能し、各種プログラムと協働して表示集音装置２００−１内の後述する制御部２２２の動作を実現する制御モジュールである。プロセッサ２０２は、制御回路を用いてメモリ２０４または他の記憶媒体に記憶されるプログラムを実行することにより、後述する表示集音装置２００−１の様々な論理的機能を動作させる。例えば、プロセッサ２０２はＣＰＵ、ＧＰＵ、ＤＳＰまたはＳｏＣであり得る。

（メモリ）
メモリ２０４は、プロセッサ２０２が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ２０４は、ＲＡＭを含み、プロセッサ２０２の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ２０４は、ＲＯＭを含み、ＲＡＭおよびＲＯＭにより表示集音装置２００−１の記憶部を実現する。なお、接続ポートまたは通信装置などを介して外部のストレージ装置がメモリ２０４の一部として利用されてもよい。

なお、プロセッサ２０２およびメモリ２０４は、ＣＰＵバスなどから構成される内部バスにより相互に接続されている。

（ブリッジおよびバス）
ブリッジ２０６は、バス間を接続する。具体的には、ブリッジ２０６は、プロセッサ２０２およびメモリ２０４が接続される内部バスと、センサモジュール２１０、入力インタフェース２１２、出力インタフェース２１４、接続ポート２１６および通信インタフェース２１８間を接続するバス２０８と、を接続する。

（センサモジュール）
センサモジュール２１０は、表示集音装置２００−１およびその周辺についての測定を行う。具体的には、センサモジュール２１０は、集音センサおよび慣性センサを含み、これらセンサから得られる信号からセンサ情報を生成する。これにより、後述する集音部２２４および顔方向検出部２２６の動作を実現する。例えば、集音センサは、音源を検出可能な音情報が得られるマイクロフォンアレイである。なお、別途、マイクロフォンアレイ以外の通常のマイクロフォンが含まれてもよい。以下では、マイクロフォンアレイおよび通常のマイクロフォンを総称してマイクロフォンとも称する。また、慣性センサは、加速度センサまたは角速度センサである。そのほか、地磁気センサ、深度センサ、気温センサ、気圧センサ、生体センサなどの他のセンサが含まれてもよい。

（入力インタフェース）
入力インタフェース２１２は、ユーザが表示集音装置２００−１を操作しまたは表示集音装置２００−１へ情報を入力するために使用される。例えば、入力インタフェース２１２は、表示集音装置２００−１を起動するためのボタンなどのユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ２０２に出力する入力制御回路などから構成されている。なお、当該入力手段は、タッチパネル、スイッチまたはレバーなどであってもよい。表示集音装置２００−１のユーザは、入力インタフェース２１２を操作することにより、表示集音装置２００−１に対して各種のデータを入力したり処理動作を指示したりすることができる。

（出力インタフェース）
出力インタフェース２１４は、ユーザに情報を通知するために使用される。例えば、出力インタフェース２１４は、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ装置、プロジェクタなどの装置に出力を行うことにより、後述する表示部２２８の動作を実現する。また、出力インタフェース２１４は、スピーカまたはヘッドフォンなどの装置に出力を行うことにより、後述する音出力部２３０の動作を実現する。

（接続ポート）
接続ポート２１６は、機器を表示集音装置２００−１に直接接続するためのポートである。例えば、接続ポート２１６は、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩポートなどであり得る。また、接続ポート２１６は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）ポートなどであってもよい。接続ポート２１６に外部機器を接続することで、表示集音装置２００−１と当該機器との間でデータが交換されてもよい。

（通信インタフェース）
通信インタフェース２１８は、表示集音装置２００−１と外部装置との間の通信を仲介し、後述する通信部２２０の動作を実現する。例えば、通信インタフェース２１８は、Bluetooth（登録商標）、ＮＦＣ、ワイヤレスＵＳＢもしくはTransferJet（登録商標）などの近距離無線通信方式、ＷＣＤＭＡ（登録商標）、ＷｉＭＡＸ（登録商標）、ＬＴＥもしくはＬＴＥ−Ａなどのセルラ通信方式、またはＷｉ−Ｆｉ（登録商標）などの無線ＬＡＮ方式といった、任意の無線通信方式に従って無線通信を実行してよい。また、通信インタフェース２１８は、有線による通信を行うワイヤ通信を実行してもよい。

なお、情報処理装置１００−１および音処理装置３００−１ならびに表示集音装置２００−１は、図２および図３を用いて説明した構成の一部を有しなくてもよく、または追加的な構成を有していてもよい。また、図２を用いて説明した構成の全体または一部を集積したワンチップの情報処理モジュールが提供されてもよい。

続いて、図４を参照して、本実施形態に係る情報処理システムの各装置の論理構成について説明する。図４は、本実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。

（情報処理装置の論理構成）
図４に示したように、情報処理装置１００−１は、通信部１２０、ＶＲ処理部１２２、音声入力適性判定部１２４および出力制御部１２６を備える。

（通信部）
通信部１２０は、表示集音装置２００−１および音処理装置３００−１と通信する。具体的には、通信部１２０は、表示集音装置２００−１から集音情報および顔方向情報を受信し、表示集音装置２００−１に画像情報および出力音情報を送信する。また、通信部１２０は、音処理装置３００−１に集音情報を送信し、音処理装置３００−１から音処理結果を受信する。例えば、通信部１２０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）またはＷｉ−Ｆｉ（登録商標）といった無線通信方式を用いて表示集音装置２００−１と通信する。また、通信部１２０は、有線通信方式を用いて音処理装置３００−１と通信する。なお、通信部１２０は、表示集音装置２００−１と有線通信方式を用いて通信してもよく、音処理装置３００−１と無線通信方式を用いて通信してもよい。

（ＶＲ処理部）
ＶＲ処理部１２２は、ユーザの態様に応じて仮想空間についての処理を行う。具体的には、ＶＲ処理部１２２は、ユーザの動作または姿勢に応じて表示対象となる仮想空間を決定する。例えば、ＶＲ処理部１２２は、ユーザの顔の向きを示す情報（顔方向情報）に基づいて表示対象となる仮想空間座標を決定する。また、ユーザの発声に基づいて表示対象の仮想空間が決定されてもよい。

なお、ＶＲ処理部１２２は、ゲームアプリケーションなどの集音結果を利用する処理を制御してもよい。具体的には、ＶＲ処理部１２２は、制御部の一部として、集音結果を利用する処理の実行中にユーザの動作を誘導する出力が行われる場合、当該処理の少なくとも一部を停止させる。より具体的には、ＶＲ処理部１２２は、集音結果を利用する処理の全体を停止させる。例えば、ＶＲ処理部１２２は、ユーザの動作を誘導する出力が行われている間、ゲームアプリケーションの処理の進行を停止させる。なお、出力制御部１２６は、当該出力が行われる直前の画像を表示集音装置２００−１に表示させてもよい。

また、ＶＲ処理部１２２は、集音結果を利用する処理におけるユーザの顔の向きを利用した処理のみを停止させてもよい。例えば、ＶＲ処理部１２２は、ユーザの動作を誘導する出力が行われている間、ゲームアプリケーションの処理のうちのユーザの顔の向きに応じて表示画像を制御する処理を停止させ、他の処理は継続させる。なお、ゲームアプリケーション自体がＶＲ処理部１２２の代わりに処理の停止を判定してもよい。

（音声入力適性判定部）
音声入力適性判定部１２４は、制御部の一部として、雑音の発生源（以下、雑音源とも称する。）とユーザの発生させる音を集音する表示集音装置２００−１との位置関係に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部１２４は、当該位置関係と顔方向情報とに基づいて音声入力の適性を判定する。さらに、図５Ａおよび図５Ｂならびに図６を参照して、本実施形態における音声入力適性判定処理について詳細に説明する。図５Ａおよび図５Ｂは、本実施形態における音声入力適性判定処理を説明するための図であり、図６は、本実施形態における音声入力適性の判定パターンの例を示す図である。

例えば、図５Ａに示したように、表示集音装置２００−１の周辺に雑音源１０が存在する場合を考える。この場合、まず、表示集音装置２００−１から得られる集音情報が音処理装置３００−１に提供され、音声入力適性判定部１２４は、音処理装置３００−１の処理により得られる音源方向を示す情報（以下、音源方向情報とも称する。）を音処理装置３００−１から取得する。例えば、音声入力適性判定部１２４は、図５Ｂに示したような表示集音装置２００−１を装着するユーザから雑音源１０への音源方向Ｄ１を示す音源方向情報（以下、FaceToNoiseVecとも称する。）を音処理装置３００−１から通信部１２０を介して取得する。

また、音声入力適性判定部１２４は、表示集音装置２００−１から顔方向情報を取得する。例えば、音声入力適性判定部１２４は、図５Ｂに示したような表示集音装置２００−１を装着するユーザの顔の向きＤ３を示す顔方向情報を当該表示集音装置２００−１から通信を介して取得する。

次に、音声入力適性判定部１２４は、雑音源および表示集音装置２００−１間の方向とユーザの顔の向きとの差異に係る情報に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部１２４は、取得される雑音源に係る音源方向情報および顔方向情報から、当該音源方向情報の示す方向と当該顔方向情報の示す方向とのなす角度を算出する。そして、音声入力適性判定部１２４は、算出角度に応じて音声入力の適性度として方向判定値を判定する。例えば、音声入力適性判定部１２４は、取得されるFaceToNoiseVecの逆方向の音源方向情報であるNoiseToFaceVecを算出し、当該NoiseToFaceVecの示す方向すなわち雑音源からユーザに向かう方向と顔方向情報の示す方向とのなす角度αを算出する。そして、音声入力適性判定部１２４は、図６に示したような、算出される角度αを入力とする余弦関数の出力値に応じた値を方向判定値として判定する。例えば、当該方向判定値は、角度αが小さくなると音声入力の適性度が向上するような値に設定される。

なお、上記差異は、角度のほか、方向または方角の組合せであってもよく、その場合、当該組合せに応じて方向判定値が設定されてもよい。また、上記では、NoiseToFaceVecが利用される例を説明したが、NoiseToFaceVecと方向が反対であるFaceToNoiseVecがそのまま利用されてもよい。また、音源方向情報および顔方向情報などの方向はユーザを上から見た場合の水平面における方向である例を説明したが、これらの方向は当該水平面に対する垂直面における方向であってもよく、３次元空間における方向であってもよい。また、方向判定値は、図６にしめしたような５段階の値であってもよく、より細かい段階または粗い段階の値であってもよい。

また、雑音源が複数存在する場合、複数の音源方向情報に基づいて音声入力適性判定が行われてもよい。具体的には、音声入力適性判定部１２４は、複数の音源方向情報に基づいて得られる単一の方向と顔方向情報の示す方向とのなす角度に応じて方向判定値を判定する。さらに、図７Ａおよび図７Ｂを参照して、雑音源が複数存在する場合の音声入力適性判定処理について詳細に説明する。図７Ａは、複数の雑音源が存在する状況の例を示す図であり、図７Ｂは、複数の雑音源に係る音源方向情報から１つの方向を示す音源方向情報を決定する処理を説明するための図である。

例えば、図７Ａに示したように雑音源が２つ存在する場合を考える。この場合、まず、音声入力適性判定部１２４は、音処理装置３００−１から複数の音源方向情報を取得する。例えば、音声入力適性判定部１２４は、図７Ａに示したような雑音源１０Ａおよび１０Ｂから表示集音装置２００−１を装着するユーザへの方向Ｄ４およびＤ５を示す音源方向情報をそれぞれ音処理装置３００−１から取得する。

次に、音声入力適性判定部１２４は、取得される複数の音源方向情報から雑音源に係る音圧に基づいて単一の音源方向情報を算出する。例えば、音声入力適性判定部１２４は、後述するように音源方向情報と共に音圧情報を音処理装置３００−１から取得する。次に、音声入力適性判定部１２４は、取得される音圧情報に基づいて雑音源に係る音圧間の音圧比、例えば雑音源１０Ｂに係る音圧に対する雑音源１０Ａの音圧の比を算出する。そして、音声入力適性判定部１２４は、算出された音圧比に従って方向Ｄ５を単位ベクトルＶ２とする方向Ｄ４に係るベクトルＶ１を算出し、ベクトルＶ１およびベクトルＶ２の加算によりベクトルＶ３を取得する。

そして、音声入力適性判定部１２４は、算出された単一の音源方向情報を用いて上述した方向判定値を判定する。例えば、算出されたベクトルＶ３の方向を示す音源方向情報と顔方向情報とのなす角度に基づいて方向判定値が判定される。なお、上記ではベクトル計算が行われる例を説明したが、他の処理に基づいて方向判定値が判定されてもよい。

以上、雑音源の方向に基づいて音声入力の適性を判定する機能について説明した。さらに、音声入力適性判定部１２４は、雑音源の音圧に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部１２４は、集音される雑音の音圧レベルが判定閾値以上であるかに応じて音声入力の適性を判定する。さらに、図８を参照して、雑音の音圧に基づく音声入力適性判定処理について詳細に説明する。図８は、雑音の音圧に基づく音声入力適性の判定パターンの例を示す図である。

まず、音声入力適性判定部１２４は、雑音源について音圧情報を取得する。例えば、音声入力適性判定部１２４は、音処理装置３００−１から通信部１２０を介して音源方向情報とともに音圧情報を取得する。

次に、音声入力適性判定部１２４は、取得された音圧情報に基づいて音圧判定値を判定する。例えば、音声入力適性判定部１２４は、取得された音圧情報の示す音圧レベルに対応する音圧判定値を判定する。図８の例では、音圧レベルが０以上〜６０ｄＢ未満である場合すなわち人にとって比較的静かに感じられる場合、音圧判定値は１であり、音圧レベルが６０以上〜１２０ｄＢ未満である場合すなわち人にとって比較的騒がしく感じられる場合、音圧判定値は０である。なお、音圧判定値は、図８の例に限られず、より細かい段階の値であってもよい。

（出力制御部）
出力制御部１２６は、制御部の一部として、音声入力適性判定結果に基づいて、集音特性を変化させるユーザの動作を誘導する出力を制御する。具体的には、出力制御部１２６は、ユーザの顔の向きの変化を誘導する視覚的な提示を制御する。より具体的には、出力制御部１２６は、音声入力適性判定部１２４の判定により得られる方向判定値に応じて、ユーザが変化させるべき顔の向きおよびその程度を示す表示オブジェクト（以下、顔方向誘導オブジェクトとも称する。）を決定する。例えば、出力制御部１２６は、方向判定値が低い場合、方向判定値が高くなるようにユーザに顔の向きの変化を誘導するような顔方向誘導オブジェクトを決定する。なお、当該ユーザの動作は、表示集音装置２００−１の処理の操作と異なる動作である。例えば、表示集音装置２００−１の入力音量の変更処理を制御する表示集音装置２００−１に対する入力操作などの入力された音の集音特性が変更される処理に係る操作は当該ユーザの動作として含まれない。

また、出力制御部１２６は、誘導される動作により至るユーザの態様を基準としたユーザの態様についての評価に係る出力を制御する。具体的には、出力制御部１２６は、誘導される動作をユーザが行うことにより至るユーザの態様とユーザの現在の態様との乖離の程度に基づいて、ユーザの態様の評価を示す表示オブジェクト（以下、評価オブジェクトとも称する。）を決定する。例えば、出力制御部１２６は、当該乖離が小さくなるにつれて、音声入力の適性が向上していることを示す評価オブジェクトを決定する。

さらに、出力制御部１２６は、集音される雑音に係る出力を制御してもよい。具体的には、出力制御部１２６は、集音される雑音の到達領域を通知する出力を制御する。より具体的には、出力制御部１２６は、雑音源からユーザに到達する雑音のうちの音圧レベルが所定の閾値以上の雑音が到達する領域（以下、雑音到達領域とも称する。）をユーザに通知する表示オブジェクト（以下、雑音到達領域オブジェクトとも称する。）を決定する。例えば、雑音到達領域は、図５Ｂに示したようなＷ１の領域である。また、出力制御部１２６は、集音される雑音の音圧を通知する出力を制御する。より具体的には、出力制御部１２６は、上記の雑音到達領域における音圧に応じて雑音到達領域オブジェクトの態様を決定する。例えば、音圧に応じた雑音到達領域オブジェクトの態様は、当該雑音到達領域オブジェクトの厚さである。なお、出力制御部１２６は、音圧に応じて雑音到達領域オブジェクトの色相、彩度、輝度または模様の粒度などを制御してもよい。

また、出力制御部１２６は、音声入力の適否の提示を制御してもよい。具体的には、出力制御部１２６は、ユーザの顔の向きまたは雑音の音圧レベルに基づいて、ユーザの発生させる音（音声）の集音適否の通知を制御する。より具体的には、出力制御部１２６は、方向判定値または音圧判定値に基づいて、音声入力の適否を示す表示オブジェクト（以下、音声入力適否オブジェクトとも称する。）を決定する。例えば、出力制御部１２６は、音圧判定値が０である場合、音声入力に適していない、または音声入力が困難である旨を示す音声入力適否オブジェクトを決定する。また、音圧判定値が１であっても、方向判定値が閾値以下である場合、音声入力が困難である旨の音声入力適否オブジェクトが表示されてもよい。

以上、ユーザの動作を誘導する出力の内容を制御する機能について説明した。さらに、出力制御部１２６は、集音結果に関する情報に基づいてユーザの動作を誘導する出力の有無を制御する。具体的には、出力制御部１２６は、集音結果を利用する処理の開始情報に基づいてユーザの動作を誘導する出力の有無を制御する。例えば、集音結果を利用する処理としては、コンピュータゲーム、音声検索、音声コマンド、音声テキスト入力、音声エージェント、ボイスチャット、電話または音声翻訳などの処理が挙げられる。出力制御部１２６は、当該処理の開始が通知されると、当該ユーザの動作を誘導する出力に係る処理を開始する。

また、出力制御部１２６は、集音される雑音の音圧情報に基づいてユーザの動作を誘導する出力の有無を制御してもよい。例えば、出力制御部１２６は、雑音の音圧レベルが下限閾値未満である場合すなわち雑音が音声入力に影響を与えにくい場合、当該ユーザの動作を誘導する出力を行わない。なお、出力制御部１２６は、方向判定値に基づいてユーザの動作を誘導する出力の有無を制御してもよい。例えば、方向判定値が閾値以上の場合すなわち雑音の影響が許容範囲内である場合、出力制御部１２６は、当該ユーザの動作を誘導する出力を行わないとしてもよい。

なお、出力制御部１２６は、ユーザ操作に基づいて上記誘導する出力の有無を制御してもよい。例えば、出力制御部１２６は、ユーザによる音声入力設定操作に基づいてユーザの動作を誘導する出力に係る処理を開始する。

（表示集音装置の論理構成）
図４に示したように、表示集音装置２００−１は、通信部２２０、制御部２２２、集音部２２４、顔方向検出部２２６、表示部２２８および音出力部２３０を備える。

（通信部）
通信部２２０は、情報処理装置１００−１と通信する。具体的には、通信部２２０は、情報処理装置１００−１に集音情報および顔方向情報を送信し、情報処理装置１００−１から画像情報および出力音情報を受信する。

（制御部）
制御部２２２は、表示集音装置２００−１を全体的に制御する。具体的には、制御部２２２は、集音部２２４、顔方向検出部２２６、表示部２２８および音出力部２３０の動作パラメタを設定することなどによりこれらの機能を制御する。また、制御部２２２は、通信部２２０を介して取得される画像情報に基づいて表示部２２８に画像を表示させ、取得される出力音情報に基づいて音出力部２３０に音を出力させる。なお、制御部２２２は、集音部２２４および顔方向検出部２２６に代わって、集音部２２４および顔方向検出部２２６から得られる情報に基づいて集音情報および顔方向情報を生成してもよい。

（集音部）
集音部２２４は、表示集音装置２００−１の周辺について集音する。具体的には、集音部２２４は、表示集音装置２００−１の周辺において発生する雑音および表示集音装置２００−１を装着するユーザの音声を集音する。また、集音部２２４は、集音した音に係る集音情報を生成する。

（顔方向検出部）
顔方向検出部２２６は、表示集音装置２００−１を装着するユーザの顔の向きを検出する。具体的には、顔方向検出部２２６は、表示集音装置２００−１の姿勢を検出することにより、当該表示集音装置２００−１を装着するユーザの顔の向きを検出する。また、顔方向検出部２２６は、検出されたユーザの顔の向きを示す顔方向情報を生成する。

（表示部）
表示部２２８は、画像情報に基づいて画像を表示する。具体的には、表示部２２８は、制御部２２２から提供される画像情報に基づいて画像を表示する。なお、表示部２２８は、上述した各表示オブジェクトが重畳された画像を表示し、または画像を表示することにより上述した各表示オブジェクトを外界像に重畳させる。

（音出力部）
音出力部２３０は、出力音情報に基づいて音を出力する。具体的には、音出力部２３０は、制御部２２２から提供される出力音情報に基づいて音を出力する。

（音処理装置の論理構成）
図４に示したように、音処理装置３００−１は、通信部３２０、音源方向推定部３２２、音圧推定部３２４および音声認識処理部３２６を備える。

（通信部）
通信部３２０は、情報処理装置１００−１と通信する。具体的には、通信部３２０は、情報処理装置１００−１から集音情報を受信し、情報処理装置１００−１に音源方向情報および音圧情報を送信する。

（音源方向推定部）
音源方向推定部３２２は、集音情報に基づいて音源方向情報を生成する。具体的には、音源方向推定部３２２は、集音情報に基づいて集音位置からの音源への方向を推定し、推定される方向を示す音源方向情報を生成する。なお、音源方向の推定は、マイクロフォンアレイにより得られる集音情報に基づく既存の音源推定技術が用いられることが想定されるが、これに限定されず、音源方向が推定可能な技術であれば種々の技術が用いられ得る。

（音圧推定部）
音圧推定部３２４は、集音情報に基づいて音圧情報を生成する。具体的には、音圧推定部３２４は、集音情報に基づいて集音位置における音圧レベルを推定し、推定される音圧レベルを示す音圧情報を生成する。なお、音圧レベルの推定は、既存の音圧推定技術が用いられる。

（音声認識処理部）
音声認識処理部３２６は、集音情報に基づいて音声認識処理を行う。具体的には、音声認識処理部３２６は、集音情報に基づいて音声を認識し、認識される音声についての文字情報を生成し、または認識される音声の発声元であるユーザを識別する。なお、音声認識処理には、既存の音声認識技術が用いられる。また、生成される文字情報またはユーザ識別情報は、情報処理装置１００−１に通信部３２０を介して提供されてもよい。

＜１−３．装置の処理＞
次に、情報処理システムの構成要素のうち、主要な処理を行う情報処理装置１００−１の処理について説明する。

（全体処理）
まず、図９を参照して、本実施形態に係る情報処理装置１００−１の全体処理について説明する。図９は、本実施形態に係る情報処理装置１００−１の全体処理を概念的に示すフローチャートである。

情報処理装置１００−１は、周辺音検出モードがオンであるかを判定する（ステップＳ５０２）。具体的には、出力制御部１２６は、表示集音装置２００−１の周辺の音についての検出モードがオンであるかを判定する。なお、当該周辺音検出モードは、情報処理装置１００−１が起動中は常にオンであってもよく、ユーザの操作または特定の処理の開始に基づいてオンになってもよい。また、キーワードの発声に基づいて周辺音検出モードがオンにされてもよい。例えば、キーワードのみ検出する検出器が表示集音装置２００−１に備えられ、表示集音装置２００−１は当該キーワードが検出されるとその旨を情報処理装置１００−１に通知する。この場合、当該検出器の消費電力は集音部の消費電力よりも少ないことが多いため、消費電力の低減が可能となる。

周辺音検出モードがオンである判定されると、情報処理装置１００−１は、周辺音に係る情報を取得する（ステップＳ５０４）。具体的には、通信部１２０は、周辺音検出モードがオンである場合、表示集音装置２００−１から通信を介して集音情報を取得する。

次に、情報処理装置１００−１は、音声入力モードがオンであるかを判定する（ステップＳ５０６）。具体的には、出力制御部１２６は、表示集音装置２００−１を用いた音声入力モードがオンであるかを判定する。なお、当該音声入力モードは、周辺音検出モードと同様に、情報処理装置１００−１が起動中は常にオンであってもよく、ユーザの操作または特定の処理の開始に基づいてオンになってもよい。

音声入力モードがオンであると判定されると、情報処理装置１００−１は、顔方向情報を取得する（ステップＳ５０８）。具体的には、音声入力適性判定部１２４は、音声入力モードがオンである場合、表示集音装置２００−１から通信部１２０を介して顔方向情報を取得する。

次に、情報処理装置１００−１は、方向判定値を算出する（ステップＳ５１０）。具体的には、音声入力適性判定部１２４は、顔方向情報と音源方向情報とに基づいて方向判定値を算出する。詳細については後述する。

次に、情報処理装置１００−１は、音圧判定値を算出する（ステップＳ５１２）。具体的には、音声入力適性判定部１２４は、音圧情報に基づいて音圧判定値を算出する。詳細については後述する。

次に、情報処理装置１００−１は、ゲーム処理を停止する（ステップＳ５１４）。具体的には、ＶＲ処理部１２２は、出力制御部１２６によるユーザの動作を誘導する出力の有無に応じてゲームアプリケーションの処理の少なくとも一部を停止させる。

次に、情報処理装置１００−１は、画像情報を生成し、表示集音装置２００−１に通知する（ステップＳ５１６）。具体的には、出力制御部１２６は、方向判定値および音圧判定値に応じたユーザの動作を誘導するための画像を決定し、通信部１２０を介して決定された画像に係る画像情報を表示集音装置２００−１に通知する。

（方向判定値の算出処理）
続いて、図１０を参照して、方向判定値の算出処理について説明する。図１０は、本実施形態に係る情報処理装置１００−１における方向判定値の算出処理を概念的に示すフローチャートである。

情報処理装置１００−１は、音圧レベルが判定閾値以上であるかを判定する（ステップＳ６０２）。具体的には、音声入力適性判定部１２４は、音処理装置３００−１から取得した音圧情報の示す音圧レベルが判定閾値以上であるかを判定する。

音圧レベルが閾値以上であると判定されると、情報処理装置１００−１は、周辺音源からユーザの顔への方向に係る音源方向情報を算出する（ステップＳ６０４）。具体的には、音声入力適性判定部１２４は、音処理装置３００−１から取得したFaceToNoiseVecからNoiseToFaceVecを算出する。

次に、情報処理装置１００−１は、音源方向情報が複数であるかを判定する（ステップＳ６０６）。具体的には、音声入力適性判定部１２４は、算出されたNoiseToFaceVecが複数存在するかを判定する。

複数の音源方向情報が算出されたと判定されると、情報処理装置１００−１は、当該複数の音源方向情報を合算する（ステップＳ６０８）。具体的には、音声入力適性判定部１２４は、算出されたNoiseToFaceVecが複数存在すると判定されると、当該複数のNoiseToFaceVecを合算する。詳細については後述する。

次に、情報処理装置１００−１は、音源方向情報に係る方向と顔の向きとに基づいて角度αを算出する（ステップＳ６１０）。具体的には、音声入力適性判定部１２４は、NoiseToFaceVecの示す方向と顔方向情報の示す顔の向きとのなす角度αを算出する。

次に、情報処理装置１００−１は、角度αを入力とする余弦関数の出力結果を判定する（ステップＳ６１２）。具体的には、音声入力適性判定部１２４は、ｃｏｓ（α）の値に応じて方向判定値を判定する。

余弦関数の出力結果が１である場合、情報処理装置１００−１は、方向判定値を５に設定する（ステップＳ６１４）。余弦関数の出力結果が１でなく０より大きい場合、情報処理装置１００−１は、方向判定値を４に設定する（ステップＳ６１６）。余弦関数の出力結果が０である場合、情報処理装置１００−１は、方向判定値を３に設定する（ステップＳ６１８）。余弦関数の出力結果が０より小さく−１でない場合、情報処理装置１００−１は、方向判定値を２に設定する（ステップＳ６２０）。余弦関数の出力結果が−１である場合、情報処理装置１００−１は、方向判定値を１に設定する（ステップＳ６２２）。

なお、ステップＳ６０２にて音圧レベルが下限閾値未満であると判定された場合、情報処理装置１００−１は、方向判定値をＮ／Ａ（Not Applicable）に設定する（ステップＳ６２４）。

（複数の音源方向情報の合算処理）
続いて、図１１を参照して、上記方向判定値の算出処理における複数の音源方向情報の合算処理について説明する。図１１は、本実施形態に係る情報処理装置１００−１における複数の音源方向情報の合算処理を概念的に示すフローチャートである。

情報処理装置１００−１は、音源方向情報を１つ選択する（ステップＳ７０２）。具体的には、音声入力適性判定部１２４は、複数の音源方向情報すなわちNoiseToFaceVecの中から１つを選択する。

次に、情報処理装置１００−１は、未計算の音源方向情報の有無を判定する（ステップＳ７０４）。具体的には、音声入力適性判定部１２４は、ベクトル加算処理が行われていないNoiseToFaceVecが存在するかを判定する。なお、ベクトル加算が未処理であるNoiseToFaceVecが存在しない場合、処理は終了する。

未計算の音源方向情報が存在すると判定されると、情報処理装置１００−１は、未計算の音源方向情報のうちから１つを選択する（ステップＳ７０６）。具体的には、音声入力適性判定部１２４は、ベクトル加算処理が行われていないNoiseToFaceVecが存在すると判定されると、既に選択中の音源方向情報と異なるNoiseToFaceVecを１つ選択する。

次に、情報処理装置１００−１は、選択された２つの音源方向情報の音圧比を算出する（ステップＳ７０８）。具体的には、音声入力適性判定部１２４は、選択された２つのNoiseToFaceVecに係る音圧レベルの比を算出する。

次に、情報処理装置１００−１は、音圧比を用いて音源方向情報に係るベクトルを加算する（ステップＳ７１０）。具体的には、音声入力適性判定部１２４は、算出された音圧レベルの比に基づいて、一方のNoiseToFaceVecに係るベクトルの大きさを変更した上で、２つのNoiseToFaceVecに係るベクトルを加算する。

（音圧判定値の算出処理）
続いて、図１２を参照して、音圧判定値の算出処理について説明する。図１２は、本実施形態に係る情報処理装置１００−１における音圧判定値の算出処理を概念的に示すフローチャートである。

情報処理装置１００−１は、音圧レベルが判定閾値未満であるかを判定する（ステップＳ８０２）。具体的には、音声入力適性判定部１２４は、音処理装置３００−１から取得された音圧情報の示す音圧レベルが判定閾値未満であるかを判定する。

音圧レベルが判定閾値未満であると判定されると、情報処理装置１００−１は、音圧判定値を１に設定する（ステップＳ８０４）。他方、音圧レベルが判定閾値以上であると判定されると、情報処理装置１００−１は、音圧判定値を０に設定する（ステップＳ８０６）。

＜１−４．処理例＞
次に、情報処理システムの処理例について説明する。

（音声入力が可能な場合）
まず、図１３〜図１７を参照して、音声入力が可能な場合の情報処理システムの処理例を説明する。図１３〜図１７は、音声入力が可能な場合の情報処理システムの処理例を説明するための図である。

図１３を参照して、ユーザが雑音源１０に正対する状態すなわち図６の（１）の状態から説明を開始する。まず、情報処理装置１００−１は、ＶＲ処理に基づいてゲーム画面を生成する。次に、情報処理装置１００−１は、雑音の音圧レベルが下限閾値以上である場合、ユーザの動作を誘導する出力すなわち上述した表示オブジェクトをゲーム画面に重畳させる。例えば、出力制御部１２６は、人の頭部を模した表示オブジェクト２０、頭部の回転方向を示す矢印である顔方向誘導オブジェクト２２、ユーザの態様についての評価に応じて表示が変化する評価オブジェクト２４、ならびに表示集音装置２００−１すなわちユーザに到達する雑音に係る領域を示す雑音到達領域オブジェクト２６をゲーム画面に重畳させる。音圧レベルが所定の閾値以上の領域の大きさが雑音到達領域オブジェクト２６の幅Ｗ２で表現され、音圧レベルが厚さＰ２で表現される。なお、図１３における雑音源１０は実際には表示されない。また、出力制御部１２６は、音声入力の適否に応じて表示が変化する音声入力適否オブジェクト２８をゲーム画面に重畳させる。

図６の（１）の状態では、ユーザの顔が真後ろに向くように頭部を回転するよう誘導するため、顔方向誘導オブジェクト２２の矢印が他の状態よりも長く形成される。また、評価オブジェクト２４Ａは、マイクロフォンで表現され、図６の状態の中では最も雑音の影響を受けるため、マイクロフォンが他の状態よりも小さく表現される。これにより、ユーザの顔の向きについての評価が低いことがユーザに提示される。また、図１３の例では、雑音の音圧レベルが判定閾値未満すなわち音圧判定値が１であるが、ユーザが雑音源に正対しすなわち方向判定値が１であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ａが重畳されている。さらに、出力制御部１２６は、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクトを重畳させてもよい。例えば、図１３に示したように、雑音到達領域オブジェクト２６から発生し、音声入力適否オブジェクト２８Ａに向かって延長され、途中で画面外へ方向が転換している破線がゲーム画面に重畳される。

次に、図１４を参照して、ユーザが少し時計回りに頭部を回転させた状態すなわち図６の（２）の状態について説明する。（２）の状態では、ユーザの頭部が（１）の状態よりも少し時計回りに回転しているため、顔方向誘導オブジェクト２２の矢印が（１）の状態よりも短く形成される。また、評価オブジェクト２４Ａは、（１）の状態よりも雑音の影響が小さくなるため、マイクロフォンが（１）の状態よりも大きく表現される。また、評価オブジェクト２４Ａは、表示オブジェクト２０に近づけられてもよい。これにより、ユーザの顔の向きについての評価が改善されたことがユーザに提示される。そして、ユーザの動作が誘導通りであることがユーザに伝わり、自身の動作に対する安心感をユーザに与えることができる。また、ユーザの頭部が回転することにより顔の向きに対する雑音源の位置が変化するため、この場合は、雑音到達領域オブジェクト２６は頭部の回転方向と反対方向に移動させられる。また、図１４の例では、音圧判定値が１であるが、方向判定値が２であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ａが重畳されている。

次に、図１５を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図６の（３）の状態について説明する。（３）の状態では、ユーザの頭部が（２）の状態からさらに時計回りに回転しているため、顔方向誘導オブジェクト２２の矢印が（２）の状態よりも短く形成される。また、（２）の状態よりも雑音の影響が小さくなるため、マイクロフォンが（２）の状態よりも大きく表現され、さらに強調効果が付加された評価オブジェクト２４Ｂが重畳される。例えば、当該強調効果は、色相、彩度もしくは輝度の変化、模様の変化または点滅などであってもよい。また、ユーザの頭部が（２）の状態からさらに回転することにより、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。また、図１５の例では、音圧判定値が１であり、方向判定値が３であるため、音声入力に適している旨を示す音声入力適否オブジェクト２８Ｂが重畳されている。

次に、図１６を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図６の（４）の状態について説明する。（４）の状態では、ユーザの頭部が（３）の状態からさらに時計回りに回転しているため、顔方向誘導オブジェクト２２の矢印が（３）の状態よりも短く形成される。また、（３）の状態よりも雑音の影響が小さくなるため、マイクロフォンが（３）の状態よりも大きく表現され、強調効果が付加された評価オブジェクト２４Ｂが重畳される。また、ユーザの頭部が（３）の状態からさらに回転することにより、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。その結果、雑音到達領域オブジェクト２６は、図１６に示したようにゲーム画面に重畳されなくなってもよい。なお、その場合であっても、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクト（破線の表示オブジェクト）は重畳されてもよい。また、図１６の例では、音圧判定値が１であり、方向判定値が４であるため、音声入力に適している旨を示す音声入力適否オブジェクト２８Ｂが重畳されている。

最後に、図１７を参照して、ユーザの顔が雑音源に向かう方向と反対方向に向いている状態すなわち図６の（５）の状態について説明する。（５）の状態では、追加的にユーザに頭部を回転させることが要求されないため、矢印の顔方向誘導オブジェクト２２は重畳されない。また、ユーザの顔の向きが誘導通りに変化したため、顔の向きが音声入力にとって適していることを示す表示オブジェクトとして、「向きＯＫ」という文字列オブジェクトが重畳される。さらに、表示オブジェクト２０の周辺の態様が変化させられてもよい。例えば、表示オブジェクト２０の周辺の色相または輝度などが変化させられる。また、強調効果が付加された評価オブジェクト２４Ｂが重畳される。なお、（４）の状態よりも雑音の影響が小さくなるため、マイクロフォンが（４）の状態よりも大きく表現されてもよい。また、ユーザの頭部が（４）の状態からさらに回転することにより、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。その結果、図１７に示したようにゲーム画面に重畳されなくなっている。また、図１７の例では、音圧判定値が１であり、方向判定値が５であるため、音声入力に適している旨を示す音声入力適否オブジェクト２８Ｂが重畳されている。さらに、音圧判定値および方向判定値がともに最高値であるため、音声入力適否オブジェクト２８Ｂに強調効果が付加されている。例えば、当該強調効果は、表示オブジェクトのサイズ、色相、彩度、輝度もしくは模様の変化、点滅または表示オブジェクト周辺の態様の変化であってもよい。

（音声入力が困難な場合）
続いて、図１８〜図２２を参照して、音声入力が困難な場合の情報処理システムの処理例を説明する。図１８〜図２２は、音声入力が困難な場合の情報処理システムの処理例を説明するための図である。

まず、図１８を参照して、ユーザが雑音源１０に正対する状態すなわち図６の（１）の状態から説明を開始する。図６の（１）の状態でゲーム画面に重畳される表示オブジェクト２０、顔方向誘導オブジェクト２２、評価オブジェクト２４Ａおよび音声入力適否オブジェクト２８Ａは、図１３を参照して説明した表示オブジェクトと実質的に同一である。図１８の例では、雑音の音圧レベルが図１３の例の場合と比べて高いため、雑音到達領域２６の厚さが増している。また、雑音の音圧レベルが判定閾値以上であるため、雑音による音声入力適否への影響を示す破線の表示オブジェクトは、雑音到達領域２６から発生し、音声入力適否オブジェクト２８Ａに向かって延長され、到達するように重畳される。

次に、図１９を参照して、ユーザが少し時計回りに頭部を回転させた状態すなわち図６の（２）の状態について説明する。（２）の状態では、顔方向誘導オブジェクト２２の矢印が（１）の状態よりも短く形成される。また、評価オブジェクト２４Ａのマイクロフォンが（１）の状態よりも大きく表現される。また、雑音到達領域オブジェクト２６は頭部の回転方向と反対方向に移動させられる。また、図１９の例では、音圧判定値が０であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ａが重畳されている。

次に、図２０を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図６の（３）の状態について説明する。（３）の状態では、顔方向誘導オブジェクト２２の矢印が（２）の状態よりも短く形成される。また、マイクロフォンが（２）の状態よりも大きく表現され、さらに強調効果が付加された評価オブジェクト２４Ｂが重畳される。また、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。また、図２０の例では、音圧判定値が０であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ａが重畳されている。さらに、音声入力の適否が改善される見込みがない場合、音声入力適否オブジェクト２８Ａに強調効果が付加されてもよい。例えば、図２０に示したように、音声入力適否オブジェクト２８Ａのサイズが拡大されてもよく、音声入力適否オブジェクト２８Ａの色相、彩度、輝度または模様などが変化させられてもよい。

次に、図２１を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図６の（４）の状態について説明する。（４）の状態では、顔方向誘導オブジェクト２２の矢印が（３）の状態よりも短く形成される。また、マイクロフォンが（３）の状態よりも大きく表現され、強調効果が付加された評価オブジェクト２４Ｂが重畳される。また、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。その結果、図２１に示したようにゲーム画面に重畳されなくなってもよい。なお、その場合であっても、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクト（破線の表示オブジェクト）は重畳されてもよい。また、図２１の例では、音圧判定値が０であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ａが強調効果を伴って重畳される。

最後に、図２２を参照して、ユーザの顔が雑音源に向かう方向と反対方向に向いている状態すなわち図６の（５）の状態について説明する。（５）の状態では、矢印の顔方向誘導オブジェクト２２は重畳されない。また、顔の向きが音声入力にとって適していることを示す表示オブジェクトとして、「向きＯＫ」という文字列オブジェクトが重畳される。さらに、表示オブジェクト２０の周辺の態様が変化させられてもよい。また、強調効果が付加された評価オブジェクト２４Ｂが重畳される。また、雑音到達領域オブジェクト２６はさらに頭部の回転方向と反対方向に移動させられる。その結果、図２２に示したようにゲーム画面に重畳されなくなっている。また、図２２の例では、音圧判定値が０であるため、音声入力に適していない旨を示す音声入力適否オブジェクト２８Ｂが強調効果を伴って重畳されている。

＜１−５．第１の実施形態のまとめ＞
このように、本開示の第１の実施形態によれば、情報処理装置１００−１は、雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、当該集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる上記ユーザの動作を誘導する出力を制御する。このため、雑音源と表示集音装置２００−１との位置関係を集音特性が向上するように変化させる動作をユーザに誘導することにより、ユーザは誘導に従うだけで雑音が入力されにくい音声入力により適した状況を実現することができる。また、ユーザに動作させることにより雑音が入力されにくくなるため、情報処理装置１００−１または情報処理システムに雑音回避のための別途の構成を追加せずに済む。従って、ユーザビリティの観点およびコストまたは設備の観点から、雑音入力の抑制を容易にすることが可能となる。

また、上記ユーザの発生させる音は音声を含み、情報処理装置１００−１は、上記位置関係と上記ユーザの顔の向きとに基づいて上記誘導する出力を制御する。ここで、ユーザの音声についての集音特性を向上させるためには、音声の発生方向（音声を発する口を含む顔の向き）に集音部２２４すなわちマイクロフォンが設けられることが望ましい。実際、マイクロフォンは、ユーザの口元に位置するように設けられることが多い。他方で、発声方向に雑音源が存在すると、雑音が入力されやすくなる。これに対し、本構成によれば、ユーザの顔の向きに雑音源が存在しないように、ユーザに動作を促すことができる。従って、集音特性を向上させながら、雑音入力を抑制することが可能となる。

また、情報処理装置１００−１は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、の差異に係る情報に基づいて上記誘導する出力を制御する。このため、マイクロフォンを装着するユーザから雑音源への方向または雑音源から当該ユーザへの方向が出力制御処理に利用されることにより、ユーザの取るべき行動をより正確に誘導することができる。従って、雑音入力をより効果的に抑制することが可能となる。

また、上記差異は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、のなす角を含む。このため、出力制御処理において角度情報が用いられることにより、出力制御の正確性または精度を向上させることができる。また、既存の角度計算技術を利用して出力制御処理が行われることにより、装置の開発コストの低減および処理の複雑化の防止が可能となる。

また、上記ユーザの動作は、上記ユーザの顔の向きの変化を含む。このため、音声を発する口を含む顔の向きが変更されることにより、他の行動よりもより効果的でかつ容易に雑音入力を抑制することができる。なお、顔の向きの誘導が含まれるのであれば、体の向きまたは移動が誘導されてもよい。

また、上記誘導する出力は、誘導される動作により至るユーザの態様を基準とした上記ユーザの態様についての評価に係る出力を含む。このため、ユーザは自身の動作が誘導通りに行われているかを把握することができる。従って、誘導に即したユーザ動作が行われやすくなることにより、雑音入力をより確実に抑制することが可能となる。

また、上記誘導する出力は、上記集音部により集音される上記雑音に係る出力を含む。このため、目に見えない雑音に関する情報がユーザに提示されることにより、ユーザは雑音または雑音源を把握することができる。従って、雑音が入力されることを防止する動作を直感的に理解しやすくすることが可能となる。

また、上記雑音に係る出力は、上記集音部により集音される上記雑音の到達領域を通知する出力を含む。このため、ユーザはどのような行動を取れば雑音の到達を回避することができるかを直感的に理解することができる。従って、より容易に雑音入力を抑制する動作を取ることが可能となる。

また、上記雑音に係る出力は、上記集音部により集音される上記雑音の音圧を通知する出力を含む。このため、ユーザは雑音の音圧レベルを把握することができる。従って、雑音が入力され得ることをユーザが理解することにより、ユーザに行動を取る動機を与えることが可能となる。

また、上記誘導する出力は、上記ユーザへの視覚的な提示を含む。ここで、視覚的な情報伝達は、概して他の感覚を用いた情報伝達よりも情報量が多い。そのため、ユーザは動作の誘導を理解しやすくなり、円滑な誘導が可能となる。

また、上記ユーザへの視覚的な提示は、画像または外界像への表示オブジェクトの重畳を含む。このため、ユーザの視界に動作の誘導のための表示オブジェクトが提示されることにより、画像または外界像への集中または没入の妨げとなることを抑制することができる。また、ＶＲまたはＡＲ（Augmented Reality）による表示に本実施形態の構成を適用することができる。

また、情報処理装置１００−１は、上記ユーザの顔の向きまたは上記雑音の音圧に基づいて、上記ユーザの発生させる音の集音適否の通知を制御する。このため、ユーザに音声入力の適否が直接的に伝達されることにより、音声入力の適否を把握しやすくすることができる。従って、雑音入力を回避するための動作をユーザに促しやすくすることが可能となる。

また、情報処理装置１００−１は、上記集音部の集音結果に関する情報に基づいて上記誘導する出力の有無を制御する。このため、ユーザの手を煩わせることなく、当該誘導する出力の有無を状況に合わせて制御することができる。なお、ユーザの設定に基づいて上記誘導する出力の有無が制御されてもよい。

また、上記集音結果に関する情報は、上記集音結果を利用する処理の開始情報を含む。このため、当該処理が開始されるまでは、集音処理、音処理および出力制御処理などの一連の処理を停止させることができる。従って、情報処理システムの各装置の処理負荷および電力消費を低減することが可能となる。

また、上記集音結果に関する情報は、上記集音部により集音される上記雑音の音圧情報を含む。このため、例えば雑音の音圧レベルが下限閾値未満である場合は雑音が入力されないかまたは音声入力に影響を与えにくいため、上述のように一連の処理を停止させることができる。また、反対に、雑音の音圧レベルが下限閾値以上である場合に自動的に出力制御処理が行われることにより、ユーザが雑音に気付く前であっても雑音入力を抑制するようにユーザに動作を促すことができる。

また、情報処理装置１００−１は、上記集音部の集音結果を利用する処理の実行中に上記誘導する出力が行われる場合、上記処理の少なくとも一部を停止させる。このため、例えばゲームアプリケーション処理の実行中に当該誘導する出力が行われる場合に当該ゲームアプリケーション処理が中断または中止されることにより、誘導に沿ったユーザの動作中に当該ゲームアプリケーション処理が進行することを防止できる。特に、ユーザの頭部の動きに応じて当該処理が行われるときには、当該処理が進行していると、動作の誘導によりユーザの意図しない処理結果が生じかねない。そのようなときであっても、本構成によれば、ユーザの意図しない処理結果の発生を防止することが可能となる。

また、上記処理の少なくとも一部は、上記処理における上記ユーザの顔の向きを利用した処理を含む。このため、顔の向きの変化により影響を受ける処理のみが停止されることにより、ユーザは他の処理の結果を享受することができる。従って、他の処理と処理結果が独立していてもよい場合には、ユーザにとって利便性を向上させることができる。

＜１−６．変形例＞
以上、本開示の第１の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。

本実施形態の変形例として、誘導されるユーザの動作は、他の動作であってもよい。具体的には、誘導されるユーザの動作は、雑音源と表示集音装置２００−１との間を所定の物体により遮断する動作（以下、遮断動作とも称する。）を含む。例えば、当該遮断動作は、雑音源と表示集音装置２００−１すなわちマイクロフォンとの間に手を置く動作を含む。さらに、図２３を参照して、本変形例の処理例について説明する。図２３は、本実施形態の変形例における情報処理システムの処理例を説明するための図である。

図２３を参照して、図６の（３）の状態における遮断動作に係る処理に基づいて本変形例の処理を詳細に説明する。（３）の状態では、雑音源がユーザの顔の向きに対して左側方向に存在するため、雑音到達領域２６オブジェクトがゲーム画面の左側に重畳されている。

ここで、マイクロフォンはユーザの口元付近に設けられることが想定されるため、当該ゲーム画面の中央下付近にマクロフォンが位置すると考えられる。そこで、出力制御部１２６は、当該マイクロフォンと雑音源または雑音到達領域オブジェクト２６との間に手などの遮断物が置かれるように、当該遮断物の配置を誘導する表示オブジェクト（以下、遮断物オブジェクトとも称する。）を重畳させる。例えば、図２３に示したように、ユーザの手を模した遮断物オブジェクト３０が雑音到達領域オブジェクト２６とゲーム画面中央下との間に重畳される。特に、遮断物オブジェクトは、ユーザの口元すなわちマイクロフォンを覆うような形状の表示オブジェクトであってもよい。

なお、ユーザが当該遮断物オブジェクト３０の重畳される位置に合わせて手を置いた場合に、当該遮断物オブジェクト３０の態様が変化してもよい。例えば、当該遮断物オブジェクト３０の輪郭線の線種、太さ、色彩もしくは輝度の変更または輪郭線で囲まれた領域の塗りつぶしなどが行われてもよい。また、遮断物は、手のほか、指もしくは腕といった人体の他の部位、または本、板、傘もしくは可動式のパーティションといった人体の部位以外の物体であってもよい。なお、当該所定の物体はユーザにより操作されるため、可搬性のある物体が好ましい。

このように、本実施形態の変形例によれば、誘導されるユーザの動作は、雑音源と表示集音装置２００−１との間を所定の物体により遮断する動作を含む。このため、ユーザが顔の向きを変えたくない場合、例えばユーザの顔の向きに応じてゲームアプリケーション処理などが行われる場合であっても、ユーザに雑音入力を抑制する動作を誘導することができる。従って、雑音入力の抑制効果を享受できる機会を増やすことができ、ユーザの利便性を向上させることが可能となる。

＜２．第２の実施形態（高感度集音のための集音部の制御とユーザの誘導）＞
以上、本開示の第１の実施形態について説明した。次に、本開示の第２の実施形態について説明する。第２の実施形態では、集音対象となる音が高感度で集音されるように、集音部すなわち表示集音装置２００−２の集音態様が制御され、またユーザの動作が誘導される。

＜２−１．システム構成＞
図２４を参照して、本開示の第２の実施形態に係る情報処理システムの構成について説明する。図２４は、本実施形態に係る情報処理システムの概略的な構成例を説明するための図である。なお、第１の実施形態の構成と実質的に同一である構成については説明を省略する。

図２４に示したように、本実施形態に係る情報処理システムは、情報処理装置１００−２、表示集音装置２００−２および音処理装置３００−２に加えて集音撮像装置４００を備える。

表示集音装置２００−２は、第１の実施形態に係る表示集音装置２００−１の構成に加えて、発光体５０を備える。発光体５０は、表示集音装置２００−２の起動と共に発光を開始してもよく、特定の処理の開始と共に発光を開始してもよい。また、発光体５０は、可視光を出力してもよく、赤外線などの可視光以外の光を出力してもよい。

集音撮像装置４００は、集音機能および撮像機能を備える。例えば、集音撮像装置４００は、自装置の周辺の音を集音し、集音された音に係る集音情報を情報処理装置１００−２に提供する。また、集音撮像装置４００は、自装置の周辺を撮像し、撮像に得られた画像に係る画像情報を情報処理装置１００−２に提供する。なお、集音撮像装置４００は、図２４に示したような据置型の装置であり、情報処理装置１００−２と通信接続され、通信を介して集音情報および画像情報を提供する。また、集音撮像装置４００は、集音についてビームフォーミング機能を備える。当該ビームフォーミング機能により高感度な集音が実現される。

また、集音撮像装置４００は、位置または姿勢を制御する機能を有していてもよい。具体的には、集音撮像装置４００は、移動したり、自装置の姿勢（向き）を変えたりしてもよい。例えば、集音撮像装置４００には、移動または姿勢変更のためのモータおよび当該モータにより駆動する車輪などの移動モジュールが備えられてもよい。また、集音撮像装置４００は、装置の姿勢は維持したまま集音機能を有するパーツ（例えばマイクロフォン）のみを移動させたり、姿勢を変更させたりしてもよい。

ここで、表示集音装置２００−２のマイクロフォンが使用困難な場合がある。その場合には、表示集音装置２００−２と別個の装置である集音撮像装置４００が代わりに音声入力などに用いられる。しかし、表示集音装置２００−２が例えばＶＲ表示装置などの遮蔽型ＨＭＤであった場合、当該表示集音装置２００−２を装着するユーザは外部を視覚的に確認することが困難である。そのため、ユーザは、集音撮像装置４００の位置を把握することができず、見当違いの方向に向かって発声しかねない。また、表示集音装置２００−２が例えばＡＲ表示装置などのいわゆるシースルー型ＨＭＤであった場合でも、高感度に集音される方向は目に見えないため、ユーザは、やはり見当違いの方向に向かって、すなわち高感度に集音される方向と異なる方向に向かって発声する可能性がある。その結果、音圧レベルまたはＳＮ比（Signal Noise ratio）などの集音特性が低下し、集音される音に基づく処理において所望の処理結果を得ることが困難となりかねない。

そこで、本開示の第２の実施形態では、集音特性をより確実に向上させることが可能な情報処理システムを提案する。以下、第２の実施形態に係る情報処理システムの構成要素である各装置について詳細に説明する。

なお、上記では、集音撮像装置４００は独立した装置である例を説明したが、集音撮像装置４００は情報処理装置１００−２または音処理装置３００−２と一体であってもよい。また、集音撮像装置４００は集音機能および撮像機能の両方を有する例を説明したが、集音撮像装置４００は集音機能のみを有する装置および撮像機能のみを有する装置の組合せで実現されてもよい。

＜２−２．装置の構成＞
次に、本実施形態に係る情報処理システムの各装置の構成について説明する。なお、集音撮像装置４００の物理的な構成は、表示集音装置２００の構成に類似するため、説明を省略する。また、その他の装置の物理的な構成については、第１の実施形態の構成と実質的に同一であるため、説明を省略する。

図２５を参照して、本実施形態に係る情報処理システムの各装置の論理構成について説明する。図２５は、本実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。なお、第１の実施形態の機能と実質的に同一の機能については説明を省略する。

（情報処理装置の論理構成）
図２５に示したように、情報処理装置１００−２は、通信部１２０、ＶＲ処理部１２２、音声入力適性判定部１２４および出力制御部１２６に加えて、位置情報取得部１３０、調整部１３２および集音態様制御部１３４を備える。

（通信部）
通信部１２０は、表示集音装置２００−２および音処理装置３００−２に加えて、集音撮像装置４００と通信する。具体的には、通信部１２０は、集音撮像装置４００から集音情報および画像情報を受信し、集音撮像装置４００に後述する集音態様指示情報を送信する。

（位置情報取得部）
位置情報取得部１３０は、表示集音装置２００−２の位置を示す情報（以下、位置情報とも称する。）を取得する。具体的には、位置情報取得部１３０は、通信部１２０を介して集音撮像装置４００から取得された画像情報を用いて表示集音装置２００−２の位置を推定し、推定される位置を示す位置情報を生成する。例えば、位置情報取得部１３０は、画像情報の示す画像に映る発光体５０の位置および大きさに基づいて集音撮像装置４００に対する発光体５０すなわち表示集音装置２００−２の位置を推定する。なお、予め発光体５０の大きさを示す情報は、集音撮像装置４００に記憶されてもよく、通信部１２０を介して取得されてもよい。また、位置情報は、集音撮像装置４００を基準とする相対的な情報であってもよく、所定の空間座標における位置を示す情報であってもよい。また、位置情報の取得は、他の手段によって実現されてもよい。例えば、発光体５０を用いずに表示集音装置２００−２についての物体認識処理を利用して位置情報が取得されてもよく、外部装置において算出された位置情報が通信部１２０を介して取得されてもよい。

（音声入力適性判定部）
音声入力適性判定部１２４は、制御部の一部として、集音撮像装置４００と当該集音撮像装置４００により集音される音の発生源との位置関係に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部１２４は、集音撮像装置４００と音声の発生源（口または顔）との位置関係および顔方向情報に基づいて音声入力の適性を判定する。さらに、図２６および図２７を参照して、本実施形態における音声入力適性判定処理について詳細に説明する。図２６は、本実施形態における音声入力適性判定処理を説明するための図であり、図２７は、本実施形態における音声入力適性の判定パターンの例を示す図である。

例えば、図２６に示したように表示集音装置２００−２および集音撮像装置４００が配置される場合を考える。この場合、まず、音声入力適性判定部１２４は、位置情報に基づいて表示集音装置２００−２（ユーザの顔）および集音撮像装置４００を結ぶ方向（以下、集音方向とも称する。）を特定する。例えば、音声入力適性判定部１２４は、位置情報取得部１３０から提供される位置情報に基づいて、図２６に示したような表示集音装置２００−２から集音撮像装置４００への集音方向Ｄ６を特定する。なお、以下では、集音方向を示す情報を集音方向情報とも称し、また上記Ｄ６のような当該表示集音装置２００−２から集音撮像装置４００への集音方向を示す集音方向情報をFaceToMicVecとも称する。

また、音声入力適性判定部１２４は、表示集音装置２００−２から顔方向情報を取得する。例えば、音声入力適性判定部１２４は、図２６に示したような表示集音装置２００−２を装着するユーザの顔の向きＤ７を示す顔方向情報を当該表示集音装置２００−２から通信部１２０を介して取得する。

次に、音声入力適性判定部１２４は、集音撮像装置４００および表示集音装置２００−２（すなわちユーザの顔）間の方向とユーザの顔の向きとの差異に係る情報に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部１２４は、特定される集音方向に係る集音方向情報および顔方向情報から、当該集音方向情報の示す方向と当該顔方向情報の示す方向とのなす角度を算出する。そして、音声入力適性判定部１２４は、算出角度に応じて音声入力の適性度として方向判定値を判定する。例えば、音声入力適性判定部１２４は、特定されるFaceToMicVecの逆方向の集音方向情報であるMicToFaceVecを算出し、当該MicToFaceVecの示す方向すなわち集音撮像装置４００からユーザの顔に向かう方向と顔方向情報の示す方向とのなす角度αを算出する。そして、音声入力適性判定部１２４は、図２７に示したような、算出される角度αを入力とする余弦関数の出力値に応じた値を方向判定値として判定する。例えば、当該方向判定値は、角度αが大きくなると音声入力の適性度が向上するような値に設定される。

なお、上記差異は、角度のほか、方向または方角の組合せであってもよく、その場合、当該組合せに応じて方向判定値が設定されてもよい。また、上記では、MicToFaceVecが利用される例を説明したが、MicToFaceVecと方向が反対であるFaceToMicVecがそのまま利用されてもよい。また、音源方向情報および顔方向情報などの方向はユーザを上から見た場合の水平面における方向である例を説明したが、これらの方向は当該水平面に対する垂直面における方向であってもよく、３次元空間における方向であってもよい。また、方向判定値は、図２７にしめしたような５段階の値であってもよく、より細かい段階または粗い段階の値であってもよい。

さらに、集音撮像装置４００が集音についてビームフォーミングを行う場合には、音声入力適性判定部１２４は、ビームフォーミングの方向を示す情報（以下、ビームフォーミング情報とも称する。）と顔方向情報とに基づいて音声入力の適性を判定してもよい。また、ビームフォーミングの方向が所定の範囲を有するときには、当該所定の範囲内の方向のうちの一方向がビームフォーミングの方向として利用されてもよい。

（調整部）
調整部１３２は、制御部の一部として、音声入力適性判定結果に基づいて集音態様制御部１３４および出力制御部１２６の動作を制御することにより、集音特性に関わる当該集音撮像装置４００の態様、および当該集音される音の発生方向を誘導する出力、を制御する。具体的には、調整部１３２は、集音結果に関する情報に基づいて集音撮像装置４００の態様の程度およびユーザの発声方向を誘導する出力の程度を制御する。より具体的には、調整部１３２は、集音結果を利用して処理されるコンテンツの種類情報に基づいて上記態様の程度および上記出力の程度を制御する。

例えば、調整部１３２は、方向判定値に基づいて全体の制御量を決定する。次に、調整部１３２は、集音結果に関する情報に基づいて、決定された全体の制御量から、集音撮像装置４００の態様の変更に係る制御量およびユーザの発声方向の変更に係る制御量を決定する。これは、調整部１３２は、全体の制御量を集音撮像装置４００の態様の制御およびユーザの発声方向の誘導に係る出力制御について配分しているともいえる。そして、調整部１３２は、決定される制御量に基づいて集音態様制御部１３４に集音撮像装置４００の態様を制御させ、出力制御部１２６に発声方向を誘導する出力を制御させる。なお、出力制御部１２６は、方向判定値を用いて制御されてもよい。

また、調整部１３２は、コンテンツの種類に応じて、上記の制御量の配分を決定する。例えば、調整部１３２は、ユーザの頭部の動きに応じて提供内容（例えば表示画面）が変化するコンテンツについては、集音撮像装置４００の態様の制御量を増加させ、ユーザの発声方向の誘導に係る出力の制御量を減少させる。また、画像または動画などのユーザが注視するコンテンツについても同様である。

なお、上記集音結果に関する情報は、集音撮像装置４００またはユーザの周辺環境情報であってもよい。例えば、調整部１３２は、集音撮像装置４００またはユーザの周辺の遮蔽物の有無または移動可能なスペースの広さなどに応じて、上記制御量の配分を決定する。

また、上記集音結果に関する情報は、ユーザの態様情報であってもよい。具体的には、調整部１３２は、ユーザの姿勢情報に応じて上記制御量の配分を決定する。例えば、ユーザが上方を向いている場合、調整部１３２は、集音撮像装置４００の態様の制御量を減少させ、ユーザの発声方向の誘導に係る出力の制御量を増加させる。また、調整部１３２は、ユーザのコンテンツへの没入に係る情報（没入の有無または程度などを示す情報）に応じて上記制御量の配分を決定してもよい。例えば、ユーザがコンテンツに没入している場合、調整部１３２は、集音撮像装置４００の態様の制御量を増加させ、ユーザの発声方向の誘導に係る出力の制御量を減少させる。なお、没入の有無および程度は、ユーザの生体情報、例えば眼球運動情報に基づいて判定されてもよい。

以上、集音撮像装置４００の態様および当該発声方向を誘導する出力についての制御内容について説明したが、調整部１３２は、集音状況に基づいて当該制御の有無を決定してもよい。具体的には、調整部１３２は、集音撮像装置４００の集音特性の１つである集音感度の情報に基づいて当該制御の有無を決定する。例えば、調整部１３２は、集音撮像装置４００の集音感度が閾値以下に低下した場合、当該制御に係る処理を開始する。

また、調整部１３２は、上記集音結果に関する情報に基づいて集音撮像装置４００の態様および発声方向を誘導する出力のうちの一方のみを制御してもよい。例えば、調整部１３２は、ユーザの態様情報からユーザが移動または顔の向きの変更をしづらい状況にあると判定される場合、集音態様制御部１３４にのみ処理を行わせてもよい。反対に、調整部１３２は、集音撮像装置４００が移動機能および集音態様の制御機能を有していないまたはこれらの機能が正常に作動しないと判定される場合には、出力制御部１２６にのみ処理を行わせてもよい。

なお、上記では、調整部１３２が制御量の配分を制御する例を説明したが、調整部１３２は、音声入力適性判定結果および集音結果に関する情報に基づいて、集音撮像装置４００の態様、およびユーザの発声方向を誘導する出力をそれぞれ独立して制御してもよい。

（集音態様制御部）
集音態様制御部１３４は、集音撮像装置４００の集音特性に係る態様を制御する。具体的には、集音態様制御部１３４は、調整部１３２から指示される制御量に基づいて集音撮像装置４００の態様を決定し、決定される態様への遷移を指示する情報（以下、集音態様指示情報とも称する。）を生成する。より具体的には、集音態様制御部１３４は、集音撮像装置４００の位置、姿勢または集音についてのビームフォーミングを制御する。例えば、集音態様制御部１３４は、調整部１３２から指示される制御量に基づいて、集音撮像装置４００の移動、姿勢変更またはビームフォーミングの向きもしくは範囲を指定する集音態様指示情報を生成する。

なお、集音態様制御部１３４は、別途に、位置情報に基づいてビームフォーミングを制御してもよい。例えば、集音態様制御部１３４は、位置情報が取得されると、集音撮像装置４００から当該位置情報の示す位置に向かう方向をビームフォーミングの方向として集音態様指示情報を生成する。

（出力制御部）
出力制御部１２６は、調整部１３２の指示に基づいてユーザの発声方向を誘導する、視覚的な提示を制御する。具体的には、出力制御部１２６は、調整部１３２から指示される制御量に応じて、ユーザの顔の向きの変更方向を示す顔方向誘導オブジェクトを決定する。例えば、出力制御部１２６は、調整部１３２から指示される方向判定値が低い場合、方向判定値が高くなるようにユーザに顔の向きの変化を誘導するような顔方向誘導オブジェクトを決定する。

また、出力制御部１２６は、集音撮像装置４００の位置を通知する出力を制御してもよい。具体的には、出力制御部１２６は、ユーザの顔と集音撮像装置４００との位置関係に基づいて、集音撮像装置４００の位置を示す表示オブジェクト（以下、集音位置オブジェクトとも称する。）を決定する。例えば、出力制御部１２６は、ユーザの顔に対する集音撮像装置４００の位置を示す集音位置オブジェクトを決定する。

また、出力制御部１２６は、誘導により至るユーザの顔の向きを基準とした現時点のユーザの顔の向きについての評価に係る出力を制御してもよい。具体的には、出力制御部１２６は、誘導に従ってユーザが変更すべき顔の向きとユーザの現在の顔の向きとの乖離の程度に基づいて、顔の向きの評価を示す評価オブジェクトを決定する。例えば、出力制御部１２６は、当該乖離が小さくなるにつれて、音声入力の適性が向上していることを示す評価オブジェクトを決定する。

（集音撮像装置の論理構成）
図２５に示したように、集音撮像装置４００は、通信部４３０、制御部４３２、集音部４３４および撮像部４３６を備える。

（通信部）
通信部４３０は、情報処理装置１００−２と通信する。具体的には、通信部４３０は、情報処理装置１００−２に集音情報および画像情報を送信し、情報処理装置１００−２から集音態様指示情報を受信する。

（制御部）
制御部４３２は、集音撮像装置４００を全体的に制御する。具体的には、制御部４３２は、集音態様指示情報に基づいて集音特性に係る自装置の態様を制御する。例えば、制御部４３２は、集音態様指示情報から特定されるマイクロフォンの向きまたはビームフォーミングの向きもしくは範囲を設定する。また、制御部４３２は、集音態様指示情報から特定される位置に自装置を移動させる。

また、制御部４３２は、撮像部４３６の撮像パラメタを設定することにより、撮像部４３６を制御する。例えば、制御部４３２は、撮像方向、撮像範囲、撮像感度およびシャッタスピードなどの撮像パラメタを設定する。なお、撮像パラメタは、表示集音装置２００−２が撮像されやすいように設定されてもよい。例えば、ユーザの頭部が撮像範囲に入りやすいような方向が撮像方向として設定されてもよい。また、撮像パラメタは、情報処理装置１００−２から通知されてもよい。

（集音部）
集音部４３４は、集音撮像装置４００の周辺について集音する。具体的には、集音部４３４は、集音撮像装置４００の周辺において発生するユーザの音声などの音を集音する。また、集音部４３４は、集音に係るビームフォーミング処理を行う。例えば、集音部４３４は、ビームフォーミングの方向として設定された方向から入力される音の感度を向上させる。なお、集音部４３４は、集音した音に係る集音情報を生成する。

（撮像部）
撮像部４３６は、集音撮像装置４００の周辺について撮像する。具体的には、撮像部４３６は、制御部４３２により設定される撮像パラメタに基づいて撮像する。例えば、撮像部４３６は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の信号変換素子などによって実現される。また、撮像は、可視光または赤外線などを対象として行われてもよく、撮像により得られる画像は、静止画または動画であってもよい。

＜２−３．装置の処理＞
次に、情報処理システムの構成要素のうち、主要な処理を行う情報処理装置１００−２の処理について説明する。なお、第１の実施形態における処理と実質的に同一である処理については説明を省略する。

（全体処理）
まず、図２８を参照して、本実施形態に係る情報処理装置１００−２の全体処理について説明する。図２８は、本実施形態に係る情報処理装置１００−２の全体処理を概念的に示すフローチャートである。

情報処理装置１００−２は、音声入力モードがオンであるかを判定する（ステップＳ９０２）。具体的には、調整部１３２は、集音撮像装置４００を用いた音声入力モードがオンであるかを判定する。

音声入力モードがオンであると判定されると、情報処理装置１００−２は、位置情報を取得する（ステップＳ９０４）。具体的には、位置情報取得部１３０は、音声入力モードがオンであると判定されると、集音撮像装置４００から提供される画像情報を取得し、当該画像情報に基づいて表示集音装置２００−２の位置すなわちユーザの顔の位置を示す位置情報を生成する。

また、情報処理装置１００−２は、顔方向情報を取得する（ステップＳ９０６）。具体的には、音声入力適性判定部１２４は、表示集音装置２００−２から提供される顔方向情報を取得する。

次に、情報処理装置１００−２は、方向判定値を算出する（ステップＳ９０８）。具体的には、音声入力適性判定部１２４は、位置情報と顔方向情報とに基づいて方向判定値を算出する。詳細については後述する。

次に、情報処理装置１００−２は、制御量を決定する（ステップＳ９１０）。具体的には、調整部１３２は、方向判定値に基づいて集音撮像装置４００の態様および発声方向を誘導する出力についての制御量を決定する。詳細については後述する。

次に、情報処理装置１００−２は、制御量に基づいて画像を生成し（ステップＳ９１２）、画像情報を表示集音装置２００−２に通知する（ステップＳ９１４）。具体的には、出力制御部１２６は、調整部１３２から指示される制御量に基づいて重畳される表示オブジェクトを決定し、表示オブジェクトが重畳される画像を生成する。そして、通信部１２０は、生成される画像に係る画像情報を表示集音装置２００−２に送信する。

次に、情報処理装置１００−２は、制御量に基づいて集音撮像装置４００の態様を決定し（ステップＳ９１６）、集音態様指示情報を集音撮像装置４００に通知する（ステップＳ９１８）。具体的には、集音態様制御部１３４は、調整部１３２から指示される制御量に基づいて決定される集音撮像装置４００の態様への遷移を指示する集音態様指示情報を生成する。そして、通信部１２０は、生成される集音態様指示情報を集音撮像装置４００に送信する。

（方向判定値の算出処理）
続いて、図２９を参照して、本実施形態における方向判定値の算出処理について説明する。図２９は、本実施形態に係る情報処理装置１００−２における方向判定値の算出処理を概念的に示すフローチャートである。

情報処理装置１００−２は、位置情報に基づいて集音撮像装置４００からユーザの顔への方向を算出する（ステップＳ１００２）。具体的には、音声入力適性判定部１２４は、位置情報取得部１３０により取得された位置情報からMicToFaceVecを算出する。

次に、情報処理装置１００−２は、算出方向と顔の向きとから角度αを算出する（ステップＳ１００４）。具体的には、音声入力適性判定部１２４は、MicToFaceVecの示す方向と顔方向情報の示す顔の向きとのなす角度αを算出する。

次に、情報処理装置１００−２は、角度αを入力とする余弦関数の出力結果を判定する（ステップＳ１００６）。具体的には、音声入力適性判定部１２４は、ｃｏｓ（α）の値に応じて方向判定値を判定する。

余弦関数の出力結果が−１である場合、情報処理装置１００−２は、方向判定値を５に設定する（ステップＳ１００８）。余弦関数の出力結果が−１でなく０より小さい場合、情報処理装置１００−２は、方向判定値を４に設定する（ステップＳ１０１０）。余弦関数の出力結果が０である場合、情報処理装置１００−２は、方向判定値を３に設定する（ステップＳ１０１２）。余弦関数の出力結果が０より大きく１でない場合、情報処理装置１００−２は、方向判定値を２に設定する（ステップＳ１０１４）。余弦関数の出力結果が１である場合、情報処理装置１００−２は、方向判定値を１に設定する（ステップＳ１０１６）。

（制御量決定処理）
続いて、図３０を参照して、制御量決定処理について説明する。図３０は、本実施形態に係る情報処理装置１００−２における制御量決定処理を概念的に示すフローチャートである。

情報処理装置１００−２は、集音結果に関する情報を取得する（ステップＳ１１０２）。具体的には、調整部１３２は、集音結果を利用して処理されるコンテンツ種類情報、集音結果に影響を与える集音撮像装置４００またはユーザの周辺環境情報およびユーザの態様情報などを取得する。

次に、情報処理装置１００−２は、方向判定値と集音結果に関する情報とに基づいて発声方向を誘導する出力の制御量を決定する（ステップＳ１１０４）。具体的には、調整部１３２は、音声入力適性判定部１２４から提供される方向判定値と集音結果に関する情報とに基づいて出力制御部１２６に指示する制御量（方向判定値）を決定する。

また、情報処理装置１００−２は、方向判定値と集音結果に関する情報とに基づいて集音撮像装置４００の態様の制御量を決定する（ステップＳ１１０６）。具体的には、調整部１３２は、音声入力適性判定部１２４から提供される方向判定値と集音結果に関する情報とに基づいて集音態様制御部１３４に指示する制御量を決定する。

＜２−４．処理例＞
次に、図３１〜図３５を参照して、情報処理システムの処理例について説明する。図３１〜図３５は、本実施形態に係る情報処理システムの処理例を説明するための図である。

図３１を参照して、ユーザが集音撮像装置４００に向かう方向と正反対の方向に向いている状態すなわち図２７の（１５）の状態から説明を開始する。まず、情報処理装置１００−２は、ＶＲ処理に基づいてゲーム画面を生成する。次に、情報処理装置１００−２は、集音感度が閾値未満である場合、集音撮像装置４００の態様の制御量およびユーザに発声方向を誘導する出力の制御量を決定する。そして、情報処理装置１００−２は、当該誘導する出力の制御量に基づいて決定された上述の表示オブジェクトをゲーム画面に重畳させる。以下では、主に当該誘導する出力の例について説明する。

例えば、出力制御部１２６は、人の頭部を示す表示オブジェクト２０、変化させるべき顔の向きを示す顔方向誘導オブジェクト３２、ならびに集音撮像装置４００の位置を示すための集音位置オブジェクト３４および当該位置を分かり易くするための表示オブジェクト３６をゲーム画面に重畳させる。なお、集音位置オブジェクト３４は、上述した評価オブジェクトを兼ねていてもよい。

図２７の（１５）の状態では、ユーザの顔が真後ろに向くように頭部を回転するよう誘導するため、左右のどちらかに頭部を回転するように促す矢印の顔方向誘導オブジェクト３２Ｌおよび３２Ｒが重畳される。また、表示オブジェクト２０の示すユーザの頭部を囲む円環として表示オブジェクト３６が重畳され、集音位置オブジェクト３４Ａがユーザの真後ろに存在することを示すような位置に重畳される。また、集音位置オブジェクト３４Ａはまた、評価オブジェクトとしては、ユーザの態様に係る評価に応じたドット模様の濃淡で表現される。例えば、図３１の例では、ユーザの顔の向きは方向判定値における最低値についての方向に相当するため、集音位置オブジェクト３４Ａは濃いドット模様で表現されている。さらに、出力制御部１２６は、集音撮像装置４００の集音感度を示す表示オブジェクトをゲーム画面に重畳させてもよい。例えば、図３１に示したように、現時点のユーザの態様において音声入力が行われた場合の集音撮像装置４００の集音感度を示す「低感度」のような表示オブジェクト（以下、集音感度オブジェクトとも称する。）がゲーム画面に重畳されてもよい。なお、集音感度オブジェクトは、図３１に示したような文字列のほか、図形または記号などであってもよい。

次に、図３２を参照して、ユーザが少し反時計回りに頭部を回転させた状態すなわち図２７の（１４）の状態について説明する。（１４）の状態では、ユーザの頭部が（１５）の状態よりも少し反時計回りに回転しているため、顔方向誘導オブジェクト３２Ｌの矢印が（１５）の状態よりも短く形成される。また、ユーザの頭部が回転することにより顔の向きに対する集音撮像装置４００の位置が変化するため、集音位置オブジェクト３４Ａは、ユーザの頭部の回転に応じて時計回りに移動させられる。なお、図３２の例では、集音位置オブジェクト３４Ａのドット模様の濃淡は維持されているが、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡は図２７の（１５）の状態よりも薄く変化させられてもよい。これにより、ユーザの顔の向きについての評価が改善されたことがユーザに提示される。

次に、図３３を参照して、ユーザがさらに反時計回りに頭部を回転させた状態すなわち図２７の（１３）の状態について説明する。（１３）の状態では、ユーザの頭部が（１４）の状態からさらに反時計回りに回転しているため、顔方向誘導オブジェクト３２Ｌの矢印が（１４）の状態よりも短く形成される。また、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡が（１４）の状態よりも薄く変化させられた集音位置オブジェクト３４Ｂが重畳されている。また、顔の向きに対する集音撮像装置４００の位置が（１４）の状態からさらに変化しているため、集音位置オブジェクト３４Ｂは、（１４）の状態から頭部の回転に応じてさらに時計回りに移動させられている。また、集音撮像装置４００の集音感度が向上しているため、集音感度オブジェクトが「低感度」から「中感度」に変化させられている。

次に、図３４を参照して、ユーザがさらに反時計回りに頭部を回転させた状態すなわち図２７の（１２）の状態について説明する。（１２）の状態では、ユーザの頭部が（１３）の状態からさらに反時計回りに回転しているため、顔方向誘導オブジェクト３２Ｌの矢印が（１３）の状態よりも短く形成される。また、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡が（１３）の状態よりも薄く変化させられた集音位置オブジェクト３４Ｃが重畳されている。また、顔の向きに対する集音撮像装置４００の位置が（１３）の状態からさらに変化しているため、集音位置オブジェクト３４Ｃは、（１３）の状態から頭部の回転に応じてさらに時計回りに移動させられている。また、集音撮像装置４００の集音感度が向上しているため、集音感度オブジェクトが「中感度」から「高感度」に変化させられている。さらに、出力制御部１２６は、ビームフォーミングの方向を示す表示オブジェクト（以下、ビームフォーミングオブジェクトとも称する。）をゲーム画面に重畳させてもよい。例えば、図３４に示したように、集音位置オブジェクト３４Ｃを起点としてビームフォーミングの方向の範囲を示すビームフォーミングオブジェクトが重畳される。なお、当該ビームフォーミングオブジェクトの範囲は実際の集音撮像装置４００のビームフォーミングの方向の範囲と正確に一致しなくてもよい。目に見えないビームフォーミングの方向についてユーザにイメージを持たせることが目的であるからである。

最後に、図３５を参照して、ユーザの顔が集音撮像装置４００と正対している状態すなわち図２７の（１１）の状態について説明する。（１１）の状態では、追加的にユーザに頭部を回転させることが要求されないため、矢印の顔方向誘導オブジェクト３２Ｌは重畳されない。また、集音撮像装置４００がユーザの顔の正面に位置するようになっているため、集音位置オブジェクト３４Ｃは、ユーザの頭部を模した表示オブジェクト２０の正面奥に移動させられている。また、集音撮像装置４００の集音感度が頭部の回転により変化する範囲における最高値となっているため、集音感度オブジェクトが「高感度」から「最高感度」に変化させられている。

なお、上述した一連の処理例では、発声方向を誘導する出力が顔の向きを誘導する出力である例を説明したが、誘導対象はユーザの移動であってもよい。例えば、顔方向誘導オブジェクトの代わりに、ユーザの移動方向または移動先を示す表示オブジェクトがゲーム画面に重畳されてもよい。

また、集音位置オブジェクトは、集音撮像装置４００の態様を示す表示オブジェクトであってもよい。例えば、出力制御部１２６は、実際の集音撮像装置４００の移動前、移動後もしくは移動中における位置、姿勢、ビームフォーミングの方向または移動中などの状態を示す表示オブジェクトを重畳させてもよい。

＜２−５．第２の実施形態のまとめ＞
このように、本開示の第２の実施形態によれば、情報処理装置１００−２は、集音部（集音撮像装置４００）と当該集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる当該集音部の態様、および当該集音される音の発生方向を誘導する出力、に係る制御を行う。このため、集音部の態様のみまたは音の発生方向のみを制御する場合と比べて集音特性が向上する可能性を高めることができる。例えば、集音部の態様または音の発生方向の一方を十分に制御できない場合に他方の制御でフォローすることができる。従って、集音特性をより確実に向上させることが可能となる。

また、上記集音される音は音声を含み、上記集音される音の発生方向はユーザの顔の方向を含み、情報処理装置１００−２は、上記位置関係と上記ユーザの顔の向きとに基づいて上記制御を行う。ここで、ユーザの発声は口を用いて行われるため、発声方向をユーザの顔の向きとして処理することにより、発声方向を別途に特定する処理を省略することができる。そのため、処理の複雑化を抑制することが可能となる。

また、情報処理装置１００−２は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、の差異に係る情報に基づいて上記制御を行う。このため、集音部からユーザへまたはユーザから集音部への方向が制御処理に利用されることにより、集音部の態様をより正確に制御することができ、また発声方向をより正確に誘導することができる。従って、より効果的に集音特性を向上させることが可能となる。

また、上記差異は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、のなす角を含む。このため、制御処理において角度情報が用いられることにより、制御の正確性または精度を向上させることができる。また、既存の角度計算技術を利用して制御処理が行われることにより、装置の開発コストの低減および処理の複雑化の防止が可能となる。

また、情報処理装置１００−２は、上記集音部の集音結果に関する情報に基づいて上記集音部の態様および上記誘導する出力の程度を制御する。このため、一律に制御が行われる場合と比べて、より多くの状況に適した集音部の態様および誘導する出力を実現することができる。従って、より多くの状況において集音特性をより確実に向上させることが可能となる。

また、上記集音結果に関する情報は、上記集音結果を利用して処理されるコンテンツの種類情報を含む。このため、ユーザの視聴するコンテンツに応じた制御が行われることにより、ユーザのコンテンツの視聴を妨げることなく集音特性を向上させることができる。また、コンテンツの種類といった比較的簡素な情報を用いて制御内容が判別されることにより、制御処理の複雑化を抑制することができる。

また、上記集音結果に関する情報は、上記集音部または上記ユーザの周辺環境情報を含む。ここで、集音部またはユーザの存在する場所によっては、移動または姿勢の変更が困難である場合がある。これに対し、本構成によれば、集音部またはユーザの周辺環境に応じて適した制御配分で集音部の態様および誘導する出力の制御が行われることにより、集音部またはユーザに実行困難な挙動を強いることを抑制できる。

また、上記集音結果に関する情報は、上記ユーザの態様情報を含む。ここで、ユーザの態様によっては、誘導される方向に発声方向を変更することが困難な場合がある。これに対し、本構成によれば、ユーザの態様に応じて適した制御配分で集音部の態様および誘導する出力の制御が行われることにより、ユーザフレンドリーな誘導を実現することができる。概して、ユーザは追加的な動作を行うことを避けたいと考える傾向にあるため、ユーザがコンテンツ視聴などに集中したい場合には特に本構成は有益である。

また、上記ユーザの態様情報は、上記ユーザの姿勢に係る情報を含む。このため、当該情報から特定されるユーザの姿勢から変更可能なまたは望ましい範囲で姿勢などを誘導することができる。従って、ユーザに無理な姿勢を強いることを抑制することが可能となる。

また、上記ユーザの態様情報は、上記集音結果を利用して処理されるコンテンツへの上記ユーザの没入に係る情報を含む。このため、ユーザのコンテンツ視聴への没入を妨げることなく、集音特性を向上させることができる。従って、ユーザに不快感を与えることなく、ユーザの利便性を向上させることが可能となる。

また、情報処理装置１００−２は、上記集音部の集音感度情報に基づいて上記制御の有無を決定する。このため、例えば集音感度が低下している場合に制御が行われることにより、常に制御が行われる場合と比べて装置の消費電力を抑制することができる。また、誘導する出力が適時にユーザに提供されることにより、出力に対するユーザの煩雑さを抑制することができる。

また、情報処理装置１００−２は、上記集音部の集音結果に関する情報に基づいて上記集音部の態様および上記誘導する出力のうちの一方のみを制御する。このため、集音部の態様の変更が困難である場合またはユーザに誘導を促すことが困難である場合であっても、集音特性を向上させることができる。

また、上記集音部の態様は、上記集音部の位置または姿勢を含む。ここで、当該集音部の位置または姿勢は、集音特性に影響を与える要素のうちの影響が比較的大きい集音方向を決定する要素である。そのため、当該位置または姿勢を制御することにより、集音特性をより効果的に向上させることが可能となる。

また、上記集音部の態様は、上記集音部の集音に係るビームフォーミングの態様を含む。このため、集音部の姿勢を変更したり、移動させたりすることなく、集音特性を向上させることができる。従って、集音部に姿勢変更または移動のための構成を設けずに済み、情報処理システムに適用可能な集音部のバリエーションを拡張すること、または集音部のコストを低減することが可能となる。

また、上記誘導する出力は、上記ユーザの顔の向きの変更方向を通知する出力を含む。このため、より高感度な音声入力するための行動をユーザは把握することができる。従って、ユーザが音声入力に失敗した理由または取るべき行動が分からないために不快感を覚える可能性を抑制することができる。また、顔の向きがユーザに直接的に通知されることにより、ユーザは直感的に取るべき動作を理解することができる。

また、上記誘導する出力は、上記集音部の位置を通知する出力を含む。ここで、ユーザは、集音部の方へ顔を向ければ集音感度が向上することを理解していることが多い。そのため、本構成のように、集音部の位置をユーザに通知することにより、装置から細かく誘導せずともユーザは直感的に取るべき動作を把握することができる。従って、ユーザへの通知が簡素化されることにより、ユーザの通知に対する煩雑さを抑制することが可能となる。

また、上記誘導する出力は、上記ユーザへの視覚的な提示を含む。ここで、視覚的な情報伝達は、概して他の感覚を用いた情報伝達よりも情報量が多い。そのため、ユーザは誘導を理解しやすくなり、円滑な誘導が可能となる。

また、上記誘導する出力は、誘導により至るユーザの顔の向きを基準とした上記ユーザの顔の向きについての評価に係る出力を含む。このため、ユーザは自身の動作が誘導通りに行われているかを把握することができる。従って、誘導に即したユーザ動作が行われやすくなることにより、集音特性をより確実に向上させることが可能となる。

＜３．適用例＞
以上、本開示の各実施形態に係る情報処理システムについて説明した。当該情報処理装置１００は、様々な分野または状況について適用され得る。以下、当該情報処理システムの適用例について説明する。

（医療分野への適用）
上述した情報処理システムは、医療分野に適用されてもよい。ここで、医療の高度化に伴い、手術などの医療行為は複数人で行うことが多くなっている。そのため、手術関係者の間でのコミュニケーションが重要となってくる。そこで、当該コミュニケーションを助長するために、上述した表示集音装置２００を用いて視覚的情報の共有および音声による意思疎通を図ることが考えられる。例えば、手術に際して、遠隔地にいるアドバイザが表示集音装置２００を装着して手術状況を確認しながら、術者に対して指示または助言を行うことが想定される。この場合、当該アドバイザは表示される手術の状況の視聴に集中するため、周辺の状況を把握することが困難でありえる。さらに、このような場合に、周辺に雑音源が存在したり、または表示集音装置２００と独立して離れた位置に設置される集音装置が利用されたりするときがある。しかしそのようなときであっても、当該情報処理システムによれば、雑音源からの雑音を回避し、集音感度を維持するようにユーザを誘導することができる。また、集音感度が高くなるように集音装置側を制御することもできる。従って、円滑なコミュニケーションが実現され、医療の安全性の確保および手術時間の短縮が可能となる。

（ロボットへの適用）
また、上述した情報処理システムは、ロボットに適用されてもよい。昨今のロボット技術の発展に伴い、１つのロボットにおける姿勢変更、移動、音声認識および音声出力などの複数の機能の複合化が進んでいる。そこで、上述した集音撮像装置４００の機能をロボットに適用することが考えられる。例えば、表示集音装置２００を装着するユーザが当該ロボットに対して話しかける場合、ユーザはロボットに向かって発声することが想定される。しかし、当該ロボットのどこに集音装置が設けられているか、さらにはどの方向が集音感度の高い方向なのかをユーザが把握することは難しい。これに対し、当該情報処理システムによれば、ロボットのどの位置に向かって発声すればよいかが提示されるため、集音感度の高い音声入力が可能となる。従って、ユーザは音声入力の失敗によるストレスを感じることなくロボットを利用することができる。

また、別の事例として、ユーザが表示集音装置２００を装着したまま屋外に出る場合を考える。この場合、ユーザの周辺には概して他の物体、例えば他人、車両または建物などが存在する。そのため、音声入力の際に、雑音源を回避したり集音感度を向上させたりするために、顔の向きを変えたり移動したりすることが困難である可能性がある。また、ユーザを移動させると事故が発生するなどの危険性もある。これに対し、当該情報処理システムによれば、ユーザの態様を変更することに困難性または危険性があるときは、ロボット側すなわち集音装置側の態様を優先して変更させることにより、屋外であってもユーザの安全性を確保しながら、快適な音声入力を実現させることが可能となる。なお、当該ロボットの代わりにまたは追加的に路上の機器に集音撮像装置４００の機能が備えられてもよい。

＜４．むすび＞
以上、本開示の第１の実施形態によれば、雑音源と表示集音装置２００−１との位置関係を集音特性が向上するように変化させる動作をユーザに誘導することにより、ユーザは誘導に従うだけで雑音が入力されにくい音声入力により適した状況を実現することができる。また、ユーザに動作させることにより雑音が入力されにくくなるため、情報処理装置１００−１または情報処理システムに雑音回避のための別途の構成を追加せずに済む。従って、ユーザビリティの観点およびコストまたは設備の観点から、雑音入力の抑制を容易にすることが可能となる。

また、本開示の第２の実施形態によれば、集音部の態様のみまたは音の発生方向のみを制御する場合と比べて集音特性が向上する可能性を高めることができる。例えば、集音部の態様または音の発生方向の一方を十分に制御できない場合に他方の制御でフォローすることができる。従って、集音特性をより確実に向上させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、ユーザの音声が集音対象であるとしたが、本技術はかかる例に限定されない。例えば、口以外の他の身体の部位もしくは物体を用いて発せられる音または音出力装置などの出力する音が集音対象であってもよい。

また、上記実施形態では、ユーザの動作などを誘導する出力が視覚的な提示である例を説明したが、当該誘導する出力は他の出力であってもよい。例えば、当該誘導する出力は、音声出力であってもよく、触覚振動出力であってもよい。この場合、表示集音装置２００は表示部を有しないいわゆるヘッドセットであってもよい。

また、上記実施形態では、雑音またはユーザの発声音が直線的に集音される例を説明したが、これらの音は反射した後に集音されてもよい。そのため、これらの音の反射を考慮したユーザの動作を誘導する出力および集音撮像装置４００の態様の制御が行われてもよい。

また、上記第２の実施形態では、情報処理装置１００において表示集音装置２００の位置情報を生成する例を説明したが、表示集音装置２００において位置情報が生成されてもよい。例えば、集音撮像装置４００に発光体５０が取り付けられ、表示集音装置２００に撮像部が設けられることにより、表示集音装置２００側で位置情報の生成処理を行うことが可能となる。

また、上記第２の実施形態では、集音撮像装置４００の態様が通信を介して情報処理装置１００により制御される例を説明したが、表示集音装置２００を装着するユーザ以外の他のユーザに集音撮像装置４００の態様を変更させてもよい。例えば、情報処理装置１００は、集音撮像装置４００の態様の変更を当該他のユーザに誘導する出力を外部装置または情報処理装置１００が追加的に備える出力部に行わせてもよい。この場合、集音撮像装置４００の構成を簡素化することができる。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的にまたは個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。

また、情報処理装置１００に内蔵されるハードウェアに上述した情報処理装置１００の各論理構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶された記憶媒体も提供される。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御する制御部を備える、
情報処理装置。
（２）
前記ユーザの発生させる音は音声を含み、
前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記誘導する出力を制御する、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記誘導する出力を制御する、前記（２）に記載の情報処理装置。
（４）
前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、前記（３）に記載の情報処理装置。
（５）
前記ユーザの動作は、前記ユーザの顔の向きの変化を含む、前記（２）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記ユーザの動作は、前記発生源と前記集音部との間を所定の物体により遮断する動作を含む、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（７）
前記誘導する出力は、誘導される動作により至るユーザの態様を基準とした前記ユーザの態様についての評価に係る出力を含む、前記（２）〜（６）のいずれか１項に記載の情報処理装置。
（８）
前記誘導する出力は、前記集音部により集音される前記雑音に係る出力を含む、前記（２）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記雑音に係る出力は、前記集音部により集音される前記雑音の到達領域を通知する出力を含む、前記（８）に記載の情報処理装置。
（１０）
前記雑音に係る出力は、前記集音部により集音される前記雑音の音圧を通知する出力を含む、前記（８）または（９）に記載の情報処理装置。
（１１）
前記誘導する出力は、前記ユーザへの視覚的な提示を含む、前記（２）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
前記ユーザへの視覚的な提示は、画像または外界像への表示オブジェクトの重畳を含む、前記（１１）に記載の情報処理装置。
（１３）
前記制御部は、前記ユーザの顔の向きまたは前記雑音の音圧に基づいて、前記ユーザの発生させる音の集音適否の通知を制御する、前記（２）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記誘導する出力の有無を制御する、前記（２）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）
前記集音結果に関する情報は、前記集音結果を利用する処理の開始情報を含む、前記（１４）に記載の情報処理装置。
（１６）
前記集音結果に関する情報は、前記集音部により集音される前記雑音の音圧情報を含む、前記（１４）または（１５）に記載の情報処理装置。
（１７）
前記制御部は、前記集音部の集音結果を利用する処理の実行中に前記誘導する出力が行われる場合、前記処理の少なくとも一部を停止させる、前記（２）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）
前記処理の少なくとも一部は、前記処理における前記ユーザの顔の向きを利用した処理を含む、前記（１７）に記載の情報処理装置。
（１９）
プロセッサによって、雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御することを含む、
情報処理方法。
（２０）
雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御する制御機能を、
コンピュータに実現させるためのプログラム。

また、以下のような構成も本開示の技術的範囲に属する。
（１）
集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。
（２）
前記集音される音は、音声を含み、
前記集音される音の発生方向は、ユーザの顔の方向を含み、
前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記制御を行う、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記制御を行う、前記（２）に記載の情報処理装置。
（４）
前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、前記（３）に記載の情報処理装置。
（５）
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様、および前記誘導する出力、の程度を制御する、前記（２）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記集音結果に関する情報は、前記集音結果を利用して処理されるコンテンツの種類情報を含む、前記（５）に記載の情報処理装置。
（７）
前記集音結果に関する情報は、前記集音部または前記ユーザの周辺環境情報を含む、前記（５）または（６）に記載の情報処理装置。
（８）
前記集音結果に関する情報は、前記ユーザの態様情報を含む、前記（５）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記ユーザの態様情報は、前記ユーザの姿勢に係る情報を含む、前記（８）に記載の情報処理装置。
（１０）
前記ユーザの態様情報は、前記集音結果を利用して処理されるコンテンツへの前記ユーザの没入に係る情報を含む、前記（８）または（９）に記載の情報処理装置。
（１１）
前記制御部は、前記集音部の集音感度情報に基づいて前記制御の有無を決定する、前記（２）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様および前記誘導する出力のうちの一方のみを制御する、前記（２）〜（１１）のいずれか１項に記載の情報処理装置。
（１３）
前記集音部の態様は、前記集音部の位置または姿勢を含む、前記（２）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）
前記集音部の態様は、前記集音部の集音に係るビームフォーミングの態様を含む、前記（２）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）
前記誘導する出力は、前記ユーザの顔の向きの変更方向を通知する出力を含む、前記（２）〜（１４）のいずれか１項に記載の情報処理装置。
（１６）
前記誘導する出力は、前記集音部の位置を通知する出力を含む、前記（２）〜（１５）のいずれか１項に記載の情報処理装置。
（１７）
前記誘導する出力は、前記ユーザへの視覚的な提示を含む、前記（２）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）
前記誘導する出力は、誘導により至るユーザの顔の向きを基準とした前記ユーザの顔の向きについての評価に係る出力を含む、前記（２）〜（１７）のいずれか１項に記載の情報処理装置。
（１９）
プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、
情報処理方法。
（２０）
集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、
コンピュータに実現させるためのプログラム。

１００情報処理装置
１２０通信部
１２２ＶＲ処理部
１２４音声入力適性判定部
１２６出力制御部
１３０位置情報取得部
１３２調整部
１３４集音態様制御部
２００表示集音装置
３００音処理装置
４００集音撮像装置

Claims

集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。
前記集音される音は、音声を含み、
前記集音される音の発生方向は、ユーザの顔の方向を含み、
前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記制御を行う、請求項１に記載の情報処理装置。
前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記制御を行う、請求項２に記載の情報処理装置。
前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、請求項３に記載の情報処理装置。
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様、および前記誘導する出力、の程度を制御する、請求項２に記載の情報処理装置。
前記集音結果に関する情報は、前記集音結果を利用して処理されるコンテンツの種類情報を含む、請求項５に記載の情報処理装置。
前記集音結果に関する情報は、前記集音部または前記ユーザの周辺環境情報を含む、請求項５に記載の情報処理装置。
前記集音結果に関する情報は、前記ユーザの態様情報を含む、請求項５に記載の情報処理装置。
前記ユーザの態様情報は、前記ユーザの姿勢に係る情報を含む、請求項８に記載の情報処理装置。
前記ユーザの態様情報は、前記集音結果を利用して処理されるコンテンツへの前記ユーザの没入に係る情報を含む、請求項８に記載の情報処理装置。
前記制御部は、前記集音部の集音感度情報に基づいて前記制御の有無を決定する、請求項２に記載の情報処理装置。
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様および前記誘導する出力のうちの一方のみを制御する、請求項２に記載の情報処理装置。
前記集音部の態様は、前記集音部の位置または姿勢を含む、請求項２に記載の情報処理装置。
前記集音部の態様は、前記集音部の集音に係るビームフォーミングの態様を含む、請求項２に記載の情報処理装置。
前記誘導する出力は、前記ユーザの顔の向きの変更方向を通知する出力を含む、請求項２に記載の情報処理装置。
前記誘導する出力は、前記集音部の位置を通知する出力を含む、請求項２に記載の情報処理装置。
前記誘導する出力は、前記ユーザへの視覚的な提示を含む、請求項２に記載の情報処理装置。
前記誘導する出力は、誘導により至るユーザの顔の向きを基準とした前記ユーザの顔の向きについての評価に係る出力を含む、請求項２に記載の情報処理装置。
プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、
情報処理方法。
集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、
コンピュータに実現させるためのプログラム。