JP2017107482A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2017107482A
JP2017107482A JP2015242190A JP2015242190A JP2017107482A JP 2017107482 A JP2017107482 A JP 2017107482A JP 2015242190 A JP2015242190 A JP 2015242190A JP 2015242190 A JP2015242190 A JP 2015242190A JP 2017107482 A JP2017107482 A JP 2017107482A
Authority
JP
Japan
Prior art keywords
sound
sound collection
user
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015242190A
Other languages
English (en)
Inventor
真一 河野
Shinichi Kono
真一 河野
佑輔 中川
Yusuke Nakagawa
佑輔 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015242190A priority Critical patent/JP2017107482A/ja
Priority to CN201680071082.6A priority patent/CN108369492B/zh
Priority to US15/760,025 priority patent/US20180254038A1/en
Priority to PCT/JP2016/077787 priority patent/WO2017098773A1/ja
Publication of JP2017107482A publication Critical patent/JP2017107482A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】集音特性をより確実に向上させることが可能な仕組みを提供する。
【解決手段】集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、情報処理方法。および、上記制御の機能をコンピュータに実現させるためのプログラム。
【選択図】図24

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、入力される音を分析する技術の研究開発が進んでいる。具体的には、ユーザによって発せられた音声を入力音声として受け付け、当該入力音声に対して音声認識を行うことによって当該入力音声から文字列を認識する、いわゆる音声認識技術が存在する。
さらに、当該音声認識技術の利便性を向上させる技術が開発されている。例えば、特許文献1では、入力音声に対して音声認識を行うモードが開始されたことをユーザに把握させる技術が開示されている。
特開2013−25605号公報
しかし、特許文献1で開示されるような従来技術では、音声認識処理などの処理が可能なレベルの集音特性の音声が入力されるとは限らない。例えば、ユーザが集音装置の集音に適した方向と異なる方向に向かって発声する場合、仮に発声により生じた音声が集音されたとしても、集音された音声は、音声認識処理などの処理が要求する音圧レベルまたはSN比(Signal Noise ratio)などの集音特性のレベルを満たさない可能性がある。その結果、所望の処理結果を得ることが困難となりかねない。
そこで、本開示では、集音特性をより確実に向上させることが可能な仕組みを提案する。
本開示によれば、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、情報処理方法が提供される。
また、本開示によれば、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、コンピュータに実現させるためのプログラムが提供される。
以上説明したように本開示によれば、集音特性をより確実に向上させることが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第1の実施形態に係る情報処理システムの概略的な構成例を説明するための図である。 同実施形態に係る情報処理装置の概略的な物理構成例を示すブロック図である。 同実施形態に係る表示集音装置の概略的な物理構成例を示すブロック図である。 同実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。 同実施形態における音声入力適性判定処理を説明するための図である。 同実施形態における音声入力適性判定処理を説明するための図である。 同実施形態における音声入力適性の判定パターンの例を示す図である。 複数の雑音源が存在する状況の例を示す図である。 複数の雑音源に係る音源方向情報から1つの方向を示す音源方向情報を決定する処理を説明するための図である。 雑音の音圧に基づく音声入力適性の判定パターンの例を示す図である。 同実施形態に係る情報処理装置の全体処理を概念的に示すフローチャートである。 同実施形態に係る情報処理装置における方向判定値の算出処理を概念的に示すフローチャートである。 同実施形態に係る情報処理装置における複数の音源方向情報の合算処理を概念的に示すフローチャートである。 同実施形態に係る情報処理装置における音圧判定値の算出処理を概念的に示すフローチャートである。 音声入力が可能な場合の情報処理システムの処理例の説明図である。 音声入力が可能な場合の情報処理システムの処理例の説明図である。 音声入力が可能な場合の情報処理システムの処理例の説明図である。 音声入力が可能な場合の情報処理システムの処理例の説明図である。 音声入力が可能な場合の情報処理システムの処理例の説明図である。 音声入力が困難な場合の情報処理システムの処理例の説明図である。 音声入力が困難な場合の情報処理システムの処理例の説明図である。 音声入力が困難な場合の情報処理システムの処理例の説明図である。 音声入力が困難な場合の情報処理システムの処理例の説明図である。 音声入力が困難な場合の情報処理システムの処理例の説明図である。 同実施形態の変形例における情報処理システムの処理例を説明するための図である。 本開示の第2の実施形態に係る情報処理システムの概略的な構成例を説明するための図である。 同実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。 同実施形態における音声入力適性判定処理を説明するための図である。 同実施形態における音声入力適性の判定パターンの例を示す図である。 同実施形態に係る情報処理装置の全体処理を概念的に示すフローチャートである。 同実施形態に係る情報処理装置における方向判定値の算出処理を概念的に示すフローチャートである。 同実施形態に係る情報処理装置における制御量決定処理を概念的に示すフローチャートである。 同実施形態に係る情報処理システムの処理例を説明するための図である。 同実施形態に係る情報処理システムの処理例を説明するための図である。 同実施形態に係る情報処理システムの処理例を説明するための図である。 同実施形態に係る情報処理システムの処理例を説明するための図である。 同実施形態に係る情報処理システムの処理例を説明するための図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる番号を付して区別する場合もある。例えば、実質的に同一の機能を有する複数の構成を、必要に応じて雑音源10Aおよび雑音源10Bなどのように区別する。ただし、実質的に同一の機能構成を区別する必要が無い場合、同一符号のみを付する。例えば、雑音源10Aおよび雑音源10Bを特に区別する必要がない場合には、単に雑音源10と称する。
なお、説明は以下の順序で行うものとする。
1.第1の実施形態(雑音回避のためのユーザの誘導)
1−1.システム構成
1−2.装置の構成
1−3.装置の処理
1−4.処理例
1−5.第1の実施形態のまとめ
1−6.変形例
2.第2の実施形態(高感度集音のための集音部の制御とユーザの誘導)
2−1.システム構成
2−2.装置の構成
2−3.装置の処理
2−4.処理例
2−5.第2の実施形態のまとめ
3.適用例
4.むすび
<1.第1の実施形態(雑音回避のためのユーザの誘導)>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、雑音が入力されにくくなるようにユーザの動作が誘導される。
<1−1.システム構成>
図1を参照して、本開示の第1の実施形態に係る情報処理システムの構成について説明する。図1は、本実施形態に係る情報処理システムの概略的な構成例を説明するための図である。
図1に示したように、本実施形態に係る情報処理システムは、情報処理装置100−1、表示集音装置200−1および音処理装置300−1を備える。なお、説明の便宜上、第1および第2の実施形態に係る情報処理装置100を、情報処理装置100−1および情報処理装置100−2のように、末尾に実施形態に対応する番号を付することにより区別する。他の装置についても同様である。
情報処理装置100−1は、表示集音装置200−1および音処理装置300−1と通信を介して接続される。情報処理装置100−1は、通信を介して表示集音装置200−1の表示を制御する。また、情報処理装置100−1は、通信を介して表示集音装置200−1から得られる音情報を音処理装置300−1に処理させ、処理結果に基づいて表示集音装置200−1の表示または当該表示に係る処理を制御する。例えば、当該表示に係る処理は、ゲームアプリケーションの処理であってもよい。
表示集音装置200−1は、ユーザに装着され、画像表示および集音を行う。表示集音装置200−1は、集音により得られる音情報を情報処理装置100−1に提供し、情報処理装置100−1から得られる画像情報に基づいて画像を表示する。例えば、表示集音装置200−1は、図1に示したようなヘッドマウントディスプレイ(HMD:Head Mount Display)であり、また表示集音装置200−1を装着するユーザの口元に位置するようにマイクロフォンを備える。なお、表示集音装置200−1は、ヘッドアップディスプレイ(HUD:Head Up Display)であってもよい。また、当該マイクロフォンは、表示集音装置200−1と別個の独立した装置として設けられてもよい。
音処理装置300−1は、音情報に基づいて音源方向、音圧および音声認識に係る処理を行う。音処理装置300−1は、情報処理装置100−1から提供される音情報に基づいて上記処理を行い、処理結果を情報処理装置100−1に提供する。
ここで、集音の際には集音が所望される音と異なる音すなわち雑音も集音される場合がある。雑音が集音される一因として、雑音の発生タイミング、発生場所または発生数などが予測されにくいことにより雑音を回避することが難しいことが挙げられる。これに対し、入力される雑音を事後的に消すことが考えられる。しかし、雑音消去処理が別途追加されることにより、処理負荷の増大およびコスト増加が懸念される。また別の方法として、雑音が入力されにくくすることが考えられる。例えば、雑音に気付いたユーザがマイクロフォンを雑音源から遠ざける、といったことが挙げられる。しかし、ヘッドフォンなどをユーザが装着する場合にはユーザは雑音に気付きにくい。仮にユーザが雑音に気付けたとしても、雑音源を正確に把握することは難しい。また、雑音に気付いたとしても、当該雑音がマイクロフォンにより集音されるかどうかまでユーザが判断することはやはり困難である。さらに、雑音が入力されることを防ぐ適切な行動を取ることをユーザに期待することができない場合もある。例えば、雑音を回避するための望ましい顔の向きまたはマイクロフォンの覆い方などをユーザが適切に判断することは困難である。
そこで、本開示の第1の実施形態では、容易に雑音入力を抑制することが可能な情報処理システムを提案する。以下、第1の実施形態に係る情報処理システムの構成要素である各装置について詳細に説明する。
なお、上記では、情報処理システムが3つの装置を備える例を説明したが、情報処理装置100−1および音処理装置300−1は1つの装置で実現されてもよく、情報処理装置100−1、表示集音装置200−1および音処理装置300−1が1つの装置で実現されてもよい。
<1−2.装置の構成>
次に、本実施形態に係る情報処理システムの各装置の構成について説明する。
まず、図2および図3を参照して、各装置の物理的な構成について説明する。図2は、本実施形態に係る情報処理装置100−1の概略的な物理構成例を示すブロック図であり、図3は、本実施形態に係る表示集音装置200−1の概略的な物理構成例を示すブロック図である。
(情報処理装置の物理構成)
図2に示したように、情報処理装置100−1は、プロセッサ102、メモリ104、ブリッジ106、バス108、入力インタフェース110、出力インタフェース112、接続ポート114および通信インタフェース116を備える。なお、音処理装置300−1の物理構成は、情報処理装置100−1の物理構成と実質的に同一であるため、下記にまとめて説明する。
(プロセッサ)
プロセッサ102は、演算処理装置として機能し、各種プログラムと協働して情報処理装置100−1内の後述するVR(Virtual Reality)処理部122、音声入力適性判定部124および出力制御部126(音処理装置300−1の場合は、音源方向推定部322、音圧推定部324および音声認識処理部326)の動作を実現する制御モジュールである。プロセッサ102は、制御回路を用いてメモリ104または他の記憶媒体に記憶されるプログラムを実行することにより、後述する情報処理装置100−1の様々な論理的機能を動作させる。例えば、プロセッサ102はCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)またはSoC(System-on-a-Chip)であり得る。
(メモリ)
メモリ104は、プロセッサ102が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ104は、RAM(Random Access Memory)を含み、プロセッサ102の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ104は、ROM(Read Only Memory)を含み、RAMおよびROMにより情報処理装置100−1の記憶部を実現する。なお、接続ポートまたは通信装置などを介して外部のストレージ装置がメモリ104の一部として利用されてもよい。
なお、プロセッサ102およびメモリ104は、CPUバスなどから構成される内部バスにより相互に接続されている。
(ブリッジおよびバス)
ブリッジ106は、バス間を接続する。具体的には、ブリッジ106は、プロセッサ102およびメモリ104が接続される内部バスと、入力インタフェース110、出力インタフェース112、接続ポート114および通信インタフェース116間を接続するバス108と、を接続する。
(入力インタフェース)
入力インタフェース110は、ユーザが情報処理装置100−1を操作しまたは情報処理装置100−1へ情報を入力するために使用される。例えば、入力インタフェース110は、情報処理装置100−1を起動するためのボタンなどのユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ102に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチまたはレバーなどであってもよい。情報処理装置100−1のユーザは、入力インタフェース110を操作することにより、情報処理装置100−1に対して各種のデータを入力したり処理動作を指示したりすることができる。
(出力インタフェース)
出力インタフェース112は、ユーザに情報を通知するために使用される。例えば、出力インタフェース112は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置への出力を行う。
(接続ポート)
接続ポート114は、機器を情報処理装置100−1に直接接続するためのポートである。例えば、接続ポート114は、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート114は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート114に外部機器を接続することで、情報処理装置100−1と当該機器との間でデータが交換されてもよい。
(通信インタフェース)
通信インタフェース116は、情報処理装置100−1と外部装置との間の通信を仲介し、後述する通信部120(音処理装置300−1の場合は、通信部320)の動作を実現する。例えば、通信インタフェース116は、Bluetooth(登録商標)、NFC(Near Field Communication)、ワイヤレスUSBもしくはTransferJet(登録商標)などの近距離無線通信方式、WCDMA(登録商標)(Wideband Code Division Multiple Access)、WiMAX(登録商標)、LTE(Long Term Evolution)もしくはLTE−Aなどのセルラ通信方式、またはWi−Fi(登録商標)などの無線LAN(Local Area Network)方式といった、任意の無線通信方式に従って無線通信を実行してよい。また、通信インタフェース116は、有線による通信を行うワイヤ通信を実行してもよい。
(表示集音装置の物理構成)
また、図3に示したように、表示集音装置200−1は、プロセッサ202、メモリ204、ブリッジ206、バス208、センサモジュール210、入力インタフェース212、出力インタフェース214、接続ポート216および通信インタフェース218を備える。
(プロセッサ)
プロセッサ202は、演算処理装置として機能し、各種プログラムと協働して表示集音装置200−1内の後述する制御部222の動作を実現する制御モジュールである。プロセッサ202は、制御回路を用いてメモリ204または他の記憶媒体に記憶されるプログラムを実行することにより、後述する表示集音装置200−1の様々な論理的機能を動作させる。例えば、プロセッサ202はCPU、GPU、DSPまたはSoCであり得る。
(メモリ)
メモリ204は、プロセッサ202が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ204は、RAMを含み、プロセッサ202の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ204は、ROMを含み、RAMおよびROMにより表示集音装置200−1の記憶部を実現する。なお、接続ポートまたは通信装置などを介して外部のストレージ装置がメモリ204の一部として利用されてもよい。
なお、プロセッサ202およびメモリ204は、CPUバスなどから構成される内部バスにより相互に接続されている。
(ブリッジおよびバス)
ブリッジ206は、バス間を接続する。具体的には、ブリッジ206は、プロセッサ202およびメモリ204が接続される内部バスと、センサモジュール210、入力インタフェース212、出力インタフェース214、接続ポート216および通信インタフェース218間を接続するバス208と、を接続する。
(センサモジュール)
センサモジュール210は、表示集音装置200−1およびその周辺についての測定を行う。具体的には、センサモジュール210は、集音センサおよび慣性センサを含み、これらセンサから得られる信号からセンサ情報を生成する。これにより、後述する集音部224および顔方向検出部226の動作を実現する。例えば、集音センサは、音源を検出可能な音情報が得られるマイクロフォンアレイである。なお、別途、マイクロフォンアレイ以外の通常のマイクロフォンが含まれてもよい。以下では、マイクロフォンアレイおよび通常のマイクロフォンを総称してマイクロフォンとも称する。また、慣性センサは、加速度センサまたは角速度センサである。そのほか、地磁気センサ、深度センサ、気温センサ、気圧センサ、生体センサなどの他のセンサが含まれてもよい。
(入力インタフェース)
入力インタフェース212は、ユーザが表示集音装置200−1を操作しまたは表示集音装置200−1へ情報を入力するために使用される。例えば、入力インタフェース212は、表示集音装置200−1を起動するためのボタンなどのユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ202に出力する入力制御回路などから構成されている。なお、当該入力手段は、タッチパネル、スイッチまたはレバーなどであってもよい。表示集音装置200−1のユーザは、入力インタフェース212を操作することにより、表示集音装置200−1に対して各種のデータを入力したり処理動作を指示したりすることができる。
(出力インタフェース)
出力インタフェース214は、ユーザに情報を通知するために使用される。例えば、出力インタフェース214は、液晶ディスプレイ(LCD)装置、OLED装置、プロジェクタなどの装置に出力を行うことにより、後述する表示部228の動作を実現する。また、出力インタフェース214は、スピーカまたはヘッドフォンなどの装置に出力を行うことにより、後述する音出力部230の動作を実現する。
(接続ポート)
接続ポート216は、機器を表示集音装置200−1に直接接続するためのポートである。例えば、接続ポート216は、USBポート、IEEE1394ポート、SCSIポートなどであり得る。また、接続ポート216は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)ポートなどであってもよい。接続ポート216に外部機器を接続することで、表示集音装置200−1と当該機器との間でデータが交換されてもよい。
(通信インタフェース)
通信インタフェース218は、表示集音装置200−1と外部装置との間の通信を仲介し、後述する通信部220の動作を実現する。例えば、通信インタフェース218は、Bluetooth(登録商標)、NFC、ワイヤレスUSBもしくはTransferJet(登録商標)などの近距離無線通信方式、WCDMA(登録商標)、WiMAX(登録商標)、LTEもしくはLTE−Aなどのセルラ通信方式、またはWi−Fi(登録商標)などの無線LAN方式といった、任意の無線通信方式に従って無線通信を実行してよい。また、通信インタフェース218は、有線による通信を行うワイヤ通信を実行してもよい。
なお、情報処理装置100−1および音処理装置300−1ならびに表示集音装置200−1は、図2および図3を用いて説明した構成の一部を有しなくてもよく、または追加的な構成を有していてもよい。また、図2を用いて説明した構成の全体または一部を集積したワンチップの情報処理モジュールが提供されてもよい。
続いて、図4を参照して、本実施形態に係る情報処理システムの各装置の論理構成について説明する。図4は、本実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。
(情報処理装置の論理構成)
図4に示したように、情報処理装置100−1は、通信部120、VR処理部122、音声入力適性判定部124および出力制御部126を備える。
(通信部)
通信部120は、表示集音装置200−1および音処理装置300−1と通信する。具体的には、通信部120は、表示集音装置200−1から集音情報および顔方向情報を受信し、表示集音装置200−1に画像情報および出力音情報を送信する。また、通信部120は、音処理装置300−1に集音情報を送信し、音処理装置300−1から音処理結果を受信する。例えば、通信部120は、Bluetooth(登録商標)またはWi−Fi(登録商標)といった無線通信方式を用いて表示集音装置200−1と通信する。また、通信部120は、有線通信方式を用いて音処理装置300−1と通信する。なお、通信部120は、表示集音装置200−1と有線通信方式を用いて通信してもよく、音処理装置300−1と無線通信方式を用いて通信してもよい。
(VR処理部)
VR処理部122は、ユーザの態様に応じて仮想空間についての処理を行う。具体的には、VR処理部122は、ユーザの動作または姿勢に応じて表示対象となる仮想空間を決定する。例えば、VR処理部122は、ユーザの顔の向きを示す情報(顔方向情報)に基づいて表示対象となる仮想空間座標を決定する。また、ユーザの発声に基づいて表示対象の仮想空間が決定されてもよい。
なお、VR処理部122は、ゲームアプリケーションなどの集音結果を利用する処理を制御してもよい。具体的には、VR処理部122は、制御部の一部として、集音結果を利用する処理の実行中にユーザの動作を誘導する出力が行われる場合、当該処理の少なくとも一部を停止させる。より具体的には、VR処理部122は、集音結果を利用する処理の全体を停止させる。例えば、VR処理部122は、ユーザの動作を誘導する出力が行われている間、ゲームアプリケーションの処理の進行を停止させる。なお、出力制御部126は、当該出力が行われる直前の画像を表示集音装置200−1に表示させてもよい。
また、VR処理部122は、集音結果を利用する処理におけるユーザの顔の向きを利用した処理のみを停止させてもよい。例えば、VR処理部122は、ユーザの動作を誘導する出力が行われている間、ゲームアプリケーションの処理のうちのユーザの顔の向きに応じて表示画像を制御する処理を停止させ、他の処理は継続させる。なお、ゲームアプリケーション自体がVR処理部122の代わりに処理の停止を判定してもよい。
(音声入力適性判定部)
音声入力適性判定部124は、制御部の一部として、雑音の発生源(以下、雑音源とも称する。)とユーザの発生させる音を集音する表示集音装置200−1との位置関係に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部124は、当該位置関係と顔方向情報とに基づいて音声入力の適性を判定する。さらに、図5Aおよび図5Bならびに図6を参照して、本実施形態における音声入力適性判定処理について詳細に説明する。図5Aおよび図5Bは、本実施形態における音声入力適性判定処理を説明するための図であり、図6は、本実施形態における音声入力適性の判定パターンの例を示す図である。
例えば、図5Aに示したように、表示集音装置200−1の周辺に雑音源10が存在する場合を考える。この場合、まず、表示集音装置200−1から得られる集音情報が音処理装置300−1に提供され、音声入力適性判定部124は、音処理装置300−1の処理により得られる音源方向を示す情報(以下、音源方向情報とも称する。)を音処理装置300−1から取得する。例えば、音声入力適性判定部124は、図5Bに示したような表示集音装置200−1を装着するユーザから雑音源10への音源方向D1を示す音源方向情報(以下、FaceToNoiseVecとも称する。)を音処理装置300−1から通信部120を介して取得する。
また、音声入力適性判定部124は、表示集音装置200−1から顔方向情報を取得する。例えば、音声入力適性判定部124は、図5Bに示したような表示集音装置200−1を装着するユーザの顔の向きD3を示す顔方向情報を当該表示集音装置200−1から通信を介して取得する。
次に、音声入力適性判定部124は、雑音源および表示集音装置200−1間の方向とユーザの顔の向きとの差異に係る情報に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部124は、取得される雑音源に係る音源方向情報および顔方向情報から、当該音源方向情報の示す方向と当該顔方向情報の示す方向とのなす角度を算出する。そして、音声入力適性判定部124は、算出角度に応じて音声入力の適性度として方向判定値を判定する。例えば、音声入力適性判定部124は、取得されるFaceToNoiseVecの逆方向の音源方向情報であるNoiseToFaceVecを算出し、当該NoiseToFaceVecの示す方向すなわち雑音源からユーザに向かう方向と顔方向情報の示す方向とのなす角度αを算出する。そして、音声入力適性判定部124は、図6に示したような、算出される角度αを入力とする余弦関数の出力値に応じた値を方向判定値として判定する。例えば、当該方向判定値は、角度αが小さくなると音声入力の適性度が向上するような値に設定される。
なお、上記差異は、角度のほか、方向または方角の組合せであってもよく、その場合、当該組合せに応じて方向判定値が設定されてもよい。また、上記では、NoiseToFaceVecが利用される例を説明したが、NoiseToFaceVecと方向が反対であるFaceToNoiseVecがそのまま利用されてもよい。また、音源方向情報および顔方向情報などの方向はユーザを上から見た場合の水平面における方向である例を説明したが、これらの方向は当該水平面に対する垂直面における方向であってもよく、3次元空間における方向であってもよい。また、方向判定値は、図6にしめしたような5段階の値であってもよく、より細かい段階または粗い段階の値であってもよい。
また、雑音源が複数存在する場合、複数の音源方向情報に基づいて音声入力適性判定が行われてもよい。具体的には、音声入力適性判定部124は、複数の音源方向情報に基づいて得られる単一の方向と顔方向情報の示す方向とのなす角度に応じて方向判定値を判定する。さらに、図7Aおよび図7Bを参照して、雑音源が複数存在する場合の音声入力適性判定処理について詳細に説明する。図7Aは、複数の雑音源が存在する状況の例を示す図であり、図7Bは、複数の雑音源に係る音源方向情報から1つの方向を示す音源方向情報を決定する処理を説明するための図である。
例えば、図7Aに示したように雑音源が2つ存在する場合を考える。この場合、まず、音声入力適性判定部124は、音処理装置300−1から複数の音源方向情報を取得する。例えば、音声入力適性判定部124は、図7Aに示したような雑音源10Aおよび10Bから表示集音装置200−1を装着するユーザへの方向D4およびD5を示す音源方向情報をそれぞれ音処理装置300−1から取得する。
次に、音声入力適性判定部124は、取得される複数の音源方向情報から雑音源に係る音圧に基づいて単一の音源方向情報を算出する。例えば、音声入力適性判定部124は、後述するように音源方向情報と共に音圧情報を音処理装置300−1から取得する。次に、音声入力適性判定部124は、取得される音圧情報に基づいて雑音源に係る音圧間の音圧比、例えば雑音源10Bに係る音圧に対する雑音源10Aの音圧の比を算出する。そして、音声入力適性判定部124は、算出された音圧比に従って方向D5を単位ベクトルV2とする方向D4に係るベクトルV1を算出し、ベクトルV1およびベクトルV2の加算によりベクトルV3を取得する。
そして、音声入力適性判定部124は、算出された単一の音源方向情報を用いて上述した方向判定値を判定する。例えば、算出されたベクトルV3の方向を示す音源方向情報と顔方向情報とのなす角度に基づいて方向判定値が判定される。なお、上記ではベクトル計算が行われる例を説明したが、他の処理に基づいて方向判定値が判定されてもよい。
以上、雑音源の方向に基づいて音声入力の適性を判定する機能について説明した。さらに、音声入力適性判定部124は、雑音源の音圧に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部124は、集音される雑音の音圧レベルが判定閾値以上であるかに応じて音声入力の適性を判定する。さらに、図8を参照して、雑音の音圧に基づく音声入力適性判定処理について詳細に説明する。図8は、雑音の音圧に基づく音声入力適性の判定パターンの例を示す図である。
まず、音声入力適性判定部124は、雑音源について音圧情報を取得する。例えば、音声入力適性判定部124は、音処理装置300−1から通信部120を介して音源方向情報とともに音圧情報を取得する。
次に、音声入力適性判定部124は、取得された音圧情報に基づいて音圧判定値を判定する。例えば、音声入力適性判定部124は、取得された音圧情報の示す音圧レベルに対応する音圧判定値を判定する。図8の例では、音圧レベルが0以上〜60dB未満である場合すなわち人にとって比較的静かに感じられる場合、音圧判定値は1であり、音圧レベルが60以上〜120dB未満である場合すなわち人にとって比較的騒がしく感じられる場合、音圧判定値は0である。なお、音圧判定値は、図8の例に限られず、より細かい段階の値であってもよい。
(出力制御部)
出力制御部126は、制御部の一部として、音声入力適性判定結果に基づいて、集音特性を変化させるユーザの動作を誘導する出力を制御する。具体的には、出力制御部126は、ユーザの顔の向きの変化を誘導する視覚的な提示を制御する。より具体的には、出力制御部126は、音声入力適性判定部124の判定により得られる方向判定値に応じて、ユーザが変化させるべき顔の向きおよびその程度を示す表示オブジェクト(以下、顔方向誘導オブジェクトとも称する。)を決定する。例えば、出力制御部126は、方向判定値が低い場合、方向判定値が高くなるようにユーザに顔の向きの変化を誘導するような顔方向誘導オブジェクトを決定する。なお、当該ユーザの動作は、表示集音装置200−1の処理の操作と異なる動作である。例えば、表示集音装置200−1の入力音量の変更処理を制御する表示集音装置200−1に対する入力操作などの入力された音の集音特性が変更される処理に係る操作は当該ユーザの動作として含まれない。
また、出力制御部126は、誘導される動作により至るユーザの態様を基準としたユーザの態様についての評価に係る出力を制御する。具体的には、出力制御部126は、誘導される動作をユーザが行うことにより至るユーザの態様とユーザの現在の態様との乖離の程度に基づいて、ユーザの態様の評価を示す表示オブジェクト(以下、評価オブジェクトとも称する。)を決定する。例えば、出力制御部126は、当該乖離が小さくなるにつれて、音声入力の適性が向上していることを示す評価オブジェクトを決定する。
さらに、出力制御部126は、集音される雑音に係る出力を制御してもよい。具体的には、出力制御部126は、集音される雑音の到達領域を通知する出力を制御する。より具体的には、出力制御部126は、雑音源からユーザに到達する雑音のうちの音圧レベルが所定の閾値以上の雑音が到達する領域(以下、雑音到達領域とも称する。)をユーザに通知する表示オブジェクト(以下、雑音到達領域オブジェクトとも称する。)を決定する。例えば、雑音到達領域は、図5Bに示したようなW1の領域である。また、出力制御部126は、集音される雑音の音圧を通知する出力を制御する。より具体的には、出力制御部126は、上記の雑音到達領域における音圧に応じて雑音到達領域オブジェクトの態様を決定する。例えば、音圧に応じた雑音到達領域オブジェクトの態様は、当該雑音到達領域オブジェクトの厚さである。なお、出力制御部126は、音圧に応じて雑音到達領域オブジェクトの色相、彩度、輝度または模様の粒度などを制御してもよい。
また、出力制御部126は、音声入力の適否の提示を制御してもよい。具体的には、出力制御部126は、ユーザの顔の向きまたは雑音の音圧レベルに基づいて、ユーザの発生させる音(音声)の集音適否の通知を制御する。より具体的には、出力制御部126は、方向判定値または音圧判定値に基づいて、音声入力の適否を示す表示オブジェクト(以下、音声入力適否オブジェクトとも称する。)を決定する。例えば、出力制御部126は、音圧判定値が0である場合、音声入力に適していない、または音声入力が困難である旨を示す音声入力適否オブジェクトを決定する。また、音圧判定値が1であっても、方向判定値が閾値以下である場合、音声入力が困難である旨の音声入力適否オブジェクトが表示されてもよい。
以上、ユーザの動作を誘導する出力の内容を制御する機能について説明した。さらに、出力制御部126は、集音結果に関する情報に基づいてユーザの動作を誘導する出力の有無を制御する。具体的には、出力制御部126は、集音結果を利用する処理の開始情報に基づいてユーザの動作を誘導する出力の有無を制御する。例えば、集音結果を利用する処理としては、コンピュータゲーム、音声検索、音声コマンド、音声テキスト入力、音声エージェント、ボイスチャット、電話または音声翻訳などの処理が挙げられる。出力制御部126は、当該処理の開始が通知されると、当該ユーザの動作を誘導する出力に係る処理を開始する。
また、出力制御部126は、集音される雑音の音圧情報に基づいてユーザの動作を誘導する出力の有無を制御してもよい。例えば、出力制御部126は、雑音の音圧レベルが下限閾値未満である場合すなわち雑音が音声入力に影響を与えにくい場合、当該ユーザの動作を誘導する出力を行わない。なお、出力制御部126は、方向判定値に基づいてユーザの動作を誘導する出力の有無を制御してもよい。例えば、方向判定値が閾値以上の場合すなわち雑音の影響が許容範囲内である場合、出力制御部126は、当該ユーザの動作を誘導する出力を行わないとしてもよい。
なお、出力制御部126は、ユーザ操作に基づいて上記誘導する出力の有無を制御してもよい。例えば、出力制御部126は、ユーザによる音声入力設定操作に基づいてユーザの動作を誘導する出力に係る処理を開始する。
(表示集音装置の論理構成)
図4に示したように、表示集音装置200−1は、通信部220、制御部222、集音部224、顔方向検出部226、表示部228および音出力部230を備える。
(通信部)
通信部220は、情報処理装置100−1と通信する。具体的には、通信部220は、情報処理装置100−1に集音情報および顔方向情報を送信し、情報処理装置100−1から画像情報および出力音情報を受信する。
(制御部)
制御部222は、表示集音装置200−1を全体的に制御する。具体的には、制御部222は、集音部224、顔方向検出部226、表示部228および音出力部230の動作パラメタを設定することなどによりこれらの機能を制御する。また、制御部222は、通信部220を介して取得される画像情報に基づいて表示部228に画像を表示させ、取得される出力音情報に基づいて音出力部230に音を出力させる。なお、制御部222は、集音部224および顔方向検出部226に代わって、集音部224および顔方向検出部226から得られる情報に基づいて集音情報および顔方向情報を生成してもよい。
(集音部)
集音部224は、表示集音装置200−1の周辺について集音する。具体的には、集音部224は、表示集音装置200−1の周辺において発生する雑音および表示集音装置200−1を装着するユーザの音声を集音する。また、集音部224は、集音した音に係る集音情報を生成する。
(顔方向検出部)
顔方向検出部226は、表示集音装置200−1を装着するユーザの顔の向きを検出する。具体的には、顔方向検出部226は、表示集音装置200−1の姿勢を検出することにより、当該表示集音装置200−1を装着するユーザの顔の向きを検出する。また、顔方向検出部226は、検出されたユーザの顔の向きを示す顔方向情報を生成する。
(表示部)
表示部228は、画像情報に基づいて画像を表示する。具体的には、表示部228は、制御部222から提供される画像情報に基づいて画像を表示する。なお、表示部228は、上述した各表示オブジェクトが重畳された画像を表示し、または画像を表示することにより上述した各表示オブジェクトを外界像に重畳させる。
(音出力部)
音出力部230は、出力音情報に基づいて音を出力する。具体的には、音出力部230は、制御部222から提供される出力音情報に基づいて音を出力する。
(音処理装置の論理構成)
図4に示したように、音処理装置300−1は、通信部320、音源方向推定部322、音圧推定部324および音声認識処理部326を備える。
(通信部)
通信部320は、情報処理装置100−1と通信する。具体的には、通信部320は、情報処理装置100−1から集音情報を受信し、情報処理装置100−1に音源方向情報および音圧情報を送信する。
(音源方向推定部)
音源方向推定部322は、集音情報に基づいて音源方向情報を生成する。具体的には、音源方向推定部322は、集音情報に基づいて集音位置からの音源への方向を推定し、推定される方向を示す音源方向情報を生成する。なお、音源方向の推定は、マイクロフォンアレイにより得られる集音情報に基づく既存の音源推定技術が用いられることが想定されるが、これに限定されず、音源方向が推定可能な技術であれば種々の技術が用いられ得る。
(音圧推定部)
音圧推定部324は、集音情報に基づいて音圧情報を生成する。具体的には、音圧推定部324は、集音情報に基づいて集音位置における音圧レベルを推定し、推定される音圧レベルを示す音圧情報を生成する。なお、音圧レベルの推定は、既存の音圧推定技術が用いられる。
(音声認識処理部)
音声認識処理部326は、集音情報に基づいて音声認識処理を行う。具体的には、音声認識処理部326は、集音情報に基づいて音声を認識し、認識される音声についての文字情報を生成し、または認識される音声の発声元であるユーザを識別する。なお、音声認識処理には、既存の音声認識技術が用いられる。また、生成される文字情報またはユーザ識別情報は、情報処理装置100−1に通信部320を介して提供されてもよい。
<1−3.装置の処理>
次に、情報処理システムの構成要素のうち、主要な処理を行う情報処理装置100−1の処理について説明する。
(全体処理)
まず、図9を参照して、本実施形態に係る情報処理装置100−1の全体処理について説明する。図9は、本実施形態に係る情報処理装置100−1の全体処理を概念的に示すフローチャートである。
情報処理装置100−1は、周辺音検出モードがオンであるかを判定する(ステップS502)。具体的には、出力制御部126は、表示集音装置200−1の周辺の音についての検出モードがオンであるかを判定する。なお、当該周辺音検出モードは、情報処理装置100−1が起動中は常にオンであってもよく、ユーザの操作または特定の処理の開始に基づいてオンになってもよい。また、キーワードの発声に基づいて周辺音検出モードがオンにされてもよい。例えば、キーワードのみ検出する検出器が表示集音装置200−1に備えられ、表示集音装置200−1は当該キーワードが検出されるとその旨を情報処理装置100−1に通知する。この場合、当該検出器の消費電力は集音部の消費電力よりも少ないことが多いため、消費電力の低減が可能となる。
周辺音検出モードがオンである判定されると、情報処理装置100−1は、周辺音に係る情報を取得する(ステップS504)。具体的には、通信部120は、周辺音検出モードがオンである場合、表示集音装置200−1から通信を介して集音情報を取得する。
次に、情報処理装置100−1は、音声入力モードがオンであるかを判定する(ステップS506)。具体的には、出力制御部126は、表示集音装置200−1を用いた音声入力モードがオンであるかを判定する。なお、当該音声入力モードは、周辺音検出モードと同様に、情報処理装置100−1が起動中は常にオンであってもよく、ユーザの操作または特定の処理の開始に基づいてオンになってもよい。
音声入力モードがオンであると判定されると、情報処理装置100−1は、顔方向情報を取得する(ステップS508)。具体的には、音声入力適性判定部124は、音声入力モードがオンである場合、表示集音装置200−1から通信部120を介して顔方向情報を取得する。
次に、情報処理装置100−1は、方向判定値を算出する(ステップS510)。具体的には、音声入力適性判定部124は、顔方向情報と音源方向情報とに基づいて方向判定値を算出する。詳細については後述する。
次に、情報処理装置100−1は、音圧判定値を算出する(ステップS512)。具体的には、音声入力適性判定部124は、音圧情報に基づいて音圧判定値を算出する。詳細については後述する。
次に、情報処理装置100−1は、ゲーム処理を停止する(ステップS514)。具体的には、VR処理部122は、出力制御部126によるユーザの動作を誘導する出力の有無に応じてゲームアプリケーションの処理の少なくとも一部を停止させる。
次に、情報処理装置100−1は、画像情報を生成し、表示集音装置200−1に通知する(ステップS516)。具体的には、出力制御部126は、方向判定値および音圧判定値に応じたユーザの動作を誘導するための画像を決定し、通信部120を介して決定された画像に係る画像情報を表示集音装置200−1に通知する。
(方向判定値の算出処理)
続いて、図10を参照して、方向判定値の算出処理について説明する。図10は、本実施形態に係る情報処理装置100−1における方向判定値の算出処理を概念的に示すフローチャートである。
情報処理装置100−1は、音圧レベルが判定閾値以上であるかを判定する(ステップS602)。具体的には、音声入力適性判定部124は、音処理装置300−1から取得した音圧情報の示す音圧レベルが判定閾値以上であるかを判定する。
音圧レベルが閾値以上であると判定されると、情報処理装置100−1は、周辺音源からユーザの顔への方向に係る音源方向情報を算出する(ステップS604)。具体的には、音声入力適性判定部124は、音処理装置300−1から取得したFaceToNoiseVecからNoiseToFaceVecを算出する。
次に、情報処理装置100−1は、音源方向情報が複数であるかを判定する(ステップS606)。具体的には、音声入力適性判定部124は、算出されたNoiseToFaceVecが複数存在するかを判定する。
複数の音源方向情報が算出されたと判定されると、情報処理装置100−1は、当該複数の音源方向情報を合算する(ステップS608)。具体的には、音声入力適性判定部124は、算出されたNoiseToFaceVecが複数存在すると判定されると、当該複数のNoiseToFaceVecを合算する。詳細については後述する。
次に、情報処理装置100−1は、音源方向情報に係る方向と顔の向きとに基づいて角度αを算出する(ステップS610)。具体的には、音声入力適性判定部124は、NoiseToFaceVecの示す方向と顔方向情報の示す顔の向きとのなす角度αを算出する。
次に、情報処理装置100−1は、角度αを入力とする余弦関数の出力結果を判定する(ステップS612)。具体的には、音声入力適性判定部124は、cos(α)の値に応じて方向判定値を判定する。
余弦関数の出力結果が1である場合、情報処理装置100−1は、方向判定値を5に設定する(ステップS614)。余弦関数の出力結果が1でなく0より大きい場合、情報処理装置100−1は、方向判定値を4に設定する(ステップS616)。余弦関数の出力結果が0である場合、情報処理装置100−1は、方向判定値を3に設定する(ステップS618)。余弦関数の出力結果が0より小さく−1でない場合、情報処理装置100−1は、方向判定値を2に設定する(ステップS620)。余弦関数の出力結果が−1である場合、情報処理装置100−1は、方向判定値を1に設定する(ステップS622)。
なお、ステップS602にて音圧レベルが下限閾値未満であると判定された場合、情報処理装置100−1は、方向判定値をN/A(Not Applicable)に設定する(ステップS624)。
(複数の音源方向情報の合算処理)
続いて、図11を参照して、上記方向判定値の算出処理における複数の音源方向情報の合算処理について説明する。図11は、本実施形態に係る情報処理装置100−1における複数の音源方向情報の合算処理を概念的に示すフローチャートである。
情報処理装置100−1は、音源方向情報を1つ選択する(ステップS702)。具体的には、音声入力適性判定部124は、複数の音源方向情報すなわちNoiseToFaceVecの中から1つを選択する。
次に、情報処理装置100−1は、未計算の音源方向情報の有無を判定する(ステップS704)。具体的には、音声入力適性判定部124は、ベクトル加算処理が行われていないNoiseToFaceVecが存在するかを判定する。なお、ベクトル加算が未処理であるNoiseToFaceVecが存在しない場合、処理は終了する。
未計算の音源方向情報が存在すると判定されると、情報処理装置100−1は、未計算の音源方向情報のうちから1つを選択する(ステップS706)。具体的には、音声入力適性判定部124は、ベクトル加算処理が行われていないNoiseToFaceVecが存在すると判定されると、既に選択中の音源方向情報と異なるNoiseToFaceVecを1つ選択する。
次に、情報処理装置100−1は、選択された2つの音源方向情報の音圧比を算出する(ステップS708)。具体的には、音声入力適性判定部124は、選択された2つのNoiseToFaceVecに係る音圧レベルの比を算出する。
次に、情報処理装置100−1は、音圧比を用いて音源方向情報に係るベクトルを加算する(ステップS710)。具体的には、音声入力適性判定部124は、算出された音圧レベルの比に基づいて、一方のNoiseToFaceVecに係るベクトルの大きさを変更した上で、2つのNoiseToFaceVecに係るベクトルを加算する。
(音圧判定値の算出処理)
続いて、図12を参照して、音圧判定値の算出処理について説明する。図12は、本実施形態に係る情報処理装置100−1における音圧判定値の算出処理を概念的に示すフローチャートである。
情報処理装置100−1は、音圧レベルが判定閾値未満であるかを判定する(ステップS802)。具体的には、音声入力適性判定部124は、音処理装置300−1から取得された音圧情報の示す音圧レベルが判定閾値未満であるかを判定する。
音圧レベルが判定閾値未満であると判定されると、情報処理装置100−1は、音圧判定値を1に設定する(ステップS804)。他方、音圧レベルが判定閾値以上であると判定されると、情報処理装置100−1は、音圧判定値を0に設定する(ステップS806)。
<1−4.処理例>
次に、情報処理システムの処理例について説明する。
(音声入力が可能な場合)
まず、図13〜図17を参照して、音声入力が可能な場合の情報処理システムの処理例を説明する。図13〜図17は、音声入力が可能な場合の情報処理システムの処理例を説明するための図である。
図13を参照して、ユーザが雑音源10に正対する状態すなわち図6の(1)の状態から説明を開始する。まず、情報処理装置100−1は、VR処理に基づいてゲーム画面を生成する。次に、情報処理装置100−1は、雑音の音圧レベルが下限閾値以上である場合、ユーザの動作を誘導する出力すなわち上述した表示オブジェクトをゲーム画面に重畳させる。例えば、出力制御部126は、人の頭部を模した表示オブジェクト20、頭部の回転方向を示す矢印である顔方向誘導オブジェクト22、ユーザの態様についての評価に応じて表示が変化する評価オブジェクト24、ならびに表示集音装置200−1すなわちユーザに到達する雑音に係る領域を示す雑音到達領域オブジェクト26をゲーム画面に重畳させる。音圧レベルが所定の閾値以上の領域の大きさが雑音到達領域オブジェクト26の幅W2で表現され、音圧レベルが厚さP2で表現される。なお、図13における雑音源10は実際には表示されない。また、出力制御部126は、音声入力の適否に応じて表示が変化する音声入力適否オブジェクト28をゲーム画面に重畳させる。
図6の(1)の状態では、ユーザの顔が真後ろに向くように頭部を回転するよう誘導するため、顔方向誘導オブジェクト22の矢印が他の状態よりも長く形成される。また、評価オブジェクト24Aは、マイクロフォンで表現され、図6の状態の中では最も雑音の影響を受けるため、マイクロフォンが他の状態よりも小さく表現される。これにより、ユーザの顔の向きについての評価が低いことがユーザに提示される。また、図13の例では、雑音の音圧レベルが判定閾値未満すなわち音圧判定値が1であるが、ユーザが雑音源に正対しすなわち方向判定値が1であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Aが重畳されている。さらに、出力制御部126は、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクトを重畳させてもよい。例えば、図13に示したように、雑音到達領域オブジェクト26から発生し、音声入力適否オブジェクト28Aに向かって延長され、途中で画面外へ方向が転換している破線がゲーム画面に重畳される。
次に、図14を参照して、ユーザが少し時計回りに頭部を回転させた状態すなわち図6の(2)の状態について説明する。(2)の状態では、ユーザの頭部が(1)の状態よりも少し時計回りに回転しているため、顔方向誘導オブジェクト22の矢印が(1)の状態よりも短く形成される。また、評価オブジェクト24Aは、(1)の状態よりも雑音の影響が小さくなるため、マイクロフォンが(1)の状態よりも大きく表現される。また、評価オブジェクト24Aは、表示オブジェクト20に近づけられてもよい。これにより、ユーザの顔の向きについての評価が改善されたことがユーザに提示される。そして、ユーザの動作が誘導通りであることがユーザに伝わり、自身の動作に対する安心感をユーザに与えることができる。また、ユーザの頭部が回転することにより顔の向きに対する雑音源の位置が変化するため、この場合は、雑音到達領域オブジェクト26は頭部の回転方向と反対方向に移動させられる。また、図14の例では、音圧判定値が1であるが、方向判定値が2であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Aが重畳されている。
次に、図15を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図6の(3)の状態について説明する。(3)の状態では、ユーザの頭部が(2)の状態からさらに時計回りに回転しているため、顔方向誘導オブジェクト22の矢印が(2)の状態よりも短く形成される。また、(2)の状態よりも雑音の影響が小さくなるため、マイクロフォンが(2)の状態よりも大きく表現され、さらに強調効果が付加された評価オブジェクト24Bが重畳される。例えば、当該強調効果は、色相、彩度もしくは輝度の変化、模様の変化または点滅などであってもよい。また、ユーザの頭部が(2)の状態からさらに回転することにより、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。また、図15の例では、音圧判定値が1であり、方向判定値が3であるため、音声入力に適している旨を示す音声入力適否オブジェクト28Bが重畳されている。
次に、図16を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図6の(4)の状態について説明する。(4)の状態では、ユーザの頭部が(3)の状態からさらに時計回りに回転しているため、顔方向誘導オブジェクト22の矢印が(3)の状態よりも短く形成される。また、(3)の状態よりも雑音の影響が小さくなるため、マイクロフォンが(3)の状態よりも大きく表現され、強調効果が付加された評価オブジェクト24Bが重畳される。また、ユーザの頭部が(3)の状態からさらに回転することにより、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。その結果、雑音到達領域オブジェクト26は、図16に示したようにゲーム画面に重畳されなくなってもよい。なお、その場合であっても、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクト(破線の表示オブジェクト)は重畳されてもよい。また、図16の例では、音圧判定値が1であり、方向判定値が4であるため、音声入力に適している旨を示す音声入力適否オブジェクト28Bが重畳されている。
最後に、図17を参照して、ユーザの顔が雑音源に向かう方向と反対方向に向いている状態すなわち図6の(5)の状態について説明する。(5)の状態では、追加的にユーザに頭部を回転させることが要求されないため、矢印の顔方向誘導オブジェクト22は重畳されない。また、ユーザの顔の向きが誘導通りに変化したため、顔の向きが音声入力にとって適していることを示す表示オブジェクトとして、「向きOK」という文字列オブジェクトが重畳される。さらに、表示オブジェクト20の周辺の態様が変化させられてもよい。例えば、表示オブジェクト20の周辺の色相または輝度などが変化させられる。また、強調効果が付加された評価オブジェクト24Bが重畳される。なお、(4)の状態よりも雑音の影響が小さくなるため、マイクロフォンが(4)の状態よりも大きく表現されてもよい。また、ユーザの頭部が(4)の状態からさらに回転することにより、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。その結果、図17に示したようにゲーム画面に重畳されなくなっている。また、図17の例では、音圧判定値が1であり、方向判定値が5であるため、音声入力に適している旨を示す音声入力適否オブジェクト28Bが重畳されている。さらに、音圧判定値および方向判定値がともに最高値であるため、音声入力適否オブジェクト28Bに強調効果が付加されている。例えば、当該強調効果は、表示オブジェクトのサイズ、色相、彩度、輝度もしくは模様の変化、点滅または表示オブジェクト周辺の態様の変化であってもよい。
(音声入力が困難な場合)
続いて、図18〜図22を参照して、音声入力が困難な場合の情報処理システムの処理例を説明する。図18〜図22は、音声入力が困難な場合の情報処理システムの処理例を説明するための図である。
まず、図18を参照して、ユーザが雑音源10に正対する状態すなわち図6の(1)の状態から説明を開始する。図6の(1)の状態でゲーム画面に重畳される表示オブジェクト20、顔方向誘導オブジェクト22、評価オブジェクト24Aおよび音声入力適否オブジェクト28Aは、図13を参照して説明した表示オブジェクトと実質的に同一である。図18の例では、雑音の音圧レベルが図13の例の場合と比べて高いため、雑音到達領域26の厚さが増している。また、雑音の音圧レベルが判定閾値以上であるため、雑音による音声入力適否への影響を示す破線の表示オブジェクトは、雑音到達領域26から発生し、音声入力適否オブジェクト28Aに向かって延長され、到達するように重畳される。
次に、図19を参照して、ユーザが少し時計回りに頭部を回転させた状態すなわち図6の(2)の状態について説明する。(2)の状態では、顔方向誘導オブジェクト22の矢印が(1)の状態よりも短く形成される。また、評価オブジェクト24Aのマイクロフォンが(1)の状態よりも大きく表現される。また、雑音到達領域オブジェクト26は頭部の回転方向と反対方向に移動させられる。また、図19の例では、音圧判定値が0であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Aが重畳されている。
次に、図20を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図6の(3)の状態について説明する。(3)の状態では、顔方向誘導オブジェクト22の矢印が(2)の状態よりも短く形成される。また、マイクロフォンが(2)の状態よりも大きく表現され、さらに強調効果が付加された評価オブジェクト24Bが重畳される。また、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。また、図20の例では、音圧判定値が0であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Aが重畳されている。さらに、音声入力の適否が改善される見込みがない場合、音声入力適否オブジェクト28Aに強調効果が付加されてもよい。例えば、図20に示したように、音声入力適否オブジェクト28Aのサイズが拡大されてもよく、音声入力適否オブジェクト28Aの色相、彩度、輝度または模様などが変化させられてもよい。
次に、図21を参照して、ユーザがさらに時計回りに頭部を回転させた状態すなわち図6の(4)の状態について説明する。(4)の状態では、顔方向誘導オブジェクト22の矢印が(3)の状態よりも短く形成される。また、マイクロフォンが(3)の状態よりも大きく表現され、強調効果が付加された評価オブジェクト24Bが重畳される。また、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。その結果、図21に示したようにゲーム画面に重畳されなくなってもよい。なお、その場合であっても、雑音の音圧レベルに応じて雑音による音声入力適否への影響を示す表示オブジェクト(破線の表示オブジェクト)は重畳されてもよい。また、図21の例では、音圧判定値が0であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Aが強調効果を伴って重畳される。
最後に、図22を参照して、ユーザの顔が雑音源に向かう方向と反対方向に向いている状態すなわち図6の(5)の状態について説明する。(5)の状態では、矢印の顔方向誘導オブジェクト22は重畳されない。また、顔の向きが音声入力にとって適していることを示す表示オブジェクトとして、「向きOK」という文字列オブジェクトが重畳される。さらに、表示オブジェクト20の周辺の態様が変化させられてもよい。また、強調効果が付加された評価オブジェクト24Bが重畳される。また、雑音到達領域オブジェクト26はさらに頭部の回転方向と反対方向に移動させられる。その結果、図22に示したようにゲーム画面に重畳されなくなっている。また、図22の例では、音圧判定値が0であるため、音声入力に適していない旨を示す音声入力適否オブジェクト28Bが強調効果を伴って重畳されている。
<1−5.第1の実施形態のまとめ>
このように、本開示の第1の実施形態によれば、情報処理装置100−1は、雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、当該集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる上記ユーザの動作を誘導する出力を制御する。このため、雑音源と表示集音装置200−1との位置関係を集音特性が向上するように変化させる動作をユーザに誘導することにより、ユーザは誘導に従うだけで雑音が入力されにくい音声入力により適した状況を実現することができる。また、ユーザに動作させることにより雑音が入力されにくくなるため、情報処理装置100−1または情報処理システムに雑音回避のための別途の構成を追加せずに済む。従って、ユーザビリティの観点およびコストまたは設備の観点から、雑音入力の抑制を容易にすることが可能となる。
また、上記ユーザの発生させる音は音声を含み、情報処理装置100−1は、上記位置関係と上記ユーザの顔の向きとに基づいて上記誘導する出力を制御する。ここで、ユーザの音声についての集音特性を向上させるためには、音声の発生方向(音声を発する口を含む顔の向き)に集音部224すなわちマイクロフォンが設けられることが望ましい。実際、マイクロフォンは、ユーザの口元に位置するように設けられることが多い。他方で、発声方向に雑音源が存在すると、雑音が入力されやすくなる。これに対し、本構成によれば、ユーザの顔の向きに雑音源が存在しないように、ユーザに動作を促すことができる。従って、集音特性を向上させながら、雑音入力を抑制することが可能となる。
また、情報処理装置100−1は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、の差異に係る情報に基づいて上記誘導する出力を制御する。このため、マイクロフォンを装着するユーザから雑音源への方向または雑音源から当該ユーザへの方向が出力制御処理に利用されることにより、ユーザの取るべき行動をより正確に誘導することができる。従って、雑音入力をより効果的に抑制することが可能となる。
また、上記差異は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、のなす角を含む。このため、出力制御処理において角度情報が用いられることにより、出力制御の正確性または精度を向上させることができる。また、既存の角度計算技術を利用して出力制御処理が行われることにより、装置の開発コストの低減および処理の複雑化の防止が可能となる。
また、上記ユーザの動作は、上記ユーザの顔の向きの変化を含む。このため、音声を発する口を含む顔の向きが変更されることにより、他の行動よりもより効果的でかつ容易に雑音入力を抑制することができる。なお、顔の向きの誘導が含まれるのであれば、体の向きまたは移動が誘導されてもよい。
また、上記誘導する出力は、誘導される動作により至るユーザの態様を基準とした上記ユーザの態様についての評価に係る出力を含む。このため、ユーザは自身の動作が誘導通りに行われているかを把握することができる。従って、誘導に即したユーザ動作が行われやすくなることにより、雑音入力をより確実に抑制することが可能となる。
また、上記誘導する出力は、上記集音部により集音される上記雑音に係る出力を含む。このため、目に見えない雑音に関する情報がユーザに提示されることにより、ユーザは雑音または雑音源を把握することができる。従って、雑音が入力されることを防止する動作を直感的に理解しやすくすることが可能となる。
また、上記雑音に係る出力は、上記集音部により集音される上記雑音の到達領域を通知する出力を含む。このため、ユーザはどのような行動を取れば雑音の到達を回避することができるかを直感的に理解することができる。従って、より容易に雑音入力を抑制する動作を取ることが可能となる。
また、上記雑音に係る出力は、上記集音部により集音される上記雑音の音圧を通知する出力を含む。このため、ユーザは雑音の音圧レベルを把握することができる。従って、雑音が入力され得ることをユーザが理解することにより、ユーザに行動を取る動機を与えることが可能となる。
また、上記誘導する出力は、上記ユーザへの視覚的な提示を含む。ここで、視覚的な情報伝達は、概して他の感覚を用いた情報伝達よりも情報量が多い。そのため、ユーザは動作の誘導を理解しやすくなり、円滑な誘導が可能となる。
また、上記ユーザへの視覚的な提示は、画像または外界像への表示オブジェクトの重畳を含む。このため、ユーザの視界に動作の誘導のための表示オブジェクトが提示されることにより、画像または外界像への集中または没入の妨げとなることを抑制することができる。また、VRまたはAR(Augmented Reality)による表示に本実施形態の構成を適用することができる。
また、情報処理装置100−1は、上記ユーザの顔の向きまたは上記雑音の音圧に基づいて、上記ユーザの発生させる音の集音適否の通知を制御する。このため、ユーザに音声入力の適否が直接的に伝達されることにより、音声入力の適否を把握しやすくすることができる。従って、雑音入力を回避するための動作をユーザに促しやすくすることが可能となる。
また、情報処理装置100−1は、上記集音部の集音結果に関する情報に基づいて上記誘導する出力の有無を制御する。このため、ユーザの手を煩わせることなく、当該誘導する出力の有無を状況に合わせて制御することができる。なお、ユーザの設定に基づいて上記誘導する出力の有無が制御されてもよい。
また、上記集音結果に関する情報は、上記集音結果を利用する処理の開始情報を含む。このため、当該処理が開始されるまでは、集音処理、音処理および出力制御処理などの一連の処理を停止させることができる。従って、情報処理システムの各装置の処理負荷および電力消費を低減することが可能となる。
また、上記集音結果に関する情報は、上記集音部により集音される上記雑音の音圧情報を含む。このため、例えば雑音の音圧レベルが下限閾値未満である場合は雑音が入力されないかまたは音声入力に影響を与えにくいため、上述のように一連の処理を停止させることができる。また、反対に、雑音の音圧レベルが下限閾値以上である場合に自動的に出力制御処理が行われることにより、ユーザが雑音に気付く前であっても雑音入力を抑制するようにユーザに動作を促すことができる。
また、情報処理装置100−1は、上記集音部の集音結果を利用する処理の実行中に上記誘導する出力が行われる場合、上記処理の少なくとも一部を停止させる。このため、例えばゲームアプリケーション処理の実行中に当該誘導する出力が行われる場合に当該ゲームアプリケーション処理が中断または中止されることにより、誘導に沿ったユーザの動作中に当該ゲームアプリケーション処理が進行することを防止できる。特に、ユーザの頭部の動きに応じて当該処理が行われるときには、当該処理が進行していると、動作の誘導によりユーザの意図しない処理結果が生じかねない。そのようなときであっても、本構成によれば、ユーザの意図しない処理結果の発生を防止することが可能となる。
また、上記処理の少なくとも一部は、上記処理における上記ユーザの顔の向きを利用した処理を含む。このため、顔の向きの変化により影響を受ける処理のみが停止されることにより、ユーザは他の処理の結果を享受することができる。従って、他の処理と処理結果が独立していてもよい場合には、ユーザにとって利便性を向上させることができる。
<1−6.変形例>
以上、本開示の第1の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
本実施形態の変形例として、誘導されるユーザの動作は、他の動作であってもよい。具体的には、誘導されるユーザの動作は、雑音源と表示集音装置200−1との間を所定の物体により遮断する動作(以下、遮断動作とも称する。)を含む。例えば、当該遮断動作は、雑音源と表示集音装置200−1すなわちマイクロフォンとの間に手を置く動作を含む。さらに、図23を参照して、本変形例の処理例について説明する。図23は、本実施形態の変形例における情報処理システムの処理例を説明するための図である。
図23を参照して、図6の(3)の状態における遮断動作に係る処理に基づいて本変形例の処理を詳細に説明する。(3)の状態では、雑音源がユーザの顔の向きに対して左側方向に存在するため、雑音到達領域26オブジェクトがゲーム画面の左側に重畳されている。
ここで、マイクロフォンはユーザの口元付近に設けられることが想定されるため、当該ゲーム画面の中央下付近にマクロフォンが位置すると考えられる。そこで、出力制御部126は、当該マイクロフォンと雑音源または雑音到達領域オブジェクト26との間に手などの遮断物が置かれるように、当該遮断物の配置を誘導する表示オブジェクト(以下、遮断物オブジェクトとも称する。)を重畳させる。例えば、図23に示したように、ユーザの手を模した遮断物オブジェクト30が雑音到達領域オブジェクト26とゲーム画面中央下との間に重畳される。特に、遮断物オブジェクトは、ユーザの口元すなわちマイクロフォンを覆うような形状の表示オブジェクトであってもよい。
なお、ユーザが当該遮断物オブジェクト30の重畳される位置に合わせて手を置いた場合に、当該遮断物オブジェクト30の態様が変化してもよい。例えば、当該遮断物オブジェクト30の輪郭線の線種、太さ、色彩もしくは輝度の変更または輪郭線で囲まれた領域の塗りつぶしなどが行われてもよい。また、遮断物は、手のほか、指もしくは腕といった人体の他の部位、または本、板、傘もしくは可動式のパーティションといった人体の部位以外の物体であってもよい。なお、当該所定の物体はユーザにより操作されるため、可搬性のある物体が好ましい。
このように、本実施形態の変形例によれば、誘導されるユーザの動作は、雑音源と表示集音装置200−1との間を所定の物体により遮断する動作を含む。このため、ユーザが顔の向きを変えたくない場合、例えばユーザの顔の向きに応じてゲームアプリケーション処理などが行われる場合であっても、ユーザに雑音入力を抑制する動作を誘導することができる。従って、雑音入力の抑制効果を享受できる機会を増やすことができ、ユーザの利便性を向上させることが可能となる。
<2.第2の実施形態(高感度集音のための集音部の制御とユーザの誘導)>
以上、本開示の第1の実施形態について説明した。次に、本開示の第2の実施形態について説明する。第2の実施形態では、集音対象となる音が高感度で集音されるように、集音部すなわち表示集音装置200−2の集音態様が制御され、またユーザの動作が誘導される。
<2−1.システム構成>
図24を参照して、本開示の第2の実施形態に係る情報処理システムの構成について説明する。図24は、本実施形態に係る情報処理システムの概略的な構成例を説明するための図である。なお、第1の実施形態の構成と実質的に同一である構成については説明を省略する。
図24に示したように、本実施形態に係る情報処理システムは、情報処理装置100−2、表示集音装置200−2および音処理装置300−2に加えて集音撮像装置400を備える。
表示集音装置200−2は、第1の実施形態に係る表示集音装置200−1の構成に加えて、発光体50を備える。発光体50は、表示集音装置200−2の起動と共に発光を開始してもよく、特定の処理の開始と共に発光を開始してもよい。また、発光体50は、可視光を出力してもよく、赤外線などの可視光以外の光を出力してもよい。
集音撮像装置400は、集音機能および撮像機能を備える。例えば、集音撮像装置400は、自装置の周辺の音を集音し、集音された音に係る集音情報を情報処理装置100−2に提供する。また、集音撮像装置400は、自装置の周辺を撮像し、撮像に得られた画像に係る画像情報を情報処理装置100−2に提供する。なお、集音撮像装置400は、図24に示したような据置型の装置であり、情報処理装置100−2と通信接続され、通信を介して集音情報および画像情報を提供する。また、集音撮像装置400は、集音についてビームフォーミング機能を備える。当該ビームフォーミング機能により高感度な集音が実現される。
また、集音撮像装置400は、位置または姿勢を制御する機能を有していてもよい。具体的には、集音撮像装置400は、移動したり、自装置の姿勢(向き)を変えたりしてもよい。例えば、集音撮像装置400には、移動または姿勢変更のためのモータおよび当該モータにより駆動する車輪などの移動モジュールが備えられてもよい。また、集音撮像装置400は、装置の姿勢は維持したまま集音機能を有するパーツ(例えばマイクロフォン)のみを移動させたり、姿勢を変更させたりしてもよい。
ここで、表示集音装置200−2のマイクロフォンが使用困難な場合がある。その場合には、表示集音装置200−2と別個の装置である集音撮像装置400が代わりに音声入力などに用いられる。しかし、表示集音装置200−2が例えばVR表示装置などの遮蔽型HMDであった場合、当該表示集音装置200−2を装着するユーザは外部を視覚的に確認することが困難である。そのため、ユーザは、集音撮像装置400の位置を把握することができず、見当違いの方向に向かって発声しかねない。また、表示集音装置200−2が例えばAR表示装置などのいわゆるシースルー型HMDであった場合でも、高感度に集音される方向は目に見えないため、ユーザは、やはり見当違いの方向に向かって、すなわち高感度に集音される方向と異なる方向に向かって発声する可能性がある。その結果、音圧レベルまたはSN比(Signal Noise ratio)などの集音特性が低下し、集音される音に基づく処理において所望の処理結果を得ることが困難となりかねない。
そこで、本開示の第2の実施形態では、集音特性をより確実に向上させることが可能な情報処理システムを提案する。以下、第2の実施形態に係る情報処理システムの構成要素である各装置について詳細に説明する。
なお、上記では、集音撮像装置400は独立した装置である例を説明したが、集音撮像装置400は情報処理装置100−2または音処理装置300−2と一体であってもよい。また、集音撮像装置400は集音機能および撮像機能の両方を有する例を説明したが、集音撮像装置400は集音機能のみを有する装置および撮像機能のみを有する装置の組合せで実現されてもよい。
<2−2.装置の構成>
次に、本実施形態に係る情報処理システムの各装置の構成について説明する。なお、集音撮像装置400の物理的な構成は、表示集音装置200の構成に類似するため、説明を省略する。また、その他の装置の物理的な構成については、第1の実施形態の構成と実質的に同一であるため、説明を省略する。
図25を参照して、本実施形態に係る情報処理システムの各装置の論理構成について説明する。図25は、本実施形態に係る情報処理システムの各装置の概略的な機能構成例を示すブロック図である。なお、第1の実施形態の機能と実質的に同一の機能については説明を省略する。
(情報処理装置の論理構成)
図25に示したように、情報処理装置100−2は、通信部120、VR処理部122、音声入力適性判定部124および出力制御部126に加えて、位置情報取得部130、調整部132および集音態様制御部134を備える。
(通信部)
通信部120は、表示集音装置200−2および音処理装置300−2に加えて、集音撮像装置400と通信する。具体的には、通信部120は、集音撮像装置400から集音情報および画像情報を受信し、集音撮像装置400に後述する集音態様指示情報を送信する。
(位置情報取得部)
位置情報取得部130は、表示集音装置200−2の位置を示す情報(以下、位置情報とも称する。)を取得する。具体的には、位置情報取得部130は、通信部120を介して集音撮像装置400から取得された画像情報を用いて表示集音装置200−2の位置を推定し、推定される位置を示す位置情報を生成する。例えば、位置情報取得部130は、画像情報の示す画像に映る発光体50の位置および大きさに基づいて集音撮像装置400に対する発光体50すなわち表示集音装置200−2の位置を推定する。なお、予め発光体50の大きさを示す情報は、集音撮像装置400に記憶されてもよく、通信部120を介して取得されてもよい。また、位置情報は、集音撮像装置400を基準とする相対的な情報であってもよく、所定の空間座標における位置を示す情報であってもよい。また、位置情報の取得は、他の手段によって実現されてもよい。例えば、発光体50を用いずに表示集音装置200−2についての物体認識処理を利用して位置情報が取得されてもよく、外部装置において算出された位置情報が通信部120を介して取得されてもよい。
(音声入力適性判定部)
音声入力適性判定部124は、制御部の一部として、集音撮像装置400と当該集音撮像装置400により集音される音の発生源との位置関係に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部124は、集音撮像装置400と音声の発生源(口または顔)との位置関係および顔方向情報に基づいて音声入力の適性を判定する。さらに、図26および図27を参照して、本実施形態における音声入力適性判定処理について詳細に説明する。図26は、本実施形態における音声入力適性判定処理を説明するための図であり、図27は、本実施形態における音声入力適性の判定パターンの例を示す図である。
例えば、図26に示したように表示集音装置200−2および集音撮像装置400が配置される場合を考える。この場合、まず、音声入力適性判定部124は、位置情報に基づいて表示集音装置200−2(ユーザの顔)および集音撮像装置400を結ぶ方向(以下、集音方向とも称する。)を特定する。例えば、音声入力適性判定部124は、位置情報取得部130から提供される位置情報に基づいて、図26に示したような表示集音装置200−2から集音撮像装置400への集音方向D6を特定する。なお、以下では、集音方向を示す情報を集音方向情報とも称し、また上記D6のような当該表示集音装置200−2から集音撮像装置400への集音方向を示す集音方向情報をFaceToMicVecとも称する。
また、音声入力適性判定部124は、表示集音装置200−2から顔方向情報を取得する。例えば、音声入力適性判定部124は、図26に示したような表示集音装置200−2を装着するユーザの顔の向きD7を示す顔方向情報を当該表示集音装置200−2から通信部120を介して取得する。
次に、音声入力適性判定部124は、集音撮像装置400および表示集音装置200−2(すなわちユーザの顔)間の方向とユーザの顔の向きとの差異に係る情報に基づいて音声入力の適性を判定する。具体的には、音声入力適性判定部124は、特定される集音方向に係る集音方向情報および顔方向情報から、当該集音方向情報の示す方向と当該顔方向情報の示す方向とのなす角度を算出する。そして、音声入力適性判定部124は、算出角度に応じて音声入力の適性度として方向判定値を判定する。例えば、音声入力適性判定部124は、特定されるFaceToMicVecの逆方向の集音方向情報であるMicToFaceVecを算出し、当該MicToFaceVecの示す方向すなわち集音撮像装置400からユーザの顔に向かう方向と顔方向情報の示す方向とのなす角度αを算出する。そして、音声入力適性判定部124は、図27に示したような、算出される角度αを入力とする余弦関数の出力値に応じた値を方向判定値として判定する。例えば、当該方向判定値は、角度αが大きくなると音声入力の適性度が向上するような値に設定される。
なお、上記差異は、角度のほか、方向または方角の組合せであってもよく、その場合、当該組合せに応じて方向判定値が設定されてもよい。また、上記では、MicToFaceVecが利用される例を説明したが、MicToFaceVecと方向が反対であるFaceToMicVecがそのまま利用されてもよい。また、音源方向情報および顔方向情報などの方向はユーザを上から見た場合の水平面における方向である例を説明したが、これらの方向は当該水平面に対する垂直面における方向であってもよく、3次元空間における方向であってもよい。また、方向判定値は、図27にしめしたような5段階の値であってもよく、より細かい段階または粗い段階の値であってもよい。
さらに、集音撮像装置400が集音についてビームフォーミングを行う場合には、音声入力適性判定部124は、ビームフォーミングの方向を示す情報(以下、ビームフォーミング情報とも称する。)と顔方向情報とに基づいて音声入力の適性を判定してもよい。また、ビームフォーミングの方向が所定の範囲を有するときには、当該所定の範囲内の方向のうちの一方向がビームフォーミングの方向として利用されてもよい。
(調整部)
調整部132は、制御部の一部として、音声入力適性判定結果に基づいて集音態様制御部134および出力制御部126の動作を制御することにより、集音特性に関わる当該集音撮像装置400の態様、および当該集音される音の発生方向を誘導する出力、を制御する。具体的には、調整部132は、集音結果に関する情報に基づいて集音撮像装置400の態様の程度およびユーザの発声方向を誘導する出力の程度を制御する。より具体的には、調整部132は、集音結果を利用して処理されるコンテンツの種類情報に基づいて上記態様の程度および上記出力の程度を制御する。
例えば、調整部132は、方向判定値に基づいて全体の制御量を決定する。次に、調整部132は、集音結果に関する情報に基づいて、決定された全体の制御量から、集音撮像装置400の態様の変更に係る制御量およびユーザの発声方向の変更に係る制御量を決定する。これは、調整部132は、全体の制御量を集音撮像装置400の態様の制御およびユーザの発声方向の誘導に係る出力制御について配分しているともいえる。そして、調整部132は、決定される制御量に基づいて集音態様制御部134に集音撮像装置400の態様を制御させ、出力制御部126に発声方向を誘導する出力を制御させる。なお、出力制御部126は、方向判定値を用いて制御されてもよい。
また、調整部132は、コンテンツの種類に応じて、上記の制御量の配分を決定する。例えば、調整部132は、ユーザの頭部の動きに応じて提供内容(例えば表示画面)が変化するコンテンツについては、集音撮像装置400の態様の制御量を増加させ、ユーザの発声方向の誘導に係る出力の制御量を減少させる。また、画像または動画などのユーザが注視するコンテンツについても同様である。
なお、上記集音結果に関する情報は、集音撮像装置400またはユーザの周辺環境情報であってもよい。例えば、調整部132は、集音撮像装置400またはユーザの周辺の遮蔽物の有無または移動可能なスペースの広さなどに応じて、上記制御量の配分を決定する。
また、上記集音結果に関する情報は、ユーザの態様情報であってもよい。具体的には、調整部132は、ユーザの姿勢情報に応じて上記制御量の配分を決定する。例えば、ユーザが上方を向いている場合、調整部132は、集音撮像装置400の態様の制御量を減少させ、ユーザの発声方向の誘導に係る出力の制御量を増加させる。また、調整部132は、ユーザのコンテンツへの没入に係る情報(没入の有無または程度などを示す情報)に応じて上記制御量の配分を決定してもよい。例えば、ユーザがコンテンツに没入している場合、調整部132は、集音撮像装置400の態様の制御量を増加させ、ユーザの発声方向の誘導に係る出力の制御量を減少させる。なお、没入の有無および程度は、ユーザの生体情報、例えば眼球運動情報に基づいて判定されてもよい。
以上、集音撮像装置400の態様および当該発声方向を誘導する出力についての制御内容について説明したが、調整部132は、集音状況に基づいて当該制御の有無を決定してもよい。具体的には、調整部132は、集音撮像装置400の集音特性の1つである集音感度の情報に基づいて当該制御の有無を決定する。例えば、調整部132は、集音撮像装置400の集音感度が閾値以下に低下した場合、当該制御に係る処理を開始する。
また、調整部132は、上記集音結果に関する情報に基づいて集音撮像装置400の態様および発声方向を誘導する出力のうちの一方のみを制御してもよい。例えば、調整部132は、ユーザの態様情報からユーザが移動または顔の向きの変更をしづらい状況にあると判定される場合、集音態様制御部134にのみ処理を行わせてもよい。反対に、調整部132は、集音撮像装置400が移動機能および集音態様の制御機能を有していないまたはこれらの機能が正常に作動しないと判定される場合には、出力制御部126にのみ処理を行わせてもよい。
なお、上記では、調整部132が制御量の配分を制御する例を説明したが、調整部132は、音声入力適性判定結果および集音結果に関する情報に基づいて、集音撮像装置400の態様、およびユーザの発声方向を誘導する出力をそれぞれ独立して制御してもよい。
(集音態様制御部)
集音態様制御部134は、集音撮像装置400の集音特性に係る態様を制御する。具体的には、集音態様制御部134は、調整部132から指示される制御量に基づいて集音撮像装置400の態様を決定し、決定される態様への遷移を指示する情報(以下、集音態様指示情報とも称する。)を生成する。より具体的には、集音態様制御部134は、集音撮像装置400の位置、姿勢または集音についてのビームフォーミングを制御する。例えば、集音態様制御部134は、調整部132から指示される制御量に基づいて、集音撮像装置400の移動、姿勢変更またはビームフォーミングの向きもしくは範囲を指定する集音態様指示情報を生成する。
なお、集音態様制御部134は、別途に、位置情報に基づいてビームフォーミングを制御してもよい。例えば、集音態様制御部134は、位置情報が取得されると、集音撮像装置400から当該位置情報の示す位置に向かう方向をビームフォーミングの方向として集音態様指示情報を生成する。
(出力制御部)
出力制御部126は、調整部132の指示に基づいてユーザの発声方向を誘導する、視覚的な提示を制御する。具体的には、出力制御部126は、調整部132から指示される制御量に応じて、ユーザの顔の向きの変更方向を示す顔方向誘導オブジェクトを決定する。例えば、出力制御部126は、調整部132から指示される方向判定値が低い場合、方向判定値が高くなるようにユーザに顔の向きの変化を誘導するような顔方向誘導オブジェクトを決定する。
また、出力制御部126は、集音撮像装置400の位置を通知する出力を制御してもよい。具体的には、出力制御部126は、ユーザの顔と集音撮像装置400との位置関係に基づいて、集音撮像装置400の位置を示す表示オブジェクト(以下、集音位置オブジェクトとも称する。)を決定する。例えば、出力制御部126は、ユーザの顔に対する集音撮像装置400の位置を示す集音位置オブジェクトを決定する。
また、出力制御部126は、誘導により至るユーザの顔の向きを基準とした現時点のユーザの顔の向きについての評価に係る出力を制御してもよい。具体的には、出力制御部126は、誘導に従ってユーザが変更すべき顔の向きとユーザの現在の顔の向きとの乖離の程度に基づいて、顔の向きの評価を示す評価オブジェクトを決定する。例えば、出力制御部126は、当該乖離が小さくなるにつれて、音声入力の適性が向上していることを示す評価オブジェクトを決定する。
(集音撮像装置の論理構成)
図25に示したように、集音撮像装置400は、通信部430、制御部432、集音部434および撮像部436を備える。
(通信部)
通信部430は、情報処理装置100−2と通信する。具体的には、通信部430は、情報処理装置100−2に集音情報および画像情報を送信し、情報処理装置100−2から集音態様指示情報を受信する。
(制御部)
制御部432は、集音撮像装置400を全体的に制御する。具体的には、制御部432は、集音態様指示情報に基づいて集音特性に係る自装置の態様を制御する。例えば、制御部432は、集音態様指示情報から特定されるマイクロフォンの向きまたはビームフォーミングの向きもしくは範囲を設定する。また、制御部432は、集音態様指示情報から特定される位置に自装置を移動させる。
また、制御部432は、撮像部436の撮像パラメタを設定することにより、撮像部436を制御する。例えば、制御部432は、撮像方向、撮像範囲、撮像感度およびシャッタスピードなどの撮像パラメタを設定する。なお、撮像パラメタは、表示集音装置200−2が撮像されやすいように設定されてもよい。例えば、ユーザの頭部が撮像範囲に入りやすいような方向が撮像方向として設定されてもよい。また、撮像パラメタは、情報処理装置100−2から通知されてもよい。
(集音部)
集音部434は、集音撮像装置400の周辺について集音する。具体的には、集音部434は、集音撮像装置400の周辺において発生するユーザの音声などの音を集音する。また、集音部434は、集音に係るビームフォーミング処理を行う。例えば、集音部434は、ビームフォーミングの方向として設定された方向から入力される音の感度を向上させる。なお、集音部434は、集音した音に係る集音情報を生成する。
(撮像部)
撮像部436は、集音撮像装置400の周辺について撮像する。具体的には、撮像部436は、制御部432により設定される撮像パラメタに基づいて撮像する。例えば、撮像部436は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の信号変換素子などによって実現される。また、撮像は、可視光または赤外線などを対象として行われてもよく、撮像により得られる画像は、静止画または動画であってもよい。
<2−3.装置の処理>
次に、情報処理システムの構成要素のうち、主要な処理を行う情報処理装置100−2の処理について説明する。なお、第1の実施形態における処理と実質的に同一である処理については説明を省略する。
(全体処理)
まず、図28を参照して、本実施形態に係る情報処理装置100−2の全体処理について説明する。図28は、本実施形態に係る情報処理装置100−2の全体処理を概念的に示すフローチャートである。
情報処理装置100−2は、音声入力モードがオンであるかを判定する(ステップS902)。具体的には、調整部132は、集音撮像装置400を用いた音声入力モードがオンであるかを判定する。
音声入力モードがオンであると判定されると、情報処理装置100−2は、位置情報を取得する(ステップS904)。具体的には、位置情報取得部130は、音声入力モードがオンであると判定されると、集音撮像装置400から提供される画像情報を取得し、当該画像情報に基づいて表示集音装置200−2の位置すなわちユーザの顔の位置を示す位置情報を生成する。
また、情報処理装置100−2は、顔方向情報を取得する(ステップS906)。具体的には、音声入力適性判定部124は、表示集音装置200−2から提供される顔方向情報を取得する。
次に、情報処理装置100−2は、方向判定値を算出する(ステップS908)。具体的には、音声入力適性判定部124は、位置情報と顔方向情報とに基づいて方向判定値を算出する。詳細については後述する。
次に、情報処理装置100−2は、制御量を決定する(ステップS910)。具体的には、調整部132は、方向判定値に基づいて集音撮像装置400の態様および発声方向を誘導する出力についての制御量を決定する。詳細については後述する。
次に、情報処理装置100−2は、制御量に基づいて画像を生成し(ステップS912)、画像情報を表示集音装置200−2に通知する(ステップS914)。具体的には、出力制御部126は、調整部132から指示される制御量に基づいて重畳される表示オブジェクトを決定し、表示オブジェクトが重畳される画像を生成する。そして、通信部120は、生成される画像に係る画像情報を表示集音装置200−2に送信する。
次に、情報処理装置100−2は、制御量に基づいて集音撮像装置400の態様を決定し(ステップS916)、集音態様指示情報を集音撮像装置400に通知する(ステップS918)。具体的には、集音態様制御部134は、調整部132から指示される制御量に基づいて決定される集音撮像装置400の態様への遷移を指示する集音態様指示情報を生成する。そして、通信部120は、生成される集音態様指示情報を集音撮像装置400に送信する。
(方向判定値の算出処理)
続いて、図29を参照して、本実施形態における方向判定値の算出処理について説明する。図29は、本実施形態に係る情報処理装置100−2における方向判定値の算出処理を概念的に示すフローチャートである。
情報処理装置100−2は、位置情報に基づいて集音撮像装置400からユーザの顔への方向を算出する(ステップS1002)。具体的には、音声入力適性判定部124は、位置情報取得部130により取得された位置情報からMicToFaceVecを算出する。
次に、情報処理装置100−2は、算出方向と顔の向きとから角度αを算出する(ステップS1004)。具体的には、音声入力適性判定部124は、MicToFaceVecの示す方向と顔方向情報の示す顔の向きとのなす角度αを算出する。
次に、情報処理装置100−2は、角度αを入力とする余弦関数の出力結果を判定する(ステップS1006)。具体的には、音声入力適性判定部124は、cos(α)の値に応じて方向判定値を判定する。
余弦関数の出力結果が−1である場合、情報処理装置100−2は、方向判定値を5に設定する(ステップS1008)。余弦関数の出力結果が−1でなく0より小さい場合、情報処理装置100−2は、方向判定値を4に設定する(ステップS1010)。余弦関数の出力結果が0である場合、情報処理装置100−2は、方向判定値を3に設定する(ステップS1012)。余弦関数の出力結果が0より大きく1でない場合、情報処理装置100−2は、方向判定値を2に設定する(ステップS1014)。余弦関数の出力結果が1である場合、情報処理装置100−2は、方向判定値を1に設定する(ステップS1016)。
(制御量決定処理)
続いて、図30を参照して、制御量決定処理について説明する。図30は、本実施形態に係る情報処理装置100−2における制御量決定処理を概念的に示すフローチャートである。
情報処理装置100−2は、集音結果に関する情報を取得する(ステップS1102)。具体的には、調整部132は、集音結果を利用して処理されるコンテンツ種類情報、集音結果に影響を与える集音撮像装置400またはユーザの周辺環境情報およびユーザの態様情報などを取得する。
次に、情報処理装置100−2は、方向判定値と集音結果に関する情報とに基づいて発声方向を誘導する出力の制御量を決定する(ステップS1104)。具体的には、調整部132は、音声入力適性判定部124から提供される方向判定値と集音結果に関する情報とに基づいて出力制御部126に指示する制御量(方向判定値)を決定する。
また、情報処理装置100−2は、方向判定値と集音結果に関する情報とに基づいて集音撮像装置400の態様の制御量を決定する(ステップS1106)。具体的には、調整部132は、音声入力適性判定部124から提供される方向判定値と集音結果に関する情報とに基づいて集音態様制御部134に指示する制御量を決定する。
<2−4.処理例>
次に、図31〜図35を参照して、情報処理システムの処理例について説明する。図31〜図35は、本実施形態に係る情報処理システムの処理例を説明するための図である。
図31を参照して、ユーザが集音撮像装置400に向かう方向と正反対の方向に向いている状態すなわち図27の(15)の状態から説明を開始する。まず、情報処理装置100−2は、VR処理に基づいてゲーム画面を生成する。次に、情報処理装置100−2は、集音感度が閾値未満である場合、集音撮像装置400の態様の制御量およびユーザに発声方向を誘導する出力の制御量を決定する。そして、情報処理装置100−2は、当該誘導する出力の制御量に基づいて決定された上述の表示オブジェクトをゲーム画面に重畳させる。以下では、主に当該誘導する出力の例について説明する。
例えば、出力制御部126は、人の頭部を示す表示オブジェクト20、変化させるべき顔の向きを示す顔方向誘導オブジェクト32、ならびに集音撮像装置400の位置を示すための集音位置オブジェクト34および当該位置を分かり易くするための表示オブジェクト36をゲーム画面に重畳させる。なお、集音位置オブジェクト34は、上述した評価オブジェクトを兼ねていてもよい。
図27の(15)の状態では、ユーザの顔が真後ろに向くように頭部を回転するよう誘導するため、左右のどちらかに頭部を回転するように促す矢印の顔方向誘導オブジェクト32Lおよび32Rが重畳される。また、表示オブジェクト20の示すユーザの頭部を囲む円環として表示オブジェクト36が重畳され、集音位置オブジェクト34Aがユーザの真後ろに存在することを示すような位置に重畳される。また、集音位置オブジェクト34Aはまた、評価オブジェクトとしては、ユーザの態様に係る評価に応じたドット模様の濃淡で表現される。例えば、図31の例では、ユーザの顔の向きは方向判定値における最低値についての方向に相当するため、集音位置オブジェクト34Aは濃いドット模様で表現されている。さらに、出力制御部126は、集音撮像装置400の集音感度を示す表示オブジェクトをゲーム画面に重畳させてもよい。例えば、図31に示したように、現時点のユーザの態様において音声入力が行われた場合の集音撮像装置400の集音感度を示す「低感度」のような表示オブジェクト(以下、集音感度オブジェクトとも称する。)がゲーム画面に重畳されてもよい。なお、集音感度オブジェクトは、図31に示したような文字列のほか、図形または記号などであってもよい。
次に、図32を参照して、ユーザが少し反時計回りに頭部を回転させた状態すなわち図27の(14)の状態について説明する。(14)の状態では、ユーザの頭部が(15)の状態よりも少し反時計回りに回転しているため、顔方向誘導オブジェクト32Lの矢印が(15)の状態よりも短く形成される。また、ユーザの頭部が回転することにより顔の向きに対する集音撮像装置400の位置が変化するため、集音位置オブジェクト34Aは、ユーザの頭部の回転に応じて時計回りに移動させられる。なお、図32の例では、集音位置オブジェクト34Aのドット模様の濃淡は維持されているが、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡は図27の(15)の状態よりも薄く変化させられてもよい。これにより、ユーザの顔の向きについての評価が改善されたことがユーザに提示される。
次に、図33を参照して、ユーザがさらに反時計回りに頭部を回転させた状態すなわち図27の(13)の状態について説明する。(13)の状態では、ユーザの頭部が(14)の状態からさらに反時計回りに回転しているため、顔方向誘導オブジェクト32Lの矢印が(14)の状態よりも短く形成される。また、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡が(14)の状態よりも薄く変化させられた集音位置オブジェクト34Bが重畳されている。また、顔の向きに対する集音撮像装置400の位置が(14)の状態からさらに変化しているため、集音位置オブジェクト34Bは、(14)の状態から頭部の回転に応じてさらに時計回りに移動させられている。また、集音撮像装置400の集音感度が向上しているため、集音感度オブジェクトが「低感度」から「中感度」に変化させられている。
次に、図34を参照して、ユーザがさらに反時計回りに頭部を回転させた状態すなわち図27の(12)の状態について説明する。(12)の状態では、ユーザの頭部が(13)の状態からさらに反時計回りに回転しているため、顔方向誘導オブジェクト32Lの矢印が(13)の状態よりも短く形成される。また、誘導される顔の向きに即して顔の向きが変化しているため、ドット模様の濃淡が(13)の状態よりも薄く変化させられた集音位置オブジェクト34Cが重畳されている。また、顔の向きに対する集音撮像装置400の位置が(13)の状態からさらに変化しているため、集音位置オブジェクト34Cは、(13)の状態から頭部の回転に応じてさらに時計回りに移動させられている。また、集音撮像装置400の集音感度が向上しているため、集音感度オブジェクトが「中感度」から「高感度」に変化させられている。さらに、出力制御部126は、ビームフォーミングの方向を示す表示オブジェクト(以下、ビームフォーミングオブジェクトとも称する。)をゲーム画面に重畳させてもよい。例えば、図34に示したように、集音位置オブジェクト34Cを起点としてビームフォーミングの方向の範囲を示すビームフォーミングオブジェクトが重畳される。なお、当該ビームフォーミングオブジェクトの範囲は実際の集音撮像装置400のビームフォーミングの方向の範囲と正確に一致しなくてもよい。目に見えないビームフォーミングの方向についてユーザにイメージを持たせることが目的であるからである。
最後に、図35を参照して、ユーザの顔が集音撮像装置400と正対している状態すなわち図27の(11)の状態について説明する。(11)の状態では、追加的にユーザに頭部を回転させることが要求されないため、矢印の顔方向誘導オブジェクト32Lは重畳されない。また、集音撮像装置400がユーザの顔の正面に位置するようになっているため、集音位置オブジェクト34Cは、ユーザの頭部を模した表示オブジェクト20の正面奥に移動させられている。また、集音撮像装置400の集音感度が頭部の回転により変化する範囲における最高値となっているため、集音感度オブジェクトが「高感度」から「最高感度」に変化させられている。
なお、上述した一連の処理例では、発声方向を誘導する出力が顔の向きを誘導する出力である例を説明したが、誘導対象はユーザの移動であってもよい。例えば、顔方向誘導オブジェクトの代わりに、ユーザの移動方向または移動先を示す表示オブジェクトがゲーム画面に重畳されてもよい。
また、集音位置オブジェクトは、集音撮像装置400の態様を示す表示オブジェクトであってもよい。例えば、出力制御部126は、実際の集音撮像装置400の移動前、移動後もしくは移動中における位置、姿勢、ビームフォーミングの方向または移動中などの状態を示す表示オブジェクトを重畳させてもよい。
<2−5.第2の実施形態のまとめ>
このように、本開示の第2の実施形態によれば、情報処理装置100−2は、集音部(集音撮像装置400)と当該集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる当該集音部の態様、および当該集音される音の発生方向を誘導する出力、に係る制御を行う。このため、集音部の態様のみまたは音の発生方向のみを制御する場合と比べて集音特性が向上する可能性を高めることができる。例えば、集音部の態様または音の発生方向の一方を十分に制御できない場合に他方の制御でフォローすることができる。従って、集音特性をより確実に向上させることが可能となる。
また、上記集音される音は音声を含み、上記集音される音の発生方向はユーザの顔の方向を含み、情報処理装置100−2は、上記位置関係と上記ユーザの顔の向きとに基づいて上記制御を行う。ここで、ユーザの発声は口を用いて行われるため、発声方向をユーザの顔の向きとして処理することにより、発声方向を別途に特定する処理を省略することができる。そのため、処理の複雑化を抑制することが可能となる。
また、情報処理装置100−2は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、の差異に係る情報に基づいて上記制御を行う。このため、集音部からユーザへまたはユーザから集音部への方向が制御処理に利用されることにより、集音部の態様をより正確に制御することができ、また発声方向をより正確に誘導することができる。従って、より効果的に集音特性を向上させることが可能となる。
また、上記差異は、上記発生源から上記集音部への方向または上記集音部から上記発生源への方向と、上記ユーザの顔の向きと、のなす角を含む。このため、制御処理において角度情報が用いられることにより、制御の正確性または精度を向上させることができる。また、既存の角度計算技術を利用して制御処理が行われることにより、装置の開発コストの低減および処理の複雑化の防止が可能となる。
また、情報処理装置100−2は、上記集音部の集音結果に関する情報に基づいて上記集音部の態様および上記誘導する出力の程度を制御する。このため、一律に制御が行われる場合と比べて、より多くの状況に適した集音部の態様および誘導する出力を実現することができる。従って、より多くの状況において集音特性をより確実に向上させることが可能となる。
また、上記集音結果に関する情報は、上記集音結果を利用して処理されるコンテンツの種類情報を含む。このため、ユーザの視聴するコンテンツに応じた制御が行われることにより、ユーザのコンテンツの視聴を妨げることなく集音特性を向上させることができる。また、コンテンツの種類といった比較的簡素な情報を用いて制御内容が判別されることにより、制御処理の複雑化を抑制することができる。
また、上記集音結果に関する情報は、上記集音部または上記ユーザの周辺環境情報を含む。ここで、集音部またはユーザの存在する場所によっては、移動または姿勢の変更が困難である場合がある。これに対し、本構成によれば、集音部またはユーザの周辺環境に応じて適した制御配分で集音部の態様および誘導する出力の制御が行われることにより、集音部またはユーザに実行困難な挙動を強いることを抑制できる。
また、上記集音結果に関する情報は、上記ユーザの態様情報を含む。ここで、ユーザの態様によっては、誘導される方向に発声方向を変更することが困難な場合がある。これに対し、本構成によれば、ユーザの態様に応じて適した制御配分で集音部の態様および誘導する出力の制御が行われることにより、ユーザフレンドリーな誘導を実現することができる。概して、ユーザは追加的な動作を行うことを避けたいと考える傾向にあるため、ユーザがコンテンツ視聴などに集中したい場合には特に本構成は有益である。
また、上記ユーザの態様情報は、上記ユーザの姿勢に係る情報を含む。このため、当該情報から特定されるユーザの姿勢から変更可能なまたは望ましい範囲で姿勢などを誘導することができる。従って、ユーザに無理な姿勢を強いることを抑制することが可能となる。
また、上記ユーザの態様情報は、上記集音結果を利用して処理されるコンテンツへの上記ユーザの没入に係る情報を含む。このため、ユーザのコンテンツ視聴への没入を妨げることなく、集音特性を向上させることができる。従って、ユーザに不快感を与えることなく、ユーザの利便性を向上させることが可能となる。
また、情報処理装置100−2は、上記集音部の集音感度情報に基づいて上記制御の有無を決定する。このため、例えば集音感度が低下している場合に制御が行われることにより、常に制御が行われる場合と比べて装置の消費電力を抑制することができる。また、誘導する出力が適時にユーザに提供されることにより、出力に対するユーザの煩雑さを抑制することができる。
また、情報処理装置100−2は、上記集音部の集音結果に関する情報に基づいて上記集音部の態様および上記誘導する出力のうちの一方のみを制御する。このため、集音部の態様の変更が困難である場合またはユーザに誘導を促すことが困難である場合であっても、集音特性を向上させることができる。
また、上記集音部の態様は、上記集音部の位置または姿勢を含む。ここで、当該集音部の位置または姿勢は、集音特性に影響を与える要素のうちの影響が比較的大きい集音方向を決定する要素である。そのため、当該位置または姿勢を制御することにより、集音特性をより効果的に向上させることが可能となる。
また、上記集音部の態様は、上記集音部の集音に係るビームフォーミングの態様を含む。このため、集音部の姿勢を変更したり、移動させたりすることなく、集音特性を向上させることができる。従って、集音部に姿勢変更または移動のための構成を設けずに済み、情報処理システムに適用可能な集音部のバリエーションを拡張すること、または集音部のコストを低減することが可能となる。
また、上記誘導する出力は、上記ユーザの顔の向きの変更方向を通知する出力を含む。このため、より高感度な音声入力するための行動をユーザは把握することができる。従って、ユーザが音声入力に失敗した理由または取るべき行動が分からないために不快感を覚える可能性を抑制することができる。また、顔の向きがユーザに直接的に通知されることにより、ユーザは直感的に取るべき動作を理解することができる。
また、上記誘導する出力は、上記集音部の位置を通知する出力を含む。ここで、ユーザは、集音部の方へ顔を向ければ集音感度が向上することを理解していることが多い。そのため、本構成のように、集音部の位置をユーザに通知することにより、装置から細かく誘導せずともユーザは直感的に取るべき動作を把握することができる。従って、ユーザへの通知が簡素化されることにより、ユーザの通知に対する煩雑さを抑制することが可能となる。
また、上記誘導する出力は、上記ユーザへの視覚的な提示を含む。ここで、視覚的な情報伝達は、概して他の感覚を用いた情報伝達よりも情報量が多い。そのため、ユーザは誘導を理解しやすくなり、円滑な誘導が可能となる。
また、上記誘導する出力は、誘導により至るユーザの顔の向きを基準とした上記ユーザの顔の向きについての評価に係る出力を含む。このため、ユーザは自身の動作が誘導通りに行われているかを把握することができる。従って、誘導に即したユーザ動作が行われやすくなることにより、集音特性をより確実に向上させることが可能となる。
<3.適用例>
以上、本開示の各実施形態に係る情報処理システムについて説明した。当該情報処理装置100は、様々な分野または状況について適用され得る。以下、当該情報処理システムの適用例について説明する。
(医療分野への適用)
上述した情報処理システムは、医療分野に適用されてもよい。ここで、医療の高度化に伴い、手術などの医療行為は複数人で行うことが多くなっている。そのため、手術関係者の間でのコミュニケーションが重要となってくる。そこで、当該コミュニケーションを助長するために、上述した表示集音装置200を用いて視覚的情報の共有および音声による意思疎通を図ることが考えられる。例えば、手術に際して、遠隔地にいるアドバイザが表示集音装置200を装着して手術状況を確認しながら、術者に対して指示または助言を行うことが想定される。この場合、当該アドバイザは表示される手術の状況の視聴に集中するため、周辺の状況を把握することが困難でありえる。さらに、このような場合に、周辺に雑音源が存在したり、または表示集音装置200と独立して離れた位置に設置される集音装置が利用されたりするときがある。しかしそのようなときであっても、当該情報処理システムによれば、雑音源からの雑音を回避し、集音感度を維持するようにユーザを誘導することができる。また、集音感度が高くなるように集音装置側を制御することもできる。従って、円滑なコミュニケーションが実現され、医療の安全性の確保および手術時間の短縮が可能となる。
(ロボットへの適用)
また、上述した情報処理システムは、ロボットに適用されてもよい。昨今のロボット技術の発展に伴い、1つのロボットにおける姿勢変更、移動、音声認識および音声出力などの複数の機能の複合化が進んでいる。そこで、上述した集音撮像装置400の機能をロボットに適用することが考えられる。例えば、表示集音装置200を装着するユーザが当該ロボットに対して話しかける場合、ユーザはロボットに向かって発声することが想定される。しかし、当該ロボットのどこに集音装置が設けられているか、さらにはどの方向が集音感度の高い方向なのかをユーザが把握することは難しい。これに対し、当該情報処理システムによれば、ロボットのどの位置に向かって発声すればよいかが提示されるため、集音感度の高い音声入力が可能となる。従って、ユーザは音声入力の失敗によるストレスを感じることなくロボットを利用することができる。
また、別の事例として、ユーザが表示集音装置200を装着したまま屋外に出る場合を考える。この場合、ユーザの周辺には概して他の物体、例えば他人、車両または建物などが存在する。そのため、音声入力の際に、雑音源を回避したり集音感度を向上させたりするために、顔の向きを変えたり移動したりすることが困難である可能性がある。また、ユーザを移動させると事故が発生するなどの危険性もある。これに対し、当該情報処理システムによれば、ユーザの態様を変更することに困難性または危険性があるときは、ロボット側すなわち集音装置側の態様を優先して変更させることにより、屋外であってもユーザの安全性を確保しながら、快適な音声入力を実現させることが可能となる。なお、当該ロボットの代わりにまたは追加的に路上の機器に集音撮像装置400の機能が備えられてもよい。
<4.むすび>
以上、本開示の第1の実施形態によれば、雑音源と表示集音装置200−1との位置関係を集音特性が向上するように変化させる動作をユーザに誘導することにより、ユーザは誘導に従うだけで雑音が入力されにくい音声入力により適した状況を実現することができる。また、ユーザに動作させることにより雑音が入力されにくくなるため、情報処理装置100−1または情報処理システムに雑音回避のための別途の構成を追加せずに済む。従って、ユーザビリティの観点およびコストまたは設備の観点から、雑音入力の抑制を容易にすることが可能となる。
また、本開示の第2の実施形態によれば、集音部の態様のみまたは音の発生方向のみを制御する場合と比べて集音特性が向上する可能性を高めることができる。例えば、集音部の態様または音の発生方向の一方を十分に制御できない場合に他方の制御でフォローすることができる。従って、集音特性をより確実に向上させることが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、ユーザの音声が集音対象であるとしたが、本技術はかかる例に限定されない。例えば、口以外の他の身体の部位もしくは物体を用いて発せられる音または音出力装置などの出力する音が集音対象であってもよい。
また、上記実施形態では、ユーザの動作などを誘導する出力が視覚的な提示である例を説明したが、当該誘導する出力は他の出力であってもよい。例えば、当該誘導する出力は、音声出力であってもよく、触覚振動出力であってもよい。この場合、表示集音装置200は表示部を有しないいわゆるヘッドセットであってもよい。
また、上記実施形態では、雑音またはユーザの発声音が直線的に集音される例を説明したが、これらの音は反射した後に集音されてもよい。そのため、これらの音の反射を考慮したユーザの動作を誘導する出力および集音撮像装置400の態様の制御が行われてもよい。
また、上記第2の実施形態では、情報処理装置100において表示集音装置200の位置情報を生成する例を説明したが、表示集音装置200において位置情報が生成されてもよい。例えば、集音撮像装置400に発光体50が取り付けられ、表示集音装置200に撮像部が設けられることにより、表示集音装置200側で位置情報の生成処理を行うことが可能となる。
また、上記第2の実施形態では、集音撮像装置400の態様が通信を介して情報処理装置100により制御される例を説明したが、表示集音装置200を装着するユーザ以外の他のユーザに集音撮像装置400の態様を変更させてもよい。例えば、情報処理装置100は、集音撮像装置400の態様の変更を当該他のユーザに誘導する出力を外部装置または情報処理装置100が追加的に備える出力部に行わせてもよい。この場合、集音撮像装置400の構成を簡素化することができる。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的にまたは個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
また、情報処理装置100に内蔵されるハードウェアに上述した情報処理装置100の各論理構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶された記憶媒体も提供される。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御する制御部を備える、
情報処理装置。
(2)
前記ユーザの発生させる音は音声を含み、
前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記誘導する出力を制御する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記誘導する出力を制御する、前記(2)に記載の情報処理装置。
(4)
前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、前記(3)に記載の情報処理装置。
(5)
前記ユーザの動作は、前記ユーザの顔の向きの変化を含む、前記(2)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記ユーザの動作は、前記発生源と前記集音部との間を所定の物体により遮断する動作を含む、前記(2)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記誘導する出力は、誘導される動作により至るユーザの態様を基準とした前記ユーザの態様についての評価に係る出力を含む、前記(2)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記誘導する出力は、前記集音部により集音される前記雑音に係る出力を含む、前記(2)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記雑音に係る出力は、前記集音部により集音される前記雑音の到達領域を通知する出力を含む、前記(8)に記載の情報処理装置。
(10)
前記雑音に係る出力は、前記集音部により集音される前記雑音の音圧を通知する出力を含む、前記(8)または(9)に記載の情報処理装置。
(11)
前記誘導する出力は、前記ユーザへの視覚的な提示を含む、前記(2)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記ユーザへの視覚的な提示は、画像または外界像への表示オブジェクトの重畳を含む、前記(11)に記載の情報処理装置。
(13)
前記制御部は、前記ユーザの顔の向きまたは前記雑音の音圧に基づいて、前記ユーザの発生させる音の集音適否の通知を制御する、前記(2)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記誘導する出力の有無を制御する、前記(2)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記集音結果に関する情報は、前記集音結果を利用する処理の開始情報を含む、前記(14)に記載の情報処理装置。
(16)
前記集音結果に関する情報は、前記集音部により集音される前記雑音の音圧情報を含む、前記(14)または(15)に記載の情報処理装置。
(17)
前記制御部は、前記集音部の集音結果を利用する処理の実行中に前記誘導する出力が行われる場合、前記処理の少なくとも一部を停止させる、前記(2)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記処理の少なくとも一部は、前記処理における前記ユーザの顔の向きを利用した処理を含む、前記(17)に記載の情報処理装置。
(19)
プロセッサによって、雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御することを含む、
情報処理方法。
(20)
雑音の発生源と、ユーザの発生させる音を集音する集音部と、の位置関係に基づいて、前記集音部の処理に係る操作とは異なる、発生した音の集音特性を変化させる前記ユーザの動作を誘導する出力を制御する制御機能を、
コンピュータに実現させるためのプログラム。
また、以下のような構成も本開示の技術的範囲に属する。
(1)
集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。
(2)
前記集音される音は、音声を含み、
前記集音される音の発生方向は、ユーザの顔の方向を含み、
前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記制御を行う、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記制御を行う、前記(2)に記載の情報処理装置。
(4)
前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、前記(3)に記載の情報処理装置。
(5)
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様、および前記誘導する出力、の程度を制御する、前記(2)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記集音結果に関する情報は、前記集音結果を利用して処理されるコンテンツの種類情報を含む、前記(5)に記載の情報処理装置。
(7)
前記集音結果に関する情報は、前記集音部または前記ユーザの周辺環境情報を含む、前記(5)または(6)に記載の情報処理装置。
(8)
前記集音結果に関する情報は、前記ユーザの態様情報を含む、前記(5)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記ユーザの態様情報は、前記ユーザの姿勢に係る情報を含む、前記(8)に記載の情報処理装置。
(10)
前記ユーザの態様情報は、前記集音結果を利用して処理されるコンテンツへの前記ユーザの没入に係る情報を含む、前記(8)または(9)に記載の情報処理装置。
(11)
前記制御部は、前記集音部の集音感度情報に基づいて前記制御の有無を決定する、前記(2)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様および前記誘導する出力のうちの一方のみを制御する、前記(2)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記集音部の態様は、前記集音部の位置または姿勢を含む、前記(2)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記集音部の態様は、前記集音部の集音に係るビームフォーミングの態様を含む、前記(2)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記誘導する出力は、前記ユーザの顔の向きの変更方向を通知する出力を含む、前記(2)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記誘導する出力は、前記集音部の位置を通知する出力を含む、前記(2)〜(15)のいずれか1項に記載の情報処理装置。
(17)
前記誘導する出力は、前記ユーザへの視覚的な提示を含む、前記(2)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記誘導する出力は、誘導により至るユーザの顔の向きを基準とした前記ユーザの顔の向きについての評価に係る出力を含む、前記(2)〜(17)のいずれか1項に記載の情報処理装置。
(19)
プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、
情報処理方法。
(20)
集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、
コンピュータに実現させるためのプログラム。
100 情報処理装置
120 通信部
122 VR処理部
124 音声入力適性判定部
126 出力制御部
130 位置情報取得部
132 調整部
134 集音態様制御部
200 表示集音装置
300 音処理装置
400 集音撮像装置

Claims (20)

  1. 集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御部を備える、情報処理装置。
  2. 前記集音される音は、音声を含み、
    前記集音される音の発生方向は、ユーザの顔の方向を含み、
    前記制御部は、前記位置関係と前記ユーザの顔の向きとに基づいて前記制御を行う、請求項1に記載の情報処理装置。
  3. 前記制御部は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、の差異に係る情報に基づいて前記制御を行う、請求項2に記載の情報処理装置。
  4. 前記差異は、前記発生源から前記集音部への方向または前記集音部から前記発生源への方向と、前記ユーザの顔の向きと、のなす角を含む、請求項3に記載の情報処理装置。
  5. 前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様、および前記誘導する出力、の程度を制御する、請求項2に記載の情報処理装置。
  6. 前記集音結果に関する情報は、前記集音結果を利用して処理されるコンテンツの種類情報を含む、請求項5に記載の情報処理装置。
  7. 前記集音結果に関する情報は、前記集音部または前記ユーザの周辺環境情報を含む、請求項5に記載の情報処理装置。
  8. 前記集音結果に関する情報は、前記ユーザの態様情報を含む、請求項5に記載の情報処理装置。
  9. 前記ユーザの態様情報は、前記ユーザの姿勢に係る情報を含む、請求項8に記載の情報処理装置。
  10. 前記ユーザの態様情報は、前記集音結果を利用して処理されるコンテンツへの前記ユーザの没入に係る情報を含む、請求項8に記載の情報処理装置。
  11. 前記制御部は、前記集音部の集音感度情報に基づいて前記制御の有無を決定する、請求項2に記載の情報処理装置。
  12. 前記制御部は、前記集音部の集音結果に関する情報に基づいて前記集音部の態様および前記誘導する出力のうちの一方のみを制御する、請求項2に記載の情報処理装置。
  13. 前記集音部の態様は、前記集音部の位置または姿勢を含む、請求項2に記載の情報処理装置。
  14. 前記集音部の態様は、前記集音部の集音に係るビームフォーミングの態様を含む、請求項2に記載の情報処理装置。
  15. 前記誘導する出力は、前記ユーザの顔の向きの変更方向を通知する出力を含む、請求項2に記載の情報処理装置。
  16. 前記誘導する出力は、前記集音部の位置を通知する出力を含む、請求項2に記載の情報処理装置。
  17. 前記誘導する出力は、前記ユーザへの視覚的な提示を含む、請求項2に記載の情報処理装置。
  18. 前記誘導する出力は、誘導により至るユーザの顔の向きを基準とした前記ユーザの顔の向きについての評価に係る出力を含む、請求項2に記載の情報処理装置。
  19. プロセッサにより、集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行うことを含む、
    情報処理方法。
  20. 集音部と前記集音部により集音される音の発生源との位置関係に基づいて、集音特性に関わる前記集音部の態様、および前記集音される音の発生方向を誘導する出力、に係る制御を行う制御機能を、
    コンピュータに実現させるためのプログラム。
JP2015242190A 2015-12-11 2015-12-11 情報処理装置、情報処理方法およびプログラム Pending JP2017107482A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015242190A JP2017107482A (ja) 2015-12-11 2015-12-11 情報処理装置、情報処理方法およびプログラム
CN201680071082.6A CN108369492B (zh) 2015-12-11 2016-09-21 信息处理装置、信息处理方法及程序
US15/760,025 US20180254038A1 (en) 2015-12-11 2016-09-21 Information processing device, information processing method, and program
PCT/JP2016/077787 WO2017098773A1 (ja) 2015-12-11 2016-09-21 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015242190A JP2017107482A (ja) 2015-12-11 2015-12-11 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2017107482A true JP2017107482A (ja) 2017-06-15

Family

ID=59013003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015242190A Pending JP2017107482A (ja) 2015-12-11 2015-12-11 情報処理装置、情報処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20180254038A1 (ja)
JP (1) JP2017107482A (ja)
CN (1) CN108369492B (ja)
WO (1) WO2017098773A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200322301A1 (en) * 2016-01-15 2020-10-08 Staton Techiya Llc Message delivery and presentation methods, systems and devices using receptivity
JP7456838B2 (ja) 2020-04-07 2024-03-27 株式会社Subaru 車両内音源探査装置及び車両内音源探査方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6440910B2 (ja) * 2016-07-29 2018-12-19 三菱電機株式会社 表示装置、表示制御装置および表示制御方法
CN111295888B (zh) * 2017-11-01 2021-09-10 松下知识产权经营株式会社 行动引导***、行动引导方法以及记录介质
US10838488B2 (en) 2018-10-10 2020-11-17 Plutovr Evaluating alignment of inputs and outputs for virtual environments
US10678323B2 (en) 2018-10-10 2020-06-09 Plutovr Reference frames for virtual environments
US11100814B2 (en) * 2019-03-14 2021-08-24 Peter Stevens Haptic and visual communication system for the hearing impaired
US10897663B1 (en) * 2019-11-21 2021-01-19 Bose Corporation Active transit vehicle classification
CN113031901B (zh) 2021-02-19 2023-01-17 北京百度网讯科技有限公司 语音处理方法、装置、电子设备以及可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376123B (en) * 2001-01-29 2004-06-30 Hewlett Packard Co Facilitation of speech recognition in user interface
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法
US8619005B2 (en) * 2010-09-09 2013-12-31 Eastman Kodak Company Switchable head-mounted display transition
JP2012186551A (ja) * 2011-03-03 2012-09-27 Hitachi Ltd 制御装置、制御システムと制御方法
JP2014178339A (ja) * 2011-06-03 2014-09-25 Nec Corp 音声処理システム、発話者の音声取得方法、音声処理装置およびその制御方法と制御プログラム
JP6065369B2 (ja) * 2012-02-03 2017-01-25 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
EP2831706B1 (en) * 2012-03-26 2018-12-26 Tata Consultancy Services Limited A multimodal system and method facilitating gesture creation through scalar and vector data
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
EP3134847A1 (en) * 2014-04-23 2017-03-01 Google, Inc. User interface control using gaze tracking
US9622013B2 (en) * 2014-12-08 2017-04-11 Harman International Industries, Inc. Directional sound modification
JP6505556B2 (ja) * 2015-09-07 2019-04-24 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および画像生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200322301A1 (en) * 2016-01-15 2020-10-08 Staton Techiya Llc Message delivery and presentation methods, systems and devices using receptivity
JP7456838B2 (ja) 2020-04-07 2024-03-27 株式会社Subaru 車両内音源探査装置及び車両内音源探査方法

Also Published As

Publication number Publication date
CN108369492B (zh) 2021-10-15
WO2017098773A1 (ja) 2017-06-15
US20180254038A1 (en) 2018-09-06
CN108369492A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
WO2017098773A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2017098775A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11150738B2 (en) Wearable glasses and method of providing content using the same
CN108028957B (zh) 信息处理装置、信息处理方法和机器可读介质
CN104380237B (zh) 用于头戴式显示器的反应性用户接口
WO2017165035A1 (en) Gaze-based sound selection
KR20140128306A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
JPWO2020012955A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019150880A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2016088410A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN118103799A (zh) 与远程设备的用户交互
WO2019171802A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6393387B1 (ja) 仮想体験を提供するためのプログラム、コンピュータ、および方法
US11170539B2 (en) Information processing device and information processing method
WO2016157678A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6766403B2 (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、コンピュータープログラム
KR20240009984A (ko) 전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색
US20240119928A1 (en) Media control tools for managing communications between devices
WO2022044342A1 (ja) ヘッドマウントディスプレイ及びその音声処理方法
WO2022149497A1 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
CN116802589A (zh) 基于手指操纵数据和非系留输入的对象参与
JP2019075091A (ja) 仮想体験を提供するためのプログラム、コンピュータ、および方法