JP2016180778A

JP2016180778A - 情報処理システムおよび情報処理方法

Info

Publication number: JP2016180778A
Application number: JP2015059566A
Authority: JP
Inventors: 真一河野; Shinichi Kono; 祐平滝; Yuhei Taki
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2016-10-13

Abstract

【課題】音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。
【解決手段】集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。
【選択図】図３

Description

本開示は、情報処理システムおよび情報処理方法に関する。

近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の結果を得る技術が知られている。音声認識処理の結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る（例えば、特許文献１参照。）。

特開２００４−０９４０７７号公報

ここで、マイクロフォンによって集音された音情報に対する音声認識処理の開始される条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。

本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。

本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、情報処理方法が提供される。

以上説明したように本開示によれば、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

一般的なシステムにおける音声認識処理を説明するための図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。フィラーとその音声波形との対応関係の例を示す図である。集音部から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。情報処理システムの構成の変形例１を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
０．背景
１．本開示の実施形態
１．１．システム構成例
１．２．機能構成例
１．３．情報処理システムの機能詳細
１．４．システム構成の変形例
１．５．ハードウェア構成例
２．むすび

＜０．背景＞
まず、図面を参照しながら本開示の実施形態の背景を説明する。図１は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。

図１に示すように、一般的なシステム（以下、単に「システム」とも言う。）は、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４を選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面Ｇ９１を表示する（時刻Ｔ９１）。集音開始画面Ｇ９１が表示されると、ユーザは発話を開始し（時刻Ｔ９２）、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う（Ｓ９１）。

発話区間Ｈａが終了すると（時刻Ｔ９３）、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間（以下、「無音区間」とも言う。）Ｍａが検出されると（時刻Ｔ９４）、発話区間Ｈａにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する（Ｓ９２）。

ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。

ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理（例えば、言語解析、意味解析など）を施すことによって発話内容が抽出されてよい。

システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面Ｇ９２を表示する。そして、システムは、実行動作が終了すると（時刻Ｔ９５）、実行動作の結果を示す画面Ｇ９３を表示する。図１に示した例においては、実行動作の結果を示す画面Ｇ９３に、音声認識処理の結果としての文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。

以上に説明したように、一般的なシステムにおいては、音声認識処理の開始条件が出力されないうちに音声認識処理が開始されてしまう。そのため、音声認識開始操作オブジェクトＧ１４を選択する操作を行った後に発話内容を考えるユーザが存在した場合などには、発話開始までに集音された音情報も音声認識処理の対象となってしまい、音声認識処理に影響を与えてしまう可能性がある。

例えば、発話開始までに集音される音情報の中には、ユーザ自身によって発せられるフィラーや余計な発話などが存在し得る。フィラーは、「ええと」「あの」「まあ」などといった言葉のように、発話と発話との合間にユーザによって挟み込まれる言葉を意味する。また、発話開始までに集音される音情報の中には、雑音なども存在し得る。なお、上記したように、雑音は、集音部１２０から入力される音情報からユーザの発する音声を除いた音情報を意味してよい。

また、発話開始までに集音された音情報に対する音声認識処理の結果が、発話が開始されてから集音された音情報に対する音声認識処理に影響を与えてしまう場合もあり得る。また、発話開始までに集音された音情報に基づいて音声認識処理がなされ、発話開始までに無音区間が検出されてしまった場合、発話開始前に音声認識処理の結果に基づく実行動作が始まってしまう可能性もある。

そこで、本明細書においては、音声認識処理が開始される前に音声認識処理の開始条件を出力させる技術を提案する。さらに、仮に状況に依らず一定の開始条件を出力させるようにした場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本明細書においては、音声認識処理を状況に応じて柔軟に開始させることが可能な技術を提案する。

以上、本開示の実施形態の背景を説明した。

＜１．本開示の実施形態＞
［１．１．システム構成例］
続いて、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識処理を行うことが可能である。

画像入力部１１０は、画像を入力する機能を有する。図２に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図２に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

出力部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図２に示した例では、出力部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、出力部１３０が設けられる位置は特に限定されない。また、典型的には、出力部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部１３０が表示面を有する場合には、画面の表示面は、出力部１３０が有する表示面であってもよい。

集音部１２０は、集音する機能を有する。図２に示した例では、集音部１２０は、テーブルＴｂｌの上方に存在する３つのマイクロフォンとテーブルＴｂｌの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向が推定され得る。また、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。

以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

［１．２．機能構成例］
続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図３は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図３に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、出力部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および集音部１２０それぞれが入力した情報を、出力部１３０から出力する情報に反映させる。図３に示したように、情報処理装置１４０は、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

なお、情報処理装置１４０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

［１．３．情報処理システムの機能詳細］
続いて、本開示の実施形態に係る情報処理システム１０の機能詳細について説明する。図４は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図４を参照すると、出力制御部１４６は、初期画面Ｇ１０−１を表示させている。初期画面Ｇ１０−１には、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４、音声認識処理によって得られた文字列（以下、「認識文字列」とも言う。）の表示欄である認識文字列表示欄Ｇ１１が含まれる。

また、初期画面Ｇ１０−１には、認識文字列を全部削除するための全削除操作オブジェクトＧ１２、認識文字列を確定するための確定操作オブジェクトＧ１３が含まれる。また、初期画面Ｇ１０−１には、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトＧ１５、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトＧ１６、カーソル位置の文字または単語を削除するための削除操作オブジェクトＧ１７が含まれる。

まず、画面Ｇ１０−２に示すように、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、音声認識処理の開始条件を出力させる。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトＧ１４を選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。

例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい（ＰｕｓｈＴｏＴａｌｋ型）。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド（例えば、「音声」という発話など）の実行であってもよい。

あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ（例えば、手の振り上げ、手の振り下ろし、顔の動き（例えば、うなずき、左右に顔を傾ける動作など）など）であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部１２０から取得されたことを含んでもよい。

まず、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明する。

図５は、音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部１４６は、音声認識処理の起動トリガが検出されると、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。残り時間通知画面Ｇ２１−１には、音声認識処理が開始されるまでの残り時間Ｇ２３−１と開始条件の出力を停止させるための取り消しオブジェクトＧ２２とが含まれている。

続いて、出力制御部１４６は、時間の経過に伴って残り時間Ｇ２３−１を減らしていく。例えば、出力制御部１４６は、残り時間Ｇ２３−１から減らされた後の残り時間Ｇ２３−２を含んだ残り時間通知画面Ｇ２１−２を出力させる。続いて、出力制御部１４６は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。開始条件の出力が停止されると、ユーザは集音部１２０に向かって発話を開始する（時刻Ｔ１４）。

集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、出力制御部１４６は、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）Ｍｕを表示させる。表示オブジェクトＭｕは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトＭｕが動きを有する場合、表示オブジェクトＭｕの移動方向Ｄｅは、ユーザによる発話音声の音源から集音部１２０への到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

例えば、認識制御部１４４は、音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

あるいは、認識制御部１４４は、集音部１２０によって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。

あるいは、認識制御部１４４は、複数の到来方向のうち集音部１２０によって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部１４４は、ユーザによる発話音声の到来方向以外の方向から集音部１２０によって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム１０からの出力音も含まれ得る。

また、図５には、出力制御部１４６が、ユーザによる発話音声の到来方向（移動方向Ｄｅ）に表示オブジェクトＭｕを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部１２０によって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトＭｕの動きは、かかる動きに限定されない。また、図５には、表示オブジェクトＭｕの移動先が、音声認識開始操作オブジェクトＧ１４である例が示されている。しかし、表示オブジェクトＭｕの移動先は、かかる例に限定されない。

また、図５には、出力制御部１４６が、集音部１２０による集音に応じて次々と出現した円形状の表示オブジェクトＭｕを移動させる例が示されているが、表示オブジェクトＭｕの表示態様はかかる例に限定されない。例えば、出力制御部１４６は、音情報に応じた所定の情報（例えば、音情報の音声らしさ、音量など）に基づいて表示オブジェクトＭｕの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトＭｕのパラメータは、表示オブジェクトＭｕの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献（特開２０１０−３８９４３号公報）に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献（特開２００７−３２８２２８号公報）に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部１４６によって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

認識制御部１４４は、開始条件が満たされると、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部１４４は、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部１４５に開始させてもよいし、表示オブジェクトＭｕが音声認識開始操作オブジェクトＧ１４に到達してから、表示オブジェクトＭｕに対応する音情報に対する音声認識処理を音声認識部１４５に開始させてもよい。

なお、ユーザは音声認識処理の開始を取り消したい場合には、取り消しオブジェクトＧ２２を選択すればよい。ユーザが、取り消しオブジェクトＧ２２を選択すると、かかる操作は、出力停止操作として操作入力部１１５によって入力され、操作検出部１４３によって出力停止操作が検出される。操作検出部１４３によって出力停止操作が検出されると、出力制御部１４６は、開始条件の出力を停止させる。

以上、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明した。続いて、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明する。

図６は、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部１４６は、音声認識処理の起動トリガが検出されると、発話開始確認画面Ｇ２４−１の出力を開始させる（時刻Ｔ１１）。発話開始確認画面Ｇ２４−１には、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトＧ２５−１と取り消しオブジェクトＧ２２とが含まれている。

続いて、ユーザによって音声認識処理開始オブジェクトＧ２５−１を選択する操作がなされると（発話開始確認画面Ｇ２４−２）、その操作が操作入力部１１５によって入力され、操作検出部１４３によって検出される。出力制御部１４６は、音声認識処理開始オブジェクトＧ２５−１を選択する操作が検出されて開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。開始条件の出力が停止されると、ユーザは集音部１２０に向かって発話を開始する（時刻Ｔ１４）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

以上、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明した。音声認識処理の開始条件が出力されることによって、ユーザは、図５および図６にも示されるように、発話開始までに集音される音情報（例えば、フィラーや余計な発話など）が音声認識処理に与える影響を低減することが可能となる。

このようにして開始条件が出力され得るが、開始条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本開示の実施形態において、出力制御部１４６は、出力部１３０に出力させる音声認識処理の開始条件を動的に変更する。かかる構成によって、音声認識処理を状況に応じて柔軟に開始させることが可能となる。例えば、出力制御部１４６は、所定の情報に基づいて、出力部１３０に出力させる音声認識処理の開始条件を動的に変更すればよい。

所定の情報は特に限定されない。まず、音声認識処理の起動トリガが検出された後に集音部１２０から入力された音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する例を説明する。図７は、音声認識処理の起動トリガが検出された後に集音部１２０から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。

図７に示すように、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０から入力された音情報に含まれる第１の種類の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する。

ここで、第１の種類の音情報は特に限定されない。例えば、第１の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第１の種類の音情報が雑音である場合を例として説明を続ける。

一つ目として、雑音の音量（以下、「雑音レベル」とも言う。）が第１の閾値ｎ１を上回る場合には、ユーザの発話に対する音声認識処理の成功率は低めであるため、ユーザに音声認識処理の開始タイミングを入力させるのが望ましいと考えられる。そこで、出力制御部１４６は、雑音レベルが第１の閾値ｎ１を上回る場合には、音声認識処理を開始させるために必要なユーザ操作に関する情報に開始条件を変更するのがよい。

より具体的には、出力制御部１４６は、雑音レベルが第１の閾値ｎ１を上回る場合には、発話開始確認画面Ｇ２４−１を出力させるのがよい。上記した例と同様に、発話開始確認画面Ｇ２４−１には、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトＧ２５−１と取り消しオブジェクトＧ２２とが含まれている。

続いて、ユーザによって音声認識処理開始オブジェクトＧ２５−１を選択する操作がなされると、その操作が操作入力部１１５によって入力され、操作検出部１４３によって検出される。出力制御部１４６は、音声認識処理開始オブジェクトＧ２５−１を選択する操作が検出されて開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。以降の動作は、既に説明した通りである。

二つ目として、雑音レベルが第１の閾値ｎ１以下である場合、かつ、雑音レベルが（第１の閾値ｎ１より小さい）第２の閾値ｎ２以上である場合には、ユーザの発話に対する音声認識処理の成功率は中程度であるため、所定時間の経過後に自動的に音声認識処理を開始させるのが望ましいと考えられる。そこで、出力制御部１４６は、雑音の音量が第１の閾値ｎ１を下回る場合、かつ、雑音レベルが第２の閾値ｎ２を上回る場合には、音声認識処理が開始されるまでの残り時間に開始条件を変更するのがよい。

上記した例と同様に、残り時間通知画面Ｇ２１−１には、音声認識処理が開始されるまでの残り時間Ｇ２３−１と開始条件の出力を停止させるための取り消しオブジェクトＧ２２とが含まれている。出力制御部１４６は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。開始条件の出力が停止される。以降の動作は、既に説明した通りである。

三つ目として、雑音レベルが第２の閾値ｎ２を下回る場合には、ユーザの発話に対する音声認識処理の成功率は高めであるため、開始条件を出力させずに音声認識処理が開始されるのが望ましい。そこで、出力制御部１４６は、雑音レベルが第２の閾値ｎ２を下回る場合には、開始条件を出力部１３０に出力させることを省略するのが望ましい。

なお、上記では、雑音レベルが第１の閾値ｎ１と等しい場合は、雑音レベルが第１の閾値ｎ１以下である場合、かつ、雑音レベルが第２の閾値ｎ２以上である場合と同様に扱われたが、雑音レベルが第１の閾値ｎ１を上回る場合と同様に扱われてもよい。また、上記では、雑音レベルが第２の閾値ｎ２と等しい場合は、雑音レベルが第１の閾値ｎ１以下である場合、かつ、雑音レベルが第２の閾値ｎ２以上である場合と同様に扱われたが、雑音レベルが第２の閾値ｎ２を下回る場合と同様に扱われてもよい。

出力制御部１４６は、開始条件として所定の表示情報を出力部１３０に出力させてよい。図８および図９は、開始条件として表示情報を出力部１３０に出力させる例を示す図である。図８には、音声認識開始操作オブジェクトＧ１４に表示内容を徐々に出現させる例が示されている（時刻Ｔ３１〜時刻Ｔ３６）。また、図９には、音声認識開始操作オブジェクトＧ１４の色を徐々に変化させていく例が示されている（時刻Ｔ４１〜時刻Ｔ４６）。

また、出力制御部１４６は、開始条件として所定の音声情報を出力部１３０に出力させてもよい。図１０および図１１は、開始条件として音声情報を出力部１３０に出力させる例を示す図である。図１０には、時刻Ｔ５１から時刻Ｔ５４までに、音声認識処理の開始タイミング（時刻Ｔ５４）を知らせる音声情報が出力される例が示されている。また、図１１には、時刻Ｔ６１から時刻Ｔ６４までに、音声認識処理の開始タイミング（時刻Ｔ６４）を知らせる音声情報が出力される例が示されている。

続いて、図１２および図１３を参照しながら、音声認識処理の起動トリガが検出された後に集音部１２０から入力された音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図１２および図１３のフローチャートは、音声認識処理の起動トリガが検出された後に集音部１２０から入力された音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図１２および図１３のフローチャートに示された例に限定されない。

まず、図１２に示すように、操作検出部１４３は、音声認識処理の起動トリガを検出し（Ｓ１１）、集音部１２０から音情報ｖ１が入力される（Ｓ１２）。続いて、出力制御部１４６は、音声認識処理の開始条件を雑音に基づいて動的に決定する（Ｓ１３）。ここで、図１３を参照しながら、音声認識処理の開始条件を雑音に基づいて動的に決定する動作の詳細を説明する。まず、出力制御部１４６は、音情報ｖ１を取得し（Ｓ１３１）、音情報ｖ１の雑音レベルが閾値ｎ１を上回る場合には（Ｓ１３２において「Ｙｅｓ」）、モーダルＵＩ（上記した例では、発話開始確認画面Ｇ２４−１）を出力させることを決定する（Ｓ１３３）。

一方、出力制御部１４６は、音情報ｖ１の雑音レベルが閾値ｎ１を上回らない場合（Ｓ１３２において「Ｎｏ」）、Ｓ１３４に進み、音情報ｖ１の雑音レベルが閾値ｎ２を下回る場合には（Ｓ１３４において「Ｙｅｓ」）、開始条件を出力させないことを決定し（Ｓ１３５）、音情報ｖ１の雑音レベルが閾値ｎ２を下回らない場合には（Ｓ１３４において「Ｎｏ」）、タイマＵＩ（残り時間通知画面Ｇ２１−１）を出力させることを決定する（Ｓ１３６）。

図１２に戻って説明を続ける。出力制御部１４６は、開始条件の出力を省略すると決定した場合には（Ｓ１４において「Ｙｅｓ」）、Ｓ１８に動作を移行させる。一方、出力制御部１４６は、開始条件の出力を省略しないと決定した場合には（Ｓ１４において「Ｎｏ」）、開始条件を出力させる（Ｓ１５）。その後、操作検出部１４３は、開始条件の出力停止トリガを検出する（Ｓ１６）。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトＧ２２を選択する操作とが含まれ得る。

続いて、出力制御部１４６は、開始条件の出力を停止させる。そして、音声認識部１４５は、開始条件が満たされていない場合には（Ｓ１７において「Ｎｏ」）、音声認識処理を開始させずに（Ｓ１９）、動作を終了させる。一方、音声認識部１４５は、開始条件が満たされた場合には（Ｓ１７において「Ｙｅｓ」）、音声認識処理を開始させる（Ｓ１８）。

以上においては、音声認識処理の起動トリガが検出された後に集音部１２０から入力された音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する例について説明した。

続いて、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する例を説明する。図１４および図１５は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。

図１４の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０から入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。上記したように、残り時間通知画面Ｇ２１−１には、音声認識処理が開始されるまでの残り時間Ｇ２３−１と開始条件の出力を停止させるための取り消しオブジェクトＧ２２とが含まれている。

続いて、出力制御部１４６は、時間の経過に伴って残り時間Ｇ２３−１を減らしていく。例えば、出力制御部１４６は、残り時間Ｇ２３−１から減らされた後の残り時間Ｇ２３−２を含んだ残り時間通知画面Ｇ２１−２を出力させる。続いて、出力制御部１４６は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。

開始条件の出力が停止されると、出力制御部１４６は、集音部１２０から入力された音情報の蓄積を終了する。このようにして蓄積された音情報は、過去の音情報として次回の音声認識処理時に利用される。そして、ユーザは集音部１２０に向かって発話を開始する（時刻Ｔ１４）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

続いて、図１４の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部１２０から入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。

このとき、出力制御部１４６は、過去の音情報に含まれる第２の種類の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する。ここで、第２の種類の音情報は特に限定されない。例えば、第２の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第２の種類の音情報が雑音である場合を例として説明を続ける。

ここで、図１４の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部１４６は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも短くする。

より具体的には、図１４を参照すると、出力制御部１４６は、音声認識処理が開始されるまでの残り時間Ｇ２３−１を、初回の音声認識処理時においては「３」秒としているのに対し、二回目の音声認識処理時においては「１」秒と短くしている。なお、図１４に示した例では、音声認識処理が開始されるまでの残り時間Ｇ２３−１が二回目の音声認識処理時に直ちに短くなっているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間Ｇ２３−１が短くなってもよい。

続いて、図１５に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部１２０から入力された音情報の蓄積を開始する（時刻Ｔ１１）。

ここで、図１４の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部１４６は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも短くする。

より具体的には、図１５を参照すると、出力制御部１４６は、音声認識処理が開始されるまでの残り時間Ｇ２３−１を、二日目の音声認識処理時においては「１」秒としているのに対し、三回目の音声認識処理時においては、残り時間通知画面Ｇ２１−１の出力を省略している。なお、図１５に示した例では、残り時間通知画面Ｇ２１−１の出力が三回目の音声認識処理時に直ちに省略されているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、残り時間通知画面Ｇ２１−１の出力が省略されてもよい。

続いて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明する。図１６および図１７は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。

図１６の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０から入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

続いて、図１６の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部１２０から入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。

ここで、図１６の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部１４６は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも長くする。

より具体的には、図１６を参照すると、出力制御部１４６は、音声認識処理が開始されるまでの残り時間Ｇ２３−１を、初回の音声認識処理時においては「３」秒としているのに対し、二回目の音声認識処理時においては「５」秒と長くしている。なお、図１６に示した例では、音声認識処理が開始されるまでの残り時間Ｇ２３−１が二回目の音声認識処理時に直ちに長くなっているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間Ｇ２３−１が長くなってもよい。

続いて、図１７に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部１２０から入力された音情報の蓄積を開始する（時刻Ｔ１１）。

ここで、図１６の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部１４６は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも長くする。

より具体的には、図１７を参照すると、出力制御部１４６は、音声認識処理が開始されるまでの残り時間Ｇ２３−１を、二日目の音声認識処理時においては「５」秒としているのに対し、三回目の音声認識処理時においては、発話開始確認画面Ｇ２４−２を出力させている。なお、図１７に示した例では、三回目の音声認識処理時に直ちに発話開始確認画面Ｇ２４−２を出力させているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、発話開始確認画面Ｇ２４−２が出力されてもよい。

ここで、上記したように、音声認識処理が開始されるまでの残り時間は変化し得る。このとき、音声認識処理が開始されるまでの残り時間の変化とともに出力部１３０に出力される表示情報も変化させるのがよい。そうすれば、ユーザにとっても、開始条件が変更されたことを容易に把握することが可能となる。

図１８は、音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。図１８に示すように、音声認識開始操作オブジェクトＧ１４に表示内容を徐々に出現させる例において、出力制御部１４６は、表示内容の出現速度を高くするようにしてもよい（時刻Ｔ３１〜時刻Ｔ３３）。また、図１９は、音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。図１９に示すように、音声認識開始操作オブジェクトＧ１４に表示内容を徐々に出現させる例において、出力制御部１４６は、表示内容の出現速度を低くするようにしてもよい（時刻Ｔ３１〜時刻Ｔ３８）。

続いて、図２０および図２１を参照しながら、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図２０および図２１のフローチャートは、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図２０および図２１のフローチャートに示された例に限定されない。

まず、図２０に示すように、操作検出部１４３は、音声認識処理の起動トリガを検出する（Ｓ２１）。また、出力制御部１４６は、過去の音情報ｈ１があれば過去の音情報ｈ１を取得し（Ｓ２２）、集音部１２０から音情報ｖ１の取得を開始する（Ｓ２３）。続いて、出力制御部１４６は、音声認識処理の開始条件を過去の音情報ｈ１に応じて動的に決定する（Ｓ２４）。ここで、図２１を参照しながら、音声認識処理の開始条件を過去の音情報ｈ１に基づいて動的に決定する動作の詳細を説明する。

まず、出力制御部１４６は、過去の音情報ｈ１を取得し（Ｓ２４１）、タイムアウト値ｔ１（上記した例では、音声認識処理が開始されるまでの残り時間Ｇ２３−１）を取得する（Ｓ２４２）。続いて、出力制御部１４６は、過去の音情報ｈ１の音量が閾値ｍ１を上回っている場合には（Ｓ２４３において「Ｙｅｓ」）、Ｓ２４４に動作を移行させる。一方、出力制御部１４６は、過去の音情報ｈ１の音量が閾値ｍ１を上回っていない場合には（Ｓ２４３において「Ｎｏ」）、Ｓ２４８に動作を移行させる。

Ｓ２４４に動作が移行された場合、出力制御部１４６は、タイムアウト値ｔ１が閾値ｔ＿ｍａｘを上回っている場合には（Ｓ２４４において「Ｙｅｓ」）、モーダルＵＩ（上記した例では、発話開始確認画面Ｇ２４−１）を出力させることを決定し（Ｓ２４５）、タイムアウト値ｔ１が閾値ｔ＿ｍａｘを上回っていない場合には（Ｓ２４４において「Ｎｏ」）、タイムアウト値ｔ１を増加させ（Ｓ２４６）、タイムアウト値ｔ１が設定されたタイマＵＩ（上記では、残り時間通知画面Ｇ２１−１）を出力させることを決定する（Ｓ２４７）。

一方、Ｓ２４８に動作が移行された場合、出力制御部１４６は、タイムアウト値ｔ１が閾値ｔ＿ｍｉｎを下回っている場合には（Ｓ２４８において「Ｙｅｓ」）、開始条件を出力させないことを決定し（Ｓ２５１）、タイムアウト値ｔ１が閾値ｔ＿ｍｉｎを下回っていない場合には（Ｓ２４８において「Ｎｏ」）、タイムアウト値ｔ１を減少させ（Ｓ２４９）、タイムアウト値ｔ１が設定されたタイマＵＩ（上記では、残り時間通知画面Ｇ２１−１）を出力させることを決定する（Ｓ２４７）。

図２０に戻って説明を続ける。出力制御部１４６は、開始条件の出力を省略すると決定した場合には（Ｓ２５において「Ｙｅｓ」）、Ｓ３０に動作を移行させる。一方、出力制御部１４６は、開始条件の出力を省略しないと決定した場合には（Ｓ２５において「Ｎｏ」）、開始条件を出力させる（Ｓ２６）。その後、操作検出部１４３は、開始条件の出力停止トリガを検出する（Ｓ２７）。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトＧ２２を選択する操作とが含まれ得る。

続いて、出力制御部１４６は、開始条件の出力を停止させ、継続的に取得した音情報ｖ１を過去の音情報ｈ１として保存する（Ｓ２８）。そして、音声認識部１４５は、開始条件が満たされていない場合には（Ｓ２９において「Ｎｏ」）、音声認識処理を開始させずに（Ｓ３１）、動作を終了させる。一方、音声認識部１４５は、開始条件が満たされた場合には（Ｓ２９において「Ｙｅｓ」）、音声認識処理を開始させる（Ｓ３０）。

以上、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０に出力させる開始条件を動的に変更する例を説明した。

以上においては、集音部１２０から入力される音情報にフィラーが含まれているか否かに依らずに動作する例を説明したが、集音部１２０から入力される音情報にフィラーが含まれているか否かによって動作を異ならせてもよい。まず、フィラーの例について説明する。図２２は、フィラーとその音声波形との対応関係の例を示す図である。図２２に示すように、フィラーとその音声波形とが対応付けられてなる情報があらかじめ記憶されている。この音声波形が集音部１２０から入力される音情報に含まれる場合、この音声波形に対応するフィラーが音声認識処理の結果として取得される。

図２３は、集音部１２０から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。出力制御部１４６は、音声認識処理の起動トリガが検出されると、残り時間通知画面Ｇ２１−１の出力を開始させる（時刻Ｔ１１）。このとき、認識制御部１４４は、集音部１２０から入力される音情報の蓄積を開始する。

続いて、認識制御部１４４は、開始条件が満たされると（時刻Ｔ１２）、開始条件が満たされるまでに蓄積された音情報Ｐ１の認識結果がフィラーであるか否かを判断し、認識結果がフィラーである場合、現時点までに蓄積された音情報Ｐ２から開始条件が満たされるまでに蓄積されたＰ１を除外して音声認識処理を音声認識部１４５に行わせる。一方、認識制御部１４４は、認識結果がフィラーではない場合、現時点までに蓄積された音情報Ｐ２から開始条件が満たされるまでに蓄積されたＰ１を除外せずに音声認識処理を音声認識部１４５に行わせる。また、出力制御部１４６は、開始条件が満たされると（時刻Ｔ１２）、開始条件の出力を停止させる（時刻Ｔ１３）。以降の動作は、既に説明した通りである。

以上、出力部１３０に出力させる開始条件を動的に変更する例を説明したが、開始条件を動的に変更する例は、上記した例に限定されない。例えば、出力制御部１４６は、音声らしさが閾値を超える音情報の集音部１２０への到来方向の数に基づいて、出力部１３０に出力させる開始条件を動的に変更してもよい。音声らしさが閾値を超える音情報の集音部１２０への到来方向の数が所定値を超える場合には、音声認識処理が困難になる可能性があるからである。

そこで、例えば、出力制御部１４６は、音声らしさが閾値を超える音情報の集音部１２０への到来方向の数が所定値を超える場合には、発話開始確認画面Ｇ２４−１を出力させてもよい。また、出力制御部１４６は、音声らしさが閾値を超える音情報の集音部１２０への到来方向の数が所定値以下である場合には、残り時間通知画面Ｇ２１−１を出力させてもよい。所定値は限定されないが、「１」であってもよい。

以上、本開示の実施形態に係る情報処理システム１０の機能詳細について説明した。

［１．４．システム構成の変形例］
上記においては、出力部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム１０のシステム構成は、かかる例に限定されない。以下では、情報処理システム１０のシステム構成の変形例について説明する。図２４は、情報処理システム１０の構成の変形例１を示す図である。図２４に示すように、情報処理システム１０が携帯端末である場合に、出力部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

また、図２５〜図２８は、情報処理システム１０の構成の変形例２を示す図である。図２５〜図２８に示すように、出力部１３０は、テレビジョン装置であり、情報処理装置１４０は、ゲーム機であり、操作入力部１１５は、ゲーム機を操作するコントローラであってよい。

また、図２５に示すように、集音部１２０および出力部１３０は、操作入力部１１５に接続されていてもよい。また、図２６に示すように、画像入力部１１０および集音部１２０は、情報処理装置１４０に接続されていてもよい。また、図２７に示すように、操作入力部１１５、集音部１２０および出力部１３０は、情報処理装置１４０に接続されたスマートフォンに備えられていてもよい。また、図２８に示すように、集音部１２０は、テレビジョン装置に備えられていてもよい。

また、図２９〜図３２は、情報処理システム１０の構成の変形例３を示す図である。図２９に示すように、情報処理システム１０は、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵによって利用されてもよい。また、図３０に示すように、情報処理システム１０は、携帯端末に搭載され、自動車を運転中のユーザＵによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。

また、図３１に示すように、情報処理システム１０のうち、画像入力部１１０と、操作入力部１１５と、出力部１３０とは、携帯端末によって備えられており、集音部１２０は、ユーザＵの身体に取り付け可能なマイクロフォンであってもよい。また、図３２に示すように、情報処理システム１０は、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵによって利用されてもよい。

［１．５．ハードウェア構成例］
次に、図３３を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図３３は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

図３３に示すように、情報処理システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜２．むすび＞
以上説明したように、本開示の実施形態によれば、集音部１２０から入力された音情報に対して音声認識部１４５によって施される音声認識処理の開始条件を出力部１３０に出力させる出力制御部１４６を備え、出力制御部１４６は、出力部１３０に出力させる音声認識処理の開始条件を動的に変更する、情報処理システム１０が提供される。かかる構成によれば、音声認識処理を状況に応じて柔軟に開始させることが可能となる。

また、かかる構成によれば、音声認識処理の開始前に発話内容をユーザに考えさせることが可能となる。換言すれば、発話内容をユーザに決めさせてから音声認識処理を開始させることが可能となる。また、かかる構成によれば、集音された音情報に含まれる雑音などを音声認識処理の対象から除外することが可能となる。また、音声認識処理の開始条件をユーザに提示することによって、音声認識処理の成功率を向上させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記においては、情報処理システム１０のシステム構成例およびシステム構成の変形例を説明したが、情報処理システム１０のシステム構成例は、これらの例に限定されない。例えば、出力部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理装置１４０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、出力制御部１４６は、出力部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０に出力することで、当該表示内容が出力部１３０に表示されるように出力部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

また、情報処理装置１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とのうち、一部は情報処理装置１４０とは異なる装置に存在していてもよい。例えば、音声認識部１４５は、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、出力制御部１４６とを備える情報処理装置１４０とは異なるサーバに存在していてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
情報処理システム。
（２）
前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
前記（１）に記載の情報処理システム。
（３）
前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
前記（１）または（２）に記載の情報処理システム。
（４）
前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
前記（１）〜（３）のいずれか一項に記載の情報処理システム。
（５）
前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
前記（２）に記載の情報処理システム。
（６）
前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記（５）に記載の情報処理システム。
（７）
前記出力制御部は、前記集音部から入力された前記音情報に含まれる第１の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記（６）に記載の情報処理システム。
（８）
前記出力制御部は、前記第１の種類の音情報の音量が第１の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
前記（７）に記載の情報処理システム。
（９）
前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
前記（８）に記載の情報処理システム。
（１０）
前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値より小さい第２の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
前記（８）または（９）に記載の情報処理システム。
（１１）
前記第１の種類の音情報は、少なくとも雑音を含む、
前記（７）〜（１０）のいずれか一項に記載の情報処理システム。
（１２）
前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記（６）に記載の情報処理システム。
（１３）
前記出力制御部は、前記過去の音情報に含まれる第２の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記（１２）に記載の情報処理システム。
（１４）
前記出力制御部は、前記第２の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
前記（１３）に記載の情報処理システム。
（１５）
前記出力制御部は、前記第２の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
前記（１４）に記載の情報処理システム。
（１６）
前記第２の種類の音情報は、少なくとも雑音を含む、
前記（１３）〜（１５）のいずれか一項に記載の情報処理システム。
（１７）
前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記（１）に記載の情報処理システム。
（１８）
前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
前記（１）〜（１７）のいずれか一項に記載の情報処理システム。
（１９）
前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
前記（３）に記載の情報処理システム。
（２０）
集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
情報処理方法。

１２０集音部
１０情報処理システム
１１０画像入力部
１１５操作入力部
１３０出力部
１４０情報処理装置（制御部）
１４１入力画像取得部
１４２音情報取得部
１４３操作検出部
１４４認識制御部
１４５音声認識部
１４６出力制御部
Ｇ１０初期画面
Ｇ１１認識文字列表示欄
Ｇ１２全削除操作オブジェクト
Ｇ１３確定操作オブジェクト
Ｇ１５前方移動操作オブジェクト
Ｇ１６後方移動操作オブジェクト
Ｇ１７削除操作オブジェクト

Claims

集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
情報処理システム。
前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
請求項１に記載の情報処理システム。
前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
請求項１に記載の情報処理システム。
前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
請求項１に記載の情報処理システム。
前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
請求項２に記載の情報処理システム。
前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
請求項５に記載の情報処理システム。
前記出力制御部は、前記集音部から入力された前記音情報に含まれる第１の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
請求項６に記載の情報処理システム。
前記出力制御部は、前記第１の種類の音情報の音量が第１の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
請求項７に記載の情報処理システム。
前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
請求項８に記載の情報処理システム。
前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値より小さい第２の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
請求項８に記載の情報処理システム。
前記第１の種類の音情報は、少なくとも雑音を含む、
請求項７に記載の情報処理システム。
前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
請求項６に記載の情報処理システム。
前記出力制御部は、前記過去の音情報に含まれる第２の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
請求項１２に記載の情報処理システム。
前記出力制御部は、前記第２の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
請求項１３に記載の情報処理システム。
前記出力制御部は、前記第２の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
請求項１４に記載の情報処理システム。
前記第２の種類の音情報は、少なくとも雑音を含む、
請求項１３に記載の情報処理システム。
前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
請求項１に記載の情報処理システム。
前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
請求項１に記載の情報処理システム。
前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
請求項３に記載の情報処理システム。
集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
情報処理方法。