JP2016180778A - 情報処理システムおよび情報処理方法 - Google Patents

情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
JP2016180778A
JP2016180778A JP2015059566A JP2015059566A JP2016180778A JP 2016180778 A JP2016180778 A JP 2016180778A JP 2015059566 A JP2015059566 A JP 2015059566A JP 2015059566 A JP2015059566 A JP 2015059566A JP 2016180778 A JP2016180778 A JP 2016180778A
Authority
JP
Japan
Prior art keywords
output
start condition
voice recognition
unit
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015059566A
Other languages
English (en)
Inventor
真一 河野
Shinichi Kono
真一 河野
祐平 滝
Yuhei Taki
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015059566A priority Critical patent/JP2016180778A/ja
Priority to EP15883334.3A priority patent/EP3264413B1/en
Priority to PCT/JP2015/081751 priority patent/WO2016136044A1/ja
Priority to US15/548,977 priority patent/US10522140B2/en
Publication of JP2016180778A publication Critical patent/JP2016180778A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。
【解決手段】集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。
【選択図】図3

Description

本開示は、情報処理システムおよび情報処理方法に関する。
近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の結果を得る技術が知られている。音声認識処理の結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る(例えば、特許文献1参照。)。
特開2004−094077号公報
ここで、マイクロフォンによって集音された音情報に対する音声認識処理の開始される条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。
本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。
本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、情報処理方法が提供される。
以上説明したように本開示によれば、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
一般的なシステムにおける音声認識処理を説明するための図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。 初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。 音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。 音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。 音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。 音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 フィラーとその音声波形との対応関係の例を示す図である。 集音部から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。 情報処理システムの構成の変形例1を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
0.背景
1.本開示の実施形態
1.1.システム構成例
1.2.機能構成例
1.3.情報処理システムの機能詳細
1.4.システム構成の変形例
1.5.ハードウェア構成例
2.むすび
<0.背景>
まず、図面を参照しながら本開示の実施形態の背景を説明する。図1は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。
図1に示すように、一般的なシステム(以下、単に「システム」とも言う。)は、音声認識処理を開始させるための音声認識開始操作オブジェクトG14を選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面G91を表示する(時刻T91)。集音開始画面G91が表示されると、ユーザは発話を開始し(時刻T92)、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う(S91)。
発話区間Haが終了すると(時刻T93)、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間(以下、「無音区間」とも言う。)Maが検出されると(時刻T94)、発話区間Haにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する(S92)。
ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。
ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理(例えば、言語解析、意味解析など)を施すことによって発話内容が抽出されてよい。
システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面G92を表示する。そして、システムは、実行動作が終了すると(時刻T95)、実行動作の結果を示す画面G93を表示する。図1に示した例においては、実行動作の結果を示す画面G93に、音声認識処理の結果としての文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。
以上に説明したように、一般的なシステムにおいては、音声認識処理の開始条件が出力されないうちに音声認識処理が開始されてしまう。そのため、音声認識開始操作オブジェクトG14を選択する操作を行った後に発話内容を考えるユーザが存在した場合などには、発話開始までに集音された音情報も音声認識処理の対象となってしまい、音声認識処理に影響を与えてしまう可能性がある。
例えば、発話開始までに集音される音情報の中には、ユーザ自身によって発せられるフィラーや余計な発話などが存在し得る。フィラーは、「ええと」「あの」「まあ」などといった言葉のように、発話と発話との合間にユーザによって挟み込まれる言葉を意味する。また、発話開始までに集音される音情報の中には、雑音なども存在し得る。なお、上記したように、雑音は、集音部120から入力される音情報からユーザの発する音声を除いた音情報を意味してよい。
また、発話開始までに集音された音情報に対する音声認識処理の結果が、発話が開始されてから集音された音情報に対する音声認識処理に影響を与えてしまう場合もあり得る。また、発話開始までに集音された音情報に基づいて音声認識処理がなされ、発話開始までに無音区間が検出されてしまった場合、発話開始前に音声認識処理の結果に基づく実行動作が始まってしまう可能性もある。
そこで、本明細書においては、音声認識処理が開始される前に音声認識処理の開始条件を出力させる技術を提案する。さらに、仮に状況に依らず一定の開始条件を出力させるようにした場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本明細書においては、音声認識処理を状況に応じて柔軟に開始させることが可能な技術を提案する。
以上、本開示の実施形態の背景を説明した。
<1.本開示の実施形態>
[1.1.システム構成例]
続いて、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識処理を行うことが可能である。
画像入力部110は、画像を入力する機能を有する。図2に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
操作入力部115は、ユーザUの操作を入力する機能を有する。図2に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
出力部130は、テーブルTblに画面を表示する機能を有する。図2に示した例では、出力部130は、テーブルTblの上方に天井から吊り下げられている。しかし、出力部130が設けられる位置は特に限定されない。また、典型的には、出力部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部130が表示面を有する場合には、画面の表示面は、出力部130が有する表示面であってもよい。
集音部120は、集音する機能を有する。図2に示した例では、集音部120は、テーブルTblの上方に存在する3つのマイクロフォンとテーブルTblの上面に存在する3つのマイクロフォンとの合計6つのマイクロフォンを含んでいる。しかし、集音部120に含まれるマイクロフォンの数は1以上であれば特に限定されない。かかる場合、集音部120に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。
ただし、集音部120が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向が推定され得る。また、集音部120が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。
以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
[1.2.機能構成例]
続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図3は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図3に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、出力部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および集音部120それぞれが入力した情報を、出力部130から出力する情報に反映させる。図3に示したように、情報処理装置140は、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、音声認識部145と、出力制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。
なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
[1.3.情報処理システムの機能詳細]
続いて、本開示の実施形態に係る情報処理システム10の機能詳細について説明する。図4は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図4を参照すると、出力制御部146は、初期画面G10−1を表示させている。初期画面G10−1には、音声認識処理を開始させるための音声認識開始操作オブジェクトG14、音声認識処理によって得られた文字列(以下、「認識文字列」とも言う。)の表示欄である認識文字列表示欄G11が含まれる。
また、初期画面G10−1には、認識文字列を全部削除するための全削除操作オブジェクトG12、認識文字列を確定するための確定操作オブジェクトG13が含まれる。また、初期画面G10−1には、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトG15、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトG16、カーソル位置の文字または単語を削除するための削除操作オブジェクトG17が含まれる。
まず、画面G10−2に示すように、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部115によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、音声認識処理の開始条件を出力させる。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトG14を選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。
例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい(Push To Talk型)。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド(例えば、「音声」という発話など)の実行であってもよい。
あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ(例えば、手の振り上げ、手の振り下ろし、顔の動き(例えば、うなずき、左右に顔を傾ける動作など)など)であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部120から取得されたことを含んでもよい。
まず、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明する。
図5は、音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部146は、音声認識処理の起動トリガが検出されると、残り時間通知画面G21−1の出力を開始させる(時刻T11)。残り時間通知画面G21−1には、音声認識処理が開始されるまでの残り時間G23−1と開始条件の出力を停止させるための取り消しオブジェクトG22とが含まれている。
続いて、出力制御部146は、時間の経過に伴って残り時間G23−1を減らしていく。例えば、出力制御部146は、残り時間G23−1から減らされた後の残り時間G23−2を含んだ残り時間通知画面G21−2を出力させる。続いて、出力制御部146は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。開始条件の出力が停止されると、ユーザは集音部120に向かって発話を開始する(時刻T14)。
集音部120によって集音された音情報が音情報取得部142によって取得されると、出力制御部146は、所定のオブジェクト(以下、「表示オブジェクト」とも言う。)Muを表示させる。表示オブジェクトMuは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトMuが動きを有する場合、表示オブジェクトMuの移動方向Deは、ユーザによる発話音声の音源から集音部120への到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。
例えば、認識制御部144は、音声認識開始操作オブジェクトG14を選択する操作を行ったユーザの指方向(例えば、指の根元から指先への方向)に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
あるいは、認識制御部144は、集音部120によって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトG14を選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。
あるいは、認識制御部144は、複数の到来方向のうち集音部120によって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部144は、ユーザによる発話音声の到来方向以外の方向から集音部120によって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム10からの出力音も含まれ得る。
また、図5には、出力制御部146が、ユーザによる発話音声の到来方向(移動方向De)に表示オブジェクトMuを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部120によって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトMuの動きは、かかる動きに限定されない。また、図5には、表示オブジェクトMuの移動先が、音声認識開始操作オブジェクトG14である例が示されている。しかし、表示オブジェクトMuの移動先は、かかる例に限定されない。
また、図5には、出力制御部146が、集音部120による集音に応じて次々と出現した円形状の表示オブジェクトMuを移動させる例が示されているが、表示オブジェクトMuの表示態様はかかる例に限定されない。例えば、出力制御部146は、音情報に応じた所定の情報(例えば、音情報の音声らしさ、音量など)に基づいて表示オブジェクトMuの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトMuのパラメータは、表示オブジェクトMuの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。
なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献(特開2010−38943号公報)に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献(特開2007−328228号公報)に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部146によって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。
認識制御部144は、開始条件が満たされると、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部144は、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部145に開始させてもよいし、表示オブジェクトMuが音声認識開始操作オブジェクトG14に到達してから、表示オブジェクトMuに対応する音情報に対する音声認識処理を音声認識部145に開始させてもよい。
なお、ユーザは音声認識処理の開始を取り消したい場合には、取り消しオブジェクトG22を選択すればよい。ユーザが、取り消しオブジェクトG22を選択すると、かかる操作は、出力停止操作として操作入力部115によって入力され、操作検出部143によって出力停止操作が検出される。操作検出部143によって出力停止操作が検出されると、出力制御部146は、開始条件の出力を停止させる。
以上、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明した。続いて、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明する。
図6は、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部146は、音声認識処理の起動トリガが検出されると、発話開始確認画面G24−1の出力を開始させる(時刻T11)。発話開始確認画面G24−1には、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトG25−1と取り消しオブジェクトG22とが含まれている。
続いて、ユーザによって音声認識処理開始オブジェクトG25−1を選択する操作がなされると(発話開始確認画面G24−2)、その操作が操作入力部115によって入力され、操作検出部143によって検出される。出力制御部146は、音声認識処理開始オブジェクトG25−1を選択する操作が検出されて開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。開始条件の出力が停止されると、ユーザは集音部120に向かって発話を開始する(時刻T14)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
以上、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明した。音声認識処理の開始条件が出力されることによって、ユーザは、図5および図6にも示されるように、発話開始までに集音される音情報(例えば、フィラーや余計な発話など)が音声認識処理に与える影響を低減することが可能となる。
このようにして開始条件が出力され得るが、開始条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本開示の実施形態において、出力制御部146は、出力部130に出力させる音声認識処理の開始条件を動的に変更する。かかる構成によって、音声認識処理を状況に応じて柔軟に開始させることが可能となる。例えば、出力制御部146は、所定の情報に基づいて、出力部130に出力させる音声認識処理の開始条件を動的に変更すればよい。
所定の情報は特に限定されない。まず、音声認識処理の起動トリガが検出された後に集音部120から入力された音情報に基づいて、出力部130に出力させる開始条件を動的に変更する例を説明する。図7は、音声認識処理の起動トリガが検出された後に集音部120から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。
図7に示すように、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120から入力された音情報に含まれる第1の種類の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する。
ここで、第1の種類の音情報は特に限定されない。例えば、第1の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第1の種類の音情報が雑音である場合を例として説明を続ける。
一つ目として、雑音の音量(以下、「雑音レベル」とも言う。)が第1の閾値n1を上回る場合には、ユーザの発話に対する音声認識処理の成功率は低めであるため、ユーザに音声認識処理の開始タイミングを入力させるのが望ましいと考えられる。そこで、出力制御部146は、雑音レベルが第1の閾値n1を上回る場合には、音声認識処理を開始させるために必要なユーザ操作に関する情報に開始条件を変更するのがよい。
より具体的には、出力制御部146は、雑音レベルが第1の閾値n1を上回る場合には、発話開始確認画面G24−1を出力させるのがよい。上記した例と同様に、発話開始確認画面G24−1には、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトG25−1と取り消しオブジェクトG22とが含まれている。
続いて、ユーザによって音声認識処理開始オブジェクトG25−1を選択する操作がなされると、その操作が操作入力部115によって入力され、操作検出部143によって検出される。出力制御部146は、音声認識処理開始オブジェクトG25−1を選択する操作が検出されて開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。以降の動作は、既に説明した通りである。
二つ目として、雑音レベルが第1の閾値n1以下である場合、かつ、雑音レベルが(第1の閾値n1より小さい)第2の閾値n2以上である場合には、ユーザの発話に対する音声認識処理の成功率は中程度であるため、所定時間の経過後に自動的に音声認識処理を開始させるのが望ましいと考えられる。そこで、出力制御部146は、雑音の音量が第1の閾値n1を下回る場合、かつ、雑音レベルが第2の閾値n2を上回る場合には、音声認識処理が開始されるまでの残り時間に開始条件を変更するのがよい。
上記した例と同様に、残り時間通知画面G21−1には、音声認識処理が開始されるまでの残り時間G23−1と開始条件の出力を停止させるための取り消しオブジェクトG22とが含まれている。出力制御部146は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。開始条件の出力が停止される。以降の動作は、既に説明した通りである。
三つ目として、雑音レベルが第2の閾値n2を下回る場合には、ユーザの発話に対する音声認識処理の成功率は高めであるため、開始条件を出力させずに音声認識処理が開始されるのが望ましい。そこで、出力制御部146は、雑音レベルが第2の閾値n2を下回る場合には、開始条件を出力部130に出力させることを省略するのが望ましい。
なお、上記では、雑音レベルが第1の閾値n1と等しい場合は、雑音レベルが第1の閾値n1以下である場合、かつ、雑音レベルが第2の閾値n2以上である場合と同様に扱われたが、雑音レベルが第1の閾値n1を上回る場合と同様に扱われてもよい。また、上記では、雑音レベルが第2の閾値n2と等しい場合は、雑音レベルが第1の閾値n1以下である場合、かつ、雑音レベルが第2の閾値n2以上である場合と同様に扱われたが、雑音レベルが第2の閾値n2を下回る場合と同様に扱われてもよい。
出力制御部146は、開始条件として所定の表示情報を出力部130に出力させてよい。図8および図9は、開始条件として表示情報を出力部130に出力させる例を示す図である。図8には、音声認識開始操作オブジェクトG14に表示内容を徐々に出現させる例が示されている(時刻T31〜時刻T36)。また、図9には、音声認識開始操作オブジェクトG14の色を徐々に変化させていく例が示されている(時刻T41〜時刻T46)。
また、出力制御部146は、開始条件として所定の音声情報を出力部130に出力させてもよい。図10および図11は、開始条件として音声情報を出力部130に出力させる例を示す図である。図10には、時刻T51から時刻T54までに、音声認識処理の開始タイミング(時刻T54)を知らせる音声情報が出力される例が示されている。また、図11には、時刻T61から時刻T64までに、音声認識処理の開始タイミング(時刻T64)を知らせる音声情報が出力される例が示されている。
続いて、図12および図13を参照しながら、音声認識処理の起動トリガが検出された後に集音部120から入力された音情報に基づいて、出力部130に出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図12および図13のフローチャートは、音声認識処理の起動トリガが検出された後に集音部120から入力された音情報に基づいて、出力部130に出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図12および図13のフローチャートに示された例に限定されない。
まず、図12に示すように、操作検出部143は、音声認識処理の起動トリガを検出し(S11)、集音部120から音情報v1が入力される(S12)。続いて、出力制御部146は、音声認識処理の開始条件を雑音に基づいて動的に決定する(S13)。ここで、図13を参照しながら、音声認識処理の開始条件を雑音に基づいて動的に決定する動作の詳細を説明する。まず、出力制御部146は、音情報v1を取得し(S131)、音情報v1の雑音レベルが閾値n1を上回る場合には(S132において「Yes」)、モーダルUI(上記した例では、発話開始確認画面G24−1)を出力させることを決定する(S133)。
一方、出力制御部146は、音情報v1の雑音レベルが閾値n1を上回らない場合(S132において「No」)、S134に進み、音情報v1の雑音レベルが閾値n2を下回る場合には(S134において「Yes」)、開始条件を出力させないことを決定し(S135)、音情報v1の雑音レベルが閾値n2を下回らない場合には(S134において「No」)、タイマUI(残り時間通知画面G21−1)を出力させることを決定する(S136)。
図12に戻って説明を続ける。出力制御部146は、開始条件の出力を省略すると決定した場合には(S14において「Yes」)、S18に動作を移行させる。一方、出力制御部146は、開始条件の出力を省略しないと決定した場合には(S14において「No」)、開始条件を出力させる(S15)。その後、操作検出部143は、開始条件の出力停止トリガを検出する(S16)。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトG22を選択する操作とが含まれ得る。
続いて、出力制御部146は、開始条件の出力を停止させる。そして、音声認識部145は、開始条件が満たされていない場合には(S17において「No」)、音声認識処理を開始させずに(S19)、動作を終了させる。一方、音声認識部145は、開始条件が満たされた場合には(S17において「Yes」)、音声認識処理を開始させる(S18)。
以上においては、音声認識処理の起動トリガが検出された後に集音部120から入力された音情報に基づいて、出力部130に出力させる開始条件を動的に変更する例について説明した。
続いて、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する例を説明する。図14および図15は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。
図14の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120から入力された音情報の蓄積を開始し、残り時間通知画面G21−1の出力を開始させる(時刻T11)。上記したように、残り時間通知画面G21−1には、音声認識処理が開始されるまでの残り時間G23−1と開始条件の出力を停止させるための取り消しオブジェクトG22とが含まれている。
続いて、出力制御部146は、時間の経過に伴って残り時間G23−1を減らしていく。例えば、出力制御部146は、残り時間G23−1から減らされた後の残り時間G23−2を含んだ残り時間通知画面G21−2を出力させる。続いて、出力制御部146は、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。
開始条件の出力が停止されると、出力制御部146は、集音部120から入力された音情報の蓄積を終了する。このようにして蓄積された音情報は、過去の音情報として次回の音声認識処理時に利用される。そして、ユーザは集音部120に向かって発話を開始する(時刻T14)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
続いて、図14の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部120から入力された音情報の蓄積を開始し、残り時間通知画面G21−1の出力を開始させる(時刻T11)。
このとき、出力制御部146は、過去の音情報に含まれる第2の種類の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する。ここで、第2の種類の音情報は特に限定されない。例えば、第2の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第2の種類の音情報が雑音である場合を例として説明を続ける。
ここで、図14の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部146は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも短くする。
より具体的には、図14を参照すると、出力制御部146は、音声認識処理が開始されるまでの残り時間G23−1を、初回の音声認識処理時においては「3」秒としているのに対し、二回目の音声認識処理時においては「1」秒と短くしている。なお、図14に示した例では、音声認識処理が開始されるまでの残り時間G23−1が二回目の音声認識処理時に直ちに短くなっているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間G23−1が短くなってもよい。
続いて、図15に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部120から入力された音情報の蓄積を開始する(時刻T11)。
ここで、図14の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部146は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも短くする。
より具体的には、図15を参照すると、出力制御部146は、音声認識処理が開始されるまでの残り時間G23−1を、二日目の音声認識処理時においては「1」秒としているのに対し、三回目の音声認識処理時においては、残り時間通知画面G21−1の出力を省略している。なお、図15に示した例では、残り時間通知画面G21−1の出力が三回目の音声認識処理時に直ちに省略されているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、残り時間通知画面G21−1の出力が省略されてもよい。
続いて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明する。図16および図17は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。
図16の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120から入力された音情報の蓄積を開始し、残り時間通知画面G21−1の出力を開始させる(時刻T11)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
続いて、図16の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部120から入力された音情報の蓄積を開始し、残り時間通知画面G21−1の出力を開始させる(時刻T11)。
ここで、図16の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部146は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも長くする。
より具体的には、図16を参照すると、出力制御部146は、音声認識処理が開始されるまでの残り時間G23−1を、初回の音声認識処理時においては「3」秒としているのに対し、二回目の音声認識処理時においては「5」秒と長くしている。なお、図16に示した例では、音声認識処理が開始されるまでの残り時間G23−1が二回目の音声認識処理時に直ちに長くなっているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間G23−1が長くなってもよい。
続いて、図17に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部15によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部120から入力された音情報の蓄積を開始する(時刻T11)。
ここで、図16の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部146は、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも長くする。
より具体的には、図17を参照すると、出力制御部146は、音声認識処理が開始されるまでの残り時間G23−1を、二日目の音声認識処理時においては「5」秒としているのに対し、三回目の音声認識処理時においては、発話開始確認画面G24−2を出力させている。なお、図17に示した例では、三回目の音声認識処理時に直ちに発話開始確認画面G24−2を出力させているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、発話開始確認画面G24−2が出力されてもよい。
ここで、上記したように、音声認識処理が開始されるまでの残り時間は変化し得る。このとき、音声認識処理が開始されるまでの残り時間の変化とともに出力部130に出力される表示情報も変化させるのがよい。そうすれば、ユーザにとっても、開始条件が変更されたことを容易に把握することが可能となる。
図18は、音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。図18に示すように、音声認識開始操作オブジェクトG14に表示内容を徐々に出現させる例において、出力制御部146は、表示内容の出現速度を高くするようにしてもよい(時刻T31〜時刻T33)。また、図19は、音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。図19に示すように、音声認識開始操作オブジェクトG14に表示内容を徐々に出現させる例において、出力制御部146は、表示内容の出現速度を低くするようにしてもよい(時刻T31〜時刻T38)。
続いて、図20および図21を参照しながら、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図20および図21のフローチャートは、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図20および図21のフローチャートに示された例に限定されない。
まず、図20に示すように、操作検出部143は、音声認識処理の起動トリガを検出する(S21)。また、出力制御部146は、過去の音情報h1があれば過去の音情報h1を取得し(S22)、集音部120から音情報v1の取得を開始する(S23)。続いて、出力制御部146は、音声認識処理の開始条件を過去の音情報h1に応じて動的に決定する(S24)。ここで、図21を参照しながら、音声認識処理の開始条件を過去の音情報h1に基づいて動的に決定する動作の詳細を説明する。
まず、出力制御部146は、過去の音情報h1を取得し(S241)、タイムアウト値t1(上記した例では、音声認識処理が開始されるまでの残り時間G23−1)を取得する(S242)。続いて、出力制御部146は、過去の音情報h1の音量が閾値m1を上回っている場合には(S243において「Yes」)、S244に動作を移行させる。一方、出力制御部146は、過去の音情報h1の音量が閾値m1を上回っていない場合には(S243において「No」)、S248に動作を移行させる。
S244に動作が移行された場合、出力制御部146は、タイムアウト値t1が閾値t_maxを上回っている場合には(S244において「Yes」)、モーダルUI(上記した例では、発話開始確認画面G24−1)を出力させることを決定し(S245)、タイムアウト値t1が閾値t_maxを上回っていない場合には(S244において「No」)、タイムアウト値t1を増加させ(S246)、タイムアウト値t1が設定されたタイマUI(上記では、残り時間通知画面G21−1)を出力させることを決定する(S247)。
一方、S248に動作が移行された場合、出力制御部146は、タイムアウト値t1が閾値t_minを下回っている場合には(S248において「Yes」)、開始条件を出力させないことを決定し(S251)、タイムアウト値t1が閾値t_minを下回っていない場合には(S248において「No」)、タイムアウト値t1を減少させ(S249)、タイムアウト値t1が設定されたタイマUI(上記では、残り時間通知画面G21−1)を出力させることを決定する(S247)。
図20に戻って説明を続ける。出力制御部146は、開始条件の出力を省略すると決定した場合には(S25において「Yes」)、S30に動作を移行させる。一方、出力制御部146は、開始条件の出力を省略しないと決定した場合には(S25において「No」)、開始条件を出力させる(S26)。その後、操作検出部143は、開始条件の出力停止トリガを検出する(S27)。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトG22を選択する操作とが含まれ得る。
続いて、出力制御部146は、開始条件の出力を停止させ、継続的に取得した音情報v1を過去の音情報h1として保存する(S28)。そして、音声認識部145は、開始条件が満たされていない場合には(S29において「No」)、音声認識処理を開始させずに(S31)、動作を終了させる。一方、音声認識部145は、開始条件が満たされた場合には(S29において「Yes」)、音声認識処理を開始させる(S30)。
以上、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130に出力させる開始条件を動的に変更する例を説明した。
以上においては、集音部120から入力される音情報にフィラーが含まれているか否かに依らずに動作する例を説明したが、集音部120から入力される音情報にフィラーが含まれているか否かによって動作を異ならせてもよい。まず、フィラーの例について説明する。図22は、フィラーとその音声波形との対応関係の例を示す図である。図22に示すように、フィラーとその音声波形とが対応付けられてなる情報があらかじめ記憶されている。この音声波形が集音部120から入力される音情報に含まれる場合、この音声波形に対応するフィラーが音声認識処理の結果として取得される。
図23は、集音部120から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。出力制御部146は、音声認識処理の起動トリガが検出されると、残り時間通知画面G21−1の出力を開始させる(時刻T11)。このとき、認識制御部144は、集音部120から入力される音情報の蓄積を開始する。
続いて、認識制御部144は、開始条件が満たされると(時刻T12)、開始条件が満たされるまでに蓄積された音情報P1の認識結果がフィラーであるか否かを判断し、認識結果がフィラーである場合、現時点までに蓄積された音情報P2から開始条件が満たされるまでに蓄積されたP1を除外して音声認識処理を音声認識部145に行わせる。一方、認識制御部144は、認識結果がフィラーではない場合、現時点までに蓄積された音情報P2から開始条件が満たされるまでに蓄積されたP1を除外せずに音声認識処理を音声認識部145に行わせる。また、出力制御部146は、開始条件が満たされると(時刻T12)、開始条件の出力を停止させる(時刻T13)。以降の動作は、既に説明した通りである。
以上、出力部130に出力させる開始条件を動的に変更する例を説明したが、開始条件を動的に変更する例は、上記した例に限定されない。例えば、出力制御部146は、音声らしさが閾値を超える音情報の集音部120への到来方向の数に基づいて、出力部130に出力させる開始条件を動的に変更してもよい。音声らしさが閾値を超える音情報の集音部120への到来方向の数が所定値を超える場合には、音声認識処理が困難になる可能性があるからである。
そこで、例えば、出力制御部146は、音声らしさが閾値を超える音情報の集音部120への到来方向の数が所定値を超える場合には、発話開始確認画面G24−1を出力させてもよい。また、出力制御部146は、音声らしさが閾値を超える音情報の集音部120への到来方向の数が所定値以下である場合には、残り時間通知画面G21−1を出力させてもよい。所定値は限定されないが、「1」であってもよい。
以上、本開示の実施形態に係る情報処理システム10の機能詳細について説明した。
[1.4.システム構成の変形例]
上記においては、出力部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム10のシステム構成は、かかる例に限定されない。以下では、情報処理システム10のシステム構成の変形例について説明する。図24は、情報処理システム10の構成の変形例1を示す図である。図24に示すように、情報処理システム10が携帯端末である場合に、出力部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
また、図25〜図28は、情報処理システム10の構成の変形例2を示す図である。図25〜図28に示すように、出力部130は、テレビジョン装置であり、情報処理装置140は、ゲーム機であり、操作入力部115は、ゲーム機を操作するコントローラであってよい。
また、図25に示すように、集音部120および出力部130は、操作入力部115に接続されていてもよい。また、図26に示すように、画像入力部110および集音部120は、情報処理装置140に接続されていてもよい。また、図27に示すように、操作入力部115、集音部120および出力部130は、情報処理装置140に接続されたスマートフォンに備えられていてもよい。また、図28に示すように、集音部120は、テレビジョン装置に備えられていてもよい。
また、図29〜図32は、情報処理システム10の構成の変形例3を示す図である。図29に示すように、情報処理システム10は、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUによって利用されてもよい。また、図30に示すように、情報処理システム10は、携帯端末に搭載され、自動車を運転中のユーザUによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。
また、図31に示すように、情報処理システム10のうち、画像入力部110と、操作入力部115と、出力部130とは、携帯端末によって備えられており、集音部120は、ユーザUの身体に取り付け可能なマイクロフォンであってもよい。また、図32に示すように、情報処理システム10は、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUによって利用されてもよい。
[1.5.ハードウェア構成例]
次に、図33を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図33は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
図33に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
<2.むすび>
以上説明したように、本開示の実施形態によれば、集音部120から入力された音情報に対して音声認識部145によって施される音声認識処理の開始条件を出力部130に出力させる出力制御部146を備え、出力制御部146は、出力部130に出力させる音声認識処理の開始条件を動的に変更する、情報処理システム10が提供される。かかる構成によれば、音声認識処理を状況に応じて柔軟に開始させることが可能となる。
また、かかる構成によれば、音声認識処理の開始前に発話内容をユーザに考えさせることが可能となる。換言すれば、発話内容をユーザに決めさせてから音声認識処理を開始させることが可能となる。また、かかる構成によれば、集音された音情報に含まれる雑音などを音声認識処理の対象から除外することが可能となる。また、音声認識処理の開始条件をユーザに提示することによって、音声認識処理の成功率を向上させることが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記においては、情報処理システム10のシステム構成例およびシステム構成の変形例を説明したが、情報処理システム10のシステム構成例は、これらの例に限定されない。例えば、出力部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、出力部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理装置140が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、出力制御部146は、出力部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部130に出力することで、当該表示内容が出力部130に表示されるように出力部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および集音部120と出力部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および集音部120と出力部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
また、情報処理装置140が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、音声認識部145と、出力制御部146とのうち、一部は情報処理装置140とは異なる装置に存在していてもよい。例えば、音声認識部145は、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、出力制御部146とを備える情報処理装置140とは異なるサーバに存在していてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
情報処理システム。
(2)
前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
前記(1)に記載の情報処理システム。
(3)
前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
前記(1)または(2)に記載の情報処理システム。
(4)
前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
前記(1)〜(3)のいずれか一項に記載の情報処理システム。
(5)
前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
前記(2)に記載の情報処理システム。
(6)
前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記(5)に記載の情報処理システム。
(7)
前記出力制御部は、前記集音部から入力された前記音情報に含まれる第1の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記(6)に記載の情報処理システム。
(8)
前記出力制御部は、前記第1の種類の音情報の音量が第1の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
前記(7)に記載の情報処理システム。
(9)
前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
前記(8)に記載の情報処理システム。
(10)
前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値より小さい第2の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
前記(8)または(9)に記載の情報処理システム。
(11)
前記第1の種類の音情報は、少なくとも雑音を含む、
前記(7)〜(10)のいずれか一項に記載の情報処理システム。
(12)
前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記(6)に記載の情報処理システム。
(13)
前記出力制御部は、前記過去の音情報に含まれる第2の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記(12)に記載の情報処理システム。
(14)
前記出力制御部は、前記第2の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
前記(13)に記載の情報処理システム。
(15)
前記出力制御部は、前記第2の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
前記(14)に記載の情報処理システム。
(16)
前記第2の種類の音情報は、少なくとも雑音を含む、
前記(13)〜(15)のいずれか一項に記載の情報処理システム。
(17)
前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
前記(1)に記載の情報処理システム。
(18)
前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
前記(1)〜(17)のいずれか一項に記載の情報処理システム。
(19)
前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
前記(3)に記載の情報処理システム。
(20)
集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
情報処理方法。
120 集音部
10 情報処理システム
110 画像入力部
115 操作入力部
130 出力部
140 情報処理装置(制御部)
141 入力画像取得部
142 音情報取得部
143 操作検出部
144 認識制御部
145 音声認識部
146 出力制御部
G10 初期画面
G11 認識文字列表示欄
G12 全削除操作オブジェクト
G13 確定操作オブジェクト
G15 前方移動操作オブジェクト
G16 後方移動操作オブジェクト
G17 削除操作オブジェクト


Claims (20)

  1. 集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
    前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
    情報処理システム。
  2. 前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
    請求項1に記載の情報処理システム。
  3. 前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
    請求項1に記載の情報処理システム。
  4. 前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
    請求項1に記載の情報処理システム。
  5. 前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
    請求項2に記載の情報処理システム。
  6. 前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
    請求項5に記載の情報処理システム。
  7. 前記出力制御部は、前記集音部から入力された前記音情報に含まれる第1の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
    請求項6に記載の情報処理システム。
  8. 前記出力制御部は、前記第1の種類の音情報の音量が第1の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
    請求項7に記載の情報処理システム。
  9. 前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
    請求項8に記載の情報処理システム。
  10. 前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値より小さい第2の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
    請求項8に記載の情報処理システム。
  11. 前記第1の種類の音情報は、少なくとも雑音を含む、
    請求項7に記載の情報処理システム。
  12. 前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
    請求項6に記載の情報処理システム。
  13. 前記出力制御部は、前記過去の音情報に含まれる第2の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
    請求項12に記載の情報処理システム。
  14. 前記出力制御部は、前記第2の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
    請求項13に記載の情報処理システム。
  15. 前記出力制御部は、前記第2の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
    請求項14に記載の情報処理システム。
  16. 前記第2の種類の音情報は、少なくとも雑音を含む、
    請求項13に記載の情報処理システム。
  17. 前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
    請求項1に記載の情報処理システム。
  18. 前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
    請求項1に記載の情報処理システム。
  19. 前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
    請求項3に記載の情報処理システム。
  20. 集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
    プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
    情報処理方法。
JP2015059566A 2015-02-23 2015-03-23 情報処理システムおよび情報処理方法 Pending JP2016180778A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015059566A JP2016180778A (ja) 2015-03-23 2015-03-23 情報処理システムおよび情報処理方法
EP15883334.3A EP3264413B1 (en) 2015-02-23 2015-11-11 Information processing system and method
PCT/JP2015/081751 WO2016136044A1 (ja) 2015-02-23 2015-11-11 情報処理システムおよび情報処理方法
US15/548,977 US10522140B2 (en) 2015-02-23 2015-11-11 Information processing system and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015059566A JP2016180778A (ja) 2015-03-23 2015-03-23 情報処理システムおよび情報処理方法

Publications (1)

Publication Number Publication Date
JP2016180778A true JP2016180778A (ja) 2016-10-13

Family

ID=57131540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015059566A Pending JP2016180778A (ja) 2015-02-23 2015-03-23 情報処理システムおよび情報処理方法

Country Status (1)

Country Link
JP (1) JP2016180778A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169442A (ja) * 2017-03-29 2018-11-01 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
CN111033606A (zh) * 2017-08-31 2020-04-17 索尼公司 信息处理装置、信息处理方法和程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169442A (ja) * 2017-03-29 2018-11-01 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
CN111033606A (zh) * 2017-08-31 2020-04-17 索尼公司 信息处理装置、信息处理方法和程序

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6848881B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
JP6772839B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN107148614B (zh) 信息处理设备、信息处理方法和程序
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
US10522140B2 (en) Information processing system and information processing method
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
JP2017138698A (ja) 情報処理装置、情報処理方法およびプログラム