JP2012216057A

JP2012216057A - 音声処理装置、及び音声処理方法

Info

Publication number: JP2012216057A
Application number: JP2011080704A
Authority: JP
Inventors: Takashi Sudo; 隆須藤; Koji Fujimura; 浩司藤村; Akinori Kawamura; 聡典河村; Chikashi Sugiura; 千加志杉浦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2012-11-08

Abstract

【課題】操作負担を軽減する。
【解決手段】実施形態の音声処理装置は、音声入力手段と、情報入力手段と、音声認識手段と、アプリケーション制御手段と、を備える。音声入力手段は、音声を、音声信号として入力処理する。情報入力手段は、自装置のハードウェアにおける状態変化を示す状態情報を入力処理する。音声認識手段は、情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する。アプリケーション制御手段は、前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動する。
【選択図】図２

Description

本発明の実施形態は、音声処理装置、及び音声処理方法に関する。

従来、情報処理装置においては、様々な機能や様々なセンサが搭載される傾向にある。多機能化及び様々なセンサの搭載に伴って、様々なユーザインターフェイスが提案される傾向にある。

例えば、ユーザに発せられた音声をマイクロフォンが入力処理した後、情報処理装置が音声認識し、認識された情報に従って様々な処理を行うことが提案されている。この音声認識は、ユーザが音声認識を開始するための操作を情報処理装置に対して行うことで開始されている。

大内一成、"日常的使用を目指した音声認識検索システム"、東芝レビュー、株式会社東芝、２０１０年５月、Vol.65、No.5、pp.64-65

しかしながら、従来技術においては、音声認識を行う際にユーザによるボタン操作等が行われた場合に限り音声認識を行うのでは、ユーザの操作負担が大きい。また、距離センサー等を用いてユーザの有無を検知した場合に限り音声認識が開始する技術も提案されているが、当該技術ではユーザを検知した場合には情報処理装置を使用しない場合であっても音声認識を行うため、誤動作等が生じることも考えられる。

本発明は、上記に鑑みてなされたものであって、ユーザが所望した場合に音声認識を開始する音声処理装置、及び音声処理方法を提案する。

実施形態の音声処理装置は、音声入力手段と、情報入力手段と、音声認識手段と、アプリケーション制御手段と、を備える。音声入力手段は、音声を、音声信号として入力処理する。情報入力手段は、自装置のハードウェアにおける状態変化を示す状態情報を入力処理する。音声認識手段は、情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する。アプリケーション制御手段は、前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動する。

図１は、第１の実施形態にかかる情報処理装置を示す外観斜視図である。図２は、第１の実施形態にかかる情報処理装置の内部構成を示した図である。図３は、第１の実施形態にかかる情報処理装置が通常モードの場合における音声認識の状態遷移を示した図である。図４は、第１の実施形態にかかる情報処理装置が音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。図５は、第１の実施形態にかかる情報処理装置が音声認識自動開始モードの場合における音声認識の処理の手順を示すフローチャートである。図６は、第１の実施形態にかかる情報処理装置が通常モードと音声認識開始自動検知モードとを併用した場合における音声認識の状態遷移を示した図である。図７は、第２の実施形態にかかる情報処理装置を示す外観斜視図である。図８は、第２の実施形態にかかる情報処理装置が通常モードの場合における音声認識の状態遷移を示した図である。図９は、第２の実施形態にかかる音声認識処理部が実行する音声認識モードを示した図である。図１０は、第３の実施形態にかかるリモコン装置の開状態における上面図である。図１１は、第３の実施形態にかかるテレビジョン放送受信装置が通常モードの場合における音声認識の状態遷移を示した図である。図１２は、第３の実施形態にかかるテレビジョン放送受信装置が音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。

（第１の実施形態）
図１は、第１の実施形態にかかる情報処理装置１００を示す外観斜視図である。図１に示すように、情報処理装置１００は、パネル側筐体１０１と、スライド式キーボード１０２と、で構成されている。スライド式キーボード１０２は、図示しないスライド機構を介してパネル側筐体１０１と接続されている。これにより、スライド式キーボード１０２は、方向Ａにスライド可能であり、パネル側筐体１０１に収納可能とする。

パネル側筐体１０１は、ＬＣＤパネル１１１と、カメラ１１２と、各種ボタン１１３と、ユーザの発話を収音するために用いるマイクロフォン１１４と、ユーザに対して音声を出力するために用いる内蔵スピーカ１１５と、を備えている。ＬＣＤパネル１１１は、パネル側筐体１０４の中央領域に設けられ、様々な情報を表示する。ＬＣＤパネル１１１の表面に（図示しない）タッチパネルを備えている。情報処理装置１００は、このタッチパネルにより検出されたペンや指などの座標位置やその接触面の面積を入力として受け付ける。

スライド式キーボード１０２は、キーボード１２１と、照度センサ１２２と、を備えている。そして、この情報処理装置１００の内部に、後述の各種ハードウェアが内蔵されている。なお、本実施形態にかかる情報処理装置１００では、上述した構成を備えたモバイル通信端末の例について説明するが、このような構成に制限するものではなく、例えばノートＰＣやテレビジョン放送受信装置など様々な装置に適用できる。

次に、情報処理装置１００の内部構成について説明する。図２は、情報処理装置１００の内部構成を示した図である。図２に示すように、情報処理装置１００はハードウェア状態の検出するためのセンサ等と、検出結果に基づいた処理を行うための構成と、を備えている。

音声出力部２０２は、出力信号を音声に変換して出力する。記憶部２０１は、出力信号として音声出力部２０２が出力するための再生信号を記憶する。

音声入力部２０３は、図１のマイクロフォン１１４を含んだ構成であって、音声を入力処理し、音声信号に変換する。

音声フロントエンド処理部２０４は、音声入力部２０３により入力されたユーザの音声に対して、記憶部２０１が記憶する再生信号と、音声出力部２０２及び音声入力部２０３を介して入力された音声信号と、の違いに基づいて、エコーや周囲ノイズを抑圧する。

情報処理装置１００は、ＡＣ電源・コンセント２０６を介して、外部からの電力の供給を受け付ける。給電可能検出部２０７は、外部から給電可能であるか否かを検出する。

ドッグ２０８は、情報処理装置１００を固定して据え置くための台であり、情報処理装置１００に接続可能に備えている。ここではＡＣ電源・コンセント２０６との接続を介して充電台としての機能の兼ね備えているとする。ドック接続検出部２０９は、情報処理装置１００にドッグ２０８が接続されているか否かを検知する。また、給電可能検出部２０７は、ドッグ２０８を介してＡＣ電源・コンセント２０６と接続されているか否かを検知する。

格納検知スイッチ２１１が、スライド式キーボード１０２が格納されているか否かを検知する。この検知には、スライド式キーボード１０２と、パネル側筐体１０１と、のいずれか一方以上に小型の磁石を設け、磁気を用いて検出することが考えられる。

画面ロック解除検出部２１３は、情報処理装置１００のタッチパネル２１２に対する所定の位置座標のタッチが検出されたか否かにより、画面ロックが解除されたか否かを検出する。

圧力センサ２１４は、ユーザが情報処理装置１００を保持する場所に対して備えられたセンサとする。圧力検出部２１５は、圧力センサ２１４の検出結果に従って、ユーザが情報処理装置１００両手で保持しているか否かを検知する。

照度センサ１２２は、外光が十分に足りているか否かを検知する。例えば、室内照明の点灯の有無を検知したり、屋外での日光の照度を検知したりする。

映像フロントエンド処理部２２０は、カメラ１１２から入力された信号に対して所定の処理を行い、処理後の信号を映像信号として、読唇認識部２２３に出力する。読唇認識部２２３は、映像信号から、ユーザの読唇認識を行う。

音声区間検出部２０５は、入力された音声信号から、ユーザが発話した区間を検知する。音声区間検出部２０５は、発話区間の始端及び終端を検知する。

第１アプリケーション２２５Ａ、及び第２アプリケーション２２５Ｂは、情報処理装置１００が備える図示しないＣＰＵ上で動作するプログラムとする。第１アプリケーション２２５Ａが、音声認識結果を用いるアプリケーションであり、アプリケーション制御部２２４による起動制御の対象となる。

アプリケーション制御部２２４により起動された第１アプリケーション２２５Ａが常駐し、第１アプリケーション２２５Ａが音声認識結果に基づく動作が可能になった後、本実施形態にかかる音声区間検出部２０５は、音声入力部２０３が入力処理した音声信号から、ユーザが発話した区間を検知する。

認識制御部２２１は、情報処理装置１００のハードウェアにおける状態変化や、外部環境の変化を示す状態情報を入力処理する。本実施形態にかかる認識制御部２２１は、状態情報として、給電可能検出部２０７から給電可能か否かを示した給電情報と、ドッグ接続検出部２０９からドッグ２０８に接続されたか否かを示した接続情報と、格納検知スイッチ２１１からスライド式キーボード１０２が格納（スライド操作）されたか否かを示した格納情報と、画面ロック解除検出部２１３から画面ロックが解除されたか否かを示した画面情報と、圧力検出部２１５からユーザが両手で保持しているか否かを示した圧力情報と、照度センサ１２２からの照度と、を入力処理する。

認識制御部２２１は、入力処理された各種の状態情報に基づいてハードウェアの状態変化等が生じたと判定した場合に、音声認識処理部２２２に対して、音声認識の開始を指示する。さらには、認識制御部２２１は、入力された各種の状態情報や必要に応じて、音声認識処理部２２２に対して、音声認識の終了を指示する。また、アプリケーション制御部２２４は、必要に応じて入力された各種の状態情報を音声認識処理部２２２に出力する。

そして、音声認識処理部２２２は、認識制御部２２１からの命令に従って、音声認識処理の開始、終了を行う。音声認識の処理が開始された場合、音声認識処理部２２２は、音声入力部２０３により入力、変換処理された音声信号に対して音声認識を行い、音声認識結果情報を生成する。

アプリケーション制御部２２４は、音声認識処理部２２２により生成された音声認識結果情報を利用するアプリケーションを起動する。本実施形態では、第１アプリケーション２２５Ａが起動対象となる。そして、アプリケーション制御部２２４は、第１アプリケーションを起動させた後、音声区間検出部２０５による発話区間の検出が終了した後、予め定められた期間、ユーザの発話区間の始端を検出できない場合に、第１アプリケーションの起動を停止させる制御を行う。

本実施形態にかかる情報処理装置１００では、通常モードと、音声認識自動開始モードと、いう複数の音声認識モードを備えている。まずは通常モードが設定された場合について説明する。

通常モードは、ユーザにより所定の操作が行われた場合に音声認識を開始するモードとする。図３は、通常モードの場合における音声認識の状態遷移を示した図である。図３に示す例では、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と、アプリケーション起動休止状態３０３と、アプリケーション起動中における音声認識の開始待ち状態３０４と、アプリケーション起動中における音声認識中３０５と、の状態を有している。図３においては、起動対象が第１アプリケーション２２５Ａの場合とする。

電源ＯＦＦ状態３０１は、情報処理装置１００のシステム全体が休止している状態とする。アプリケーション起動休止状態３０３とは、情報処理装置１００の待ち受け画面の表示状態などとする。また、情報処理装置１００がＰＣの場合には、モニタ電源ＯＦＦ、ＨＤＤ電源ＯＦＦ、又はシステムスタンバイ状態などがアプリケーション起動休止状態３０３に該当する。

そして、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と、の間の状態遷移は、電源ボタン等の操作により行われる。また、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と、アプリケーション起動中における音声認識の開始待ち状態３０４と、の間の状態遷移は、情報処理装置１００のタッチパネル２１２に対するＧＵＩの操作により行われる。

アプリケーション起動休止状態３０３から、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２への移行は、キーボード１２１やボタン１１３等のインターフェースの操作により行われる。アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２から、アプリケーション起動休止状態３０３への移行は、タイマーにより自動的に行われる。

通常モードにおいて、アプリケーション起動中における音声認識の開始待ち状態３０４から、アプリケーション起動中における音声認識中３０５への移行は、情報処理装置１００のタッチパネル２１２に対するＧＵＩの操作により行われる。アプリケーション起動中における音声認識中３０５から、アプリケーション起動中における音声認識の開始待ち状態３０４への移行は、音声区間検出部２０５による音声区間の終端検知をトリガーとして、認識制御部２２１が音声認識処理部２２２に対する指示により行われる。

上述した状態遷移では、アプリケーション起動中における音声認識中３０５に移行するためには、ユーザがＧＵＩ操作を行う必要があるため、操作負担が生じる。そこで、本実施形態にかかる情報処理装置１００では、操作負担を軽減するために、以下に示す状態遷移が存在する。

つまり、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２において、認識制御部２２１が、格納検知スイッチ２１１から、スライド式キーボード１０２が格納されたことを示す格納情報の入力を受け付けた場合に、ユーザが音声認識を使用する可能性が高いとみなし、音声認識処理部２２２に対して、通常モードで音声認識を開始する旨を通知する。これにより音声認識処理部２２２が、アプリケーション制御部２２４に対して、第１アプリケーション２２５Ａを起動させるコマンドを送信する。当該送信に基づいて、第１アプリケーション２２５Ａが起動する。これにより、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。このように、スライド式キーボード１０２が格納された場合に音声認識の開始待ち状態３０４になることで、ユーザがＧＵＩ操作を行うことなく状態遷移が可能なため、操作負担を軽減できる。

また、このような状態遷移は、格納検知スイッチ２１１がスライド式キーボード１０２の格納を検知した場合に制限するものではない。例えば、室内で情報処理装置１００を用いる際、照度センサ１２２により外光が十分に足りている状況と判定された場合には室内であれば音声認識を使う可能性が高いと考え、認識制御部２２１、音声認識処理部２２２、及びアプリケーション制御部２２４の処理により、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。また、外光が十分に足りていると判定された場合に、アプリケーション起動中における音声認識の開始待ち状態３０４に移行してもよい。

また、アプリケーション起動休止状態３０３（情報処理装置１００の待ち受け画面の表示状態）において、認識制御部２２１が、格納検知スイッチ２１１から、スライド式キーボード１０２によるスライド操作がなされたことを示す格納情報の入力を受け付けた場合に、音声認識処理部２２２に対して、通常モードで音声認識を開始する旨を通知する。これにより音声認識処理部２２２が、アプリケーション制御部２２４に対して、第１アプリケーション２２５Ａを起動させるコマンドを送信することで、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。また、このような状態遷移は、格納検知スイッチ２１１によりスライド操作がなされたことを検出した場合に制限するものではない。例えば、照度センサ１２２が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行うこととする。

さらに、画面ロック解除検出部２１３により画面ロックが解除された場合に、解除された時点から暫くはユーザが情報処理装置１００の操作又は音声認識を使う可能性も高いと考え、認識制御部２２１、音声認識処理部２２２、及びアプリケーション制御部２２４の処理により、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。

同様に、圧力検出部２１５によりユーザが両手で保持していると判定した場合に、音声認識を使う可能性が高いと考え、認識制御部２２１、音声認識処理部２２２、及びアプリケーション制御部２２４の処理により、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。さらに、ドック接続検出部２０９がドッグ２０８に接続されたことを検出した場合、接続されたことをトリガーとして直後の所定の時間（例えば数秒間）、認識制御部２２１、音声認識処理部２２２、及びアプリケーション制御部２２４の処理により、アプリケーション起動中における音声認識の開始待ち状態３０４に移行する。

本実施形態にかかる情報処理装置１００では、ユーザがＧＵＩ操作を行うことなく状態遷移が可能なため、操作負担を軽減できる。上述した通常モードでは、アプリケーション起動中における音声認識の開始待ち状態３０４に移行した後、ＧＵＩ操作を受け付けた場合に、音声認識中３０５に移行する。また、アプリケーション起動中における音声認識の開始待ち状態３０４では、ユーザからのＧＵＩ操作や音声信号の入力もなく一定時間経過した場合、アプリケーション制御部２２４が、第１アプリケーション２２５Ａを終了させ、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２に移行する。

次に、音声認識自動開始モードが設定された場合について説明する。音声認識自動開始モードは、ユーザの発話が開始されたことをトリガーとして、ユーザの発話区間を検知し、当該発話区間だけ音声認識を行うモードとする。

音声認識自動開始モードでは、本実施形態にかかる音声認識処理部２２２は、ハードウェアの状態の変化のみをトリガーとするのではなく、音声区間検出部２０５によりユーザの発話区間の始端の検出と組み合わせて音声認識を行う。つまり、ハードウェアの状態変化が生じ、かつユーザの発話区間の始端を検出した場合に、音声認識処理部２２２は、音声信号に対して音声認識の処理を開始する。また、発話区間の終端が検知された場合に、音声信号の情報だけで自動に音声認識を終了する。

図４は、音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。図４に示す例は、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と、アプリケーション起動休止状態３０３と、アプリケーション起動中における音声認識の開始待ち状態４０１と、アプリケーション起動中における音声認識中３０５と、による状態を有している。図３と同様の状態は、図３と同様の符号を割り当て、説明を省略する。

アプリケーション起動中における音声認識の開始待ち状態４０１は、図３のアプリケーション起動中における音声認識の開始待ち状態３０４と異なる点としては、ＧＵＩ操作ではなく、音声区間検出部２０５が音声区間の開始を検出した場合に、状態が遷移する点とする。つまり、音声区間検出部２０５が音声区間の開始を検出した場合に、始端情報を認識制御部２２１に出力する。その後、認識制御部２２１が音声認識の開始を音声認識処理部２２２に対して指示する。これに伴い、音声認識処理部２２２は、自動的に音声認識処理を開始する。このように、アプリケーション起動中における音声認識の開始待ち状態４０１から、アプリケーション起動中における音声認識中３０５が遷移する。その後、音声認識処理部２２２は、音声認識結果に基づいて生成された文字列情報又はコマンドを、アプリケーション制御部２２４に出力する。これにより、アプリケーション制御部２２４は、第１アプリケーション２２５Ａに対して、コマンドに基づく制御情報又は文字列情報を出力する。

次に、本実施形態にかかる情報処理装置１００が音声認識自動開始モードの場合における、スライド操作に基づいて行われる音声認識の処理について説明する。図５は、本実施形態にかかる情報処理装置１００における上述した処理の手順を示すフローチャートである。なお、本フローではスライド操作が行われた場合について説明するが、照度などの他のハードウェアの状態変化が生じた場合についても同様として説明を省略する。

まず、認識制御部２２１は、格納検知スイッチ２１１からの格納情報により、スライド式キーボード１０２に対するスライド操作が行われたか否かを判定する（ステップＳ５０１）。スライド操作が行われなかった場合（ステップＳ５０１：Ｎｏ）、スライド操作が行われるまで待機する。

一方、認識制御部２２１が、スライド操作が行われたと判定した場合（ステップＳ５０１：Ｙｅｓ）、音声認識処理部２２２に対して処理の開始を指示する。これにより音声認識処理部２２２が、アプリケーション制御部２２４に対して第１アプリケーション２２５Ａを起動させる旨のコマンドを出力する。そして、アプリケーション制御部２２４が、第１アプリケーション２２５Ａを起動させる（ステップＳ５０２）。その後、認識制御部２２１が、音声信号が入力されていない時間が所定の時間経過したか否かを判定する（ステップＳ５０３）。所定の時間を経過したと判定した場合（ステップＳ５０３：Ｙｅｓ）、認識制御部２２１が音声認識処理部２２２を介して、アプリケーション制御部２２４に対して、第１アプリケーション２２５Ａの終了を指示する。当該指示に伴い、アプリケーション制御部２２４は、第１アプリケーション２２５Ａを終了させる（ステップＳ５０４）。

一方、認識制御部２２１が、音声信号が入力されていない時間が所定の時間経過していないと判定した場合（ステップＳ５０３：Ｎｏ）、音声区間検出部２０５が、ユーザに発せられた音声区間の始端を検出する（ステップＳ５０５）。始端を検出できない場合（ステップＳ５０５：Ｎｏ）、再びステップＳ５０３から処理を行う。

一方、認識制御部２２１が始端を検出した場合（ステップＳ５０５：Ｙｅｓ）、当該始端の検出をトリガーとして、認識制御部２２１が、音声認識処理部２２２に対して、入力された音声信号の認識処理を指示する（ステップＳ５０６）。これにより音声認識処理部２２２が、音声認識処理を開始する。その後、音声区間検出部２０５が、音声区間の終端を検出する（ステップＳ５０７）。終端を検出していない場合（ステップＳ５０７：Ｎｏ）、ステップＳ５０６による音声認識処理を継続する。

一方、音声区間検出部２０５が、音声区間の終端を検出した場合（ステップＳ５０７：Ｙｅｓ）、認識制御部２２１が、音声認識処理部２２２に対して、音声信号の認識処理の終了を指示する。当該指示に基づいて、音声認識処理部２２２が、アプリケーション制御部２２４を介して、音声認識結果に基づく制御情報を、第１アプリケーション２２５Ａに出力する（ステップＳ５０８）。これにより、第１アプリケーション２２５Ａは、ユーザが発した音声に基づく処理を行う。

また、本実施形態にかかる情報処理装置１００では、音声認識モードとして、上述した通常モードと、音声認識開始自動検知モードと、を併用しても良い。つまり、情報処理装置１００に給電可能である場合は、処理量を多くしてもよいため、音声フロントエンド処理部２０４及び音声区間検出部２０５を常に動作させる音声認識開始自動検知モードで処理を行い、給電不可能である場合に通常モードで処理を行ってもよい。

図６は、通常モードと音声認識開始自動検知モードとを併用した場合における音声認識の状態遷移を示した図である。図６に示す例は、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と、アプリケーション起動休止状態６０１と、通常モードのアプリケーション起動中における音声認識の開始待ち状態３０４と、音声認識開始自動検知モードのアプリケーション起動中における音声認識の開始待ち状態４０１と、アプリケーション起動中における音声認識中６０３と、による状態を有している。図３及び図４と同様の状態は、図３及び図４と同様の符号を割り当て、説明を省略する。

アプリケーション起動休止状態６０１（情報処理装置１００の待ち受け画面の表示状態）において、認識制御部２２１が、格納検知スイッチ２１１からスライド式キーボード１０２によるスライド操作がなされたことを示す格納情報の入力を受け付けと共に給電可能検出部２０７から給電が不可能である旨の給電情報の入力を受け付けた場合に、音声認識処理部２２２に対して、通常モードで音声認識を開始する旨を通知する。これにより、通常モードのアプリケーション起動中における音声認識の開始待ち状態３０４に移行する。なお、当該状態遷移は、スライド操作の代わりに照度センサ１２２が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行う。

これに対し、アプリケーション起動休止状態６０１（情報処理装置１００の待ち受け画面の表示状態）において、認識制御部２２１が、格納検知スイッチ２１１からスライド式キーボード１０２によるスライド操作がなされたことを示す格納情報の入力を受け付けと共に給電可能検出部２０７から給電が可能である旨の給電情報の入力を受け付けた場合に、音声認識処理部２２２に対して、音声認識開始自動検知モードで音声認識を開始する旨を通知する。これにより、アプリケーション起動中における音声認識の開始待ち状態４０１に遷移する。なお、当該遷移は、スライド操作の代わりに照度センサ１２２が、自宅等で所定の照度を検出した場合についても同様の状態遷移を行う。

そして、音声認識中６０２において、音声区間検出部２０５が、音声区間の終端を検出した際、給電が不可能、すなわち通常モードの場合、アプリケーション起動中における音声認識の開始待ち状態３０４に遷移する。一方、音声区間検出部２０５が、音声区間の終端を検出した際、給電が可能、すなわち音声認識開始自動検知モードの場合、アプリケーション起動中における音声認識の開始待ち状態４０１に遷移する。

本実施形態にかかる情報処理装置１００では、スライド操作や所定の照度が検出された場合、又は音声区間の終端が検出された場合に、電源の供給があるか否かにより、状態の遷移先が切り替えられる。このように、電源の供給状態に応じて、音声認識モードを切り替えることができるため、ユーザの操作性と、電力の適切な利用と、の両立を図ることができる。

（第２の実施形態）
第１の実施形態では、情報処理装置１００としてモバイル通信端末の場合を主に説明した。しかしながら、モバイル通信端末に制限するものではなく、他の装置に適用できる。そこで第２の実施形態では、ノートＰＣに適応した例について説明する。

図７は、第２の実施形態にかかる情報処理装置７００を示す外観斜視図である。図７に示すように、情報処理装置７００は、筐体７０１と、この筐体７０１上に設けられたキーボード７０２と、筐体７０１にヒンジ部７０３を介して回動可能に接続されるパネル側筐体７０４と、を有している。筐体７０１の上面前端部はパームレスト部７０５を構成し、このパームレスト部７０５のほぼ中央にはタッチパッド７０６が設けられている。また、パネル側筐体７０４の中央領域には、表示を行うＬＣＤパネルディスプレイ７０７が設けられている。さらにパネル側筐体７０４の上部領域には、カメラ７０８や照度センサ７０９が設けられている。

図７に示すようなクラムシェル型端末においては、情報処理装置１００内の（図示しない）ＬＣＤパネル開閉検出部がＬＣＤパネルディスプレイ７０７の開閉を検知する。なお、他の内部のハードウェア構成は、第１の実施形態の図２と同様の構成を備えているものとする。

本実施形態ではＬＣＤパネルディスプレイ７０７による開閉に基づいて状態遷移がなされる例について説明する。本実施形態にかかる情報処理装置７００では、音声認識モードとして、通常モードと、音声認識開始自動検知モードと、これらを併用したモードと、とが存在する。まず、通常モードについて説明する。

図８は、第２の実施形態にかかる通常モードの場合における音声認識の状態遷移を示した図である。図８に示す例は、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態８０１と、アプリケーション起動休止状態８０２と、アプリケーション起動中における音声認識の開始待ち状態８０３と、アプリケーション起動中における音声認識中３０５と、による状態を有している。図３と同様の状態は、図３と同様の符号を割り当て、説明を省略する。

アプリケーション起動待ち状態又は他のアプリケーションの起動状態８０１は、第１の実施形態にかかるアプリケーション起動待ち状態又は他のアプリケーションの起動状態３０２と同様の操作（電源操作及びＧＵＩ操作）で、電源ＯＦＦ状態３０１と、アプリケーション起動中における音声認識の開始待ち状態８０３と、に状態遷移する他、次の状態遷移を有する。つまり、アプリケーション起動待ち状態又は他のアプリケーションの起動状態８０１は、タイマーで所定時間が経過した場合やパネル側筐体７０４が閉じられた場合に、アプリケーション起動休止状態８０２に遷移する。なお、パネル側筐体７０４の開閉度合いは、ＬＣＤパネル開閉検出部が認識制御部２２１に出力する。

アプリケーション起動休止状態８０２は、ＬＣＤパネル開閉検出部によりパネル側筐体７０４が開いたことが検出された場合に、アプリケーション起動中における音声認識の開始待ち状態８０３に状態遷移する。

本実施形態にかかる音声認識処理部２２２は、認識制御部２２１が受け取った情報に応じて、３種類の音声認識モードのうち、いずれか１つが選択される。図９は、音声認識処理部２２２が実行する音声認識モードを示した図である。

図９に示すように、ＬＣＤパネル開閉検出部によりパネル側筐体７０４が全開であることを検出した場合には、音声認識処理部２２２が通常の音声認識を行う。また、ＬＣＤパネル開閉検出部によりパネル側筐体７０４が半開でありマイク収音が可能であることを検出すると共にカメラ７０８の撮影が不可能であると認識制御部２２１が判定した場合には、ユーザのつぶやいた声や小声でも音声認識できるように音声認識処理部２２２がつぶやき音声認識を行う。

また、ＬＣＤパネル開閉検出部によりパネル側筐体７０４が半開であることを検出すると共にカメラ７０８の撮影が可能であると認識制御部２２１が判定した場合には、音声認識処理部２２２による音声認識を行わず、読唇認識部２２３が、口からの映像に基づいてユーザが発話した内容を認識し、当該認識結果に基づくコマンドを、アプリケーション制御部２２４に出力する。このような読唇認識モードの場合、カメラ７０８と映像フロントエンド処理部２２０と読唇認識部２２３とを用いて処理を行う。

また、本実施形態にかかる情報処理装置７００は、通常モード以外に、音声認識開始自動検知モードと、これらを併用したモードと、を有している。音声認識開始自動検知モード、及びこれらを併用したモードは、第１の実施形態で示した説明と、図８及び図９で示した構成を組み合わせることで実現されるものとして説明を省略する。

（第３の実施形態）
上述した実施形態のようにモバイル通信端末やノートＰＣに制限するものではなく、他の装置に適用しても良い。そこで第３の実施形態では、テレビジョン放送受信装置の場合について説明する。近年のコンピュータ技術の発展に伴い、テレビジョン放送受信装置において、様々なアプリケーションが搭載可能となるプラットフォームが提案されている。

これにより、テレビジョン放送受信装置は、いくつかのセンサ等が異なるが、図２と同様の構成を実現することができる。そして、テレビジョン放送受信装置では、これらアプリケーションを操作するためのリモコン装置が必要となる。

図１０は、本実施形態にかかるリモコン装置１０００の開状態における上面図である。図１０に示すように、リモコン装置１０００は、略直方形状を有した第１筐体としての上面側筐体１００１と、略直方形状を有した第２筐体としての底面側筐体１００２と、上面側筐体１００１と底面側筐体１００２とを回動軸ＡＸを中心に相対回動（回動方向Ｒ）可能に連結（接続）する（図示しない）回動連結部とを備えている。ここで、上面側筐体１００１と底面側筐体１００２とは、回動連結部の回動軸ＡＸ方向（Ｚ軸方向）から見て略同一の外縁を有している。

上面側筐体１００１の上面となる操作面上には、操作キー群１０１１と、方向キー１０１２と、中央キー１０１３と、ライトキー１０１４とが配置されている。ここで、操作キー群１０１１は、リモート操作先の機器（以下、操作機器という）が有する主要な機能を作動させるものであり、例えば、チャンネル選択や音量コントロール等の各種キーが含まれる。

ライトキー１０１４は、リモコン装置１０００が具備するバックライトの点灯を指示するものである。このバックライトが点灯しているか否かをトリガーとして、音声認識を行っても良い。

一方、底面側筐体１００２の上面となる操作面上、つまり上面側筐体１００１の底面と対向する面上には、ＥＮＴＥＲキーを含んだ文字入力のための入力キー群１０２１が配置されている。入力キー群１０２１の入力キーをユーザが押下することによって、押下された入力キーに対応する数字や文字を表す信号（キーコード）が操作機器に送信される。

本実施形態にかかるテレビジョン放送受信装置では、上述した実施形態と同様、通常モードと、音声認識自動開始モードと、いう複数の音声認識モードを備えている。まずは通常モードが設定された場合について説明する。

図１１は、通常モードの場合における音声認識の状態遷移を示した図である。図１１に示す例では、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態１１０１と、アプリケーション起動中における音声認識の開始待ち状態１１０２と、アプリケーション起動中における音声認識中３０５と、の状態を有している。上述した実施形態との違いとしては、テレビジョン放送受信装置においては、アプリケーション起動休止状態がない点である。なお、図３と同様の状態は、図３と同様の符号を割り当て、説明を省略する。

アプリケーション起動待ち状態又は他のアプリケーションの起動状態１１０１と、アプリケーション起動中における音声認識の開始待ち状態１１０２と、の間の状態遷移は、情報処理装置１００のタッチパネル２１２に対するＧＵＩ操作の他に、以下に示す操作等で行われる。

アプリケーション起動待ち状態又は他のアプリケーションの起動状態１１０１において、認識制御部２２１が、リモコン装置１０００の回転操作を検出した場合に、音声認識処理部２２２に対して、通常モードで音声認識を開始する旨を通知する。そして、音声認識処理部２２２が、アプリケーション制御部２２４に対して、第１アプリケーション２２５Ａを起動させるコマンドを送信する。当該送信で、第１アプリケーション２２５Ａが起動する。これにより、アプリケーション起動中における音声認識の開始待ち状態１１０２に移行する。また、このような状態遷移は、リモコン装置１０００の回転操作を検出した場合に制限するものではなく、所定の照度を検出した場合についても同様の状態遷移を行うこととする。

また、認識制御部２２１は、アプリケーション起動中における音声認識の開始待ち状態１１０２で、ユーザから発せられた音声信号の入力もなく所定の時間経過した場合、アプリケーション起動待ち状態又は他のアプリケーションの起動状態１１０１に遷移させる。

次に、音声認識自動開始モードが設定された場合について説明する。図１２は、音声認識自動開始モードの場合における音声認識の状態遷移を示した図である。図１２に示す例は、電源ＯＦＦ状態３０１と、アプリケーション起動待ち状態又は他のアプリケーションの起動状態１１０１と、アプリケーション起動中における音声認識の開始待ち状態１２０１と、アプリケーション起動中における音声認識中３０５と、による状態を有している。図１１と同様の状態は、図１１と同様の符号を割り当て、説明を省略する。

アプリケーション起動中における音声認識の開始待ち状態１２０１は、図１１のアプリケーション起動中における音声認識の開始待ち状態１１０２と異なる点としては、ＧＵＩ操作ではなく、音声区間検出部２０５が音声区間の開始を検出した場合に、アプリケーション起動中における音声認識中３０５に遷移する点とする。なお、遷移の際の処理は、上述した実施形態と同様として説明を省略する。

上述した実施形態にかかる情報処理装置及びテレビジョン放送受信装置では、ユーザ自ら音声認識を開始することを目的としたボタン操作などをすることなく、情報処理装置及びテレビジョン放送受信装置を利用する際の通常の操作をトリガーとして、音声認識も開始されるため、ユーザの操作負担を軽減できる。

つまり、従来、ユーザがモバイル通信端末やノートＰＣなどは、スライド操作やパネルの開閉などを行う際に、主たる利用用途は定められている可能性が高い。しかしながら、ユーザは上述した操作を行った後、利用用途に応じたボタン操作・キー操作を行い、目的のアプリケーションを立ち上げる必要があったため、操作負担が大きかった。

そこで、上述した実施形態では、情報処理装置の様々なハードウェアの状態の変化をトリガーとして、所定のアプリケーションを起動させ、音声認識の準備を行うこととした。つまり、ユーザが音声認識のためのボタン操作やＧＵＩ操作を行う必要なく、所望のアプリケーションを利用することが可能となる。これにより、ユーザが所望しているタイミングで音声認識が行われるため、操作負担を軽減できる。

上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

上述した実施形態の情報処理装置又はテレビジョン放送受信装置で実行される音声認識処理プログラムは、上述した各部（音声区間検出部、認識制御部、音声認識処理部、アプリケーション制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記ＲＯＭから音声認識処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音声区間検出部、認識制御部、音声認識処理部、アプリケーション制御部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

１００、７００…情報処理装置、２０１…記憶部、２０２…音声出力部、２０３…音声入力部、２０４…音声フロントエンド処理部、２０５…音声区間検出部、２０６…電源・コンセント、２０７…給電可能検出部、２０８…ドッグ、２０９…ドック接続検出部、２１１…格納検知スイッチ、２１２…タッチパネル、２１３…画面ロック解除検出部、２１４…圧力センサ、２１５…圧力検出部、２２０…映像フロントエンド処理部、２２１…認識制御部、２２２…音声認識処理部、２２３…読唇認識部、２２４…アプリケーション制御部、２２５Ａ…第１アプリケーション、２２５Ｂ…第２アプリケーション、１０００…リモコン装置

Claims

音声を、音声信号として入力処理する音声入力手段と、
自装置のハードウェアにおける状態変化を示す状態情報を入力処理する情報入力手段と、
前記情報入力手段が入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、前記音声入力手段により入力処理された前記音声信号に対して音声認識を行い、音声認識結果情報を生成する音声認識手段と、
前記音声認識手段により生成された前記音声認識結果情報を利用するアプリケーションを起動するアプリケーション制御手段と、
を備えることを特徴とする音声処理装置。
前記情報入力手段は、入力処理する前記状態情報として、自装置がクラムシェル型端末であって当該端末の開閉動作の検出結果を示した開閉情報、自装置が備える照度センサによる照度情報、自装置に対する給電情報、自装置が他の装置に接続されているか否かを示した接続情報、自装置が有するスライド式キーボードへのスライド操作がなされたか否かを示した操作情報、及び圧力センサに基づいて自装置をユーザが保持しているか否かを示した圧力情報のうち、いずれか１つ以上を入力処理すること、
を特徴とする請求項１に記載の音声処理装置。
前記アプリケーション制御手段は、前記アプリケーションを起動させた後、予め定められた期間において前記音声入力手段による音声信号の入力処理がない場合に、前記アプリケーションの起動を停止すること、
を特徴とする請求項１又は２に記載の音声処理装置。
前記アプリケーション制御手段により起動された前記アプリケーションが常駐した後、前記音声入力手段により入力処理された前記音声信号から、ユーザが発話した区間を検知する検知手段をさらに備え、
前記音声認識手段は、前記検知手段によりユーザが発話した区間を検出したことをトリガーとして、前記音声認識を開始すること、
を特徴とする請求項１乃至３のいずれか１つに記載の音声処理装置。
音声処理装置で実行される音声処理方法であって、
情報入力手段が、前記音声処理装置のハードウェアにおける状態変化を示す状態情報を入力処理する情報入力ステップと、
音声認識手段が、前記情報入力ステップが入力した前記状態情報に基づいてハードウェアの状態変化が生じた場合に、音声入力手段により入力処理された音声信号に対して音声認識を行い、音声認識結果情報を生成する音声認識ステップと、
前記音声認識ステップにより生成された前記音声認識結果情報を利用するアプリケーションを起動するアプリケーション制御ステップと、
を含むことを特徴とする音声処理方法。