JP2012103840A

JP2012103840A - 情報処理装置、プログラムおよびコマンド生成方法

Info

Publication number: JP2012103840A
Application number: JP2010250713A
Authority: JP
Inventors: Yukinori Maeda; 幸徳前田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-11-09
Filing date: 2010-11-09
Publication date: 2012-05-31
Anticipated expiration: 2030-11-09
Also published as: EP2450879A1; CN102591448A; JP5636888B2; US20120112995A1; RU2011144585A

Abstract

【課題】２種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることを可能とすること。
【解決手段】２種類以上の異なる入力操作により取得した２種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、２種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、を備える情報処理装置を提供する。
【選択図】図１

Description

本発明は、情報処理装置、プログラムおよびコマンド生成方法に関する。

従来から、各種装置を動作させるために、例えば、入力装置として、キーボードやマウス、テレビ等の家庭用電気機械器具用のリモートコントローラ等が使用されている。しかしながら、対象装置を動作させるために上記のような従来型の入力装置を使用することは、必ずしもユーザにとって直感的で分かりやすいものではない場合がある。また、ユーザは、入力装置を紛失した場合、対象装置を動作できなくなるおそれがある。

そこで、直感的で分かりやすい音声、ジェスチャ等による入力操作により対象装置を動作させることを可能とする、ユーザインターフェースに関する技術が提案されている。例えば、下記特許文献１では、ユーザの入力操作を撮影した動画像からジェスチャを認識し、認識結果に基づいて制御命令を生成する技術が開示されている。また、下記特許文献２には、音声、ジェスチャ等のうち２種類以上の入力操作を用いて、一方の入力操作により取得した入力情報に基づき処理を実行し、他方の入力操作により取得した入力情報に基づき処理の実行に対する制御（開始、中断、等）を行う技術が開示されている。

特開２００３−３３４３８９号公報特開２００４−１９２６５３号公報

しかしながら、音声、ジェスチャ等による入力操作の場合、ユーザは、対象装置に与えられる命令コマンドと各音声、各ジェスチャ等との対応関係を覚えなければならない。特に、上記特許文献２のように２種類以上の入力操作を使用する場合には、各コマンドと入力操作との対応関係を覚えておくことは非常に困難である。

そこで、本発明は、このような問題に鑑みてなされたもので、その目的は、２種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることが可能な新規かつ改良された情報処理装置、プログラムおよびコマンド生成方法を提供しようとするものである。

上記課題を解決するために、本発明のある観点によれば、２種類以上の異なる入力操作により取得した２種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、２種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、を備える情報処理装置が提供される。

また、上記入力認識部は、上記２種類以上の入力情報から少なくとも上記所定の動作の対象を示す意味情報と上記所定の動作の内容を示す意味情報とを認識してもよい。

また、上記２種類以上の入力情報は、音声による入力操作により取得した音声入力情報、および体の一部若しくは全部の動きまたは状態による入力操作により取得した１種類以上のジェスチャ入力情報のうちの、少なくとも２種類以上の入力情報を含んでもよい。

また、上記情報処理装置は、上記２種類以上の入力情報および別の入力操作により取得した別の入力情報のうち、いずれかの入力情報から、上記所定の動作の実行量を示す実行量情報を認識する変化量変換部をさらに備え、上記動作処理部は、上記２種類以上の上記意味情報および上記実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成してもよい。

また、上記いずれかの入力情報は、音声による入力操作により取得した音声入力情報、または体の一部若しくは全部の動きまたは状態による入力操作により取得したジェスチャ入力情報であり、上記変化量変換部は、上記いずれかの入力情報が上記音声入力情報である場合には、上記音声入力情報から取得される音量から上記実行量情報を認識し、上記いずれかの入力情報が上記ジェスチャ入力情報である場合には、上記ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から上記実行量情報を認識してもよい。

また、上記情報処理装置は、予め登録されたユーザＩＤの中から、上記入力操作を行うユーザのユーザＩＤを特定する個人判別部をさらに備え、上記入力識別部は、上記特定されたユーザＩＤに応じて、上記入力情報の種類毎に上記入力操作を行うユーザの特性に合わせた意味情報を認識してもよい。

また、上記入力識別部は、上記特定されたユーザＩＤに応じて、上記入力情報の種類毎に、ユーザＩＤ毎に予め入力操作をパターン化した入力パターンのうち、上記各入力情報に対応する上記入力パターンを特定し、当該入力パターンに関連付けられた上記意味情報を抽出してもよい。

また、上記入力識別部は、上記特定されたユーザＩＤに応じて、上記入力情報の種類毎に、予め入力操作をパターン化した入力パターンに対してユーザＩＤ毎に予め定められた優先度に基づいて、上記各入力情報に対応する上記入力パターンを特定し、当該入力パターンに関連付けられた上記意味情報を抽出してもよい。

また、上記動作処理部は、上記コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、上記コマンドを生成するための２種類以上の上記意味情報のうち１種類以上の上記意味情報が認識されると、上記コマンドを生成してもよい。

また、上記動作処理部は、上記コマンドの生成頻度、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも１つ以上のコマンド、上記動作処理部により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンド、およびユーザにより指定された省略対象に関する情報のうち少なくとも１つ以上に基づいて、上記コマンドを上記省略対象に指定してもよい。

また、上記動作処理部は、上記コマンドにより所定の動作が実行される前に、当該所定の動作の実行の可否をユーザに確認させるための確認表示を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。

また、上記動作処理部は、上記コマンドの生成のために必要な上記意味情報のうち１種類以上の上記意味情報が認識されていない場合に、上記認識されていない上記意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。

また、上記動作処理部は、上記コマンドの生成のために必要な上記意味情報のうち１種類以上の上記意味情報が認識されていない場合に、上記認識されていない上記意味情報の候補を特定し、当該候補の意味情報と既に認識された意味情報により生成される上記コマンドを特定し、当該コマンドにより所定の動作が実行される前の、上記対象装置に関する当該動作の対象の状態を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。

また、上記対象装置は、上記情報処理装置および上記情報処理装置に接続された機器のうち少なくとも１つ以上であり、上記動作処理部は、生成された上記コマンドに従って上記情報処理装置および上記機器のなくとも１つ以上に所定の動作を実行させてもよい。

また、上記動作処理部は、生成された上記コマンドに従って所定の動作が実行された結果を示す結果情報を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、２種類以上の異なる入力操作により取得した２種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、２種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、として機能させるためのプログラムが提供される。

さらに、上記課題を解決するために、本発明の別の観点によれば、２種類以上の異なる入力操作により取得した２種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識するステップと、２種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成するステップと、を含むコマンド生成方法が提供される。

以上説明したように、本発明に係る情報処理装置、プログラムおよびコマンド生成方法によれば、２種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることができる。

本発明の第１の実施形態に係る情報処理装置の機能構成を示すブロック図である。音声記憶部が記憶する音声認識辞書の一例を示す図である。ジェスチャ記憶部が記憶するジェスチャ認識辞書の一例を示す第１の図である。ジェスチャ記憶部が記憶するジェスチャ認識辞書の一例を示す第２の図である。コマンド記憶部が記憶するコマンド辞書の一例を示す第１の図である。コマンドによる動作の実行結果の一例を示す第１の図である。コマンドによる動作の実行結果の一例を示す第２の図である。入力情報と意味情報との関係の一例を示す図である。第１の実施形態に係るコマンド生成処理を示すフローチャートである。本発明の第２の実施形態に係る情報処理装置の機能構成を示すブロック図である。変化量記憶部が記憶する変化量変換辞書の一例を示す第１の図である。変化量記憶部が記憶する変化量変換辞書の一例を示す第２の図である。コマンド記憶部が記憶するコマンド辞書の一例を示す第２の図である。第２の実施形態に係るコマンド生成処理を示すフローチャートである。本発明の第３の実施形態に係る情報処理装置の機能構成を示すブロック図である。ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の一例を示す第１の図である。ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の一例を示す第２の図である。第３の実施形態に係るコマンド生成処理を示すフローチャートである。本発明の第４の実施形態に係る情報処理装置の機能構成を示すブロック図である。動作内容記憶部が記憶する情報の一例を示す図である。頻度情報記憶部が記憶する情報の一例を示す図である。コマンド記憶部が記憶するコマンド辞書の一例を示す第３の図である。省略対象のコマンドの候補を表示する表示画面の一例を示す図である。コマンドの実行可否の確認表示を表示する表示画面の一例を示す図である第４の実施形態に係るコマンド生成処理を示すフローチャートである。本発明の第５の実施形態に係る情報処理装置の機能構成を示すブロック図である。入力操作の候補を表示する表示画面の一例を示す第１の図である。入力操作の候補を表示する表示画面の一例を示す第２の図である。対象装置に関する動作の対象の状態を表示する表示画面の一例を示す第１の図である。対象装置に関する動作の対象の状態を表示する表示画面の一例を示す第２の図である。第５の実施形態に係るコマンド生成処理を示すフローチャートである。本発明の各実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。

また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
１．第１の実施形態
１−１．情報処理装置の構成
１−２．処理の流れ
２．第２の実施形態
２−１．情報処理装置の構成
２−２．処理の流れ
３．第３の実施形態
３−１．情報処理装置の構成
３−２．処理の流れ
４．第４の実施形態
４−１．情報処理装置の構成
４−２．処理の流れ
５．第５の実施形態
５−１．情報処理装置の構成
５−２．処理の流れ
６．発明の各実施形態に係る情報処理装置のハードウェア構成
７．まとめ

以下に説明される各実施形態では、ユーザが操作したい対象装置に対して行う入力操作として、２種類以上の入力操作が行われる。また、２種類以上の入力操作により取得した２種類以上の入力情報として、音声による入力操作により取得した音声入力情報と、体の一部若しくは全体の動きまたは状態による入力操作により取得したジェスチャ入力情報とが用いられる。なお、音声入力情報およびジェスチャ認識情報は、ユーザの入力操作により取得した２種類以上の入力操作により取得した入力情報の一例である。

また、各実施形態に係る情報処理装置は、上記入力情報から対象装置を動作させるコマンドを生成する。情報処理装置は、例えば、テレビ、プロジェクタ、ＤＶＤレコーダ、ブルーレイレコーダ、音楽プレイヤ、ゲーム機器、エアコンディショナ、洗濯機、冷蔵庫等の家電機器、ＰＣ（Personal Computer）、プリンタ、スキャナ、スマートフォン、携帯情報端末（Personal Digital Assistant）等の情報処理機器、または照明機器、湯沸かし器等のその他の機器であってよい。また、情報処理装置は、これら装置と接続される周辺機器であってもよい。

＜１．第１の実施形態＞
［１−１．情報処理装置の構成］
以下では、図１〜８を用いて、本発明の第１の実施形態に係る情報処理装置の構成について説明する。

図１は、本発明の第１の実施形態に係る情報処理装置１００の機能構成を示すブロック図である。図１を参照すると、情報処理装置１００は、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０およびコマンド記憶部１５２を有する。なお、入力認識部は音声認識部１３０とジェスチャ認識部１４０との組合せであるものとして説明される。

音声入力情報取得部１１０は、ユーザが行う音声による入力操作により音声入力情報を取得する。例えば、ユーザが音声による入力操作を行うと、音声入力情報取得部１１０は、収音された音声から音声波形信号を抽出し、音声波形信号をアナログ／デジタル変換することにより、デジタル化された音声情報を音声入力情報として取得する。また、音声入力情報取得部１１０は、デジタル化された音声情報から音声に関する特徴量をさらに抽出し、当該特徴量を音声入力情報として取得してもよい。その後、音声入力情報取得部１１０は、取得された音声入力情報を音声認識部１３０へ出力する。なお、情報処理装置１００と接続された外部の装置が、収音された音声から音声入力情報を取得し、音声入力情報取得部１１０は、当該外部の装置から音声自体、デジタル化された音声情報または上記特徴量のいずれかの情報の形で音声入力情報を受信してもよい。

ジェスチャ入力情報取得部１２０は、ユーザが行う体の一部若しくは全体の動きまたは状態による入力操作によりジェスチャ入力情報を取得する。例えば、ユーザが手の動きによる入力操作を行うと、ジェスチャ入力情報取得部１２０は、情報処理装置１００に取付けられたカメラを用いてユーザの手の動きを撮影することにより、デジタル化された動画像情報をジェスチャ入力情報として取得する。また、ジェスチャ入力情報取得部１２０は、デジタル化された動画像情報から抽出された手の動きに関する特徴量をジェスチャ入力情報として取得してもよい。その後、ジェスチャ入力情報取得部１２０は、取得されたジェスチャ入力情報をジェスチャ認識部１４０へ出力する。なお、入力操作は、手の動きに限られず、体全体、頭、指、顔（表情）または目（視線）等の体の別の部分の動きによるものであってもよい。また、入力操作は、体の一部若しくは全体の動的な動きによるものに限られず、体の一部若しくは全体の静的な状態によるものであってもよい。また、ジェスチャ入力情報は、動画像情報に限られず、静止画像情報でもよく、またセンサ等によって得られるその他の信号情報であってもよい。また、情報処理装置１００と接続された外部の装置が、上記ジェスチャ入力情報を取得し、ジェスチャ入力情報取得部１２０は、当該外部の装置からデジタル化された動画像、上記抽出された特徴量等の形式でジェスチャ入力情報を受信してもよい。

音声記憶部１３２は、予め定められた入力パターンと、当該入力パターンに関連付けられた意味情報とを、音声認識辞書として記憶する。ここで、入力パターンとは、例えば、音声による入力操作を予めパターン化した情報を指す。また、意味情報とは、入力操作の意味する情報を指す。図２は、音声記憶部１３２が記憶する音声認識辞書の一例を示す。図２を参照すると、音声認識辞書には、例えば「ちゃんねる」、「おんりょう」等が入力パターンとして記憶されている。上記入力パターンは、例えば、デジタル化された音声情報や音声に関する特徴量等の、音声入力情報との比較が可能な形式で、記憶されている。また、音声認識辞書には、例えば「ちゃんねる」という入力パターンに関連付けられた「動作の対象はチャンネル」という意味情報、「おんりょう」という入力パターンに関連付けられた「動作の対象は音量」という意味情報が、意味情報として記憶されている。

音声認識部１３０は、音声による入力操作により取得した音声入力情報から、音声による入力操作の意味する意味情報を認識する。例えば、音声認識部１３０は、入力パターンのうち、音声入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。

音声認識部１３０は、音声入力情報取得部１１０により音声入力情報を入力されると、音声記憶部１３２から入力パターンを取得する。次に、音声認識部１３０は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。音声入力情報と各入力パターンとの比較による上記スコアの算出は、現在までの公知の音声認識に関する従来技術を用いることにより実行され得る。次に、音声認識部１３０は、特定された入力パターンに関連付けられた意味情報を音声記憶部１３２から抽出する。このようにして、音声認識部１３０は、入力された音声入力情報から音声による入力操作の意味する意味情報を認識する。最後に、音声認識部１３０は、認識された意味情報を動作処理部１５０へ出力する。

例えば、「おんりょう」という音声により取得された音声入力情報が、音声認識部１３０に入力される。図２を参照すると、例えば、音声認識部１３０は、音声入力情報と各入力パターンとの間の上記スコア（図示せず）を算出した結果、最もスコアが大きかった入力パターンである「おんりょう」を特定する。すると、音声認識部１３０は、「おんりょう」と関連付けられた意味情報である「動作の対象は音量」を意味情報として抽出する。

ジェスチャ記憶部１４２は、体の一部若しくは全部の動きまたは状態による入力操作を予めパターン化した入力パターンと、当該入力パターンに関連付けられた意味情報とを、ジェスチャ認識辞書として記憶する。図３は、ジェスチャ記憶部１４２が記憶するジェスチャ認識辞書の一例を示す。図３を参照すると、ジェスチャ認識辞書には、例えば「手を上に挙げる」、「手を下にさげる」等が入力パターンとして記憶されている。上記入力パターンは、例えば、手の動きに関する動画像や手の動きに関する特徴量等の、ジェスチャ入力情報との比較が可能な形式で、記憶されている。また、ジェスチャ認識辞書には、例えば「手を上に挙げる」という入力パターンに関連付けられた「パラメータを上げる」という意味情報、「手を下にさげる」という入力パターンに関連付けられた「パラメータを下げる」という意味情報等が、記憶されている。

図４は、ジェスチャ記憶部１４２が記憶するジェスチャ認識辞書の他の一例を示す。手の動きまたは状態による入力操作ではなく、体の別の部分の動きまたは状態による入力操作が行われる場合、ジェスチャ記憶部１４２は、図３に例示される入力パターンの代わりに、図４に例示される入力パターンを記憶してもよい。例えば、ジェスチャ認識辞書には、「全ての指を広げて伸ばす」、「全ての指を閉じる」等が入力パターンとして記憶されてもよい。

ジェスチャ認識部１４０は、体の一部若しくは全体の動きまたは状態による入力操作により取得したジェスチャ入力情報から、体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。例えば、ジェスチャ認識部１４０は、入力パターンのうち、ジェスチャ入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。

ジェスチャ認識部１４０は、ジェスチャ入力情報取得部１２０によりジェスチャ入力情報を入力されると、ジェスチャ記憶部１４２から入力パターンを取得する。次に、ジェスチャ認識部１４０は、例えば、ジェスチャ入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。ジェスチャ入力情報と各入力パターンとの比較による上記スコアの算出は、現在までの公知のジェスチャ認識に関する従来技術を用いることにより実行され得る。次に、ジェスチャ認識部１４０は、特定された入力パターンに関連付けられた意味情報をジェスチャ記憶部１４２から抽出する。このようにして、ジェスチャ認識部１４０は、入力されたジェスチャ入力情報から体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。最後に、ジェスチャ認識部１４０は、認識された意味情報を動作処理部１５０へ出力する。

例えば、手を上に挙げる動作により取得されたジェスチャ入力情報が、ジェスチャ認識部１４０に入力される。図３を参照すると、例えば、ジェスチャ認識部１４０は、ジェスチャ入力情報と各入力パターンとの間の上記スコアを算出した結果、最もスコアが大きかった入力パターンである「手を上に挙げる」を特定する。すると、ジェスチャ認識部１４０は、「手を上に挙げる」と関連付けられた意味情報である「パラメータを上げる」を意味情報として抽出する。

コマンド記憶部１５２は、ユーザが入力操作を行う対象装置に所定の動作を実行させるためのコマンドと、コマンドに対応する２種類以上の意味情報の組合せとを、コマンド辞書として記憶する。図５は、コマンド記憶部１５２が記憶するコマンド辞書の一例を示す。図５を参照すると、コマンド辞書には、例えば「チャンネルを昇順に変える」、「音量を上げる」等のコマンドが、記憶されている。上記コマンドは、例えば、対象装置が読み取り可能なデータ形式で記憶されている。また、コマンド辞書には、例えば「チャンネルを昇順に変える」というコマンドに対応する、「パラメータを上げる」、「動作の対象はチャンネル」等が、意味情報の組合せとして記憶されている。

動作処理部１５０は、２種類以上の意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する。ここでの意味情報は、音声認識部１３０により認識された意味情報、ジェスチャ認識部１４０により認識された意味情報という２種類の意味情報である。動作処理部１５０は、音声認識部１３０およびジェスチャ認識部１４０から意味情報の入力を受けると、コマンド記憶部１５２からこれらの意味情報の組合せに対応するコマンドを抽出する。抽出されたコマンドは、対象装置に所定の動作を実行させるためのコマンドである。このようにして、動作処理部１５０は、対象装置に所定の動作を実行させるためのコマンドを生成する。

動作処理部１５０は、生成されたコマンドに従って対象装置に所定の動作を実行させる。また、動作処理部１５０は、生成されたコマンドに従って所定の動作が実行された結果を示す結果情報を、対象装置またはその他の装置の表示画面に表示するように制御する。ここで、その他の装置とは、例えば対象装置と直接的にまたは間接的に接続された装置である。

例えば、動作処理部１５０は、音声認識部１３０により「動作の対象は音量」という意味情報を入力され、ジェスチャ認識部１４０により「パラメータを上げる」という意味情報を入力される。図５を参照すると、動作処理部１５０は、「動作の対象は音量」という意味情報と「パラメータを上げる」という意味情報の組合せと対応する「音量を上げる」というコマンドを生成する。すると、動作処理部１５０は、生成された「音量を上げる」というコマンドに従って対象装置に「音量を上げる」動作を実行させる。図６は、コマンドによる動作の実行結果の一例を示す。上記のように「音量を上げる」動作が実行されると、動作処理部１５０は、図６に示されるように、対象装置またはその他の装置の表示画面の例えば右下に上げられた音量を結果情報として表示するように制御する。

また、例えば、動作処理部１５０は、音声認識部１３０により「動作は対象はチャンネル」という意味情報を入力され、ジェスチャ認識部１４０により「パラメータを上げる」という意味情報を入力される。図５を参照すると、動作処理部１５０は、「動作の対象はチャンネル」という意味情報と「パラメータを上げる」という意味情報の組合せと対応する「チャンネルを昇順に変える」というコマンドを生成する。すると、動作処理部１５０は、生成された「チャンネルを昇順に変える」というコマンドに従って対象装置に「チャンネルを昇順に変える」動作を実行させる。図７は、コマンドによる動作の実行結果の一例を示す。上記のように「チャンネルを昇順に変える」動作が実行されると、動作処理部１５０は、図７に示されるように、対象装置またはその他の装置の表示画面の例えば右下に昇順に変えられたチャンネルを結果情報として表示するように制御する。

なお、動作処理部１５０が動作を実行させる対象装置は、情報処理装置１００および情報処理装置に接続された機器のうち少なくとも１つ以上でもよい。例えば、対象装置がテレビであり、当該テレビ自体が情報処理装置１００であってもよい。また、例えば、対象装置がエアコンディショナであり、情報処理装置１００は当該エアコンディショナと接続された周辺機器であってもよい。また、例えば、対象装置がＰＣ、プリンタ、スキャナであり、情報処理装置１００はこれらに接続された周辺機器であってもよい。

以上、情報処理装置１００が有する音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０およびコマンド記憶部１５２の各々について説明した。ここでは、さらに、音声認識部１３０とジェスチャ認識部１４０に共通する事項を説明し、その後で音声記憶部１３２およびジェスチャ記憶部１４２に共通する事項を説明する。

また、本実施形態では、音声認識部１３０は、音声入力情報から所定の動作の対象を示す意味情報を認識し、ジェスチャ認識部１４０は、ジェスチャ入力情報から所定の動作の内容を示す意味情報を認識する。入力情報に対応する入力パターンと意味情報との関係の一例を示した図８を参照して、その関係について説明する。図８のとおり、例えば、音声入力情報から「おんりょう」とういう入力パターンが特定された場合に、「動作の対象は音量」という意味情報が認識される。また、音声入力情報から「ちゃんねる」とういう入力パターンが特定された場合に、「動作の対象はチャンネル」という意味情報が認識される。このようにして、音声入力情報から動作の対象を示す意味情報が認識される。また、例えば、ジェスチャ入力情報から「手を上に挙げる」とういう入力パターンが特定された場合に、「パラメータを上げる」という意味情報が認識される。また、例えば、ジェスチャ入力情報から「手を下にさげる」とういう入力パターンが特定された場合に、「パラメータを下げる」という意味情報が認識される。このようにして、各入力情報から、それぞれ無作為に定められた意味情報が認識されるのではなく、それぞれ動作の内容を示す意味情報および動作の対象を示す意味情報が認識される。これにより、ユーザは、各入力操作が意味し得る意味情報を想定しやすいため、入力操作をより容易に覚え得る。

音声記憶部１３２およびジェスチャ記憶部１４２では、図２および図３のとおり、複数の入力パターンに同一の意味情報が関連付けられ得る。図２を参照すると、例えば、「ちゃんねる」、「ばんぐみ」という２つの入力パターンに、「対象はチャンネル」という同一の意味情報が関連付けられている。また、図３を参照すると、例えば、「手を上に挙げる」、「手を押し出す」という２つの入力パターンに、「パラメータを上げる」という同一の意味情報が関連付けられている。この場合、ユーザは、特定の意味情報を装置に認識させるために細かく入力操作を覚える必要はない。ユーザは、特定の意味情報を示すいずれかの入力操作のうち覚えやすいものを覚えればよい。または、ユーザは、特定の意味情報を示すいくつかの入力操作を知り、入力操作を行う際に思い出せるものを使えばよい。その結果、ユーザが必ず覚えなければならない入力操作は減り得る。なお、入力パターンと意味情報を１対１に対応付けてもよい。

［１−２．処理の流れ］
以下では、図９を用いて、本発明の第１の実施形態に係るコマンド生成処理について説明する。図９は、第１の実施形態に係るコマンド生成処理を示すフローチャートである。

図９を参照すると、まずステップＳ３１０において、音声入力情報取得部１１０が、ユーザの音声による入力操作から音声入力情報を取得する。また、ジェスチャ入力情報取得部１２０が、ユーザの体の一部若しくは全体の動きまたは状態による入力操作からジェスチャ入力情報を取得する。

次に、ステップＳ３２０において、音声認識部１３０は、音声入力情報から音声による入力操作の意味する意味情報を認識する。また、ジェスチャ認識部１４０は、ジェスチャ入力情報から体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。

ステップＳ３３０において、動作処理部１５０は、音声認識部１３０およびジェスチャ認識部１４０から、コマンドの生成に必要な意味情報が全て認識され、入力されているかを判定する。具体的には、例えば、動作処理部１５０は、所定の時間内に必要な意味情報が全て入力されていなければ、本処理を終了する。一方で、動作処理部１５０は、コマンドの生成に必要な意味情報が全て入力されていれば、コマンドの生成に必要な意味情報が全て認識されていると判定し、ステップＳ３４０へ進む。また、例えば、動作処理部１５０は、所定の時間毎に意味情報の有無を確認し、一方の意味情報の入力のみがあれば、所定の時間後に再度他方の意味情報の入力の有無を確認してもよい。その結果、動作処理部１５０は、他方の意味情報の入力がなければ、コマンドの生成に必要ないずれかの意味情報が認識されていないと判定し、本処理を終了する。他方の意味情報の入力があれば、コマンドの生成に必要な意味情報が全て認識されていると判定し、ステップＳ３４０へ進む。

次に、ステップＳ３４０において、動作処理部１５０は、２種類以上の意味情報を組合せることにより対象装置に所定の動作を実行させるためのコマンドを生成する。本実施形態では、動作処理部１５０は、認識された意味情報を組合せることにより生成できるコマンドがある場合にはコマンドを生成し、認識された意味情報を組合せることにより生成できるコマンドがない場合にはコマンドを生成しない。

ステップ３５０において、動作処理部１５０は、コマンドが生成されているかを判定する。ここで、コマンドが生成されている場合には、処理はステップＳ３６０へ進む。一方、コマンドが生成されていない場合には、本処理を終了する。

最後に、ステップ３６０において、動作処理部１５０は、生成されたコマンドに従って対象装置に所定の動作を実行させる。また、動作処理部１５０は、生成されたコマンドに従って所定の動作が実行された結果を示す結果情報を、対象装置またはその他の装置の表示画面に表示するように制御する。

以上が本発明の第１の実施形態に係るコマンド生成処理の流れである。なお、当該コマンド生成処理は、情報処理装置の起動時に実行され、その後コマンド生成処理の終了時に繰り返し実行されてもよい。または、当該コマンド生成処理は、例えば、所定の時間間隔で繰り返し実行されてもよい。

＜２．第２の実施形態＞
本発明の第２の実施形態に係る情報処理装置は、本発明の第１の実施形態に係る情報処理装置が有する機能に対して、対象装置に実行させる動作の実行量を入力操作に基づいて変える機能がさらに追加されたものである。

［２−１．情報処理装置の構成］
以下では、図１０〜１３を用いて、本発明の第２の実施形態に係る情報処理装置の構成について説明する。

図１０は、本発明の第２の実施形態に係る情報処理装置１００の機能構成を示すブロック図である。図１０を参照すると、情報処理装置１００は、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０、コマンド記憶部１５２、変化量変換部１６０および変化量記憶部１６２を有する。

このうち、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２は、第１の実施形態として［１−１．情報処理装置の構成］において説明したとおりである。よって、新たに追加されている変化量変換部１６０および変化量記憶部１６２、並びに第１の実施形態と一部の機能が相違する音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、動作処理部１５０およびコマンド記憶部１５２の相違箇所を中心に説明する。

音声入力情報取得部１１０は、変化量変換部１６０に音声入力情報を出力し、変化量変換部１６０は音声入力情報から所定の動作の実行量を示す実行量情報を認識する。

ジェスチャ入力情報取得部１２０は、変化量変換部１６０にジェスチャ入力情報を出力し、変化量変換部１６０がジェスチャ入力情報から所定の動作の実行量を示す実行量情報を認識する。本実施形態では、変化量変換部１６０は、音声入力情報またはジェスチャ入力情報の少なくともいずれかから実行量情報を認識する。

変化量記憶部１６２は、所定の動作の実行量を示す実行量情報と、音声入力情報またはジェスチャ入力情報から実行量情報を認識するための判断基準とを、変化量変換辞書として記憶する。

図１１は、変化量記憶部１６２が記憶する変化量変換辞書の一例を示す。図１１は、ジェスチャ入力情報から取得される手の動きの変化量から実行量情報を認識する場合の変化量変換辞書の例を示している。この場合、変化量変換辞書には、例えば「手の動きの変化量はＸ未満」、「手の動きの変化量はＸ以上Ｙ未満」、「手の動きの変化量はＹ以上」の場合に動作の実行量を「小」、「中」、「大」とする判断基準が記憶されている。なお、動作の実行量は、数値として表されてもよい。

図１２は、変化量記憶部１６２が記憶する変化量変換辞書の一例を示す。図１２は、ジェスチャ入力情報の他の一例である目の動きにより取得した手の動きによるジェスチャ入力情報とは別の入力情報から、実行量情報を認識する場合の、変化量変換辞書の例を示している。この場合、変化量変換辞書には、例えば「目を細めている」、「画面を凝視している」場合に、動作の実行量を「画面の輝度を上げる場合：動作の実行大、その他の場合：動作の実行小」、「音量を上げる／下げる場合：動作の実行大、その他の場合：動作の実行小」とする判断基準が、記憶されている。

変化量変換部１６０は、例えば、変化量変換部１６０は、入力情報が音声入力情報である場合には、音声入力情報から取得される音量から実行量情報を認識し、入力情報がジェスチャ入力情報である場合には、ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から実行量情報を認識する。

変化量変換部１６０は、音量から実行量情報を認識する場合、音声入力情報から音声の音量を取得する。または、変化量変換部１６０は、体の一部若しくは全体の動きまたは状態の変化量から実行量情報を認識する場合、ジェスチャ入力情報から体の一部若しくは全体の動きまたは状態の変化量を取得する。ここで、体の一部若しくは全体の動きの変化量とは、例えば、動きの開始時点と動きの完了時点との間で体の一部若しくは全体が変化した程度であってもよい。また、体の一部若しくは全体の状態の変化量とは、例えば、撮影等された体の一部若しくは全体の状態と基準となる体の一部若しくは全体の状態との間で、体の一部若しくは全体が相違する程度であってもよい。体の一部若しくは全体の動きまたは状態の変化量の取得は、現在までの公知のジェスチャ認識に関する従来技術を用いることにより実行され得る。次に、変化量変換部１６０は、判断基準によると音量または変化量が対応する動作の実行量を、変化量記憶部１６２から取得する。このようにして、変化量変換部１６０は、動作の実行量を示す実行量情報を認識する。最後に、変化量変換部１６０は、認識された実行量情報を動作処理部１５０へ出力する。

例えば、手を大きく上に挙げる動作により取得されたジェスチャ入力情報が、変化量変換部１６０に入力される。そして、変化量変換部１６０は、ジェスチャ入力情報から手の動きの変化量Ａ３を取得する。図１１を参照すると、例えば、測定された変化量Ａ３はＹ以上であるため、動作の実行量が「大」という実行量情報を変化量記憶部１６２から取得する。このようにして、変化量変換部１６０は、動作の実行量が「大」という実行量情報を認識する。

なお、変化量変換部１６０は、意味情報を認識するために用いた音声入力情報およびジェスチャ入力情報とは異なる、別の入力操作により取得した別の入力情報から、所定の動作の実行量を示す実行量情報を認識してもよい。変化量変換部１６０は、上記別の入力情報が入力されると、例えば変化量記憶部１６２から上記別の入力情報から実行量情報を認識するための判断基準を取得する。次に、変化量変換部１６０は、例えば、上記別の入力情報と各判断基準との間の適合の程度を示すスコアを算出し、スコアが最も大きい判断基準を特定する。次に、変化量変換部１６０は、特定された判断基準に対応する実行量情報を変化量記憶部１６２から抽出する。例えばこのようにして、変化量変換部１６０は、別の入力操作により取得した上記別の入力情報から実行量情報を認識してもよい。

別の入力操作が目の動きによる入力操作である場合の例を説明する。例えば、目を細める動作により取得された上記別の入力情報が、変化量変換部１６０に入力される。図１２を参照すると、例えば、変化量変換部１６０は、上記別の入力情報と各判断基準との間のスコアを算出した結果、最もスコアが大きかった判断基準である「目を細めている」を特定する。すると、変化量変換部１６０は、「目を細めている」という判断基準と対応する動作の実行量である「画面の輝度を下げる場合：動作の実行量大、その他の場合：動作の実行量小」を実行量情報として抽出する。

コマンド記憶部１５２は、対象装置に所定量の動作を実行させるためのコマンドと、コマンドに対応する意味情報および実行量情報との組合せとをコマンド辞書として記憶する。図１３は、コマンド記憶部１５２が記憶するコマンド辞書の他の例を示す。図１３を参照すると、コマンド辞書には、例えば「音量を１ポイント上げる」、「音量を３ポイント上げる」等のコマンドが、記憶されている。また、コマンド辞書には、「パラメータを上げる」、「動作の対象は音量」等の意味情報と「小」、「大」等の実行量情報との組合せが記憶されている。

動作処理部１５０は、２種類以上の意味情報および実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する。ここでの意味情報は、音声認識部１３０により認識された意味情報、ジェスチャ認識部１４０により認識された意味情報という２種類の意味情報である。動作処理部１５０は、意味情報を入力されるだけではなく、変化量変換部１６０により実行量情報を入力されると、意味情報および実行量情報の組合せと対応するコマンドをコマンド記憶部１５２から取得する。

［２−２．処理の流れ］
以下では、図１４を用いて、本発明の第２の実施形態に係るコマンド生成処理について説明する。図１４は、第２の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップＳ３１０、ステップＳ３２０、ステップＳ３３０、ステップＳ３５０およびステップＳ３６０は、［１−２．処理の流れ］にて説明した第１の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップＳ３２２、および第１の実施形態と一部の処理が相違するステップＳ３４０の相違箇所を中心に説明する。

ステップ３２２において、変化量変換部１６０は、意味情報を認識するための音声入力情報またはジェスチャ入力情報のうちいずれかの入力情報から、所定の動作の実行量を示す実行量情報を認識する。

また、ステップ３４０において、動作処理部１５０は、２種類以上の意味情報および実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する。

＜３．第３の実施形態＞
本発明の第３の実施形態に係る情報処理装置は、本発明の第１の実施形態に係る情報処理装置が有する機能に対して、各ユーザの特性に合わせた意味情報の認識を行う機能がさらに追加されたものである。

［３−１．情報処理装置の構成］
以下では、図１５〜１７を用いて、本発明の第３の実施形態に係る情報処理装置の構成について説明する。

図１５は、本発明の第３の実施形態に係る情報処理装置１００の機能構成を示すブロック図である。図１５を参照すると、情報処理装置１００は、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０、コマンド記憶部１５２および個人判別部１７０を有する。

このうち、動作処理部１５０およびコマンド記憶部１５２は、第１の実施形態として［１−１．情報処理装置の構成］において説明したとおりである。よって、新たに追加されている個人判別部１７０、並びに第１の実施形態と一部の機能が相違する音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０およびジェスチャ記憶部１４２の相違箇所を中心に説明する。

音声入力情報取得部１１０は、個人判別部１７０が音声入力情報から入力操作を行うユーザのユーザＩＤを特定する場合には、個人判別部１７０に音声入力情報を出力する。

ジェスチャ入力情報取得部１２０は、個人判別部１７０がジェスチャ入力情報から入力操作を行うユーザのユーザＩＤを特定する場合には、個人判別部１７０にジェスチャ入力情報を出力する。

個人判別部１７０は、予め登録されたユーザＩＤの中から、入力操作を行うユーザのユーザＩＤを特定する。個人判別部１７０は、例えば、ユーザによる入力操作により取得した音声入力情報またはジェスチャ入力情報から、予め登録されたユーザＩＤを特定する。例えば、音声入力情報からユーザＩＤを特定する場合、個人判別部１７０は、音声入力情報が入力されると、音声入力情報の中の音声情報と予め登録された各ユーザの音声の特徴量とを比較する。個人判別部１７０は、比較の結果に基づき、例えば最も適合する特徴量を特定することにより、ユーザＩＤを特定する。また、ジェスチャに入力情報からユーザＩＤを特定する場合、個人判別部１７０は、ジェスチャ力情報が入力されると、例えばジェスチャ力情報の中のユーザの顔の画像と予め登録された各ユーザの顔の特徴量とを比較する。個人判別部１７０は、比較の結果に基づき、例えば最も適合する特徴量を特定することにより、ユーザＩＤを特定する。最後に、個人判別部１７０は、特定されたユーザＩＤを音声認識部１３０およびジェスチャ認識部１４０へ出力する。なお、個人判別部１７０は、ユーザＩＤの特定のために、意味情報を認識するための入力情報を使用せずに、別の情報を使用してもよい。例えば、ユーザＩＤカードからの読込情報、リモコン、マウス、キーボード等の入力装置により入力されたユーザＩＤ情報等の、意味情報を認識するための入力情報以外の別の入力情報が、使用されてもよい。

音声記憶部１３２はおよびジェスチャ記憶部１４２は、それぞれユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書を記憶する。

図１６は、ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の一例を示す。図１６には、ユーザＩＤ毎に予め定められた入力パターンが記憶された、ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の例を示している。図１６を参照すると、ユーザＡの音声認識辞書には、例えば「ちゃんねる」、「おんりょう」等の入力パターンが記憶されている。一方で、ユーザＢの音声認識辞書には、「ばんぐみ」、「ぼりゅうむ」等の入力パターンが記憶されている。また、ユーザＡのジェスチャ認識辞書には、例えば「手を上に挙げる」、「手を下に下げる」等の入力パターンが記憶されている。一方で、ユーザＢのジェスチャ認識辞書には、「手を押し出す」、「手を引き戻す」等の入力パターンが記憶されている。なお、入力パターンに関連付けられた意味情報も記憶されている。

また、図１７は、ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の他の例を示す。図１７には、入力パターンに対してユーザＩＤ毎に予め定められた優先度が記憶された、ユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書の例を示している。図１７を参照すると、ユーザＡの音声認識辞書には、例えば「ちゃんねる」という入力パターンに対して、優先度として例えば「＋０．５」というスコア付加値が記憶されている。一方で、ユーザＢの音声認識辞書には、例えば「ちゃんねる」という入力パターンに対して、優先度として例えば「＋０」というスコア付加値が記憶されている。また、ユーザＡのジェスチャ認識辞書には、例えば「手を押し戻す」という入力パターンに対して、優先度として例えば「＋０」というスコア付加値が記憶されている。一方で、ユーザＢのジェスチャ認識辞書には、例えば「手を押し戻す」という入力パターンに対して、優先度として例えば「＋０．５」というスコア付加値が記憶されている。なお、図１７には表示されていないものの、入力パターンに関連付けられた意味情報も記憶されている。

音声認識部１３０およびジェスチャ認識部１４０は、特定されたユーザＩＤに応じて、入力操作を行うユーザの特性に合わせた意味情報を認識する。例えば、音声認識部１３０およびジェスチャ認識部１４０は、特定されたユーザＩＤに応じて、ユーザＩＤ毎の入力パターンのうち、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。

音声認識部１３０およびジェスチャ認識部１４０は、ここでは同様の処理を行うため、音声認識部１３０を例にとって説明する。音声認識部１３０は、音声入力情報取得部１１０により音声入力情報を入力され、また個人判別部１７０により特定されたユーザＩＤが入力される。音声認識部１３０は、特定されたユーザＩＤの音声認識辞書に記憶されている、特定されたユーザＩＤに対して予め定められた入力パターンを取得する。次に、音声認識部１３０は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。次に、音声認識部１３０は、特定されたユーザＩＤの音声認識辞書において、特定された入力パターンに関連付けられた意味情報を、音声記憶部１３２から抽出する。このようにして、音声認識部１３０は、例えばユーザＩＤ毎に予め定められた入力パターンを用いて、ユーザの特性に合わせた意味情報を認識する。

例えば、ユーザＡによる「おんりょう」という音声により取得された音声入力情報が、音声認識部１３０に入力される。図１６を参照すると、例えば、音声認識部１３０は、ユーザＡの音声認識辞書に記憶された入力パターンである「おんりょう」を特定する。すると、音声認識部１３０は、「おんりょう」と関連付けられた意味情報である「動作の対象は音量」を意味情報として抽出する。

なお、音声認識部１３０およびジェスチャ認識部１４０は、特定されたユーザＩＤに応じて、入力パターンに対してユーザＩＤ毎に予め定められた優先度に基づいて、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出してもよい。例えば、音声認識部１３０は、音声入力情報取得部１１０により音声入力情報を入力され、また個人判別部１７０により特定されたユーザＩＤが入力される。音声認識部１３０は、特定されたユーザＩＤの音声認識辞書に記憶されている、入力パターン、および当該入力パターンに対して予め定められた優先度である例えばスコア付加値を取得する。次に、音声認識部１３０は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、当該スコアと各入力パターンのスコア付加値の和を算出する。音声認識部１３０は、例えば、当該和が最も大きい入力パターンを特定する。次に、音声認識部１３０は、特定されたユーザＩＤの音声認識辞書において、特定された入力パターンに関連付けられた意味情報を、音声記憶部１３２から抽出する。このようにして、音声認識部１３０は、例えばユーザＩＤ毎に予め定められた優先度を用いて、ユーザの特性に合わせた意味情報を認識する。

上記のように、入力操作をユーザの特性に合わせた意味情報を認識する手法の具体的な例として、ユーザＩＤ毎に予め定められた入力パターンを用いる場合、ユーザＩＤ毎に予め定められた優先度を用いる場合を説明した。しかしながら、入力操作をユーザの特性に合わせた意味情報を認識する手法は、これらの具体的な例に限られず、他の具体的な手法により実行されてもよい。

［３−２．処理の流れ］
以下では、図１８を用いて、本発明の第３の実施形態に係るコマンド生成処理について説明する。図１８は、第３の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップＳ３１０、ステップＳ３３０、ステップＳ３４０、ステップＳ３５０およびステップＳ３６０は、［１−２．処理の流れ］にて説明した第１の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップＳ３１２、ステップＳ３１４、ステップＳ３１６およびステップＳ３１８、並びに第１の実施形態と一部の処理が相違するステップＳ３２０の相違箇所を中心に説明する。

ステップ３１２において、個人判別部１７０は、音声入力情報またはジェスチャ入力情報から、予め登録されたユーザＩＤの中から、入力操作を行うユーザのユーザＩＤを特定する。

ステップ３１４において、個人判別部１７０は、ユーザＩＤは既に登録されているかを判定する。ここで、ユーザＩＤが登録されていない、つまりユーザＩＤが特定されなかった場合には、個人判別部１７０は、ユーザＩＤが特定できなかったこと示す通知を音声認識部１３０およびジェスチャ認識部１４０に出力する。その後、処理はステップＳ３１６へ進む。一方、ユーザＩＤが登録されている、つまりユーザＩＤが特定された場合には、個人判別部１７０は、ユーザＩＤを音声認識部１３０およびジェスチャ認識部１４０に出力する。その後、処理はステップＳ３１８へ進む。

ステップ３１６において、音声認識部１３０およびジェスチャ認識部１４０は、それぞれ汎用の音声認識辞書および汎用のジェスチャ認識辞書を使用することを決定する。

ステップ３１８において、音声認識部１３０およびジェスチャ認識部１４０は、それぞれユーザＩＤ毎の音声認識辞書およびユーザＩＤ毎のジェスチャ認識辞書は使用することを決定する。

また、ステップ３２０において、音声認識部１３０およびジェスチャ認識部１４０は、それぞれ使用することを決定した音声認識辞書およびジェスチャ認識辞書を用いて、意味情報を認識する。特にユーザＩＤ毎の音声認識辞書およびジェスチャ認識辞書を使用する場合には、音声認識部１３０およびジェスチャ認識部１４０は、特定されたユーザＩＤに応じて、入力操作を行うユーザの特性に合わせた意味情報を認識する。例えば、音声認識部１３０およびジェスチャ認識部１４０は、特定されたユーザＩＤに応じて、ユーザＩＤ毎の入力パターンのうち、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。

＜４．第４の実施形態＞
本発明の第４の実施形態に係る情報処理装置は、本発明の第１の実施形態に係る情報処理装置が有する機能に対して、コマンドを生成するために入力操作の一部を省略することを可能とする機能がさらに追加されたものである。

［４−１．情報処理装置の構成］
以下では、図１９〜２４を用いて、本発明の第４の実施形態に係る情報処理装置の構成について説明する。

図１９は、本発明の第４の実施形態に係る情報処理装置１００の機能構成を示すブロック図である。図１９を参照すると、情報処理装置１００は、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０、コマンド記憶部１５２、動作内容記憶部１５４および頻度情報記憶部１５６を有する。

このうち、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０およびジェスチャ記憶部１４２は、第１の実施形態として［１−１．情報処理装置の構成］において説明したとおりである。よって、新たに追加されている動作内容記憶部１５４および頻度情報記憶部１５６、並びに第１の実施形態と一部の機能が相違する動作処理部１５０およびコマンド記憶部１５２の相違箇所を中心に説明する。

動作内容記憶部１５４は、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドを記憶する。例えば図９に示したコマンド生成処理を繰り返す毎に１つのコマンドを生成する動作内容記憶部１５４は、動作処理部１５０がコマンドを生成する度に、動作処理部１５０から当該コマンドを取得する。そして、動作内容記憶部１５４は、当該コマンドに基づき記憶しているコマンドを更新する。なお、動作内容記憶部１５４は、動作処理部１５０により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンドを記憶してもよい。

図２０は、動作内容記憶部１５４が記憶する情報の一例を示す。図２０を参照すると、動作内容記憶部１５４は、例えば最新に生成されたコマンドから過去に向かって連続的に生成されたＮ個のコマンドを記憶する。例えば、「音量を挙げる」というコマンドが最新のコマンドとして記憶されている。また、例えば、「音量を挙げる」というコマンドに対応する「パラメータを挙げる」、「動作の対象は音量」という意味情報も記憶されている。

頻度情報記憶部１５６は、各コマンドの生成頻度を記憶する。頻度情報記憶部１５６は、例えば、動作内容記憶部１５４が新たなコマンドを取得する度に、動作内容記憶部１５４から当該コマンドを取得する。そして、頻度情報記憶部１５６は、当該コマンドに基づき記憶している各コマンドの生成頻度を更新する。なお、コマンドの生成頻度は、例えば、所定の期間内にコマンドが生成された回数を示す。

図２１は、頻度情報記憶部１５６が記憶する情報の一例を示す。図２１を参照すると、例えば、「チャンネルを昇順に変える」というコマンドに対して、「８回」というコマンドの生成頻度が記憶されている。また、「チャンネルを昇順に変える」というコマンドに対して、「パラメータを上げる」、「動作の対象はチャンネル」という意味情報も記憶されている。

コマンド記憶部１５２は、各コマンドおよびそれに対応する意味情報の組合せに加えて、省略対象に指定されているコマンドを示す省略対象情報を記憶する。例えば、コマンド記憶部１５２は、各コマンドに対して、省略対象であるか否かを示す省略対象識別情報を記憶する。

図２２は、コマンド記憶部１５２が記憶するコマンド辞書の一例を示す。図２２を参照すると、例えば、コマンドの右側に省略対象であるか否かを示す省略対象識別情報が設けられ、ここでは「音量を上げる」というコマンドが省略対象として指定されている。

動作処理部１５０は、コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、コマンドを生成するための２種類以上の意味情報のうち１種類以上の意味情報が認識されると、コマンドを生成する。ここでの意味情報は、音声認識部１３０により認識された意味情報、ジェスチャ認識部１４０により認識された意味情報という２種類の意味情報である。例えば所定の時間内に、音声認識部１３０またはジェスチャ認識部１４０のいずれか一方のみから意味情報を入力された場合に、動作処理部１５０は、コマンド記憶部１５２内で、入力された意味情報から生成され得るコマンドであって省略対象に指定されているものを検索する。省略対象に指定されているコマンドがあれば、動作処理部１５０は、コマンド記憶部１５２から当該コマンドを取得する。省略対象に指定されているコマンドが存在する場合、動作処理部１５０は、当該コマンドを対象装置に所定の動作を実行させるためのコマンドとして決定する。このようにして、動作処理部１５０は、省略対象に指定されているコマンドを生成する。

例えば、動作処理部１５０は、ジェスチャ認識部１４０により「パラメータを上げる」という意味情報を入力され、音声認識部１３０により意味情報が入力されない。図２２を参照すると、「音量を上げる」というコマンドが省略対象に指定されているため、動作処理部１５０は、「パラメータを上げる」という意味情報から、「音量を上げる」というコマンドをコマンド記憶部１５２から取得する。そして、動作処理部１５０は、「音量を上げる」というコマンドを対象装置に所定の動作を実行させるためのコマンドとして決定する。

また、動作処理部１５０は、特定のコマンドを省略対象として指定する。例えば、動作処理部１５０は、コマンドの生成頻度に基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部１５０は、頻度情報記憶部１５６に記憶されているコマンドのうち生成頻度の最も高いコマンドを省略対象に指定する。図２１を参照すると、例えば、動作処理部１５０は、生成頻度が「１５回」である「音量を上げる」というコマンドを省略対象に指定する。

例えば、動作処理部１５０は、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも１つ以上のコマンドに基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部１５０は、動作内容記憶部１５４に記憶されているコマンドのうち最新に生成されたコマンドを省略対象に指定する。図２０を参照すると、例えば、動作処理部１５０は、最新に生成されたコマンドである「音量を上げる」というコマンドを省略対象に指定する。なお、動作処理部１５０は、動作処理部１５０により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンドに基づいて、特定のコマンドを省略対象として指定してもよい。

例えば、動作処理部１５０は、ユーザにより指定された省略対象に関する情報に基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部１５０は、所定の表示画面にコマンドの一覧を表示するように制御し、ユーザの入力操作により選択されたコマンドを省略対象として指定する。図２３は、省略対象のコマンドの候補を表示する表示画面の一例を示す。図２３を参照すると、動作処理部１５０は、例えば、ユーザの入力操作により選択された「音量を上げる」というコマンドを省略対象に指定する。

なお、動作処理部１５０は、コマンドにより所定の動作が実行される前に、当該所定の動作の実行の可否をユーザに確認させるための確認表示を、対象装置またはその他の装置の表示画面に表示するように制御してもよい。図２４は、コマンドの実行可否の確認表示を表示する表示画面の一例を示す。図２４を参照すると、例えば、「音量を上げる」という省略対象に指定されているコマンドが生成された場合に、動作処理部１５０は、「音量を上げますか？」という確認表示を、対象装置またはその他の装置の表示画面に表示するように制御する。

［４−２．処理の流れ］
以下では、図２５を用いて、本発明の第４の実施形態に係るコマンド生成処理について説明する。図２５は、第４の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップＳ３１０、ステップＳ３２０、ステップＳ３３０、ステップＳ３４０、ステップＳ３５０およびステップＳ３６０は、［１−２．処理の流れ］にて説明した第１の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップＳ４１０、ステップＳ４２０、ステップＳ４３０およびステップＳ４４０を中心に説明する。

ステップＳ４１０において、動作処理部１５０は、コマンドを生成するための２種類の意味情報のうち一方の意味情報が認識されているかを判定する。ここで、一方の意味情報が認識されていれば、処理はステップＳ４２０へ進む。一方、いずれの意味情報も認識されていない場合には、本処理を終了する。

次に、ステップＳ４２０において、動作処理部１５０は、入力された一方の意味情報から生成され得るコマンドであって省略対象に指定されているものがあるかを判定する。例えば、動作処理部１５０は、入力された一方の意味情報に基づいてコマンド記憶部１５２から当該コマンドを取得する。ここで、上記コマンドがあれば、処理はステップＳ４３０へ進む。一方、上記コマンドがなければ、本処理を終了する。

次に、ステップＳ４３０において、動作処理部１５０は、省略対象として指定されているコマンドを生成する。例えば、動作処理部１５０は、上記のようにコマンド記憶部１５２から取得している上記コマンドを、対象装置に所定の動作を実行させるためのコマンドとして決定する。

最後に、ステップＳ４４０において、動作処理部１５０は、特定のコマンドを省略対象として指定する。

＜５．第５の実施形態＞
本発明の第５の実施形態に係る情報処理装置は、本発明の第１の実施形態に係る情報処理装置が有する機能に対して、ユーザにより入力操作の一部が行われた場合に、さらなる入力操作の候補をユーザに提示することを可能とする機能が、さらに追加されたものである。また、ユーザにより入力操作の一部が行われた場合に、コマンドにより動作が実行される前における当該動作の対象の状態をユーザに提示することを可能とする機能が、さらに追加されたものである。

［５−１．情報処理装置の構成］
以下では、図２６〜３０を用いて、本発明の第５の実施形態に係る情報処理装置の構成について説明する。

図２６は、本発明の第５の実施形態に係る情報処理装置１００の機能構成を示すブロック図である。図２６を参照すると、情報処理装置１００は、音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声認識部１３０、音声記憶部１３２、ジェスチャ認識部１４０、ジェスチャ記憶部１４２、動作処理部１５０、コマンド記憶部１５２および時系列管理部１８０を有する。

このうち、音声認識部１３０、ジェスチャ認識部１４０およびコマンド記憶部１５２は、第１の実施形態として［１−１．情報処理装置の構成］において説明したとおりである。よって、新たに追加されている時系列管理部１８０、並びに第１の実施形態と一部の機能が相違する音声入力情報取得部１１０、ジェスチャ入力情報取得部１２０、音声記憶部１３２、ジェスチャ記憶部１４２および動作処理部１５０の相違箇所を中心に説明する。

音声入力情報取得部１１０は、音声による入力操作から音声入力情報を取得すると、音声入力情報を取得したことを示す音声取得済情報を時系列管理部１８０へ出力する。

ジェスチャ入力情報取得部１２０は、体の一部若しくは全部の動きまたは状態による入力操作からジェスチャ入力情報を取得すると、ジェスチャ入力情報を取得したことを示すジェスチャ取得済情報を時系列管理部１８０へ出力する。

音声記憶部１３２は、入力パターンを、例えばデジタル化された音声情報や音声に関する特徴量等の音声入力情報との比較が可能な形式で記憶する。それに加えて、音声記憶部１３２は、さらに入力パターンを、当該入力パターンに対応する入力操作をユーザが理解できる文字情報等の形式でも記憶する。音声記憶部１３２は、動作処理部１５０からの要求に応じて当該入力パターンを動作処理部１５０に出力する。

ジェスチャ記憶部１４２は、入力パターンを、例えば手の動きに関する動画像や手の動きに関する特徴量等の、ジェスチャ入力情報との比較が可能な形式で記憶する。それに加えて、ジェスチャ記憶部１４２は、さらに入力パターンを、文字情報や入力操作を示す動画像または静止画像等の、当該入力パターンに対応する入力操作をユーザが理解できる形式でも記憶する。ジェスチャ記憶部１３２は、動作処理部１５０からの要求に応じて当該入力パターンを動作処理部１５０に出力する。

時系列管理部１８０は、音声入力情報およびジェスチャ入力情報の取得状況を時系列で記憶する。また、時系列管理部１８０は、動作処理部１５０からの要求に応じて音声入力情報およびジェスチャ入力情報の取得状況を動作処理部１５０に出力する。時系列管理部１８０は、例えば上記音声取得済情報およびジェスチャ取得済情報により、音声入力情報およびジェスチャ入力情報の取得状況を時系列で把握し得る。

動作処理部１５０は、コマンドの生成のために必要な意味情報のうち１種類以上の意味情報が認識されていない場合に、認識されていない意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、対象装置またはその他の装置の表示画面に表示するように制御する。

動作処理部１５０は、例えば、所定の時間内に、音声認識部１３０またはジェスチャ認識部１４０のいずれか一方のみから意味情報の入力を受けた場合に、残りの意味情報を認識するための入力情報が取得されているかを時系列管理部１８０に確認する。そして、当該入力情報が取得されていない場合に、動作処理部１５０は、コマンド記憶部１５２から、既に認識されている意味情報と組合されて記憶されている意味情報を、認識されていない意味情報の候補として取得する。次に、動作処理部１５０は、例えば、音声記憶部１３２またはジェスチャ記憶部１４２から、上記候補の意味情報と関連付けられた入力パターンを取得する。そして、動作処理部１５０は、取得した入力パターンに基づいて、当該入力パターンに対応する入力操作をユーザが理解できる形式で、対象装置またはその他の装置の表示画面に表示するように制御する。表示される当該入力操作が、コマンドを生成するためのユーザによる入力操作の候補となる。

図２７は、入力操作の候補を表示する表示画面の一例を示す。図２７には、ユーザが「手を上に挙げる」という手の動きによる入力操作を行った場合の表示画面の例が示されている。図３を参照すると、「手を上に挙げる」という入力操作により、「パラメータを挙げる」という意味情報が、ジェスチャ認識部１４０により認識される。よって、動作処理部１５０は、「パラメータを挙げる」という意味情報をジェスチャ認識部１４０から入力される。さらに図５を参照すると、コマンド記憶部１５２のコマンド辞書には、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報が、「手を上に挙げる」という意味情報と組合されて記憶されている。よって、動作処理部１５０は、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報の候補をコマンド記憶部１５２から取得する。また、図２を参照すると、音声記憶部１３２の音声認識辞書には、「ちゃんねる」、「ばんぐみ」、「おんりょう」という入力パターンが、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報と関連付けられて記憶されている。よって、動作処理部１５０は、「ちゃんねる」、「ばんぐみ」、「おんりょう」という入力パターンを音声記憶部１３２から取得する。そして、動作処理部１５０は、図２７に示されるとおり、「チャンネル」、「音量」、「明るさ」という音声による入力操作の候補を表示画面に表示するよう制御する。

図２８は、入力操作の候補を表示する表示画面他の例を示す。図２８には、ユーザが「おんりょう」という音声による入力操作を行った場合の表示画面の例が示されている。動作処理部１５０は、上記と同様の処理を行った上で、図２８に示されるとおり、「手を上に挙げる」、「手を下にさげる」という手の動きによる入力操作の候補を表示画面に表示するように制御する。

なお、動作処理部１５０は、コマンドの生成のために必要な意味情報のうち１種類以上の意味情報が認識されていない場合に、認識されていない意味情報の候補を特定し、当該候補の意味情報と既に認識された意味情報により生成されるコマンドを特定し、当該コマンドにより所定の動作が実行される前の、対象装置に関する当該動作の対象の状態を、対象装置またはその他の装置の表示画面に表示するように制御してもよい。

動作処理部１５０は、例えば、上記のように入力操作の候補を表示する場合と同じ処理により、認識されていない意味情報の候補として取得する。次に、動作処理部１５０は、例えば、コマンド記憶部１５２から、既に認識されている意味情報と上記候補の意味情報との組合せに対応するコマンドを取得する。そして、動作処理部１５０は、当該コマンドにより所定の動作が実行される前の、対象装置に関する当該動作の対象の状態を、表示画面に表示するように制御する。

図２９は、対象装置に関する動作の対象の状態を表示する表示画面の一例を示す。図２９には、ユーザが「手を上に挙げる」という手の動きによる入力操作が行った場合の表示画面の例が示されている。図２７の場合と同様に、動作処理部１５０は、
「パラメータを上げる」という意味情報をジェスチャ認識部１４０から入力される。また、図２７の場合と同様に、動作処理部１５０は、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報の候補をコマンド記憶部１５２から取得する。図５を参照すると、コマンド記憶部１５２のコマンド辞書には、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドが「パラメータを上げる」という既に認識された意味情報と、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という候補の意味情報との組合せに対応して記憶されている。よって、動作処理部１５０は、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドをコマンド記憶部１５２から取得する。そして、動作処理部１５０は、図２９に示されるとおり、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドにより動作が実行される前の、「チャンネル」、「音量」、「画面の輝度」の状態を、表示画面に表示するよう制御する。

図３０は、対象装置に関する動作の対象の状態を表示する表示画面の他の例を示す。図３０には、ユーザが「おんりょう」という音声による入力操作を行った場合の表示画面の例が示されている。動作処理部１５０は、上記と同様の処理を行った上で、「音量を上げる」、「音量を下げる」というコマンドにより動作が実行される前の、「音量」の状態を、表示画面に表示するよう制御する。

［５−２．処理の流れ］
以下では、図３１を用いて、本発明の第５の実施形態に係るコマンド生成処理について説明する。図３１は、第５の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップＳ３１０、ステップＳ３２０、ステップＳ３３０、ステップＳ３４０、ステップＳ３５０およびステップＳ３６０は、［１−２．処理の流れ］にて説明した第１の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップＳ４１０、ステップＳ４５０、ステップＳ４６０、ステップＳ４７０、ステップＳ４８０およびステップＳ４９０を中心に説明する。

ステップＳ４１０において、動作処理部１５０は、コマンドを生成するための２種類の意味情報のうち一方の意味情報が認識されているかを判定する。ここで、一方の意味情報が認識されていれば、処理はステップＳ４５０へ進む。一方、いずれの意味情報も認識されていない場合には、本処理を終了する。

ステップＳ４５０において、動作処理部１５０は、意味情報を認識するための他方の入力情報が存在するかを、時系列管理部１８０に確認する。ここで、他方の入力情報が既に存在していれば、処理はステップＳ４８０へ進む。一方、他方の入力情報が未だ存在していなければ、処理はステップＳ４６０へ進む。

ステップＳ４６０において、動作処理部１５０は、認識されていない意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、対象装置またはその他の装置の表示画面に表示するように制御する。

ステップＳ４７０において、例えばユーザがさらなる入力操作を所定の時間内に行うと、音声入力情報取得部１１０またはジェスチャ入力情報取得部１２０は、当該入力操作により音声入力情報またはジェスチャ入力情報を取得する。

ステップＳ４８０において、音声認識部１３０またはジェスチャ認識部１４０は、取得された音声入力情報またはジェスチャ入力情報から、上記他方の意味情報を認識する。

ステップＳ４９０において、動作処理部１５０は、他方の意味情報が認識されているかを判定する。ここで、他方の意味情報が認識されていれば、処理ステップはステップＳ３４０へ進む。一方、他方の意味情報が認識されていない場合には、本処理を終了する。

＜６．発明の各実施形態に係る情報処理装置のハードウェア構成＞
次に、図３２を参照しながら、本発明の各実施形態に係る情報処理装置１００のハードウェア構成について、詳細に説明する。図３２は、本発明の各実施形態に係る情報処理装置１００のハードウェア構成の一例を示すブロック図である。

情報処理装置１００は、主に、ＣＰＵ９０１と、ＲＯＭ９０３と、ＲＡＭ９０５と、を備える。また、情報処理装置１００は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インターフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９１１に接続されている。

入力装置９１５は、例えば、マイク、カメラ等ユーザの入力操作から入力情報を取得するための手段である。また、入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバー等ユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置１００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置１００のユーザは、この入力装置９１５を操作することにより、情報処理装置１００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置およびランプ等の表示装置や、スピーカおよびヘッドホン等の音声出力装置や、プリンタ装置、携帯電話、ファクシミリ等がある。出力装置９１７は、例えば、情報処理装置１００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置１００が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処理装置１００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および入力装置９１５または外部から取得した音響信号データや画像信号データ等を格納する。

ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置１００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣｏｍｐａｃｔＦｌａｓｈ：ＣＦ）、フラッシュメモリ、または、ＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）または電子機器等であってもよい。

接続ポート９２３は、機器を情報処理装置１００に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１００は、外部接続機器９２９から直接音響信号データや画像信号データを取得したり、外部接続機器９２９に音響信号データや画像信号データを提供したりする。

通信装置９２５は、例えば、通信網９３１に接続するための通信デバイス等で構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信等であってもよい。

以上、本発明の実施形態に係る情報処理装置１００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

＜７．まとめ＞
ここまで、図１〜図３２を用いて、本発明の各実施形態について説明した。第１の実施形態によれば、様々な効果が得られ得る。まず、２種類以上の入力操作を組合せることにより、ユーザが覚えなければならない入力操作の数を減らすことが可能となる。例えば、音声による入力操作と手の動きによる入力操作が組合せられる場合に、ユーザは、５個の音声による入力操作および５個の手の動きによる入力操作の計１０個の入力操作を覚えることにより、最大でその組合せの数である２５個のコマンドを生成させ得る。一方で、手の動きによる入力操作のみが用いられる場合に、ユーザが２５個のコマンドを生成させるために、ユーザは２５個の手の動きによる入力操作を覚えなければならない。

また、２種類以上の入力操作を組合せることにより、入力操作の種類毎の入力パターンの数が減るため、入力操作から意図していない入力パターンが特定され、その結果意図していない意味情報が認識されるという誤入力の可能性を低減し得る。

また、例えば１種類の入力操作が動作の内容を示す意味情報を意味し、別の１種類の入力操作が動作の対象を示す意味情報を意味する場合に、ユーザは、各入力操作が意味し得る意味情報を想定しやすいため、入力操作をより容易に覚え得る。

また、例えば複数の入力パターンに同一の意味情報が関連付けられる場合に、ユーザが必ず覚えなければならない入力操作は減るため、ユーザが入力操作を覚える負担は軽減され得る。

また、第２の実施形態によれば、第１の実施形態に関する上記効果に加えて、ユーザは、入力操作により、対象装置に単に所定の動作を実行させるだけではなく、対象装置に所望の実行量で動作を実行させ得る。これにより、簡単な入力操作により、より細かい操作指示を示すコマンドを生成でき、対象装置をより正確に動作させることができる。

また、第３の実施形態によれば、第１の実施形態に関する上記効果に加えて、各ユーザは容易に入力操作を行い得る。例えば、ユーザＩＤ毎に予め定められた入力パターンを用いる場合、あるいはユーザＩＤ毎に予め定められた優先度を用いる場合に、ユーザの特性を考慮してコマンドが生成されるため、ユーザが使用しない入力操作が誤って特定され、意図しない意味情報が認識される可能性が低減され得る。またユーザが使用する入力操作が正しく特定され、意図した意味情報が認識される可能性が高まり得る。

また、第４の実施形態によれば、第１の実施形態に関する上記効果に加えて、ユーザは入力操作の一部を省略し得る。これにより、ユーザにとっての入力操作の負担が軽減され得る。

また、第５の実施形態によれば、第１の実施形態に関する上記効果に加えて、ユーザは、入力操作の一部を行うと、コマンドを生成するための残りの入力操作を把握し得る。また、ユーザは、入力操作の一部を行うと、コマンドにより動作が実行される前における当該動作の対象の状態を把握し得る。したがって、ユーザは次の入力操作のための参考情報を得ることができるため、ユーザにとっての利便性が向上し得る。

なお、上記第１〜第５の実施形態において、各部の動作は互いに関連しており、互いの関連を考慮しながら、一連の動作及び一連の処理として置き換えることができる。これにより、情報処理装置の実施形態を、情報処理装置のコマンド生成方法の実施形態及び情報処理装置が有する機能をコンピュータに実現させるためのプログラムの実施形態とすることができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、各実施形態では、入力情報から意味情報を認識するために、予め入力操作をパターン化した入力パターンを用いる例が説明されたが、本発明はかかる例に限定されない。情報処理装置は、入力情報から直接的に意味情報を認識し、または別の種類の情報を介して入力情報から意味情報を認識してもよい。

また、各実施形態では、入力パターン、意味情報、コマンド等の情報が情報処理装置内に記憶されている例が説明されたが、本発明はかかる例に限定されない。各情報は、情報処理装置に接続された別の装置に記憶され、情報処理装置は、適宜当該別の装置から各情報を取得してもよい。

また、各実施形態では、２種類以上の入力操作として音声による入力操作と体の一部若しくは全部の動きまたは状態による入力操作が用いられているが、本発明はかかる例に限定されない。２種類の入力操作ではなく、３種類以上の入力操作が用いられてもよい。また、例えばリモートコントローラ、マウス、キーボード、タッチパネル等の、音声または体の一部若しくは全部の動きまたは状態以外を用いた入力操作が用いられてもよい。

また、各実施形態は、理解しやすくするために分けて説明されているが、本発明はかかる例に限定されない。各実施形態は適宜組合せてもよい。例えば、第２の実施形態と第３の実施形態を組合せて、情報処理装置は、変化量変換部および個人判別部の両方を有してもよい。この場合に、例えば、変化量記憶部はユーザ毎の変化量変換辞書を記憶してもよく、変化量変換部は、特定されたユーザＩＤに応じて動作の実行量を示す実行量情報を認識してもよい。

１００情報処理装置
１１０音声入力情報取得部
１２０ジェスチャ入力情報取得部
１３０音声認識部
１３２音声記憶部
１４０ジェスチャ認識部
１４２ジェスチャ記憶部
１５０動作処理部
１５２コマンド記憶部
１６０変化量変換部
１７０個人判別部

Claims

２種類以上の異なる入力操作により取得した２種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、
２種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、
を備える情報処理装置。
前記入力認識部は、前記２種類以上の入力情報から少なくとも前記所定の動作の対象を示す意味情報と前記所定の動作の内容を示す意味情報とを認識する、請求項１に記載の情報処理装置。
前記２種類以上の入力情報は、音声による入力操作により取得した音声入力情報、および体の一部若しくは全部の動きまたは状態による入力操作により取得した１種類以上のジェスチャ入力情報のうちの、少なくとも２種類以上の入力情報を含む、請求項１に記載の情報処理装置。
前記情報処理装置は、前記２種類以上の入力情報および別の入力操作により取得した別の入力情報のうち、いずれかの入力情報から、前記所定の動作の実行量を示す実行量情報を認識する変化量変換部をさらに備え、
前記動作処理部は、前記２種類以上の前記意味情報および前記実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する、
請求項１に記載の情報処理装置。
前記いずれかの入力情報は、音声による入力操作により取得した音声入力情報、または体の一部若しくは全部の動きまたは状態による入力操作により取得したジェスチャ入力情報であり、
前記変化量変換部は、前記いずれかの入力情報が前記音声入力情報である場合には、前記音声入力情報から取得される音量から前記実行量情報を認識し、前記いずれかの入力情報が前記ジェスチャ入力情報である場合には、前記ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から前記実行量情報を認識する、
請求項４に記載の情報処理装置。
前記情報処理装置は、予め登録されたユーザＩＤの中から、前記入力操作を行うユーザのユーザＩＤを特定する個人判別部をさらに備え、
前記入力識別部は、前記特定されたユーザＩＤに応じて、前記入力情報の種類毎に前記入力操作を行うユーザの特性に合わせた意味情報を認識する、
請求項１に記載の情報処理装置。
前記入力識別部は、前記特定されたユーザＩＤに応じて、前記入力情報の種類毎に、ユーザＩＤ毎に予め入力操作をパターン化した入力パターンのうち、前記各入力情報に対応する前記入力パターンを特定し、該入力パターンに関連付けられた前記意味情報を抽出する、
請求項６に記載の情報処理装置。
前記入力識別部は、前記特定されたユーザＩＤに応じて、前記入力情報の種類毎に、予め入力操作をパターン化した入力パターンに対してユーザＩＤ毎に予め定められた優先度に基づいて、前記各入力情報に対応する前記入力パターンを特定し、該入力パターンに関連付けられた前記意味情報を抽出する、
請求項６に記載の情報処理装置。
前記動作処理部は、前記コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、前記コマンドを生成するための２種類以上の前記意味情報のうち１種類以上の前記意味情報が認識されると、前記コマンドを生成する、請求項１に記載の情報処理装置。
前記動作処理部は、前記コマンドの生成頻度、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも１つ以上のコマンド、前記動作処理部により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンド、およびユーザにより指定された省略対象に関する情報のうち少なくとも１つ以上に基づいて、前記コマンドを前記省略対象に指定する、請求項９に記載の情報処理装置。
前記動作処理部は、前記コマンドにより所定の動作が実行される前に、該所定の動作の実行の可否をユーザに確認させるための確認表示を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項９に記載の情報処理装置。
前記動作処理部は、前記コマンドの生成のために必要な前記意味情報のうち１種類以上の前記意味情報が認識されていない場合に、前記認識されていない前記意味情報の候補を特定し、該候補の意味情報を意味する入力操作を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項１に記載の情報処理装置。
前記動作処理部は、前記コマンドの生成のために必要な前記意味情報のうち１種類以上の前記意味情報が認識されていない場合に、前記認識されていない前記意味情報の候補を特定し、該候補の意味情報と既に認識された意味情報により生成される前記コマンドを特定し、該コマンドにより所定の動作が実行される前の、前記対象装置に関する該動作の対象の状態を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項１に記載の情報処理装置。
前記対象装置は、前記情報処理装置および前記情報処理装置に接続された機器のうち少なくとも１つ以上であり、
前記動作処理部は、生成された前記コマンドに従って前記情報処理装置および前記機器のなくとも１つ以上に所定の動作を実行させる、
請求項１に記載の情報処理装置。
前記動作処理部は、生成された前記コマンドに従って所定の動作が実行された結果を示す結果情報を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項１４に記載の情報処理装置。
コンピュータを、
２種類以上の異なる入力操作により取得した２種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、
２種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、
として機能させるためのプログラム。
２種類以上の異なる入力操作により取得した２種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識するステップと、
２種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成するステップと、
を含むコマンド生成方法。