JP2013210875A

JP2013210875A - 情報入力装置及び情報入力方法、並びにコンピューター・プログラム

Info

Publication number: JP2013210875A
Application number: JP2012081120A
Authority: JP
Inventors: Naoki Ide; 直紀井手; Kiyoto Ichikawa; 清人市川; Kotaro Sabe; 浩太郎佐部; Duerr Peter; ペータードゥール
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-30
Filing date: 2012-03-30
Publication date: 2013-10-10

Abstract

【課題】機器が認識し易い言語を用いて、音声による正確なコマンド入力を実現する。
【解決手段】機器は、リモコンや操作パネルなどを介してユーザーからコマンドを入力されると、コマンドの実行処理を行なうとともに、当該コマンドに対応するコミュニケーション動作を生成してユーザーに提示する。その後、ユーザーは、リモコンや操作パネルの手動操作ではなく、提示したコミュニケーション動作によりコマンドを機器に入力できる。機器は、ユーザーがコミュニケーション動作を行なったと判断した場合に、対応するコマンドを実行する。
【選択図】図２３

Description

本明細書で開示する技術は、ユーザーから制御操作の対象となる機器への制御コマンドを入力する情報入力装置及び情報入力方法、並びにコンピューター・プログラムに係り、特に、ユーザーの音声などによる遠隔からの制御コマンドを入力する情報入力装置及び情報入力方法、並びにコンピューター・プログラムに関する。

人が生活する環境には、家電製品や情報機器など、ユーザーが制御対象とするさまざまな製品が存在している。この種の機器を、レーザー・ポインターやリモコンなどのデバイスを用いて遠隔操作する技術は従来から知られている。また、最近では、音声による機器の操作が脚光を浴びている。

例えば、リモート・コントロール（遠隔制御）しようとする機器に関する画像を入力する画像入力手段と音声情報を入力する音声入力手段と、上記画像入力手段から入力した画像を表示するとともに、新たに画像入力が可能な画像表示兼入力パネル手段と、上記機器との間で信号の送受信を行うための赤外線信号送受信手段を備え、音声を含む複数の遠隔操作を１つのデバイスで行なうことのできるリモコン装置について提案がなされている（例えば、特許文献１を参照のこと）。

また、音声入力部１１に入力された音声信号が、リモコン２のマイクロホン２１に入力された音声信号であるか否かを、受信部１２により受信された識別信号により判断して、音声認識により電子機器の遠隔操作を行う場合の誤作動を防止する電子機器について提案がなされている（例えば、特許文献２を参照のこと）。

しかしながら、音声入力による遠隔操作を実現するには、機器が言語を認識する機能が必要である。例えば、各国で発売される製品の場合、さまざまな言語に対するバリエーションが必要である。また、同様の趣旨のコマンドであっても、ユーザー毎に表現方法はまちまちであり、使われにくい語彙に対する用意が必要である。総じて、ユーザーが自由に発生する言語などの音声を、機器側で完全に理解することは困難である。

本明細書で開示する技術の目的は、ユーザーの音声などによる遠隔からの制御コマンドを好適に入力することができる、優れた情報入力装置及び情報入力方法、並びにコンピューター・プログラムを提供することにある。

本願は、上記課題を参酌してなされたものであり、請求項１に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信部と、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、
対人コミュニケーションを提示する対人コミュニケーション提示部と、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、
を具備する情報入力装置である。

本願の請求項２に記載の技術によれば、請求項１に記載の情報入力装置の前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示するように構成されている。

本願の請求項３に記載の技術によれば、請求項１に記載の情報入力装置は、コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備えている。

本願の請求項４に記載の技術によれば、請求項３に記載の情報入力装置の前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶するように構成されている。

本願の請求項５に記載の技術によれば、請求項３に記載の情報入力装置の前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶するように構成されている。

本願の請求項６に記載の技術によれば、請求項３に記載の情報入力装置の前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶するように構成されている。

本願の請求項７に記載の技術によれば、請求項３に記載の情報入力装置の前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成するように構成されている。

本願の請求項８に記載の技術によれば、請求項１に記載の情報入力装置は、動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部がディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示するように構成されている。

本願の請求項９に記載の技術によれば、請求項１に記載の情報入力装置は、動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記コマンド認識部が前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部が前記検索されたコマンドを実行するように構成されている。

本願の請求項１０に記載の技術によれば、請求項１に記載の情報入力装置は、音程と音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部がスピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示するように構成されている。

本願の請求項１１に記載の技術によれば、請求項１に記載の情報入力装置は、音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション検出部が音声パルスの変化を検出し、前記コマンド認識部が前記対人コミュニケーション検出部により検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部が前記検索されたコマンドを実行するように構成されている。

本願の請求項１２に記載の技術によれば、請求項１に記載の情報入力装置の前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識するように構成されている。

本願の請求項１３に記載の技術によれば、請求項１に記載の情報入力装置の前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成するように構成されている。

また、本願の請求項１４に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、
コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、
対人コミュニケーションを提示する対人コミュニケーション提示ステップと、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、
前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、
前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、
を有する情報入力方法である。

また、本願の請求項１５に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信部、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、
対人コミュニケーションを提示する対人コミュニケーション提示部、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、
としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラムである。

本願の請求項１５に係るコンピューター・プログラムは、コンピューター上で所定の処理を実現するようにコンピューター可読形式で記述されたコンピューター・プログラムを定義したものである。換言すれば、本願の請求項１５に係るコンピューター・プログラムをコンピューターにインストールすることによって、コンピューター上では協働的作用が発揮され、本願の請求項１に係る情報入力装置と同様の作用効果を得ることができる。

本明細書で開示する技術によれば、ユーザーの音声などによる遠隔からの制御コマンドを好適に入力することができる、優れた情報入力装置及び情報入力方法、並びにコンピューター・プログラムを提供することができる。

本明細書で開示する技術によれば、操作対象となる情報機器側で生成した対人コミュニケーションを用いてユーザーが遠隔操作を行なうので、情報機器がさまざまなコマンド・バリエーションに対応する必要がない。また、例えば音声からなる対人コミュニケーションを使用する場合には、さまざまな言語に対応する必要がない。

また、本明細書で開示する技術によれば、情報機器側で、認識し易い音声やジェスチャーからなる対人コミュニケーションを生成することができる。したがって、ユーザーが対人コミュニケーションを使ってコマンドを入力しようとした際に、誤認識を抑制することができる。

本明細書で開示する技術によれば、ユーザーは、ジェスチャーや音声などからなる対人コミュニケーションを用いて、機器を遠隔操作することができる。

また、本明細書で開示する技術によれば、情報機器側でユーザーが覚え易いジェスチャーや音声からなる対人コミュニケーションを生成し、ユーザーがコマンドを入力したときに併せて提示することによって、ユーザーは対人コミュニケーションを自然に記憶することができる。それ以降、ユーザーは、リモコンや操作パネルなどの直接操作なしに、対人コミュニケーションを用いて、機器を遠隔操作することができる。

本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、本明細書で開示する技術の一実施形態に係る情報機器１００の機能的構成を模式的に示した図である。図２は、情報機器１００がコマンドを受信したときに実行する処理手順を示したフローチャートである。図３は、ジェスチャーを対人コミュニケーションとする場合の対人コミュニケーション検出部１０６内の機能的構成を示した図である。図４は、音声を対人コミュニケーションとする場合の対人コミュニケーション検出部１０６内の機能的構成を示した図である。図５は、コマンド認識部１０７内の機能的構成を示した図である。図６は、コマンド認識部１０７内で実行される処理手順を示したフローチャートである。図７Ａは、対人コミュニケーションが手書き文字のジェスチャーである場合の、検出された特徴量時系列データを例示した図である。図７Ｂは、各コマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを例示した図である。図８Ａは、対人コミュニケーションが音声である場合の、検出された特徴量時系列データを例示した図である。図８Ｂは、各コマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを例示した図である。図９は、隠れマルコフ・モデルの状態遷移図を示した図である。図１０は、隠れマルコフ・モデルの遷移テーブルを示した図である。図１１は、隠れマルコフ・モデルの状態テーブルを示した図（特徴量の時系列データが限られたシンボルを発する場合）である。図１２は、隠れマルコフ・モデルの状態テーブルの他の例（特徴量の時系列データが連続値の場合）を示した図である。図１３は、図７Ａに示した数字の「２」のような形状をした指先の軌跡についての隠れマルコフ・モデルを示した図である。図１４は、図８Ａに示した音声の特徴量時系列データについての隠れマルコフ・モデルを示した図である。図１５は、遷移に一方向性の制約がある状態遷移図を示した図である。図１６は、コマンド認識部１０７内の特徴量時系列比較部５０２で類似度を算出処理する機能的構成を示した図である。図１７は、状態遷移を時間方向に展開したトレリス図を示した図である。図１８は、トレリス図の一部を拡大して示した図である。図１９は、対人コミュニケーション生成部１０４の内部構成を示した図である。図２０は、１０個のジェスチャー素材をモデル化した隠れマルコフ・モデルの状態遷移図を、２次元画素空間上に配置した様子を示した図である。図２１は、６個の音声素材をモデル化した隠れマルコフ・モデルの状態遷移図を、周波数／時間のグラフに配置したイメージを示した図である。図２２は、新規のコミュニケーション・モデルをコマンド／対人コミュニケーション対応テーブル１０３に登録するための処理手順を示したフローチャートである図２３は、ユーザーと情報機器１００間の動作シーケンス例を示した図である。図２４は、コマンド／対人コミュニケーション対応テーブル１０３内の記憶内容を例示した図である。図２５は、家庭内機器モニターが、ユーザーからのリモコン操作に応じて、生成したコミュニケーション動作をユーザーに提示している様子を示した図である。図２６は、ユーザーが家庭内機器モニターに対してコミュニケーション動作を模倣している様子を示した図である。図２７は、ユーザーがジェスチャーからなるコミュニケーション動作を模倣して、家庭内機器モニターにコマンドを送る様子を示した図である。

以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

図１には、本明細書で開示する技術の一実施形態に係る情報機器１００の機能的構成を模式的に示している。図示の情報機器１００は、コマンド通信部１０１と、コマンド実行部１０２と、コマンド／対人コミュニケーション対応テーブル１０３と、対人コミュニケーション生成部１０４と、対人コミュニケーション提示部１０５と、対人コミュニケーション検出部１０６と、コマンド認識部１０７を備えている。

コマンド通信部１０１は、情報機器１００を操作するコマンドを通信する機能モジュールである。コマンド通信部１０１は、例えば情報機器１００に付属するリモートコントローラー（図示しない）との通信部や、情報機器１００が装備する操作パネル（図示しない）上のキーとの通信部などである。

コマンド実行部１０２は、コマンド通信部１０１や後述するコマンド認識部１０７から受信したコマンドを基に、当該情報機器１００を制御する機能モジュールである。

コマンド／対人コミュニケーション対応テーブル１０３は、情報機器１００に対するコマンドと、対人コミュニケーションとを組み合わせるテーブルである。ここで言う対人コミュニケーションとは、音声やジェスチャーなど、通常は人間同士で行なわれるコミュニケーションに相当する。コマンド／対人コミュニケーション対応テーブル１０３内のデータは、すなわち、各コマンドに対応する対人コミュニケーションは、あらかじめ用意されていてもよいし、追加的に増えていってもよい。若しくは、スクラッチ（何もない状態）から、１つずつ創り上げてもよい。対人コミュニケーションに対応するコマンドを、コマンド／対人コミュニケーション対応テーブル１０３から検索することができる。

対人コミュニケーション生成部１０４は、コマンド通信部１０１で受信したコマンドに対応する対人コミュニケーションを生成する機能モジュールである。対人コミュニケーション生成部１０４は、対人コミュニケーションとして、例えばユーザーの指先のジェスチャーや音声、あるいはジェスチャーと音声の組合せを生成する。

対人コミュニケーション生成部１０４が生成した対人コミュニケーションは、コマンド／対人コミュニケーション対応テーブル１０３、並びに、後述する対人コミュニケーション提示部１０５に渡される。コマンド通信部１０１で受信したコマンドに対応する対人コミュニケーションがコマンド／対人コミュニケーション対応テーブル１０３上にまだなければ、対人コミュニケーション生成部１０４が対人コミュニケーションを新規に生成する。そして、生成した対人コミュニケーションは、そのときのコマンドと組み合わせて、コマンド／対人コミュニケーション対応テーブル１０３に追記的に記憶される。

対人コミュニケーション提示部１０５は、ディスプレイやスピーカーなど、時用法機器１００が備える出力装置で構成され、対人コミュニケーション生成部１０４で生成されたデータを外部に出力する。生成した対人コミュニケーションがジェスチャーならば、ディスプレイを活用して画像表示し、生成した対人コミュニケーションが音声ならば、スピーカーを活用して音声出力される。ユーザーは、コマンド通信部１０１を介してコマンドを入力した際に、対人コミュニケーション提示部１０５による提示から、そのコマンドに対応する対人コミュニケーションを知ることができる。

対人コミュニケーション検出部１０６は、カメラやマイクなど、情報機器１００が備える画像入力装置や音声入力装置で構成され、ユーザーが行なったジェスチャーや音声などの対人コミュニケーションの特徴量を検出する。ユーザーが行なった対人コミュニケーションがジェスチャーであれば、カメラからの入力画像を画像認識して対人コミュニケーションの特徴量として特徴部位の座標情報などを検出する。また、ユーザーが行なった対人コミュニケーションが音声であれば、マイクからの入力音声を音声認識して対人コミュニケーションの特徴量として音声周波数や音場強度などを検出する。対人コミュニケーション検出部１０６として既存の音声認識を利用することができ、よりプリミティブに音声周波数と音パルスで認識を行なってもよい。

コマンド認識部１０７は、対人コミュニケーション検出部１０６で検出した対人コミュニケーションが表すコマンドを認識する。コマンド認識部１０７は、対人コミュニケーションをコマンド／対人コミュニケーション対応テーブル１０３上で検索することでコマンドを認識することができ、認識したコマンドをコマンド実行部１０２に渡す。

ユーザーは、リモコンや操作パネルなどを通じてコマンド通信部１０１にコマンドを入力した際に、対人コミュニケーション提示部１０５で提示された対人コミュニケーションを、そのときのコマンドと関連付けて自然に記憶することができる。ユーザーがコマンド通信部１０１を通じてコマンドを入力する度に、対人コミュニケーション提示部１０５から対人コミュニケーションを提示する。なお、この提示されるコミュニケーションは、ある程度の期間表示したら提示をやめてもよい。たとえば、対人コミュニケーションをユーザーが使うようになった時点で減らし始めるようにしても良いし、あるいは、所定回数提示してもユーザーが利用しないのであればやめてもよい。

図２には、情報機器１００がコマンドを受信したときに実行する処理手順をフローチャートの形式で示している。

コマンド通信部１０１でユーザーからのコマンドを受信すると（ステップＳ２０１）、コマンド／対人コミュニケーション対応テーブル１０３内で、該当するコマンドがあるかどうかを検索する（ステップＳ２０２）。

ここで、該当するコマンドがコマンド／対人コミュニケーション対応テーブル１０３内で発見されない場合には（ステップＳ２０３のＮｏ）、対人コミュニケーション生成部１０４は、新規のコマンドに対応する対人コミュニケーションを生成して（ステップＳ２０６）、これを新規コマンドと組み合わせてコマンド／対人コミュニケーション対応テーブル１０３に追加登録する（ステップＳ２０７）。

そして、該当するコマンドがコマンド／対人コミュニケーション対応テーブル１０３内で発見された場合には（ステップＳ２０３のＹｅｓ）、発見された対人コミュニケーションを選択し（ステップＳ２０４）、あるいは、新規コマンドに対して生成した対人コミュニケーションを選択して、対人コミュニケーション提示部１０５からユーザーに提示する（ステップＳ２０５）。

上記のようにして対人コミュニケーションの提示を受けた後、ユーザーは、情報機器１００に対して同じコマンドを入力したいと思ったときには、コマンドから連想される対人コミュニケーションを模倣することで、リモコンや操作パネルなどを直接操作するのではなくリモートで、同じコマンドを実行することができる。

情報機器１００が対人コミュニケーションによるコマンド入力を実現するには、対人コミュニケーション生成部１０４は、ユーザーにとっては自然に覚え易く、且つ、模倣し易い対人コミュニケーションを生成することが好ましい。また、生成した対人コミュニケーションは、情報機器１００にとっては、ユーザーが模倣した対人コミュニケーションを認識し易い（言い換えれば、誤認識し難い）ことが好ましい。

対人コミュニケーション生成部１０４は、ジェスチャーや音声などの生成のために、対人コミュニケーション検出部１０６で検出し易い素材を備えておく。そして、複数の素材を合成して、新規の対人コミュニケーションを生成する。既に生成した対人コミュニケーションとは特徴が重ならないように、素材を組み合わせることによって、対人コミュニケーション検出部１０６で誤検出し難く、コマンド認識部１０７で誤認識し難い対人コミュニケーションを生成するようにする。

図３には、ジェスチャーを対人コミュニケーションとする場合の対人コミュニケーション検出部１０６内の機能的構成を示している。ここでは、対人コミュニケーションを、手書き文字認識とする。

ユーザーの指先を含んだ風景をカメラ３０１で撮像する。指先位置検出部３０２は、手書き文字認識のために指先を検出する。

指先位置検出部３０２における指先検出方法は、あらかじめ、人差し指を立て片手の画像と、そうではない画像を多数用意して、学習を行なう。学習には、例えばブースティングなどの教師あり学習を行なう機会学習アルゴリズムを適用することができる。

指先位置検出部３０２で認識した人差し指を立てた画像から人差し指の選択を抽出すると、指先座標生成部３０３は、人差し指の画像上での座標（ｘ_t，ｙ_t）を特徴量として生成して、コマンド認識部１０７に出力する。

また、図４には、音声を対人コミュニケーションとする場合の対人コミュニケーション検出部１０６内の機能的構成を示している。

音声サンプリング部４０２は、マイク４０１で集音したユーザーの音声の音場強度と、あらかじめ決められたいくつかの音声周波数をサンプリングする。この音声周波数は、対人コミュニケーション生成部１０４で生成する音声周波数と一致している。

周波数解析部４０３は、音声サンプリング部４０２がサンプリングしたいくつかの音声周波数を解析し、音声周波数（ｆ１，ｆ２，…，ｆｄ）と音場強度（ａ１，ａ２，…，ａｄ）を特徴量として、コマンド認識部１０７に出力する。

図５には、対人コミュニケーション検出部１０６で検出された画像又は音声の特徴量に基づいてコマンドを認識するコマンド認識部１０７内の機能的構成を示している。図示のコマンド認識部１０７は、特徴量時系列バッファリング部５０１と、特徴量時系列比較部５０２と、最尤コマンド選択部５０３を備えている。

特徴量時系列バッファリング部５０１は、対人コミュニケーション検出部１０６で生成した特徴量を随時バッファーに収集して、時系列で記憶する。

特徴量時系列比較部５０２は、特徴量時系列バッファリング部５０１でバッファリングされた時系列と、コマンド／対人コミュニケーション対応テーブル１０３上の対人コミュニケーションの特徴量時系列との類似度合いを算出する。

最尤コマンド選択部５０３は、特徴量時系列比較部５０２で算出された類似度合いが閾値よりも高い対人コミュニケーションを抽出し、その中で、最も類似度開が高い対人コミュニケーションに対応付けられたコマンドを最尤コマンドとして選択し、コマンド実行部１０２に出力する。

図６には、コマンド認識部１０７内で実行される処理手順をフローチャートの形式で示している。

特徴量時系列比較部５０２は、特徴量時系列バッファリング部５０１にバッファリングされている（すなわち、対人コミュニケーション検出部１０６で検出した）特徴量時系列データを入力する（ステップＳ６０１）。

特徴量時系列比較部５０２は、コマンド／対人コミュニケーション対応テーブルの先頭行から順に（ステップＳ６０２）、記憶されている対人コミュニケーションの特徴量時系列を取り出して、ステップＳ６０１で取り込んだ特徴量時系列との類似度合いを逐次計算する（ステップＳ６０３）。

ここで、特徴量時系列比較部５０２は、類似度合いが所定の閾値以上となる対人コミュニケーションに対応するコマンドを、コマンド候補として記憶しておく（ステップＳ６０５）。

そして、コマンド／対人コミュニケーション対応テーブル１０３の次の行に進み（ステップＳ６０６）、最終行に到達していなければ（ステップＳ６０７のＮｏ）、ステップＳ６０３に戻り、コマンド／対人コミュニケーション対応テーブル１０３の次の行について類似度合いの算出を繰り返し実行する。

そして、特徴量時系列比較部５０２がコマンド／対人コミュニケーション対応テーブル１０３内のすべての行について類似度合いの計算を終了すると（ステップＳ６０７のＹｅｓ）、最尤コマンド選択部５０３は、記憶されているコマンド候補の中から、最も類似度合いが高いコマンドを最尤コマンドとして選択して（ステップＳ６０８）、コマンド実行部１０２に出力する。また、コマンド候補がヒトツモ記憶されていなければ、最尤コマンド選択部５０３は、該当するコマンドなしという結果を出力する。

ここで、類似度合いの計算方法について、例示しながら説明しておく。

まず、対人コミュニケーションが手書き文字のジェスチャーである場合の類似度合いについて説明する。図７Ａには、対人コミュニケーション検出部１０６で検出され、特徴量時系列バッファリング部５０１にバッファリングされている特徴量時系列データを示している。図示の検出された指先の軌跡は数字の「２」のような形状であったとする。

一方、図７Ｂには、コマンド／対人コミュニケーション対応テーブル１０３内でコマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを示している。コマンド／対人コミュニケーション対応テーブル１０３内には、１０個のコマンド１〜１０の各々に対応付けられた、対人コミュニケーションとしての指先軌跡の時系列データが記憶されている。コマンド１〜１０に対応する指先軌跡は、０から９までの数字のような形状であったとする。図７Ｂに示した指先軌跡の中で、図７Ａに示した指先軌跡に最も類似しているのは、数字の「２」のような形をしたコマンド３である。類似度合いの算出方法については後述に譲るが、コマンド３に対応して記憶された指先軌跡の類似度合いが所定の閾値を超えているのであれば、最尤コマンド選択部５０３はコマンド３を選択し、コマンド実行部１０２はコマンド３の操作を実行する。

図７Ａ並びに図７Ｂでは、説明を容易にするために、数字と似たような形状をしたジェスチャーを例示した。しかしながら、操作対象がテレビのチャンネル操作などのように、誤認識により番号がずれると混乱を起こす場合もある。このような問題を回避するため、対人コミュニケーション生成部１０４は、対人コミュニケーションとして、必ずしも数字の形状のような手書き文字を生成しなくてもよい。より抽象的な記号のような図形を、対人コミュニケーションのジェスチャーとして生成するようにしてもよい。（例えば、○、∝、∞、〜、＆、などの記号が考えられる。中でも一筆書きで書くことができる記号が、対人コミュニケーションのジェスチャーに適している。）

続いて、対人コミュニケーションが音声である場合の類似度合いについて説明する。図８Ａには、対人コミュニケーション検出部１０６で検出され、特徴量時系列バッファリング部５０１にバッファリングされている特徴量時系列データを示している。図示の検出された音パルスは、４つの音程のうち２つを使って、４つのパルスが発せられたものであったとする。

一方、図８Ｂには、コマンド／対人コミュニケーション対応テーブル１０３内でコマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを示している。コマンド／対人コミュニケーション対応テーブル１０３内には、１０個のコマンドが記憶されているが、対人コミュニケーションとしての音パルスが対応付けられているのはこのうち６個のコマンドであるとする。この中で、図８Ａに示した音パルスに最も類似しているの、「音量上げ」コマンドである。類似度合いの算出方法については後述に譲るが、「音量上げ」コマンドに対応して記憶された音パルスの類似度合いが所定の閾値を超えているのであれば、最尤コマンド選択部５０３は「音量上げ」コマンドを選択し、コマンド実行部１０２は「音量上げ」コマンドの操作を実行する。

対人コミュニケーション生成部１０４は、情報機器１００側で認識し易いとともに、人間が真似できそうな音パルスすなわちサウンドを対人コミュニケーションとして生成することが必要である。人間が真似し易いという観点から、生成するサウンドの音程は、高い、中くらい、低い、の３、４つ程度とすることが好ましい。また、パルスも、長い、中くらい、短い、の３，４つ程度とすることが好ましい。また、可聴帯域であることが絶対条件である。その他、音程の高低が明確に分かることも必要であろう。

音声や手書き文字の認識に、例えば隠れマルコフ・モデル（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ：ＨＭＭ）を用いることができる（例えば、非特許文献１を参照のこと）。コマンド認識部１０７は、隠れマルコフ・モデルを使うと、類似度を算出することができる。

図９には、隠れマルコフ・モデルの状態遷移図を示している。隠れマルコフ・モデルは、時系列データを、隠れた状態と状態間の遷移で表現するモデルである。同図に示すモデルは、３つの状態Ｓ１、Ｓ２、Ｓ３を持っている。これらの状態間の起こり得るすべての遷移をＴ１〜Ｔ９で表現している。各状態Ｓ１、Ｓ２、Ｓ３には、特徴量の時系列データと対応するパラメーターがそれぞれ記憶されている。また、各遷移Ｔ１〜Ｔ９には、始状態、終状態、遷移確率（始状態の条件で終状態に行く条件付き確率）がそれぞれ記憶されている。

隠れマルコフ・モデルのパラメーターは、図１０に示す遷移テーブルや、図１１に示す状態テーブルにまとめられる。

図１０に示すように、遷移のパラメーターは、始状態、終状態、遷移確率である。これらのパラメーターを遷移Ｔ１〜Ｔ９ごとに記憶して、テーブルとして保持しておく。なお、遷移番号は通し番号であり、特段に意味はない。

また、状態テーブルは、時系列のデータが限られたシンボルを発するという家庭でのパラメーター・テーブルである。限られたシンボルに通し番号を付けて、１〜Ｋとしておく（但し、ｊはその途中の通し番号である）。状態のパラメーターは、観測確率（その状態ｉにいる条件で、シンボルｊが発生する確率）である。

また、図１２には、状態テーブルの他の例を示している。図示の状態テーブルは、対人コミュニケーションの特徴量の時系列データが連続空間上のある値を中心に正規分布しているという過程でのパラメーター・テーブルである。値の次元には、通し番号を付けて１〜Ｄとしておく（ｊはその中の番号）。状態ｉのパラメーターは、次元ｊにおける正規分布の中心μ_ijと、分散σ_ij ²である。

対人コミュニケーションが手書き文字のジェスチャーである場合に、隠れマルコフ・モデルを用いて類似度合いを算出する方法について、図１３を参照しながら説明する。

手書き文字には、個人差がある。個人差を吸収するように、隠れマルコフ・モデルのパラメーターを決める。図１３には、図７Ａに示した数字の「２」のような形状をした指先の軌跡についての隠れマルコフ・モデルを示している。但し、図面の簡素化のため、遷移は省略して描いている。手書き文字では、特徴量の時系列データは座標（ｘ，ｙ）の連続値である。したがって、図１２に示した状態テーブルを用いる。図１３では、各状態について、中心と分散を基にその分布範囲を楕円で示している。

続いて、対人コミュニケーションが音声である場合に、隠れマルコフ・モデルを用いて類似度合いを算出する方法について、図１４を参照しながら説明する。

音声パルスの場合、音程が３通りしかなければ、観測データは、高、中、低の３つのシンボルのどれかをとる。そこで、図１１に示した状態テーブルを用いる。また、状態は、これらのシンボルに一対一に対応するものではない。実際には、同じシンボルであっても、この状態に至るまでにどの状態を経由したかによって状態を区別した方が良いからである。また、音程を連続的にとらえることで、図１２に示した状態テーブルを用いるようにしてもよい。

図９に示した状態遷移図では、すべての状態間の遷移が考慮されている。しかしながら、対人コミュニケーションに用いる手書き文字認識や音声認識では、遷移には、一方向性（元の状態に戻ってこない）という制約がある。この制約を取り入れると、図１５に示すような状態遷移を考えればよい。このような制約のある隠れマルコフ・モデルを「レフト・トゥ・ライトＨＭＭ」と呼んでいる。

図１６には、コマンド認識部１０７内の特徴量時系列比較部５０２で類似度を算出処理する機能的構成を示している。

状態尤度計算部１６０１は、時系列の各時刻で、状態毎に尤度を算出する。フォワード伝搬部１６０２は、状態尤度と遷移確率を基に、状態確率を伝搬する。そして、経験尤度計算部１６０３は、伝搬された状態確率から、経験尤度を算出する。

図１７には、状態遷移を時間方向に展開したトレリス図を示している。同図中、黒丸は、観測を表す。また、白丸は状態を表し、状態の数だけ用意する。黒丸から白丸への矢印は、各状態に尤度を供給するイメージである。白丸から白丸への矢印は、状態から状態への遷移のイメージである。

図１８には、トレリス図の一部を拡大して示している。ステップ１のときの状態の確率（事前確率）は、下式（１）のようにあらかじめ与えられている。

ステップｔの事前確率Ｐ（ｚ_t）で、観測がｘ_tのとき、状態ｚ_tとなる事後確率Ｐ（ｚ_t｜ｘ_t）は、下式（２）のように表わされる。

ステップｔの事後確率がＰ（ｚ_t｜ｘ_t）で、状態ｚ_tから状態ｚ_t+1への遷移確率確率がＰ（ｚ_t+1｜ｘ_t）のとき、状態ｚ_t+1の事前確率は、下式（３）のように表わされる。

上式（１）〜（３）に含まれる、以下の値（４）〜（６）は、あらかじめ決めておくことで与えることができる。

上式（４）中のπは、例えば１／Ｎにすることができる。Ｎは状態数であり、あらかじめ決めておくことができる。また、上式（５）中のａは、図１０に記載済みのパラメーターである。また、上式（６）中のμ、σは、図１２に記載済みのパラメーターである。なお、上式（４）中のπは、１／Ｎとする代わりに、等確率でない確率分布をメモリー上に記憶しておいて利用してもよい。

バッファデータに対してどのモデルが尤もらしいか測る指標は、モデルのパラメーターΠ、Α、μ、σ²の基で、バッファー系列ｘ_1:ｔが生成される尤度Ｌである。

以下の漸化式（８）を用いると、尤度Ｌは下式（９）のように求めることができる（例えば、非特許文献２を参照のこと）。

以上のようにして、コマンド／対人コミュニケーション対応テーブルに記憶されている各コマンドに対して、対人コミュニケーション検出部１０６で検出した対人コミュニケーションの時系列データとの尤度を求める。

例えば、コマンド１に対して尤度Ｌ１、コマンド２に対して尤度Ｌ２が求まる。そして、これらの尤度Ｌ１、Ｌ２、…の中で所定の閾値を超えるものがあれば、コマンド認識部１０７はその中で最も大きいコマンドを選択する。以上で、対人コミュニケーションを利用した操作コマンドの認識を行なう。

図１９には、対人コミュニケーション生成部１０４の内部構成を示している。

コマンド検索部１９０１は、コマンド通信部１０１で受信したコマンドを、コマンド／対人コミュニケーション対応テーブル１０３内で検索し、まだ記憶されていなければ、この新規コマンドに対して新規の対人コミュニケーション・モデルを割り当てる。

新規コミュニケーション・モデル生成部１９０２は、対人コミュニケーション素材テーブル１９０４から複数の素材を取り込んで組み合わせ、新規のコミュニケーション・モデルを生成する。新規コミュニケーション・モデル生成部１９０２は、異なるコマンドに対し同じ素材の組み合わせからなるコミュニケーション・モデルを生成しないように、同じ組み合わせが既にコマンド／対人コミュニケーション対応テーブル１０３にないことを確認しなければならない。

新規コミュニケーション・モデル登録部１９０５は、新規コミュニケーション・モデル生成部１９０２が生成した新規コミュニケーション・モデルのパラメーターを、入力されたコマンドとセットにして、コマンド／対人コミュニケーション対応テーブル１０３に登録する。

また、新規コミュニケーション動作生成部１９０３は、生成された新規コミュニケーション・モデルから対人コミュニケーション動作を生成して、対人コミュニケーション提示部１０５に渡す。そして、対人コミュニケーション提示部１０５は、生成した対人コミュニケーションがジェスチャーならば、ディスプレイを活用して画像表示し、生成した対人コミュニケーションが音声ならば、スピーカーを活用して音声出力する。

以下では、ジェスチャーや音声の素材から、手書き文字のジェスチャーや音声のコミュニケーション・モデルを生成する方法について具体的に説明する。

図２０には、１０個のジェスチャー素材をモデル化した隠れマルコフ・モデルの状態遷移図を、２次元画素空間上に配置した様子を示している。但し、同図において、図面の錯綜を避けるために、遷移を表す有向線分は描画を省略している。図７Ｂに示したと同様、０から９までの数字のような形状をしているが、素材としてもよいし、完成版の対人コミュニケーションとして使用してもよい。

図示の１０種類の素材は、それぞれ、少なくとも遷移テーブルと状態テーブル（通常は、その他に初期確率もある）を持っている。素材を組み合わせる場合、これらを組み合わせて、新しい隠れマルコフ・モデルを作る。

また、図２１には、６個の音声素材をモデル化した隠れマルコフ・モデルの状態遷移図を、周波数／時間のグラフに配置したイメージを示している。但し、同図において、図面の錯綜を避けるために、遷移の線分は描画を省略している。図８Ｂに示した対人コミュニケーションと同様であるが、素材としてもよいし、完成版の対人コミュニケーションとして使用してもよい。

図示の６種類の素材は、それぞれ、少なくとも遷移テーブルと状態テーブル（通常は、その他に初期確率もある）を持っている。素材を組み合わせる場合、これらを組み合わせて、新しい隠れマルコフ・モデルを作る。

音声の対人コミュニケーションの素材は、もっと単純に、「あ」、「い」、「う」、「え」、「お」などの音素であってもよい。

図２２には、対人コミュニケーション生成部１０４において、新規のコミュニケーション・モデルをコマンド／対人コミュニケーション対応テーブル１０３に登録するための処理手順をフローチャートの形式で示している。

まず、新規コミュニケーション・モデル生成部１９０２が新規コミュニケーション・モデルを生成する（ステップＳ２２０１）。新規コミュニケーション・モデル生成部１９０２は、対人コミュニケーション素材テーブル１９０４に記憶されている素材を乱数などでランダムに選択し、これらを組み合わせて、新規コミュニケーション・モデルを生成する。素材は直列接続してレフト・トゥ・ライトＨＭＭを維持する。

次いで、新規コミュニケーション・モデル登録部１９０４は、コマンド／対人コミュニケーション対応テーブルの先頭行から順に（ステップＳ２２０２）、記憶されている対人コミュニケーションのモデルを取り出して、新規コミュニケーション・モデル生成部１９０２が生成したモデルとの類似度を評価する（ステップＳ２２０３）。

類似度を評価する際、新規コミュニケーション・モデルから特徴量系列を多数生成する。そして、コマンド／対人コミュニケーション対応テーブル１０３上に既存のコミュニケーション・モデルで特徴量系列の尤度を計算し、尤度の平均値を類似度とする。

ここで、類似度が所定の閾値以上となるときには（ステップＳ２２０４のＮｏ）、同じコミュニケーション・モデルが他のコマンドと組み合わせて既に存在することになるので、ステップＳ２２０１に戻り、新規コミュニケーション・モデル生成部１９０２が新規コミュニケーション・モデルを再生成する。

一方、類似度が所定の閾値未満である場合には（ステップＳ２２０４のＹｅｓ）、最終行に到達していなければ（ステップＳ２２０５のＮｏ）、コマンド／対人コミュニケーション対応テーブル１０３の次の行に進んだ後（ステップＳ２２０７）、ステップＳ２２０２に戻って、コマンド／対人コミュニケーション対応テーブル１０３の次の行について類似度合いの評価を繰り返し実行する。

そして、新規コミュニケーション・モデル登録部１９０５がコマンド／対人コミュニケーション対応テーブル１０３内のすべての行について類似度合いの評価を終了し（ステップＳ２２０５）、既存のいずれのコミュニケーション・モデルとも類似していない新規のコミュニケーション・モデルを作成できたときには、新規コミュニケーション・モデル登録部１９０５は、これをコマンド／対人コミュニケーション対応テーブル１０３に登録する（ステップＳ２２０６）。

最後に、情報機器１００に対する対人コミュニケーションによる操作方法について説明する。

ここまでの話を要約すると、情報機器１００は、操作を行なうユーザーに対し、以下のような動作を行なう。

（Ｄ１）情報機器１００にとって認識し易いコミュニケーション動作を生成していく。コミュニケーション動作は、ジェスチャーや音声であるが、ユーザーにとって模倣し易く、且つ、情報機器１００にとっては、ユーザーが模倣した動作を認識し易いものである。
（Ｄ２）情報機器１００は、ユーザーが同じ操作（コマンド入力）を行なう度に、該当するコミュニケーション動作をユーザーに提示する。

一方、ユーザーは、以下のように振る舞うことで、情報機器１００の動作を行なう。

（Ｕ１）情報機器１００が繰り返し提示するので、ユーザーは、情報機器１００が生成したコミュニケーション動作を自然に覚えることができる。
（Ｕ２）ユーザーは、コマンドの入力操作に代えて、覚えたコミュニケーション動作を模倣して、情報機器１００に対して同じコマンドを実行させることができる。

図２３には、ユーザーと情報機器１００間の動作シーケンス例を示している。

ユーザーは、リモコン（図示しない）などを利用した機器間通信（図中、実線矢印）により、情報機器１００に対してコマンド１を送信する。

これに対し、情報機器１００は、受信したコマンド１を実行するとともに、コマンド１に対応する、ジェスチャーや音声などのコミュニケーション動作１を生成して、ユーザーに提示する（図中、点線矢印）。

また、ユーザーは、リモコンなどを利用した機器間通信（図中、実線矢印）により、情報機器１００に対してコマンド２を送信する。

これに対し、情報機器１００は、受信したコマンド２を実行するとともに、コマンド１に対応するコミュニケーション動作２を生成して、ユーザーに提示する（図中、点線矢印）。

図２３では図示を省略しているが、情報機器１００は、コマンド１を受信する度に、コマンド１の実行処理に併せてコミュニケーション動作１を提示する。また、情報機器１００は、コマンド２を実行する度に、コマンド２の実行処理に併せてコミュニケーション動作２を提示する。

ユーザーは、繰り返し提示されることにより、コミュニケーション動作１、２がそれぞれコマンド１、２に対応していることを自然に覚える。

そして、ユーザーは、情報機器１００に対して再びコマンド１を実行させたくなったときには、リモコンなどの機器間通信を行なわずに、覚えたコミュニケーション動作１を模倣すればよい（図中、点線矢印）。

情報機器１００は、ユーザーが模倣したコミュニケーション動作１を認識すると、機器間通信によりコマンド１を受信したときと同様に、コマンド１を実行する。

図２４には、コミュニケーション動作として音声を生成する場合の、コマンド／対人コミュニケーション対応テーブル１０３内の記憶内容を例示している。図示の例では、対人コミュニケーションとしての音声サンプルと、該当するコマンドを組にして記憶している。情報機器１００側では、コマンドと、対人コミュニケーションとの対応をあらかじめ用意しておく。対人コミュニケーションとして音声を利用する場合、図示のような、簡単なサウンドやメロディーからなる音声であることが、ユーザーにとっては覚え易く、情報機器１００にとって認識し易いという両方の観点から、好ましい。

ユーザーは、情報機器１００の操作マニュアルに図２４に示すような対応表を閲覧して、コマンド毎の対人コミュニケーションを覚えるようにしても、勿論よい。しかしながら、図２３を参照しながら説明したように、ユーザーは、リモコンなどの機器間通信を利用した情報機器１００の操作を通じて、コマンド毎の対人コミュニケーションを自然に覚えることもできる。

これまで対人コミュニケーションを利用した情報機器１００の操作方法について説明してきたが、情報機器１００の具体例として、テレビを始めとして、さまざまな家庭内機器（ガス製品、水道機器、電化製品）を挙げることができる。

テレビなどの家庭内機器モニターは、タッチパネルやリモコンなどを通して、表示を操作したり、対応する電化製品、ガス製品、水道機器を制御したりすることができる。図２５には、家庭内機器モニターが、ユーザーからのリモコン操作に応じて、生成したコミュニケーション動作をユーザーに提示している様子を示している。この家庭内機器モニターは、リモコンによるコマンド操作（例えば、電気の消灯）に対して、あらかじめ決められた（若しくは、当該コマンドに対応付けて新規に生成された）、「ピーピーピー」という音声からなるコミュニケーション動作をユーザーに提示する。覚え易いコミュニケーション動作であれば、ユーザーは、数回知覚するだけで、あるいは、同じリモコン操作を行なう度に繰り返し提示されることによって、自然にこれを記憶することができる。

ユーザーは、家庭内機器モニターを通して各家庭内機器を遠隔から操作したいとき、リモコンを用いればよいが、リモコンを常に利用であるとは限らない。例えば、両手若しくは片手がふさがっていてリモコンをうまく操作できない場合や、リモコンが咄嗟に見つからない場合などである。このようなとき、ユーザーは、以前同じリモコン操作したときに発せられていた、コミュニケーション動作を想起すると、これを模倣すればよい。図２６には、ユーザーが、家庭内機器モニターに対して、「ピーピーピー」という音声からなるコミュニケーション動作を模倣している様子を例示している。家庭内機器モニター側では、ユーザーが模倣した「ピーピーピー」というコミュニケーション動作をマイクで集音して音声認識を行ない、「電気を消せ」というコマンドであることを認識すると、室内の電気を消灯する。

「ピーピーピー」という音声からなるコミュニケーション動作は、家庭内機器モニター側で認識し易い音声サンプルとして生成したものである。すなわち、家庭内機器モニターは、さまざまな言語の、さまざまな語彙、ユーザー毎のまちまちな表現方法を音声認識する必要はなく、正確にコマンドを認識することができる。

また、図２７には、ユーザーがジェスチャーからなるコミュニケーション動作を模倣して、家庭内機器モニターにコマンドを送る様子を示している。図示の例では、数字の「２」のような形状をした指先の軌跡からなるコミュニケーション動作が、あらかじめユーザーに提示され、ユーザーが既に記憶しているものとする。ユーザーは、指先を動かして、覚えておいた数字の「２」のような形状を空中で描く。家庭内機器モニター側では、ユーザーの指先の軌跡をビデオカメラで捕捉し、画像認識して、これまでコマンドに対応して提示してきた軌跡と類似しているかどうかを判定する。そして、類似している軌跡が発見されると、家庭内機器モニターは、これに対応するコマンドを実行する。

このように、本実施形態によれば、操作対象となる情報機器１００側で生成した対人コミュニケーションを用いてユーザーが遠隔操作を行なうので、情報機器１００がさまざまなコマンド・バリエーションに対応する必要がない。また、例えば音声からなる対人コミュニケーションを使用する場合には、さまざまな言語に対応する必要がない。

また、ユーザーにとっては、情報機器１００から提示される音声やジェスチャーなどの対人コミュニケーションを使って、リモコンなどの機器なしでもリモート操作することができる。また、情報機器１００は、覚え易い対人コミュニケーションを生成するので、ユーザーは、マニュアルを見なくても対人コミュニケーションによるリモコン操作を使いこなすことができる。

なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）操作対象となる機器を操作するコマンドを通信するコマンド通信部と、コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、対人コミュニケーションを提示する対人コミュニケーション提示部と、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、を具備する情報入力装置。
（２）前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示する、上記（１）に記載の情報入力装置。
（３）コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備える、上記（１）に記載の情報入力装置。
（４）前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶する、上記（３）に記載の情報入力装置。
（５）前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶する、上記（３）に記載の情報入力装置。
（６）前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶する、上記（３）に記載の情報入力装置。
（７）前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成する、上記（３）に記載の情報入力装置。
（８）動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部は、ディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示する、上記（１）に記載の情報入力装置。
（９）動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記コマンド認識部は、前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部は、前記検索されたコマンドを実行する、上記（１）に記載の情報入力装置。
（１０）音程と音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部は、スピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示する、上記（１）に記載の情報入力装置。
（１１）音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション検出部は、音声パルスの変化を検出し、前記コマンド認識部は、前記対人コミュニケーション検出部が検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部は、前記検索されたコマンドを実行する、上記（１）に記載の情報入力装置。
（１２）前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識する、上記（１）に記載の情報入力装置。
（１３）前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成する、上記（１）に記載の情報入力装置。
（１４）操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、対人コミュニケーションを提示する対人コミュニケーション提示ステップと、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、を有する情報入力方法。
（１５）操作対象となる機器を操作するコマンドを通信するコマンド通信部、コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、対人コミュニケーションを提示する対人コミュニケーション提示部、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラム。

特開２００１−９５０７０号公報特開２００７−２８６１８０号公報

Ｃ．Ｍ．ビショップ著「パターン認識と機会学習」（スプリンがージャパン）上坂吉則、尾関和彦共著「パターン認識と学習のアルゴリズム」（文一総合出版）

以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書で開示する技術によれば、パーソナル・コンピューターや、テレビ、音楽再生プレイヤー、照明などの家電製品、あるいは生活支援や産業用途のロボット装置など、さまざまな機器を制御対象として、手先のジェスチャーによる操作を実現することができる。

本明細書では、例示という形態により本明細書で開示する技術について説明してきたが、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

１００…情報機器
１０１…コマンド通信部
１０２…コマンド実行部
１０３…コマンド／対人コミュニケーション対応テーブル
１０４…対人コミュニケーション生成部
１０５…対人コミュニケーション提示部
１０６…対人コミュニケーション検出部
１０７…コマンド認識部
３０１…カメラ
３０２…指先位置検出部
３０３…指先座標生成部
４０１…マイク
４０２…音声サンプリング部
４０３…周波数解析部
５０１…特徴量時系列バッファリング部
５０２…特徴量時系列比較部
５０３…最尤コマンド選択部
１６０１…状態尤度計算部
１６０２…フォワード伝搬部
１６０３…経験尤度計算部
１９０１…コマンド検索部
１９０２…新規コミュニケーション・モデル生成部
１９０３…新規コミュニケーション動作生成部
１９０４…対人コミュニケーション素材テーブル
１９０５…新規対人コミュニケーション・モデル登録部

Claims

操作対象となる機器を操作するコマンドを通信するコマンド通信部と、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、
対人コミュニケーションを提示する対人コミュニケーション提示部と、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、
を具備する情報入力装置。
前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示する、
請求項１に記載の情報入力装置。
コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備える、
請求項１に記載の情報入力装置。
前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶する、
請求項３に記載の情報入力装置。
前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶する、
請求項３に記載の情報入力装置。
前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶する、
請求項３に記載の情報入力装置。
前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成する、
請求項３に記載の情報入力装置。
動きの軌跡を利用した対人コミュニケーションを利用する場合に、
前記対人コミュニケーション提示部は、ディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示する、
請求項１に記載の情報入力装置。
動きの軌跡を利用した対人コミュニケーションを利用する場合に、
前記コマンド認識部は、前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、
前記コマンド実行部は、前記検索されたコマンドを実行する、
請求項１に記載の情報入力装置。
音程と音声パルスを利用した対人コミュニケーションを利用する場合に、
前記対人コミュニケーション提示部は、スピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示する、
請求項１に記載の情報入力装置。
音声パルスを利用した対人コミュニケーションを利用する場合に、
前記対人コミュニケーション検出部は、音声パルスの変化を検出し、
前記コマンド認識部は、前記対人コミュニケーション検出部が検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、
前記コマンド実行部は、前記検索されたコマンドを実行する、
請求項１に記載の情報入力装置。
前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識する、
請求項１に記載の情報入力装置。
前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成する、
請求項１に記載の情報入力装置。
操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、
コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、
対人コミュニケーションを提示する対人コミュニケーション提示ステップと、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、
前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、
前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、
を有する情報入力方法。
操作対象となる機器を操作するコマンドを通信するコマンド通信部、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、
対人コミュニケーションを提示する対人コミュニケーション提示部、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、
としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラム。