JP2013210875A - 情報入力装置及び情報入力方法、並びにコンピューター・プログラム - Google Patents

情報入力装置及び情報入力方法、並びにコンピューター・プログラム Download PDF

Info

Publication number
JP2013210875A
JP2013210875A JP2012081120A JP2012081120A JP2013210875A JP 2013210875 A JP2013210875 A JP 2013210875A JP 2012081120 A JP2012081120 A JP 2012081120A JP 2012081120 A JP2012081120 A JP 2012081120A JP 2013210875 A JP2013210875 A JP 2013210875A
Authority
JP
Japan
Prior art keywords
command
communication
interpersonal communication
unit
interpersonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012081120A
Other languages
English (en)
Inventor
Naoki Ide
直紀 井手
Kiyoto Ichikawa
清人 市川
Kotaro Sabe
浩太郎 佐部
Duerr Peter
ペーター ドゥール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012081120A priority Critical patent/JP2013210875A/ja
Publication of JP2013210875A publication Critical patent/JP2013210875A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Details Of Television Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】機器が認識し易い言語を用いて、音声による正確なコマンド入力を実現する。
【解決手段】機器は、リモコンや操作パネルなどを介してユーザーからコマンドを入力されると、コマンドの実行処理を行なうとともに、当該コマンドに対応するコミュニケーション動作を生成してユーザーに提示する。その後、ユーザーは、リモコンや操作パネルの手動操作ではなく、提示したコミュニケーション動作によりコマンドを機器に入力できる。機器は、ユーザーがコミュニケーション動作を行なったと判断した場合に、対応するコマンドを実行する。
【選択図】 図23

Description

本明細書で開示する技術は、ユーザーから制御操作の対象となる機器への制御コマンドを入力する情報入力装置及び情報入力方法、並びにコンピューター・プログラムに係り、特に、ユーザーの音声などによる遠隔からの制御コマンドを入力する情報入力装置及び情報入力方法、並びにコンピューター・プログラムに関する。
人が生活する環境には、家電製品や情報機器など、ユーザーが制御対象とするさまざまな製品が存在している。この種の機器を、レーザー・ポインターやリモコンなどのデバイスを用いて遠隔操作する技術は従来から知られている。また、最近では、音声による機器の操作が脚光を浴びている。
例えば、リモート・コントロール(遠隔制御)しようとする機器に関する画像を入力する画像入力手段と音声情報を入力する音声入力手段と、上記画像入力手段から入力した画像を表示するとともに、新たに画像入力が可能な画像表示兼入力パネル手段と、上記機器との間で信号の送受信を行うための赤外線信号送受信手段を備え、音声を含む複数の遠隔操作を1つのデバイスで行なうことのできるリモコン装置について提案がなされている(例えば、特許文献1を参照のこと)。
また、音声入力部11に入力された音声信号が、リモコン2のマイクロホン21に入力された音声信号であるか否かを、受信部12により受信された識別信号により判断して、音声認識により電子機器の遠隔操作を行う場合の誤作動を防止する電子機器について提案がなされている(例えば、特許文献2を参照のこと)。
しかしながら、音声入力による遠隔操作を実現するには、機器が言語を認識する機能が必要である。例えば、各国で発売される製品の場合、さまざまな言語に対するバリエーションが必要である。また、同様の趣旨のコマンドであっても、ユーザー毎に表現方法はまちまちであり、使われにくい語彙に対する用意が必要である。総じて、ユーザーが自由に発生する言語などの音声を、機器側で完全に理解することは困難である。
本明細書で開示する技術の目的は、ユーザーの音声などによる遠隔からの制御コマンドを好適に入力することができる、優れた情報入力装置及び情報入力方法、並びにコンピューター・プログラムを提供することにある。
本願は、上記課題を参酌してなされたものであり、請求項1に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信部と、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、
対人コミュニケーションを提示する対人コミュニケーション提示部と、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、
を具備する情報入力装置である。
本願の請求項2に記載の技術によれば、請求項1に記載の情報入力装置の前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示するように構成されている。
本願の請求項3に記載の技術によれば、請求項1に記載の情報入力装置は、コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備えている。
本願の請求項4に記載の技術によれば、請求項3に記載の情報入力装置の前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶するように構成されている。
本願の請求項5に記載の技術によれば、請求項3に記載の情報入力装置の前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶するように構成されている。
本願の請求項6に記載の技術によれば、請求項3に記載の情報入力装置の前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶するように構成されている。
本願の請求項7に記載の技術によれば、請求項3に記載の情報入力装置の前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成するように構成されている。
本願の請求項8に記載の技術によれば、請求項1に記載の情報入力装置は、動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部がディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示するように構成されている。
本願の請求項9に記載の技術によれば、請求項1に記載の情報入力装置は、動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記コマンド認識部が前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部が前記検索されたコマンドを実行するように構成されている。
本願の請求項10に記載の技術によれば、請求項1に記載の情報入力装置は、音程と音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部がスピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示するように構成されている。
本願の請求項11に記載の技術によれば、請求項1に記載の情報入力装置は、音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション検出部が音声パルスの変化を検出し、前記コマンド認識部が前記対人コミュニケーション検出部により検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部が前記検索されたコマンドを実行するように構成されている。
本願の請求項12に記載の技術によれば、請求項1に記載の情報入力装置の前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識するように構成されている。
本願の請求項13に記載の技術によれば、請求項1に記載の情報入力装置の前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成するように構成されている。
また、本願の請求項14に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、
コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、
対人コミュニケーションを提示する対人コミュニケーション提示ステップと、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、
前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、
前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、
を有する情報入力方法である。
また、本願の請求項15に記載の技術は、
操作対象となる機器を操作するコマンドを通信するコマンド通信部、
コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、
対人コミュニケーションを提示する対人コミュニケーション提示部、
ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、
前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、
前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、
としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラムである。
本願の請求項15に係るコンピューター・プログラムは、コンピューター上で所定の処理を実現するようにコンピューター可読形式で記述されたコンピューター・プログラムを定義したものである。換言すれば、本願の請求項15に係るコンピューター・プログラムをコンピューターにインストールすることによって、コンピューター上では協働的作用が発揮され、本願の請求項1に係る情報入力装置と同様の作用効果を得ることができる。
本明細書で開示する技術によれば、ユーザーの音声などによる遠隔からの制御コマンドを好適に入力することができる、優れた情報入力装置及び情報入力方法、並びにコンピューター・プログラムを提供することができる。
本明細書で開示する技術によれば、操作対象となる情報機器側で生成した対人コミュニケーションを用いてユーザーが遠隔操作を行なうので、情報機器がさまざまなコマンド・バリエーションに対応する必要がない。また、例えば音声からなる対人コミュニケーションを使用する場合には、さまざまな言語に対応する必要がない。
また、本明細書で開示する技術によれば、情報機器側で、認識し易い音声やジェスチャーからなる対人コミュニケーションを生成することができる。したがって、ユーザーが対人コミュニケーションを使ってコマンドを入力しようとした際に、誤認識を抑制することができる。
本明細書で開示する技術によれば、ユーザーは、ジェスチャーや音声などからなる対人コミュニケーションを用いて、機器を遠隔操作することができる。
また、本明細書で開示する技術によれば、情報機器側でユーザーが覚え易いジェスチャーや音声からなる対人コミュニケーションを生成し、ユーザーがコマンドを入力したときに併せて提示することによって、ユーザーは対人コミュニケーションを自然に記憶することができる。それ以降、ユーザーは、リモコンや操作パネルなどの直接操作なしに、対人コミュニケーションを用いて、機器を遠隔操作することができる。
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、本明細書で開示する技術の一実施形態に係る情報機器100の機能的構成を模式的に示した図である。 図2は、情報機器100がコマンドを受信したときに実行する処理手順を示したフローチャートである。 図3は、ジェスチャーを対人コミュニケーションとする場合の対人コミュニケーション検出部106内の機能的構成を示した図である。 図4は、音声を対人コミュニケーションとする場合の対人コミュニケーション検出部106内の機能的構成を示した図である。 図5は、コマンド認識部107内の機能的構成を示した図である。 図6は、コマンド認識部107内で実行される処理手順を示したフローチャートである。 図7Aは、対人コミュニケーションが手書き文字のジェスチャーである場合の、検出された特徴量時系列データを例示した図である。 図7Bは、各コマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを例示した図である。 図8Aは、対人コミュニケーションが音声である場合の、検出された特徴量時系列データを例示した図である。 図8Bは、各コマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを例示した図である。 図9は、隠れマルコフ・モデルの状態遷移図を示した図である。 図10は、隠れマルコフ・モデルの遷移テーブルを示した図である。 図11は、隠れマルコフ・モデルの状態テーブルを示した図(特徴量の時系列データが限られたシンボルを発する場合)である。 図12は、隠れマルコフ・モデルの状態テーブルの他の例(特徴量の時系列データが連続値の場合)を示した図である。 図13は、図7Aに示した数字の「2」のような形状をした指先の軌跡についての隠れマルコフ・モデルを示した図である。 図14は、図8Aに示した音声の特徴量時系列データについての隠れマルコフ・モデルを示した図である。 図15は、遷移に一方向性の制約がある状態遷移図を示した図である。 図16は、コマンド認識部107内の特徴量時系列比較部502で類似度を算出処理する機能的構成を示した図である。 図17は、状態遷移を時間方向に展開したトレリス図を示した図である。 図18は、トレリス図の一部を拡大して示した図である。 図19は、対人コミュニケーション生成部104の内部構成を示した図である。 図20は、10個のジェスチャー素材をモデル化した隠れマルコフ・モデルの状態遷移図を、2次元画素空間上に配置した様子を示した図である。 図21は、6個の音声素材をモデル化した隠れマルコフ・モデルの状態遷移図を、周波数/時間のグラフに配置したイメージを示した図である。 図22は、新規のコミュニケーション・モデルをコマンド/対人コミュニケーション対応テーブル103に登録するための処理手順を示したフローチャートである 図23は、ユーザーと情報機器100間の動作シーケンス例を示した図である。 図24は、コマンド/対人コミュニケーション対応テーブル103内の記憶内容を例示した図である。 図25は、家庭内機器モニターが、ユーザーからのリモコン操作に応じて、生成したコミュニケーション動作をユーザーに提示している様子を示した図である。 図26は、ユーザーが家庭内機器モニターに対してコミュニケーション動作を模倣している様子を示した図である。 図27は、ユーザーがジェスチャーからなるコミュニケーション動作を模倣して、家庭内機器モニターにコマンドを送る様子を示した図である。
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
図1には、本明細書で開示する技術の一実施形態に係る情報機器100の機能的構成を模式的に示している。図示の情報機器100は、コマンド通信部101と、コマンド実行部102と、コマンド/対人コミュニケーション対応テーブル103と、対人コミュニケーション生成部104と、対人コミュニケーション提示部105と、対人コミュニケーション検出部106と、コマンド認識部107を備えている。
コマンド通信部101は、情報機器100を操作するコマンドを通信する機能モジュールである。コマンド通信部101は、例えば情報機器100に付属するリモートコントローラー(図示しない)との通信部や、情報機器100が装備する操作パネル(図示しない)上のキーとの通信部などである。
コマンド実行部102は、コマンド通信部101や後述するコマンド認識部107から受信したコマンドを基に、当該情報機器100を制御する機能モジュールである。
コマンド/対人コミュニケーション対応テーブル103は、情報機器100に対するコマンドと、対人コミュニケーションとを組み合わせるテーブルである。ここで言う対人コミュニケーションとは、音声やジェスチャーなど、通常は人間同士で行なわれるコミュニケーションに相当する。コマンド/対人コミュニケーション対応テーブル103内のデータは、すなわち、各コマンドに対応する対人コミュニケーションは、あらかじめ用意されていてもよいし、追加的に増えていってもよい。若しくは、スクラッチ(何もない状態)から、1つずつ創り上げてもよい。対人コミュニケーションに対応するコマンドを、コマンド/対人コミュニケーション対応テーブル103から検索することができる。
対人コミュニケーション生成部104は、コマンド通信部101で受信したコマンドに対応する対人コミュニケーションを生成する機能モジュールである。対人コミュニケーション生成部104は、対人コミュニケーションとして、例えばユーザーの指先のジェスチャーや音声、あるいはジェスチャーと音声の組合せを生成する。
対人コミュニケーション生成部104が生成した対人コミュニケーションは、コマンド/対人コミュニケーション対応テーブル103、並びに、後述する対人コミュニケーション提示部105に渡される。コマンド通信部101で受信したコマンドに対応する対人コミュニケーションがコマンド/対人コミュニケーション対応テーブル103上にまだなければ、対人コミュニケーション生成部104が対人コミュニケーションを新規に生成する。そして、生成した対人コミュニケーションは、そのときのコマンドと組み合わせて、コマンド/対人コミュニケーション対応テーブル103に追記的に記憶される。
対人コミュニケーション提示部105は、ディスプレイやスピーカーなど、時用法機器100が備える出力装置で構成され、対人コミュニケーション生成部104で生成されたデータを外部に出力する。生成した対人コミュニケーションがジェスチャーならば、ディスプレイを活用して画像表示し、生成した対人コミュニケーションが音声ならば、スピーカーを活用して音声出力される。ユーザーは、コマンド通信部101を介してコマンドを入力した際に、対人コミュニケーション提示部105による提示から、そのコマンドに対応する対人コミュニケーションを知ることができる。
対人コミュニケーション検出部106は、カメラやマイクなど、情報機器100が備える画像入力装置や音声入力装置で構成され、ユーザーが行なったジェスチャーや音声などの対人コミュニケーションの特徴量を検出する。ユーザーが行なった対人コミュニケーションがジェスチャーであれば、カメラからの入力画像を画像認識して対人コミュニケーションの特徴量として特徴部位の座標情報などを検出する。また、ユーザーが行なった対人コミュニケーションが音声であれば、マイクからの入力音声を音声認識して対人コミュニケーションの特徴量として音声周波数や音場強度などを検出する。対人コミュニケーション検出部106として既存の音声認識を利用することができ、よりプリミティブに音声周波数と音パルスで認識を行なってもよい。
コマンド認識部107は、対人コミュニケーション検出部106で検出した対人コミュニケーションが表すコマンドを認識する。コマンド認識部107は、対人コミュニケーションをコマンド/対人コミュニケーション対応テーブル103上で検索することでコマンドを認識することができ、認識したコマンドをコマンド実行部102に渡す。
ユーザーは、リモコンや操作パネルなどを通じてコマンド通信部101にコマンドを入力した際に、対人コミュニケーション提示部105で提示された対人コミュニケーションを、そのときのコマンドと関連付けて自然に記憶することができる。ユーザーがコマンド通信部101を通じてコマンドを入力する度に、対人コミュニケーション提示部105から対人コミュニケーションを提示する。なお、この提示されるコミュニケーションは、ある程度の期間表示したら提示をやめてもよい。たとえば、対人コミュニケーションをユーザーが使うようになった時点で減らし始めるようにしても良いし、あるいは、所定回数提示してもユーザーが利用しないのであればやめてもよい。
図2には、情報機器100がコマンドを受信したときに実行する処理手順をフローチャートの形式で示している。
コマンド通信部101でユーザーからのコマンドを受信すると(ステップS201)、コマンド/対人コミュニケーション対応テーブル103内で、該当するコマンドがあるかどうかを検索する(ステップS202)。
ここで、該当するコマンドがコマンド/対人コミュニケーション対応テーブル103内で発見されない場合には(ステップS203のNo)、対人コミュニケーション生成部104は、新規のコマンドに対応する対人コミュニケーションを生成して(ステップS206)、これを新規コマンドと組み合わせてコマンド/対人コミュニケーション対応テーブル103に追加登録する(ステップS207)。
そして、該当するコマンドがコマンド/対人コミュニケーション対応テーブル103内で発見された場合には(ステップS203のYes)、発見された対人コミュニケーションを選択し(ステップS204)、あるいは、新規コマンドに対して生成した対人コミュニケーションを選択して、対人コミュニケーション提示部105からユーザーに提示する(ステップS205)。
上記のようにして対人コミュニケーションの提示を受けた後、ユーザーは、情報機器100に対して同じコマンドを入力したいと思ったときには、コマンドから連想される対人コミュニケーションを模倣することで、リモコンや操作パネルなどを直接操作するのではなくリモートで、同じコマンドを実行することができる。
情報機器100が対人コミュニケーションによるコマンド入力を実現するには、対人コミュニケーション生成部104は、ユーザーにとっては自然に覚え易く、且つ、模倣し易い対人コミュニケーションを生成することが好ましい。また、生成した対人コミュニケーションは、情報機器100にとっては、ユーザーが模倣した対人コミュニケーションを認識し易い(言い換えれば、誤認識し難い)ことが好ましい。
対人コミュニケーション生成部104は、ジェスチャーや音声などの生成のために、対人コミュニケーション検出部106で検出し易い素材を備えておく。そして、複数の素材を合成して、新規の対人コミュニケーションを生成する。既に生成した対人コミュニケーションとは特徴が重ならないように、素材を組み合わせることによって、対人コミュニケーション検出部106で誤検出し難く、コマンド認識部107で誤認識し難い対人コミュニケーションを生成するようにする。
図3には、ジェスチャーを対人コミュニケーションとする場合の対人コミュニケーション検出部106内の機能的構成を示している。ここでは、対人コミュニケーションを、手書き文字認識とする。
ユーザーの指先を含んだ風景をカメラ301で撮像する。指先位置検出部302は、手書き文字認識のために指先を検出する。
指先位置検出部302における指先検出方法は、あらかじめ、人差し指を立て片手の画像と、そうではない画像を多数用意して、学習を行なう。学習には、例えばブースティングなどの教師あり学習を行なう機会学習アルゴリズムを適用することができる。
指先位置検出部302で認識した人差し指を立てた画像から人差し指の選択を抽出すると、指先座標生成部303は、人差し指の画像上での座標(xt,yt)を特徴量として生成して、コマンド認識部107に出力する。
また、図4には、音声を対人コミュニケーションとする場合の対人コミュニケーション検出部106内の機能的構成を示している。
音声サンプリング部402は、マイク401で集音したユーザーの音声の音場強度と、あらかじめ決められたいくつかの音声周波数をサンプリングする。この音声周波数は、対人コミュニケーション生成部104で生成する音声周波数と一致している。
周波数解析部403は、音声サンプリング部402がサンプリングしたいくつかの音声周波数を解析し、音声周波数(f1,f2,…,fd)と音場強度(a1,a2,…,ad)を特徴量として、コマンド認識部107に出力する。
図5には、対人コミュニケーション検出部106で検出された画像又は音声の特徴量に基づいてコマンドを認識するコマンド認識部107内の機能的構成を示している。図示のコマンド認識部107は、特徴量時系列バッファリング部501と、特徴量時系列比較部502と、最尤コマンド選択部503を備えている。
特徴量時系列バッファリング部501は、対人コミュニケーション検出部106で生成した特徴量を随時バッファーに収集して、時系列で記憶する。
特徴量時系列比較部502は、特徴量時系列バッファリング部501でバッファリングされた時系列と、コマンド/対人コミュニケーション対応テーブル103上の対人コミュニケーションの特徴量時系列との類似度合いを算出する。
最尤コマンド選択部503は、特徴量時系列比較部502で算出された類似度合いが閾値よりも高い対人コミュニケーションを抽出し、その中で、最も類似度開が高い対人コミュニケーションに対応付けられたコマンドを最尤コマンドとして選択し、コマンド実行部102に出力する。
図6には、コマンド認識部107内で実行される処理手順をフローチャートの形式で示している。
特徴量時系列比較部502は、特徴量時系列バッファリング部501にバッファリングされている(すなわち、対人コミュニケーション検出部106で検出した)特徴量時系列データを入力する(ステップS601)。
特徴量時系列比較部502は、コマンド/対人コミュニケーション対応テーブルの先頭行から順に(ステップS602)、記憶されている対人コミュニケーションの特徴量時系列を取り出して、ステップS601で取り込んだ特徴量時系列との類似度合いを逐次計算する(ステップS603)。
ここで、特徴量時系列比較部502は、類似度合いが所定の閾値以上となる対人コミュニケーションに対応するコマンドを、コマンド候補として記憶しておく(ステップS605)。
そして、コマンド/対人コミュニケーション対応テーブル103の次の行に進み(ステップS606)、最終行に到達していなければ(ステップS607のNo)、ステップS603に戻り、コマンド/対人コミュニケーション対応テーブル103の次の行について類似度合いの算出を繰り返し実行する。
そして、特徴量時系列比較部502がコマンド/対人コミュニケーション対応テーブル103内のすべての行について類似度合いの計算を終了すると(ステップS607のYes)、最尤コマンド選択部503は、記憶されているコマンド候補の中から、最も類似度合いが高いコマンドを最尤コマンドとして選択して(ステップS608)、コマンド実行部102に出力する。また、コマンド候補がヒトツモ記憶されていなければ、最尤コマンド選択部503は、該当するコマンドなしという結果を出力する。
ここで、類似度合いの計算方法について、例示しながら説明しておく。
まず、対人コミュニケーションが手書き文字のジェスチャーである場合の類似度合いについて説明する。図7Aには、対人コミュニケーション検出部106で検出され、特徴量時系列バッファリング部501にバッファリングされている特徴量時系列データを示している。図示の検出された指先の軌跡は数字の「2」のような形状であったとする。
一方、図7Bには、コマンド/対人コミュニケーション対応テーブル103内でコマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを示している。コマンド/対人コミュニケーション対応テーブル103内には、10個のコマンド1〜10の各々に対応付けられた、対人コミュニケーションとしての指先軌跡の時系列データが記憶されている。コマンド1〜10に対応する指先軌跡は、0から9までの数字のような形状であったとする。図7Bに示した指先軌跡の中で、図7Aに示した指先軌跡に最も類似しているのは、数字の「2」のような形をしたコマンド3である。類似度合いの算出方法については後述に譲るが、コマンド3に対応して記憶された指先軌跡の類似度合いが所定の閾値を超えているのであれば、最尤コマンド選択部503はコマンド3を選択し、コマンド実行部102はコマンド3の操作を実行する。
図7A並びに図7Bでは、説明を容易にするために、数字と似たような形状をしたジェスチャーを例示した。しかしながら、操作対象がテレビのチャンネル操作などのように、誤認識により番号がずれると混乱を起こす場合もある。このような問題を回避するため、対人コミュニケーション生成部104は、対人コミュニケーションとして、必ずしも数字の形状のような手書き文字を生成しなくてもよい。より抽象的な記号のような図形を、対人コミュニケーションのジェスチャーとして生成するようにしてもよい。(例えば、○、∝、∞、〜、&、などの記号が考えられる。中でも一筆書きで書くことができる記号が、対人コミュニケーションのジェスチャーに適している。)
続いて、対人コミュニケーションが音声である場合の類似度合いについて説明する。図8Aには、対人コミュニケーション検出部106で検出され、特徴量時系列バッファリング部501にバッファリングされている特徴量時系列データを示している。図示の検出された音パルスは、4つの音程のうち2つを使って、4つのパルスが発せられたものであったとする。
一方、図8Bには、コマンド/対人コミュニケーション対応テーブル103内でコマンドと対応付けて記憶されている対人コミュニケーションの特徴量時系列データを示している。コマンド/対人コミュニケーション対応テーブル103内には、10個のコマンドが記憶されているが、対人コミュニケーションとしての音パルスが対応付けられているのはこのうち6個のコマンドであるとする。この中で、図8Aに示した音パルスに最も類似しているの、「音量上げ」コマンドである。類似度合いの算出方法については後述に譲るが、「音量上げ」コマンドに対応して記憶された音パルスの類似度合いが所定の閾値を超えているのであれば、最尤コマンド選択部503は「音量上げ」コマンドを選択し、コマンド実行部102は「音量上げ」コマンドの操作を実行する。
対人コミュニケーション生成部104は、情報機器100側で認識し易いとともに、人間が真似できそうな音パルスすなわちサウンドを対人コミュニケーションとして生成することが必要である。人間が真似し易いという観点から、生成するサウンドの音程は、高い、中くらい、低い、の3、4つ程度とすることが好ましい。また、パルスも、長い、中くらい、短い、の3,4つ程度とすることが好ましい。また、可聴帯域であることが絶対条件である。その他、音程の高低が明確に分かることも必要であろう。
音声や手書き文字の認識に、例えば隠れマルコフ・モデル(Hidden Marcov Model:HMM)を用いることができる(例えば、非特許文献1を参照のこと)。コマンド認識部107は、隠れマルコフ・モデルを使うと、類似度を算出することができる。
図9には、隠れマルコフ・モデルの状態遷移図を示している。隠れマルコフ・モデルは、時系列データを、隠れた状態と状態間の遷移で表現するモデルである。同図に示すモデルは、3つの状態S1、S2、S3を持っている。これらの状態間の起こり得るすべての遷移をT1〜T9で表現している。各状態S1、S2、S3には、特徴量の時系列データと対応するパラメーターがそれぞれ記憶されている。また、各遷移T1〜T9には、始状態、終状態、遷移確率(始状態の条件で終状態に行く条件付き確率)がそれぞれ記憶されている。
隠れマルコフ・モデルのパラメーターは、図10に示す遷移テーブルや、図11に示す状態テーブルにまとめられる。
図10に示すように、遷移のパラメーターは、始状態、終状態、遷移確率である。これらのパラメーターを遷移T1〜T9ごとに記憶して、テーブルとして保持しておく。なお、遷移番号は通し番号であり、特段に意味はない。
また、状態テーブルは、時系列のデータが限られたシンボルを発するという家庭でのパラメーター・テーブルである。限られたシンボルに通し番号を付けて、1〜Kとしておく(但し、jはその途中の通し番号である)。状態のパラメーターは、観測確率(その状態iにいる条件で、シンボルjが発生する確率)である。
また、図12には、状態テーブルの他の例を示している。図示の状態テーブルは、対人コミュニケーションの特徴量の時系列データが連続空間上のある値を中心に正規分布しているという過程でのパラメーター・テーブルである。値の次元には、通し番号を付けて1〜Dとしておく(jはその中の番号)。状態iのパラメーターは、次元jにおける正規分布の中心μijと、分散σij 2である。
対人コミュニケーションが手書き文字のジェスチャーである場合に、隠れマルコフ・モデルを用いて類似度合いを算出する方法について、図13を参照しながら説明する。
手書き文字には、個人差がある。個人差を吸収するように、隠れマルコフ・モデルのパラメーターを決める。図13には、図7Aに示した数字の「2」のような形状をした指先の軌跡についての隠れマルコフ・モデルを示している。但し、図面の簡素化のため、遷移は省略して描いている。手書き文字では、特徴量の時系列データは座標(x,y)の連続値である。したがって、図12に示した状態テーブルを用いる。図13では、各状態について、中心と分散を基にその分布範囲を楕円で示している。
続いて、対人コミュニケーションが音声である場合に、隠れマルコフ・モデルを用いて類似度合いを算出する方法について、図14を参照しながら説明する。
音声パルスの場合、音程が3通りしかなければ、観測データは、高、中、低の3つのシンボルのどれかをとる。そこで、図11に示した状態テーブルを用いる。また、状態は、これらのシンボルに一対一に対応するものではない。実際には、同じシンボルであっても、この状態に至るまでにどの状態を経由したかによって状態を区別した方が良いからである。また、音程を連続的にとらえることで、図12に示した状態テーブルを用いるようにしてもよい。
図9に示した状態遷移図では、すべての状態間の遷移が考慮されている。しかしながら、対人コミュニケーションに用いる手書き文字認識や音声認識では、遷移には、一方向性(元の状態に戻ってこない)という制約がある。この制約を取り入れると、図15に示すような状態遷移を考えればよい。このような制約のある隠れマルコフ・モデルを「レフト・トゥ・ライトHMM」と呼んでいる。
図16には、コマンド認識部107内の特徴量時系列比較部502で類似度を算出処理する機能的構成を示している。
状態尤度計算部1601は、時系列の各時刻で、状態毎に尤度を算出する。フォワード伝搬部1602は、状態尤度と遷移確率を基に、状態確率を伝搬する。そして、経験尤度計算部1603は、伝搬された状態確率から、経験尤度を算出する。
図17には、状態遷移を時間方向に展開したトレリス図を示している。同図中、黒丸は、観測を表す。また、白丸は状態を表し、状態の数だけ用意する。黒丸から白丸への矢印は、各状態に尤度を供給するイメージである。白丸から白丸への矢印は、状態から状態への遷移のイメージである。
図18には、トレリス図の一部を拡大して示している。ステップ1のときの状態の確率(事前確率)は、下式(1)のようにあらかじめ与えられている。
ステップtの事前確率P(zt)で、観測がxtのとき、状態ztとなる事後確率P(zt|xt)は、下式(2)のように表わされる。
ステップtの事後確率がP(zt|xt)で、状態ztから状態zt+1への遷移確率確率がP(zt+1|xt)のとき、状態zt+1の事前確率は、下式(3)のように表わされる。
上式(1)〜(3)に含まれる、以下の値(4)〜(6)は、あらかじめ決めておくことで与えることができる。
上式(4)中のπは、例えば1/Nにすることができる。Nは状態数であり、あらかじめ決めておくことができる。また、上式(5)中のaは、図10に記載済みのパラメーターである。また、上式(6)中のμ、σは、図12に記載済みのパラメーターである。なお、上式(4)中のπは、1/Nとする代わりに、等確率でない確率分布をメモリー上に記憶しておいて利用してもよい。
バッファデータに対してどのモデルが尤もらしいか測る指標は、モデルのパラメーターΠ、Α、μ、σ2の基で、バッファー系列x1:tが生成される尤度Lである。
以下の漸化式(8)を用いると、尤度Lは下式(9)のように求めることができる(例えば、非特許文献2を参照のこと)。
以上のようにして、コマンド/対人コミュニケーション対応テーブルに記憶されている各コマンドに対して、対人コミュニケーション検出部106で検出した対人コミュニケーションの時系列データとの尤度を求める。
例えば、コマンド1に対して尤度L1、コマンド2に対して尤度L2が求まる。そして、これらの尤度L1、L2、…の中で所定の閾値を超えるものがあれば、コマンド認識部107はその中で最も大きいコマンドを選択する。以上で、対人コミュニケーションを利用した操作コマンドの認識を行なう。
図19には、対人コミュニケーション生成部104の内部構成を示している。
コマンド検索部1901は、コマンド通信部101で受信したコマンドを、コマンド/対人コミュニケーション対応テーブル103内で検索し、まだ記憶されていなければ、この新規コマンドに対して新規の対人コミュニケーション・モデルを割り当てる。
新規コミュニケーション・モデル生成部1902は、対人コミュニケーション素材テーブル1904から複数の素材を取り込んで組み合わせ、新規のコミュニケーション・モデルを生成する。新規コミュニケーション・モデル生成部1902は、異なるコマンドに対し同じ素材の組み合わせからなるコミュニケーション・モデルを生成しないように、同じ組み合わせが既にコマンド/対人コミュニケーション対応テーブル103にないことを確認しなければならない。
新規コミュニケーション・モデル登録部1905は、新規コミュニケーション・モデル生成部1902が生成した新規コミュニケーション・モデルのパラメーターを、入力されたコマンドとセットにして、コマンド/対人コミュニケーション対応テーブル103に登録する。
また、新規コミュニケーション動作生成部1903は、生成された新規コミュニケーション・モデルから対人コミュニケーション動作を生成して、対人コミュニケーション提示部105に渡す。そして、対人コミュニケーション提示部105は、生成した対人コミュニケーションがジェスチャーならば、ディスプレイを活用して画像表示し、生成した対人コミュニケーションが音声ならば、スピーカーを活用して音声出力する。
以下では、ジェスチャーや音声の素材から、手書き文字のジェスチャーや音声のコミュニケーション・モデルを生成する方法について具体的に説明する。
図20には、10個のジェスチャー素材をモデル化した隠れマルコフ・モデルの状態遷移図を、2次元画素空間上に配置した様子を示している。但し、同図において、図面の錯綜を避けるために、遷移を表す有向線分は描画を省略している。図7Bに示したと同様、0から9までの数字のような形状をしているが、素材としてもよいし、完成版の対人コミュニケーションとして使用してもよい。
図示の10種類の素材は、それぞれ、少なくとも遷移テーブルと状態テーブル(通常は、その他に初期確率もある)を持っている。素材を組み合わせる場合、これらを組み合わせて、新しい隠れマルコフ・モデルを作る。
また、図21には、6個の音声素材をモデル化した隠れマルコフ・モデルの状態遷移図を、周波数/時間のグラフに配置したイメージを示している。但し、同図において、図面の錯綜を避けるために、遷移の線分は描画を省略している。図8Bに示した対人コミュニケーションと同様であるが、素材としてもよいし、完成版の対人コミュニケーションとして使用してもよい。
図示の6種類の素材は、それぞれ、少なくとも遷移テーブルと状態テーブル(通常は、その他に初期確率もある)を持っている。素材を組み合わせる場合、これらを組み合わせて、新しい隠れマルコフ・モデルを作る。
音声の対人コミュニケーションの素材は、もっと単純に、「あ」、「い」、「う」、「え」、「お」などの音素であってもよい。
図22には、対人コミュニケーション生成部104において、新規のコミュニケーション・モデルをコマンド/対人コミュニケーション対応テーブル103に登録するための処理手順をフローチャートの形式で示している。
まず、新規コミュニケーション・モデル生成部1902が新規コミュニケーション・モデルを生成する(ステップS2201)。新規コミュニケーション・モデル生成部1902は、対人コミュニケーション素材テーブル1904に記憶されている素材を乱数などでランダムに選択し、これらを組み合わせて、新規コミュニケーション・モデルを生成する。素材は直列接続してレフト・トゥ・ライトHMMを維持する。
次いで、新規コミュニケーション・モデル登録部1904は、コマンド/対人コミュニケーション対応テーブルの先頭行から順に(ステップS2202)、記憶されている対人コミュニケーションのモデルを取り出して、新規コミュニケーション・モデル生成部1902が生成したモデルとの類似度を評価する(ステップS2203)。
類似度を評価する際、新規コミュニケーション・モデルから特徴量系列を多数生成する。そして、コマンド/対人コミュニケーション対応テーブル103上に既存のコミュニケーション・モデルで特徴量系列の尤度を計算し、尤度の平均値を類似度とする。
ここで、類似度が所定の閾値以上となるときには(ステップS2204のNo)、同じコミュニケーション・モデルが他のコマンドと組み合わせて既に存在することになるので、ステップS2201に戻り、新規コミュニケーション・モデル生成部1902が新規コミュニケーション・モデルを再生成する。
一方、類似度が所定の閾値未満である場合には(ステップS2204のYes)、最終行に到達していなければ(ステップS2205のNo)、コマンド/対人コミュニケーション対応テーブル103の次の行に進んだ後(ステップS2207)、ステップS2202に戻って、コマンド/対人コミュニケーション対応テーブル103の次の行について類似度合いの評価を繰り返し実行する。
そして、新規コミュニケーション・モデル登録部1905がコマンド/対人コミュニケーション対応テーブル103内のすべての行について類似度合いの評価を終了し(ステップS2205)、既存のいずれのコミュニケーション・モデルとも類似していない新規のコミュニケーション・モデルを作成できたときには、新規コミュニケーション・モデル登録部1905は、これをコマンド/対人コミュニケーション対応テーブル103に登録する(ステップS2206)。
最後に、情報機器100に対する対人コミュニケーションによる操作方法について説明する。
ここまでの話を要約すると、情報機器100は、操作を行なうユーザーに対し、以下のような動作を行なう。
(D1)情報機器100にとって認識し易いコミュニケーション動作を生成していく。コミュニケーション動作は、ジェスチャーや音声であるが、ユーザーにとって模倣し易く、且つ、情報機器100にとっては、ユーザーが模倣した動作を認識し易いものである。
(D2)情報機器100は、ユーザーが同じ操作(コマンド入力)を行なう度に、該当するコミュニケーション動作をユーザーに提示する。
一方、ユーザーは、以下のように振る舞うことで、情報機器100の動作を行なう。
(U1)情報機器100が繰り返し提示するので、ユーザーは、情報機器100が生成したコミュニケーション動作を自然に覚えることができる。
(U2)ユーザーは、コマンドの入力操作に代えて、覚えたコミュニケーション動作を模倣して、情報機器100に対して同じコマンドを実行させることができる。
図23には、ユーザーと情報機器100間の動作シーケンス例を示している。
ユーザーは、リモコン(図示しない)などを利用した機器間通信(図中、実線矢印)により、情報機器100に対してコマンド1を送信する。
これに対し、情報機器100は、受信したコマンド1を実行するとともに、コマンド1に対応する、ジェスチャーや音声などのコミュニケーション動作1を生成して、ユーザーに提示する(図中、点線矢印)。
また、ユーザーは、リモコンなどを利用した機器間通信(図中、実線矢印)により、情報機器100に対してコマンド2を送信する。
これに対し、情報機器100は、受信したコマンド2を実行するとともに、コマンド1に対応するコミュニケーション動作2を生成して、ユーザーに提示する(図中、点線矢印)。
図23では図示を省略しているが、情報機器100は、コマンド1を受信する度に、コマンド1の実行処理に併せてコミュニケーション動作1を提示する。また、情報機器100は、コマンド2を実行する度に、コマンド2の実行処理に併せてコミュニケーション動作2を提示する。
ユーザーは、繰り返し提示されることにより、コミュニケーション動作1、2がそれぞれコマンド1、2に対応していることを自然に覚える。
そして、ユーザーは、情報機器100に対して再びコマンド1を実行させたくなったときには、リモコンなどの機器間通信を行なわずに、覚えたコミュニケーション動作1を模倣すればよい(図中、点線矢印)。
情報機器100は、ユーザーが模倣したコミュニケーション動作1を認識すると、機器間通信によりコマンド1を受信したときと同様に、コマンド1を実行する。
図24には、コミュニケーション動作として音声を生成する場合の、コマンド/対人コミュニケーション対応テーブル103内の記憶内容を例示している。図示の例では、対人コミュニケーションとしての音声サンプルと、該当するコマンドを組にして記憶している。情報機器100側では、コマンドと、対人コミュニケーションとの対応をあらかじめ用意しておく。対人コミュニケーションとして音声を利用する場合、図示のような、簡単なサウンドやメロディーからなる音声であることが、ユーザーにとっては覚え易く、情報機器100にとって認識し易いという両方の観点から、好ましい。
ユーザーは、情報機器100の操作マニュアルに図24に示すような対応表を閲覧して、コマンド毎の対人コミュニケーションを覚えるようにしても、勿論よい。しかしながら、図23を参照しながら説明したように、ユーザーは、リモコンなどの機器間通信を利用した情報機器100の操作を通じて、コマンド毎の対人コミュニケーションを自然に覚えることもできる。
これまで対人コミュニケーションを利用した情報機器100の操作方法について説明してきたが、情報機器100の具体例として、テレビを始めとして、さまざまな家庭内機器(ガス製品、水道機器、電化製品)を挙げることができる。
テレビなどの家庭内機器モニターは、タッチパネルやリモコンなどを通して、表示を操作したり、対応する電化製品、ガス製品、水道機器を制御したりすることができる。図25には、家庭内機器モニターが、ユーザーからのリモコン操作に応じて、生成したコミュニケーション動作をユーザーに提示している様子を示している。この家庭内機器モニターは、リモコンによるコマンド操作(例えば、電気の消灯)に対して、あらかじめ決められた(若しくは、当該コマンドに対応付けて新規に生成された)、「ピーピーピー」という音声からなるコミュニケーション動作をユーザーに提示する。覚え易いコミュニケーション動作であれば、ユーザーは、数回知覚するだけで、あるいは、同じリモコン操作を行なう度に繰り返し提示されることによって、自然にこれを記憶することができる。
ユーザーは、家庭内機器モニターを通して各家庭内機器を遠隔から操作したいとき、リモコンを用いればよいが、リモコンを常に利用であるとは限らない。例えば、両手若しくは片手がふさがっていてリモコンをうまく操作できない場合や、リモコンが咄嗟に見つからない場合などである。このようなとき、ユーザーは、以前同じリモコン操作したときに発せられていた、コミュニケーション動作を想起すると、これを模倣すればよい。図26には、ユーザーが、家庭内機器モニターに対して、「ピーピーピー」という音声からなるコミュニケーション動作を模倣している様子を例示している。家庭内機器モニター側では、ユーザーが模倣した「ピーピーピー」というコミュニケーション動作をマイクで集音して音声認識を行ない、「電気を消せ」というコマンドであることを認識すると、室内の電気を消灯する。
「ピーピーピー」という音声からなるコミュニケーション動作は、家庭内機器モニター側で認識し易い音声サンプルとして生成したものである。すなわち、家庭内機器モニターは、さまざまな言語の、さまざまな語彙、ユーザー毎のまちまちな表現方法を音声認識する必要はなく、正確にコマンドを認識することができる。
また、図27には、ユーザーがジェスチャーからなるコミュニケーション動作を模倣して、家庭内機器モニターにコマンドを送る様子を示している。図示の例では、数字の「2」のような形状をした指先の軌跡からなるコミュニケーション動作が、あらかじめユーザーに提示され、ユーザーが既に記憶しているものとする。ユーザーは、指先を動かして、覚えておいた数字の「2」のような形状を空中で描く。家庭内機器モニター側では、ユーザーの指先の軌跡をビデオカメラで捕捉し、画像認識して、これまでコマンドに対応して提示してきた軌跡と類似しているかどうかを判定する。そして、類似している軌跡が発見されると、家庭内機器モニターは、これに対応するコマンドを実行する。
このように、本実施形態によれば、操作対象となる情報機器100側で生成した対人コミュニケーションを用いてユーザーが遠隔操作を行なうので、情報機器100がさまざまなコマンド・バリエーションに対応する必要がない。また、例えば音声からなる対人コミュニケーションを使用する場合には、さまざまな言語に対応する必要がない。
また、ユーザーにとっては、情報機器100から提示される音声やジェスチャーなどの対人コミュニケーションを使って、リモコンなどの機器なしでもリモート操作することができる。また、情報機器100は、覚え易い対人コミュニケーションを生成するので、ユーザーは、マニュアルを見なくても対人コミュニケーションによるリモコン操作を使いこなすことができる。
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)操作対象となる機器を操作するコマンドを通信するコマンド通信部と、コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、対人コミュニケーションを提示する対人コミュニケーション提示部と、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、を具備する情報入力装置。
(2)前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示する、上記(1)に記載の情報入力装置。
(3)コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備える、上記(1)に記載の情報入力装置。
(4)前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶する、上記(3)に記載の情報入力装置。
(5)前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶する、上記(3)に記載の情報入力装置。
(6)前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶する、上記(3)に記載の情報入力装置。
(7)前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成する、上記(3)に記載の情報入力装置。
(8)動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部は、ディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示する、上記(1)に記載の情報入力装置。
(9)動きの軌跡を利用した対人コミュニケーションを利用する場合に、前記コマンド認識部は、前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部は、前記検索されたコマンドを実行する、上記(1)に記載の情報入力装置。
(10)音程と音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション提示部は、スピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示する、上記(1)に記載の情報入力装置。
(11)音声パルスを利用した対人コミュニケーションを利用する場合に、前記対人コミュニケーション検出部は、音声パルスの変化を検出し、前記コマンド認識部は、前記対人コミュニケーション検出部が検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、前記コマンド実行部は、前記検索されたコマンドを実行する、上記(1)に記載の情報入力装置。
(12)前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識する、上記(1)に記載の情報入力装置。
(13)前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成する、上記(1)に記載の情報入力装置。
(14)操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、対人コミュニケーションを提示する対人コミュニケーション提示ステップと、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、を有する情報入力方法。
(15)操作対象となる機器を操作するコマンドを通信するコマンド通信部、コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、対人コミュニケーションを提示する対人コミュニケーション提示部、ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラム。
特開2001−95070号公報 特開2007−286180号公報
C.M.ビショップ著「パターン認識と機会学習」(スプリンがージャパン) 上坂吉則、尾関和彦共著「パターン認識と学習のアルゴリズム」(文一総合出版)
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書で開示する技術によれば、パーソナル・コンピューターや、テレビ、音楽再生プレイヤー、照明などの家電製品、あるいは生活支援や産業用途のロボット装置など、さまざまな機器を制御対象として、手先のジェスチャーによる操作を実現することができる。
本明細書では、例示という形態により本明細書で開示する技術について説明してきたが、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
100…情報機器
101…コマンド通信部
102…コマンド実行部
103…コマンド/対人コミュニケーション対応テーブル
104…対人コミュニケーション生成部
105…対人コミュニケーション提示部
106…対人コミュニケーション検出部
107…コマンド認識部
301…カメラ
302…指先位置検出部
303…指先座標生成部
401…マイク
402…音声サンプリング部
403…周波数解析部
501…特徴量時系列バッファリング部
502…特徴量時系列比較部
503…最尤コマンド選択部
1601…状態尤度計算部
1602…フォワード伝搬部
1603…経験尤度計算部
1901…コマンド検索部
1902…新規コミュニケーション・モデル生成部
1903…新規コミュニケーション動作生成部
1904…対人コミュニケーション素材テーブル
1905…新規対人コミュニケーション・モデル登録部

Claims (15)

  1. 操作対象となる機器を操作するコマンドを通信するコマンド通信部と、
    コマンドを対人コミュニケーションと対応付けて記憶する対応テーブルと、
    対人コミュニケーションを提示する対人コミュニケーション提示部と、
    ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部と、
    前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部と、
    前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部と、
    を具備する情報入力装置。
  2. 前記対人コミュニケーション提示部は、前記コマンド通信部でコマンドを受信する度に、前記対応テーブルで受信したコマンドに対応付けられた対人コミュニケーションを提示する、
    請求項1に記載の情報入力装置。
  3. コマンドに対応する対人コミュニケーションを生成する対人コミュニケーション生成部をさらに備える、
    請求項1に記載の情報入力装置。
  4. 前記対人コミュニケーション生成部は、前記対応テーブルに記憶されていない新規のコマンドを前記コマンド通信部で受信したときに、前記受信したコマンドに対応する対人コミュニケーションを生成して、前記受信したコマンドと対応付けて前記対応テーブルに記憶する、
    請求項3に記載の情報入力装置。
  5. 前記対人コミュニケーション生成部は、コマンド毎に決められた対人コミュニケーションの動作を表す特徴量の時系列をモデル化したモデルのパラメーターを生成して、対応するコマンドとセットにして前記対応テーブルに記憶する、
    請求項3に記載の情報入力装置。
  6. 前記対応テーブルは、コマンド毎に決められた対人コミュニケーションの動作に対応する特徴量の時系列をモデル化したモデルのパラメーターを、対応するコマンドとセットにして記憶する、
    請求項3に記載の情報入力装置。
  7. 前記対人コミュニケーション生成部は、特徴量の時系列をモデル化したモデルのパラメーターからなる複数の素材を組み合わせて、コマンドに対応する対人コミュニケーションを生成する、
    請求項3に記載の情報入力装置。
  8. 動きの軌跡を利用した対人コミュニケーションを利用する場合に、
    前記対人コミュニケーション提示部は、ディスプレイ装置を介して表示される動きの軌跡からなる対人コミュニケーションを提示する、
    請求項1に記載の情報入力装置。
  9. 動きの軌跡を利用した対人コミュニケーションを利用する場合に、
    前記コマンド認識部は、前記対人コミュニケーション検出部によって検出されたユーザーの特定の部位の動きの軌跡を前記対応テーブルで検索して、対応するコマンドを認識し、
    前記コマンド実行部は、前記検索されたコマンドを実行する、
    請求項1に記載の情報入力装置。
  10. 音程と音声パルスを利用した対人コミュニケーションを利用する場合に、
    前記対人コミュニケーション提示部は、スピーカー装置を介して生成される音の変遷からなる対人コミュニケーションを提示する、
    請求項1に記載の情報入力装置。
  11. 音声パルスを利用した対人コミュニケーションを利用する場合に、
    前記対人コミュニケーション検出部は、音声パルスの変化を検出し、
    前記コマンド認識部は、前記対人コミュニケーション検出部が検出した音声を前記対応テーブルで検索して、対応するコマンドを認識し、
    前記コマンド実行部は、前記検索されたコマンドを実行する、
    請求項1に記載の情報入力装置。
  12. 前記コマンド認識部は、前記対人コミュニケーション検出部が検出した対人コミュニケーションの動作を表す特徴量の時系列に対する、コマンド毎に決められた対人コミュニケーションのモデルの尤度に基づいて、コマンドを認識する、
    請求項1に記載の情報入力装置。
  13. 前記対人コミュニケーション生成部は、前記対応テーブルに既に記憶されている対人コミュニケーションのいずれからも類似度が低くなる新規の対人コミュニケーションを生成する、
    請求項1に記載の情報入力装置。
  14. 操作対象となる機器を操作するコマンドを通信するコマンド通信ステップと、
    コマンドを対人コミュニケーションと対応付けて対応テーブルに記憶するステップと、
    対人コミュニケーションを提示する対人コミュニケーション提示ステップと、
    ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出ステップと、
    前記対応テーブルの中から、前記対人コミュニケーション検出ステップで検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識ステップと、
    前記コマンド通信ステップで受信し又は前記コマンド認識ステップで認識した、前記機器を操作するコマンドを実行するコマンド実行ステップと、
    を有する情報入力方法。
  15. 操作対象となる機器を操作するコマンドを通信するコマンド通信部、
    コマンドを対人コミュニケーションと対応付けて記憶する対応テーブル、
    対人コミュニケーションを提示する対人コミュニケーション提示部、
    ユーザーが提示した対人コミュニケーションを検出する対人コミュニケーション検出部、
    前記対応テーブルの中から、前記対人コミュニケーション検出部が検出した対人コミュニケーションに対応するコマンドを認識するコマンド認識部、
    前記コマンド通信部が受信し又は前記コマンド認識部が認識した、前記機器を操作するコマンドを実行するコマンド実行部、
    としてコンピューターを機能させるようコンピューター可読形式で記述されたコンピューター・プログラム。
JP2012081120A 2012-03-30 2012-03-30 情報入力装置及び情報入力方法、並びにコンピューター・プログラム Pending JP2013210875A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012081120A JP2013210875A (ja) 2012-03-30 2012-03-30 情報入力装置及び情報入力方法、並びにコンピューター・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012081120A JP2013210875A (ja) 2012-03-30 2012-03-30 情報入力装置及び情報入力方法、並びにコンピューター・プログラム

Publications (1)

Publication Number Publication Date
JP2013210875A true JP2013210875A (ja) 2013-10-10

Family

ID=49528633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012081120A Pending JP2013210875A (ja) 2012-03-30 2012-03-30 情報入力装置及び情報入力方法、並びにコンピューター・プログラム

Country Status (1)

Country Link
JP (1) JP2013210875A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017073076A (ja) * 2015-10-09 2017-04-13 株式会社東芝 行動判定装置及び行動判定方法
JP2019096252A (ja) * 2017-11-28 2019-06-20 Kddi株式会社 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
WO2021162119A1 (ja) * 2020-02-14 2021-08-19 知能技術株式会社 端末操作に用いられる学習済みモデル生成方法、学習済みモデル、プログラム、端末操作システム、および、端末操作プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017073076A (ja) * 2015-10-09 2017-04-13 株式会社東芝 行動判定装置及び行動判定方法
JP2019096252A (ja) * 2017-11-28 2019-06-20 Kddi株式会社 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
WO2021162119A1 (ja) * 2020-02-14 2021-08-19 知能技術株式会社 端末操作に用いられる学習済みモデル生成方法、学習済みモデル、プログラム、端末操作システム、および、端末操作プログラム

Similar Documents

Publication Publication Date Title
US8606735B2 (en) Apparatus and method for predicting user's intention based on multimodal information
CN104662491B (zh) 用于传感器***的自动手势辨认
US8793134B2 (en) System and method for integrating gesture and sound for controlling device
US7843425B2 (en) Motion recognition system and method for controlling electronic devices
US8954330B2 (en) Context-aware interaction system using a semantic model
CN107346593B (zh) 一种设备启动控制方法
CN110598576B (zh) 一种手语交互方法、装置及计算机介质
CN102016765A (zh) 用于识别手持设备的用户的方法和***
WO2013021385A2 (en) Gesture based interface system and method
LaViola Jr Context aware 3D gesture recognition for games and virtual reality
JP7375748B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2017504118A (ja) ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法
LaViola Jr An introduction to 3D gestural interfaces
CN108287903A (zh) 一种与投影相结合的搜题方法及智能笔
CN106601217B (zh) 一种交互式乐器演奏方法及装置
JP2013210875A (ja) 情報入力装置及び情報入力方法、並びにコンピューター・プログラム
Awada et al. Multimodal interface for elderly people
KR101567154B1 (ko) 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치
Vyas et al. Gesture recognition and control
CN107622300B (zh) 多模态虚拟机器人的认知决策方法和***
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质
WO2019093123A1 (ja) 情報処理装置および電子機器
Nigam et al. A complete study of methodology of hand gesture recognition system for smart homes
Jamaludin et al. Dynamic hand gesture to text using leap motion