JP3822357B2 - マルチモーダル入出力装置のインタフェース装置及びその方法 - Google Patents
マルチモーダル入出力装置のインタフェース装置及びその方法 Download PDFInfo
- Publication number
- JP3822357B2 JP3822357B2 JP16344998A JP16344998A JP3822357B2 JP 3822357 B2 JP3822357 B2 JP 3822357B2 JP 16344998 A JP16344998 A JP 16344998A JP 16344998 A JP16344998 A JP 16344998A JP 3822357 B2 JP3822357 B2 JP 3822357B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- input
- selection
- feedback
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
【発明の属する技術分野】
本発明は入力された視覚情報、音声情報、操作情報のうち少なくとも一つの入力あるいは出力を通じて利用者の意図を推定し、それに基づき利用者にフィードバックを返すマルチモーダル入出力インタフェースに関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータを含む計算機システムにおいて、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などマルチメディア情報を入出力することが可能になって来ている。こういった状況に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を対話する音声対話システムへの要求が高まっており、自由発話による音声入力によって利用可能な対話システムである"TOSBURG-II"(信学論、Vol.J77-D-II、No.8,pp 1417-1428,1994)など、様々な音声対話システムの開発がなされている。
【0003】
また、さらに、こう言った音声入出力に加え、例えばカメラを使った視覚情報入力を利用したり、あるいは、タッチパネルや、ペンや、タブレットや、デ−タグローブや、フットスイッチや、対人センサや、ヘッドマウントディスプレイや、フォースディスプレイ(提力装置)など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。
【0004】
このマルチモーダルインタフェースは、人間同士の対話においても、例えば音声など一つのメディア(チャネル)のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行なっている("Intelligent Multimedia Interfaces",Maybury M.T,Eds.,The AAAI Press/The MIT Press,1993)ことから考えても、自然で使いやすいヒューマンインタフェースを実現するための一つの有力な方法として期待が高まっている。
【0005】
【発明が解決しようとする課題】
しかし、従来、それぞれのメディアからの入力の解析精度の低さや、それぞれの入出力メディアの性質が明らかとなっていないため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていない。
【0006】
とくに、画像・音声など、それぞれの認識装置からの入力を統合する場合は、あらかじめ定められた認識手段から送られる情報の確からしさをあらかじめ想定し、あらかじめ定められた入力順序を想定して行なわれていた。そのため、ある周囲環境の変化によりある認識装置の精度が低下した場合にはそれに対応した入力解釈のための処理が行なわれずに解釈部が停滞したり、容易に誤作動してしまうという問題があった。また利用者特有の入力順序には対応できず、利用者がシステム側で受け付け可能な入力手段を習得する必要があり、利便度を著しく低下させている。
【0007】
そこで本発明の目的は、このようなマルチモーダル入出力装置のインタフェース装置及びその方法に対して、利用者のより自由な入力を許し、また周囲環境の変化に対して適応可能な入出力方法を提供することにある。
【0008】
【課題を解決するための手段】
本発明は、利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース装置であって、前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度を算出する視線類似度算出手段と、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度を算出する音声類似度算出手段と、前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力手段と、前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率を求める選択意図確率算出手段と、前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報を生成するフィードバック生成手段と、を具備したことを特徴とするマルチモーダル入出力装置のインターフェース装置である。
【0020】
【発明の実施の形態】
以下、本発明の実施例を図面を用いて説明する。
【0021】
第1の実施例
図1は本発明の第1の実施例のシステムの全体ブロック図であるである。
【0022】
このシステムのうちの一つの操作対象ごとに、画像入力に基づく視線検出エンジン101 、音声入力に基づく音声認識エンジン102 、マウス・キーボード等からなる操作入力部103 、前記101 〜103 よりの入力を統合し、利用者の意図を検出する入力統合部104 、意図検出結果に基づき利用者に出力を行なうフィードバック生成部105 を持つ。
【0023】
本実施例では、ウインドウシステムを対象とし、操作対象は図2に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象(アイコン)に対する選択意図とする。
【0024】
(入力部)
入力部101 〜103 は、入力統合部104 に対し、操作対象と入力情報を類似度に換算した情報を送るものとする。
【0025】
例えば、視線検出エンジン101 は、ユーザの入力顔画像を解析し、視線が自らのアイコンに向けられている度合を0 〜1 の類似度で表し、入力統合部104 に送る。
【0026】
音声認識エンジンについても同様に、自らのことに言及している度合(アイコンの名前・形状・色・位置関係など)を入力音声と保持している語彙セットとの類似性に基づき0 〜1 の類似度で表し、入力統合部104 に送る。操作情報については、操作が行なわれた(選択された)場合に類似度1、それ以外の場合には類似度0の情報を入力統合部104 に送る。
【0027】
視線検出エンジン101 については、例えば利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、例えば、特開平08-059071 「注視箇所推定装置とその方法」で用いられている方法などによって、利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理し利用者の視線方向の検出することなどによって、各操作対象に対して視線が向けられている度合を類似度情報として表すことにしている。
【0028】
音声認識エンジンは、利用者の音声情報を入力としと認識対象語彙との適合度を出力する手段を有し、このために例えば"TOSBURG-II"(信学論、Vol.J77-D-II、No.8,pp1417-1428,1994)に述べられている方式を用いることができる。この適合度情報より、選択対象に対する類似度は例えば以下の式で求めることができる。
【0029】
【数1】
選択対象アイコンごとに名前・形状・色彩・位置を示す語彙を定義しておくことにより、上記の式1を用いて類似度情報を求めることができる。
【0030】
(操作入力)
操作入力103 については、キーボード・マウスにより与えられたイベントの送り先の対象をそのままその操作対象に対する類似度1の入力として入力統合部104 に送るものとする。
【0031】
(入力統合部)
次に入力統合部104 の動作について説明する。
【0032】
入力統合部104 では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【0033】
これは例えば以下の手法を用いることができる。
【0034】
図3に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【0035】
図3では、利用者の選択意図と、視線検出エンジンから得られる類似度情報(視線類似度)と音声認識エンジンから得られる類似度情報(音声類似度)との因果関係を頻度情報として保持している。
【0036】
本実施例では、類似度はそれぞれ0〜1の間を当分割している(必ずしもこのようにする必要はない)。
【0037】
図3では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。
【0038】
選択意図のある場合をPositive,選択意図のない場合をNegativeと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【0039】
図4では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに3者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【0040】
入力統合部104 では一定の時刻毎に各入力情報を受けとり、図3の表を利用して選択意図のある場合の確率を求める。そのために以下の式1を用いる。ここでG、Sはそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。
【0041】
【数2】
上式2でG,Sの値は入力情報より得られるので、図3の表を用いて選択確率を求めることができる。例えば、視線類似度0.85,音声類似度0. 73の場合には、
【数3】
となり、選択意図の確率が1であると求められる。
【0042】
次に因果関係情報の学習方式について説明する。
【0043】
ユーザからキーボード・マウス等を用いて類似度1の操作情報が与えられた場合、情報統合部はその操作対象に対して選択意図の確率を直ちに1にするとともに、その際の視線類似度、音声類似度の値をもとに、図3,4の類似度分布情報を更新する。
【0044】
すなわち図3,4中の対応する項目に1を加える。
【0045】
例えば、マウスにより選択が行なわれた際の視線類似度、音声類似度をそれぞれ0.65,0.87 とすると、図3では視線類似度=0.6 〜0.7 、選択=Positiveの欄に、図4では視線類似度=0.6 〜0.7 、選択=Positive、音声類似度=0.8 〜0.9 の欄にそれぞれ1を加えることになる。
【0046】
またその際に類似度1が与えられなかった操作対象に対しては、選択意図の確率を直ちに0にするとともに、その際の視線類似度、音声類似度の値をもとに、図3,4の類似度分布情報を同様に更新する。ただし対応する視線類似度、音声類似度について、選択=Negativeの欄に1を加えることになる。
【0047】
このように、利用者・環境に適応して、選択意図が確からしくなるように動的に学習を行なっていくことが可能になる。
【0048】
(フィードバック生成部)
次にフィードバック生成部105 の動作について説明する。
【0049】
フィードバック生成部105 では、入力統合部104 から送られた選択意図確率に基づいて選択対象アイコンが利用者に対して行なうフィードバックを決定する。これは例えば図5に示す効用テーブルを参照することにより行なうことができる。
【0050】
本実施例では、2段階のフィードバックを想定している(これ以上のフィードバックを想定しても構わない)が、図5にはフィードバック動作の効用値が記述されている。
【0051】
このテーブルに基づいて各フィードバック動作の期待効用値を計算する。期待効用値の計算式は、入力統合部104 より得られた選択意志確率をxとすると、以下の式2で表すことができる。
【0052】
【数4】
上式3に基づき、最も期待効用値の大きいフィードバック動作nを求め、実行する。例えば選択意図確率が0.6 と得られた場合には、それぞれのフィードバック動作の期待効用値は図5のテーブルと式3を用いて次のように計算される。
【0053】
期待効用値(選択フィードバック)=0.6×1.0+(1-0.6) ×0=0.6
期待効用値(選択候補フィードバック)=0.6×0.7+(1-0.6) ×0.6=0.66
期待効用値(フィードバックなし)=0.6×0+(1-0.6) ×1.0=0.4
この場合には期待効用が最大となる選択候補フィードバックが決定される。
【0054】
図5に示すフィードバック動作は、選択フィードバック、選択候補フィードバックが用意されている。実際のフィードバック動作は、ウインドウシステム上におけるアイコンの輝度・大きさ・形状変化または音声出力により実現する。
【0055】
さらにフィードバック生成部105 は、フィードバック生成に先立ち視線検出エンジン・音声認識エンジンに予測情報を送ることができる。この場合の予測情報とは、選択対象が選択フィードバックの際には視線が選択対象の方を向くというものであったり、また選択対象に対する言及(名前・場所など)が行なわれるというものである。各入力部は予測情報に基づき、各認識処理中での処理内容や処理用データセットを切替える等の処理を行なう。
【0056】
このように構成されたシステムでは、視線・音声などの各モダリティ間の因果関係を学習し、それに基づいて意図検出が行なわれる。また各入力部も利用者の予測行動に応じた処理を行なう。これにより利用者・環境に動的に適応するインタフェースを簡単に構成することができる。
【0057】
(変更例1)
なお、本実施例では、アイコンの選択を利用者の意図として設定しているが、実際はこれに限るものではなく、すべての対象の選択、コマンドの実行についてもそれぞれに対し図1のようなシステム構成をとることにより同様に実現することが可能である。
【0058】
(変更例2)
また、図3,4において類似度の分布情報にテーブルを用いているが、実際にはこれに限るものではなく、関数式のように連続した値を持つ分布を想定してもよい。
【0059】
(変更例3)
また、本実施例では、因果関係情報の学習を図3,4に示す類似度分布情報の更新により実現しているが、実際にはこれに限るものではなく、学習結果保存用に別のテーブル等の手段を用いてもよい。
【0060】
その場合には従来の類似度分布情報と学習結果により得られた類似度分布情報に基づいて選択意図が計算される。
【0061】
これは例えば両者の類似度分布情報で同一の項目を加算した結果に基づき選択意図確率を計算することにより実現することができる。このような学習結果を、利用者ごとに格納してもよい。
【0062】
(変更例4)
また、本実施例では入力情報として視線検出、音声認識、操作入力(マウス・キーボードによる)を用いているが、必ずしもこれに限るものではない。
【0063】
それ以外の入力情報についても図3,4に示すような入力情報間の因果関係に関するテーブルを構成することにより処理を行なうことが可能である。
【0064】
(変更例5)
また、本実施例においては、フィードバック方法決定のために期待効用最大の原則を用いているが、必ずしもこれに限るものではない。マクシミン基準などの他の決定規則を用いても良い。
【0065】
(変更例6)
また、本実施例では、入力統合部104 は現在の時刻の入力情報を用いることとしているが、必ずしもこれに限るものではない。
【0066】
過去の時刻における入力情報を用いてもよい。その場合は過去の時刻における視線類似度・音声類似度を保持しておき、図3,4のテーブルにおいて保持していた過去の時刻の類似度を採用すればよい。また現在の時刻と過去の時刻の類似度間の因果関係を図3,4のテーブル状に表現することもできる。
【0067】
第2の実施例
次に第2の実施例につき説明する。
【0068】
図6は、第2の実施例のシステムの全体ブロック図である。
【0069】
このシステムのうちの第1の操作対象は、画像入力に基づく視線検出エンジン5001、音声入力に基づく音声認識エンジン5002、マウス・キーボード等からなる操作入力部5003、前記5001〜5003よりの入力を統合し、利用者の意図を検出する入力統合部5004、意図検出結果に基づき利用者に出力を行なうフィードバック生成部5005を持つ。
【0070】
第2以降の操作対象は、それぞれ5101〜5105、5201〜5205のように同様のユニットを持つ。各操作対象の入力統合部・フィードバック生成部どうしは結合されており、情報の交換を行なうことが可能である。
【0071】
本実施例では、ウインドウシステムを対象とし、操作対象は図2に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象に対する選択意図とする。
【0072】
(入力部)
入力部5001〜5003,5101〜5103等は、入力統合部5004、5104等に対し、操作対象と入力情報を類似度に換算した情報を第1の実施例と同様な形態で送るものとする。
【0073】
(入力統合部)
入力統合部5004、5104等では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【0074】
これは例えば以下の手法を用いることができる。
【0075】
図7〜10に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【0076】
図7〜10では利用者の選択意図と、視線検出エンジンから得られる類似度情報(視線類似度)と音声認識エンジンから得られる類似度情報(音声類似度)と各アイコン間の平均距離の因果関係を頻度情報として保持している。本実施例では、類似度はそれぞれ0 〜1 の間を当分割している(必ずしもこのようにする必要はない)。
【0077】
図7、図9では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。選択意図のある場合をPositive,ない場合をNegativeと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【0078】
図8、図11では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに3者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【0079】
また、図7、図8、図9、図10ともにアイコン間平均距離がその原因となるというモデルのもと、それぞれ各5、10ピクセルの場合について分布情報が与えられている。
【0080】
入力統合部では一定の時刻毎に各入力情報を受けとる。また選択対象間の情報交換により選択対象アイコン間の平均距離を求め、5、10のうちの近い値を採用する。
【0081】
これらの値より、図3,4の表を利用して選択意図のある場合の確率を求める。そのために以下の式4を用いる。ここでG,Sは式1と同様にそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。Dはアイコン間距離を示す。
【0082】
【数5】
次に因果関係情報の学習方式について説明する。
【0083】
ユーザからキーボード・マウス等を用いて類似度1の操作情報が与えられた場合、情報統合部はその操作対象に対して選択意図の確率を直ちに1にするとともに、その際の視線類似度、音声類似度、アイコン間距離の値をもとに、図7〜10の類似度分布情報を更新する。すなわち図7〜10中の対応する項目に1を加える。例えばマウスにより選択が行なわれた際の視線類似度、音声類似度をそれぞれ0.65,0.87 、アイコン間距離を5ピクセルとすると、
図7では視線類似度=0.6 〜0.7 、選択=Positiveの欄に、図8では視線類似度=0.6 〜0.7 、選択=Positive、音声類似度=0.8 〜0.9 の欄にそれぞれ1を加えることになる。
【0084】
またその際に類似度1が与えられなかった操作対象に対しては、選択意図の確率を直ちに0にするとともに、その際の視線類似度、音声類似度、アイコン間距離の値をもとに、図3,4の類似度分布情報を同様に更新する。ただし対応する視線類似度、音声類似度について、選択=Negativeの欄に1を加えることになる。
【0085】
このように、利用者・環境に適応して、選択意図が確からしくなるように動的に学習を行なっていくことが可能になる。
【0086】
(フィードバック生成部)
次にフィードバック生成部5005、5105等の動作について説明する。
【0087】
フィードバック生成部では、入力統合部5004、5104等から送られた選択意図確率に基づいて、選択対象アイコンが利用者に対して行なうフィードバックを決定する。これは第1の実施例と同様に、例えば図5に示す効用テーブルと式2を用いて行なうことができる。
【0088】
またフィードバック生成部では、求めた各選択対象の期待効用値に基づいて、アイコン間距離の値を変更し、利用者へのフィードバックとすることができる。本実施例では、アイコン間距離5、10ピクセルの場合のそれぞれを仮定して各選択対象の期待効用値を求める。全選択対象について、5、10のときの期待効用値の平均をとり、それが大きい方が期待効用値の大きい選択対象間関係であると認定する。その結果に基づきアイコン間距離を変更する。この際各選択対象のフィードバック生成部間同士で情報交換を行ない、アイコン間距離を指定値に近い値に調整する。これには例えば制約充足プログラミング技術(人工知能学会Vol.10,No.3 を参照)を用いることができる。
【0089】
さらにフィードバック生成部は、フィードバック生成に先立ち視線検出エンジン・音声認識エンジンに予測情報を送ることができる。この場合の予測情報とは、選択対象が選択フィードバックの際には視線が選択対象の方を向くというものであったり、また選択対象に対する言及(名前・場所など)が行なわれるというものである。各入力部は予測情報に基づき、各認識処理中での処理内容や処理用データセットを切替える等の処理を行なう。
【0090】
(変更例1)
なお、本実施例では、アイコン間距離を選択対象間の関係として設定しているが、これは一例であり、例えば選択対象間の形状的関係、色彩的関係、言語的関係を設定してもよい。また選択対象間の関係も今回の実施例のような離散値に限るものではなく、関数式のように連続値をとるように設定しても良い。
【0091】
(変更例2)
また、フィードバック生成部は最適な選択対象間関係を求めるために全選択対象の期待効用値の平均をとっているが、必ずしもこれに限るものではなく、部分的な選択対象間の期待効用値を利用しても良い。
【0092】
(変更例3)
また、本実施例では、因果関係情報の学習を図7〜10に示す類似度分布情報の更新により実現しているが、実際にはこれに限るものではなく、学習結果保存用に別のテーブル等の手段を用いてもよい。
【0093】
その場合には従来の類似度分布情報と学習結果により得られた類似度分布情報に基づいて選択意図が計算される。
【0094】
これは例えば両者の類似度分布情報間で同一の項目を加算した結果に基づき選択意図確率を計算することにより実現することができる。このような学習結果を、利用者ごと、または利用環境ごとに格納してもよい。このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行なうことが可能である。
【0095】
第3の実施例
次に第3の実施例について説明する。
【0096】
全体ブロック図は第2の実施例と同様に図6を用いる。図6は、システムの全体ブロック図である。
【0097】
このシステムのうちの第1の操作対象は、画像入力に基づく視線検出エンジン5001、音声入力に基づく音声認識エンジン5002、マウス・キーボード等からなる操作入力部5003、前記5001〜5003よりの入力を統合し、利用者の意図を検出する入力統合部5004、意図検出結果に基づき利用者に出力を行なうフィードバック生成部5005を持つ。
【0098】
第2以降の操作対象は、それぞれ5101〜5105、5201〜5205のように同様のユニットを持つ。
【0099】
各操作対象の入力統合部・フィードバック生成部どうしは結合されており、情報の交換を行なうことが可能である。本実施例では、ウインドウシステムを対象とし、操作対象は図2に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象に対する選択意図とする。
【0100】
(入力部)
入力部5001〜5003,5101〜5103等は、入力統合部5004、5104等に対し、操作対象と入力情報を類似度に換算した情報を第1の実施例と同様な形態で送るものとする。
【0101】
(入力統合部)
入力統合部5004、5104等では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【0102】
これは例えば以下の手法を用いることができる。第1の実施例と同様に、図3,4に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【0103】
図3,4では利用者の選択意図と、視線検出エンジンから得られる類似度情報(視線類似度)と音声認識エンジンから得られる類似度情報(音声類似度)との因果関係を頻度情報として保持している。本実施例では、類似度はそれぞれ0 〜1 の間を当分割している(必ずしもこのようにする必要はない)。
【0104】
図3では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。選択意図のある場合をPositive,ない場合をNegativeと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【0105】
図4では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに3者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【0106】
入力統合部では一定の時刻毎に各入力情報を受けとる。また選択対象間の情報交換により選択対象アイコン間の平均距離を求め、5、10のうちの近い値を採用する。これらの値より、図3,4の表を利用して選択意図のある場合の確率を求める。そのために以下の式4を用いる。ここでG,Sは式1と同様にそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。Dはアイコン間距離を示す。
【0107】
【数6】
ここでδは0 以上1 未満の実数、P-1は1単位時間前に得られた選択意図確率とする。式5を用いることにより、選択意図の確率が過去の選択意図を反映したものになり、よりスムーズな意図情報の検出が可能になる。
【0108】
また、入力統合部5004、5104等においては、第1の実施例と同様の学習を行う。その際に、得られて意図情報の結果を学習開始、終了のトリガとする。これはたとえば、式5により得られた選択意図確率に対して閾値Xを設け、P(選択意図=Positive|G,S,D)≧Xの場合に学習を開始し、P(選択意図=Positive|G,S,D)<Xの場合に選択を終了するようにする。これにより、マウス・キーボードなどを用いた明示的な学習開始・終了の信号が得られない場合でも学習を行うことができ、より因果関係情報が得やすくなるという利点がある。
【0109】
(フィードバック生成部)
またフィードバック生成部5005、5105等において、第1の実施例と同様の方法でフィードバックを決定するが、これを前記の入力統合部における学習中にも並行して行うようにする。
【0110】
これは入力統合部より、学習中においても式5に基づいて選択意図確率を求め、フィードバック生成部に順次送り、フィードバック生成部は選択意図確率を受取りしだいフィードバック決定・実現を行うことにより実現可能である。これにより学習時においても利用者は自らの意図が正しく学習結果に反映されているかどうかを確認することができ、その後の操作をより円滑に進めることができるという利点がある。
【0111】
(変更例1)
ここで入力統合部5004、5104等において、特定の入力部より得られる情報のうち少なくとも一つを意図検出結果の確認または取り消しに用いてもよい。
【0112】
これは、例えば以下の手順により実現することが可能である。
【0113】
1) 図11のようなテーブルを準備しておき、入力情報到着時に確認類似度条件または取消類似度条件に合致するかどうかを調べる。
【0114】
ここで「マウス右」は操作対象上にマウスカーソルが置かれた状態でマウスの右ボタンがクリックされたならば類似度を1にセットされる入力情報、「マウス左」は操作対象上にマウスカーソルが置かれた状態でマウスの左ボタンがクリックされたならば類似度を1にセットされる入力情報とする。
【0115】
また確認音声は「はい」「OK」等の特定の音声入力との認識結果のうち最大の類似度を入力情報とするものとし、取消音声は「いいえ」「No」等の特定の音声入力との認識結果のうち最大の類似度を入力情報とするものとする。
【0116】
2) 上記の条件にマッチした場合にはフィードバック生成部に確認または取消信号を送出する。
【0117】
3) フィードバック生成部では、確認または取消信号に応じた処理を行う。
【0118】
これは例えば確認信号を受け取った場合は最大の期待効用を持つ操作対象を利用者の意図と判定し選択フィードバックを行い、取消信号を受け取った場合にはすべての操作対象に対して期待効用値を0 にセットし、フィードバックを行わないようにすることによる実現可能である。
【0119】
上記の拡張により、ユーザが自らの意図を直接的にシステム側の意図検出に反映させることが可能となり、より利便性の高いインタフェースを構成することが可能となる。
【0120】
(変更例2)
なお、本実施例では入力統合部における学習を現在時刻の類似度情報を用いて行っているが、必ずしもこれに限るものではなく、過去の類似度情報を使用しても良い。それは入力統合部にバッファを設け、過去の類似度情報を蓄積しておくことにより可能である。
【0121】
ここで例えば入力部より得たマウス・キーボードの操作情報または入力統合部より得られる意図情報に基づいて過去の時点における選択意図のあるなしを判断し、蓄積した過去の類似度情報を図3,4に示す因果関係テーブルに反映させることのより可能である。
【0122】
このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行なうことが可能である。
【0123】
【発明の効果】
本発明によれば、利用者のマルチモーダル入力に対して、利用者からの入力情報間の因果関係情報の動的学習により、利用者の自由な入力を許し、また環境が変化した場合にも利用者意図の検出が確からしくなるようにシステムが適応することができる。また利用対象間の関係を変化させることにより、より意図の検出を確からしくするような環境を構成することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】第1、第2及び第3の実施例で用いるタスクの一例である。
【図3】第1及び第3の実施例で用いる入力情報統合用テーブルの一例である。
【図4】第1及び第3の実施例で用いる入力情報統合用テーブルの一例である。
【図5】第1、第2及び第3の実施例で用いるフィードバック生成用テーブルの一例である。
【図6】第2及び第3の実施例のブロック図である。
【図7】第2の実施例で用いる入力情報統合用テーブルの一例である。
【図8】第2の実施例で用いる入力情報統合用テーブルの一例である。
【図9】第2の実施例で用いる入力情報統合用テーブルの一例である。
【図10】第2の実施例で用いる入力情報統合用テーブルの一例である。
【図11】第3の実施例で用いる意図確認・取消処理に用いるテーブルの一例である。
【符号の説明】
101 視線検出エンジン
102 音声認識エンジン
103 操作入力部
104 入力統合部
105 フィードバック生成部
Claims (4)
- 利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース装置であって、
前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度を算出する視線類似度算出手段と、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度を算出する音声類似度算出手段と、
前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力手段と、
前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率を求める選択意図確率算出手段と、
前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報を生成するフィードバック生成手段と、
を具備した
ことを特徴とするマルチモーダル入出力装置のインターフェース装置。 - 前記フィードバック動作情報は、前記アイコンの輝度の変化、前記アイコンの大きさの変化、前記アイコンの形状の変化、または、音声出力に関する情報である
ことを特徴とする請求項1記載のマルチモーダル入出力装置のインタフェース装置。 - 前記操作入力手段からの前記操作情報と前記音声類似度算出手段からの音声情報に基づいて前記フィードバック動作の確認、または、取り消しを行う確認取り消し手段を有する
ことを特徴とする請求項1記載のマルチモーダル入出力装置のインタフェース装置。 - 利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース方法であって、
前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度をコンピュータによって算出する視線類似度算出ステップと、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度をコンピュータによって算出する音声類似度算出ステップと、
前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力ステップと、
前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率をコンピュータによって求める選択意図確率算出ステップと、
前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報をコンピュータによって生成するフィードバック生成ステップと、
を具備した
ことを特徴とするマルチモーダル入出力装置のインターフェース方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16344998A JP3822357B2 (ja) | 1998-02-09 | 1998-06-11 | マルチモーダル入出力装置のインタフェース装置及びその方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10-27393 | 1998-02-09 | ||
JP2739398 | 1998-02-09 | ||
JP16344998A JP3822357B2 (ja) | 1998-02-09 | 1998-06-11 | マルチモーダル入出力装置のインタフェース装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11288342A JPH11288342A (ja) | 1999-10-19 |
JP3822357B2 true JP3822357B2 (ja) | 2006-09-20 |
Family
ID=26365307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16344998A Expired - Fee Related JP3822357B2 (ja) | 1998-02-09 | 1998-06-11 | マルチモーダル入出力装置のインタフェース装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3822357B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3979209B2 (ja) | 2002-07-23 | 2007-09-19 | オムロン株式会社 | データ入力方法およびデータ入力装置 |
JP3728304B2 (ja) | 2003-07-10 | 2005-12-21 | キヤノン株式会社 | 情報処理方法、情報処理装置、プログラム、及び記憶媒体 |
JP4416643B2 (ja) | 2004-06-29 | 2010-02-17 | キヤノン株式会社 | マルチモーダル入力方法 |
JP2006309448A (ja) * | 2005-04-27 | 2006-11-09 | Sony Corp | ユーザインターフェース装置及び方法 |
KR100948600B1 (ko) * | 2006-12-04 | 2010-03-24 | 한국전자통신연구원 | 제스처/음성 융합 인식 시스템 및 방법 |
US9507418B2 (en) * | 2010-01-21 | 2016-11-29 | Tobii Ab | Eye tracker based contextual action |
IL303608A (en) | 2016-03-31 | 2023-08-01 | Magic Leap Inc | Interactions with 3D virtual objects using pose controllers and multiple degrees of freedom |
EP4060462A1 (en) | 2016-05-20 | 2022-09-21 | Magic Leap, Inc. | Contextual awareness of user interface menus |
JP6932917B2 (ja) * | 2016-11-30 | 2021-09-08 | セイコーエプソン株式会社 | 頭部装着型表示装置、プログラム、及び頭部装着型表示装置の制御方法 |
JP7149289B2 (ja) * | 2017-04-19 | 2022-10-06 | マジック リープ, インコーポレイテッド | ウェアラブルシステムのためのマルチモード実行およびテキスト編集 |
JP6546244B2 (ja) * | 2017-10-20 | 2019-07-17 | ヤフー株式会社 | 決定装置、決定方法、及び決定プログラム |
JP6983118B2 (ja) | 2018-06-26 | 2021-12-17 | 株式会社日立製作所 | 対話システムの制御方法、対話システム及びプログラム |
CN113396376A (zh) * | 2019-01-28 | 2021-09-14 | 索尼集团公司 | 信息处理设备、信息处理方法和程序 |
CN110941733B (zh) * | 2019-10-15 | 2020-11-03 | 中国人民解放军海军大连舰艇学院 | 一体化界面信息多重融合展示方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01288926A (ja) * | 1988-05-16 | 1989-11-21 | Shimadzu Corp | エキスパートシステムにおける知識の学習機構 |
JP3268529B2 (ja) * | 1990-03-14 | 2002-03-25 | 株式会社日立製作所 | 知識データベース処理システムおよびエキスパートシステム |
JPH0719202B2 (ja) * | 1991-06-18 | 1995-03-06 | 財団法人パーソナル情報環境協会 | 情報処理装置における外見選択切替方式 |
JPH04372012A (ja) * | 1991-06-20 | 1992-12-25 | Fuji Xerox Co Ltd | 入力装置 |
JPH06161697A (ja) * | 1992-11-26 | 1994-06-10 | Nippon Telegr & Teleph Corp <Ntt> | ウィンドウ表示状態調整方式 |
JPH07110754A (ja) * | 1993-10-13 | 1995-04-25 | Olympus Optical Co Ltd | アイコン表示装置 |
JP3375449B2 (ja) * | 1995-02-27 | 2003-02-10 | シャープ株式会社 | 統合認識対話装置 |
JPH09218770A (ja) * | 1996-02-14 | 1997-08-19 | Toshiba Corp | 対話処理装置および対話処理方法 |
JPH09251342A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | 注視箇所推定装置とその方法及びそれを使用した情報表示装置とその方法 |
JPH09251368A (ja) * | 1996-03-18 | 1997-09-22 | Hitachi Ltd | 知的エージェントの構築支援システム |
JPH09269889A (ja) * | 1996-04-02 | 1997-10-14 | Sharp Corp | 対話装置 |
-
1998
- 1998-06-11 JP JP16344998A patent/JP3822357B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11288342A (ja) | 1999-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8954330B2 (en) | Context-aware interaction system using a semantic model | |
US10599393B2 (en) | Multimodal input system | |
JP3822357B2 (ja) | マルチモーダル入出力装置のインタフェース装置及びその方法 | |
Oviatt | Multimodal interfaces | |
CN112789577B (zh) | 增强现实***中的神经肌肉文本输入、书写和绘图 | |
JP5911796B2 (ja) | マルチモーダル情報を用いるユーザ意図推論装置及び方法 | |
US11789522B2 (en) | Generating and/or adapting automated assistant content according to a distance between user(s) and an automated assistant interface | |
US6948136B2 (en) | System and method for automatic control device personalization | |
US6513011B1 (en) | Multi modal interactive system, method, and medium | |
US10226866B2 (en) | Robot control system | |
Stern et al. | Optimal consensus intuitive hand gesture vocabulary design | |
LaViola | Whole-hand and speech input in virtual environments | |
JP3689285B2 (ja) | 入力装置および入力装置用ヘッドマウントディスプレイ | |
JPH04372012A (ja) | 入力装置 | |
Corradini et al. | A map-based system using speech and 3D gestures for pervasive computing | |
JP2001100878A (ja) | マルチモーダル入出力装置 | |
KR101652705B1 (ko) | 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법 | |
Wang et al. | A gesture-based method for natural interaction in smart spaces | |
WO2019093123A1 (ja) | 情報処理装置および電子機器 | |
US20210326657A1 (en) | Image recognition method and device thereof and ai model training method and device thereof | |
JP2013210875A (ja) | 情報入力装置及び情報入力方法、並びにコンピューター・プログラム | |
Shree et al. | A Virtual Assistor for Impaired People by using Gestures and Voice | |
Harling | Gesture input using neural networks | |
EP4254140A1 (en) | System and method for generating text data from limb motions | |
JP2006088251A (ja) | ユーザ行動誘発システム及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060622 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090630 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130630 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |