JP3822357B2

JP3822357B2 - マルチモーダル入出力装置のインタフェース装置及びその方法

Info

Publication number: JP3822357B2
Application number: JP16344998A
Authority: JP
Inventors: 克己田中; 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-02-09
Filing date: 1998-06-11
Publication date: 2006-09-20
Anticipated expiration: 2018-06-11
Also published as: JPH11288342A

Description

【０００１】
【発明の属する技術分野】
本発明は入力された視覚情報、音声情報、操作情報のうち少なくとも一つの入力あるいは出力を通じて利用者の意図を推定し、それに基づき利用者にフィードバックを返すマルチモーダル入出力インタフェースに関する。
【０００２】
【従来の技術】
近年、パーソナルコンピュータを含む計算機システムにおいて、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などマルチメディア情報を入出力することが可能になって来ている。こういった状況に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を対話する音声対話システムへの要求が高まっており、自由発話による音声入力によって利用可能な対話システムである"TOSBURG-II"（信学論、Vol.J77-D-II、No.8,pp 1417-1428,1994)など、様々な音声対話システムの開発がなされている。
【０００３】
また、さらに、こう言った音声入出力に加え、例えばカメラを使った視覚情報入力を利用したり、あるいは、タッチパネルや、ペンや、タブレットや、デ−タグローブや、フットスイッチや、対人センサや、ヘッドマウントディスプレイや、フォースディスプレイ（提力装置）など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。
【０００４】
このマルチモーダルインタフェースは、人間同士の対話においても、例えば音声など一つのメディア（チャネル）のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行なっている("Intelligent Multimedia Interfaces",Maybury M.T,Eds.,The AAAI Press/The MIT Press,1993)ことから考えても、自然で使いやすいヒューマンインタフェースを実現するための一つの有力な方法として期待が高まっている。
【０００５】
【発明が解決しようとする課題】
しかし、従来、それぞれのメディアからの入力の解析精度の低さや、それぞれの入出力メディアの性質が明らかとなっていないため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていない。
【０００６】
とくに、画像・音声など、それぞれの認識装置からの入力を統合する場合は、あらかじめ定められた認識手段から送られる情報の確からしさをあらかじめ想定し、あらかじめ定められた入力順序を想定して行なわれていた。そのため、ある周囲環境の変化によりある認識装置の精度が低下した場合にはそれに対応した入力解釈のための処理が行なわれずに解釈部が停滞したり、容易に誤作動してしまうという問題があった。また利用者特有の入力順序には対応できず、利用者がシステム側で受け付け可能な入力手段を習得する必要があり、利便度を著しく低下させている。
【０００７】
そこで本発明の目的は、このようなマルチモーダル入出力装置のインタフェース装置及びその方法に対して、利用者のより自由な入力を許し、また周囲環境の変化に対して適応可能な入出力方法を提供することにある。
【０００８】
【課題を解決するための手段】
本発明は、利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース装置であって、前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度を算出する視線類似度算出手段と、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度を算出する音声類似度算出手段と、前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力手段と、前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率を求める選択意図確率算出手段と、前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報を生成するフィードバック生成手段と、を具備したことを特徴とするマルチモーダル入出力装置のインターフェース装置である。
【００２０】
【発明の実施の形態】
以下、本発明の実施例を図面を用いて説明する。
【００２１】
第１の実施例
図１は本発明の第１の実施例のシステムの全体ブロック図であるである。
【００２２】
このシステムのうちの一つの操作対象ごとに、画像入力に基づく視線検出エンジン101 、音声入力に基づく音声認識エンジン102 、マウス・キーボード等からなる操作入力部103 、前記101 〜103 よりの入力を統合し、利用者の意図を検出する入力統合部104 、意図検出結果に基づき利用者に出力を行なうフィードバック生成部105 を持つ。
【００２３】
本実施例では、ウインドウシステムを対象とし、操作対象は図２に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象（アイコン）に対する選択意図とする。
【００２４】
（入力部）
入力部101 〜103 は、入力統合部104 に対し、操作対象と入力情報を類似度に換算した情報を送るものとする。
【００２５】
例えば、視線検出エンジン101 は、ユーザの入力顔画像を解析し、視線が自らのアイコンに向けられている度合を0 〜1 の類似度で表し、入力統合部104 に送る。
【００２６】
音声認識エンジンについても同様に、自らのことに言及している度合（アイコンの名前・形状・色・位置関係など）を入力音声と保持している語彙セットとの類似性に基づき0 〜1 の類似度で表し、入力統合部104 に送る。操作情報については、操作が行なわれた（選択された）場合に類似度１、それ以外の場合には類似度０の情報を入力統合部104 に送る。
【００２７】
視線検出エンジン101 については、例えば利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、例えば、特開平08-059071 「注視箇所推定装置とその方法」で用いられている方法などによって、利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理し利用者の視線方向の検出することなどによって、各操作対象に対して視線が向けられている度合を類似度情報として表すことにしている。
【００２８】
音声認識エンジンは、利用者の音声情報を入力としと認識対象語彙との適合度を出力する手段を有し、このために例えば"TOSBURG-II"（信学論、Vol.J77-D-II、No.8,pp1417-1428,1994）に述べられている方式を用いることができる。この適合度情報より、選択対象に対する類似度は例えば以下の式で求めることができる。
【００２９】
【数１】

選択対象アイコンごとに名前・形状・色彩・位置を示す語彙を定義しておくことにより、上記の式１を用いて類似度情報を求めることができる。
【００３０】
（操作入力）
操作入力103 については、キーボード・マウスにより与えられたイベントの送り先の対象をそのままその操作対象に対する類似度１の入力として入力統合部104 に送るものとする。
【００３１】
（入力統合部）
次に入力統合部104 の動作について説明する。
【００３２】
入力統合部104 では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【００３３】
これは例えば以下の手法を用いることができる。
【００３４】
図３に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【００３５】
図３では、利用者の選択意図と、視線検出エンジンから得られる類似度情報（視線類似度）と音声認識エンジンから得られる類似度情報（音声類似度）との因果関係を頻度情報として保持している。
【００３６】
本実施例では、類似度はそれぞれ０〜１の間を当分割している（必ずしもこのようにする必要はない）。
【００３７】
図３では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。
【００３８】
選択意図のある場合をＰｏｓｉｔｉｖｅ，選択意図のない場合をＮｅｇａｔｉｖｅと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【００３９】
図４では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに３者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【００４０】
入力統合部104 では一定の時刻毎に各入力情報を受けとり、図３の表を利用して選択意図のある場合の確率を求める。そのために以下の式１を用いる。ここでＧ、Ｓはそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。
【００４１】
【数２】

上式２でＧ，Ｓの値は入力情報より得られるので、図３の表を用いて選択確率を求めることができる。例えば、視線類似度０．８５，音声類似度０. ７３の場合には、
【数３】

となり、選択意図の確率が１であると求められる。
【００４２】
次に因果関係情報の学習方式について説明する。
【００４３】
ユーザからキーボード・マウス等を用いて類似度１の操作情報が与えられた場合、情報統合部はその操作対象に対して選択意図の確率を直ちに１にするとともに、その際の視線類似度、音声類似度の値をもとに、図３，４の類似度分布情報を更新する。
【００４４】
すなわち図３，４中の対応する項目に１を加える。
【００４５】
例えば、マウスにより選択が行なわれた際の視線類似度、音声類似度をそれぞれ0.65,0.87 とすると、図３では視線類似度＝0.6 〜0.7 、選択＝Ｐｏｓｉｔｉｖｅの欄に、図４では視線類似度＝0.6 〜0.7 、選択＝Ｐｏｓｉｔｉｖｅ、音声類似度＝0.8 〜0.9 の欄にそれぞれ１を加えることになる。
【００４６】
またその際に類似度１が与えられなかった操作対象に対しては、選択意図の確率を直ちに０にするとともに、その際の視線類似度、音声類似度の値をもとに、図３，４の類似度分布情報を同様に更新する。ただし対応する視線類似度、音声類似度について、選択＝Ｎｅｇａｔｉｖｅの欄に１を加えることになる。
【００４７】
このように、利用者・環境に適応して、選択意図が確からしくなるように動的に学習を行なっていくことが可能になる。
【００４８】
（フィードバック生成部）
次にフィードバック生成部105 の動作について説明する。
【００４９】
フィードバック生成部105 では、入力統合部104 から送られた選択意図確率に基づいて選択対象アイコンが利用者に対して行なうフィードバックを決定する。これは例えば図５に示す効用テーブルを参照することにより行なうことができる。
【００５０】
本実施例では、２段階のフィードバックを想定している（これ以上のフィードバックを想定しても構わない）が、図５にはフィードバック動作の効用値が記述されている。
【００５１】
このテーブルに基づいて各フィードバック動作の期待効用値を計算する。期待効用値の計算式は、入力統合部104 より得られた選択意志確率をｘとすると、以下の式２で表すことができる。
【００５２】
【数４】

上式３に基づき、最も期待効用値の大きいフィードバック動作ｎを求め、実行する。例えば選択意図確率が0.6 と得られた場合には、それぞれのフィードバック動作の期待効用値は図５のテーブルと式３を用いて次のように計算される。
【００５３】
期待効用値（選択フィードバック）=0.6×1.0+(1-0.6) ×0=0.6
期待効用値（選択候補フィードバック）=0.6×0.7+(1-0.6) ×0.6=0.66
期待効用値（フィードバックなし）=0.6×0+(1-0.6) ×1.0=0.4
この場合には期待効用が最大となる選択候補フィードバックが決定される。
【００５４】
図５に示すフィードバック動作は、選択フィードバック、選択候補フィードバックが用意されている。実際のフィードバック動作は、ウインドウシステム上におけるアイコンの輝度・大きさ・形状変化または音声出力により実現する。
【００５５】
さらにフィードバック生成部105 は、フィードバック生成に先立ち視線検出エンジン・音声認識エンジンに予測情報を送ることができる。この場合の予測情報とは、選択対象が選択フィードバックの際には視線が選択対象の方を向くというものであったり、また選択対象に対する言及（名前・場所など）が行なわれるというものである。各入力部は予測情報に基づき、各認識処理中での処理内容や処理用データセットを切替える等の処理を行なう。
【００５６】
このように構成されたシステムでは、視線・音声などの各モダリティ間の因果関係を学習し、それに基づいて意図検出が行なわれる。また各入力部も利用者の予測行動に応じた処理を行なう。これにより利用者・環境に動的に適応するインタフェースを簡単に構成することができる。
【００５７】
（変更例１）
なお、本実施例では、アイコンの選択を利用者の意図として設定しているが、実際はこれに限るものではなく、すべての対象の選択、コマンドの実行についてもそれぞれに対し図１のようなシステム構成をとることにより同様に実現することが可能である。
【００５８】
（変更例２）
また、図３，４において類似度の分布情報にテーブルを用いているが、実際にはこれに限るものではなく、関数式のように連続した値を持つ分布を想定してもよい。
【００５９】
（変更例３）
また、本実施例では、因果関係情報の学習を図３，４に示す類似度分布情報の更新により実現しているが、実際にはこれに限るものではなく、学習結果保存用に別のテーブル等の手段を用いてもよい。
【００６０】
その場合には従来の類似度分布情報と学習結果により得られた類似度分布情報に基づいて選択意図が計算される。
【００６１】
これは例えば両者の類似度分布情報で同一の項目を加算した結果に基づき選択意図確率を計算することにより実現することができる。このような学習結果を、利用者ごとに格納してもよい。
【００６２】
（変更例４）
また、本実施例では入力情報として視線検出、音声認識、操作入力（マウス・キーボードによる）を用いているが、必ずしもこれに限るものではない。
【００６３】
それ以外の入力情報についても図３，４に示すような入力情報間の因果関係に関するテーブルを構成することにより処理を行なうことが可能である。
【００６４】
（変更例５）
また、本実施例においては、フィードバック方法決定のために期待効用最大の原則を用いているが、必ずしもこれに限るものではない。マクシミン基準などの他の決定規則を用いても良い。
【００６５】
（変更例６）
また、本実施例では、入力統合部104 は現在の時刻の入力情報を用いることとしているが、必ずしもこれに限るものではない。
【００６６】
過去の時刻における入力情報を用いてもよい。その場合は過去の時刻における視線類似度・音声類似度を保持しておき、図３，４のテーブルにおいて保持していた過去の時刻の類似度を採用すればよい。また現在の時刻と過去の時刻の類似度間の因果関係を図３，４のテーブル状に表現することもできる。
【００６７】
第２の実施例
次に第２の実施例につき説明する。
【００６８】
図６は、第２の実施例のシステムの全体ブロック図である。
【００６９】
このシステムのうちの第１の操作対象は、画像入力に基づく視線検出エンジン5001、音声入力に基づく音声認識エンジン5002、マウス・キーボード等からなる操作入力部5003、前記5001〜5003よりの入力を統合し、利用者の意図を検出する入力統合部5004、意図検出結果に基づき利用者に出力を行なうフィードバック生成部5005を持つ。
【００７０】
第２以降の操作対象は、それぞれ5101〜5105、5201〜5205のように同様のユニットを持つ。各操作対象の入力統合部・フィードバック生成部どうしは結合されており、情報の交換を行なうことが可能である。
【００７１】
本実施例では、ウインドウシステムを対象とし、操作対象は図２に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象に対する選択意図とする。
【００７２】
（入力部）
入力部5001〜5003，5101〜5103等は、入力統合部5004、5104等に対し、操作対象と入力情報を類似度に換算した情報を第１の実施例と同様な形態で送るものとする。
【００７３】
（入力統合部）
入力統合部5004、5104等では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【００７４】
これは例えば以下の手法を用いることができる。
【００７５】
図７〜１０に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【００７６】
図７〜１０では利用者の選択意図と、視線検出エンジンから得られる類似度情報（視線類似度）と音声認識エンジンから得られる類似度情報（音声類似度）と各アイコン間の平均距離の因果関係を頻度情報として保持している。本実施例では、類似度はそれぞれ0 〜1 の間を当分割している（必ずしもこのようにする必要はない）。
【００７７】
図７、図９では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。選択意図のある場合をＰｏｓｉｔｉｖｅ，ない場合をＮｅｇａｔｉｖｅと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【００７８】
図８、図１１では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに３者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【００７９】
また、図７、図８、図９、図１０ともにアイコン間平均距離がその原因となるというモデルのもと、それぞれ各５、１０ピクセルの場合について分布情報が与えられている。
【００８０】
入力統合部では一定の時刻毎に各入力情報を受けとる。また選択対象間の情報交換により選択対象アイコン間の平均距離を求め、５、１０のうちの近い値を採用する。
【００８１】
これらの値より、図３，４の表を利用して選択意図のある場合の確率を求める。そのために以下の式４を用いる。ここでＧ，Ｓは式１と同様にそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。Ｄはアイコン間距離を示す。
【００８２】
【数５】

次に因果関係情報の学習方式について説明する。
【００８３】
ユーザからキーボード・マウス等を用いて類似度１の操作情報が与えられた場合、情報統合部はその操作対象に対して選択意図の確率を直ちに１にするとともに、その際の視線類似度、音声類似度、アイコン間距離の値をもとに、図７〜１０の類似度分布情報を更新する。すなわち図７〜１０中の対応する項目に１を加える。例えばマウスにより選択が行なわれた際の視線類似度、音声類似度をそれぞれ0.65,0.87 、アイコン間距離を５ピクセルとすると、
図７では視線類似度＝0.6 〜0.7 、選択＝Ｐｏｓｉｔｉｖｅの欄に、図８では視線類似度＝0.6 〜0.7 、選択＝Ｐｏｓｉｔｉｖｅ、音声類似度＝0.8 〜0.9 の欄にそれぞれ１を加えることになる。
【００８４】
またその際に類似度１が与えられなかった操作対象に対しては、選択意図の確率を直ちに０にするとともに、その際の視線類似度、音声類似度、アイコン間距離の値をもとに、図３，４の類似度分布情報を同様に更新する。ただし対応する視線類似度、音声類似度について、選択＝Ｎｅｇａｔｉｖｅの欄に１を加えることになる。
【００８５】
このように、利用者・環境に適応して、選択意図が確からしくなるように動的に学習を行なっていくことが可能になる。
【００８６】
（フィードバック生成部）
次にフィードバック生成部5005、5105等の動作について説明する。
【００８７】
フィードバック生成部では、入力統合部5004、5104等から送られた選択意図確率に基づいて、選択対象アイコンが利用者に対して行なうフィードバックを決定する。これは第１の実施例と同様に、例えば図５に示す効用テーブルと式２を用いて行なうことができる。
【００８８】
またフィードバック生成部では、求めた各選択対象の期待効用値に基づいて、アイコン間距離の値を変更し、利用者へのフィードバックとすることができる。本実施例では、アイコン間距離５、１０ピクセルの場合のそれぞれを仮定して各選択対象の期待効用値を求める。全選択対象について、５、１０のときの期待効用値の平均をとり、それが大きい方が期待効用値の大きい選択対象間関係であると認定する。その結果に基づきアイコン間距離を変更する。この際各選択対象のフィードバック生成部間同士で情報交換を行ない、アイコン間距離を指定値に近い値に調整する。これには例えば制約充足プログラミング技術（人工知能学会Vol.10,No.3 を参照）を用いることができる。
【００８９】
さらにフィードバック生成部は、フィードバック生成に先立ち視線検出エンジン・音声認識エンジンに予測情報を送ることができる。この場合の予測情報とは、選択対象が選択フィードバックの際には視線が選択対象の方を向くというものであったり、また選択対象に対する言及（名前・場所など）が行なわれるというものである。各入力部は予測情報に基づき、各認識処理中での処理内容や処理用データセットを切替える等の処理を行なう。
【００９０】
（変更例１）
なお、本実施例では、アイコン間距離を選択対象間の関係として設定しているが、これは一例であり、例えば選択対象間の形状的関係、色彩的関係、言語的関係を設定してもよい。また選択対象間の関係も今回の実施例のような離散値に限るものではなく、関数式のように連続値をとるように設定しても良い。
【００９１】
（変更例２）
また、フィードバック生成部は最適な選択対象間関係を求めるために全選択対象の期待効用値の平均をとっているが、必ずしもこれに限るものではなく、部分的な選択対象間の期待効用値を利用しても良い。
【００９２】
（変更例３）
また、本実施例では、因果関係情報の学習を図７〜１０に示す類似度分布情報の更新により実現しているが、実際にはこれに限るものではなく、学習結果保存用に別のテーブル等の手段を用いてもよい。
【００９３】
その場合には従来の類似度分布情報と学習結果により得られた類似度分布情報に基づいて選択意図が計算される。
【００９４】
これは例えば両者の類似度分布情報間で同一の項目を加算した結果に基づき選択意図確率を計算することにより実現することができる。このような学習結果を、利用者ごと、または利用環境ごとに格納してもよい。このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行なうことが可能である。
【００９５】
第３の実施例
次に第３の実施例について説明する。
【００９６】
全体ブロック図は第２の実施例と同様に図６を用いる。図６は、システムの全体ブロック図である。
【００９７】
このシステムのうちの第１の操作対象は、画像入力に基づく視線検出エンジン5001、音声入力に基づく音声認識エンジン5002、マウス・キーボード等からなる操作入力部5003、前記5001〜5003よりの入力を統合し、利用者の意図を検出する入力統合部5004、意図検出結果に基づき利用者に出力を行なうフィードバック生成部5005を持つ。
【００９８】
第２以降の操作対象は、それぞれ5101〜5105、5201〜5205のように同様のユニットを持つ。
【００９９】
各操作対象の入力統合部・フィードバック生成部どうしは結合されており、情報の交換を行なうことが可能である。本実施例では、ウインドウシステムを対象とし、操作対象は図２に示すアイコンの一つ一つとする。また本実施例でいう意図とは利用者の操作対象に対する選択意図とする。
【０１００】
（入力部）
入力部5001〜5003，5101〜5103等は、入力統合部5004、5104等に対し、操作対象と入力情報を類似度に換算した情報を第１の実施例と同様な形態で送るものとする。
【０１０１】
（入力統合部）
入力統合部5004、5104等では、各入力情報より、自らが選択されている確率を求める。また学習により、利用者や環境に適応してより確度の高い意図選択を行なう。
【０１０２】
これは例えば以下の手法を用いることができる。第１の実施例と同様に、図３，４に示すように、入力情報間の因果関係をテーブルを用いて表現する。
【０１０３】
図３，４では利用者の選択意図と、視線検出エンジンから得られる類似度情報（視線類似度）と音声認識エンジンから得られる類似度情報（音声類似度）との因果関係を頻度情報として保持している。本実施例では、類似度はそれぞれ0 〜1 の間を当分割している（必ずしもこのようにする必要はない）。
【０１０４】
図３では選択意図が視線類似度の原因として表されるというモデルのもとに両者の関係を表現している。選択意図のある場合をＰｏｓｉｔｉｖｅ，ない場合をＮｅｇａｔｉｖｅと呼び、それぞれの場合の視線類似度の分布を頻度情報として表現している。
【０１０５】
図４では視線類似度と選択意図が音声類似度の原因となるというモデルのもとに３者の関係を表現しており、選択意図、視線類似度が与えられた場合の音声類似度の分布情報である。
【０１０６】
入力統合部では一定の時刻毎に各入力情報を受けとる。また選択対象間の情報交換により選択対象アイコン間の平均距離を求め、５、１０のうちの近い値を採用する。これらの値より、図３，４の表を利用して選択意図のある場合の確率を求める。そのために以下の式４を用いる。ここでＧ，Ｓは式１と同様にそれぞれ入力情報より得られる視線類似度、音声類似度の値を示す。Ｄはアイコン間距離を示す。
【０１０７】
【数６】

ここでδは0 以上1 未満の実数、Ｐ_-1は１単位時間前に得られた選択意図確率とする。式５を用いることにより、選択意図の確率が過去の選択意図を反映したものになり、よりスムーズな意図情報の検出が可能になる。
【０１０８】
また、入力統合部5004、5104等においては、第１の実施例と同様の学習を行う。その際に、得られて意図情報の結果を学習開始、終了のトリガとする。これはたとえば、式５により得られた選択意図確率に対して閾値Ｘを設け、Ｐ（選択意図＝Ｐｏｓｉｔｉｖｅ｜Ｇ，Ｓ，Ｄ）≧Ｘの場合に学習を開始し、Ｐ（選択意図＝Ｐｏｓｉｔｉｖｅ｜Ｇ，Ｓ，Ｄ）＜Ｘの場合に選択を終了するようにする。これにより、マウス・キーボードなどを用いた明示的な学習開始・終了の信号が得られない場合でも学習を行うことができ、より因果関係情報が得やすくなるという利点がある。
【０１０９】
（フィードバック生成部）
またフィードバック生成部5005、5105等において、第１の実施例と同様の方法でフィードバックを決定するが、これを前記の入力統合部における学習中にも並行して行うようにする。
【０１１０】
これは入力統合部より、学習中においても式５に基づいて選択意図確率を求め、フィードバック生成部に順次送り、フィードバック生成部は選択意図確率を受取りしだいフィードバック決定・実現を行うことにより実現可能である。これにより学習時においても利用者は自らの意図が正しく学習結果に反映されているかどうかを確認することができ、その後の操作をより円滑に進めることができるという利点がある。
【０１１１】
（変更例１）
ここで入力統合部5004、5104等において、特定の入力部より得られる情報のうち少なくとも一つを意図検出結果の確認または取り消しに用いてもよい。
【０１１２】
これは、例えば以下の手順により実現することが可能である。
【０１１３】
１）図１１のようなテーブルを準備しておき、入力情報到着時に確認類似度条件または取消類似度条件に合致するかどうかを調べる。
【０１１４】
ここで「マウス右」は操作対象上にマウスカーソルが置かれた状態でマウスの右ボタンがクリックされたならば類似度を１にセットされる入力情報、「マウス左」は操作対象上にマウスカーソルが置かれた状態でマウスの左ボタンがクリックされたならば類似度を１にセットされる入力情報とする。
【０１１５】
また確認音声は「はい」「ＯＫ」等の特定の音声入力との認識結果のうち最大の類似度を入力情報とするものとし、取消音声は「いいえ」「Ｎｏ」等の特定の音声入力との認識結果のうち最大の類似度を入力情報とするものとする。
【０１１６】
２）上記の条件にマッチした場合にはフィードバック生成部に確認または取消信号を送出する。
【０１１７】
３）フィードバック生成部では、確認または取消信号に応じた処理を行う。
【０１１８】
これは例えば確認信号を受け取った場合は最大の期待効用を持つ操作対象を利用者の意図と判定し選択フィードバックを行い、取消信号を受け取った場合にはすべての操作対象に対して期待効用値を0 にセットし、フィードバックを行わないようにすることによる実現可能である。
【０１１９】
上記の拡張により、ユーザが自らの意図を直接的にシステム側の意図検出に反映させることが可能となり、より利便性の高いインタフェースを構成することが可能となる。
【０１２０】
（変更例２）
なお、本実施例では入力統合部における学習を現在時刻の類似度情報を用いて行っているが、必ずしもこれに限るものではなく、過去の類似度情報を使用しても良い。それは入力統合部にバッファを設け、過去の類似度情報を蓄積しておくことにより可能である。
【０１２１】
ここで例えば入力部より得たマウス・キーボードの操作情報または入力統合部より得られる意図情報に基づいて過去の時点における選択意図のあるなしを判断し、蓄積した過去の類似度情報を図３，４に示す因果関係テーブルに反映させることのより可能である。
【０１２２】
このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行なうことが可能である。
【０１２３】
【発明の効果】
本発明によれば、利用者のマルチモーダル入力に対して、利用者からの入力情報間の因果関係情報の動的学習により、利用者の自由な入力を許し、また環境が変化した場合にも利用者意図の検出が確からしくなるようにシステムが適応することができる。また利用対象間の関係を変化させることにより、より意図の検出を確からしくするような環境を構成することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施例のブロック図である。
【図２】第１、第２及び第３の実施例で用いるタスクの一例である。
【図３】第１及び第３の実施例で用いる入力情報統合用テーブルの一例である。
【図４】第１及び第３の実施例で用いる入力情報統合用テーブルの一例である。
【図５】第１、第２及び第３の実施例で用いるフィードバック生成用テーブルの一例である。
【図６】第２及び第３の実施例のブロック図である。
【図７】第２の実施例で用いる入力情報統合用テーブルの一例である。
【図８】第２の実施例で用いる入力情報統合用テーブルの一例である。
【図９】第２の実施例で用いる入力情報統合用テーブルの一例である。
【図１０】第２の実施例で用いる入力情報統合用テーブルの一例である。
【図１１】第３の実施例で用いる意図確認・取消処理に用いるテーブルの一例である。
【符号の説明】
１０１視線検出エンジン
１０２音声認識エンジン
１０３操作入力部
１０４入力統合部
１０５フィードバック生成部

Claims

利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース装置であって、
前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度を算出する視線類似度算出手段と、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度を算出する音声類似度算出手段と、
前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力手段と、
前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率を求める選択意図確率算出手段と、
前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報を生成するフィードバック生成手段と、
を具備した
ことを特徴とするマルチモーダル入出力装置のインターフェース装置。
前記フィードバック動作情報は、前記アイコンの輝度の変化、前記アイコンの大きさの変化、前記アイコンの形状の変化、または、音声出力に関する情報である
ことを特徴とする請求項１記載のマルチモーダル入出力装置のインタフェース装置。
前記操作入力手段からの前記操作情報と前記音声類似度算出手段からの音声情報に基づいて前記フィードバック動作の確認、または、取り消しを行う確認取り消し手段を有する
ことを特徴とする請求項１記載のマルチモーダル入出力装置のインタフェース装置。
利用者の操作対象となるアイコンに対して、前記利用者の選択意図をどのように認識したかを知らせるためのフィードバック動作を行うマルチモーダル入出力装置のインタフェース方法であって、
前記利用者の視線方向を検出し、当該視線方向から前記アイコンに向けられている度合いにより視線類似度をコンピュータによって算出する視線類似度算出ステップと、
利用者から入力された音声情報と予め前記アイコン毎に定義した認識対象語彙との適合度から音声類似度をコンピュータによって算出する音声類似度算出ステップと、
前記アイコンに対する操作に関して前記利用者の選択意図がある場合、または、選択意図がない場合を示す操作情報が入力される操作入力ステップと、
前記利用者の選択意図がある場合、または、選択意図がない場合における前記視線類似度及び前記音声類似度との頻度を保持した頻度情報に基づいて、前記入力された操作情報、前記算出された視線類似度、及び、前記算出された音声類似度から、前記利用者が前記アイコンを選択した確率である選択意図確率をコンピュータによって求める選択意図確率算出ステップと、
前記入力された操作情報と前記フィードバック動作との効用値を示した効用テーブルと、前記算出した選択意図確率から、前記フィードバック動作の期待効用値を算出し、当該期待効用値に基づいて、選択フィードバック、選択候補フィードバック、フィードバックなしのいずれか一つのフィードバック動作情報をコンピュータによって生成するフィードバック生成ステップと、
を具備した
ことを特徴とするマルチモーダル入出力装置のインターフェース方法。