WO2015118578A1

WO2015118578A1 - マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法

Info

Publication number: WO2015118578A1
Application number: PCT/JP2014/000686
Authority: WO
Inventors: 勇小川
Original assignee: 三菱電機株式会社
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2015-08-13

Abstract

　様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力検知部１１１と、入力検知部の意味情報が取得されたことの検知の結果およびに入力操作が開始されたことの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視処理部１１２と、を備える。

Description

マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法

　この発明は、様式が異なる複数の入力方法で入力された情報を取得するマルチモーダル入力装置に関する。

　使用者に対してより利便性の高い直感的なインタフェースを提供するため、異なる複数の様式の入力方法を用いた入力インタフェースのマルチモーダル化が行われている。例えば特許文献１には、２種類以上の異なる入力操作で入力されたそれぞれの入力情報から、行われたそれぞれの入力操作の意味する意味情報を取得して、これらの２種類以上の意味情報を組み合わせて対象装置に対するコマンドを生成する情報処理装置が開示されている。この情報処理装置では、２個以上の入力操作の入力情報に基づいて対象装置のコマンドを生成するために、コマンドの生成に必要な意味情報が揃っているか否かの判定を規定の時間の経過を待って行っており、必要な情報が揃っていない場合にはコマンドを生成せずに処理を終了する。

特開２０１２－１０３８４０号公報（図９）

　入力方法の異なる複数のデバイスによって入力が行われる場合、使用者の入力操作の開始から必要な入力情報の入力が完了するまでに要する時間はそのデバイスの入力方法に依存し、また入力操作の意味情報が入力情報から取得されるまでに要する時間はその入力情報に依存するため、使用者による入力操作の開始からその入力操作の意味情報が取得されるまでに要する時間はデバイス毎に異なる。したがって、特許文献１に記載された情報処理装置において必要な意味情報が揃ったか否かを判定するまでに待つ待機時間は、意味情報が取得されるまでの時間が最も長いデバイスを考慮して定める必要があった。

　また、これらの複数の入力操作を行うタイミングは使用者によって様々であるため、使用者の入力操作が無駄にならないように上記の待機時間はさらに余裕を持って定める必要があった。

　以上のように様式の異なる複数の入力方法で入力される複数の入力情報を用いる従来のマルチモーダル入力装置では、それぞれの入力方法による入力操作の意味情報が揃ったことを判定するまでの待機時間が長く、このため必要な入力操作の未実施を判断するまでに要する時間が長いという問題があった。この結果、例えば使用者が必要な入力操作をし忘れた場合に未実施の入力操作があることを使用者に警告するといった処理をするとき、警告を与えるまでに要する時間が長くなってしまうなど、使用者の利便性を損なっていた。

　この発明は、上述のような課題を解決するためになされたものであり、必要な入力操作が行われなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮したマルチモーダル入力装置を得ることを目的とする。

　なお、様式の異なる複数の入力方法で入力が行われる場合、それぞれの入力操作で入力された入力情報から取得される入力操作の意味を示す意味情報は、特定の入力方法に依存しない抽象化した情報として定義されることがある。以降ではこのような抽象化された意味情報を抽象化情報と称する。

　この発明のマルチモーダル入力装置は、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力検知部と、入力検知部の検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視処理部と、を備えるようにした。
　この発明の端末装置は、複数の入力方法の入力操作の未実施の監視を行うサーバ装置が監視する入力操作を受け付ける端末装置であって、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行うサーバ装置に対して、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報を出力するようにした。
　この発明のマルチモーダル入力装置のタイムアウト制御方法は、様式が異なる複数の入力方法で入力が行われるマルチモーダル入力装置のタイムアウト制御方法であって、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知する意味情報取得検知ステップと、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力操作検知ステップと、意味情報が取得されたことの検知および入力操作が開始されたことの検知に基づいて、意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視ステップと、を備えるようにした。

　上述のようにこの発明のマルチモーダル入力装置によれば、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことの検知と、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことの検知に基づいて、意味情報の取得を検知していない入力方法の入力操作の未実施の監視を行うようにしたので、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮することができる。
　この発明の端末装置によれば、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報をサーバ装置に出力するようにしたので、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行うサーバ装置が、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知することができるようになる。これにより、使用者が必要な入力操作をしなかった場合に、サーバ装置が入力操作の未実施を判断するまでに要する時間を短縮することができる。
　この発明のマルチモーダル入力装置のタイムアウト制御方法によれば、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことの検知と、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことの検知に基づいて、意味情報の取得を検知していない入力方法の入力操作の未実施の監視を行うようにしたので、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮することができる。

この発明の実施の形態１に関わるマルチモーダル入力装置の機能構成を示すブロック図である。この発明の実施の形態１のマルチモーダル入力装置のタイムアウト制御部の詳細構成を示すブロック図である。この発明の実施の形態１のマルチモーダル入力装置の音声入力の認識結果と抽象化情報の対応の一例を示すテーブルである。この発明の実施の形態１のマルチモーダル入力装置のジェスチャ入力の認識結果と抽象化情報の対応の一例を示すテーブルである。この発明の実施の形態１のマルチモーダル入力装置の動作処理部の動作フローを示すフローチャートである。この発明の実施の形態１のマルチモーダル入力装置のタイムアウト制御部の動作フローを示すフローチャートである。この発明の実施の形態1のマルチモーダル制御装置の入力検知部の動作フローを示すフローチャートである。この発明の実施の形態1のマルチモーダル制御装置の監視処理部の動作フローを示すフローチャートである。この発明の実施の形態２に関わるマルチモーダル入力装置の機能構成を示すブロック図である。この発明の実施の形態２のマルチモーダル入力装置の機能構成の変形例を示すブロック図である。この発明の実施の形態２のマルチモーダル入力装置の機能構成の変形例を示すブロック図である。

　以下、この発明の実施の形態を、図面を参照して説明する。なお、参照する図面において同一もしくは相当する部分には同一の符号を付している。

実施の形態１．
　図１はこの発明の実施の形態１に係るマルチモーダル入力装置の機能構成を示すブロック図である。なお、以降のこの実施の形態の説明ではマルチモーダル入力装置への入力方法として音声入力とジェスチャ入力を例に説明をするが、この発明は入力方法をこの２種類の方法に限定するものではない。例えば、視線検知、表情検知、手書き入力、キーボード入力などの種々の他の入力方法であってもよい。また、これらの入力方法の３種類以上を用いるものであってもよい。

　図１において、この実施の形態のマルチモーダル入力装置は音声取得部１０１、音声情報抽象化部１０２、ジェスチャ取得部１０３、ジェスチャ情報抽象化部１０４、動作処理部１０５、タイムアウト制御部１０６、ガイダンス部１０７を備えている。

　音声取得部１０１はマイク等の収音機器（図示せず）が取得した使用者の発話音声をデータ信号(音声データと称す)に変換する。また、音声取得部１０１は取得した音声データに基づいて使用者の発話開始と完了を検出する。音声取得部１０１は取得した発話開始から完了までの音声データを音声入力の入力情報として音声情報抽象化部１０２に出力する。

　音声情報抽象化部１０２は入力された音声データを音声認識して音声認識結果を取得した後、音声認識結果に対応する抽象化情報を取得して出力する音声入力に対応した入力情報認識部である。また、音声情報抽象化部１０２は音声入力の入力操作の開始を示す発話開始情報（音声入力の入力開始情報）を動作処理部１０５に対して出力する。

　ジェスチャ取得部１０３はカメラ等の撮像機器（図示せず）が取得した使用者のジェスチャをデータ信号（ジェスチャデータ）に変換する。また、ジェスチャ取得部１０３はジェスチャデータに基づいて使用者のジェスチャの開始と完了を検出する。ジェスチャ取得部１０３はジェスチャの開始から完了までのジェスチャデータをジェスチャ入力の入力情報としてジェスチャ情報抽象化部１０４に出力する。

　ジェスチャ情報抽象化部１０４はジェスチャ取得部１０３から受信したジェスチャデータを認識してジェスチャ認識結果を取得した後、ジェスチャ認識結果に対応する抽象化情報を取得して動作処理部１０５に出力するジェスチャ入力に対応した入力情報認識部である。

　動作処理部１０５は音声情報抽象化部１０２およびジェスチャ情報抽象化部１０４から受信したそれぞれの抽象化情報を用いて、抽象化情報に対応する動作を判断し、その動作を実施する。また、タイムアウト制御部１０６は動作処理部１０５からの情報に基づいて使用者による入力操作の完了および入力操作が未実施の場合のタイムアウトを判断する。なお、動作処理部１０５とタイムアウト制御部１０６の間で交わされる情報の詳細は後述する。

　ガイダンス部１０７は動作処理部１０５が出力する信号に基づいてガイダンス音声を発生するための音響信号を生成して出力する。ここで音響信号とは、スピーカ等の音源装置から音を発生させるためのデジタルもしくはアナログの信号とする。なお、ここではガイダンス音声としたが、画面にガイダンスを表示するための画像信号など別の出力方法を用いるようにすることも可能である。

　図２はタイムアウト制御部１０５の詳細構成を示すブロック図である。タイムアウト制御部１０５は動作処理部から受信した情報を処理する入力検知部１１１と、入力検知部１１１の処理結果に基づいて監視処理を行う監視処理部１１２を備えている。

　なお、上述の音声取得部１０１、音声情報抽象化部１０２、ジェスチャ取得部１０３、ジェスチャ情報抽象化部１０４、動作処理部１０５、タイムアウト制御部１０６、ガイダンス部１０７、また、タイムアウト制御部１０６が備える入力検知部１１１および監視処理部１１２は、汎用プロセッサもしくはＤＳＰ（Digital Signal Processor）などのプロセッサと、ＲＡＭ（Random Access Memory）などの揮発性メモリ、Ｆｌａｓｈメモリ等の不揮発性のメモリとその他の周辺回路で構成されたハードウェアおよびプロセッサ上で実行されるプログラムにより実現することが可能である。また、ＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェアで実現することも可能である。

　次にこの実施の形態のマルチモーダル入力装置の動作について説明する。まず、音声入力取得部１０１および音声情報抽象化部１０２の動作、ジェスチャ取得部１０３およびジェスチャ情報抽象化部１０４の動作について説明する。なお、音声入力取得部１０１および音声情報抽象化部１０２の動作とジェスチャ取得部１０３およびジェスチャ情報抽象化部１０４の処理は、それぞれの入力方法に対応した機器への入力操作、すなわち使用者の発話音声やジェスチャの入力に応じて独立に行われるものである。

　音声入力取得部１０１はマイク等の収音機器で取得された音信号を受信して使用者が発話した音声を音声データに変換し、発話の開始および完了の検出を行う。そして発話開始から発話完了までの音声データを音声情報抽象化部１０２へ音声入力の入力情報として出力する。なお、ここで音声データは収音機器が取得した音信号をデジタル化したＰＣＭ（Pulse Code Modulation）データとする。また発話の開始と完了の検出は、音声データから音声の音響的な特徴量を抽出してこの特徴量に基づいて判断したり、あるいは音声データから音信号の振幅を抽出してその大小に基づいて判断したりするなど種々の方法が考えられる。

　次に、音声情報抽象化部１０２は音声入力取得部１０１から音声データを受信し始めると、使用者の発話開始を判断して動作処理部１０５に対して音声入力の入力操作の開始を示す発話開始情報（入力開始情報）を出力する。そして、音声情報抽象化部１０２は入力された音声データに対する音声認識処理を実施して、その結果得られた認識結果に対応する音声入力の抽象化情報を取得する。音声情報抽象化部１０２は取得した抽象化情報を動作処理部１０５に対して出力する。

　音声情報抽象化部１０２は音声認識結果（音声情報）に基づく抽象化情報の取得を、例えば図３に示すようなテーブルを予め保持しておくことで行うことができる。図３は音声認識結果がテキストである場合の例である。例えば使用者が「でんげんすいっちきどー」と発話して音声情報抽象化部１０２が音声認識結果として「電源スイッチ起動」を取得した場合、音声情報抽象化部１０２は図３に示したテーブルを検索して抽象化情報「control:switch」を取得する。

　一方、ジェスチャ取得部１０３は撮像機器から取得した映像信号等の画像情報をジェスチャデータに変換し、ジェスチャの開始と完了の検出を行う。そして、ジェスチャ開始から完了までのジェスチャデータをジェスチャ情報抽象化部１０４へジェスチャ入力の入力情報として出力する。なお、ここでジェスチャデータはデジタル化された画像信号のデータとし、例えばＪＰＥＧ（Joint Photographic Experts Group）、Ｍｏｔｉｏｎ　ＪＰＥＧあるいはＭＰＥＧ（Moving Picture Experts Group）等の圧縮処理を施したデータであってもよい。なお、ジェスチャの開始および完了の判断は例えば画像内に定めた対象物の動きを背景との関係により検出することで行うことができる。

　次に、ジェスチャ情報抽象化部１０４は入力されたジェスチャデータのジェスチャ認識を行い、その結果得られたジェスチャ認識結果（ジェスチャ情報）に対応する抽象化情報を取得した後、動作処理部１０５に対して抽象化情報を出力する。ここでジェスチャ認識結果とは予め定められた特定のジェスチャパターンであり、例えば「指差し動作」、「手を振る動作」などであるものとする。ジェスチャデータを画像解析することによりこれらのパターンと一致するかどうかを判定する。

　ジェスチャ情報抽象化部１０４は例えば図４に示すテーブルを予め保持しておくことにより、ジェスチャ認識結果から抽象化情報を取得することができる。例えば、使用者が操作対象の機器の電源スイッチを指差すジェスチャを行って、このジェスチャのジェスチャ認識結果として「指差し動作」を取得した場合、ジェスチャ情報抽象化部１０４は図４に示したテーブルを検索して抽象化情報「control:switch」を取得する。

　なお、この実施の形態は音声による入力操作がジェスチャによる入力操作よりも長い時間を必要とする場合について記載しており、ジェスチャ情報抽象化部１０４は使用者のジェスチャ入力の開始を示す入力開始情報を動作処理部１０５に出力していないが、ジェスチャによる入力操作の方が長い時間を必要とする場合にはジェスチャ入力の開始を動作処理部１０５に通知するようにすればよい。また、音声情報抽象化部１０２とジェスチャ情報抽象化部１０４の両方が入力操作の開始を通知する入力開始情報を出力するようにしてもよい。

　次に動作処理部１０５の動作を説明する。図５は動作処理部１０５の動作フローを示すフローチャートである。なお、図５に示したフローチャートはこの実施の形態の動作処理部１０５の動作フローの一例であり、同等の処理結果が得られる限りにおいて、図５とは異なる手順で処理を行うようにしてもよい。

　動作処理部１０５は動作を開始すると、音声情報抽象化部１０２およびジェスチャ情報抽象化部１０４およびタイムアウト制御部１０６からの情報の入力を待ち受けし、情報の入力を受けると、入力された情報の種別に応じて以下に示すＳＴ１０２、ＳＴ１０５、ＳＴ１０７の処理を行う（ＳＴ１０１）。

　動作処理部１０５は音声情報抽象化部１０２からの発話開始情報、もしくは音声情報抽象化部１０２またはジェスチャ情報抽象化部１０４からのそれぞれの抽象化情報を受信する（ＳＴ１０２）。ＳＴ１０２の次に、動作処理部１０５は受信した情報の受信通知である発話開始情報受信通知（音声の入力開始情報の受信通知）、音声入力またはジェスチャ入力の抽象化情報受信通知をタイムアウト制御部１０６に出力する（ＳＴ１０３）。なお、タイムアウト制御部１０６は発話開始情報自体および抽象化情報自体を必要としないが、この例の動作処理部１０５は、受信した発話開始情報自体を発話開始情報受信通知として、また受信した抽象化情報自体を抽象化情報受信通知としてタイムアウト制御部１０６に出力するようにしている。

　ＳＴ１０３の次に、動作処理部１０５は受信した情報が抽象化情報である場合には受信した抽象化情報を保存する（ＳＴ１０４）。ＳＴ１０４の後、動作処理部１０５は再び音声情報抽象化部１０２、ジェスチャ情報抽象化部１０４およびタイムアウト制御部１０６からの情報入力を待ち受けする。

　動作処理部１０５はタイムアウト制御部１０６から入力完了通知を受信する（ＳＴ１０５）。入力完了通知の詳細は後述する。タイムアウト制御部１０６から入力完了通知を受信すると、動作処理部１０５は保存している音声情報抽象化部１０２およびジェスチャ情報抽象化部１０４から受信したそれぞれの抽象化情報の内容に応じて実施する動作を判断して実行する（ＳＴ１０６）。ＳＴ１０６の後、動作処理部１０５は再び音声情報抽象化部１０２、ジェスチャ情報抽象化部１０４およびタイムアウト制御部１０６からの情報入力を待ち受けする。

　動作処理部１０５が行う抽象化情報の内容に応じた処理は、マルチモーダル入力装置が適用されるシステムにおいて適宜定義されるものである。一例を示すと、例えば上述の例のように音声情報抽象化部１０２およびジェスチャ情報抽象化部１０４から入力された抽象化情報がどちらも「control:switch」であった場合に、動作処理部１０５は操作対象の機器の電源スイッチの操作が可能であるかを判断する。そして、可能と判断した場合に動作処理部１０５はガイダンス部１０７に対してガイダンス音声「電源スイッチを操作してください」を出力するよう指示を送る。この指示を受信したガイダンス部１０７は「電源スイッチを操作してください」というガイダンス音声の音響信号を生成して出力する。このガイダンス音声がスピーカより出力されることにより、使用者は電源スイッチの操作が可能であることを認識する。

　動作処理部１０５はタイムアウト制御部１０６から第１もしくは第２のタイムアウト検出通知を受信する（ＳＴ１０７）。タイムアウト検出通知の詳細は後述する。動作処理部１０５はタイムアウト検出通知を受信すると、そのタイムアウト検出通知が第１のタイムアウト検出通知であるか判断する（ＳＴ１０８）。

　受信したタイムアウト検出通知が第１のタイムアウト検出通知であった場合、動作処理部１０５は音声入力の抽象化情報を取得済みあるかどうかを判断する（ＳＴ１０９）。音声入力の抽象化情報を取得済みである場合、動作処理部１０５はガイダンス部１０７にジェスチャ入力を要求するガイダンスを出力するよう指示を送る(ＳＴ１１０）。この指示を受けたガイダンス部１０７は「ジェスチャを入力してください」という、ガイダンス音声の音響信号を生成して出力する。

　一方、ＳＴ１０９の処理で音声入力の抽象化情報を取得済みでないと判断した場合には、動作処理部１０５はガイダンス部１０７に音声入力を要求するガイダンスを出力するよう指示を送る（ＳＴ１１１）。この指示を受けたガイダンス部１０７は「音声を入力してください」というガイダンス音声の音響信号を生成して出力する。

　また、ＳＴ１０８の処理において受信したタイムアウト検出通知が第１のタイムアウト検出通知ではないと判断した場合には、動作処理部１０５はガイダンス部１０７に入力操作の受付を中断するガイダンスを出力するよう指示を送る（ステップＳＴ１１２）。この指示を受けたガイダンス部１０７は「入力の受付を中断します」というガイダンス音声の音響信号を生成して出力する。

　次にこの実施の形態のマルチモーダル入力装置のタイムアウト制御部１０６の動作を説明する。タイムアウト制御部１０６は動作処理部１０５から受信する各入力方法の抽象化情報と、使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法の入力開始情報（すなわちこの実施の形態における発話開始情報）に基づいて処理を行う。なお、前述のようにタイムアウト制御部１０６は入力開始情報自体または抽象化情報自体を必要としないので、例えば動作処理部１０５で入力開始情報および抽象化情報のそれぞれの受信通知を生成して使用するなど、入力操作が開始されていることおよび抽象化情報が取得されたことを検知可能な別の情報の入力を受けて動作するように構成することも可能である。

　図６はこの実施の形態のタイムアウト制御部１０６の動作フローを示すフローチャートである。タイムアウト制御部１０６は処理を開始すると図６のフローチャートに示すＳＴ２００の受信通知処理とＳＴ３００の監視処理を行う。ここで、受信通知処理は入力検知部１１１が、監視処理は監視処理部１１２が行う処理である。以下に受信通知処理と監視処理の詳細を説明する。

　まず、図７を参照して入力検知部１１１が行う受信通知処理を説明する。最初に入力検知部１１１は、抽象化情報が取得されるまでに必要な時間が短い入力方法であるジェスチャ入力の抽象化情報を動作制御部１０５から受信しているか判断する（ＳＴ２０１）。入力検知部１１１はジェスチャ入力の抽象化情報を受信している場合、ジェスチャ入力の抽象化情報を受信したことを記憶する（ＳＴ２０２）。次に入力検知部１１１はもう一つの入力方法の抽象化情報である音声入力の抽象化情報を受信済みであるか確認して、２種類の入力方法の抽象化情報が揃っているかどうか判断する（ＳＴ２０３）。

　音声入力の抽象化情報を受信済みである場合、入力検知部１１１はカウント中のタイマ（タイマＡ、タイマＢのいずれかもしくは両方）のカウントを停止する制御を行い、音声入力とジェスチャ入力の両方の抽象化情報が揃っているので、動作処理部１０５に入力完了通知を出力する（ＳＴ２０４）。ＳＴ２０４の処理を実施して、入力検知部１１１は受信通知処理を終了する。

　ここで、タイマＡは使用者の音声入力とジェスチャ入力のいずれかの入力操作の未実施を監視するためのタイマであり、規定の待機時間を経過してタイマが満了した時には監視処理部１１２が動作処理部１０５に第１のタイムアウト検出通知を出力する。また、タイマＢはいずれかの抽象化情報を受信した後、別の入力方法の入力操作がなされないまま規定の第２の待機時間が経過した場合に、それまでに行われた入力操作をキャンセルするための第２のタイムアウト検出通知を監視処理部１１２が動作処理部１０５に出力するためのタイマである。

　なお、後述するとおりタイマに関わる実際の処理は監視処理部１１２が行う。上述の入力検知部１１１が行うタイマのカウントを停止する制御では、入力検知部１１１がタイマのカウントの停止を指示する制御情報を出力し、監視処理部１１２がこの制御情報を受け付けてタイマのカウントを停止する処理を行う。これ以降に記載する入力検知部１１１が行うタイマのカウントを停止する制御とタイマのカウントを開始する制御についても同様に、入力検知部１１１が出力したそれぞれの制御に対応する制御情報を監視処理部１１２が受け付けて処理を行う。

　ＳＴ２０３の処理で音声入力の抽象化情報を受信済みでなかった場合、入力検知部１１１はタイマＡ、タイマＢのカウントを開始する制御を行う（ＳＴ２０５）。次に、入力検知部１１１は抽象化情報が取得されるまでに必要な時間が長い音声入力の入力操作が開始されていることを示す発話開始情報を動作処理部１０５から受信済みであるか判断する（ＳＴ２０６）。発話開始情報を受信済みである場合、音声入力の入力操作が開始されていることから入力検知部１１１はタイマＡのカウントを停止する制御を行う（ＳＴ２０７）。ＳＴ２０７の処理を行って入力検知部１１１は受信通知処理を終了する。また、ＳＴ２０６の処理で発話開始情報を動作処理部１０５から受信していなかった場合には入力検知部１１１は受信通知処理を終了する。

　ＳＴ２０１の処理で動作制御部１０５からジェスチャ入力の抽象化情報を受信していない場合、入力検知部１１１は音声入力の抽象化情報を受信しているか判断する（ＳＴ２０８）。音声入力の抽象化情報を受信している場合、入力検知部１１１は音声入力の抽象化情報の受信を記憶する（ＳＴ２０９）。次に、入力検知部１１１はジェスチャ入力の抽象化情報を受信済みであるか判断する（ＳＴ２１０）。そして、ジェスチャ入力の抽象化情報を受信済みでない場合には、タイマＡ、タイマＢのカウントを開始する制御を行う（ＳＴ２１１）。ＳＴ２１１の処理の後、入力検知部１１１は受信通知処理を終了する。また、ＳＴ２１０の処理でジェスチャ入力の抽象化情報を受信済みであった場合には上述のＳＴ２０４の処理に遷移する。

　ＳＴ２０８の処理で音声入力の抽象化情報を受信していなかった場合には、入力検知部１１１は発話開始情報を動作制御部１０５から受信しているか判断する（ＳＴ２１２）。そして、発話開始情報を受信している場合には入力検知部１１１は発話開始情報の受信を記憶する（ＳＴ２１３）。次に、入力検知部１１１はジェスチャ入力の抽象化情報を受信済みであるか判断する（ＳＴ２１４）。ジェスチャ入力の抽象化情報を受信済みであった場合は、ジェスチャ入力の抽象化情報を受信したときに開始（ＳＴ２０５）したタイマＡのカウントを継続する必要がないので入力検知部１１１はタイマＡのカウントを停止する制御を行う（ＳＴ２１５）。そして入力検知部１１１は受信通知処理を終了する。

　また、ＳＴ２１２の処理において発話開始情報を受信していないと判断した場合およびＳＴ２１４の処理でジェスチャ入力の抽象化情報を受信していないと判断した場合は、入力検知部１１１は受信通知処理を終了する。

　次に図８を参照して監視処理部１１２が行うＳＴ３００の監視処理を説明する。まず、監視処理部１１２は入力検知部１１１が出力したタイマのカウントの停止または開始を指示する制御情報の有無を判定する（ＳＴ３０１）。入力検知部１１１からのタイマの制御情報がある場合、監視処理部１１２はこれらの制御情報を受け付けてタイマＡ、タイマＢのカウントの停止または開始の処理を行う（ＳＴ３０２）。ここで、タイマＡ、タイマＢは規定のカウント満了値に到達するまで、一定時間を経過する毎に１を加算するカウントを続けるタイマとする。また、カウント満了値はタイマＡよりもタイマＢの方が大きい値となるようにするものとする。

　ＳＴ３０１の処理で入力検知部１１１が行ったタイマの制御がなかった場合と、ＳＴ３０２の処理の後に、監視処理部１１２はカウントを実施中のタイマがあるかどうか判断する（ＳＴ３０３）。カウント実施中のタイマがあった場合、監視処理部１１２はカウント実施中のタイマの更新を行う（ＳＴ３０４）。すなわち、前回１を加算した時から前述の一定時間を経過している場合に再び１を加算する。

　次に、監視処理部１１２はタイマＡがカウント満了値に到達したか判断する（ＳＴ３０５）。タイマＡが満了した場合、タイムアウト制御部１０６は第１のタイムアウト検出通知を動作処理部１０５に出力する（ＳＴ３０６）。第１のタイムアウト検出通知を受信した動作処理部１０５の処理は前述のとおりである。

　ＳＴ３０４の処理でタイマＡが満了していない場合と、ＳＴ３０６の処理の後に、監視処理部１１２はタイマＢがカウント満了値に到達したか否かを判断する（ＳＴ３０７）。タイマＢが満了した場合、監視処理部１１２は第２のタイムアウト検出通知を動作処理部１０５に出力する（ＳＴ３０８）。第２のタイムアウト検出通知を受信した動作処理部１０５の処理は前述のとおりである。ＳＴ３０３の処理でカウント実施中のタイマが無い場合、ＳＴ３０７の処理でタイマＢが満了していない場合およびＳＴ３０８の処理の後、監視処理部１１２は監視処理を終了する。

　なお、図６、図７、図８に示したフローチャートはこの実施の形態のタイムアウト制御部１０６の動作フローの一例であり、同等の処理結果が得られる限りにおいて、上述の説明と異なる手順で処理をするようにしてもよい。

　図６、図７、図８に示したフローチャートに従ってタイムアウト処理部１０６が処理を実行することにより、使用者がジェスチャ入力の入力操作をした後、音声入力の入力操作がなされなかった場合には、以下に示す動作になる。

　ジェスチャ入力の抽象化情報を受信すると、タイムアウト制御部１０６の入力検知部１１１のＳＴ２０５の処理の結果、監視処理部１１２はＳＴ３０２の処理によりタイマＡ、タイマＢのカウントを開始する。その後、音声入力の操作がなされずタイムアウト制御部１０６が発話開始情報を受信しない場合、タイムアウト制御部１０６の監視処理部１１２はタイマＡおよびタイマＢを更新し続ける。この結果、タイマＡが満了すると、ＳＴ３０６の処理によりタイムアウト制御部１０６の監視処理部１１２は第１のタイムアウト検出通知を動作処理部１０５へ出力する。

　ここで、タイマＡのカウントが発話開始情報を受信した場合に停止される（ＳＴ２１５）ようにしているため、タイマＡのカウントが満了するまでの時間が、使用者の音声入力の入力操作の開始からマルチモーダル入力装置が抽象化情報を取得するまでに必要な時間を考慮した長い時間になるようにタイマＡのカウント満了値を設定する必要がなく、したがってより短い時間で第１のタイムアウト検出を行って使用者にガイダンス音声を行うことができる。

　上述のように、この実施の形態のマルチモーダル入力装置は、タイムアウト制御部１０６が、使用者の入力操作の開始からマルチモーダル入力装置がその入力操作の抽象化情報を取得するまでに必要な時間の長い入力方法である音声入力の入力操作の開始を示す発話開始情報を用いて、発話開始情報を受信したときに入力操作の未実施を監視するタイマＡのカウントを停止するようにしたので、このタイマのカウントが満了するまでの時間を短縮することが可能である。

　これにより、ジェスチャ入力後に音声入力が行われないときに音声入力を実施するように使用者に警告するような場合、マルチモーダル入力装置はより短時間で未入力を判断して使用者に警告することができ、使用者の入力作業の効率を向上させることができる。

　さらに、音声情報抽象化部１０２が出力する入力操作の入力開始情報である発話開始情報を使用して、発話開始情報が入力された時点で入力操作の未実施を監視するタイマＡを停止するので、マルチモーダル入力装置は使用者が音声入力を実施しているときに使用者に対して入力し忘れを警告することを防止することができ、利便性を向上することができる。

　また、この実施の形態のマルチモーダル入力装置は、入力の開始から抽象化情報の出力までに時間のかかる音声情報抽象化部１０２のみが入力開始情報として発話開始情報を動作処理部１０５へ出力するようにしているので、マルチモーダル入力装置における入力開始情報に関わる演算量を抑制することができる。

　なお、上述の実施の形態１では、使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法について入力開始情報を受信したときに実施中のタイマＡのカウントを停止し、その他の入力方法については抽象化情報を受信したときにタイマＡのカウントを停止するようにしたが、その他の入力方法についても入力開始情報が得られるようにしている場合には、その他の入力方法についてもその入力開始情報に基づいてタイマＡのカウントを停止して入力操作の未実施の監視を終了するようにしても同様の効果を得ることができる。

　また、その他の入力方法についても入力開始情報が得られるようにしている場合には、抽象化情報ではなく入力開始情報の受信に基づいていずれかの入力方法の入力操作が開始されていることを検知し、意味情報を取得することを予測してタイマＡのカウントを開始するようにしてもよい。

　なお、この実施の形態１のように使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法について入力開始情報に基づいた処理をするようにした場合には、前述のとおりマルチモーダル入力装置における入力開始情報に関わる演算量を抑制することができる。

　なお、上述の説明ではこの実施の形態のマルチモーダル入力装置が音声入力とジェスチャ入力を処理する場合を記載したが、この発明はこれらに限定されるものではなく、その他の入力方法を採用してもよい。また、入力方法は２種類に限定されるものではなく、３種類以上の入力方法を採用している場合にも同様の効果を得ることができる。
　なお、３種類以上の入力方法を採用する場合には他の入力方法に比べて抽象化情報が取得されるまでに必要な時間が同程度に長い入力方法が複数種類存在する場合も考えられる。そのような場合には、長時間を必要とする入力方法全ての入力操作の開始を検知してタイマＡを停止することが考えられる。

　上述の説明では、タイムアウト制御部１０６は２種類の入力操作の抽象化情報が揃った場合に入力完了を判定しているが、必要に応じて一つの入力操作の抽象化情報を受信したときにも入力完了と判定するようにしてもよい。例えば危険度の低いスイッチを操作する場合は音声のみで入力完了とし、危険度の高いスイッチを操作する場合は音声とジェスチャの入力時に入力完了と判定することにより、安全性の程度に応じて必要な入力操作を区別することで利便性が向上することができる。

　また、音声情報抽象化部１０２から発話開始情報が入力される毎にタイマＡを初期化してカウントを再度開始するようにすると、使用者が音声入力の操作をやり直した場合などでも適切にタイムアウトと入力完了を検出することが可能になる。

　また、音声情報抽象化部１０２が発話開始情報を出力した後、音声認識に失敗した場合や認識結果のテキストに対応する抽象化情報が見つからなかった場合に再発話情報を出力するようにして、タイムアウト制御部１０６は再発話情報が入力された場合にタイマを初期化して再度カウントを開始するようにしてもよい。なお、このとき初期化するタイマはタイマＡのみでもタイマＡ、Ｂ両方でもよい。このように制御することで、音声入力が正常に行われなかった場合でも適切にタイムアウトと入力完了を検出することができる。

　なお、タイマＡおよびタイマＢのカウント満了値は固定値ではなく、入力状況に応じて異なる値にするようにしてもよい。例えば、ジェスチャの抽象化情報が先に入力された場合に図７のＳＴ２０５で設定する値と、音声の抽象化情報が先に入力された場合に図７のＳＴ２１１で設定する値は異なっていてもよい。具体的には、図５のＳＴ２０５では音声の未入力の監視するための音声入力開始から抽象化情報取得までの最大時間に対応した値とし、図７のＳＴ２１１ではジェスチャの入力開始から抽象化情報の出力までの最大時間に基づく値を設定する。これにより、各入力デバイスに適した入力の待ち合わせを行うことが可能になる。

実施の形態２．
　実施の形態１では、音声情報抽象化部１０２、ジェスチャ情報抽象化部１０４、動作処理部１０５およびタイムアウト制御部１０６を同一の装置に備える場合を説明したが、次にこれらの機能が分散配置された複数の装置で構成されるマルチモーダル入力装置について記載する。

　図９はこの発明の実施の形態２に係るマルチモーダル入力装置の構成を示すブロック図である。図９に示すようにこの実施の形態のマルチモーダル入力装置は端末装置２０１とサーバ装置２０２を備えている。

　図９において端末装置２０１が備える音声取得部１０１、音声情報抽象化部１０２ｂ、ジェスチャ取得部１０３、ジェスチャ情報抽象化部１０４ｂ、ガイダンス部１０７ｂは、図１に示した実施の形態１の音声取得部１０１、音声情報抽象化部１０２、ジェスチャ取得部１０３、ジェスチャ情報抽象化部１０４、ガイダンス部１０７に相当する。ただし、音声情報抽象化部１０２ｂ、ジェスチャ情報抽象化部１０４ｂ、ガイダンス部１０７ｂは、動作処理部１０５と接続されるのではなく、端末装置２０１の通信部２０３と接続されている。

　また、図９の動作処理部１０５ｂ、タイムアウト制御部１０６は、図１の実施形態１の動作処理部１０５、タイムアウト制御部１０６に相当するが、この実施の形態の動作処理部１０５ｂはサーバ装置２０２の通信部２０４と接続される。

　そして、端末装置２０１の端末通信部２０３とサーバ装置２０２の通信部２０４は、通信回線等の通信路を介して接続される。

　次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態１との差分を中心に説明する。端末装置２０１の音声取得部１０１、音声情報抽象化部１０２ｂ、ジェスチャ取得部１０３、ジェスチャ情報抽象化部１０４ｂが行う処理は実施の形態１の対応する部分と同様である。ただし、音声情報抽象化部１０２ｂは発話開始情報と音声入力の抽象化情報を通信部２０３に出力し、ジェスチャ情報抽象化部１０４ｂはジェスチャ入力の抽象化情報を通信部２０３に出力する。そして、端末装置２０１の通信部２０３は、音声情報抽象化部１０２ｂもしくはジェスチャ情報抽象化部１０４ｂから入力された情報を、通信路を経由してサーバ装置２０２へ送信する。

　サーバ装置２０２の通信部２０４は、端末装置２０１から受信した発話開始情報、音声入力の抽象化情報、ジェスチャ入力の抽象化情報を動作処理部１０５ｂへ出力する。発話開始情報、音声入力の抽象化情報、ジェスチャ入力の抽象化情報を受信した動作処理部１０５ｂが行う処理および動作処理部１０５ｂの処理に対応したタイムアウト制御部１０６が行う処理は実施の形態１と同様である。ただし、実施の形態１においてガイダンス部１０７に出力されていたガイダンス音声出力の指示を、この実施の形態では動作処理部１０５ｂは通信部２０４に出力する。そして、ガイダンス音声を出力する指示を受信した通信部２０４は、この指示を端末装置２０１へ送信する。

　端末装置２０１の通信部２０３はサーバ装置２０２から受信したガイダンス音声を出力する指示をガイダンス部１０７ｂに出力する。そして、ガイダンス部１０７ｂはスピーカを介してガイダンス音声を使用者に向けて再生する。

　上述のようにこの実施の形態のマルチモーダル入力装置は、端末装置２０１が音声認識およびジェスチャ認識を行い、サーバ装置２０２が使用者の入力に対応した動作の判断と実施、およびタイムアウト検出を行うようにしたので、サーバ装置２０２が複数の端末装置２０１と通信を行い複数の使用者への指示を集中して管理できるため、複数の使用者が連携して作業を行う場合において端末装置２０１を介して各使用者に適切に指示を出すことができ作業効率を向上することができる。

　また、端末装置２０１とサーバ装置２０２に各機能を分散して配置したことにより端末装置２０１の演算量を削減することができる。

　なお、上述の実施の形態２の変形例として、図１０に示すように音声情報抽象化部１０２ｃ、ジェスチャ情報抽象化部１０４ｃをサーバ装置２０２ｃに備える構成とすることも可能である。

　この変形例のマルチモーダル入力装置では、端末装置２０１ｃの通信部２０３ｃは、音声取得部１０１ｃから音声データが入力されるとそのデータを通信部２０３ｃへ出力する。２０３ｃは、ジェスチャ取得部１０３ｃからジェスチャデータが入力されるとそのデータを通信部２０３ｃへ出力する。

　また、サーバ装置２０２ｃの通信部２０４ｃは、端末装置２０１ｃから受信した音声データを音声情報抽象化部１０２ｃへ出力し、また、端末装置２０１ｃから受信したジェスチャデータをジェスチャ情報抽象化部１０４ｃへ出力する。なお、その他の動作は図９に示したマルチモーダル入力装置と同様である。

　このようにした場合、サーバ装置２０２ｃが音声認識、ジェスチャ認識、実施する動作の判断と実施、およびタイムアウト検出を行うので、端末装置２０１ｃの演算量をさらに削減することができる。また、サーバ装置２０２ｃを処理能力の高いサーバハードウェアを用いて実現することにより豊富な演算能力を用いた高精度な音声認識およびジェスチャ認識が可能となり、高い認識精度に基づいて効率良く作業を実施することができる。

　また、実施の形態２のマルチモーダル入力装置の別の変形例として、図１１に示すように音声情報抽象化部１０２ｄとジェスチャ情報抽象化部１０４ｄおよび通信部２０４ｄを備えたサーバ装置２０２ｄと、音声取得部１０１ｄ、ジェスチャ取得部１０３ｄ、通信部２０３ｄ、動作処理部１０５ｄ、タイムアウト制御部１０６、ガイダンス部１０７を備えた端末装置で構成することも可能である。この変形例では演算能力を必要とする音声認識とジェスチャ認識の処理をサーバ装置２０２ｄで行うことにより、端末装置２０１ｄの処理量を削減することができる。また、発話開始情報等の入力開始情報を音声取得部１０１ｄ、ジェスチャ取得部１０３ｄから動作処理部１０５ｄに出力するようにしてもよい。
　また、上記の変形例に限らず別の機能分割により各機能を分散配置してもよい。

実施の形態３．
　上述の実施の形態１では、音声情報抽象化部１０２は発話を検出した場合に無条件で発話開始情報を動作処理部１０５へ出力するものであるが、次に規定された条件を満たした場合のみ音声情報抽象化部１０２が発話開始情報を動作処理部１０５へ出力する実施形態を示す。

　この実施の形態に係るマルチモーダル入力装置の構成は実施の形態１で説明した図１と同様である。

　次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態１との差分を中心に説明する。この実施の形態のマルチモーダル入力装置の動作で実施の形態１と異なるのは、音声入力時の音声情報抽象化部１０２の動作である。

　この実施の形態の音声情報抽象化部１０２は、音声取得部１０１から音声データを受信し始めて使用者の発話開始を検出してから発話が行われている時間を測定し、発話開始からの時間が規定された時間（例えば０．５秒）よりも長い場合に発話開始情報を動作処理部１０５へ出力する。また、発話が行われている時間が規定の時間に達しないうちに発話が終了となった場合は、音声情報抽象化部１０２は発話開始情報を出力しないようにする。

　このように発話が行われている時間（すなわち入力操作が実施されている時間）が規定された時間以上でない場合に発話開始情報を出力しないようにすることで、抽象化情報を取得するために不十分な音声入力であった場合にタイムアウト制御部１０６が発話開始情報を受信しないようすることができ、より精度の高い動作をすることができる。
　なお、ここでは音声入力を例に説明したが、その他の入力方法について同様にしてもよい。

　また、実施の形態２で示したマルチモーダル入力装置においても同様にすることが可能である。この場合、端末装置とサーバ装置間の通信量を削減する効果がある。

実施の形態４．
　次に各入力方法の入力操作から入力操作の抽象化情報が取得されるまでに必要な時間を比較することにより、いずれの入力方法の抽象化情報が取得されるまでに必要な時間が長いかを動的に判定する実施形態を示す。

　次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態１との差分を中心に説明する。この実施の形態のマルチモーダル入力装置は、実施の形態１と異なり起動時に以下に示す処理を行う。

　装置の起動時にこの実施の形態のマルチモーダル入力装置の音声情報抽象化部１０２は、認識対象の音声入力の音声認識結果について発話開始を検出してから認識結果を取得し、抽象化情報を取得するまでの所要時間を推定し、推定したなかで最も長い所要時間を所要時間判定部である動作処理部１０５へ出力する。

　一方、ジェスチャ情報抽象化部１０４は認識対象のジェスチャ入力の認識結果についてジェスチャの開始を検出してから認識結果を取得し、抽象化情報を取得するまでの所要時間を推定し、推定したなかで最も長い時間を動作処理部１０５へ出力する。

　動作処理部１０５は、音声情報抽象化部１０２から入力された所要時間とジェスチャ情報抽象化部１０４から入力された所要時間を比較し、所要時間が長かった方に入力開始情報を出力するように指示する。なお、ここでは音声入力とジェスチャ入力を例に説明したが、その他の入力方法が用いられている場合も同様にすればよい。

　以上のように、この実施の形態のマルチモーダル入力装置は装置の起動時に入力操作に必要な時間が最も長い入力デバイスに対してのみ入力開始情報を出力するように制御することにより、マルチモーダル入力装置への入力方法が変更された場合にも容易に対応することができる。

　なお、装置の起動時のみではなく、動作中において入力機器の追加や削除等が行われたタイミングで上述の動作をして、入力開始情報を出力する抽象化情報を取得するブロックを選択しなおすようにしてもよい。

　この発明のマルチモーダル入力装置は、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判定するまでに要する時間を短縮することができるので、複数の異なる様式の入力方法を用いるシステムにおいて有用である。

　１０１，１０１ｃ，１０１ｄ　音声取得部、１０２，１０２ｂ，１０２ｃ，１０２ｄ　音声情報抽象化部（入力情報認識部）、１０３，１０３ｃ，１０３ｄ　ジェスチャ取得部、１０４，１０４ｂ，１０４ｃ，１０４ｄ　ジェスチャ情報抽象化部（入力情報認識部）、１０５，１０５ｂ，１０５ｄ　動作処理部、１０６　タイムアウト制御部、１０７，１０７ｂ　ガイダンス部、１１１　入力検知部、１１２　監視処理部、２０１，２０１ｃ，２０１ｄ　マルチモーダル入力装置（端末装置）、２０２，２０２ｃ，２０２ｄ　マルチモーダル入力装置（サーバ装置）、２０３，２０３ｃ，２０３ｄ　通信部（端末装置）、２０４，２０４ｃ，２０４ｄ　通信部（サーバ装置）。

Claims

　様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知する入力検知部と、
　前記入力検知部の検知の結果に基づいて前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う監視処理部と、
　を備えることを特徴とするマルチモーダル入力装置。
　前記監視処理部は、前記入力検知部の前記意味情報が取得されたことの検知に基づいて前記監視を開始し、前記入力検知部において前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことが検知されたときに前記監視を行っている場合、前記監視を終了することを特徴とする請求項１に記載のマルチモーダル入力装置。
　前記入力検知部は、前記複数の入力方法のなかで入力操作の開始からその入力操作に対応する前記意味情報が取得されるまでに必要な時間が他の入力方法よりも長い入力方法についてその入力操作が開始されたことを検知し、
　前記監視処理部は、前記必要な時間が他よりも長い入力方法以外の前記入力方法についての前記入力検知部の前記意味情報が取得されたことの検知に基づいて開始した前記監視を、前記入力検知部の前記必要な時間が他よりも長い入力方法の入力操作が開始されたことの検知に基づいて終了することを特徴とする請求項２に記載のマルチモーダル入力装置。
　前記入力方法による入力操作が実施されている時間が規定された時間よりも長い場合にその入力方法の入力操作が開始されたことを検知し、その入力方法の入力操作の開始を示す入力開始情報を生成する入力情報認識部を備えることを特徴とする請求項１から請求項３のいずれか一項に記載のマルチモーダル入力装置。
　前記複数の入力方法のそれぞれについて、当該入力方法での入力操作の開始からその入力操作の前記意味情報が取得されるまでに必要な時間を取得して、前記複数の入力方法のうちいずれの入力方法が最も前記取得した必要な時間が長いかを判定する所要時間判定部を備えることを特徴とする請求項１から請求項４のいずれか一項に記載のマルチモーダル入力装置。
　前記入力検知部は、前記複数の入力方法のそれぞれの入力操作が開始されたことを検知し、
　前記監視処理部は、前記入力検知部の前記入力操作の開始の検知に基づいて前記監視を開始することを特徴とする請求項１から請求項５のいずれか一項に記載のマルチモーダル入力装置。
　複数の入力方法の入力操作の未実施の監視を行うサーバ装置が監視する前記入力操作を受け付ける端末装置であって、
　前記複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う前記サーバ装置に対して、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報を出力することを特徴とする端末装置。
　様式が異なる複数の入力方法で入力が行われるマルチモーダル入力装置のタイムアウト制御方法であって、
　前記複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知する意味情報取得検知ステップと、
　前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知する入力操作検知ステップと、
　前記意味情報が取得されたことの検知および前記入力操作が開始されたことの検知に基づいて、前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う監視ステップと、
　を備えることを特徴とするマルチモーダル入力装置のタイムアウト制御方法。
　前記監視ステップは、
　前記意味情報取得検知ステップで前記意味情報が取得されたがこと検知されたときに前記監視を開始する監視開始ステップと、
　前記入力操作検知ステップで前記入力操作が開始されたことが検知されたときに前記監視を終了する監視終了ステップと、
　を備えることを特徴とする請求項８に記載のマルチモーダル入力装置のタイムアウト制御方法。
　前記入力操作検知ステップは、前記複数の入力方法のうち入力操作の開始からその入力操作に対応する前記意味情報が取得されるまでに必要な時間が他の入力方法よりも長い入力方法についてその入力操作が開始されたことを検知し、
　前記監視終了ステップは、前記必要な時間が他よりも長い入力方法以外の前記入力方法の前記意味情報の取得の検知に基づいて開始された前記監視が行われている場合、前記入力操作検知ステップで前記必要な時間が他よりも長い入力方法の入力操作の開始が検知されたときにこの監視を終了することを特徴とする請求項９に記載のマルチモーダル入力装置のタイムアウト制御方法。