JP2006243555A

JP2006243555A - 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Info

Publication number: JP2006243555A
Application number: JP2005061557A
Authority: JP
Inventors: Toru Iwazawa; 透岩沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-03-04
Filing date: 2005-03-04
Publication date: 2006-09-14

Abstract

【課題】話者の音声に応じて、話者の位置も考慮して適切な対応をとる。
【解決手段】ロボット１００は、第一の参加者３００、第二の参加者３１０、および第三の参加者３２０にそれぞれ付与された第一のマイク３０６、第二のマイク３１６、および第三のマイク３２６から入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力する。ロボット１００は、入力したイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得して、イベントと、話者の位置情報とに基づき、言動を決定する。
【選択図】図１

Description

本発明は、対応決定システム、ロボット、イベント出力サーバ、および対応決定方法に関する。

特許文献１には、固有の無線タグを保有するコミュニケーション対象との間でコミュニケーション行動を実行するコミュニケーションロボットが開示されている。このコミュニケーションロボットは、少なくともタグ情報を記録するタグ情報データベース、コミュニケーション対象からタグ情報を取得する取得手段、取得手段の取得結果に基づいて近傍または周囲に存在する１または複数のコミュニケーション対象を個別に認識する認識手段、認識手段の認識結果に基づいてコミュニケーション行動を実行する１のコミュニケーション対象を特定する特定手段、および特定手段によって特定されたコミュニケーション対象にコミュニケーション行動を実行する実行手段を備える。

このような構成を有する従来のコミュニケーションロボットは次のように動作する。コミュニケーションロボットは、コミュニケーション行動を実行する際、取得手段によってコミュニケーション対象からタグ情報を取得する。認識手段は、コミュニケーション対象としての人間を個別に認識する。特定手段は、認識手段の認識結果に基づいて、コミュニケーションロボットの近傍または周囲に存在する参加者のうち一人の参加者を特定する。実行手段は、当該参加者に対してコミュニケーション行動を実行する。これにより、近傍または周囲に存在する参加者を個別に認識することができ、特定した参加者に適したコミュニケーション行動を取ることができる、と記載されている。
特開２００４−２１６５１３号公報

しかし、従来のロボット（システム）においては、ロボットの近傍または周囲に存在するコミュニケーション対象を認識することができるだけで、履歴情報等に基づき、ロボットが自発的に話しかけることしかできなかった。

たとえ対話の相手を把握することができても、その相手の発話内容や状態を認識できないと、ロボットが相手と円滑にコミュニケーションを取ることができない。とくに、複数の相手とコミュニケーションを取る場合、それぞれの相手の発話内容や状況を認識して適切な対応をとるのは困難だった。

本発明は上記事情を踏まえてなされたものであり、本発明の目的は、話者の音声に応じて、話者の位置も考慮して適切な対応をとる技術を提供することにある。

本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、
前記話者に対する対応を決定する対応決定部と、
前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
を含み、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システムが提供される。

ここで、音声に関するデータは、音声データおよび、音声データに基づく音声認識結果を含む。音声入力デバイスは、たとえばマイクとすることができる。また、マイクは、接話マイクとすることができる。

ここで、対応決定システムは、たとえば、自律移動型または対話型のロボットを制御するロボット制御システム、音声対話システム、または音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムとすることができる。

本発明の対応決定システムによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した対応を取るようにすることができる。たとえば、本発明の対応決定システムがロボット制御システムの場合、対応決定部は、イベントと、話者の位置情報とに基づき、ロボットの言動を決定することができる。これにより、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。

本発明によれば、接話マイク等の音声入力デバイスから入力された音声に基づき、処理が行われるので、雑音等への耐性が高いロバストな対応決定システムが提供される。さらに、音声入力デバイスを対応決定システムに対してワイヤレス（無線）接続とすることにより、話者の身体的自由度を高く保つことができる。また、本発明によれば、話者の音声および位置情報に応じて、処理が行われるので、インターフェース透過性の高い対応決定システムが提供される。

なお、本発明の対応決定システムは、一つのシステム内に設けられてもよく、互いにネットワークを介して接続された複数のシステムに分散して設けられてもよい。たとえば、本発明の対応決定システムがロボット制御システムの場合、当該システムは、ロボット内に設けられてもよく、ロボットと無線等のネットワークで通信可能なサーバ内に設けられてもよい。また、対応決定システムの一部の機能がロボット内に設けられ、他の機能がサーバ内に設けられてもよい。

自律移動したり話者と対話したりするロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。従来、ロボットがユーザと対話したり、ユーザに対して何らかの動作をする場合、画像認識や音声の特徴によりユーザを識別する試みがなされていた。しかし、このような方法では、話者がロボットのごく近傍にいたり、雑音がない等の条件が整っていないと、話者を認識するのが困難だった。また、特許文献１に記載のように、コミュニケーション対象に固有の無線タグを保有させることにより、コミュニケーション対象を認識するという試みもなされている。しかし、上述したように、この方法では近傍にいるコミュニケーション対象を認識することができるだけで、話者の発話内容を把握するのが困難だという点では、他の従来技術と同様である。

本発明の対応決定システムによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。

本発明の対応決定システムは、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことができる。

本発明の対応決定システムがロボット制御システムの場合、イベント出力部は、ロボット内に設けられてもよいが、ロボットと無線等で通信可能なサーバ内に設けられてもよい。たとえば、ロボットが多数の話者と同時に対話をするような形態においては、複数のサーバにイベント出力部の機能をそれぞれ持たせ、複数のサーバから言動決定部の機能を有するロボットまたは一のサーバへイベント等のデータが入力される構成とすることもできる。

本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。

このような構成とすれば、何らかの不具合により、音声入力デバイスからの音声の入力が途絶えた場合に、話者の位置を考慮して適切な対応を取ることができる。

本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。

このような構成とすれば、音声入力デバイスに話者の発話が入力された場合に、話者の位置を考慮して適切な対応を取ることができる。たとえば、対応決定システムがロボット制御システムであって、発話検出を示すイベントが出力された場合に、ロボットが話者の方向を向くように制御した場合、話者は、自分が発話したことにより、ロボットが自分の方を向いたことを認識することができる。このような適応動作により、ロボットのインターフェース透過性を高め、ロボットの動作が話者に分かりやすいようにすることができる。なお、発話は、音声の調波構造や音声のパワーが所定の値以上である継続時間等に基づき検出することもでき、イベント出力部は、このような状態を検知して、発話検出を示すイベントを出力することもできる。

本発明の対応決定システムは、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。

このような構成とすれば、音声入力デバイスに話者の発話が入力され、音声認識が行われた場合に、話者の位置を考慮して、適切な対応を取ることができる。

本発明の対応決定システムは、前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含むことができ、前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することができる。

識別タグは、たとえばアクティブ／パッシブのＲＦＩＤ（Radio Frequency Identification）タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。

本発明の対応決定システムは、同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含むことができ、前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応するタグ識別情報を有する識別タグの位置情報を取得することができる。

本発明の対応決定システムにおいて、前記言動決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。

本発明によれば、複数の相手とコミュニケーションを取る場合でも、各話者からの音声に関するデータと、各話者の位置情報とが、それぞれ話者に対応づけられて取得される。そのため、複数の相手に対して、それぞれ適切な対応を取ることができる。

本発明の対応決定システムにおいて、前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得することができ、前記言動決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することができる。

これにより、話者の位置情報の取得が容易になるとともに、ロボットが話者の方を向いたり、話者の方へ近づいたりする際の制御を容易にすることができる。

本発明によれば、
自律移動型または対話型のロボットであって、
上記いずれかに記載の対応決定システムと、
前記対応決定部が決定した対応を言動として実行する言動実行部と、
を含むことを特徴とするロボットが提供される。

本発明のロボットによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。また、本発明のロボットは、話者と対面して言動を実行する構成とすることができる。このようなロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。本発明のロボットによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。これにより、話者とロボットとが円滑なコミュニケーションを取ることができる。

本発明によれば、
音声入力デバイスから入力された音声を出力する音声出力部を含む通信端末装置および自律移動型または対話型のロボットにネットワークを介して接続されるとともに、これらを中継するイベント出力サーバであって、
前記ロボットは、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
前記イベント出力サーバは、
前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
を含むことを特徴とするイベント出力サーバが提供される。

本発明のイベント出力サーバによれば、イベントが、音声識別情報とともにロボットに送信されるので、ロボットにおいて、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。

本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。

本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。

本発明のイベント出力サーバにおいて、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。

本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力するステップと、
前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
を含むことを特徴とする対応決定方法が提供される。

本発明の対応決定方法によって、自律移動型または対話型のロボットを制御することができ、話者に対する対応を決定するステップにおいて、イベントと、話者の位置情報に基づき、ロボットの言動を決定することができる。

本発明の対応決定方法によれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置の双方に適応した対応を決定することができる。たとえば、本発明の対応決定方法により、ロボットを制御する場合、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。

本発明の対応決定方法は、前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことができる。

本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、を含むことができる。

本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、を含むことができる。

本発明の対応決定方法は、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含むことができ、前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。

本発明の対応決定方法において、前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、話者の音声に応じて、話者の位置も考慮して適切な対応をとることができる。

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、以下の図面において、本発明の本質に関わらない部分の構成は省略する。

以下の実施の形態において、対応決定システムおよび対応決定方法が、自律移動するとともに話者と対話するロボットを制御するロボット制御システムおよびロボット制御方法である場合を例として説明する。

以下の実施の形態において、ロボットとコミュニケーションを取りたい人には、マイク、マイクに入力された音声をロボットに送信する音声出力部を含む通信端末装置、およびロボットが位置情報を取得するための識別タグが付与される。

（第一の実施の形態）
本実施の形態において、対応決定システムは、ロボット内に組み込まれる。

図１は、本実施の形態におけるロボットと、話者である参加者との関係を示す模式図である。
ここでは、ロボット１００と、第一の参加者３００、第二の参加者３１０、および第三の参加者３２０とのコミュニケーションを例に説明する。

第一の参加者３００、第二の参加者３１０、および第三の参加者３２０は、それぞれ、第一の識別タグ３０２、第一の音声出力部３０４、および第一のマイク３０６、第二の識別タグ３１２、第二の音声出力部３１４、および第二のマイク３１６、ならびに第三の識別タグ３２２、第三の音声出力部３２４、および第三のマイク３２６を保持する。

以下、第一の参加者３００を例に説明する。
第一のマイク３０６は、第一の参加者３００の音声を入力する。第一のマイク３０６は、参加者が動きやすいように、ヘッドセットマイクとすることができる。第一のマイク３０６は、第一の参加者３００に付与された第一の音声出力部３０４に接続される。

第一の音声出力部３０４は、たとえば携帯型の無線通信装置である。第一の音声出力部３０４は、たとえばＰＤＡ（Personal Digital Assistance）とすることができる。第一の音声出力部３０４は、第一のマイク３０６から入力される音声をロボット１００に送信する。この際、第一の音声出力部３０４は、音声とともに自己を識別する音声識別情報をロボット１００に送信する。第一の参加者３００は、たとえば第一の音声出力部３０４をメッシュ状のポケットを有するバッグやリュックのポケットに入れて、第一の音声出力部３０４を携帯することができる。

ロボット１００と第一の音声出力部３０４とは、たとえば無線ＬＡＮ等を介して通信を行うことができる。ロボット１００と第一の音声出力部３０４とが無線ＬＡＮを介して通信を行う場合、たとえば、ＴＣＰ（Transmission Control Protocol）／ＩＰ（Internet Protocol）により通信を行うことができる。この場合、たとえば第一の音声出力部３０４の音声識別情報として、各装置に割り当てられたポート番号やＩＰアドレスを用いることもできる。

第一の識別タグ３０２は、たとえばアクティブ／パッシブのＲＦＩＤ（Radio Frequency Identification）タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。第一の識別タグ３０２には、タグ固有のタグ識別情報が記憶される。第一の参加者３００は、第一の識別タグ３０２をたとえば胸元等自分の体の一部につけておく。ロボット１００は、第一の識別タグ３０２からタグ識別情報を読み取ることにより、第一の参加者３００を識別することができる。また、ロボット１００は、第一の識別タグ３０２の読み取り強度等により、第一の識別タグ３０２の位置情報を取得することができる。ここで、位置情報とは、ロボット１００と第一の参加者３００との距離および第一の参加者３００のロボット１００に対する方向等、第一の参加者３００のロボット１００に対する位置情報とすることができる。

たとえば、第一の識別タグ３０２が超音波タグの場合、第一の識別タグ３０２から定期的に超音波を送信し、ロボット１００のリーダが受信する。ロボット１００は、リーダが受信した超音波の到達時間や受信角度により第一の参加者３００の位置情報を取得することができる。

第二の参加者３１０の第二の識別タグ３１２、および第三の参加者３２０の第三の識別タグ３２２も、第一の参加者３００の第一の識別タグ３０２と同様の構成を有する。第二の参加者３１０の第二の音声出力部３１４、および第三の参加者３２０の第三の音声出力部３２４も、第一の参加者３００の第一の音声出力部３０４と同様の構成を有する。

ロボット１００は、複数の参加者の音声を同時に受信可能に構成されるとともに、複数の参加者の位置情報を同時に取得可能な構成とされる。本実施の形態において、ロボット１００は、自律移動型である。

図２は、本実施の形態におけるロボットの一例を示す外観構成図である。
ロボット１００は、たとえば、胴体部１および頭部２が連結されることにより構成される。胴体部１の下部には左右にそれぞれ車輪３Ａおよび車輪３Ｂが取り付けられており、これらの車輪は、独立に前後に回転することができる。

頭部２は、胴体部１に垂直に取り付けられた垂直軸とその垂直軸に対して９０度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部２の中心を通るように設置されており、水平軸は胴体部１と頭部２が正面を向いた状態で頭部２の中心を通りかつ左右方向に水平に設置されている。つまり、頭部２は左右と上下の２自由度で、決められた範囲内で回転することができる。

胴体部１の表面には、スピーカ１２および内部マイク１３が設けられる。また、頭部２の表面には、ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂが設けられる。

図３は、ロボット１００の電気的構成の一例を示すブロック図である。
胴体部１には、ロボット全体の制御を行うコントローラ１０、ロボットの動力源となるバッテリ１１、スピーカ１２、内部マイク１３、２つの車輪を動かすためのアクチュエータ１４Ａおよびアクチュエータ１４Ｂ、通信インターフェース（Ｉ／Ｆ）２４、ならびにタグリーダ２６等が収納されている。

内部マイク１３は、特定の話者からの発話を含む周囲の音声を集音し、得られた音声データをコントローラ１０に送出する。

コントローラ１０は、ＣＰＵ１０Ａやメモリ１０Ｂを内蔵しており、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された制御プログラムが実行されることにより、各種の処理を行う。

通信インターフェース２４は、参加者（図１の第一の参加者３００、第二の参加者３１０、および第三の参加者３２０）に付与された通信端末装置（図１の第一の音声出力部３０４、第二の音声出力部３１４、および第三の音声出力部３２４）との間で通信を行う。

タグリーダ２６は、参加者（図１の第一の参加者３００、第二の参加者３１０、および第三の参加者３２０）に付された識別タグ（図１の第一の識別タグ３０２、第二の識別タグ３１２、および第三の識別タグ３２２）からタグ識別情報を読み取る。

頭部２には、ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂ、ならびに頭部２を回転するためのアクチュエータ２２Ａおよびアクチュエータ２２Ｂ等が収納されている。

ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂは、周囲の状況を撮像し、得られた画像データを、コントローラ１０に送出する。

アクチュエータ２２Ａおよびアクチュエータ２２Ｂは、ロボット１００の頭部２を上下左右に回転させる。

コントローラ１０は、内部マイク１３や通信インターフェース２４を介して得られる音声データやＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂから得られる画像データに基づいて、メモリ１０Ｂから適宜情報を読み出し、参加者の状況や参加者の言動を解析し、対応するロボット１００の言動を決定する。

コントローラ１０は、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、アクチュエータ２２Ｂ、およびタグリーダ２６等を制御してロボット１００に決定した動作を実行させる。また、コントローラ１０は、合成音を生成し、スピーカ１２に供給して、ロボット１００に決定した発話を出力させる。

図４は、本実施の形態におけるロボット１００のコントローラ１０の構成を詳細に示すブロック図である。図４では、コントローラ１０のハードウェア単位の構成ではなく、機能単位のブロックを示す。
ロボット１００のコントローラ１０（対応決定システム）は、話者に付与された第一のマイク３０６、第二のマイク３１６、第三のマイク３２６等（音声入力デバイス）から入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、話者に対する対応を決定する言動決定部１１０（対応決定部）と、対応決定部が入力したイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得する位置情報取得部１０８と、を含み、言動決定部１１０は、イベントと、話者の位置情報とに基づき、ロボット１００の言動（対応）を決定する。

ロボット１００のコントローラ１０は、音声入力部１０２と、音声認識部１０４と、イベント出力部１０６と、位置情報取得部１０８と、言動決定部１１０と、言動実行部１１２の一部と、音声認識辞書１１４と、条件記憶部１１６と、対応言動記憶部１１８と、識別情報記憶部１２０と、ロボット言動記憶部１３０と、シナリオ記憶部１３２とを含む。なお、言動実行部１１２は、コントローラ１０により実現されるメカ制御部１３４、音声合成部１３６、および出力部１３８、ならびにアクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、アクチュエータ２２Ｂ、およびスピーカ１２を含む。

通信インターフェース２４は、ネットワーク４００を介して、複数の音声出力部（第一の音声出力部３０４、第二の音声出力部３１４、および第三の音声出力部３２４）から各種データを受信する。

音声入力部１０２は、通信インターフェース２４が受信した、複数の音声出力部からの音声データを、各音声識別情報に対応づけて入力する。音声入力部１０２は、入力した音声データを、音声識別情報とともに、音声認識部１０４およびイベント出力部１０６に出力する。また、音声入力部１０２は、内部マイク１３が集音した音声データも入力し、音声認識部１０４に出力する。

なお、音声入力部１０２は、通信インターフェース２４から入力される音声データまたは内部マイク１３から入力される音声データの両方を同時に入力することもできるが、いずれか一方からの入力をオフとし、他方からの入力のみをオンとすることもできる。

音声入力部１０２が内部マイク１３から音声データを入力する場合の各構成要素の処理は後述し、音声入力部１０２が通信インターフェース２４から音声データを入力する場合の処理機能を以下に説明する。

音声認識部１０４は、音声入力部１０２が入力した音声データを音声認識する。音声認識辞書１１４は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部１０４は、音声入力部１０２が入力した音声データと、音声認識辞書１１４に記憶された音声認識語彙とのマッチングを行う。音声認識部１０４は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部１０６に出力する。

イベント出力部１０６は、音声入力部１０２から出力される音声データ、および音声認識部１０４から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部１０６は、音声認識部１０４から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。

条件記憶部１１６は、所定の条件と、その条件に合致したことを示すイベントとを対応づけて記憶する。イベント出力部１０６は、条件記憶部１１６を参照して音声データが所定の条件に合致するか否かを検出する。

言動決定部１１０は、イベント出力部１０６からイベントと音声識別情報とが出力されると、その音声識別情報で特定される参加者の位置情報を位置情報取得部１０８から取得する。識別情報記憶部１２０は、各参加者の音声識別情報と、タグ識別情報とを対応づけて記憶する。言動決定部１１０は、イベント出力部１０６からイベントおよび音声識別情報を取得すると、識別情報記憶部１２０を参照して、音声識別情報に対応づけられたタグ識別情報を読み出し、そのタグ識別情報の位置情報の取得を位置情報取得部１０８に要請する。位置情報取得部１０８は、タグリーダ２６により参加者の識別タグを読み取る処理を行い、目的のタグ識別情報を有する識別タグの位置情報を取得する。次いで、位置情報取得部１０８は、この位置情報を言動決定部１１０に通知する。言動決定部１１０は、位置情報取得部１０８から通知された位置情報を目的の参加者の位置情報として取得する。

言動決定部１１０は、イベント出力部１０６から取得したイベントと参加者の位置情報とに基づき、言動実行部１１２に実行させる言動を決定する。対応言動記憶部１１８は、イベントと、それに対応するロボット１００の言動とを対応づけて記憶する。言動決定部１１０は、対応言動記憶部１１８を参照して、イベント出力部１０６から取得したイベントに対応するロボット１００の言動を読み出す。

ロボット言動記憶部１３０は、特定の状況におけるロボットの発話データおよび動作データを記憶する。シナリオ記憶部１３２は、シナリオ情報を記憶する。

言動決定部１１０は、対応言動記憶部１１８から読み出したロボット１００の言動、話者の位置情報に基づき、必要に応じてロボット言動記憶部１３０およびシナリオ記憶部１３２を参照して、ロボット１００の言動を決定する。

言動決定部１１０は、決定した言動を指令として、メカ制御部１３４および音声合成部１３６に送出する。メカ制御部１３４は、言動決定部１１０から送出された指令に基づき、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、およびアクチュエータ２２Ｂを駆動するための制御信号を生成し、これをアクチュエータ１４Ａ、１４Ｂ、２２Ａ、および２２Ｂへ送出する。これにより、アクチュエータ１４Ａ、１４Ｂ、２２Ａ、および２２Ｂは、制御信号にしたがって駆動する。

音声合成部１３６は、言動決定部１１０から送出された指令に基づき、合成音を生成する。出力部１３８には、音声合成部１３６からの合成音のディジタルデータが供給されるようになっており、出力部１３８は、それらのディジタルデータを、アナログの音声データにＤ／Ａ変換し、スピーカ１２に供給して出力させる。

次に、音声入力部１０２が内部マイク１３から音声データを入力する場合の各構成要素の処理機能を説明する。
この場合、音声入力部１０２が入力する音声データには、音声識別情報が対応づけられないことになる。ここでは図示していないが、コントローラ１０は、たとえばＣＣＤカメラ２１ＡやＣＣＤカメラ２１Ｂから入力される画像データ等を用いて、話者を認識するようにすることができる。話者が認識できる場合、音声認識部１０４、イベント出力部１０６、および言動決定部１１０は、上述した音声入力部１０２が通信インターフェース２４から音声データを入力する場合と同様の処理を行うことができる。

また、話者が認識できない場合、音声入力部１０２が入力した音声データや音声認識部１０４が認識した音声認識結果は、音声入力部１０２や音声認識部１０４から言動決定部１１０に直接入力されるようにすることもでき、言動決定部１１０は、ロボット言動記憶部１３０やシナリオ記憶部１３２を参照して、ロボット１００の言動を決定することができる。話者が認識できない場合でも、音声入力部１０２が入力した音声データや音声認識部１０４が認識した音声認識結果は、イベント出力部１０６に入力され、イベント出力部１０６により、所定の条件に合致するか否かを検出する処理が行われるようにすることもできる。

図５は、条件記憶部１１６の内部構成の一例を示す図である。以下、図４も参照して説明する。
条件記憶部１１６は、イベント欄と条件欄とを含む。イベント欄は、番号欄と内容欄とを含む。

たとえば、番号「１」のイベントの内容は「音声入力不具合」、条件は「所定時間音声入力がなし」である。つまり、何らかの不具合により音声入力部１０２が第一の参加者３００、第二の参加者３１０、第三の参加者３２０からの音声を入力できない場合にこの条件に合致する。

音声入力不具合が生じる原因としては、たとえば、各音声出力部を含む通信端末装置の電源切れ等の不具合や、各マイクと対応する音声出力部との間の断線等が考えられる。本実施の形態において、各マイクは、各参加者の発話音声がない場合でも、周囲の音声や音声出力部特有のノイズにより、音声パワーがゼロの状態が継続することはない構成とされる。そのため、イベント出力部１０６は、音声入力部１０２から出力される音声のパワーがゼロの状態が所定時間以上継続した場合、「所定時間音声入力なし」という条件に合致することを検出することができる。また、たとえば、ロボット１００から各通信端末装置に定期的にテストデータを送信し、所定時間内に応答があるか否かに応じて、「所定時間音声入力なし」という条件に合致するか否かを検出することもできる。イベント出力部１０６は、各通信端末装置にテストデータを送信した後、所定時間内に応答がない場合に、「所定時間音声入力なし」という条件に合致したことを検出することができる。

また、たとえば、番号「２」のイベントの内容は「発話検出」、条件は「音声レベルが所定の閾値以上」である。つまり、第一の参加者３００、第二の参加者３１０、および第三の参加者３２０のいずれかから発話があった場合にこの条件に合致する。

イベント出力部１０６は、音声入力部１０２から出力される音声のパワーが所定の閾値以上となった場合に、「音声レベルが所定の閾値以上」という条件に合致することを検出することができる。また、イベント出力部１０６は、音声入力部１０２から出力される音声のパワーが所定の閾値以上となった場合に、所定時間その識別情報の音声を収集、解析し、人の声の特徴量が含まれているかどうかを判定し、その判定結果に応じて条件に合致するか否かを検出することもできる。

また、たとえば、番号「３」のイベントの内容は「音声認識結果」、条件は「音声認識結果取得」である。つまり、音声認識部１０４が音声認識結果を出力した場合にこの条件に合致する

図６は、対応言動記憶部１１８の内部構成の一例を示す図である。以下、図４も参照して説明する。
対応言動記憶部１１８は、イベント番号欄と言動欄とを有する。イベント番号欄には、条件記憶部１１６のイベント欄の番号欄の番号に対応する番号が記憶される。

たとえば、番号「１」のイベントが出力された場合の言動は、「（１）対応する話者に近づく。（２）内部マイクによる音声入力に切り替え。」である。言動決定部１１０は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット１００が対応する話者に近づく行為を言動実行部１１２に実行させる。この際、言動決定部１１０は、位置情報取得部１０８から対応する参加者の位置情報を逐次取得するようにし、参加者との距離が所定距離内になったら、（２）の言動を実行させる。（２）の言動としては、音声入力部１０２が内部マイク１３からの音声データを選択的に入力するようにし、対応する参加者の音声をロボット１００の内部マイク１３から直接入力する。

また、たとえば、番号「２」のイベントが出力された場合の言動は、「話者の方を向く。」である。言動決定部１１０は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット１００が対応する話者の方を向く行為を言動実行部１１２に実行させる。

また、たとえば番号「３」のイベントが出力された場合の言動は、「（１）話者の方を向く。（２）対応する音声出力。」である。言動決定部１１０は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット１００が対応する話者の方を向く行為を言動実行部１１２に実行させる。つづいて、言動決定部１１０は、ロボット言動記憶部１３０やシナリオ記憶部１３２を参照して、音声認識結果に対応する応答の音声を出力を決定し、言動実行部１１２に実行させる。

図７は、識別情報記憶部１２０の内部構成の一例を示す図である。
識別情報記憶部１２０は、名前欄と、音声識別情報欄と、タグ識別情報欄とを含む。
名前欄には参加者の名前が記憶される。音声識別情報欄には、各音声出力部の識別情報が記憶される。タグ識別情報欄には、各識別タグのタグ識別情報が記憶される。

ここで、たとえば「さくら」という名前の参加者には、音声識別情報「１１１１」、タグ識別情報「０００１」が対応づけられている。また、「もも」という名前の参加者には、音声識別情報「１１１２」、タグ識別情報「０００２」が対応づけられている。また、「たろう」という名前の参加者には、音声識別情報「１１１３」、タグ識別情報「０００３」が対応づけられている。

ここで、識別情報記憶部１２０は、必ずしも名前欄を有する必要はないが、名前欄に参加者の名前を記憶しておくことにより、ロボット１００から参加者へ名前を呼びかけることができ、参加者とロボット１００とのコミュニケーションをより円滑に図ることができる。また、識別情報記憶部１２０は、各参加者の性別、年齢等、参加者に関する情報を記憶する欄をさらに含むことができる。これにより、ロボット１００が参加者に応じた応対をすることができる。

図８は、本実施の形態におけるロボット１００のコントローラ１０の処理手順を示すフローチャートである。
コントローラ１０の処理手順（対応決定方法）は、話者に付与された第一のマイク３０６、第二のマイク３１６、第三のマイク３２６等（音声入力デバイス）から入力された音声に関するデータを、音声識別情報とともに入力し、音声に関するデータが所定の条件に合致するか否かを検出し（Ｓ１００）、条件に合致した場合に（Ｓ１００のＹＥＳ）、条件に合致することを示すイベントを、音声識別情報とともに出力するステップ（Ｓ１０２）と、所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、入力されたイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得するステップ（Ｓ１０４）と、イベントと、話者の位置情報とに基づき、話者に対するロボット１００の言動（対応）を決定するステップ（Ｓ１０６）と、を含む。

以下、具体的に説明する。
イベント出力部１０６は、音声入力部１０２から入力される音声データおよび音声認識部１０４から入力される音声認識結果を常時モニタリングする。音声に関するデータが条件記憶部１１６に記憶されたいずれかの条件に合致することを検出した場合（Ｓ１００のＹＥＳ）、イベント出力部１０６は、その条件に対応するイベントを音声識別情報に対応づけて言動決定部１１０に出力する（Ｓ１０２）。

言動決定部１１０は、イベント出力部１０６からイベントおよび音声識別情報が出力されると、識別情報記憶部１２０を参照して、音声識別情報に対応づけられたタグ識別情報を読み出す。次いで、言動決定部１１０は、位置情報取得部１０８にそのタグ識別情報を通知する。位置情報取得部１０８は、言動決定部１１０が読み出したタグ識別情報を有する識別タグを検出し、その位置を算出し、言動決定部１１０に通知する。これにより、言動決定部１１０は、イベントに対応するタグ識別情報を有する参加者の位置情報を取得する（Ｓ１０４）。

言動決定部１１０は、対応言動記憶部１１８を参照して、イベントに対応する言動を読み出す。また、言動決定部１１０は、必要に応じて、ロボット言動記憶部１３０およびシナリオ記憶部１３２も参照する。言動決定部１１０は、対応言動記憶部１１８、ロボット言動記憶部１３０、シナリオ記憶部１３２から読み出した情報、および参加者の位置情報に基づき、ロボット１００の言動を決定する（Ｓ１０６）。つづいて、言動決定部１１０は、決定した言動をメカ制御部１３４、および音声合成部１３６に通知する。

メカ制御部１３４および音声合成部１３６等の言動実行部１１２は、言動決定部１１０が決定した言動を実行する（Ｓ１０８）。

言動決定部１１０が決定した一連の言動が終わると、コントローラ１０の処理を終了するか否かが判断され（Ｓ１１０）、終了しない場合（Ｓ１１０のＮＯ）、ステップＳ１００に戻る。ステップＳ１１０で、コントローラ１０の処理を終了する場合（Ｓ１１０のＹＥＳ）、処理を終える。

次に、具体例を説明する。以下、図１〜図８を適宜参照して説明する。
たとえば、ロボット１００が、第一の参加者３００（さくら）、第二の参加者３１０（もも）、第三の参加者３２０（たろう）と会話する場合の例を説明する。

第一の参加者３００である「さくら」には、タグ識別情報「０００１」を有する第一の識別タグ３０２が付され、音声識別情報「１１１１」を有する第一の音声出力部３０４が付与されている。「さくら」が発話する音声は、第一のマイク３０６により集音され、第一の音声出力部３０４から、音声識別情報「１１１１」に対応づけてロボット１００に送信される。

第二の参加者３１０である「もも」には、タグ識別情報「０００２」を有する第二の識別タグ３１２が付され、音声識別情報「１１１２」を有する第二の音声出力部３１４が付与されている。「もも」が発話する音声は、第二のマイク３１６により集音され、第二の音声出力部３１４から、音声識別情報「１１１２」に対応づけてロボット１００に送信される。

第三の参加者３２０である「たろう」には、タグ識別情報「０００３」を有する第三の識別タグ３２２が付され、音声識別情報「１１１３」を有する第三の音声出力部３２４が付与されている。「たろう」が発話する音声は、第三のマイク３２６により集音され、第三の音声出力部３２４から、音声識別情報「１１１３」に対応づけてロボット１００に送信される。

たとえば、音声識別情報「１１１１」に対応づけられた音声データの入力が所定時間ない場合、ロボット１００のイベント出力部１０６は、音声識別情報「１１１１」に対応づけられた音声データが、イベント「音声入力不具合」に対応づけられた条件に合致することを検出する。イベント出力部１０６は、音声識別情報「１１１１」とともに、そのイベントを示す番号「１」を言動決定部１１０に出力する。

言動決定部１１０は、音声識別情報「１１１１」に基づき、識別情報記憶部１２０を参照し、音声識別情報「１１１１」に対応するタグ識別情報「０００１」を読み出す。つづいて、言動決定部１１０は、位置情報取得部１０８にタグ識別情報「０００１」を通知する。位置情報取得部１０８は、タグ識別情報「０００１」を有する識別タグである第一の識別タグ３０２の位置情報を取得し、言動決定部１１０に通知する。

言動決定部１１０は、イベント「音声入力不具合」を示す番号「１」に対応づけられた言動をロボット１００に実行させるよう決定する。具体的には、位置情報取得部１０８から取得した第一の識別タグ３０２の位置情報に基づき、「さくら」に近づくための動作を決定する。言動決定部１１０は、言動実行部１１２に決定した動作を実行させる。ロボット１００が「さくら」に近づくと、言動決定部１１０は、音声入力部１０２が内部マイク１３から音声を入力するよう切り替える。このように、「音声入力不具合」を示すイベントが出力された場合、ロボット１００が対応する話者に近づくことにより、ロボット１００が内部マイク１３から話者の音声を入力する際に、周囲の雑音や遠距離発話を避けることができ、より正確に音声認識等を行うことができる。ただし、この言動は必ずしも行わなくてよく、単にロボット１００が話者の方を向くだけの言動でもよく、また、話者の方を向いて、「さくらちゃん、こっちに来て」等発話し、話者がロボット１００の近くに来るような言動を行うこともできる。

なお、ロボット１００が以上の言動を行う際、音声入力不具合が生じた参加者の名前が「さくら」であることもわかるので、ロボット１００が「さくら」の方に移動する前に、ロボット１００に「さくらちゃん、ちょっと待っていて」等の発話をさせることもできる。また、ロボット１００が「さくら」に近づいたときに、ロボット１００に「さくらちゃん、もう一度言って」等の発話をさせることもできる。この後、内部マイク１３から入力される音声に基づき、音声認識等を行うことができる。

また、他の例として、「さくら」の方を向き、「さくらちゃんの声が聞こえないよ。近くにいるお兄さんに聞いてみて」等の発話をするようにすることもできる。

また、たとえば、音声識別情報「１１１１」に対応づけられた音声データの音声のパワーが所定の閾値以上となった場合、ロボット１００のイベント出力部１０６は、音声識別情報「１１１１」に対応づけられた音声データが、イベント「発話検出」に対応づけられた条件に合致することを検出する。イベント出力部１０６は、音声識別情報「１１１１」とともに、そのイベントを示す番号「２」を言動決定部１１０に出力する。

言動決定部１１０は、イベント「発話検出」を示す番号「２」に対応づけられた言動をロボット１００に実行させるよう決定する。具体的には、位置情報取得部１０８から取得した第一の識別タグ３０２の位置情報に基づき、「さくら」の方を向く言動を決定する。言動決定部１１０は、言動実行部１１２に決定した言動を実行させる。

また、たとえば、音声識別情報「１１１１」に対応づけられた音声データの音声認識結果が出力されると、イベント出力部１０６は、音声識別情報「１１１１」に対応づけられた音声データが、イベント「音声認識結果」に対応づけられた条件に合致することを検出する。イベント出力部１０６は、音声識別情報「１１１１」とともに、そのイベントを示す番号「３」を言動決定部１１０に出力する。

言動決定部１１０は、イベント「音声認識結果」を示す番号「３」に対応づけられた言動をロボット１００に実行させるよう決定する。具体的には、位置情報取得部１０８から取得した第一の識別タグ３０２の位置情報に基づき、「さくら」の方を向く言動を決定する。つづいて、言動決定部１１０は、ロボット言動記憶部１３０およびシナリオ記憶部１３２を参照して、音声認識結果に対応する言動を決定し、ロボット１００に実行させる。たとえば、音声認識結果が「こんにちは」だった場合、ロボット１００に、「さくらちゃん、こんにちは」等と発話させる。

また、たとえば、音声識別情報「１１１１」に対応づけられた音声データ、音声識別情報「１１１２」に対応づけられた音声データの音声のパワーが略同時に所定の閾値以上となった場合、ロボット１００は、該当する各参加者に対し、順番に同様の処理を行うことができる。この際、ロボット１００は、話者の方を向く動作を行うが、たとえば、「さくら」と「もも」の方を交互に向く動作を行うことができる。

次に、たとえば、ロボット１００に、クイズを出題させ、「今から言う問題に、“せーの”で答えてね」と発話させ、三人の子供から同時に回答を得る場合の例を説明する。ここでは、たとえばイベント２の「発話検出」は実行しないように設定される。

このとき、三人の音声が通信インターフェース２４を介して入力されると、音声認識部１０４は、それぞれの音声データについて音声認識を行う。ロボット１００は、音声認識が行われた子供の方を向く。このとき、三人の音声認識結果の出力に時間差がある場合は、最初に音声認識結果が検出された子供に対する処理が行われる。つづいて、次の子供に対する処理が行われる。

たとえば、ロボット１００が、「魚は生き物かな、それとも植物かな、どっちか答えて、せーの」と発話して、さくら、もも、たろうの順で「植物」、「生き物」、「生き物」と音声認識された場合、ロボット１００は、まず「さくら」の方を向き、次に「もも」の方を向き、最後に「たろう」の方を向く。つづいて、ロボット１００は、音声認識結果に対応する動作を行う。たとえば、「正解は生き物です。ももちゃんとたろうちゃんが正解しました。さくらちゃん残念でした。次に頑張ってね」等の発話を行う。

次に、たとえば、ロボット１００に、クイズを出題させ、「今から言う問題に、答えてね。早いもの勝ちだよ」と発話させ、三人の子供から早いもの順で回答を得る場合の例を説明する。ここでは、たとえばイベント２「発話検出」およびイベント３の「音声認識結果」の両方が実行されるよう設定される。

この場合、たとえば、イベント２の「発話検出」に対応する言動として、「発話開始時刻記録」を設定しておくことができる。これにより、ロボット１００は、一番早く発話を始めた参加者を認識することができる。

たとえば、ロボット１００が、「黒くて、空を飛ぶ鳥はなんでしょう？」と発話して、さくら、ももの順で、「はい、それはカラスです」、「カラス」と発話した場合、両方とも正解になる。ここで、回答を先に発話し始めたのはさくらだが、ももが発話した「カラス」の方が音節数が少なく、発話に要する時間が短いため、音声認識結果が先に出力される場合がある。この場合、音声認識結果の出力の前後だけを考慮すると、正解者は「もも」になってしまう。しかし、最も早く正解を思いついて発話を始めたのは「さくら」であるので、ロボット１００は、発話検出が最も早く行われ、かつ正解だった「さくら」が正解者だとすることができる。

図９は、この処理を行うための言動決定部１１０の手順を示すフローチャートである。
ここで、図示していないが、コントローラ１０は、発話検出のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する発話開始キューと、音声認識結果のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する音声認識結果キューとを記憶する記憶領域を含む。

言動決定部１１０は、イベント出力部１０６から、発話検出のイベントの出力があると（Ｓ２００のＹＥＳ）、そのイベントに対応づけられた音声識別情報を発話開始キューに追加する（Ｓ２０２）。

また、言動決定部１１０は、イベント出力部１０６から、音声認識結果のイベントの出力があると（Ｓ２０４のＹＥＳ）、そのイベントに対応づけられた音声識別情報と、発話開始キューの先頭の音声識別情報とが同じか否かを判断する（Ｓ２０６）。発話開始キューの先頭と同じ音声識別情報である場合（Ｓ２０６のＹＥＳ）、言動決定部１１０は、対応言動記憶部１１８、識別情報記憶部１２０、ロボット言動記憶部１３０、およびシナリオ記憶部１３２等を参照して、その音声識別情報に対応づけられた話者へのロボット１００の言動を決定する（Ｓ２０８）。

つづいて、発話開始キューからその音声識別情報を削除する（Ｓ２１０）。次いで、発話開始キューの先頭の音声識別情報が音声認識結果キューにあるか否かを判断し（Ｓ２１２）、ある場合（Ｓ２１２のＹＥＳ）、その音声識別情報を応答認識結果キューから削除する（Ｓ２１４）。この後、ステップＳ２０８に戻り、その音声識別情報に対応づけられた話者へのロボット１００の言動を決定する。

一方、ステップＳ２０６において、発話開始キューの先頭と同じ音声認識結果でない場合（Ｓ２０６のＮＯ）、音声認識結果キューに、音声識別情報を追加する（Ｓ２１６）。

ステップＳ２１２で発話開始キューの先頭の音声識別情報が応答認識結果キューにない場合（Ｓ２１２のＮＯ）、およびステップＳ２１６の後、処理を終了するか否かを判断し（Ｓ２１８）、終了しない場合（Ｓ２１８のＮＯ）、ステップＳ２００に戻り、待機する。

また、ステップＳ２１８で処理を終了する場合（Ｓ２１８のＹＥＳ）、処理を終了する。

このように、ロボット１００は、複数の参加者からの発話に応じて、他の参加者への対応を決定することができる。

以上で具体例として説明した処理は、対応言動記憶部１１８、ロボット言動記憶部１３０、およびシナリオ記憶部１３２に適宜設定しておくことにより、実現することができる。

以上、本実施の形態におけるロボット１００によれば、ロボット１００が、話者の音声を契機としたイベントの出力に基づき、イベントおよび話者の位置に応じた言動を実行するので、ロボット１００と話者のコミュニケーションを円滑にすることができる。

（第二の実施の形態）
本実施の形態において、イベント出力部がロボット１００ではなく、ロボット１００外部に設けられたイベント出力サーバに設けられる点で、第一の実施の形態と異なる。本実施の形態において、対応決定システムの一部はロボット１００内に組み込まれ、他の一部はイベント出力サーバ内に組み込まれる。

図１０は、本実施の形態におけるイベント出力サーバの構成を示すブロック図である。

本実施の形態において、第一の音声出力部３０４、第二の音声出力部３１４、第三の音声出力部３２４から出力された音声データおよびその音声識別情報は、第一のイベント出力サーバ２００または第二のイベント出力サーバ２２０に送信される。第一のイベント出力サーバ２００または第二のイベント出力サーバ２２０は、受信した音声データが所定の条件に合致するか否かを検出し、所定の条件に合致した場合に、当該条件に合致することを示すイベントを音声識別情報とともにロボット１００に送信する。ロボット１００は、第一のイベント出力サーバ２００または第二のイベント出力サーバ２２０から出力されたイベントおよび音声識別情報に基づき、言動を決定して実行する。

ここで、二つのイベント出力サーバのみを示しているが、イベント出力サーバは、参加者一人に対して一つ設けてもよく、また複数の参加者に対して一つだけ設けてもいずれでもよい。以下、第一の音声出力部３０４からの音声データが第一のイベント出力サーバ２００に送信され、第二の音声出力部３１４および第三の音声出力部３２４からの音声データが第二のイベント出力サーバ２２０に送信される場合を例として説明する。

第一のイベント出力サーバ２００は、音声入力部２０２、音声認識部２０４、イベント出力部２０６、データ出力部２０８、音声認識辞書２１０、条件記憶部２１２、および通信インターフェース（Ｉ／Ｆ）２１４を含む。第二のイベント出力サーバ２２０も第一のイベント出力サーバ２００と同様の構成を有する。

通信インターフェース２１４は、ネットワーク４００を介して、第一の音声出力部３０４からデータを受信する。

音声入力部２０２は、通信インターフェース２１４が受信した、第一の音声出力部３０４からの音声データを、音声識別情報に対応づけて入力する。音声入力部２０２は、入力した音声データを、音声識別情報とともに、音声認識部２０４およびイベント出力部２０６に出力する。

音声認識部２０４は、音声入力部２０２が入力した音声データを音声認識する。音声認識辞書２１０は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部２０４は、音声入力部２０２が入力した音声データと、音声認識辞書２１０に記憶された音声認識語彙とのマッチングを行う。音声認識部２０４は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部２０６に出力する。

イベント出力部２０６は、音声入力部２０２から出力される音声データ、および音声認識部２０４から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部２０６は、音声認識部２０４から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。

条件記憶部２１２は、第一の実施の形態において図４を参照して説明した条件記憶部１１６と同様の構成を有する。イベント出力部２０６は、条件記憶部２１２を参照して音声データが所定の条件に合致するか否かを検出する。

データ出力部２０８は、イベント出力部２０６が出力したイベント等のデータをロボット１００に送信する処理を行う。通信インターフェース２１４は、データ出力部２０８の指示に基づき、データをロボット１００に送信する。

図１１は、本実施の形態におけるロボット１００の構成を示すブロック図である。
ロボット１００は、図４に示したロボット１００のイベント出力部１０６および条件記憶部１１６を有さず、データ入力部１２２を有する点で異なる。

通信インターフェース２４は、ネットワーク４００を介して、第一のイベント出力サーバ２００および第二のイベント出力サーバ２２０から、音声識別情報に対応づけられたイベントを受信する。

データ入力部１２２は、通信インターフェース２４が受信した、複数の第一のイベント出力サーバ２００、および第二のイベント出力サーバ２２０からのデータを入力する。データ入力部１２２は、入力したデータを言動決定部１１０に出力する。

言動決定部１１０は、データ入力部１２２から出力されたイベントに基づき、対応言動記憶部１１８から、当該イベントに対応するロボット１００の言動を読み出す。つづいて、言動決定部１１０は、識別情報記憶部１２０を参照して、目的の音声識別情報に対応するタグ識別情報を読み出す。この後の処理は第一の実施の形態におけるロボット１００と同様である。

また、音声入力部１０２は、内部マイク１３が集音した音声データを入力し、音声認識部１０４に出力する。音声認識部１０４は、この音声データを音声認識する。

図１２は、本実施の形態における第一の音声出力部３０４、第一のイベント出力サーバ２００、およびロボット１００の処理手順を示すフローチャートである。

第一の音声出力部３０４は、第一のマイク３０６から入力される第一の参加者３００の音声データを常時第一のイベント出力サーバ２００に送信する（Ｓ３００）。

第一のイベント出力サーバ２００において、音声入力部２０２は第一の音声出力部３０４から送信された音声データを音声認識部２０４およびイベント出力部２０６に出力する。音声認識部２０４は、音声データを音声認識した場合、音声認識結果をイベント出力部２０６に出力する。イベント出力部２０６において、音声入力部２０２または音声認識部２０４から出力される音声に関するデータが所定の条件に合致した場合（Ｓ３０２）、イベント出力部２０６は、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。イベント、音声識別情報、および音声認識結果がロボット１００に送信される（Ｓ３０４）。

ロボット１００において、言動決定部１１０は、第一のイベント出力サーバ２００からイベントを取得すると、そのイベントに対応づけられた音声識別情報に対応するタグ識別情報に基づき、対応する参加者の位置情報を取得する（Ｓ３０６）。つづいて、言動決定部１１０は、対応言動記憶部１１８、識別情報記憶部１２０、ロボット言動記憶部１３０、およびシナリオ記憶部１３２を参照して、参加者の位置情報に基づき、ロボット１００の言動を決定する（Ｓ３０８）。次いで、メカ制御部１３４および音声合成部１３６等に言動を実行させる（Ｓ３１０）。

本実施の形態においても、第一の実施の形態と同様の効果が得られる。また、本実施の形態においては、イベント出力部がロボット１００外部のイベント出力サーバに設けられ、音声認識等の処理もイベント出力サーバで行われるので、ロボット１００自体の処理を簡易にすることができる。また、複数のイベント出力サーバを設け、複数の話者からの音声を分散して処理することにより、効率よく音声認識等の処理を行うこともできる。

以上の実施の形態で説明したロボットおよびイベント出力サーバの各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェースを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

以上、図面を参照して本発明の実施の形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

以上の実施の形態において、たとえば図５および図６に示したように、複数の条件およびそれに対応したイベントを示したが、ロボットまたはイベント出力サーバにおいて、これらの条件に合致するか否かを並行して判断する構成とすることもでき、また、いずれか一の条件のみについて、合致するか否かを判断する構成とすることもできる。どの条件に基づきイベントが出力されるかは、ロボットを用いる形態に応じて適宜設定可能である。

なお、以上の実施の形態において、ロボット１００がタグリーダ２６を有する構成を示したが、タグリーダは、ロボット１００外部に設けることもできる。この場合、ロボット１００は、当該タグリーダが読み取った話者の識別タグの情報に基づき、その話者の位置情報を取得することができる。

たとえば、識別タグがＲＦＩＤタグの場合、以下のようにしてロボット１００が話者の位置情報を取得することができる。まず、ロボット１００や話者がいる部屋の所定の位置に複数のタグリーダを設けておく。ロボット１００は、これらのタグリーダの位置を予め記憶しておく。たとえば、３個以上のタグリーダを設けておき、各タグリーダが読み取った話者の識別タグの電波強度をロボット１００に送信するようにする。ロボット１００は、これらの情報に基づき、話者が保持する識別タグの位置情報を取得する。

また、以上の実施の形態において、話者（参加者）に音声出力部を含む通信端末装置および識別タグを付与する形態を示したが、識別タグを付与することなく、通信端末装置の位置に基づき、話者の位置情報を取得することもできる。たとえば、通信端末装置として、ＧＰＳ機能付きのＰＤＡ端末を用いたり、通信端末装置から発信される電波を用いることにより、通信端末装置の位置情報を取得することができる。

このように、話者の位置情報を取得する方法は、種々の形態とすることができ、以上の実施の形態で説明したものに限定されない。

なお、以上の実施の形態において、ロボット１００が話者の位置情報に応じて、話者の方を向いたり、話者の方へ近づいたり等、動作する例を示したが、ロボット１００は、話者の位置情報に応じた発話のみを行うようにすることもできる。たとえば、ある話者が「湖の方に行ってみよう」等発話し、その話者の位置情報から、その話者が危険なエリアに近づいていることを検出した場合「○○ちゃん、そっちに行ったら危ないよ」等の発話だけを行うこともできる。

また、たとえば、ロボット１００が複数の話者とコミュニケーションを取る場合には、複数の話者に対するイベント出力に応じて、ロボット１００が効率よく言動を実行するように制御することができる。たとえば、さくら、もも、たろうの順で並んでいる子供が、さくら、たろう、ももの順で「こんにちは」と発話して音声認識された場合、ロボット１００が一度、さくらの方を向き、ももを通り越してたろうの方を向いた後、再びももの方に向かなければならない。ロボット１００は、いずれかの話者に対するイベント出力があると、所定時間待機して、他の話者に対するイベント出力の有無を確認した後、言動を行うようにすることができる。複数の話者に対するイベント出力があった場合、ロボット１００は、それらの話者の位置情報に応じて、効率よい言動をすることができる。たとえば、前述の例では、所定時間内にさくら、もも、たろうの全員から「こんにちは」という発話があり、音声認識された場合、ロボット１００は、さくら、もも、たろうの位置情報に基づき、さくら、もも、たろうの順にそれぞれの方を向き、「こんにちは」等の発話を行うようにすることができる。

以上の実施の形態において、ロボット１００が内部マイク１３を有する構成を示したが、ロボット１００は、内部マイク１３を有しない構成とすることもできる。この場合は、たとえば、ロボット１００は、音声入力不具合が生じた音声入力デバイスが付与された話者の方を向いて、何らかの発話をしたり、新しい音声入力デバイスをその話者の方へ持って行く等、内部マイク１３を用いない言動を適宜行うことができる。

以上の実施の形態ではとくに説明しなかったが、ロボット１００のコントローラ１０は、ＣＣＤカメラ２１Ａ、およびＣＣＤカメラ２１Ｂから送出された画像データにも基づいて、周囲の状況を解析し、それに応じてロボット１００の言動を決定することもできる。

また、以上の実施の形態では、自律移動するとともに話者と対話するロボットを例として説明したが、ロボットは、いずれか一方の機能のみを有するものとすることもできる。

また、以上の実施の形態において、対応決定システムおよび対応決定方法が、ロボット制御システムおよびロボット制御方法である場合を例として説明したが、対応決定システムおよび対応決定方法は、たとえば、擬人化エージェントを用いた音声対話システムや音声対話方法、または音声認識を利用した情報検索システムや情報検索方法に適用することもできる。このような場合も、ユーザがマイク等の音声入力デバイスに音声を入力した場合、音声に関するデータおよびユーザの位置に応じて、システムが適切な対応を取るようにすることができる。

以上の実施の形態において、ネットワーク４００が無線ＬＡＮである場合を例として説明したが、ネットワーク４００は、ブルートゥース等、他の種々の無線ネットワークや、有線のネットワークとすることもできる。

本発明は、自律移動型または対話型のロボットの制御システム、音声対話システム、音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムおよび方法に適用することができる。

実施の形態におけるロボットと、話者である参加者との関係を示す模式図である。実施の形態におけるロボットの一例を示す外観構成図である。ロボットの電気的構成の一例を示すブロック図である。実施の形態におけるロボットのコントローラの構成を詳細に示すブロック図である。条件記憶部の内部構成の一例を示す図である。対応言動記憶部の内部構成の一例を示す図である。識別情報記憶部の内部構成の一例を示す図である。実施の形態におけるロボットのコントローラの処理手順を示すフローチャートである。実施の形態における言動決定部の処理手順を示すフローチャートである。実施の形態におけるイベント出力サーバの構成を示すブロック図である。実施の形態におけるロボットの構成を示すブロック図である。実施の形態における第一の音声出力部、第一のイベント出力サーバ、およびロボットの処理手順を示すフローチャートである。

符号の説明

１胴体部
２頭部
３Ａ、３Ｂ車輪
１０コントローラ
１０ＡＣＰＵ
１０Ｂメモリ
１１バッテリ
１２スピーカ
１３内部マイク
１４Ａ、１４Ｂアクチュエータ
２１Ａ、２１ＢＣＣＤカメラ
２２Ａ、２２Ｂアクチュエータ
２４通信Ｉ／Ｆ
２６タグリーダ
１００ロボット
１０２音声入力部
１０４音声認識部
１０６イベント出力部
１０８位置情報取得部
１１０言動決定部
１１２言動実行部
１１４音声認識辞書
１１６条件記憶部
１１８対応言動記憶部
１２０識別情報記憶部
１２２データ入力部
１３０ロボット言動記憶部
１３２シナリオ記憶部
１３４メカ制御部
１３６音声合成部
１３８出力部
２００第一のイベント出力サーバ
２０２音声入力部
２０４音声認識部
２０６イベント出力部
２０８データ出力部
２１０音声認識辞書
２１２条件記憶部
２１４通信Ｉ／Ｆ
２２０第二のイベント出力サーバ
２２２音声入力部
２２４音声認識部
２２６データ出力部
２２８音声認識辞書
３００第一の参加者
３０２第一の識別タグ
３０４第一の音声出力部
３０６第一のマイク
３１０第二の参加者
３１２第二の識別タグ
３１４第二の音声出力部
３１６第二のマイク
３２０第三の参加者
３２２第三の識別タグ
３２４第三の音声出力部
３２６第三のマイク

Claims

話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記話者に対する対応を決定する対応決定部と、
前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
を含み、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システム。
請求項１に記載の対応決定システムにおいて、
前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことを特徴とする対応決定システム。
請求項２に記載の対応決定システムにおいて、
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とする対応決定システム。
請求項２または３に記載の対応決定システムにおいて、
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とする対応決定システム。
請求項２乃至４いずれかに記載の対応決定システムにおいて、
前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定システム。
請求項１乃至５いずれかに記載の対応決定システムにおいて、
前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含み、
前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することを特徴とする対応決定システム。
請求項６に記載の対応決定システムにおいて、
同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含み、
前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応する前記タグ識別情報を有する識別タグの位置情報を取得することを特徴とする対応決定システム。
請求項１乃至７いずれかに記載の対応決定システムにおいて、
前記対応決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定システム。
請求項１乃至８いずれかに記載の対応決定システムにおいて、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定システム。
請求項９に記載の対応決定システムにおいて、
前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得し、
前記対応決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することを特徴とする対応決定システム。
自律移動型または対話型のロボットであって、
請求項１乃至９いずれかに記載の対応決定システムと、
前記対応決定部が決定した対応を言動として実行する言動実行部と、
を含むことを特徴とするロボット。
音声入力デバイスから入力された音声を出力する音声出力部を含む通信端末装置および自律移動型または対話型のロボットにネットワークを介して接続されるとともに、これらを中継するイベント出力サーバであって、
前記ロボットは、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
前記イベント出力サーバは、
前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
を含むことを特徴とするイベント出力サーバ。
請求項１２に記載のイベント出力サーバにおいて、
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とするイベント出力サーバ。
請求項１２または１３に記載のイベント出力サーバにおいて、
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とするイベント出力サーバ。
請求項１２乃至１４いずれかに記載のイベント出力サーバにおいて、
前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた前記音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とするイベント出力サーバ。
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力するステップと、
前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
を含むことを特徴とする対応決定方法。
請求項１６に記載の対応決定方法において、
前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことを特徴とする対応決定方法。
請求項１７に記載の対応決定方法において、
前記イベントを前記音声識別情報とともに出力するステップは、
前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、
を含むことを特徴とする対応決定方法。
請求項１７または１８に記載の対応決定方法において、
前記イベントを前記音声識別情報とともに出力するステップは、
前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、
を含むことを特徴とする対応決定方法。
請求項１７乃至１９いずれかに記載の対応決定方法において、
話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含み、
前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定方法。
請求項１６乃至２０いずれかに記載の対応決定方法において、
前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定方法。
請求項１６乃至２１いずれかに記載の対応決定方法において、
前記対応を決定するステップにおいて、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定方法。
コンピュータを、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力する手段、
前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
として機能させることを特徴とするプログラム。
請求項２３に記載のプログラムにおいて、
前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。
コンピュータを、
話者に付与された音声入力デバイスから入力された音声に関するデータを、当該話者に対応づけられた音声識別情報とともに入力する手段、
前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するイベント出力手段、
前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
として機能させることを特徴とするプログラム。
請求項２５に記載のプログラムにおいて、
前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。