JP2006243555A - 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 - Google Patents

対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 Download PDF

Info

Publication number
JP2006243555A
JP2006243555A JP2005061557A JP2005061557A JP2006243555A JP 2006243555 A JP2006243555 A JP 2006243555A JP 2005061557 A JP2005061557 A JP 2005061557A JP 2005061557 A JP2005061557 A JP 2005061557A JP 2006243555 A JP2006243555 A JP 2006243555A
Authority
JP
Japan
Prior art keywords
voice
event
speaker
identification information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005061557A
Other languages
English (en)
Inventor
Toru Iwazawa
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005061557A priority Critical patent/JP2006243555A/ja
Publication of JP2006243555A publication Critical patent/JP2006243555A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 話者の音声に応じて、話者の位置も考慮して適切な対応をとる。
【解決手段】 ロボット100は、第一の参加者300、第二の参加者310、および第三の参加者320にそれぞれ付与された第一のマイク306、第二のマイク316、および第三のマイク326から入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力する。ロボット100は、入力したイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得して、イベントと、話者の位置情報とに基づき、言動を決定する。
【選択図】 図1

Description

本発明は、対応決定システム、ロボット、イベント出力サーバ、および対応決定方法に関する。
特許文献1には、固有の無線タグを保有するコミュニケーション対象との間でコミュニケーション行動を実行するコミュニケーションロボットが開示されている。このコミュニケーションロボットは、少なくともタグ情報を記録するタグ情報データベース、コミュニケーション対象からタグ情報を取得する取得手段、取得手段の取得結果に基づいて近傍または周囲に存在する1または複数のコミュニケーション対象を個別に認識する認識手段、認識手段の認識結果に基づいてコミュニケーション行動を実行する1のコミュニケーション対象を特定する特定手段、および特定手段によって特定されたコミュニケーション対象にコミュニケーション行動を実行する実行手段を備える。
このような構成を有する従来のコミュニケーションロボットは次のように動作する。コミュニケーションロボットは、コミュニケーション行動を実行する際、取得手段によってコミュニケーション対象からタグ情報を取得する。認識手段は、コミュニケーション対象としての人間を個別に認識する。特定手段は、認識手段の認識結果に基づいて、コミュニケーションロボットの近傍または周囲に存在する参加者のうち一人の参加者を特定する。実行手段は、当該参加者に対してコミュニケーション行動を実行する。これにより、近傍または周囲に存在する参加者を個別に認識することができ、特定した参加者に適したコミュニケーション行動を取ることができる、と記載されている。
特開2004−216513号公報
しかし、従来のロボット(システム)においては、ロボットの近傍または周囲に存在するコミュニケーション対象を認識することができるだけで、履歴情報等に基づき、ロボットが自発的に話しかけることしかできなかった。
たとえ対話の相手を把握することができても、その相手の発話内容や状態を認識できないと、ロボットが相手と円滑にコミュニケーションを取ることができない。とくに、複数の相手とコミュニケーションを取る場合、それぞれの相手の発話内容や状況を認識して適切な対応をとるのは困難だった。
本発明は上記事情を踏まえてなされたものであり、本発明の目的は、話者の音声に応じて、話者の位置も考慮して適切な対応をとる技術を提供することにある。
本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、
前記話者に対する対応を決定する対応決定部と、
前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
を含み、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システムが提供される。
ここで、音声に関するデータは、音声データおよび、音声データに基づく音声認識結果を含む。音声入力デバイスは、たとえばマイクとすることができる。また、マイクは、接話マイクとすることができる。
ここで、対応決定システムは、たとえば、自律移動型または対話型のロボットを制御するロボット制御システム、音声対話システム、または音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムとすることができる。
本発明の対応決定システムによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した対応を取るようにすることができる。たとえば、本発明の対応決定システムがロボット制御システムの場合、対応決定部は、イベントと、話者の位置情報とに基づき、ロボットの言動を決定することができる。これにより、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。
本発明によれば、接話マイク等の音声入力デバイスから入力された音声に基づき、処理が行われるので、雑音等への耐性が高いロバストな対応決定システムが提供される。さらに、音声入力デバイスを対応決定システムに対してワイヤレス(無線)接続とすることにより、話者の身体的自由度を高く保つことができる。また、本発明によれば、話者の音声および位置情報に応じて、処理が行われるので、インターフェース透過性の高い対応決定システムが提供される。
なお、本発明の対応決定システムは、一つのシステム内に設けられてもよく、互いにネットワークを介して接続された複数のシステムに分散して設けられてもよい。たとえば、本発明の対応決定システムがロボット制御システムの場合、当該システムは、ロボット内に設けられてもよく、ロボットと無線等のネットワークで通信可能なサーバ内に設けられてもよい。また、対応決定システムの一部の機能がロボット内に設けられ、他の機能がサーバ内に設けられてもよい。
自律移動したり話者と対話したりするロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。従来、ロボットがユーザと対話したり、ユーザに対して何らかの動作をする場合、画像認識や音声の特徴によりユーザを識別する試みがなされていた。しかし、このような方法では、話者がロボットのごく近傍にいたり、雑音がない等の条件が整っていないと、話者を認識するのが困難だった。また、特許文献1に記載のように、コミュニケーション対象に固有の無線タグを保有させることにより、コミュニケーション対象を認識するという試みもなされている。しかし、上述したように、この方法では近傍にいるコミュニケーション対象を認識することができるだけで、話者の発話内容を把握するのが困難だという点では、他の従来技術と同様である。
本発明の対応決定システムによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。
本発明の対応決定システムは、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことができる。
本発明の対応決定システムがロボット制御システムの場合、イベント出力部は、ロボット内に設けられてもよいが、ロボットと無線等で通信可能なサーバ内に設けられてもよい。たとえば、ロボットが多数の話者と同時に対話をするような形態においては、複数のサーバにイベント出力部の機能をそれぞれ持たせ、複数のサーバから言動決定部の機能を有するロボットまたは一のサーバへイベント等のデータが入力される構成とすることもできる。
本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。
このような構成とすれば、何らかの不具合により、音声入力デバイスからの音声の入力が途絶えた場合に、話者の位置を考慮して適切な対応を取ることができる。
本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。
このような構成とすれば、音声入力デバイスに話者の発話が入力された場合に、話者の位置を考慮して適切な対応を取ることができる。たとえば、対応決定システムがロボット制御システムであって、発話検出を示すイベントが出力された場合に、ロボットが話者の方向を向くように制御した場合、話者は、自分が発話したことにより、ロボットが自分の方を向いたことを認識することができる。このような適応動作により、ロボットのインターフェース透過性を高め、ロボットの動作が話者に分かりやすいようにすることができる。なお、発話は、音声の調波構造や音声のパワーが所定の値以上である継続時間等に基づき検出することもでき、イベント出力部は、このような状態を検知して、発話検出を示すイベントを出力することもできる。
本発明の対応決定システムは、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。
このような構成とすれば、音声入力デバイスに話者の発話が入力され、音声認識が行われた場合に、話者の位置を考慮して、適切な対応を取ることができる。
本発明の対応決定システムは、前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含むことができ、前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することができる。
識別タグは、たとえばアクティブ/パッシブのRFID(Radio Frequency Identification)タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。
本発明の対応決定システムは、同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含むことができ、前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応するタグ識別情報を有する識別タグの位置情報を取得することができる。
本発明の対応決定システムにおいて、前記言動決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。
本発明によれば、複数の相手とコミュニケーションを取る場合でも、各話者からの音声に関するデータと、各話者の位置情報とが、それぞれ話者に対応づけられて取得される。そのため、複数の相手に対して、それぞれ適切な対応を取ることができる。
本発明の対応決定システムにおいて、前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得することができ、前記言動決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することができる。
これにより、話者の位置情報の取得が容易になるとともに、ロボットが話者の方を向いたり、話者の方へ近づいたりする際の制御を容易にすることができる。
本発明によれば、
自律移動型または対話型のロボットであって、
上記いずれかに記載の対応決定システムと、
前記対応決定部が決定した対応を言動として実行する言動実行部と、
を含むことを特徴とするロボットが提供される。
本発明のロボットによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。また、本発明のロボットは、話者と対面して言動を実行する構成とすることができる。このようなロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。本発明のロボットによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。これにより、話者とロボットとが円滑なコミュニケーションを取ることができる。
本発明によれば、
音声入力デバイスから入力された音声を出力する音声出力部を含む通信端末装置および自律移動型または対話型のロボットにネットワークを介して接続されるとともに、これらを中継するイベント出力サーバであって、
前記ロボットは、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
前記イベント出力サーバは、
前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
を含むことを特徴とするイベント出力サーバが提供される。
本発明のイベント出力サーバによれば、イベントが、音声識別情報とともにロボットに送信されるので、ロボットにおいて、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。
本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。
本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。
本発明のイベント出力サーバにおいて、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。
本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力するステップと、
前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
を含むことを特徴とする対応決定方法が提供される。
本発明の対応決定方法によって、自律移動型または対話型のロボットを制御することができ、話者に対する対応を決定するステップにおいて、イベントと、話者の位置情報に基づき、ロボットの言動を決定することができる。
本発明の対応決定方法によれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置の双方に適応した対応を決定することができる。たとえば、本発明の対応決定方法により、ロボットを制御する場合、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。
本発明の対応決定方法は、前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことができる。
本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、を含むことができる。
本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、を含むことができる。
本発明の対応決定方法は、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含むことができ、前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。
本発明の対応決定方法において、前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、話者の音声に応じて、話者の位置も考慮して適切な対応をとることができる。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、以下の図面において、本発明の本質に関わらない部分の構成は省略する。
以下の実施の形態において、対応決定システムおよび対応決定方法が、自律移動するとともに話者と対話するロボットを制御するロボット制御システムおよびロボット制御方法である場合を例として説明する。
以下の実施の形態において、ロボットとコミュニケーションを取りたい人には、マイク、マイクに入力された音声をロボットに送信する音声出力部を含む通信端末装置、およびロボットが位置情報を取得するための識別タグが付与される。
(第一の実施の形態)
本実施の形態において、対応決定システムは、ロボット内に組み込まれる。
図1は、本実施の形態におけるロボットと、話者である参加者との関係を示す模式図である。
ここでは、ロボット100と、第一の参加者300、第二の参加者310、および第三の参加者320とのコミュニケーションを例に説明する。
第一の参加者300、第二の参加者310、および第三の参加者320は、それぞれ、第一の識別タグ302、第一の音声出力部304、および第一のマイク306、第二の識別タグ312、第二の音声出力部314、および第二のマイク316、ならびに第三の識別タグ322、第三の音声出力部324、および第三のマイク326を保持する。
以下、第一の参加者300を例に説明する。
第一のマイク306は、第一の参加者300の音声を入力する。第一のマイク306は、参加者が動きやすいように、ヘッドセットマイクとすることができる。第一のマイク306は、第一の参加者300に付与された第一の音声出力部304に接続される。
第一の音声出力部304は、たとえば携帯型の無線通信装置である。第一の音声出力部304は、たとえばPDA(Personal Digital Assistance)とすることができる。第一の音声出力部304は、第一のマイク306から入力される音声をロボット100に送信する。この際、第一の音声出力部304は、音声とともに自己を識別する音声識別情報をロボット100に送信する。第一の参加者300は、たとえば第一の音声出力部304をメッシュ状のポケットを有するバッグやリュックのポケットに入れて、第一の音声出力部304を携帯することができる。
ロボット100と第一の音声出力部304とは、たとえば無線LAN等を介して通信を行うことができる。ロボット100と第一の音声出力部304とが無線LANを介して通信を行う場合、たとえば、TCP(Transmission Control Protocol)/IP(Internet Protocol)により通信を行うことができる。この場合、たとえば第一の音声出力部304の音声識別情報として、各装置に割り当てられたポート番号やIPアドレスを用いることもできる。
第一の識別タグ302は、たとえばアクティブ/パッシブのRFID(Radio Frequency Identification)タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。第一の識別タグ302には、タグ固有のタグ識別情報が記憶される。第一の参加者300は、第一の識別タグ302をたとえば胸元等自分の体の一部につけておく。ロボット100は、第一の識別タグ302からタグ識別情報を読み取ることにより、第一の参加者300を識別することができる。また、ロボット100は、第一の識別タグ302の読み取り強度等により、第一の識別タグ302の位置情報を取得することができる。ここで、位置情報とは、ロボット100と第一の参加者300との距離および第一の参加者300のロボット100に対する方向等、第一の参加者300のロボット100に対する位置情報とすることができる。
たとえば、第一の識別タグ302が超音波タグの場合、第一の識別タグ302から定期的に超音波を送信し、ロボット100のリーダが受信する。ロボット100は、リーダが受信した超音波の到達時間や受信角度により第一の参加者300の位置情報を取得することができる。
第二の参加者310の第二の識別タグ312、および第三の参加者320の第三の識別タグ322も、第一の参加者300の第一の識別タグ302と同様の構成を有する。第二の参加者310の第二の音声出力部314、および第三の参加者320の第三の音声出力部324も、第一の参加者300の第一の音声出力部304と同様の構成を有する。
ロボット100は、複数の参加者の音声を同時に受信可能に構成されるとともに、複数の参加者の位置情報を同時に取得可能な構成とされる。本実施の形態において、ロボット100は、自律移動型である。
図2は、本実施の形態におけるロボットの一例を示す外観構成図である。
ロボット100は、たとえば、胴体部1および頭部2が連結されることにより構成される。胴体部1の下部には左右にそれぞれ車輪3Aおよび車輪3Bが取り付けられており、これらの車輪は、独立に前後に回転することができる。
頭部2は、胴体部1に垂直に取り付けられた垂直軸とその垂直軸に対して90度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部2の中心を通るように設置されており、水平軸は胴体部1と頭部2が正面を向いた状態で頭部2の中心を通りかつ左右方向に水平に設置されている。つまり、頭部2は左右と上下の2自由度で、決められた範囲内で回転することができる。
胴体部1の表面には、スピーカ12および内部マイク13が設けられる。また、頭部2の表面には、CCDカメラ21AおよびCCDカメラ21Bが設けられる。
図3は、ロボット100の電気的構成の一例を示すブロック図である。
胴体部1には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、スピーカ12、内部マイク13、2つの車輪を動かすためのアクチュエータ14Aおよびアクチュエータ14B、通信インターフェース(I/F)24、ならびにタグリーダ26等が収納されている。
内部マイク13は、特定の話者からの発話を含む周囲の音声を集音し、得られた音声データをコントローラ10に送出する。
コントローラ10は、CPU10Aやメモリ10Bを内蔵しており、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
通信インターフェース24は、参加者(図1の第一の参加者300、第二の参加者310、および第三の参加者320)に付与された通信端末装置(図1の第一の音声出力部304、第二の音声出力部314、および第三の音声出力部324)との間で通信を行う。
タグリーダ26は、参加者(図1の第一の参加者300、第二の参加者310、および第三の参加者320)に付された識別タグ(図1の第一の識別タグ302、第二の識別タグ312、および第三の識別タグ322)からタグ識別情報を読み取る。
頭部2には、CCDカメラ21AおよびCCDカメラ21B、ならびに頭部2を回転するためのアクチュエータ22Aおよびアクチュエータ22B等が収納されている。
CCDカメラ21AおよびCCDカメラ21Bは、周囲の状況を撮像し、得られた画像データを、コントローラ10に送出する。
アクチュエータ22Aおよびアクチュエータ22Bは、ロボット100の頭部2を上下左右に回転させる。
コントローラ10は、内部マイク13や通信インターフェース24を介して得られる音声データやCCDカメラ21AおよびCCDカメラ21Bから得られる画像データに基づいて、メモリ10Bから適宜情報を読み出し、参加者の状況や参加者の言動を解析し、対応するロボット100の言動を決定する。
コントローラ10は、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、アクチュエータ22B、およびタグリーダ26等を制御してロボット100に決定した動作を実行させる。また、コントローラ10は、合成音を生成し、スピーカ12に供給して、ロボット100に決定した発話を出力させる。
図4は、本実施の形態におけるロボット100のコントローラ10の構成を詳細に示すブロック図である。図4では、コントローラ10のハードウェア単位の構成ではなく、機能単位のブロックを示す。
ロボット100のコントローラ10(対応決定システム)は、話者に付与された第一のマイク306、第二のマイク316、第三のマイク326等(音声入力デバイス)から入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、話者に対する対応を決定する言動決定部110(対応決定部)と、対応決定部が入力したイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得する位置情報取得部108と、を含み、言動決定部110は、イベントと、話者の位置情報とに基づき、ロボット100の言動(対応)を決定する。
ロボット100のコントローラ10は、音声入力部102と、音声認識部104と、イベント出力部106と、位置情報取得部108と、言動決定部110と、言動実行部112の一部と、音声認識辞書114と、条件記憶部116と、対応言動記憶部118と、識別情報記憶部120と、ロボット言動記憶部130と、シナリオ記憶部132とを含む。なお、言動実行部112は、コントローラ10により実現されるメカ制御部134、音声合成部136、および出力部138、ならびにアクチュエータ14A、アクチュエータ14B、アクチュエータ22A、アクチュエータ22B、およびスピーカ12を含む。
通信インターフェース24は、ネットワーク400を介して、複数の音声出力部(第一の音声出力部304、第二の音声出力部314、および第三の音声出力部324)から各種データを受信する。
音声入力部102は、通信インターフェース24が受信した、複数の音声出力部からの音声データを、各音声識別情報に対応づけて入力する。音声入力部102は、入力した音声データを、音声識別情報とともに、音声認識部104およびイベント出力部106に出力する。また、音声入力部102は、内部マイク13が集音した音声データも入力し、音声認識部104に出力する。
なお、音声入力部102は、通信インターフェース24から入力される音声データまたは内部マイク13から入力される音声データの両方を同時に入力することもできるが、いずれか一方からの入力をオフとし、他方からの入力のみをオンとすることもできる。
音声入力部102が内部マイク13から音声データを入力する場合の各構成要素の処理は後述し、音声入力部102が通信インターフェース24から音声データを入力する場合の処理機能を以下に説明する。
音声認識部104は、音声入力部102が入力した音声データを音声認識する。音声認識辞書114は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部104は、音声入力部102が入力した音声データと、音声認識辞書114に記憶された音声認識語彙とのマッチングを行う。音声認識部104は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部106に出力する。
イベント出力部106は、音声入力部102から出力される音声データ、および音声認識部104から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部106は、音声認識部104から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。
条件記憶部116は、所定の条件と、その条件に合致したことを示すイベントとを対応づけて記憶する。イベント出力部106は、条件記憶部116を参照して音声データが所定の条件に合致するか否かを検出する。
言動決定部110は、イベント出力部106からイベントと音声識別情報とが出力されると、その音声識別情報で特定される参加者の位置情報を位置情報取得部108から取得する。識別情報記憶部120は、各参加者の音声識別情報と、タグ識別情報とを対応づけて記憶する。言動決定部110は、イベント出力部106からイベントおよび音声識別情報を取得すると、識別情報記憶部120を参照して、音声識別情報に対応づけられたタグ識別情報を読み出し、そのタグ識別情報の位置情報の取得を位置情報取得部108に要請する。位置情報取得部108は、タグリーダ26により参加者の識別タグを読み取る処理を行い、目的のタグ識別情報を有する識別タグの位置情報を取得する。次いで、位置情報取得部108は、この位置情報を言動決定部110に通知する。言動決定部110は、位置情報取得部108から通知された位置情報を目的の参加者の位置情報として取得する。
言動決定部110は、イベント出力部106から取得したイベントと参加者の位置情報とに基づき、言動実行部112に実行させる言動を決定する。対応言動記憶部118は、イベントと、それに対応するロボット100の言動とを対応づけて記憶する。言動決定部110は、対応言動記憶部118を参照して、イベント出力部106から取得したイベントに対応するロボット100の言動を読み出す。
ロボット言動記憶部130は、特定の状況におけるロボットの発話データおよび動作データを記憶する。シナリオ記憶部132は、シナリオ情報を記憶する。
言動決定部110は、対応言動記憶部118から読み出したロボット100の言動、話者の位置情報に基づき、必要に応じてロボット言動記憶部130およびシナリオ記憶部132を参照して、ロボット100の言動を決定する。
言動決定部110は、決定した言動を指令として、メカ制御部134および音声合成部136に送出する。メカ制御部134は、言動決定部110から送出された指令に基づき、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22Bを駆動するための制御信号を生成し、これをアクチュエータ14A、14B、22A、および22Bへ送出する。これにより、アクチュエータ14A、14B、22A、および22Bは、制御信号にしたがって駆動する。
音声合成部136は、言動決定部110から送出された指令に基づき、合成音を生成する。出力部138には、音声合成部136からの合成音のディジタルデータが供給されるようになっており、出力部138は、それらのディジタルデータを、アナログの音声データにD/A変換し、スピーカ12に供給して出力させる。
次に、音声入力部102が内部マイク13から音声データを入力する場合の各構成要素の処理機能を説明する。
この場合、音声入力部102が入力する音声データには、音声識別情報が対応づけられないことになる。ここでは図示していないが、コントローラ10は、たとえばCCDカメラ21AやCCDカメラ21Bから入力される画像データ等を用いて、話者を認識するようにすることができる。話者が認識できる場合、音声認識部104、イベント出力部106、および言動決定部110は、上述した音声入力部102が通信インターフェース24から音声データを入力する場合と同様の処理を行うことができる。
また、話者が認識できない場合、音声入力部102が入力した音声データや音声認識部104が認識した音声認識結果は、音声入力部102や音声認識部104から言動決定部110に直接入力されるようにすることもでき、言動決定部110は、ロボット言動記憶部130やシナリオ記憶部132を参照して、ロボット100の言動を決定することができる。話者が認識できない場合でも、音声入力部102が入力した音声データや音声認識部104が認識した音声認識結果は、イベント出力部106に入力され、イベント出力部106により、所定の条件に合致するか否かを検出する処理が行われるようにすることもできる。
図5は、条件記憶部116の内部構成の一例を示す図である。以下、図4も参照して説明する。
条件記憶部116は、イベント欄と条件欄とを含む。イベント欄は、番号欄と内容欄とを含む。
たとえば、番号「1」のイベントの内容は「音声入力不具合」、条件は「所定時間音声入力がなし」である。つまり、何らかの不具合により音声入力部102が第一の参加者300、第二の参加者310、第三の参加者320からの音声を入力できない場合にこの条件に合致する。
音声入力不具合が生じる原因としては、たとえば、各音声出力部を含む通信端末装置の電源切れ等の不具合や、各マイクと対応する音声出力部との間の断線等が考えられる。本実施の形態において、各マイクは、各参加者の発話音声がない場合でも、周囲の音声や音声出力部特有のノイズにより、音声パワーがゼロの状態が継続することはない構成とされる。そのため、イベント出力部106は、音声入力部102から出力される音声のパワーがゼロの状態が所定時間以上継続した場合、「所定時間音声入力なし」という条件に合致することを検出することができる。また、たとえば、ロボット100から各通信端末装置に定期的にテストデータを送信し、所定時間内に応答があるか否かに応じて、「所定時間音声入力なし」という条件に合致するか否かを検出することもできる。イベント出力部106は、各通信端末装置にテストデータを送信した後、所定時間内に応答がない場合に、「所定時間音声入力なし」という条件に合致したことを検出することができる。
また、たとえば、番号「2」のイベントの内容は「発話検出」、条件は「音声レベルが所定の閾値以上」である。つまり、第一の参加者300、第二の参加者310、および第三の参加者320のいずれかから発話があった場合にこの条件に合致する。
イベント出力部106は、音声入力部102から出力される音声のパワーが所定の閾値以上となった場合に、「音声レベルが所定の閾値以上」という条件に合致することを検出することができる。また、イベント出力部106は、音声入力部102から出力される音声のパワーが所定の閾値以上となった場合に、所定時間その識別情報の音声を収集、解析し、人の声の特徴量が含まれているかどうかを判定し、その判定結果に応じて条件に合致するか否かを検出することもできる。
また、たとえば、番号「3」のイベントの内容は「音声認識結果」、条件は「音声認識結果取得」である。つまり、音声認識部104が音声認識結果を出力した場合にこの条件に合致する
図6は、対応言動記憶部118の内部構成の一例を示す図である。以下、図4も参照して説明する。
対応言動記憶部118は、イベント番号欄と言動欄とを有する。イベント番号欄には、条件記憶部116のイベント欄の番号欄の番号に対応する番号が記憶される。
たとえば、番号「1」のイベントが出力された場合の言動は、「(1)対応する話者に近づく。(2)内部マイクによる音声入力に切り替え。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者に近づく行為を言動実行部112に実行させる。この際、言動決定部110は、位置情報取得部108から対応する参加者の位置情報を逐次取得するようにし、参加者との距離が所定距離内になったら、(2)の言動を実行させる。(2)の言動としては、音声入力部102が内部マイク13からの音声データを選択的に入力するようにし、対応する参加者の音声をロボット100の内部マイク13から直接入力する。
また、たとえば、番号「2」のイベントが出力された場合の言動は、「話者の方を向く。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者の方を向く行為を言動実行部112に実行させる。
また、たとえば番号「3」のイベントが出力された場合の言動は、「(1)話者の方を向く。(2)対応する音声出力。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者の方を向く行為を言動実行部112に実行させる。つづいて、言動決定部110は、ロボット言動記憶部130やシナリオ記憶部132を参照して、音声認識結果に対応する応答の音声を出力を決定し、言動実行部112に実行させる。
図7は、識別情報記憶部120の内部構成の一例を示す図である。
識別情報記憶部120は、名前欄と、音声識別情報欄と、タグ識別情報欄とを含む。
名前欄には参加者の名前が記憶される。音声識別情報欄には、各音声出力部の識別情報が記憶される。タグ識別情報欄には、各識別タグのタグ識別情報が記憶される。
ここで、たとえば「さくら」という名前の参加者には、音声識別情報「1111」、タグ識別情報「0001」が対応づけられている。また、「もも」という名前の参加者には、音声識別情報「1112」、タグ識別情報「0002」が対応づけられている。また、「たろう」という名前の参加者には、音声識別情報「1113」、タグ識別情報「0003」が対応づけられている。
ここで、識別情報記憶部120は、必ずしも名前欄を有する必要はないが、名前欄に参加者の名前を記憶しておくことにより、ロボット100から参加者へ名前を呼びかけることができ、参加者とロボット100とのコミュニケーションをより円滑に図ることができる。また、識別情報記憶部120は、各参加者の性別、年齢等、参加者に関する情報を記憶する欄をさらに含むことができる。これにより、ロボット100が参加者に応じた応対をすることができる。
図8は、本実施の形態におけるロボット100のコントローラ10の処理手順を示すフローチャートである。
コントローラ10の処理手順(対応決定方法)は、話者に付与された第一のマイク306、第二のマイク316、第三のマイク326等(音声入力デバイス)から入力された音声に関するデータを、音声識別情報とともに入力し、音声に関するデータが所定の条件に合致するか否かを検出し(S100)、条件に合致した場合に(S100のYES)、条件に合致することを示すイベントを、音声識別情報とともに出力するステップ(S102)と、所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、入力されたイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得するステップ(S104)と、イベントと、話者の位置情報とに基づき、話者に対するロボット100の言動(対応)を決定するステップ(S106)と、を含む。
以下、具体的に説明する。
イベント出力部106は、音声入力部102から入力される音声データおよび音声認識部104から入力される音声認識結果を常時モニタリングする。音声に関するデータが条件記憶部116に記憶されたいずれかの条件に合致することを検出した場合(S100のYES)、イベント出力部106は、その条件に対応するイベントを音声識別情報に対応づけて言動決定部110に出力する(S102)。
言動決定部110は、イベント出力部106からイベントおよび音声識別情報が出力されると、識別情報記憶部120を参照して、音声識別情報に対応づけられたタグ識別情報を読み出す。次いで、言動決定部110は、位置情報取得部108にそのタグ識別情報を通知する。位置情報取得部108は、言動決定部110が読み出したタグ識別情報を有する識別タグを検出し、その位置を算出し、言動決定部110に通知する。これにより、言動決定部110は、イベントに対応するタグ識別情報を有する参加者の位置情報を取得する(S104)。
言動決定部110は、対応言動記憶部118を参照して、イベントに対応する言動を読み出す。また、言動決定部110は、必要に応じて、ロボット言動記憶部130およびシナリオ記憶部132も参照する。言動決定部110は、対応言動記憶部118、ロボット言動記憶部130、シナリオ記憶部132から読み出した情報、および参加者の位置情報に基づき、ロボット100の言動を決定する(S106)。つづいて、言動決定部110は、決定した言動をメカ制御部134、および音声合成部136に通知する。
メカ制御部134および音声合成部136等の言動実行部112は、言動決定部110が決定した言動を実行する(S108)。
言動決定部110が決定した一連の言動が終わると、コントローラ10の処理を終了するか否かが判断され(S110)、終了しない場合(S110のNO)、ステップS100に戻る。ステップS110で、コントローラ10の処理を終了する場合(S110のYES)、処理を終える。
次に、具体例を説明する。以下、図1〜図8を適宜参照して説明する。
たとえば、ロボット100が、第一の参加者300(さくら)、第二の参加者310(もも)、第三の参加者320(たろう)と会話する場合の例を説明する。
第一の参加者300である「さくら」には、タグ識別情報「0001」を有する第一の識別タグ302が付され、音声識別情報「1111」を有する第一の音声出力部304が付与されている。「さくら」が発話する音声は、第一のマイク306により集音され、第一の音声出力部304から、音声識別情報「1111」に対応づけてロボット100に送信される。
第二の参加者310である「もも」には、タグ識別情報「0002」を有する第二の識別タグ312が付され、音声識別情報「1112」を有する第二の音声出力部314が付与されている。「もも」が発話する音声は、第二のマイク316により集音され、第二の音声出力部314から、音声識別情報「1112」に対応づけてロボット100に送信される。
第三の参加者320である「たろう」には、タグ識別情報「0003」を有する第三の識別タグ322が付され、音声識別情報「1113」を有する第三の音声出力部324が付与されている。「たろう」が発話する音声は、第三のマイク326により集音され、第三の音声出力部324から、音声識別情報「1113」に対応づけてロボット100に送信される。
たとえば、音声識別情報「1111」に対応づけられた音声データの入力が所定時間ない場合、ロボット100のイベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「音声入力不具合」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「1」を言動決定部110に出力する。
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
言動決定部110は、イベント「音声入力不具合」を示す番号「1」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」に近づくための動作を決定する。言動決定部110は、言動実行部112に決定した動作を実行させる。ロボット100が「さくら」に近づくと、言動決定部110は、音声入力部102が内部マイク13から音声を入力するよう切り替える。このように、「音声入力不具合」を示すイベントが出力された場合、ロボット100が対応する話者に近づくことにより、ロボット100が内部マイク13から話者の音声を入力する際に、周囲の雑音や遠距離発話を避けることができ、より正確に音声認識等を行うことができる。ただし、この言動は必ずしも行わなくてよく、単にロボット100が話者の方を向くだけの言動でもよく、また、話者の方を向いて、「さくらちゃん、こっちに来て」等発話し、話者がロボット100の近くに来るような言動を行うこともできる。
なお、ロボット100が以上の言動を行う際、音声入力不具合が生じた参加者の名前が「さくら」であることもわかるので、ロボット100が「さくら」の方に移動する前に、ロボット100に「さくらちゃん、ちょっと待っていて」等の発話をさせることもできる。また、ロボット100が「さくら」に近づいたときに、ロボット100に「さくらちゃん、もう一度言って」等の発話をさせることもできる。この後、内部マイク13から入力される音声に基づき、音声認識等を行うことができる。
また、他の例として、「さくら」の方を向き、「さくらちゃんの声が聞こえないよ。近くにいるお兄さんに聞いてみて」等の発話をするようにすることもできる。
また、たとえば、音声識別情報「1111」に対応づけられた音声データの音声のパワーが所定の閾値以上となった場合、ロボット100のイベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「発話検出」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「2」を言動決定部110に出力する。
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
言動決定部110は、イベント「発話検出」を示す番号「2」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」の方を向く言動を決定する。言動決定部110は、言動実行部112に決定した言動を実行させる。
また、たとえば、音声識別情報「1111」に対応づけられた音声データの音声認識結果が出力されると、イベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「音声認識結果」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「3」を言動決定部110に出力する。
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
言動決定部110は、イベント「音声認識結果」を示す番号「3」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」の方を向く言動を決定する。つづいて、言動決定部110は、ロボット言動記憶部130およびシナリオ記憶部132を参照して、音声認識結果に対応する言動を決定し、ロボット100に実行させる。たとえば、音声認識結果が「こんにちは」だった場合、ロボット100に、「さくらちゃん、こんにちは」等と発話させる。
また、たとえば、音声識別情報「1111」に対応づけられた音声データ、音声識別情報「1112」に対応づけられた音声データの音声のパワーが略同時に所定の閾値以上となった場合、ロボット100は、該当する各参加者に対し、順番に同様の処理を行うことができる。この際、ロボット100は、話者の方を向く動作を行うが、たとえば、「さくら」と「もも」の方を交互に向く動作を行うことができる。
次に、たとえば、ロボット100に、クイズを出題させ、「今から言う問題に、“せーの”で答えてね」と発話させ、三人の子供から同時に回答を得る場合の例を説明する。ここでは、たとえばイベント2の「発話検出」は実行しないように設定される。
このとき、三人の音声が通信インターフェース24を介して入力されると、音声認識部104は、それぞれの音声データについて音声認識を行う。ロボット100は、音声認識が行われた子供の方を向く。このとき、三人の音声認識結果の出力に時間差がある場合は、最初に音声認識結果が検出された子供に対する処理が行われる。つづいて、次の子供に対する処理が行われる。
たとえば、ロボット100が、「魚は生き物かな、それとも植物かな、どっちか答えて、せーの」と発話して、さくら、もも、たろうの順で「植物」、「生き物」、「生き物」と音声認識された場合、ロボット100は、まず「さくら」の方を向き、次に「もも」の方を向き、最後に「たろう」の方を向く。つづいて、ロボット100は、音声認識結果に対応する動作を行う。たとえば、「正解は生き物です。ももちゃんとたろうちゃんが正解しました。さくらちゃん残念でした。次に頑張ってね」等の発話を行う。
次に、たとえば、ロボット100に、クイズを出題させ、「今から言う問題に、答えてね。早いもの勝ちだよ」と発話させ、三人の子供から早いもの順で回答を得る場合の例を説明する。ここでは、たとえばイベント2「発話検出」およびイベント3の「音声認識結果」の両方が実行されるよう設定される。
この場合、たとえば、イベント2の「発話検出」に対応する言動として、「発話開始時刻記録」を設定しておくことができる。これにより、ロボット100は、一番早く発話を始めた参加者を認識することができる。
たとえば、ロボット100が、「黒くて、空を飛ぶ鳥はなんでしょう?」と発話して、さくら、ももの順で、「はい、それはカラスです」、「カラス」と発話した場合、両方とも正解になる。ここで、回答を先に発話し始めたのはさくらだが、ももが発話した「カラス」の方が音節数が少なく、発話に要する時間が短いため、音声認識結果が先に出力される場合がある。この場合、音声認識結果の出力の前後だけを考慮すると、正解者は「もも」になってしまう。しかし、最も早く正解を思いついて発話を始めたのは「さくら」であるので、ロボット100は、発話検出が最も早く行われ、かつ正解だった「さくら」が正解者だとすることができる。
図9は、この処理を行うための言動決定部110の手順を示すフローチャートである。
ここで、図示していないが、コントローラ10は、発話検出のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する発話開始キューと、音声認識結果のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する音声認識結果キューとを記憶する記憶領域を含む。
言動決定部110は、イベント出力部106から、発話検出のイベントの出力があると(S200のYES)、そのイベントに対応づけられた音声識別情報を発話開始キューに追加する(S202)。
また、言動決定部110は、イベント出力部106から、音声認識結果のイベントの出力があると(S204のYES)、そのイベントに対応づけられた音声識別情報と、発話開始キューの先頭の音声識別情報とが同じか否かを判断する(S206)。発話開始キューの先頭と同じ音声識別情報である場合(S206のYES)、言動決定部110は、対応言動記憶部118、識別情報記憶部120、ロボット言動記憶部130、およびシナリオ記憶部132等を参照して、その音声識別情報に対応づけられた話者へのロボット100の言動を決定する(S208)。
つづいて、発話開始キューからその音声識別情報を削除する(S210)。次いで、発話開始キューの先頭の音声識別情報が音声認識結果キューにあるか否かを判断し(S212)、ある場合(S212のYES)、その音声識別情報を応答認識結果キューから削除する(S214)。この後、ステップS208に戻り、その音声識別情報に対応づけられた話者へのロボット100の言動を決定する。
一方、ステップS206において、発話開始キューの先頭と同じ音声認識結果でない場合(S206のNO)、音声認識結果キューに、音声識別情報を追加する(S216)。
ステップS212で発話開始キューの先頭の音声識別情報が応答認識結果キューにない場合(S212のNO)、およびステップS216の後、処理を終了するか否かを判断し(S218)、終了しない場合(S218のNO)、ステップS200に戻り、待機する。
また、ステップS218で処理を終了する場合(S218のYES)、処理を終了する。
このように、ロボット100は、複数の参加者からの発話に応じて、他の参加者への対応を決定することができる。
以上で具体例として説明した処理は、対応言動記憶部118、ロボット言動記憶部130、およびシナリオ記憶部132に適宜設定しておくことにより、実現することができる。
以上、本実施の形態におけるロボット100によれば、ロボット100が、話者の音声を契機としたイベントの出力に基づき、イベントおよび話者の位置に応じた言動を実行するので、ロボット100と話者のコミュニケーションを円滑にすることができる。
(第二の実施の形態)
本実施の形態において、イベント出力部がロボット100ではなく、ロボット100外部に設けられたイベント出力サーバに設けられる点で、第一の実施の形態と異なる。本実施の形態において、対応決定システムの一部はロボット100内に組み込まれ、他の一部はイベント出力サーバ内に組み込まれる。
図10は、本実施の形態におけるイベント出力サーバの構成を示すブロック図である。
本実施の形態において、第一の音声出力部304、第二の音声出力部314、第三の音声出力部324から出力された音声データおよびその音声識別情報は、第一のイベント出力サーバ200または第二のイベント出力サーバ220に送信される。第一のイベント出力サーバ200または第二のイベント出力サーバ220は、受信した音声データが所定の条件に合致するか否かを検出し、所定の条件に合致した場合に、当該条件に合致することを示すイベントを音声識別情報とともにロボット100に送信する。ロボット100は、第一のイベント出力サーバ200または第二のイベント出力サーバ220から出力されたイベントおよび音声識別情報に基づき、言動を決定して実行する。
ここで、二つのイベント出力サーバのみを示しているが、イベント出力サーバは、参加者一人に対して一つ設けてもよく、また複数の参加者に対して一つだけ設けてもいずれでもよい。以下、第一の音声出力部304からの音声データが第一のイベント出力サーバ200に送信され、第二の音声出力部314および第三の音声出力部324からの音声データが第二のイベント出力サーバ220に送信される場合を例として説明する。
第一のイベント出力サーバ200は、音声入力部202、音声認識部204、イベント出力部206、データ出力部208、音声認識辞書210、条件記憶部212、および通信インターフェース(I/F)214を含む。第二のイベント出力サーバ220も第一のイベント出力サーバ200と同様の構成を有する。
通信インターフェース214は、ネットワーク400を介して、第一の音声出力部304からデータを受信する。
音声入力部202は、通信インターフェース214が受信した、第一の音声出力部304からの音声データを、音声識別情報に対応づけて入力する。音声入力部202は、入力した音声データを、音声識別情報とともに、音声認識部204およびイベント出力部206に出力する。
音声認識部204は、音声入力部202が入力した音声データを音声認識する。音声認識辞書210は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部204は、音声入力部202が入力した音声データと、音声認識辞書210に記憶された音声認識語彙とのマッチングを行う。音声認識部204は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部206に出力する。
イベント出力部206は、音声入力部202から出力される音声データ、および音声認識部204から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部206は、音声認識部204から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。
条件記憶部212は、第一の実施の形態において図4を参照して説明した条件記憶部116と同様の構成を有する。イベント出力部206は、条件記憶部212を参照して音声データが所定の条件に合致するか否かを検出する。
データ出力部208は、イベント出力部206が出力したイベント等のデータをロボット100に送信する処理を行う。通信インターフェース214は、データ出力部208の指示に基づき、データをロボット100に送信する。
図11は、本実施の形態におけるロボット100の構成を示すブロック図である。
ロボット100は、図4に示したロボット100のイベント出力部106および条件記憶部116を有さず、データ入力部122を有する点で異なる。
通信インターフェース24は、ネットワーク400を介して、第一のイベント出力サーバ200および第二のイベント出力サーバ220から、音声識別情報に対応づけられたイベントを受信する。
データ入力部122は、通信インターフェース24が受信した、複数の第一のイベント出力サーバ200、および第二のイベント出力サーバ220からのデータを入力する。データ入力部122は、入力したデータを言動決定部110に出力する。
言動決定部110は、データ入力部122から出力されたイベントに基づき、対応言動記憶部118から、当該イベントに対応するロボット100の言動を読み出す。つづいて、言動決定部110は、識別情報記憶部120を参照して、目的の音声識別情報に対応するタグ識別情報を読み出す。この後の処理は第一の実施の形態におけるロボット100と同様である。
また、音声入力部102は、内部マイク13が集音した音声データを入力し、音声認識部104に出力する。音声認識部104は、この音声データを音声認識する。
図12は、本実施の形態における第一の音声出力部304、第一のイベント出力サーバ200、およびロボット100の処理手順を示すフローチャートである。
第一の音声出力部304は、第一のマイク306から入力される第一の参加者300の音声データを常時第一のイベント出力サーバ200に送信する(S300)。
第一のイベント出力サーバ200において、音声入力部202は第一の音声出力部304から送信された音声データを音声認識部204およびイベント出力部206に出力する。音声認識部204は、音声データを音声認識した場合、音声認識結果をイベント出力部206に出力する。イベント出力部206において、音声入力部202または音声認識部204から出力される音声に関するデータが所定の条件に合致した場合(S302)、イベント出力部206は、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。イベント、音声識別情報、および音声認識結果がロボット100に送信される(S304)。
ロボット100において、言動決定部110は、第一のイベント出力サーバ200からイベントを取得すると、そのイベントに対応づけられた音声識別情報に対応するタグ識別情報に基づき、対応する参加者の位置情報を取得する(S306)。つづいて、言動決定部110は、対応言動記憶部118、識別情報記憶部120、ロボット言動記憶部130、およびシナリオ記憶部132を参照して、参加者の位置情報に基づき、ロボット100の言動を決定する(S308)。次いで、メカ制御部134および音声合成部136等に言動を実行させる(S310)。
本実施の形態においても、第一の実施の形態と同様の効果が得られる。また、本実施の形態においては、イベント出力部がロボット100外部のイベント出力サーバに設けられ、音声認識等の処理もイベント出力サーバで行われるので、ロボット100自体の処理を簡易にすることができる。また、複数のイベント出力サーバを設け、複数の話者からの音声を分散して処理することにより、効率よく音声認識等の処理を行うこともできる。
以上の実施の形態で説明したロボットおよびイベント出力サーバの各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェースを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
以上、図面を参照して本発明の実施の形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
以上の実施の形態において、たとえば図5および図6に示したように、複数の条件およびそれに対応したイベントを示したが、ロボットまたはイベント出力サーバにおいて、これらの条件に合致するか否かを並行して判断する構成とすることもでき、また、いずれか一の条件のみについて、合致するか否かを判断する構成とすることもできる。どの条件に基づきイベントが出力されるかは、ロボットを用いる形態に応じて適宜設定可能である。
なお、以上の実施の形態において、ロボット100がタグリーダ26を有する構成を示したが、タグリーダは、ロボット100外部に設けることもできる。この場合、ロボット100は、当該タグリーダが読み取った話者の識別タグの情報に基づき、その話者の位置情報を取得することができる。
たとえば、識別タグがRFIDタグの場合、以下のようにしてロボット100が話者の位置情報を取得することができる。まず、ロボット100や話者がいる部屋の所定の位置に複数のタグリーダを設けておく。ロボット100は、これらのタグリーダの位置を予め記憶しておく。たとえば、3個以上のタグリーダを設けておき、各タグリーダが読み取った話者の識別タグの電波強度をロボット100に送信するようにする。ロボット100は、これらの情報に基づき、話者が保持する識別タグの位置情報を取得する。
また、以上の実施の形態において、話者(参加者)に音声出力部を含む通信端末装置および識別タグを付与する形態を示したが、識別タグを付与することなく、通信端末装置の位置に基づき、話者の位置情報を取得することもできる。たとえば、通信端末装置として、GPS機能付きのPDA端末を用いたり、通信端末装置から発信される電波を用いることにより、通信端末装置の位置情報を取得することができる。
このように、話者の位置情報を取得する方法は、種々の形態とすることができ、以上の実施の形態で説明したものに限定されない。
なお、以上の実施の形態において、ロボット100が話者の位置情報に応じて、話者の方を向いたり、話者の方へ近づいたり等、動作する例を示したが、ロボット100は、話者の位置情報に応じた発話のみを行うようにすることもできる。たとえば、ある話者が「湖の方に行ってみよう」等発話し、その話者の位置情報から、その話者が危険なエリアに近づいていることを検出した場合「○○ちゃん、そっちに行ったら危ないよ」等の発話だけを行うこともできる。
また、たとえば、ロボット100が複数の話者とコミュニケーションを取る場合には、複数の話者に対するイベント出力に応じて、ロボット100が効率よく言動を実行するように制御することができる。たとえば、さくら、もも、たろうの順で並んでいる子供が、さくら、たろう、ももの順で「こんにちは」と発話して音声認識された場合、ロボット100が一度、さくらの方を向き、ももを通り越してたろうの方を向いた後、再びももの方に向かなければならない。ロボット100は、いずれかの話者に対するイベント出力があると、所定時間待機して、他の話者に対するイベント出力の有無を確認した後、言動を行うようにすることができる。複数の話者に対するイベント出力があった場合、ロボット100は、それらの話者の位置情報に応じて、効率よい言動をすることができる。たとえば、前述の例では、所定時間内にさくら、もも、たろうの全員から「こんにちは」という発話があり、音声認識された場合、ロボット100は、さくら、もも、たろうの位置情報に基づき、さくら、もも、たろうの順にそれぞれの方を向き、「こんにちは」等の発話を行うようにすることができる。
以上の実施の形態において、ロボット100が内部マイク13を有する構成を示したが、ロボット100は、内部マイク13を有しない構成とすることもできる。この場合は、たとえば、ロボット100は、音声入力不具合が生じた音声入力デバイスが付与された話者の方を向いて、何らかの発話をしたり、新しい音声入力デバイスをその話者の方へ持って行く等、内部マイク13を用いない言動を適宜行うことができる。
以上の実施の形態ではとくに説明しなかったが、ロボット100のコントローラ10は、CCDカメラ21A、およびCCDカメラ21Bから送出された画像データにも基づいて、周囲の状況を解析し、それに応じてロボット100の言動を決定することもできる。
また、以上の実施の形態では、自律移動するとともに話者と対話するロボットを例として説明したが、ロボットは、いずれか一方の機能のみを有するものとすることもできる。
また、以上の実施の形態において、対応決定システムおよび対応決定方法が、ロボット制御システムおよびロボット制御方法である場合を例として説明したが、対応決定システムおよび対応決定方法は、たとえば、擬人化エージェントを用いた音声対話システムや音声対話方法、または音声認識を利用した情報検索システムや情報検索方法に適用することもできる。このような場合も、ユーザがマイク等の音声入力デバイスに音声を入力した場合、音声に関するデータおよびユーザの位置に応じて、システムが適切な対応を取るようにすることができる。
以上の実施の形態において、ネットワーク400が無線LANである場合を例として説明したが、ネットワーク400は、ブルートゥース等、他の種々の無線ネットワークや、有線のネットワークとすることもできる。
本発明は、自律移動型または対話型のロボットの制御システム、音声対話システム、音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムおよび方法に適用することができる。
実施の形態におけるロボットと、話者である参加者との関係を示す模式図である。 実施の形態におけるロボットの一例を示す外観構成図である。 ロボットの電気的構成の一例を示すブロック図である。 実施の形態におけるロボットのコントローラの構成を詳細に示すブロック図である。 条件記憶部の内部構成の一例を示す図である。 対応言動記憶部の内部構成の一例を示す図である。 識別情報記憶部の内部構成の一例を示す図である。 実施の形態におけるロボットのコントローラの処理手順を示すフローチャートである。 実施の形態における言動決定部の処理手順を示すフローチャートである。 実施の形態におけるイベント出力サーバの構成を示すブロック図である。 実施の形態におけるロボットの構成を示すブロック図である。 実施の形態における第一の音声出力部、第一のイベント出力サーバ、およびロボットの処理手順を示すフローチャートである。
符号の説明
1 胴体部
2 頭部
3A、3B 車輪
10 コントローラ
10A CPU
10B メモリ
11 バッテリ
12 スピーカ
13 内部マイク
14A、14B アクチュエータ
21A、21B CCDカメラ
22A、22B アクチュエータ
24 通信I/F
26 タグリーダ
100 ロボット
102 音声入力部
104 音声認識部
106 イベント出力部
108 位置情報取得部
110 言動決定部
112 言動実行部
114 音声認識辞書
116 条件記憶部
118 対応言動記憶部
120 識別情報記憶部
122 データ入力部
130 ロボット言動記憶部
132 シナリオ記憶部
134 メカ制御部
136 音声合成部
138 出力部
200 第一のイベント出力サーバ
202 音声入力部
204 音声認識部
206 イベント出力部
208 データ出力部
210 音声認識辞書
212 条件記憶部
214 通信I/F
220 第二のイベント出力サーバ
222 音声入力部
224 音声認識部
226 データ出力部
228 音声認識辞書
300 第一の参加者
302 第一の識別タグ
304 第一の音声出力部
306 第一のマイク
310 第二の参加者
312 第二の識別タグ
314 第二の音声出力部
316 第二のマイク
320 第三の参加者
322 第三の識別タグ
324 第三の音声出力部
326 第三のマイク

Claims (26)

  1. 話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記話者に対する対応を決定する対応決定部と、
    前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
    を含み、
    前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システム。
  2. 請求項1に記載の対応決定システムにおいて、
    前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことを特徴とする対応決定システム。
  3. 請求項2に記載の対応決定システムにおいて、
    前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とする対応決定システム。
  4. 請求項2または3に記載の対応決定システムにおいて、
    前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とする対応決定システム。
  5. 請求項2乃至4いずれかに記載の対応決定システムにおいて、
    前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
    前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定システム。
  6. 請求項1乃至5いずれかに記載の対応決定システムにおいて、
    前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含み、
    前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することを特徴とする対応決定システム。
  7. 請求項6に記載の対応決定システムにおいて、
    同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含み、
    前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応する前記タグ識別情報を有する識別タグの位置情報を取得することを特徴とする対応決定システム。
  8. 請求項1乃至7いずれかに記載の対応決定システムにおいて、
    前記対応決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定システム。
  9. 請求項1乃至8いずれかに記載の対応決定システムにおいて、
    前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定システム。
  10. 請求項9に記載の対応決定システムにおいて、
    前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得し、
    前記対応決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することを特徴とする対応決定システム。
  11. 自律移動型または対話型のロボットであって、
    請求項1乃至9いずれかに記載の対応決定システムと、
    前記対応決定部が決定した対応を言動として実行する言動実行部と、
    を含むことを特徴とするロボット。
  12. 音声入力デバイスから入力された音声を出力する音声出力部を含む通信端末装置および自律移動型または対話型のロボットにネットワークを介して接続されるとともに、これらを中継するイベント出力サーバであって、
    前記ロボットは、
    話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
    前記イベント出力サーバは、
    前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
    前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
    前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
    を含むことを特徴とするイベント出力サーバ。
  13. 請求項12に記載のイベント出力サーバにおいて、
    前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とするイベント出力サーバ。
  14. 請求項12または13に記載のイベント出力サーバにおいて、
    前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とするイベント出力サーバ。
  15. 請求項12乃至14いずれかに記載のイベント出力サーバにおいて、
    前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた前記音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
    前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とするイベント出力サーバ。
  16. 話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力するステップと、
    前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
    前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
    を含むことを特徴とする対応決定方法。
  17. 請求項16に記載の対応決定方法において、
    前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことを特徴とする対応決定方法。
  18. 請求項17に記載の対応決定方法において、
    前記イベントを前記音声識別情報とともに出力するステップは、
    前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
    前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、
    を含むことを特徴とする対応決定方法。
  19. 請求項17または18に記載の対応決定方法において、
    前記イベントを前記音声識別情報とともに出力するステップは、
    前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
    前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、
    を含むことを特徴とする対応決定方法。
  20. 請求項17乃至19いずれかに記載の対応決定方法において、
    話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含み、
    前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定方法。
  21. 請求項16乃至20いずれかに記載の対応決定方法において、
    前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定方法。
  22. 請求項16乃至21いずれかに記載の対応決定方法において、
    前記対応を決定するステップにおいて、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定方法。
  23. コンピュータを、
    話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力する手段、
    前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
    前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
    として機能させることを特徴とするプログラム。
  24. 請求項23に記載のプログラムにおいて、
    前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。
  25. コンピュータを、
    話者に付与された音声入力デバイスから入力された音声に関するデータを、当該話者に対応づけられた音声識別情報とともに入力する手段、
    前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するイベント出力手段、
    前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
    前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
    として機能させることを特徴とするプログラム。
  26. 請求項25に記載のプログラムにおいて、
    前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。
JP2005061557A 2005-03-04 2005-03-04 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 Pending JP2006243555A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005061557A JP2006243555A (ja) 2005-03-04 2005-03-04 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005061557A JP2006243555A (ja) 2005-03-04 2005-03-04 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Publications (1)

Publication Number Publication Date
JP2006243555A true JP2006243555A (ja) 2006-09-14

Family

ID=37050002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005061557A Pending JP2006243555A (ja) 2005-03-04 2005-03-04 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Country Status (1)

Country Link
JP (1) JP2006243555A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089825A (ja) * 2006-09-29 2008-04-17 Fujitsu Ltd 音声認識装置、および音声認識プログラム
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
CN107077844A (zh) * 2016-12-14 2017-08-18 深圳前海达闼云端智能科技有限公司 语音联合协助的实现方法、装置及机器人
JP2017169839A (ja) * 2016-03-24 2017-09-28 大日本印刷株式会社 アバターロボット接続管理システム
US20180025727A1 (en) * 2016-07-19 2018-01-25 Toyota Jidosha Kabushiki Kaisha Voice interactive device and utterance control method
JP2018180542A (ja) * 2017-04-14 2018-11-15 ネイバー コーポレーションNAVER Corporation ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
CN112918381A (zh) * 2019-12-06 2021-06-08 广州汽车集团股份有限公司 一种车载机器人迎送宾方法、装置及***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089825A (ja) * 2006-09-29 2008-04-17 Fujitsu Ltd 音声認識装置、および音声認識プログラム
JP4715704B2 (ja) * 2006-09-29 2011-07-06 富士通株式会社 音声認識装置、および音声認識プログラム
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2017169839A (ja) * 2016-03-24 2017-09-28 大日本印刷株式会社 アバターロボット接続管理システム
US20180025727A1 (en) * 2016-07-19 2018-01-25 Toyota Jidosha Kabushiki Kaisha Voice interactive device and utterance control method
JP2018013545A (ja) * 2016-07-19 2018-01-25 トヨタ自動車株式会社 音声対話装置および発話制御方法
US10304452B2 (en) 2016-07-19 2019-05-28 Toyota Jidosha Kabushiki Kaisha Voice interactive device and utterance control method
CN107077844A (zh) * 2016-12-14 2017-08-18 深圳前海达闼云端智能科技有限公司 语音联合协助的实现方法、装置及机器人
CN107077844B (zh) * 2016-12-14 2020-07-31 深圳前海达闼云端智能科技有限公司 语音联合协助的实现方法、装置及机器人
JP2018180542A (ja) * 2017-04-14 2018-11-15 ネイバー コーポレーションNAVER Corporation ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
CN112918381A (zh) * 2019-12-06 2021-06-08 广州汽车集团股份有限公司 一种车载机器人迎送宾方法、装置及***
CN112918381B (zh) * 2019-12-06 2023-10-27 广州汽车集团股份有限公司 一种车载机器人迎送宾方法、装置及***

Similar Documents

Publication Publication Date Title
US10485049B1 (en) Wireless device connection handover
US9547306B2 (en) State and context dependent voice based interface for an unmanned vehicle or robot
US10721661B2 (en) Wireless device connection handover
EP2842055B1 (en) Instant translation system
JP4595436B2 (ja) ロボット、その制御方法及び制御用プログラム
JP4086280B2 (ja) 音声入力システム、音声入力方法及び音声入力プログラム
JP5033994B2 (ja) コミュニケーションロボット
JP6402748B2 (ja) 音声対話装置および発話制御方法
JP2018049143A (ja) 音声取得システムおよび音声取得方法
JP4622384B2 (ja) ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP2006154926A (ja) キャラクタ表示を利用した電子機器操作システム及び電子機器
JP7416295B2 (ja) ロボット、対話システム、情報処理方法及びプログラム
CN109568973B (zh) 对话装置、对话方法、服务器装置及计算机可读存储介质
JP2019009770A (ja) 音声入出力装置
CN108665907A (zh) 声音识别装置、声音识别方法、记录介质以及机器人
JP2007155986A (ja) 音声認識装置および音声認識装置を備えたロボット
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
JP2002261966A (ja) コミュニケーション支援システムおよび撮影装置
Bolano et al. Design and evaluation of a framework for reciprocal speech interaction in human-robot collaboration
CN108806675B (zh) 语音输入输出装置、无线连接方法、语音对话***
JP6934831B2 (ja) 対話装置及びプログラム
JP2001188551A (ja) 情報処理装置および方法、並びに記録媒体