WO2017199585A1

WO2017199585A1 - ロボット、ロボットの動作方法、及びプログラム

Info

Publication number: WO2017199585A1
Application number: PCT/JP2017/012460
Authority: WO
Inventors: 中村　珠幾; 裕介栗本; 貴之毛利; 慎哉佐藤; 佐藤　義雄
Original assignee: シャープ株式会社
Priority date: 2016-05-19
Filing date: 2017-03-27
Publication date: 2017-11-23

Abstract

複数個の単語を含む発話文の内容にふさわしい動作ができるロボットを提供する。ロボット（１）が、音声を出力する音声出力部（６０）と、音声に対応する音声動作を実行する可動部（７０）とを備え、音声が特定単語と汎用単語とを含み、音声動作が、特定単語に対応する特定モーションデータと、汎用単語に対応する汎用モーションデータとを組み合わせることにより実行される。

Description

ロボット、ロボットの動作方法、及びプログラム

　本発明は、音声を出力する発話部と、この発話部により出力された音声に対応する音声動作を実行する可動部とを備えたロボット、ロボットの動作方法、及びプログラムに関する。

　動作データの管理を容易にしたロボットが知られている（特許文献１）。この特許文献１に開示されたロボットは、姿勢を表現する第１のコード体系と、動作を表現する第２のコード体系とに基づく管理方法により、ロボットの動作のためのモーションデータの管理を簡易にする。

　また、音声を出力する発話部と、この発話部により出力された音声に対応する音声動作を実行する可動部とを備えたロボットが知られている（特許文献２）。

　特許文献２に開示されたロボットは、発話文の内容を分析する音声内容分析部を備える。音声内容分析部は、あるキー単語が発話文に現れる場合、ジェスチャ識別子を出力する。例えば、発話文が「こんにちは」又は「さようなら」を示している場合、音声内容分析部は、目標人物に手を振るというジェスチャを示すジェスチャ識別子を出力する。これにより、発話内容に応じた動作をロボットにさせることができる。

日本国公開特許公報「特開2003-330513号公報（2003年11月21日公開）」日本国公開特許公報「特表2014-504959号公報（2014年02月27日公表）」

　しかしながら、上述のような特許文献１のロボットは、限られたモーションデータしか保持していない状態でも必要な動作をさせることができ、ロボットのモーションデータの管理は簡易になるが、ロボットの発話内容について考慮されていないという問題がある。

　また、特許文献２のロボットは、「こんにちは」又は「さようなら」等の単一の単語から成る発話文に対して一つのジェスチャを割り当てているが、複数個の単語を含む発話文について考慮されていないという問題がある。

　本発明は、前記の問題点に鑑みてなされたものであり、その目的は、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をすることができるロボットを実現することにある。

　上記の課題を解決するために、本発明の一態様に係るロボットは、音声を出力する発話部と、前記発話部により出力された音声に対応する音声動作を実行する可動部とを備え、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とする。

　本発明の一態様によれば、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をすることができるロボットを提供できるという効果を奏する。

実施形態１に係るロボットの構成を示すブロック図である。上記ロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。実施形態２に係るロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。実施形態３に係るロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。上記ロボットの動作を示すフローチャートである。

　以下、本発明の実施の形態について、詳細に説明する。

　〔実施形態１〕
　（実施形態１に係るロボットの構成）
　図１は、実施形態１に係るロボット１の構成を示すブロック図である。ロボット１は、音声を出力する音声出力部６０（発話部）と、音声出力部６０により出力された音声に対応する音声動作を実行する可動部７０とを備える。

　音声出力部６０により出力された音声は、特定単語と、特定単語に該当しない汎用単語とを含む。可動部７０により実行される音声動作は、特定単語の意味を表す特定動作のための特定モーションデータと、汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。可動部７０は、特定単語が音声出力部６０により出力されるタイミングで特定動作を実行する。

　ロボット１には、可動部７０を駆動する駆動部５０と、駆動部５０及び音声出力部６０を制御する制御部１００と、ロボット１の外部からの情報を検出するセンサー１０と、制御部１００に供給されるデータを記憶する記憶部４０とが設けられる。

　記憶部４０は、音声出力部６０から出力される音声のための複数の発話内容データ候補が記述された発話内容テーブル２０と、複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブル３０とを有する。

　制御部１００は発話トリガ部１０１を有する。発話トリガ部１０１は、センサー１０により検出された外部からの情報に基づいて、外部からの情報の検出を発話内容決定部１０２に通知する。発話内容決定部１０２は、発話トリガ部１０１からの通知に応じて、発話内容テーブル２０に記述された複数の発話内容データ候補から発話内容データを選択し、音声出力制御部１０３及び駆動制御部１０４（モーションデータ組み合わせ部）に供給する。音声出力制御部１０３は、発話内容決定部１０２から供給された発話内容データに基づいて音声出力部６０を制御する。音声出力部６０は、発話内容データに対応する音声を出力する。

　駆動制御部１０４は、発話内容決定部１０２から供給される発話内容データに基づいて、モーションデータテーブル３０に記述された複数の特定モーションデータ候補と複数の汎用モーションデータ候補とのうちのどの特定モーションデータ、汎用モーションデータをどのような順番、どのようなタイミングで再生するかを決定し、駆動部５０に通知する。駆動部５０は、駆動制御部１０４により決定された特定モーションデータ、汎用モーションデータの再生順番、再生タイミングに基づいて、可動部７０を駆動する。

　図２は、ロボット１に設けられた音声出力部６０から出力される音声のための音声データＡ１と、ロボット１の可動部７０が実行する動作のための特定モーションデータＦ１、汎用モーションデータＧ１・Ｇ２との間の関係を模式的に示すグラフである。

　図２に示される音声データＡ１は、発話内容決定部１０２から駆動制御部１０４に供給される発話内容データに対応し、「私は野球を見ます」という意味に対応する「わたしはやきゅうをみます」と発音される音声を表すデータである。

　音声データＡ１は、特定単語「やきゅう」と、汎用単語「わたし」と、汎用単語「は」と、汎用単語「を」と、汎用単語「見ます」とを含む。特定モーションデータＦ１は、特定単語「やきゅう」の意味を表す野球に関連する動作のためのモーションデータである。汎用モーションデータＧ１・Ｇ２は、特定単語に関連しない一般的な動作のためのモーションデータである。

　例えば、特定モーションデータＦ１に対応する野球に関連する動作は、バットを振る動作、ボールを投げる動作を含む。汎用モーションデータＧ１・Ｇ２に対応する一般的な動作は、例えば、腕を振る動作を含む。

　特定単語は、喜怒哀楽等の感情を示す単語であってもよく、特定モーションデータＦ１に対応する動作は、上記感情を表す動作であってもよい。

　音声データＡ１に含まれる特定単語「やきゅう」のうちの最初の音声「や」は時刻ｔ１に再生が開始され、最後の音声「う」は時刻ｔ２に再生が終了する。そして、特定単語「やきゅう」に対応する特定モーションデータＦ１は、時刻ｔ４に再生が開始され、時刻ｔ５に再生が終了する。ここで、
（ｔ１＋ｔ２）／２＝（ｔ４＋Ｔ５）／２＝ｔ３
の関係が成立する。

　即ち、特定単語「やきゅう」の再生を開始する時刻ｔ１と再生を終了する時刻ｔ２との間の中間時刻と、特定モーションデータＦ１の再生を開始する時刻ｔ４と再生を終了する時刻ｔ５との間の中間時刻とが、共に時刻ｔ３であり、両者が一致するように、特定モーションデータＦ１の再生タイミングが決定される。汎用モーションデータＧ１は、音声データＡ１の再生を開始する時刻ｔ０に開始され特定モーションデータＦ１の再生を開始する時刻ｔ４に終了する。汎用モーションデータＧ２は、特定モーションデータＦ１の再生終了時刻ｔ５に開始され音声データＡ１の再生終了時刻ｔ６に終了する。

　このように、予め、「やきゅう」等の特定単語と、当該特定単語にふさわしい特定モーションデータＦ１と、汎用的に使用できる汎用モーションデータＧ１が準備される。ロボット１の音声出力部６０が音声データＡ１に基づいて音声を出力する際に、当該音声データＡ１に特定単語が含まれる場合には、その特定単語に対応する音声が出力されるタイミングで特定モーションデータＦ１が再生される。特定単語に該当しない汎用単語に対応する音声が出力される時に汎用モーションデータＧ１・Ｇ２が再生される。このように、発話内容に応じて特定モーションデータと汎用モーションデータとを組み合わせて再生することで、限られたモーションデータしか保持していない状態でも、発話内容にふさわしい動作をロボットにさせることができる。

　発話内容決定部１０２により発話内容が決定されると、駆動制御部１０４は、音声出力部６０から音声が出力されるよりも前に、予め、音声データＡ１の全体の再生を開始する時刻ｔ０、再生終了時刻ｔ６、音声データＡ１に含まれる特定単語の再生を開始する時刻ｔ１、再生終了時刻ｔ２等を算出しておく。また、特定単語に対応する特定モーションデータＦ１の再生時間も発話内容決定部１０２は算出しておく。これらの値から、例えば、特定単語の発話を開始する時刻ｔ１と発話を終了する時刻ｔ２との間の丁度中間の時刻ｔ３で当該特定単語に対応する特定モーションデータＦ１の丁度半分が再生されるように特定モーションデータＦ１の再生タイミングを調整する。音声データＡ１の再生を開始する時刻ｔ０から特定モーションデータＦ１の再生を開始する時刻ｔ４までの期間、及び、特定モーションデータＦ１の再生を終了する時刻ｔ５から音声データＡ１の再生終了時刻ｔ６までに期間は、それぞれ、その期間に一致する汎用モーションデータＧ１・Ｇ２を再生しておく。

　特定モーションデータは、一つの特定単語に対して１種類設けてもよいし、また、一つの特定単語に対して複数種類の特定モーションデータを設けて使い分けてもよい。また、複数の特定単語に対して共通の特定モーションデータを設けてもよい。

　汎用モーションデータは、１種類の汎用モーションデータを汎用単語の再生時間に対応する期間の間繰り返して再生してもよいし、また、例えば、再生時間１秒の汎用モーションデータ、再生時間１．５秒の汎用モーションデータというように再生時間ごとに複数種類の汎用モーションデータを準備してもよい。また、同じ再生時間（例えば、１秒）で動作内容の異なる複数種類の汎用モーションデータを設けて使い分けてもよい。

　（実施形態１に係るロボットの動作）
　このように構成されたロボット１は下記のように動作する。

　まず、ロボット１の外部からの情報がセンサー１０により検出される。そして、発話トリガ部１０１が、外部からの情報の検出を発話内容決定部１０２に通知する。次に、発話内容決定部１０２が、発話内容テーブル２０に記述された複数の発話内容データ候補から、例えば、「わたしはやきゅうをみます」という発話内容データを選択し、音声出力制御部１０３及び駆動制御部１０４に供給する。

　その後、駆動制御部１０４は、発話内容決定部１０２から供給された発話内容データに基づいて、モーションデータテーブル３０の複数の特定モーションデータ候補の中から特定モーションデータＦ１を選択し、モーションデータテーブル３０の複数の汎用モーションデータ候補の中から汎用モーションデータＧ１を選択する。そして、駆動制御部１０４は、特定モーションデータＦ１の再生タイミングを時刻ｔ４で開始され時刻ｔ５で終了するように決定し、汎用モーションデータＧ１の再生タイミングを時刻ｔ０で開始され時刻ｔ４で終了し、及び、時刻ｔ５で開始され時刻ｔ６で終了するように決定する。

　次に、駆動制御部１０４は、音声出力制御部１０３に音声出力の開始を指示すると共に、特定モーションデータＦ１及び汎用モーションデータＧ１の再生順番及び再生タイミングを駆動部５０に通知する。その後、音声出力制御部１０３は、音声出力部６０を制御して音声データＡ１を音声出力部６０から出力させるとともに、駆動部５０は、駆動制御部１０４から通知された特定モーションデータＦ１及び汎用モーションデータＧ１の再生順番及び再生タイミングに基づいて可動部７０を駆動する。

　（実施形態１の効果）
　以上のように実施形態１によれば、音声出力部６０により出力される音声に含まれる特定単語「やきゅう」の意味を表す特定動作のための特定モーションデータＦ１と、特定単語「やきゅう」に該当しない汎用単語に対応する汎用動作のための汎用モーションデータＧ１とを組み合わせることにより、音声出力部６０により出力された音声に対応する音声動作が実行される。このため、発話の特定単語と汎用単語に応じて特定モーションデータＦ１と汎用モーションデータＧ１とを組み合わせれば、発話に対応する音声動作を実行することができ、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をロボット１にさせることができる。

　このように、特定モーションデータ、汎用モーションデータを組み合わせて再生することで、膨大な種類の発話を実行するロボットでも、一定量の特定モーションデータ、汎用モーションデータを準備しておくだけで、複数個の単語を含む発話文の内容に沿った動作をさせることが可能となる。

　また、発話内容に沿った内容のモーションデータが、発話タイミングに合わせて再生されるため、ロボットに、より情緒的な動作をさせることができる。

　〔実施形態２〕
　本発明の他の実施形態について、図３に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　（実施形態２に係る音声データ、特定モーションデータ、汎用モーションデータの構成）
　図３は、実施形態２に係るロボットに設けられた音声出力部から出力される音声のための音声データＡ２と、上記ロボットが実行する動作のための特定モーションデータＦ１・Ｆ２、汎用モーションデータＧ１との間の関係を模式的に示すグラフである。

　実施形態１の音声データＡ１は１個の特定単語「やきゅう」を含んでいたが、実施形態２の音声データＡ２は２個の特定単語「やきゅう」及び特定単語「すき」（他の特定言語）を含む。音声データＡ２は、「私は野球が好きです」という意味に対応する「わたしはやきゅうがすきです」と発音される音声を表すデータである。

　特定単語「すき」は、時刻ｔ７で再生が開始され時刻ｔ９で再生が終了する。ここで、（ｔ７＋ｔ８）／２＝ｔ９
の関係が成立する。

　特定モーションデータＦ１の再生が終了する時刻ｔ５は、特定単語「すき」の再生が開始される時刻ｔ７よりも後である。特定単語「すき」に対応する特定モーションデータＦ２は、特定単語「すき」の再生が開始される時刻ｔ７よりも後にずれた時刻ｔ５から再生される。そして、特定モーションデータＦ２は、音声データＡ２が終了する時刻ｔ６よりも後の時刻ｔ１０に再生を終了する。

　特定モーションデータＦ２に対応する好きという感情に関連する動作は、例えば、ロボットの腕によって胸を押える動作を含む。

　以上のように実施形態２によれば、特定単語「やきゅう」に対応する特定モーションデータＦ１に加えて、他の特定単語「すき」に対応する特定モーションデータＦ２も再生されるので、特定単語のみならず他の特定単語にもふさわしい音声動作をロボットにさせることができる。

　〔実施形態３〕
　（実施形態３に係る音声データ、特定モーションデータ、汎用モーションデータの構成）
　図４は、実施形態３に係るロボットに設けられた音声出力部から出力される音声のための音声データＡ２と、上記ロボットが実行する動作のための特定モーションデータＦ１、汎用モーションデータＧ１・Ｇ３との間の関係を模式的に示すグラフである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　実施形態２のモーションデータは、特定モーションデータＦ１・Ｆ２、汎用モーションデータＧ１を含んでいたが、実施形態３のモーションデータは、特定モーションデータＦ１、汎用モーションデータＧ１・Ｇ３を含む。

　特定モーションデータＦ１の再生が終了する時刻ｔ５は、特定単語「すき」の再生が開始される時刻ｔ７よりも後である。ここで、前述した実施形態２の図３に示すように、特定単語「すき」に対応する特定モーションデータＦ２を、特定単語「すき」の再生が開始される時刻ｔ７よりも後ろにずれた時刻ｔ５から開始すると、特定モーションデータＦ２の再生が終了される時刻ｔ１０が、音声データＡ２の再生終了時刻ｔ１１と不一致となり得る。

　そこで、特定単語「すき」の再生が開始される時刻ｔ７よりも後ろにずれた時刻ｔ５からは、音声データＡ２の再生が終了する時刻ｔ１１と同時に再生が終了する汎用モーションデータＧ３が再生される。

　（実施形態３に係るロボットの動作）
　図５は、実施形態３に係るロボットの動作を示すフローチャートである。

　まず、駆動制御部１０４は、カーソル時刻を零に設定する（ステップＳ１）。ここで、「カーソル時刻」とは、音声データＡ２の再生期間における再生タイミング割り当て処理が終了した汎用モーションデータ及び特定モーションデータのうちの最後の汎用モーションデータ又は特定モーションデータの再生終了時刻を表す時刻に相当する。最初は、再生タイミング割り当て処理が終了した汎用モーションデータも特定モーションデータも存在しないので、「カーソル時刻」は零に設定される。

　そして、音声データＡ２に含まれる特定単語の数に関連する変数が正であるか否かを駆動制御部１０４は判定する（ステップＳ２）。特定単語の数に関連する変数が正であると判定したときは（ステップＳ２でＹＥＳ）、対象となる特定単語の「再生開始時刻」を駆動制御部１０４は取得する（ステップＳ３）。例えば、音声データＡ２の対象となる特定単語が「やきゅう」であれば「再生開始時刻」は時刻ｔ１であり、対象となる特定単語が「すき」であれば「再生開始時刻」は時刻ｔ７である。

　次に、対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きいか否かを駆動制御部１０４は判定する（ステップＳ４）。対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きいと判定したときは（ステップＳ４でＹＥＳ）、当該「再生開始時刻」からカーソル時刻を減算した時間に対応する再生時間を有する汎用モーションデータＧ１を、モーションデータテーブル３０に記述された複数の汎用モーションデータ候補の中から駆動制御部１０４は選択して、そのモーションＩＤを再生モーションＩＤリストに格納する（ステップＳ５）。

　その後、駆動制御部１０４は、特定モーションデータＦ１のモーションＩＤを再生モーションＩＤリストに格納する。そして、駆動制御部１０４は、汎用モーションデータＧ１の再生時間と特定モーションデータＦ１の再生時間とをカーソル時刻に加算する（ステップＳ６）。

　対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きくないと判定したときは（ステップＳ４でＮＯ）、駆動制御部１０４は、特定モーションデータＦ１のモーションＩＤを再生モーションＩＤリストに格納する。そして、駆動制御部１０４は、特定モーションデータＦ１の再生時間をカーソル時刻に加算する（ステップＳ７）。

　特定モーションデータＦ１の再生時間をカーソル時刻に加算したとき（ステップＳ７）、又は、汎用モーションデータＧ１の再生時間と特定モーションデータＦ１の再生時間とをカーソル時刻に加算したときは（ステップＳ６）、カーソル時刻が、発話を終了する時刻ｔ１１以上であるか否かを駆動制御部１０４は判定する（ステップＳ８）。

　カーソル時刻が、発話を終了する時刻ｔ１１以上でないと判断したときは（ステップＳ８でＮＯ）、特定単語の数に関連する変数を１だけ減算する（ステップＳ９）。そして、ステップＳ２に戻る。

　特定単語の数に関連する変数が正でないと判定したときは（ステップＳ２でＮＯ）、駆動制御部１０４は、音声データＡ２の再生を終了する時刻ｔ１１からカーソル時刻を減算した時間を再生時間とする汎用モーションデータＧ２を、モーションデータテーブル３０の複数の汎用モーションデータ候補の中から選択して再生モーションＩＤリストに格納する（ステップＳ１０）。

　カーソル時刻が発話を終了する時刻ｔ１１以上であると判断したときは（ステップＳ８でＹＥＳ）、又は、駆動制御部１０４が汎用モーションデータＧ２を再生モーションＩＤリストに格納したときは（ステップＳ１０）、処理を終了する。

　以上のように実施形態３によれば、汎用モーションデータＧ２は、音声データＡ２の再生を終了する時刻ｔ１１と同時刻に再生を終了するので、音声動作の再生終了時刻と音声データＡ２の再生終了時刻とを一致させることができ、音声の発話内容にふさわしい音声動作をロボットにさせることができる。また、音声データの終了と音声動作の終了が一致すると、ロボットの振る舞いがきれいに見える。

　〔実施形態４〕
　〔ソフトウェアによる実現例〕
　ロボット１の制御部１００は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、制御部１００は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本発明の態様１に係るロボット１は、音声（音声データＡ１、Ａ２）を出力する発話部（音声出力部６０）と、前記発話部（音声出力部６０）により出力された音声（音声データＡ１、Ａ２）に対応する音声動作を実行する可動部７０とを備え、前記音声（音声データＡ１、Ａ２）が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータＦ１、Ｆ２と、前記汎用単語に対応する汎用動作のための汎用モーションデータＧ１、Ｇ２とを組み合わせることにより実行される。

　上記の構成によれば、発話部により出力される音声に含まれる特定単語の意味を表す特定動作のための特定モーションデータと、特定単語に該当しない汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより、発話部により出力された音声に対応する音声動作が実行される。このため、発話の特定単語と汎用単語に応じてモーションデータを組み合わせれば、発話に対応する音声動作を実行することができ、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をロボット装置にさせることができる。

　本発明の態様２に係るロボット１は、上記態様１において、前記可動部７０は、前記特定単語が前記発話部（音声出力部６０）により出力されるタイミングで前記特定動作を実行してもよい。

　上記の構成によれば、特定単語の発話タイミングと特定動作の実行タイミングとが一致するので、発話内容により一層ふさわしい動作をロボットにさせることができる。

　本発明の態様３に係るロボット１は、上記態様１または２において、前記発話部（音声出力部６０）により出力される音声（音声データＡ１、Ａ２）の内容を決定する発話内容決定部１０２と、複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブル３０と、前記発話内容決定部１０２により決定された音声（音声データＡ１、Ａ２）の内容に基づいて、前記モーションデータテーブル３０の複数の特定モーションデータ候補から前記特定モーションデータＦ１、Ｆ２を選択し、前記モーションデータテーブル３０の複数の汎用モーションデータ候補から前記汎用モーションデータＧ１、Ｇ２を選択し、前記特定モーションデータＦ１、Ｆ２と前記汎用モーションデータＧ１、Ｇ２とを組み合わせるモーションデータ組み合わせ部（駆動制御部１０４）とをさらに備えてもよい。

　上記の構成によれば、特定モーションデータと汎用モーションデータとを簡易な構成で発話内容に応じて組み合わせることができる。

　本発明の態様４に係るロボット１は、上記態様３において、前記モーションデータ組み合わせ部（駆動制御部１０４）が、前記音声（音声データＡ１、Ａ２）の再生を開始する時刻よりも前に、前記特定モーションデータＦ１、Ｆ２及び前記汎用モーションデータＧ１、Ｇ２を選択して組み合わせてもよい。

　上記の構成によれば、音声の出力及び音声動作の実行の前処理として特定モーションデータ及び汎用モーションデータを選択し組み合わせればよいので、音声の出力及び音声動作の実行とのリアルタイム処理の必要が無く、簡素な構成で特定モーションデータ及び汎用モーションデータを組み合わせることができる。

　本発明の態様５に係るロボット１は、上記態様１から３のいずれか一態様において、前記音声（音声データＡ２）が前記特定単語の後で再生される他の特定単語をさらに含み、前記音声動作が、前記特定モーションデータＦ１と、前記汎用モーションデータＧ１と、前記他の特定単語の意味を表す他の特定動作のための他の特定モーションデータＦ２とを組み合わせることにより実行され、前記特定モーションデータＦ１の再生を終了する時刻ｔ５が、前記他の特定単語の再生を開始する時刻ｔ７よりも後であり、前記他の特定モーションデータＦ２は、前記再生を終了する時刻ｔ５と前記再生を開始する時刻ｔ７との間の差に相当する時間だけ前記再生を開始する時刻ｔ７よりも後にずれた時刻ｔ５から再生されてもよい。

　上記の構成によれば、特定単語に対応する特定モーションデータに加えて、他の特定単語に対応する他の特定モーションデータも再生されるので、特定単語のみならず他の特定単語にもふさわしい音声動作をロボットにさせることができる。

　本発明の態様６に係るロボット１は、上記態様１から３のいずれか一態様において、前記音声（音声データＡ２）が前記特定単語の後で再生される他の特定単語をさらに含み、前記特定モーションデータＦ１の再生を終了する時刻ｔ５が、前記他の特定単語の再生を開始する時刻ｔ７よりも後であり、前記汎用モーションデータＧ２は、前記再生を終了する時刻ｔ５と前記再生を開始する時刻ｔ７との間の差に相当する時間だけ前記再生を開始する時刻ｔ７よりも後にずれた時刻ｔ５から再生され、前記音声（音声データＡ２）の再生を終了する時刻ｔ１１と同時刻に再生を終了してもよい。

　上記の構成によれば、汎用モーションデータは、音声の再生終了時刻と同時刻に再生を終了するので、音声動作の再生終了時刻と音声の再生終了時刻とを一致させることができ、音声の発話内容にふさわしい音声動作をロボットにさせることができる。

　本発明の態様７に係るロボットの動作方法は、音声を出力する発話工程と、前記発話工程により出力された音声に対応する音声動作を実行する可動工程とを備え、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。

　本発明の態様８に係るプログラムは、コンピュータを、音声を出力する発話部、前記発話部により出力された音声に対応する音声動作を実行させる制御部として機能させるためのプログラムであって、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。

　本発明の各態様に係る発話内容決定部１０２、モーションデータ組み合わせ部（駆動制御部１０４）は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話内容決定部１０２、モーションデータ組み合わせ部（駆動制御部１０４）が備える各部（ソフトウェア要素）として動作させることにより上記発話内容決定部１０２、モーションデータ組み合わせ部（駆動制御部１０４）をコンピュータにて実現させるロボットの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　１　ロボット
３０　モーションデータテーブル
６０　音声出力部（発話部）
７０　可動部
１０２　発話内容決定部
１０４　駆動制御部（モーションデータ組み合わせ部）
Ａ１、Ａ２　音声データ（音声）
Ｆ１、Ｆ２　特定モーションデータ
Ｇ１、Ｇ２　汎用モーションデータ

Claims

　音声を出力する発話部と、
　前記発話部により出力された音声に対応する音声動作を実行する可動部とを備え、
　前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
　前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするロボット。
　前記可動部は、前記特定単語が前記発話部により出力されるタイミングで前記特定動作を実行する請求項１に記載のロボット。
　前記発話部により出力される音声の内容を決定する発話内容決定部と、
　複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブルと、
　前記発話内容決定部により決定された音声の内容に基づいて、前記モーションデータテーブルの複数の特定モーションデータ候補から前記特定モーションデータを選択し、前記モーションデータテーブルの複数の汎用モーションデータ候補から前記汎用モーションデータを選択し、前記特定モーションデータと前記汎用モーションデータとを組み合わせるモーションデータ組み合わせ部とをさらに備える請求項１又は２に記載のロボット。
　前記モーションデータ組み合わせ部が、前記音声の再生開始時刻よりも前に、前記特定モーションデータ及び前記汎用モーションデータを選択して組み合わせる請求項３に記載のロボット。
　前記音声が前記特定単語の後で再生される他の特定単語をさらに含み、
　前記音声動作が、前記特定モーションデータと、前記汎用モーションデータと、前記他の特定単語の意味を表す他の特定動作のための他の特定モーションデータとを組み合わせることにより実行され、
　前記特定モーションデータの再生終了時刻が、前記他の特定単語の再生開始時刻よりも後であり、
　前記他の特定モーションデータは、前記再生終了時刻と前記再生開始時刻との間の差に相当する時間だけ前記再生開始時刻よりも後にずれた時刻から再生される請求項１から３のいずれか一項に記載のロボット。
　前記音声が前記特定単語の後で再生される他の特定単語をさらに含み、
　前記特定モーションデータの再生終了時刻が、前記他の特定単語の再生開始時刻よりも後であり、
　前記汎用モーションデータは、前記再生終了時刻と前記再生開始時刻との間の差に相当する時間だけ前記再生開始時刻よりも後にずれた時刻から再生され、前記音声の再生終了時刻と同時刻に再生を終了する請求項１から３のいずれか一項に記載のロボット。
　音声を出力する発話工程と、
　前記発話工程により出力された音声に対応する音声動作を実行する可動工程とを備え、
　前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
　前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするロボットの動作方法。
　コンピュータを、音声を出力する発話部、前記発話部により出力された音声に対応する音声動作を実行させる制御部として機能させるためのプログラムであって、
　前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
　前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするプログラム。