JP2018196922A

JP2018196922A - ロボット制御システム

Info

Publication number: JP2018196922A
Application number: JP2017102651A
Authority: JP
Inventors: 慎山田; Shin Yamada
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2018-12-13

Abstract

【課題】ロボットに与える発話内容と感情情報とを対応付けて容易かつ迅速に入力することを課題とする。
【解決手段】ロボットと、情報処理装置とからなるロボット制御システム。情報処理装置が、ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された発話文字列と取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、送信情報をロボットに送信する第１通信部とを備える。ロボットが、送信情報を受信する第２通信部と、受信した送信情報に含まれる発話文字列を、送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とする。
【選択図】図４

Description

この発明は、ロボット制御システムに関し、特に、人間と対話し、設定された感情に対応した発話と動作が可能なコミュニケーション機能を持つロボットを制御するロボット制御システムに関する。

従来から、ロボットに指示を与える担当者が、指示内容を、所定の文字情報によって入力するか、あるいは、担当者の音声により入力し、その指示内容をロボットに与えるシステムが利用されている。たとえば、ロボットに発話させる内容そのものや、発話の感情表現の内容、ロボットが行う身体的動作の内容を、担当者が、文字入力や、音声入力をすることにより、ロボットに所望の指示内容を与えていた。

また、担当者によって入力された音声を認識し、認識された音声から、担当者の発話時の感情を判定するシステムも提案されている。さらに、カメラによって撮影された担当者の画像データから顔画像データを抽出し、担当者の表情によって感情を認識するシステムも提案されている。

たとえば、特許文献１には、ロボットがコミュニケーション相手の人間の発話音声を取得して、発話音声から得られる非言語的情報に基づいて緊張の感情の有無を判定し、さらに、相手の顔画像を取得して、顔画像から得られる表情に基づいて緊張の感情の有無を判定し、緊張の感情がないと判定した場合に、非言語的情報および表情の少なくとも一方に基づいて相手の感情の認識を行い、認識された感情に対応する行動を実行するコミュニケーションロボットが提案されている。

特開２００６−１２３１３６号公報

しかし、ロボットに与えるすべての指示内容を、担当者が、文字や音声を利用して入力をするのは、非常に時間がかかり、文字の誤入力や、音声の誤認識が生じる場合も多く、担当者の指示内容の入力にかかる負担が大きかった。
また、発話音声から得られる非言語的情報に基づいて感情を認識する場合は、音声を入力する環境や入力音声の精度等によっては、感情を誤認識することが多い。さらに、ロボットに感情をこめた発話をさせる場合、顔画像を撮影して人間の表情から感情を認識することができたとしても、その感情の認識とは別に、ロボットに発話させる内容そのものをロボットに与える必要があり、認識した感情と、発話させる内容とを同期させることが困難であった。

そこで、この発明は、以上のような事情を考慮してなされたものであり、ロボットに対して与える発話内容と感情情報とを、同時に、容易かつ迅速に入力でき、担当者の入力作業の負担軽減と時間短縮を図ることのできるロボット制御システムを提供することを課題とする。

この発明は、ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムであって、前記情報処理装置が、前記ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、前記送信情報を前記ロボットに送信する第１通信部とを備え、前記ロボットが、前記送信情報を受信する第２通信部と、受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とするロボット制御システムを提供するものである。

また、前記入力された画像情報から、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出する画像解析部をさらに備えることを特徴とする。

また、前記情報処理装置が、記憶部をさらに備え、前記記憶部に、人物の顔画像および身体画像の特徴データと、その特徴データから特定される感情情報との関係性を事前に機械学習させた感情判定情報を、予め記憶し、前記感情取得部が、前記感情判定情報を利用して、前記抽出された顔画像および身体画像から特徴データを検出し、
前記記憶された特徴データを利用して、前記検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得し、かつ当てはまりの良さを感情レベルとして取得することを特徴とする。

また、前記画像入力部が、ロボットに発話させる発話文字列の入力を終了した時の画像情報を入力することを特徴とする。
さらに、前記情報入力部によって、ロボットに発話させる文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、前記画像入力部が、画像情報を入力することを特徴とする。

また、前記画像入力部が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力し、前記感情取得部が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得することを特徴とする。

また、前記感情取得部が、入力された画像情報を利用して、画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得し、前記送信情報生成部が、前記感情情報と前記感情レベルとからなる感情取得データと、前記入力された発話文字列とを対応付けた送信情報を生成することを特徴とする。

また、前記情報入力部によって、ロボットに発話させる複数の発話文字列を入力し、前記画像入力部によって、前記各発話文字列の入力が終了するごとに、画像情報を入力し、前記感情取得部が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得し、前記送信情報生成部が、入力された前記各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された前記感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成することを特徴とする。

また、この発明は、ロボットの動作を制御するロボット制御システムの情報処理装置であって、前記ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、前記送信情報を前記ロボットに送信する通信部とを備えたことを特徴とする情報処理装置を提供するものである。

また、この発明は、ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムの制御方法であって、前記情報処理装置が、前記ロボットに発話させる発話文字列を入力する情報入力ステップと、前記ロボットに発話させる発話文字列の入力を終了した時に画像情報を入力する画像入力ステップと、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、前記送信情報を前記ロボットに送信する通信ステップとを備え、前記ロボットが、前記送信情報を受信する通信ステップと、受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力ステップと、前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動ステップとを備えたことを特徴とするロボット制御システムの制御方法を提供するものである。

また、この発明は、ロボットの動作を制御する情報処理装置のロボットの制御方法であって、前記ロボットに発話させる発話文字列を入力する情報入力ステップと、画像情報を入力する画像入力ステップと、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、前記送信情報を前記ロボットに送信する通信ステップとを備えたことを特徴とする情報処理装置のロボットの制御方法を提供するものである。

この発明によれば、情報処理装置において入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得し、入力された発話文字列と取得された感情情報とを対応付けた送信情報を生成するので、ロボットに対して与える発話内容と感情情報とを対応付けて、同時に、容易かつ迅速に入力でき、担当者の入力作業の負担軽減と時間短縮を図ることができる。

この発明のロボット制御システムの一実施例の構成ブロック図である。この発明の情報処理装置の記憶部に記憶される情報の一実施例の説明図である。この発明のロボットの記憶部に記憶される情報の一実施例の説明図である。この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。この発明の情報処理装置における送信情報の生成処理等の一実施例のフローチャートである。この発明のロボットにおける送信情報を受信した後の動作の一実施例のフローチャートである。

以下、図面を使用して本発明の実施の形態を説明する。なお、以下の実施例の記載によって、この発明が限定されるものではない。
＜ロボット制御システムの構成＞
図１に、この発明のロボット制御システムの一実施例の構成ブロック図を示す。
図１において、この発明のロボット制御システムは、主として、ネットワーク２に接続された情報処理装置１と、ロボット３とから構成される。

ここで、情報処理装置１（以下、PCとも呼ぶ）は、ロボット３の動作を制御する装置であり、特に、ユーザが、ロボット３に与える指示内容を入力する装置である。ロボット３に与える指示内容には、たとえば、ロボット３に発話させる内容を示す発話文字列や、発話の表現の仕方を特定するための感情情報などが含まれる。
ロボット３（以下、RBとも呼ぶ）は、情報処理装置１から与えられた発話文字列や感情情報などからなる指示内容に基づいて、その指示内容に対応した発話と動作を行う自律装置である。

ネットワーク２としては、既存のいずれかのネットワークを用いればよく、たとえば、インターネットのような広域ネットワークや、所定の構内だけで用いられるLANを用いてもよい。通信方式は、有線通信と無線通信のいずれを用いてもよいが、ロボット３は自律的に動作する装置なので、無線通信でネットワークに接続されることが好ましい。

ただし、情報処理装置１とロボット３との接続形態は、図１のように、ネットワーク２を介したものに限るものではない。
たとえば、情報処理装置１とロボット３とは、ネットワーク２を介さずに、直接、通信ケーブルを接続して有線通信により、相互にデータ通信を行ってもよい。または、所定の無線信号を用いた無線通信により、相互にデータ通信を行ってもよい。

また、ネットワーク２に接続されたサーバを利用し、サーバを介して、情報処理装置１とロボット３とが、データ通信を行うような接続形態でもよい。
この場合には、情報処理装置１で入力された指示内容には、制御するロボット３を特定する情報が含まれ、指示内容が情報処理装置１からサーバに送信された後、サーバから、制御するロボット３に対して、指示内容が送信される。サーバを介して指示内容を送信する場合は、サーバから、複数のロボット３に対して、同じ指示内容を、同時に配信することも可能である。

＜情報処理装置の構成＞
情報処理装置１は、情報の入力機能と通信機能を有する装置であり、たとえば、既存のパソコンや、携帯電話などの携帯端末を用いればよい。
図１に示すように、情報処理装置１は、主として、制御部１１、通信部１２、情報入力部１３、表示部１４、画像入力部１５、画像解析部１６、感情取得部１７、送信情報生成部１８、記憶部２０を備える。

制御部１１は、通信部などの各構成要素の動作を制御する部分であり、主として、ＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏコントローラ、タイマー等からなるマイクロコンピュータによって実現される。
ＣＰＵは、ＲＯＭ等に予め格納された制御プログラムに基づいて、各種ハードウェアを有機的に動作させて、この発明の感情取得機能、通信機能などを実行する。

通信部１２は、ネットワーク２に接続し、ロボット３とデータ通信をする部分である。
たとえば、後述するように、入力された発話文字列と、入力画像から取得した感情取得データを対応を対応付けた送信情報を、ロボット３に送信する。
通信部１２は、上記した第１通信部に相当する。
ネットワーク２への接続形態は、有線でも無線でもよく、既存のいずれかの通信手順を利用すればよい。

情報入力部１３は、ユーザが、文字などの情報の入力や、機能の選択入力などをする部分であり、この発明では、特に、ロボットに発話させる発話文字列を入力する。
情報入力部１３としては、たとえば、キーボード、マウス、タッチパネルなどが用いられる。
ロボットに発話させたい内容は、文字で表されるので、ユーザは、たとえば、キーボードを用いて、発話内容に相当する文字列（入力文字列）を入力する。
また、発話内容に相当する文字列などの情報を、予めＵＳＢメモリなどの外部の記憶媒体に記憶しておき、その記憶媒体を接続して、記憶媒体に記憶されている情報を、情報処理装置１に入力してもよい。あるいは、ユーザが、発話内容を音声データとして入力し、音声認識することにより、発話内容に相当する文字列（入力文字列）を入力してもよい。

あるいは、発話内容に相当する文字列などの複数の情報を、予め記憶部２０に記憶しておき、記憶されている複数の情報を読み出して表示部１４に表示させ、表示された情報のうち、ロボットに発話させたい所望の情報を選択することにより、発話内容に相当する文字列（入力文字列）として入力してもよい。
また、ロボットに発話させたい文字列を記載した用紙を予め作成し、用紙に記載された文字列を、スキャナやカメラで画像データとして読み取り、文字認識した後、発話内容に相当する文字列（入力文字列）として入力してもよい。

ユーザが、発話内容に相当する文字列を、たとえばキーボードを用いて入力する場合、その文字列の入力が終了したことを示すために、キーボードの所定の確定キー（たとえば、Enterキー）を押し下げる。
この確定キーが押し下げられたことを検出した場合、入力された発話内容に相当する文字列は、入力文字列として、記憶部２０に記憶される。

また、文字列の入力が終了したことを示す方法としては、上記の確定キーに限るものではなく、他の方法を用いてもよい。たとえば、タッチパネルが利用される場合は、タッチパネル上で文字列の終了を意味する所定の表示領域に接触することで、文字列の入力が終了したことを示してもよく、マウスが利用される場合は、表示画面上で文字列の終了を意味する所定の表示領域をマウスで選択入力することで、文字列の入力が終了したことを示してもよい。

表示部１４は、情報を表示する部分であり、入力された文字列、各機能の実行に必要な情報、機能の実行の結果などを、表示する。表示部１４としては、たとえば、LCD、有機ELディスプレイなどが用いられ、情報入力部１３としてタッチパネルが用いられる場合は、表示部とタッチパネルとが重ね合わせて配置される。

画像入力部１５は、所定の画像情報を入力する部分であり、たとえば、ユーザの感情を取得するために、所定の感情に対応した表情や身振りを含む人物画像を入力する。
画像入力部１５としては、カメラを用い、顔部分を含む上半身の画像や、顔に加えて手足も含む身体画像を、撮影する。撮影される画像は、静止画でもよく、動画でもよい。入力された画像情報は、入力画像として、記憶部２０に記憶される。
入力画像は、主として、ユーザの感情を取得するために利用される。
入力画像そのものを、ロボットに送信してもよいが、この発明では、ロボットに送信されるデータ量をできるだけ少なくし、ロボット側での処理をできるだけ軽くするために、入力画像そのものは、ロボットに送信しないものとする。

また、情報入力部１３によるロボットに発話させる発話文字列の入力を終了した時に、画像入力部１５が、画像情報を入力し、入力画像として、記憶部２０に記憶する。
より具体的には、ロボットに発話させる発話文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、画像入力部１５が、画像情報を入力する。
文字列の入力が確定したことを意味する入力とは、たとえば、上記した確定キーを入力することに相当する。

あるいは、後述するように、画像入力部１５が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力してもよい。この場合は、感情取得部１７が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得する。

画像解析部１６は、記憶部２０に記憶された入力画像を解析する部分である。
たとえば、入力された画像情報から、その画像情報に含まれる人物の顔部分の画像（顔画像）を抽出する。また、全身画像を撮影した入力画像から、人物の手足部分など特徴的な部位の身体画像を抽出する。
撮影された人物の感情を取得するためには、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出すればよい。
あるいは、撮影された動画から、連続的な複数の静止画像を生成し、連続的な複数の静止画像を比較して変化した部分の画像からユーザの動作を認識し、ユーザの動作から、感情情報を取得してもよい。
顔や手足などの所定の部分画像の抽出処理等は、既存の画像処理技術を用いればよい。

感情取得部１７は、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する部分である。たとえば、画像解析部１６によって抽出されたユーザの顔部分の画像を利用して、ユーザの表情に表れている感情を取得する部分である。ここでの感情は、喜怒哀楽などの人間の気持ちに相当する。
感情の取得には、後述するように、記憶部２０に予め記憶された感情判定情報を用いることができる。
感情判定情報には、たとえば、人物の顔画像および身体画像の特徴データ（特徴となる部分を示した点の座標の集合）と、その特徴データから推論によって特定されるべき感情情報との関係性を事前に機械学習させて生成された情報（判定感情）とを対応付けて、感情情報ごとに、予め記憶しておく。

感情取得部１７は、感情判定情報を利用して、画像解析部１６によって抽出された顔画像および身体画像から特徴データを検出し、記憶部２０に記憶された感情判定情報の特徴データを利用して、検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得する。また、その当てはまりの良さを、感情レベルとして取得する。
また、抽出されたユーザの顔画像および身体画像と、感情判定情報の特徴データとを比較し、一致可能な特徴データが複数ある場合は、一致の可能性が最も高い特徴データに対応した判定感情を、その人物が示す感情情報として取得してもよい。

また、「喜び」という感情でも、大喜びや小喜びなど、喜びの程度が、表情に表れる場合があるので、入力された人物の顔部分の画像を感情判定情報に通して、そのときの当てはまりの良さを算出し、該当する感情情報の感情レベルとして利用してもよい。
あるいは、入力された人物の顔部分の画像と感情判定情報の基準画像等との比較結果から、入力された画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得してもよい。
たとえば、１から１０までの１０段階の感情レベルを設定し、抽出されたユーザの顔部分の画像が、大喜びに対応した基準画像にほぼ一致可能な場合は、感情情報として「喜び」を取得し、感情レベルとして、１０を設定する。
また、抽出されたユーザの顔部分の画像が、悲しみに対応した基準画像に一致可能であるが、一致の程度がかなり低い場合は、感情情報として「悲しみ」を取得し、感情レベルとして、２を設定する。

このように、感情取得部１７によって取得された感情情報と感情レベルは、感情取得データとして、記憶部に２０に記憶される。
また、感情情報と感情レベルを取得するタイミングは、たとえば、上記したように、情報入力部１３によって、確定キーが押し下げられ、入力文字列が確定した時とする。
また、感情情報と感情レベルとからなる感情取得データは、入力されたロボットに発話させる発話文字列と対応付けて、ロボットに送信される。

送信情報生成部１８は、ロボット３に送信する送信情報を生成する部分である。
送信情報は、入力された発話文字列２５ａと、取得された感情情報を対応付けた情報である。後述するように、送信情報生成部１８は、感情情報と感情レベルとからなる感情取得データ２５ｂと、入力された発話文字列２５ａとを対応付けた送信情報を生成する。
発話文字列２５ａは、ロボット３に発話させる文字列であるが、上記したように、情報入力部１３によって入力された入力文字列２２に相当する。

また、感情情報と感情レベルを取得するタイミングは、原則として、入力文字列２２の入力が確定し画像情報を入力した後であるが、このタイミングで取得された感情情報と感情レベルからなる感情取得データ２５ｂが、送信情報に含まれる。
したがって、送信情報を生成するのは、入力文字列２２の入力が確定し、感情情報と感情レベルからなる感情取得データを取得した後である。

すなわち、ユーザが、入力文字列を入力し、最後の文字を入力し終わった後、カメラの前で、その文字列を発話するときの感情を示す表情や身振りをして、確定キーを押し下げる。
たとえば、ユーザが、キーボードで、「おはよう」という文字列を入力した後、カメラの前で、「喜び」を示す表情を作って、確定キーを押し下げる。
確定キーを押し下げることにより、「おはよう」という入力文字列２２が確定し、「おはよう」という入力文字列２２を記憶部２０に記憶する。

また、確定キーを押し下げることにより、カメラによって、画像が撮影され、入力画像として記憶される。さらに、記憶された入力画像を画像解析することにより、たとえば顔画像が抽出され、顔画像から、「喜び」を意味する感情情報と感情レベルを取得し、感情取得データ２４として、記憶部２０に記憶する。
その後、記憶部２０に記憶された入力文字列２２と感情取得データ２４とを利用して、送信情報が生成される。
このようにして、ロボットに発話させたい文字列の情報と、ユーザが作った表情の画像に基づく発話の感情情報とが、ほぼ同時に取得され、同期した状態で、一つの送信情報に組み込まれる。

したがって、ユーザは、発話させたい文字列の入力とは別に、発話の感情情報を入力する必要がなく、発話させたい文字列の入力を確定させるタイミングで、発話してほしい感情を示す表情や身振りをするという一連の入力操作をすることにより、容易かつ迅速に、発話内容と感情情報とを対応付けた送信情報を、ロボットに送ることができ、ユーザの入力操作の負担軽減と時間短縮をすることができる。

また、ロボットに送信する送信情報には、少なくとも、１つの発話文字列と、この発話文字列に対応付けられた感情情報と含むが、送信情報に、複数の発話文字列と、各発話文字列にそれぞれ対応付けられた感情情報とを含めてもよい。
この場合、情報入力部１３によって、ロボットに発話させる複数の発話文字列を入力し、画像入力部１５によって、各発話文字列の入力が終了するごとに、画像情報を入力し、感情取得部１７が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得する。その後、送信情報生成部が、入力された各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成すればよい。

記憶部２０は、この発明の情報処理装置の各機能を実行するために必要な情報やプログラムを記憶する部分であり、ＲＯＭ、ＲＡＭ、フラッシュメモリなどの半導体記憶素子、ＨＤＤ、ＳＳＤなどの記憶装置、その他の記憶媒体が用いられる。
記憶部２０には、たとえば、感情判定情報２１、入力文字列２２、入力画像２３、感情取得データ２４、送信情報２５などが記憶される。
図２に、この発明の情報処理装置に記憶される情報の一実施例の説明図を示す。

感情判定情報２１は、入力画像から、ユーザの感情を取得するために用いられる情報である。
図２(a)に、感情判定情報２１の一実施例の説明図を示す。
感情判定情報２１は、たとえば、顔画像特徴と、判定感情とを対応付けた情報であり、予め記憶部２０に記憶される。
顔画像特徴とは、顔画像に含まれる目や口などの形状を示す基準画像やパラメータからなる特徴データであり、たとえば、一般的に、人間が喜んでいる時に現れる目や口のいくつかの形状パターンが、喜びを意味する顔画像特徴の基準画像として記憶される。
また、喜びを意味する顔画像特徴の基準画像は、「喜び」という感情情報（判定感情）と対応付けて記憶される。
上記したように、入力画像から抽出された顔画像が、喜びを意味する顔画像特徴の基準画像とほぼ一致可能な場合は、ユーザは、喜びを表す表情をしていると判断し、判定感情を「喜び」と判断する。

また、同じ感情でも人の感情には大小があり、たとえば大きな「喜び」を表す顔の表情の特徴と、小さな「喜び」を表す顔の表情の特徴とが明確に区別できる場合もある。
そこで、１つの感情に対して、感情の大きさに対応して区別可能な顔画像特徴がある場合は、代表的な１つの顔画像特徴のみを設定するのではなく、区別可能な複数の顔画像特徴を予め設定記憶してもよい。

たとえば、大きな「喜び」を表す顔画像特徴と、「大喜び」という判定情報と、「１０」という感情レベルとを対応付けて記憶し、また、中程度の「喜び」を表す顔画像特徴と、「中喜び」という判定情報と、「５」という感情レベルとを対応付けて記憶し、さらに、小程度の「喜び」を表す顔画像特徴と、「小喜び」という判定情報と、「２」という感情レベルとを対応付けて記憶してもよい。この場合には、「喜び」という感情に対して、３つの感情判定情報が、予め設定されたことになる。

この他に、感情判定情報２１として、身体画像特徴と判定感情とを対応付けた情報を予め記憶してもよい。
身体画像特徴は、手、腕、足などの身体の部位の形状や変化を示す基準画像やパラメータからなる特徴データである。たとえば、一般的に、人間が喜んでいる時に現れる手や足による身振りのいくつかの形状パターンや変化が、喜びを意味する身体画像特徴の基準画像として記憶される。
入力画像から抽出された身体画像が、喜びを意味する身体画像特徴の基準画像とほぼ一致可能な場合は、ユーザは、喜びを表す身振りをしていると判断し、判定感情を「喜び」と判断する。

図２(a)には、判定感情の例として「喜び」を示しているが、この他に、「悲しみ」など複数の感情を意味する顔画像特徴や身体画像特徴と、判定感情とが対応付けられて、予め記憶される。

入力文字列２２は、情報入力部１３によって入力された文字情報である。
図２(a)に、入力文字列２２の一実施例の説明図を示す。
たとえば、ユーザが、キーボードを用いて、「おはよう」と入力すれば、「おはよう」という文字列が、入力文字列２２として記憶される。

入力画像２３は、画像入力部１５によって入力された画像情報である。
図２(c)に、入力画像２３の一実施例の説明図を示す。
入力画像２３から抽出される情報として、顔画像や、身体画像がある。
画像解析部１６が入力画像２３を解析することにより、たとえば、入力画像２３に含まれる顔部分が認識され、顔画像が抽出される。また、身振りから感情を判定するために、入力画像から、身体画像が抽出される。

感情取得データ２４は、入力画像２３から取得した感情に関するデータである。
感情取得データ２４は、上記したように、感情取得部１７が、画像解析部１６によって抽出された顔画像および身体画像と、感情判定情報２１とを比較することにより、取得される。
図２(d)に、感情取得データ２４の一実施例の説明図を示す。
ここでは、感情取得データ２４として、感情情報２４ａと、感情レベル２４ｂとからなるものを示している。感情情報２４ａは、入力画像２３から得られた判定感情に対応し、感情レベル２４ｂは、感情情報の程度を示している。

たとえば、ユーザが大喜びを意味する表情を作って、カメラによってその顔を含む画像を撮影した場合、入力画像２３から感情を判断すると、「喜び」という感情情報２４ａと、「１０」という感情レベル２４ｂとからなる感情取得データ２４が取得される。
取得された感情情報２４ａと感情レベル２４ｂとからなる感情取得データ２４は、送信情報に含められて、ロボット３に送信される。

ただし、図２(d)に示すように、送信データ量を削減するために、感情情報２４ａと感情レベル２４ｂとを合成したような感情取得送信情報２４ｃを生成し、この感情取得送信情報２４ｃを、送信情報に含めて、ロボット３に送信してもよい。
たとえば、「喜び」という感情情報２４ａと、「１０」という感情レベル２４ｂとからなる感情取得データ２４が取得された場合は、「ＨＡ−１０」という感情取得送信情報２４ｃを生成してもよい。
また、「悲しみ」という感情情報２４ａと、「３」という感情レベル２４ｂとからなる感情取得データ２４が取得された場合は、「ＳＤ−０３」という感情取得送信情報２４ｃを生成してもよい。

送信情報２５は、ロボット３に送信される情報である。
送信情報２５には、少なくとも、発話文字列２５ａと、感情取得データ２５ｂとが含まれる。
発話文字列２５ａは、上記した入力文字列２２に相当し、感情取得データ２５ｂは、感情取得部１７によって取得された感情情報と感情レベルを含む感情取得データ２４に相当する。
また、感情取得データ２５ｂの代わりに、感情情報２４ａと感情レベル２４ｂとを合成したような感情取得送信情報２４ｃを、送信情報２５に含めてもよい。

図２(e)に、送信情報２５の一実施例の説明図を示す。
ここでは、発話文字列２５ａと、感情取得データ２５ｂに対応する感情取得送信情報２４ｃとからなる送信情報２５を示している。
図２(e)の１番目の送信情報２５は、「おはよう」という文字列からなる発話文字列２５ａと、「喜び」という感情情報２４ａと「１０」という感情レベル２４ｂを意味する「ＨＡ−１０」という感情取得送信情報２４ｃとからなる。
なお、図２(e)に示した送信情報２５は、送信する内容を説明するために例示したものであって、ロボットを制御するための標準化仕様が設定されている場合は、送信情報２５の内容である発話文字列２５と感情取得送信情報２４ｃを、その標準化仕様に適合した形式のデータに変換して、ロボット３に送信してもよい。

この「ＨＡ−１０」という感情取得送信情報は、原則として、「おはよう」という文字列の入力が確定した時に入力された入力画像から取得した感情に関する情報である。
このような送信情報２５がロボット３に送信されると、後述するように、ロボット３側では、送信情報２５を受信情報４１として記憶し、「ＨＡ−１０」に対応する感情表現を検出し、「喜び」を表すような抑揚で、「おはよう」という発話を行う。

以上が、情報処理装置１の構成であるが、ロボット制御システムとして、サーバを利用する場合は、たとえば、上記した情報処理装置１の構成のうち、画像解析部１６と感情取得部１７の機能を、サーバに備え、情報処理装置１から、サーバに、入力文字列と、入力文字列確定時の入力画像とからなる情報と、送信先であるロボットを特定する情報を、送信してもよい。
この場合は、サーバにおいて、入力画像から、感情取得データを生成し、感情取得データと入力文字列とからなる送信情報を、ロボットに送信すればよい。

＜ロボットの構成＞
ロボット３は、主として、制御部３１、通信部３２、出力音声生成部３３、出力動作決定部３４、音声出力部３５、身体駆動部３６、記憶部４０を備える。

制御部３１は、通信部などの各構成要素の動作を制御する部分であり、主として、ＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏコントローラ、タイマー等からなるマイクロコンピュータによって実現される。
ＣＰＵは、ＲＯＭ等に予め格納された制御プログラムに基づいて、各種ハードウェアを有機的に動作させて、この発明の音声出力機能、通信機能などを実行する。

通信部３２は、ネットワーク２に接続し、情報処理装置１とデータ通信をする部分である。
たとえば、上記したように、情報処理装置１で生成された送信情報２５を、受信する。
通信部３２は、上記した第２通信部に相当する。
受信された送信情報２５は、受信情報４１として、記憶部４０に記憶される。
ネットワーク２への接続形態は、有線および無線のどちらでもよいが、自律走行するようなロボットの場合は、無線を利用することが好ましく、既存のいずれかの通信手順を利用すればよい。
なお、サーバを介して、ロボットを制御する情報を受信する場合は、サーバとデータ通信をする。

出力音声生成部３３は、音声出力部３５であるスピーカから出力する音声データを生成する部分である。情報処理装置１から送信されてくる送信情報に基づいて、出力する発話内容が決定され、発話の感情を表現する抑揚が決定される。
送信情報２５に含まれる発話文字列が、音声として実際に出力される発話内容となる。
また、送信情報２５に含まれる感情取得送信情報２４ｃによって特定される感情情報と感情レベルに基づいて、発話内容を出力するときの音の調子、高低変化、音の強さなどが設定され、発話内容の合成音声が生成される。
生成された合成音声は、出力音声情報４４として、記憶部４０に記憶される。

出力動作決定部３４は、情報処理装置１から送信されてくる送信情報２５に基づいて、ロボットの手足等を用いた身振り動作を、決定する部分である。
予め記憶部４０に記憶された感情設定情報などを利用して、受信した送信情報２５に含まれる発話内容の意味と感情情報とに関連した身振り動作を決定する。
たとえば、「おはよう、HA-10」という送信情報２５を受信した場合は、「おはよう」という言葉を喜びの抑揚で発声する合成音声が生成されるのに加えて、出力動作決定部３４が、喜びの感情を最大に表現するような手足等の身体の動作を決定する。
決定された身振り動作は、出力動作情報４５として、記憶部４０に記憶される。

音声出力部３５は、出力音声生成部３３によって生成された合成音声を出力する部分であり、スピーカに相当する。
また、受信した送信情報に含まれる発話文字列を、送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する。

身体駆動部３６は、出力動作決定部３４によって決定された身振り動作を実行する部分であり、特に、送信情報に含まれる感情情報に対応した身振り動作をさせる。

記憶部４０は、この発明のロボットの各機能を実行するために必要な情報やプログラムを記憶する部分であり、ＲＯＭ、ＲＡＭ、フラッシュメモリなどの半導体記憶素子、ＨＤＤ、ＳＳＤなどの記憶装置、その他の記憶媒体が用いられる。
記憶部４０には、たとえば、受信情報４１、出力音声情報４４、出力動作情報４５、感情設定情報４６などが記憶される。
図３に、この発明のロボットの記憶部に記憶される情報の一実施例の説明図を示す。

受信情報４１は、ここでは、情報処理装置１から送られてくる送信情報２５を意味する。
したがって、受信情報４１には、少なくとも、発話文字列４２と、感情取得データ４３とが含まれる。
図３（b）に、受信情報４１の一実施例の説明図を示す。
図２（e）の送信情報２５を受信した場合は、受信情報４１には、感情取得データ４３の代わりに、感情取得送信情報が記憶される。
感情取得送信情報が受信された場合は、この感情取得送信情報から、感情情報と感情レベルからなる感情取得データ４３が生成される。

感情設定情報４６は、種々の感情に対応した音声と動作に関する情報を、予め設定した情報である。図３（a）に示すように、たとえば、感情設定情報４６は、感情情報と、音声抑揚と、身体動作とを対応づけた情報であり、想定される各感情情報に対応付けて、音声抑揚と、身体動作が、予め設定記憶される。

音声抑揚は、感情をこめて音声を出力する場合に、その音声の高低の変化や、音の強弱や速度を決めるための情報であり、たとえば、喜びの感情情報に対しては、喜びの感情を示す喜び抑揚が、予め設定される。
身体動作は、感情を表現した身体の動作を予め設定したものであり、たとえば、喜びの感情情報に対しては、ロボットの手足、首、目、口などの動きから、喜びを表現するように、身体の各部位の動作を設定する。
他の悲しみなどの感情情報についても、同様である。

出力音声生成部３３が、出力音声情報４４を生成する場合、感情設定情報４６を参照し、受信した感情情報に対応する音声抑揚を利用して、発話文字列の合成音声を生成する。
また、出力動作決定部３４が、出力動作情報４５を決定する場合、感情設定情報４６を参照し、受信した感情情報に対応する身体動作を利用して、ロボットの身振り動作を決定する。

出力音声情報４４は、出力音声生成部３３によって生成される情報である。
図３（c）に、出力音声情報４４の一実施例の説明図を示す。
出力音声情報４４は、たとえば、出力する発話内容と、発話の感情を表現する抑揚と、その抑揚の程度の情報からなり、これらの情報から生成された合成音声そのものも記憶される。あるいは、生成された合成音声そのものだけを、出力音声情報４４として記憶してもよい。

図３（c）において、「おはよう」という合成音声を生成するが、感情レベルが１０の喜びを表現する場合、この合成音声は、大きな喜びの感情を表すような抑揚をつけて生成される。
また、「こんにちは」という合成音声を生成するとき、感情レベルが３の悲しみを表現する場合、この合成音声は、小さな悲しみの感情を表すような抑揚をつけて生成される。

出力動作情報４５は、出力動作決定部３４によって生成される情報である。
図３（d）に示すように、たとえば、喜びの感情を表す動作をする場合は、感情設定情報４６に予め設定されている「喜び動作」に対応する手足などの具体的な動作内容が、記憶される。

＜ロボット制御システムにおける入力処理等の説明＞
ここでは、主として、情報処理装置PCにおいて、ユーザが、ロボットRBに対する指示内容を入力して、ロボットRBに送信する情報を生成するまでの一連の処理の実施例を示す。

（第１実施例）
図４に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでは、ユーザが、PCのキーボード１３を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ１５で撮影するものとする。
また、カメラ１５を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。

ただし、ユーザの身体画像を実際に取得し記憶するタイミングは、入力文字列の最後の文字を入力した後、ユーザが所定の感情を示す表情を作って、確定キーを押し下げた時とする。
また、ユーザは、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるために、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影するものとする。

図４において、ユーザは、時間T0において、文字列の入力を開始し、まず、「お」を入力するものとする。その後、続いて、「は」、「よ」、「う」の文字を、順に入力する。
入力される文字は、入力文字列２２として記憶される。
これらの文字の入力中において、カメラは起動状態にあり、いつでも入力画像２３を取り込める状態にある。

ユーザは、最後の文字である「う」を入力した後、カメラの前で、喜びの表情を作る。
喜びの表情は、感情判定情報２１に予め記憶した喜びの感情に対応した顔画像特徴を持つ表情に近いものであることが好ましい。
その後、ユーザは、喜びの表情を作ったまま、文字列入力が終了したことを示す確定キーを押し下げる。
時間T4において、確定キーが入力されると、発話文字列が確定し、画像取得から感情取得までの一連の処理が実行され、感情情報データが生成される。

まず、確定キーが入力されるまでに記憶された入力文字列が、送信情報２５の発話文字列２５ａとして記憶される。
また、確定キーが入力されたタイミングで撮影された画像が取得され、入力画像２３として記憶される。
その後、画像解析部１６が、入力画像２３を解析し、顔の部分画像を抽出する。
次に、感情取得部１７が、抽出された顔画像と、感情判定情報２１に記憶された複数の顔画像特徴とを比較し、両者が最も一致する可能性の高い判定感情を検出する。
検出された判定感情は、ユーザの感情情報として設定される。
なお、入力画像から感情情報を取得する方法は、上記のものに限るものではなく、従来から行われている感情取得方法を利用してもよい。

設定された感情情報と感情レベルは、感情取得データ２４として記憶される。
たとえば、「喜び」という感情情報２４ａと、「１０」という感情レベル２４ｂが、感情取得データ２４として記憶される。
また、送信情報に、感情取得送信情報２４ｃを利用する場合は、感情取得データ２４から、感情取得送信情報２４ｃを生成する。
たとえば、「喜び」という感情情報と、「１０」という感情レベルからなる感情取得データ２４の場合は、「ＨＡ−１０」という感情取得送信情報２４ｃを生成する。

次に、送信情報生成部１８が、記憶された発話文字列２５ａと、感情取得送信情報２４ｃとを含む送信情報２５を生成する。たとえば、「おはよう、ＨＡ−１０」という送信情報２５が生成される。
この後、通信部１２によって、この送信情報２５が、ロボットRBに送信される。
たとえば、発話文字列２５ａと感情取得送信情報２４ｃとを対応付けた「おはよう、ＨＡ−１０」という送信情報２５が、ロボットRBに送信される。

これにより、ユーザは、ロボットに発話させたい文字列は入力する必要があるが、文字列の入力確定時に、感情を示す表情を作ることにより、容易かつ迅速に、発話文字列と感情情報とを対応付けた送信情報を生成することができる。また、ユーザは、文字列の入力と、確定キーの入力時に感情を示す表情を作るだけで、発話文字列と感情とを対応させた情報が作成されるので、ユーザの入力にかかる操作負担を軽減でき、入力操作の時間短縮をすることができる。
さらに、ロボットに送信される情報には、入力画像そのものを含まないので、データ通信量が少なく、短時間でデータ通信が行われ、また、ロボット側では、感情判定処理を行う必要がないので、迅速に、感情を込めた発話処理を実行できる。

（第１実施例における情報処理装置の処理フローの説明）
図７に、この発明の情報処理装置における送信情報の生成処理等の一実施例のフローチャートを示す。
ユーザは、情報処理装置PCに付属されているカメラか、あるいはPCに接続されているカメラの前に、自分の顔を含む身体画像が撮影される状態で座り、ロボットに発話させたい文字列の入力操作をするものとする。
確定キーとしては、たとえば、キーボードのEnterキーを用いればよい。

図７のステップS1において、情報入力部１３を用いて、ユーザによる入力があったか否かをチェックする。
ここでは、主として、文字の入力か、あるいは、確定キーの入力が行われたか否かをチェックする。
ステップS2において、文字の入力があった場合は、ステップS3に進み、そうでない場合は、ステップS4に進む。
ステップS3において、入力された文字を記憶し、ステップS1に戻る。
たとえば、「お」が入力されれば、「お」を記憶し、その後、複数の文字が連続して入力された場合は、確定キーが入力されるまで、一つの文字列として記憶する。

ステップS4において、確定キーの入力があった場合は、ステップS5に進み、そうでない場合は、ステップS1に戻る。
このフローには記載していないが、ユーザは、確定キーを入力する前に、所望の感情を表した表情を作り、確定キーを入力する時もその表情を維持する。
ステップS5において、確定キーを入力するまでに記憶されていた文字列を、確定した入力文字列２２として記憶する。

ステップS6において、カメラによって現在撮影されている画像を取得し、入力画像２３として記憶する。この入力画像２３は、ユーザが確定キーを押し下げたタイミングで取得された画像に相当し、ユーザの感情を取得するための画像となる。

ステップS7において、画像解析部１６が、入力画像２３の画像解析を行う。
ここでは、たとえば、入力画像２３から、ユーザの顔、口、目、首、手足など、身体の各部位を認識する。
ステップS8において、画像解析の結果、次のステップで感情を取得するために必要な部分画像を抽出する。たとえば、ユーザの顔画像を抽出する。あるいは、手足を含む身体画像を抽出してもよい。

ステップS9において、感情取得部１７が、抽出した顔画像あるいは身体画像から、ユーザの感情を取得する。
ここでは、たとえば、予め記憶されている感情判定情報２１を利用して、抽出した顔画像と、感情判定情報２１の顔画像特徴とを比較し、一致可能な顔画像特徴がある場合、その一致可能な顔画像特徴に対応付けられた判定感情を、感情情報として取得する。
また、抽出した顔画像と一致可能な顔画像特徴との一致の程度を求め、求めた一致の程度から、感情レベルを設定する。たとえば、一致の程度が、ほぼ１００％に近い場合は、感情レベルを１０とし、一致の程度が３０％であれば、感情レベルを３とすればよい。

ステップS10において、感情取得データを生成し、記憶する。
感情取得データ２４は、ステップS9で取得された感情情報と感情レベルからなる。
ステップS11において、送信情報生成部１８が、記憶された入力文字列２２と感情取得データ２４とを利用して、送信情報２５を生成し記憶する。
上記したように、入力文字列２２は、送信情報２５の発話文字列２５ａに相当する。
感情取得データ２４を、そのまま送信情報２５に含めてもよいが、上記したような感情取得送信情報２４ｃに変換したものを、送信情報２５に含めてもよい。
ステップS12において、送信情報２５を、ロボットRBに送信する。

上記のフローでは、ユーザは、文字列の入力操作を行い、確定キーを入力する前に感情を込めた表情を作って、確定キーを入力する操作をするだけで、発話文字列２５ａと感情取得データ２４とが対応付けられた送信情報２５が自動的に生成されて、ロボットRBに送信される。したがって、ロボットに発話させたい内容と発話の感情とを、同時に送信することができ、ユーザが、ロボットに指示内容を送信する際の入力操作にかかる手間と時間を、大幅に削減することができる。

（第１実施例におけるロボットの動作フローの説明）
図８に、この発明のロボットにおける送信情報を受信した後の動作の一実施例のフローチャートを示す。
ロボットRBは、情報処理装置PCから、ロボットを制御するための送信情報を受信した後、その送信情報に含まれる指示内容に従って、感情を込めた音声を出力する発話処理を実行し、その感情に対応して予め決められた動作を実行する。

図８のステップS51において、情報処理装置PCから送られてくるデータの受信チェックをする。
ステップS52において、情報処理装置PCから送られた送信情報を受信した場合は、ステップS53に進み、そうでない場合は、ステップS51に戻る。
受信した送信情報は、受信情報４１として、記憶部に４０に記憶するものとする。
ステップS53において、受信した送信情報から、発話文字列４２を取得する。
たとえば、受信した送信情報が、「おはよう、HA-10」である場合、発話文字列４２として、「おはよう」を取得する。

ステップS54において、受信した送信情報から、感情取得データ４３を取得する。
送信情報に感情取得送信情報が含まれていた場合は、感情取得送信情報から、感情情報と、感情レベルを生成する。たとえば、受信した感情取得送信情報が「HA-10」の場合は、「喜び」という感情情報と、「１０」という感情レベルを生成する。

ステップS55において、出力音声生成部３３が、感情設定情報４６を利用して、出力音声情報４４を生成記憶する。
ここでは、たとえば、まず、取得した発話文字列４２から、音声として出力する文字を特定し、記憶部４０に予め記憶された感情設定情報４６を参照し、取得した感情情報に対応する音声抑揚を検出し、取得した感情レベルを利用して、音声抑揚の付け方の程度を設定して、出力音声情報４４を生成する。また、生成した出力音声情報４４から、音声抑揚を考慮した発話文字列の合成音声を生成する。
たとえば、受信した送信情報が「おはよう、HA-10」である場合、「おはよう」という発話文字列と、「喜び抑揚」という音声抑揚と、「抑揚−大」という抑揚の程度とからなる出力音声情報４４を生成する。

ステップS56において、出力動作決定部３４が、感情設定情報４６を利用して、出力動作情報４５を決定記憶する。
ここでは、たとえば、記憶部４０に予め記憶された感情設定情報４６を参照し、取得した感情情報に対応する身体動作を検出し、ロボットの手足などの身体の部位の動きを設定して、出力動作情報４５を決定する。
たとえば、受信した送信情報が「おはよう、HA-10」である場合、感情レベルが「１０」の程度の喜びの感情を表現した手足などの動きを設定する。

ステップS57において、生成された出力音声情報４４を利用して、音声抑揚を考慮した発話文字列の合成音声を、スピーカから出力する。
ステップS58において、身体駆動部３６が、決定された出力動作情報４５を利用して、受信した感情に対応するように、ロボットの身体を駆動させる。
ただし、ステップS57とステップS58の処理は、この順に行うのではなく、ほぼ同時に並行して行うことが好ましい。

（第２実施例）
図５に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでも、第１実施例と同様に、ユーザが、PCのキーボード１３を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ１５で撮影するものとする。また、カメラ１５を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。

また、ユーザは、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるために、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影するものとする。
ユーザが、文字列入力が終了したことを示す確定キーを押し下げると、発話文字列が確定し、確定キーが入力されるまでに記憶された入力文字列「おはよう」が、送信情報２５の発話文字列２５ａとして記憶される。

ただし、ユーザの身体画像を実際に取得し記憶するタイミングが、第１実施例と異なる。
ここでは、入力文字列の各文字を入力するごとに、ユーザの顔を含む身体画像を取得するものとする。また、確定キーを押し下げた時も、身体画像を取得するものとする。
したがって、ユーザは、文字の入力を開始した後、確定キーを押し下げるまで、できるだけ、所定の感情を示す表情を作り続けるようにする。
すなわち、「おはよう」という文字列を入力する場合、４つの文字を入力したタイミング（T0,T1,T2,T3)の画像（G1,G2,G3,G4)をそれぞれ取得し、さらに、確定キーを押し下げた時のタイミングT4の画像G5を取得し、記憶する。

そして、記憶された５つの画像（G1,G2,G3,G4,G5)それぞれについて、第１実施例と同様に、画像解析、顔画像抽出、感情取得という一連の処理を行い、５つの各入力画像に対する感情情報と感情レベルをそれぞれ取得する。
図５のように、たとえば、取得した５つの感情情報が、すべて「喜び」である場合に、ユーザが作った感情は「喜び」であると判断する。

また、取得した５つの感情レベルの平均値を計算し、その平均値を、取得した感情の感情レベルとして採用する。たとえば、図５の場合は、５つの感情レベルの平均値は、３なので、ユーザが作った「喜び」の感情レベルは、３と判断する。
この場合は、取得した感情情報が「喜び」で、感情レベルが３なので、「喜び、レベル３」という感情情報データが生成される。また、感情取得送信情報２４ｃとしては、「ＨＡ−０３」が生成される。

また、上記のように、平均値を取得した感情の感情レベルとして採用するのではなく、取得した感情情報のうち、ユーザが選択した最新の感情情報の感情レベルを採用してもよい。これにより、ユーザが意図して作った表情の感情レベルが採用できる。
たとえば、一定期間ごとに感情を取得し続け、ユーザの表情を常にプレビューし、確定キーを押した時点で最新の表情の感情情報と感情レベルを採用し、このときの感情情報データを生成してもよい。

次に、送信情報生成部１８が、記憶された発話文字列２５ａと、感情取得送信情報２４ｃとを含む送信情報２５を生成する。ここでは、「おはよう、ＨＡ−０３」という送信情報２５が生成される。
この後、通信部１２によって、この送信情報「おはよう、ＨＡ−０３」が、ロボットRBに送信される。

この第２実施例においても、ユーザは、文字列の入力と、感情を示す表情を作るだけで、発話文字列と感情とを対応させた情報が作成されるので、ユーザの入力にかかる操作負担を軽減でき、入力操作の時間短縮をすることができる。
さらに、ロボットに送信される情報には、入力画像そのものを含まないので、データ通信量が少なく、短時間でデータ通信が行われ、また、ロボット側では、感情判定処理を行う必要がないので、迅速に、感情を込めた発話処理を実行できる。

（第３実施例）
図６に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでも、第１実施例と同様に、ユーザが、PCのキーボード１３を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ１５で撮影するものとする。また、カメラ１５を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。

ただし、第１実施例と異なり、複数の文字列を連続して入力し、各文字列に対応した感情情報を取得して、各文字列と感情取得データとを対応付けた情報を複数個含む送信情報を生成する。
すなわち、この第３実施例では、感情と対応付けられた複数の発話文字列を、一つの送信情報に含めて、ロボットに送信する。
１つの文字列の入力が終了するごとに、その文字列の入力が終了したことを示す確定キーを押し下げることにより、確定キーが入力されるまでに入力された入力文字列を、一つの発話文字列として記憶する。
また、ユーザの身体画像を実際に取得し記憶するタイミングは、１つの文字列の最後の文字を入力した後、確定キーを押し下げた時とする。
複数の文字列を続けて入力する場合は、各文字列の最後の文字を入力した後、ユーザがその文字列に対応付けたい感情を示す表情を作って、確定キーを押し下げると、ユーザの身体画像が取得され、その文字列に対応する入力画像として記憶される。

図６においては、「おはよう」、「こんにちは」、「元気ですか」という３つの文字列を、この順に入力するものとする。
また、ロボットが「おはよう」を発話するときには、喜びの感情をこめた音声を出力し、「こんにちは」を発話するときには、悲しみの感情をこめた音声を出力し、「元気ですか」を発話するときには、怒りの感情をこめた音声を出力するものとする。

この場合、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるためには、ユーザは、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影する必要がある。また、ロボットRBに、悲しみの感情をこめた「こんにちは」という音声を出力させるためには、ユーザは、「こんにちは」という文字列を入力し、悲しみの表情を作りカメラで撮影する必要がある。また、ロボットRBに、怒りの感情をこめた「元気ですか」という音声を出力させるためには、ユーザは、「元気ですか」という文字列を入力し、怒りの表情を作りカメラで撮影する必要がある。

図６において、まず、ユーザは、時間T0において、「おはよう」という文字列の入力を開始し、最後の文字の「う」を入力した後、喜びの表情を作り、時間T1において、確定キーを押し下げる。
このとき、「おはよう」という入力文字列が、１つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「おはよう」という入力文字列に対応する感情情報データが生成される。たとえば、（喜び、レベル１０）という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、（HA-10)が生成される。

次に、ユーザは、時間T2において、「こんにちは」という文字列の入力を開始し、最後の文字の「は」を入力した後、悲しみの表情を作り、時間T3において、確定キーを押し下げる。
このとき、「こんにちは」という入力文字列が、２つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「こんにちは」という入力文字列に対応する感情情報データが生成される。たとえば、（悲しみ、レベル３）という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、（SD-03)が生成される。

最後に、ユーザは、時間T4において、「元気ですか」という文字列の入力を開始し、最後の文字の「か」を入力した後、怒りの表情を作り、時間T5において、確定キーを押し下げる。
このとき、「元気ですか」という入力文字列が、３つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「元気ですか」という入力文字列に対応する感情情報データが生成される。たとえば、（怒り、レベル５）という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、（AN-05)が生成される。

次に、すべての文字列の入力が確定し、入力処理を終了するために、時間T6において、もう一度、確定キーを押し下げる。これにより、今までのすべての入力が確定される。
その後、入力された情報と、生成された情報とを用いて、送信情報が生成される。
ここでは、各発話文字列と、その発話文字列に対応して生成された感情取得送信情報とが、結合された情報が生成される。

たとえば、「おはよう」という発話文字列と、「おはよう」に対応して生成された感情取得送信情報である（HA-10)とが結合された[おはよう、HA-10]というような情報が生成される。
また、同様に、「こんにちは」という発話文字列と「こんにちは」に対応して生成された感情取得送信情報である（SD-03)とが結合された[こんにちは、SD-03]というような情報と、「元気ですか」という発話文字列と「元気ですか」に対応して生成された感情取得送信情報である（AN-05)とが結合された[元気ですか、AN-05]というような情報とが、生成される。

そして、[おはよう、HA-10]、[こんにちは、SD-03]、[元気ですか、AN-05]という３つの結合情報が、１つの送信情報に含められる。
このようにして生成された送信情報は、ロボットRBに送信される。
ロボットRB側では、この送信情報を受信すると、３つの結合情報をそれぞれ取得して、各発話文字列を、それぞれの発話文字列に対応付けられた感情を込めた音声で出力し、また、同時に、予めその感情に対応付けられた身振り動作を実行する。

これによれば、１つの送信情報の中に、複数個の発話文字列を含めて、ロボットRBに送信することができ、すでに、ロボットに発話させる複数の文字列が決まっている場合は、ユーザの入力操作の手間を削減し、入力時間も短縮できる。

（第４実施例）
上記した実施例では、主として、感情と対応付けられた顔画像を利用して、感情取得データを取得していた。
ただし、顔画像に限るものではなく、感情は、手足等の身振りで表現されることもある。
そこで、感情判定情報２１として、手足、腕、首等の身体的な部位の身体画像特徴と、判定感情とを、予め対応付けて記憶部２０に記憶してもよい。
手足等の身振りの感情表現は、静止した状態で表せる場合もあるが、連続的な動作で表現される場合もあるので、カメラで撮影される画像は、静止画像だけでなく、数秒間程度の長さの動画でもよい。

この場合は、ユーザが、入力文字列の最後の文字を入力し、確定キーを押し下げた後、その後の数秒間、カメラで、動画を撮影する。ユーザは、この数秒間の間、感情判定情報２１に予め設定された手足等の身振りを利用した感情表現をすればよい。
その後、撮影した動画を解析し、手足等の部位の部分画像を抽出し、その部位の動作を認識し、感情判定情報２１の身体画像特徴と比較する。
たとえば、抽出した部分画像が、「喜び」に対応した身体画像特徴と一致可能な場合は、感情情報として、「喜び」を取得する。また、抽出した部分画像と身体画像特徴の一致の程度などから、感情レベルを設定してもよい。
このように、身体的な部位の身体画像特徴から、感情情報と感情レベルからなる感情取得データを取得し、感情取得データを含む送信情報を、ロボットRBに送信すればよい。

また、顔画像と、身体的な部位の身体画像の両方を用いて、感情取得データを取得してもよい。
この場合は、たとえば、撮影した顔画像と感情判定情報２１の顔画像特徴とを比較して取得した判定感情と、撮影した身体画像と感情判定情報２１の身体画像特徴とを比較して取得した判定感情とが、一致した場合に、その感情を感情情報としてすればよい。また、顔画像特徴から取得した判定感情の感情レベルと、身体画像特徴から取得した判定感情との感情レベルの平均をとり、感情レベルを設定すればよい。

（第５実施例）
上記した第４実施例では、手足等の身振りで表現される身体画像特徴と、判定感情とを予め対応付けて記憶し、撮影した身振りの感情表現と、身体画像特徴とを比較することにより、感情取得データを取得していた。
ただし、これに限るものではなく、実際の感情表現とは別に、手足等の特定の動作を、所定の感情に対応付けて、予め記憶部２０に記憶してもよい。

指の形状、首の傾き、腕の動きなどを、所定の感情に対応付けてもよい。たとえば、人差し指と中指でVサインを作った場合は、「喜び」の感情を表現したものと予め設定してもよい。また、首を下に傾けるような動作は、「悲しみ」の感情を表現したものと予め設定してもよい。
この場合は、ユーザが、独自に、所望の身振りを、特定の感情表現として定義できるので、ユーザは、自己が定義した身振り動作をすることにより、より確実かつ容易に、感情取得データを取得できる。

（第６実施例）
また、第５実施例では、手足等の特定の動作を、所定の感情に対応付けて予め記憶するものを示したが、手足等の特定の動作として、手話の動作を利用してもよい。
たとえば、手話の動作を動画撮影し、撮影された動画から得た手話の部分画像を、所望の感情に予め対応づけてもよい。
あるいは、手話の動作を、その動作が意味する文字情報に変換し、その文字情報から、感情を設定してもよい。たとえば、ユーザが、「悲しみ」を意味する手話の動作をした場合、その手話の動作を認識し、「悲しみ」という文字情報に変換し、「悲しみ」という感情を設定してもよい。

また、手話の動作から、発話文字列を入力してもよい。
たとえば、「おはよう」という意味の手話の動作をした場合、その動作の動画を撮影し、動画を認識することにより、「おはよう」という文字列を取得してもよい。
取得した文字列を、発話文字列として送信情報に含めてロボットRBに送り、ロボットに、その手話内容を音声で発話させればよい。また、ロボットRBが、身振りで手話の動きをすることが可能な場合、受信した手話内容を、手の動きで表現してもよい。

（第７実施例）
上記実施例では、発話文字列と、感情取得データとを対応させた送信情報を生成してロボットRBに送信するものを示したが、これに限るものではない。

たとえば、手を右から左へ移動させるような動作をした場合や、指で左方向を指し示すような身振りをした場合は、ロボットRBの身体を左側に移動させることを意味する「左移動」というデータと対応付けて、その身体画像の特徴を、PCの記憶部２０に予め記憶しておく。また、ロボットRBの記憶部４０には、「左移動」というデータが、ロボットRBの身体を左側に移動させる情報であることを、予め記憶しておく。

ユーザがこの身振り動作をした場合に、撮影した身体画像から、「左移動」というデータを取得し、所定の発話文字列と、「左移動」というデータを含む送信情報を、ロボットRBに送信する。
ロボットRBは、「左移動」というデータを受信すると、そのデータは、身体を左側に移動させる情報であることを認識し、ロボットRBの身体を、実際に左側に移動させる動作を実行する。
これによれば、ロボットRBに、感情表現以外の動作をさせることができる。

１情報処理装置、
２ネットワーク、
３ロボット、
１１制御部、
１２通信部、
１３情報入力部、
１４表示部、
１５画像入力部、
１６画像解析部、
１７感情取得部、
１８送信情報生成部
２０記憶部、
２１感情判定情報、
２２入力文字列、
２３入力画像、
２４感情取得データ、
２４ａ感情情報、
２４ｂ感情レベル、
２４ｃ感情取得送信情報、
２５送信情報、
２５ａ発話文字列、
２５ｂ感情取得データ、
３１制御部、
３２通信部、
３３出力音声生成部、
３４出力動作決定部、
３５音声出力部、
３６身体駆動部、
４０記憶部、
４１受信情報、
４２発話文字列、
４３感情取得データ、
４４出力音声情報、
４５出力動作情報、
４６感情設定情報

Claims

ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムであって、
前記情報処理装置が、
前記ロボットに発話させる発話文字列を入力する情報入力部と、
画像情報を入力する画像入力部と、
入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、
入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、
前記送信情報を前記ロボットに送信する第１通信部とを備え、
前記ロボットが、
前記送信情報を受信する第２通信部と、
受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、
前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とするロボット制御システム。
前記入力された画像情報から、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出する画像解析部をさらに備えることを特徴とする請求項１に記載のロボット制御システム。
前記情報処理装置が、記憶部をさらに備え、
前記記憶部に、人物の顔画像および身体画像の特徴データと、その特徴データから特定される感情情報との関係性を事前に機械学習させた感情判定情報を、予め記憶し、
前記感情取得部が、前記感情判定情報を利用して、前記抽出された顔画像および身体画像から特徴データを検出し、
前記記憶された特徴データを利用して、前記検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得し、かつ当てはまりの良さを感情レベルとして取得することを特徴とする請求項２に記載のロボット制御システム。
前記画像入力部が、ロボットに発話させる発話文字列の入力を終了した時の画像情報を入力することを特徴とする請求項１から３のいずれかに記載のロボット制御システム。
前記情報入力部によって、ロボットに発話させる文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、前記画像入力部が、画像情報を入力することを特徴とする請求項４に記載のロボット制御システム。
前記画像入力部が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力し、
前記感情取得部が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得することを特徴とする請求項１から３のいずれかに記載のロボット制御システム。
前記感情取得部が、入力された画像情報を利用して、画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得し、
前記送信情報生成部が、前記感情情報と前記感情レベルとからなる感情取得データと、前記入力された発話文字列とを対応付けた送信情報を生成することを特徴とする請求項１から６のいずれかに記載のロボット制御システム。
前記情報入力部によって、ロボットに発話させる複数の発話文字列を入力し、
前記画像入力部によって、前記各発話文字列の入力が終了するごとに、画像情報を入力し、
前記感情取得部が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得し、
前記送信情報生成部が、入力された前記各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された前記感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成することを特徴とする請求項１に記載のロボット制御システム。
ロボットの動作を制御するロボット制御システムの情報処理装置であって、
前記ロボットに発話させる発話文字列を入力する情報入力部と、
画像情報を入力する画像入力部と、
入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、
入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、
前記送信情報を前記ロボットに送信する通信部とを備えたことを特徴とする情報処理装置。
ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムの制御方法であって、
前記情報処理装置が、
前記ロボットに発話させる発話文字列を入力する情報入力ステップと、
前記ロボットに発話させる発話文字列の入力を終了した時に画像情報を入力する画像入力ステップと、
入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、
入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、
前記送信情報を前記ロボットに送信する通信ステップとを備え、
前記ロボットが、
前記送信情報を受信する通信ステップと、
受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力ステップと、
前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動ステップとを備えたことを特徴とするロボット制御システムの制御方法。
ロボットの動作を制御する情報処理装置のロボットの制御方法であって、
前記ロボットに発話させる発話文字列を入力する情報入力ステップと、
画像情報を入力する画像入力ステップと、
入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、
入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、
前記送信情報を前記ロボットに送信する通信ステップとを備えたことを特徴とする情報処理装置のロボットの制御方法。