JP2018196922A - ロボット制御システム - Google Patents

ロボット制御システム Download PDF

Info

Publication number
JP2018196922A
JP2018196922A JP2017102651A JP2017102651A JP2018196922A JP 2018196922 A JP2018196922 A JP 2018196922A JP 2017102651 A JP2017102651 A JP 2017102651A JP 2017102651 A JP2017102651 A JP 2017102651A JP 2018196922 A JP2018196922 A JP 2018196922A
Authority
JP
Japan
Prior art keywords
information
emotion
input
image
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017102651A
Other languages
English (en)
Inventor
慎 山田
Shin Yamada
慎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2017102651A priority Critical patent/JP2018196922A/ja
Publication of JP2018196922A publication Critical patent/JP2018196922A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ロボットに与える発話内容と感情情報とを対応付けて容易かつ迅速に入力することを課題とする。
【解決手段】ロボットと、情報処理装置とからなるロボット制御システム。情報処理装置が、ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された発話文字列と取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、送信情報をロボットに送信する第1通信部とを備える。ロボットが、送信情報を受信する第2通信部と、受信した送信情報に含まれる発話文字列を、送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とする。
【選択図】図4

Description

この発明は、ロボット制御システムに関し、特に、人間と対話し、設定された感情に対応した発話と動作が可能なコミュニケーション機能を持つロボットを制御するロボット制御システムに関する。
従来から、ロボットに指示を与える担当者が、指示内容を、所定の文字情報によって入力するか、あるいは、担当者の音声により入力し、その指示内容をロボットに与えるシステムが利用されている。たとえば、ロボットに発話させる内容そのものや、発話の感情表現の内容、ロボットが行う身体的動作の内容を、担当者が、文字入力や、音声入力をすることにより、ロボットに所望の指示内容を与えていた。
また、担当者によって入力された音声を認識し、認識された音声から、担当者の発話時の感情を判定するシステムも提案されている。さらに、カメラによって撮影された担当者の画像データから顔画像データを抽出し、担当者の表情によって感情を認識するシステムも提案されている。
たとえば、特許文献1には、ロボットがコミュニケーション相手の人間の発話音声を取得して、発話音声から得られる非言語的情報に基づいて緊張の感情の有無を判定し、さらに、相手の顔画像を取得して、顔画像から得られる表情に基づいて緊張の感情の有無を判定し、緊張の感情がないと判定した場合に、非言語的情報および表情の少なくとも一方に基づいて相手の感情の認識を行い、認識された感情に対応する行動を実行するコミュニケーションロボットが提案されている。
特開2006−123136号公報
しかし、ロボットに与えるすべての指示内容を、担当者が、文字や音声を利用して入力をするのは、非常に時間がかかり、文字の誤入力や、音声の誤認識が生じる場合も多く、担当者の指示内容の入力にかかる負担が大きかった。
また、発話音声から得られる非言語的情報に基づいて感情を認識する場合は、音声を入力する環境や入力音声の精度等によっては、感情を誤認識することが多い。さらに、ロボットに感情をこめた発話をさせる場合、顔画像を撮影して人間の表情から感情を認識することができたとしても、その感情の認識とは別に、ロボットに発話させる内容そのものをロボットに与える必要があり、認識した感情と、発話させる内容とを同期させることが困難であった。
そこで、この発明は、以上のような事情を考慮してなされたものであり、ロボットに対して与える発話内容と感情情報とを、同時に、容易かつ迅速に入力でき、担当者の入力作業の負担軽減と時間短縮を図ることのできるロボット制御システムを提供することを課題とする。
この発明は、ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムであって、前記情報処理装置が、前記ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、前記送信情報を前記ロボットに送信する第1通信部とを備え、前記ロボットが、前記送信情報を受信する第2通信部と、受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とするロボット制御システムを提供するものである。
また、前記入力された画像情報から、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出する画像解析部をさらに備えることを特徴とする。
また、前記情報処理装置が、記憶部をさらに備え、前記記憶部に、人物の顔画像および身体画像の特徴データと、その特徴データから特定される感情情報との関係性を事前に機械学習させた感情判定情報を、予め記憶し、前記感情取得部が、前記感情判定情報を利用して、前記抽出された顔画像および身体画像から特徴データを検出し、
前記記憶された特徴データを利用して、前記検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得し、かつ当てはまりの良さを感情レベルとして取得することを特徴とする。
また、前記画像入力部が、ロボットに発話させる発話文字列の入力を終了した時の画像情報を入力することを特徴とする。
さらに、前記情報入力部によって、ロボットに発話させる文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、前記画像入力部が、画像情報を入力することを特徴とする。
また、前記画像入力部が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力し、前記感情取得部が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得することを特徴とする。
また、前記感情取得部が、入力された画像情報を利用して、画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得し、前記送信情報生成部が、前記感情情報と前記感情レベルとからなる感情取得データと、前記入力された発話文字列とを対応付けた送信情報を生成することを特徴とする。
また、前記情報入力部によって、ロボットに発話させる複数の発話文字列を入力し、前記画像入力部によって、前記各発話文字列の入力が終了するごとに、画像情報を入力し、前記感情取得部が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得し、前記送信情報生成部が、入力された前記各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された前記感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成することを特徴とする。
また、この発明は、ロボットの動作を制御するロボット制御システムの情報処理装置であって、前記ロボットに発話させる発話文字列を入力する情報入力部と、画像情報を入力する画像入力部と、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、前記送信情報を前記ロボットに送信する通信部とを備えたことを特徴とする情報処理装置を提供するものである。
また、この発明は、ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムの制御方法であって、前記情報処理装置が、前記ロボットに発話させる発話文字列を入力する情報入力ステップと、前記ロボットに発話させる発話文字列の入力を終了した時に画像情報を入力する画像入力ステップと、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、前記送信情報を前記ロボットに送信する通信ステップとを備え、前記ロボットが、前記送信情報を受信する通信ステップと、受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力ステップと、前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動ステップとを備えたことを特徴とするロボット制御システムの制御方法を提供するものである。
また、この発明は、ロボットの動作を制御する情報処理装置のロボットの制御方法であって、前記ロボットに発話させる発話文字列を入力する情報入力ステップと、画像情報を入力する画像入力ステップと、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、前記送信情報を前記ロボットに送信する通信ステップとを備えたことを特徴とする情報処理装置のロボットの制御方法を提供するものである。
この発明によれば、情報処理装置において入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得し、入力された発話文字列と取得された感情情報とを対応付けた送信情報を生成するので、ロボットに対して与える発話内容と感情情報とを対応付けて、同時に、容易かつ迅速に入力でき、担当者の入力作業の負担軽減と時間短縮を図ることができる。
この発明のロボット制御システムの一実施例の構成ブロック図である。 この発明の情報処理装置の記憶部に記憶される情報の一実施例の説明図である。 この発明のロボットの記憶部に記憶される情報の一実施例の説明図である。 この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。 この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。 この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図である。 この発明の情報処理装置における送信情報の生成処理等の一実施例のフローチャートである。 この発明のロボットにおける送信情報を受信した後の動作の一実施例のフローチャートである。
以下、図面を使用して本発明の実施の形態を説明する。なお、以下の実施例の記載によって、この発明が限定されるものではない。
<ロボット制御システムの構成>
図1に、この発明のロボット制御システムの一実施例の構成ブロック図を示す。
図1において、この発明のロボット制御システムは、主として、ネットワーク2に接続された情報処理装置1と、ロボット3とから構成される。
ここで、情報処理装置1(以下、PCとも呼ぶ)は、ロボット3の動作を制御する装置であり、特に、ユーザが、ロボット3に与える指示内容を入力する装置である。ロボット3に与える指示内容には、たとえば、ロボット3に発話させる内容を示す発話文字列や、発話の表現の仕方を特定するための感情情報などが含まれる。
ロボット3(以下、RBとも呼ぶ)は、情報処理装置1から与えられた発話文字列や感情情報などからなる指示内容に基づいて、その指示内容に対応した発話と動作を行う自律装置である。
ネットワーク2としては、既存のいずれかのネットワークを用いればよく、たとえば、インターネットのような広域ネットワークや、所定の構内だけで用いられるLANを用いてもよい。通信方式は、有線通信と無線通信のいずれを用いてもよいが、ロボット3は自律的に動作する装置なので、無線通信でネットワークに接続されることが好ましい。
ただし、情報処理装置1とロボット3との接続形態は、図1のように、ネットワーク2を介したものに限るものではない。
たとえば、情報処理装置1とロボット3とは、ネットワーク2を介さずに、直接、通信ケーブルを接続して有線通信により、相互にデータ通信を行ってもよい。または、所定の無線信号を用いた無線通信により、相互にデータ通信を行ってもよい。
また、ネットワーク2に接続されたサーバを利用し、サーバを介して、情報処理装置1とロボット3とが、データ通信を行うような接続形態でもよい。
この場合には、情報処理装置1で入力された指示内容には、制御するロボット3を特定する情報が含まれ、指示内容が情報処理装置1からサーバに送信された後、サーバから、制御するロボット3に対して、指示内容が送信される。サーバを介して指示内容を送信する場合は、サーバから、複数のロボット3に対して、同じ指示内容を、同時に配信することも可能である。
<情報処理装置の構成>
情報処理装置1は、情報の入力機能と通信機能を有する装置であり、たとえば、既存のパソコンや、携帯電話などの携帯端末を用いればよい。
図1に示すように、情報処理装置1は、主として、制御部11、通信部12、情報入力部13、表示部14、画像入力部15、画像解析部16、感情取得部17、送信情報生成部18、記憶部20を備える。
制御部11は、通信部などの各構成要素の動作を制御する部分であり、主として、CPU、ROM、RAM、I/Oコントローラ、タイマー等からなるマイクロコンピュータによって実現される。
CPUは、ROM等に予め格納された制御プログラムに基づいて、各種ハードウェアを有機的に動作させて、この発明の感情取得機能、通信機能などを実行する。
通信部12は、ネットワーク2に接続し、ロボット3とデータ通信をする部分である。
たとえば、後述するように、入力された発話文字列と、入力画像から取得した感情取得データを対応を対応付けた送信情報を、ロボット3に送信する。
通信部12は、上記した第1通信部に相当する。
ネットワーク2への接続形態は、有線でも無線でもよく、既存のいずれかの通信手順を利用すればよい。
情報入力部13は、ユーザが、文字などの情報の入力や、機能の選択入力などをする部分であり、この発明では、特に、ロボットに発話させる発話文字列を入力する。
情報入力部13としては、たとえば、キーボード、マウス、タッチパネルなどが用いられる。
ロボットに発話させたい内容は、文字で表されるので、ユーザは、たとえば、キーボードを用いて、発話内容に相当する文字列(入力文字列)を入力する。
また、発話内容に相当する文字列などの情報を、予めUSBメモリなどの外部の記憶媒体に記憶しておき、その記憶媒体を接続して、記憶媒体に記憶されている情報を、情報処理装置1に入力してもよい。あるいは、ユーザが、発話内容を音声データとして入力し、音声認識することにより、発話内容に相当する文字列(入力文字列)を入力してもよい。
あるいは、発話内容に相当する文字列などの複数の情報を、予め記憶部20に記憶しておき、記憶されている複数の情報を読み出して表示部14に表示させ、表示された情報のうち、ロボットに発話させたい所望の情報を選択することにより、発話内容に相当する文字列(入力文字列)として入力してもよい。
また、ロボットに発話させたい文字列を記載した用紙を予め作成し、用紙に記載された文字列を、スキャナやカメラで画像データとして読み取り、文字認識した後、発話内容に相当する文字列(入力文字列)として入力してもよい。
ユーザが、発話内容に相当する文字列を、たとえばキーボードを用いて入力する場合、その文字列の入力が終了したことを示すために、キーボードの所定の確定キー(たとえば、Enterキー)を押し下げる。
この確定キーが押し下げられたことを検出した場合、入力された発話内容に相当する文字列は、入力文字列として、記憶部20に記憶される。
また、文字列の入力が終了したことを示す方法としては、上記の確定キーに限るものではなく、他の方法を用いてもよい。たとえば、タッチパネルが利用される場合は、タッチパネル上で文字列の終了を意味する所定の表示領域に接触することで、文字列の入力が終了したことを示してもよく、マウスが利用される場合は、表示画面上で文字列の終了を意味する所定の表示領域をマウスで選択入力することで、文字列の入力が終了したことを示してもよい。
表示部14は、情報を表示する部分であり、入力された文字列、各機能の実行に必要な情報、機能の実行の結果などを、表示する。表示部14としては、たとえば、LCD、有機ELディスプレイなどが用いられ、情報入力部13としてタッチパネルが用いられる場合は、表示部とタッチパネルとが重ね合わせて配置される。
画像入力部15は、所定の画像情報を入力する部分であり、たとえば、ユーザの感情を取得するために、所定の感情に対応した表情や身振りを含む人物画像を入力する。
画像入力部15としては、カメラを用い、顔部分を含む上半身の画像や、顔に加えて手足も含む身体画像を、撮影する。撮影される画像は、静止画でもよく、動画でもよい。入力された画像情報は、入力画像として、記憶部20に記憶される。
入力画像は、主として、ユーザの感情を取得するために利用される。
入力画像そのものを、ロボットに送信してもよいが、この発明では、ロボットに送信されるデータ量をできるだけ少なくし、ロボット側での処理をできるだけ軽くするために、入力画像そのものは、ロボットに送信しないものとする。
また、情報入力部13によるロボットに発話させる発話文字列の入力を終了した時に、画像入力部15が、画像情報を入力し、入力画像として、記憶部20に記憶する。
より具体的には、ロボットに発話させる発話文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、画像入力部15が、画像情報を入力する。
文字列の入力が確定したことを意味する入力とは、たとえば、上記した確定キーを入力することに相当する。
あるいは、後述するように、画像入力部15が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力してもよい。この場合は、感情取得部17が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得する。
画像解析部16は、記憶部20に記憶された入力画像を解析する部分である。
たとえば、入力された画像情報から、その画像情報に含まれる人物の顔部分の画像(顔画像)を抽出する。また、全身画像を撮影した入力画像から、人物の手足部分など特徴的な部位の身体画像を抽出する。
撮影された人物の感情を取得するためには、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出すればよい。
あるいは、撮影された動画から、連続的な複数の静止画像を生成し、連続的な複数の静止画像を比較して変化した部分の画像からユーザの動作を認識し、ユーザの動作から、感情情報を取得してもよい。
顔や手足などの所定の部分画像の抽出処理等は、既存の画像処理技術を用いればよい。
感情取得部17は、入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する部分である。たとえば、画像解析部16によって抽出されたユーザの顔部分の画像を利用して、ユーザの表情に表れている感情を取得する部分である。ここでの感情は、喜怒哀楽などの人間の気持ちに相当する。
感情の取得には、後述するように、記憶部20に予め記憶された感情判定情報を用いることができる。
感情判定情報には、たとえば、人物の顔画像および身体画像の特徴データ(特徴となる部分を示した点の座標の集合)と、その特徴データから推論によって特定されるべき感情情報との関係性を事前に機械学習させて生成された情報(判定感情)とを対応付けて、感情情報ごとに、予め記憶しておく。
感情取得部17は、感情判定情報を利用して、画像解析部16によって抽出された顔画像および身体画像から特徴データを検出し、記憶部20に記憶された感情判定情報の特徴データを利用して、検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得する。また、その当てはまりの良さを、感情レベルとして取得する。
また、抽出されたユーザの顔画像および身体画像と、感情判定情報の特徴データとを比較し、一致可能な特徴データが複数ある場合は、一致の可能性が最も高い特徴データに対応した判定感情を、その人物が示す感情情報として取得してもよい。
また、「喜び」という感情でも、大喜びや小喜びなど、喜びの程度が、表情に表れる場合があるので、入力された人物の顔部分の画像を感情判定情報に通して、そのときの当てはまりの良さを算出し、該当する感情情報の感情レベルとして利用してもよい。
あるいは、入力された人物の顔部分の画像と感情判定情報の基準画像等との比較結果から、入力された画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得してもよい。
たとえば、1から10までの10段階の感情レベルを設定し、抽出されたユーザの顔部分の画像が、大喜びに対応した基準画像にほぼ一致可能な場合は、感情情報として「喜び」を取得し、感情レベルとして、10を設定する。
また、抽出されたユーザの顔部分の画像が、悲しみに対応した基準画像に一致可能であるが、一致の程度がかなり低い場合は、感情情報として「悲しみ」を取得し、感情レベルとして、2を設定する。
このように、感情取得部17によって取得された感情情報と感情レベルは、感情取得データとして、記憶部に20に記憶される。
また、感情情報と感情レベルを取得するタイミングは、たとえば、上記したように、情報入力部13によって、確定キーが押し下げられ、入力文字列が確定した時とする。
また、感情情報と感情レベルとからなる感情取得データは、入力されたロボットに発話させる発話文字列と対応付けて、ロボットに送信される。
送信情報生成部18は、ロボット3に送信する送信情報を生成する部分である。
送信情報は、入力された発話文字列25aと、取得された感情情報を対応付けた情報である。後述するように、送信情報生成部18は、感情情報と感情レベルとからなる感情取得データ25bと、入力された発話文字列25aとを対応付けた送信情報を生成する。
発話文字列25aは、ロボット3に発話させる文字列であるが、上記したように、情報入力部13によって入力された入力文字列22に相当する。
また、感情情報と感情レベルを取得するタイミングは、原則として、入力文字列22の入力が確定し画像情報を入力した後であるが、このタイミングで取得された感情情報と感情レベルからなる感情取得データ25bが、送信情報に含まれる。
したがって、送信情報を生成するのは、入力文字列22の入力が確定し、感情情報と感情レベルからなる感情取得データを取得した後である。
すなわち、ユーザが、入力文字列を入力し、最後の文字を入力し終わった後、カメラの前で、その文字列を発話するときの感情を示す表情や身振りをして、確定キーを押し下げる。
たとえば、ユーザが、キーボードで、「おはよう」という文字列を入力した後、カメラの前で、「喜び」を示す表情を作って、確定キーを押し下げる。
確定キーを押し下げることにより、「おはよう」という入力文字列22が確定し、「おはよう」という入力文字列22を記憶部20に記憶する。
また、確定キーを押し下げることにより、カメラによって、画像が撮影され、入力画像として記憶される。さらに、記憶された入力画像を画像解析することにより、たとえば顔画像が抽出され、顔画像から、「喜び」を意味する感情情報と感情レベルを取得し、感情取得データ24として、記憶部20に記憶する。
その後、記憶部20に記憶された入力文字列22と感情取得データ24とを利用して、送信情報が生成される。
このようにして、ロボットに発話させたい文字列の情報と、ユーザが作った表情の画像に基づく発話の感情情報とが、ほぼ同時に取得され、同期した状態で、一つの送信情報に組み込まれる。
したがって、ユーザは、発話させたい文字列の入力とは別に、発話の感情情報を入力する必要がなく、発話させたい文字列の入力を確定させるタイミングで、発話してほしい感情を示す表情や身振りをするという一連の入力操作をすることにより、容易かつ迅速に、発話内容と感情情報とを対応付けた送信情報を、ロボットに送ることができ、ユーザの入力操作の負担軽減と時間短縮をすることができる。
また、ロボットに送信する送信情報には、少なくとも、1つの発話文字列と、この発話文字列に対応付けられた感情情報と含むが、送信情報に、複数の発話文字列と、各発話文字列にそれぞれ対応付けられた感情情報とを含めてもよい。
この場合、情報入力部13によって、ロボットに発話させる複数の発話文字列を入力し、画像入力部15によって、各発話文字列の入力が終了するごとに、画像情報を入力し、感情取得部17が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得する。その後、送信情報生成部が、入力された各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成すればよい。
記憶部20は、この発明の情報処理装置の各機能を実行するために必要な情報やプログラムを記憶する部分であり、ROM、RAM、フラッシュメモリなどの半導体記憶素子、HDD、SSDなどの記憶装置、その他の記憶媒体が用いられる。
記憶部20には、たとえば、感情判定情報21、入力文字列22、入力画像23、感情取得データ24、送信情報25などが記憶される。
図2に、この発明の情報処理装置に記憶される情報の一実施例の説明図を示す。
感情判定情報21は、入力画像から、ユーザの感情を取得するために用いられる情報である。
図2(a)に、感情判定情報21の一実施例の説明図を示す。
感情判定情報21は、たとえば、顔画像特徴と、判定感情とを対応付けた情報であり、予め記憶部20に記憶される。
顔画像特徴とは、顔画像に含まれる目や口などの形状を示す基準画像やパラメータからなる特徴データであり、たとえば、一般的に、人間が喜んでいる時に現れる目や口のいくつかの形状パターンが、喜びを意味する顔画像特徴の基準画像として記憶される。
また、喜びを意味する顔画像特徴の基準画像は、「喜び」という感情情報(判定感情)と対応付けて記憶される。
上記したように、入力画像から抽出された顔画像が、喜びを意味する顔画像特徴の基準画像とほぼ一致可能な場合は、ユーザは、喜びを表す表情をしていると判断し、判定感情を「喜び」と判断する。
また、同じ感情でも人の感情には大小があり、たとえば大きな「喜び」を表す顔の表情の特徴と、小さな「喜び」を表す顔の表情の特徴とが明確に区別できる場合もある。
そこで、1つの感情に対して、感情の大きさに対応して区別可能な顔画像特徴がある場合は、代表的な1つの顔画像特徴のみを設定するのではなく、区別可能な複数の顔画像特徴を予め設定記憶してもよい。
たとえば、大きな「喜び」を表す顔画像特徴と、「大喜び」という判定情報と、「10」という感情レベルとを対応付けて記憶し、また、中程度の「喜び」を表す顔画像特徴と、「中喜び」という判定情報と、「5」という感情レベルとを対応付けて記憶し、さらに、小程度の「喜び」を表す顔画像特徴と、「小喜び」という判定情報と、「2」という感情レベルとを対応付けて記憶してもよい。この場合には、「喜び」という感情に対して、3つの感情判定情報が、予め設定されたことになる。
この他に、感情判定情報21として、身体画像特徴と判定感情とを対応付けた情報を予め記憶してもよい。
身体画像特徴は、手、腕、足などの身体の部位の形状や変化を示す基準画像やパラメータからなる特徴データである。たとえば、一般的に、人間が喜んでいる時に現れる手や足による身振りのいくつかの形状パターンや変化が、喜びを意味する身体画像特徴の基準画像として記憶される。
入力画像から抽出された身体画像が、喜びを意味する身体画像特徴の基準画像とほぼ一致可能な場合は、ユーザは、喜びを表す身振りをしていると判断し、判定感情を「喜び」と判断する。
図2(a)には、判定感情の例として「喜び」を示しているが、この他に、「悲しみ」など複数の感情を意味する顔画像特徴や身体画像特徴と、判定感情とが対応付けられて、予め記憶される。
入力文字列22は、情報入力部13によって入力された文字情報である。
図2(a)に、入力文字列22の一実施例の説明図を示す。
たとえば、ユーザが、キーボードを用いて、「おはよう」と入力すれば、「おはよう」という文字列が、入力文字列22として記憶される。
入力画像23は、画像入力部15によって入力された画像情報である。
図2(c)に、入力画像23の一実施例の説明図を示す。
入力画像23から抽出される情報として、顔画像や、身体画像がある。
画像解析部16が入力画像23を解析することにより、たとえば、入力画像23に含まれる顔部分が認識され、顔画像が抽出される。また、身振りから感情を判定するために、入力画像から、身体画像が抽出される。
感情取得データ24は、入力画像23から取得した感情に関するデータである。
感情取得データ24は、上記したように、感情取得部17が、画像解析部16によって抽出された顔画像および身体画像と、感情判定情報21とを比較することにより、取得される。
図2(d)に、感情取得データ24の一実施例の説明図を示す。
ここでは、感情取得データ24として、感情情報24aと、感情レベル24bとからなるものを示している。感情情報24aは、入力画像23から得られた判定感情に対応し、感情レベル24bは、感情情報の程度を示している。
たとえば、ユーザが大喜びを意味する表情を作って、カメラによってその顔を含む画像を撮影した場合、入力画像23から感情を判断すると、「喜び」という感情情報24aと、「10」という感情レベル24bとからなる感情取得データ24が取得される。
取得された感情情報24aと感情レベル24bとからなる感情取得データ24は、送信情報に含められて、ロボット3に送信される。
ただし、図2(d)に示すように、送信データ量を削減するために、感情情報24aと感情レベル24bとを合成したような感情取得送信情報24cを生成し、この感情取得送信情報24cを、送信情報に含めて、ロボット3に送信してもよい。
たとえば、「喜び」という感情情報24aと、「10」という感情レベル24bとからなる感情取得データ24が取得された場合は、「HA−10」という感情取得送信情報24cを生成してもよい。
また、「悲しみ」という感情情報24aと、「3」という感情レベル24bとからなる感情取得データ24が取得された場合は、「SD−03」という感情取得送信情報24cを生成してもよい。
送信情報25は、ロボット3に送信される情報である。
送信情報25には、少なくとも、発話文字列25aと、感情取得データ25bとが含まれる。
発話文字列25aは、上記した入力文字列22に相当し、感情取得データ25bは、感情取得部17によって取得された感情情報と感情レベルを含む感情取得データ24に相当する。
また、感情取得データ25bの代わりに、感情情報24aと感情レベル24bとを合成したような感情取得送信情報24cを、送信情報25に含めてもよい。
図2(e)に、送信情報25の一実施例の説明図を示す。
ここでは、発話文字列25aと、感情取得データ25bに対応する感情取得送信情報24cとからなる送信情報25を示している。
図2(e)の1番目の送信情報25は、「おはよう」という文字列からなる発話文字列25aと、「喜び」という感情情報24aと「10」という感情レベル24bを意味する「HA−10」という感情取得送信情報24cとからなる。
なお、図2(e)に示した送信情報25は、送信する内容を説明するために例示したものであって、ロボットを制御するための標準化仕様が設定されている場合は、送信情報25の内容である発話文字列25と感情取得送信情報24cを、その標準化仕様に適合した形式のデータに変換して、ロボット3に送信してもよい。
この「HA−10」という感情取得送信情報は、原則として、「おはよう」という文字列の入力が確定した時に入力された入力画像から取得した感情に関する情報である。
このような送信情報25がロボット3に送信されると、後述するように、ロボット3側では、送信情報25を受信情報41として記憶し、「HA−10」に対応する感情表現を検出し、「喜び」を表すような抑揚で、「おはよう」という発話を行う。
以上が、情報処理装置1の構成であるが、ロボット制御システムとして、サーバを利用する場合は、たとえば、上記した情報処理装置1の構成のうち、画像解析部16と感情取得部17の機能を、サーバに備え、情報処理装置1から、サーバに、入力文字列と、入力文字列確定時の入力画像とからなる情報と、送信先であるロボットを特定する情報を、送信してもよい。
この場合は、サーバにおいて、入力画像から、感情取得データを生成し、感情取得データと入力文字列とからなる送信情報を、ロボットに送信すればよい。
<ロボットの構成>
ロボット3は、主として、制御部31、通信部32、出力音声生成部33、出力動作決定部34、音声出力部35、身体駆動部36、記憶部40を備える。
制御部31は、通信部などの各構成要素の動作を制御する部分であり、主として、CPU、ROM、RAM、I/Oコントローラ、タイマー等からなるマイクロコンピュータによって実現される。
CPUは、ROM等に予め格納された制御プログラムに基づいて、各種ハードウェアを有機的に動作させて、この発明の音声出力機能、通信機能などを実行する。
通信部32は、ネットワーク2に接続し、情報処理装置1とデータ通信をする部分である。
たとえば、上記したように、情報処理装置1で生成された送信情報25を、受信する。
通信部32は、上記した第2通信部に相当する。
受信された送信情報25は、受信情報41として、記憶部40に記憶される。
ネットワーク2への接続形態は、有線および無線のどちらでもよいが、自律走行するようなロボットの場合は、無線を利用することが好ましく、既存のいずれかの通信手順を利用すればよい。
なお、サーバを介して、ロボットを制御する情報を受信する場合は、サーバとデータ通信をする。
出力音声生成部33は、音声出力部35であるスピーカから出力する音声データを生成する部分である。情報処理装置1から送信されてくる送信情報に基づいて、出力する発話内容が決定され、発話の感情を表現する抑揚が決定される。
送信情報25に含まれる発話文字列が、音声として実際に出力される発話内容となる。
また、送信情報25に含まれる感情取得送信情報24cによって特定される感情情報と感情レベルに基づいて、発話内容を出力するときの音の調子、高低変化、音の強さなどが設定され、発話内容の合成音声が生成される。
生成された合成音声は、出力音声情報44として、記憶部40に記憶される。
出力動作決定部34は、情報処理装置1から送信されてくる送信情報25に基づいて、ロボットの手足等を用いた身振り動作を、決定する部分である。
予め記憶部40に記憶された感情設定情報などを利用して、受信した送信情報25に含まれる発話内容の意味と感情情報とに関連した身振り動作を決定する。
たとえば、「おはよう、HA-10」という送信情報25を受信した場合は、「おはよう」という言葉を喜びの抑揚で発声する合成音声が生成されるのに加えて、出力動作決定部34が、喜びの感情を最大に表現するような手足等の身体の動作を決定する。
決定された身振り動作は、出力動作情報45として、記憶部40に記憶される。
音声出力部35は、出力音声生成部33によって生成された合成音声を出力する部分であり、スピーカに相当する。
また、受信した送信情報に含まれる発話文字列を、送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する。
身体駆動部36は、出力動作決定部34によって決定された身振り動作を実行する部分であり、特に、送信情報に含まれる感情情報に対応した身振り動作をさせる。
記憶部40は、この発明のロボットの各機能を実行するために必要な情報やプログラムを記憶する部分であり、ROM、RAM、フラッシュメモリなどの半導体記憶素子、HDD、SSDなどの記憶装置、その他の記憶媒体が用いられる。
記憶部40には、たとえば、受信情報41、出力音声情報44、出力動作情報45、感情設定情報46などが記憶される。
図3に、この発明のロボットの記憶部に記憶される情報の一実施例の説明図を示す。
受信情報41は、ここでは、情報処理装置1から送られてくる送信情報25を意味する。
したがって、受信情報41には、少なくとも、発話文字列42と、感情取得データ43とが含まれる。
図3(b)に、受信情報41の一実施例の説明図を示す。
図2(e)の送信情報25を受信した場合は、受信情報41には、感情取得データ43の代わりに、感情取得送信情報が記憶される。
感情取得送信情報が受信された場合は、この感情取得送信情報から、感情情報と感情レベルからなる感情取得データ43が生成される。
感情設定情報46は、種々の感情に対応した音声と動作に関する情報を、予め設定した情報である。図3(a)に示すように、たとえば、感情設定情報46は、感情情報と、音声抑揚と、身体動作とを対応づけた情報であり、想定される各感情情報に対応付けて、音声抑揚と、身体動作が、予め設定記憶される。
音声抑揚は、感情をこめて音声を出力する場合に、その音声の高低の変化や、音の強弱や速度を決めるための情報であり、たとえば、喜びの感情情報に対しては、喜びの感情を示す喜び抑揚が、予め設定される。
身体動作は、感情を表現した身体の動作を予め設定したものであり、たとえば、喜びの感情情報に対しては、ロボットの手足、首、目、口などの動きから、喜びを表現するように、身体の各部位の動作を設定する。
他の悲しみなどの感情情報についても、同様である。
出力音声生成部33が、出力音声情報44を生成する場合、感情設定情報46を参照し、受信した感情情報に対応する音声抑揚を利用して、発話文字列の合成音声を生成する。
また、出力動作決定部34が、出力動作情報45を決定する場合、感情設定情報46を参照し、受信した感情情報に対応する身体動作を利用して、ロボットの身振り動作を決定する。
出力音声情報44は、出力音声生成部33によって生成される情報である。
図3(c)に、出力音声情報44の一実施例の説明図を示す。
出力音声情報44は、たとえば、出力する発話内容と、発話の感情を表現する抑揚と、その抑揚の程度の情報からなり、これらの情報から生成された合成音声そのものも記憶される。あるいは、生成された合成音声そのものだけを、出力音声情報44として記憶してもよい。
図3(c)において、「おはよう」という合成音声を生成するが、感情レベルが10の喜びを表現する場合、この合成音声は、大きな喜びの感情を表すような抑揚をつけて生成される。
また、「こんにちは」という合成音声を生成するとき、感情レベルが3の悲しみを表現する場合、この合成音声は、小さな悲しみの感情を表すような抑揚をつけて生成される。
出力動作情報45は、出力動作決定部34によって生成される情報である。
図3(d)に示すように、たとえば、喜びの感情を表す動作をする場合は、感情設定情報46に予め設定されている「喜び動作」に対応する手足などの具体的な動作内容が、記憶される。
<ロボット制御システムにおける入力処理等の説明>
ここでは、主として、情報処理装置PCにおいて、ユーザが、ロボットRBに対する指示内容を入力して、ロボットRBに送信する情報を生成するまでの一連の処理の実施例を示す。
(第1実施例)
図4に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでは、ユーザが、PCのキーボード13を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ15で撮影するものとする。
また、カメラ15を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。
ただし、ユーザの身体画像を実際に取得し記憶するタイミングは、入力文字列の最後の文字を入力した後、ユーザが所定の感情を示す表情を作って、確定キーを押し下げた時とする。
また、ユーザは、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるために、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影するものとする。
図4において、ユーザは、時間T0において、文字列の入力を開始し、まず、「お」を入力するものとする。その後、続いて、「は」、「よ」、「う」の文字を、順に入力する。
入力される文字は、入力文字列22として記憶される。
これらの文字の入力中において、カメラは起動状態にあり、いつでも入力画像23を取り込める状態にある。
ユーザは、最後の文字である「う」を入力した後、カメラの前で、喜びの表情を作る。
喜びの表情は、感情判定情報21に予め記憶した喜びの感情に対応した顔画像特徴を持つ表情に近いものであることが好ましい。
その後、ユーザは、喜びの表情を作ったまま、文字列入力が終了したことを示す確定キーを押し下げる。
時間T4において、確定キーが入力されると、発話文字列が確定し、画像取得から感情取得までの一連の処理が実行され、感情情報データが生成される。
まず、確定キーが入力されるまでに記憶された入力文字列が、送信情報25の発話文字列25aとして記憶される。
また、確定キーが入力されたタイミングで撮影された画像が取得され、入力画像23として記憶される。
その後、画像解析部16が、入力画像23を解析し、顔の部分画像を抽出する。
次に、感情取得部17が、抽出された顔画像と、感情判定情報21に記憶された複数の顔画像特徴とを比較し、両者が最も一致する可能性の高い判定感情を検出する。
検出された判定感情は、ユーザの感情情報として設定される。
なお、入力画像から感情情報を取得する方法は、上記のものに限るものではなく、従来から行われている感情取得方法を利用してもよい。
設定された感情情報と感情レベルは、感情取得データ24として記憶される。
たとえば、「喜び」という感情情報24aと、「10」という感情レベル24bが、感情取得データ24として記憶される。
また、送信情報に、感情取得送信情報24cを利用する場合は、感情取得データ24から、感情取得送信情報24cを生成する。
たとえば、「喜び」という感情情報と、「10」という感情レベルからなる感情取得データ24の場合は、「HA−10」という感情取得送信情報24cを生成する。
次に、送信情報生成部18が、記憶された発話文字列25aと、感情取得送信情報24cとを含む送信情報25を生成する。たとえば、「おはよう、HA−10」という送信情報25が生成される。
この後、通信部12によって、この送信情報25が、ロボットRBに送信される。
たとえば、発話文字列25aと感情取得送信情報24cとを対応付けた「おはよう、HA−10」という送信情報25が、ロボットRBに送信される。
これにより、ユーザは、ロボットに発話させたい文字列は入力する必要があるが、文字列の入力確定時に、感情を示す表情を作ることにより、容易かつ迅速に、発話文字列と感情情報とを対応付けた送信情報を生成することができる。また、ユーザは、文字列の入力と、確定キーの入力時に感情を示す表情を作るだけで、発話文字列と感情とを対応させた情報が作成されるので、ユーザの入力にかかる操作負担を軽減でき、入力操作の時間短縮をすることができる。
さらに、ロボットに送信される情報には、入力画像そのものを含まないので、データ通信量が少なく、短時間でデータ通信が行われ、また、ロボット側では、感情判定処理を行う必要がないので、迅速に、感情を込めた発話処理を実行できる。
(第1実施例における情報処理装置の処理フローの説明)
図7に、この発明の情報処理装置における送信情報の生成処理等の一実施例のフローチャートを示す。
ユーザは、情報処理装置PCに付属されているカメラか、あるいはPCに接続されているカメラの前に、自分の顔を含む身体画像が撮影される状態で座り、ロボットに発話させたい文字列の入力操作をするものとする。
確定キーとしては、たとえば、キーボードのEnterキーを用いればよい。
図7のステップS1において、情報入力部13を用いて、ユーザによる入力があったか否かをチェックする。
ここでは、主として、文字の入力か、あるいは、確定キーの入力が行われたか否かをチェックする。
ステップS2において、文字の入力があった場合は、ステップS3に進み、そうでない場合は、ステップS4に進む。
ステップS3において、入力された文字を記憶し、ステップS1に戻る。
たとえば、「お」が入力されれば、「お」を記憶し、その後、複数の文字が連続して入力された場合は、確定キーが入力されるまで、一つの文字列として記憶する。
ステップS4において、確定キーの入力があった場合は、ステップS5に進み、そうでない場合は、ステップS1に戻る。
このフローには記載していないが、ユーザは、確定キーを入力する前に、所望の感情を表した表情を作り、確定キーを入力する時もその表情を維持する。
ステップS5において、確定キーを入力するまでに記憶されていた文字列を、確定した入力文字列22として記憶する。
ステップS6において、カメラによって現在撮影されている画像を取得し、入力画像23として記憶する。この入力画像23は、ユーザが確定キーを押し下げたタイミングで取得された画像に相当し、ユーザの感情を取得するための画像となる。
ステップS7において、画像解析部16が、入力画像23の画像解析を行う。
ここでは、たとえば、入力画像23から、ユーザの顔、口、目、首、手足など、身体の各部位を認識する。
ステップS8において、画像解析の結果、次のステップで感情を取得するために必要な部分画像を抽出する。たとえば、ユーザの顔画像を抽出する。あるいは、手足を含む身体画像を抽出してもよい。
ステップS9において、感情取得部17が、抽出した顔画像あるいは身体画像から、ユーザの感情を取得する。
ここでは、たとえば、予め記憶されている感情判定情報21を利用して、抽出した顔画像と、感情判定情報21の顔画像特徴とを比較し、一致可能な顔画像特徴がある場合、その一致可能な顔画像特徴に対応付けられた判定感情を、感情情報として取得する。
また、抽出した顔画像と一致可能な顔画像特徴との一致の程度を求め、求めた一致の程度から、感情レベルを設定する。たとえば、一致の程度が、ほぼ100%に近い場合は、感情レベルを10とし、一致の程度が30%であれば、感情レベルを3とすればよい。
ステップS10において、感情取得データを生成し、記憶する。
感情取得データ24は、ステップS9で取得された感情情報と感情レベルからなる。
ステップS11において、送信情報生成部18が、記憶された入力文字列22と感情取得データ24とを利用して、送信情報25を生成し記憶する。
上記したように、入力文字列22は、送信情報25の発話文字列25aに相当する。
感情取得データ24を、そのまま送信情報25に含めてもよいが、上記したような感情取得送信情報24cに変換したものを、送信情報25に含めてもよい。
ステップS12において、送信情報25を、ロボットRBに送信する。
上記のフローでは、ユーザは、文字列の入力操作を行い、確定キーを入力する前に感情を込めた表情を作って、確定キーを入力する操作をするだけで、発話文字列25aと感情取得データ24とが対応付けられた送信情報25が自動的に生成されて、ロボットRBに送信される。したがって、ロボットに発話させたい内容と発話の感情とを、同時に送信することができ、ユーザが、ロボットに指示内容を送信する際の入力操作にかかる手間と時間を、大幅に削減することができる。
(第1実施例におけるロボットの動作フローの説明)
図8に、この発明のロボットにおける送信情報を受信した後の動作の一実施例のフローチャートを示す。
ロボットRBは、情報処理装置PCから、ロボットを制御するための送信情報を受信した後、その送信情報に含まれる指示内容に従って、感情を込めた音声を出力する発話処理を実行し、その感情に対応して予め決められた動作を実行する。
図8のステップS51において、情報処理装置PCから送られてくるデータの受信チェックをする。
ステップS52において、情報処理装置PCから送られた送信情報を受信した場合は、ステップS53に進み、そうでない場合は、ステップS51に戻る。
受信した送信情報は、受信情報41として、記憶部に40に記憶するものとする。
ステップS53において、受信した送信情報から、発話文字列42を取得する。
たとえば、受信した送信情報が、「おはよう、HA-10」である場合、発話文字列42として、「おはよう」を取得する。
ステップS54において、受信した送信情報から、感情取得データ43を取得する。
送信情報に感情取得送信情報が含まれていた場合は、感情取得送信情報から、感情情報と、感情レベルを生成する。たとえば、受信した感情取得送信情報が「HA-10」の場合は、「喜び」という感情情報と、「10」という感情レベルを生成する。
ステップS55において、出力音声生成部33が、感情設定情報46を利用して、出力音声情報44を生成記憶する。
ここでは、たとえば、まず、取得した発話文字列42から、音声として出力する文字を特定し、記憶部40に予め記憶された感情設定情報46を参照し、取得した感情情報に対応する音声抑揚を検出し、取得した感情レベルを利用して、音声抑揚の付け方の程度を設定して、出力音声情報44を生成する。また、生成した出力音声情報44から、音声抑揚を考慮した発話文字列の合成音声を生成する。
たとえば、受信した送信情報が「おはよう、HA-10」である場合、「おはよう」という発話文字列と、「喜び抑揚」という音声抑揚と、「抑揚−大」という抑揚の程度とからなる出力音声情報44を生成する。
ステップS56において、出力動作決定部34が、感情設定情報46を利用して、出力動作情報45を決定記憶する。
ここでは、たとえば、記憶部40に予め記憶された感情設定情報46を参照し、取得した感情情報に対応する身体動作を検出し、ロボットの手足などの身体の部位の動きを設定して、出力動作情報45を決定する。
たとえば、受信した送信情報が「おはよう、HA-10」である場合、感情レベルが「10」の程度の喜びの感情を表現した手足などの動きを設定する。
ステップS57において、生成された出力音声情報44を利用して、音声抑揚を考慮した発話文字列の合成音声を、スピーカから出力する。
ステップS58において、身体駆動部36が、決定された出力動作情報45を利用して、受信した感情に対応するように、ロボットの身体を駆動させる。
ただし、ステップS57とステップS58の処理は、この順に行うのではなく、ほぼ同時に並行して行うことが好ましい。
(第2実施例)
図5に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでも、第1実施例と同様に、ユーザが、PCのキーボード13を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ15で撮影するものとする。また、カメラ15を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。
また、ユーザは、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるために、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影するものとする。
ユーザが、文字列入力が終了したことを示す確定キーを押し下げると、発話文字列が確定し、確定キーが入力されるまでに記憶された入力文字列「おはよう」が、送信情報25の発話文字列25aとして記憶される。
ただし、ユーザの身体画像を実際に取得し記憶するタイミングが、第1実施例と異なる。
ここでは、入力文字列の各文字を入力するごとに、ユーザの顔を含む身体画像を取得するものとする。また、確定キーを押し下げた時も、身体画像を取得するものとする。
したがって、ユーザは、文字の入力を開始した後、確定キーを押し下げるまで、できるだけ、所定の感情を示す表情を作り続けるようにする。
すなわち、「おはよう」という文字列を入力する場合、4つの文字を入力したタイミング(T0,T1,T2,T3)の画像(G1,G2,G3,G4)をそれぞれ取得し、さらに、確定キーを押し下げた時のタイミングT4の画像G5を取得し、記憶する。
そして、記憶された5つの画像(G1,G2,G3,G4,G5)それぞれについて、第1実施例と同様に、画像解析、顔画像抽出、感情取得という一連の処理を行い、5つの各入力画像に対する感情情報と感情レベルをそれぞれ取得する。
図5のように、たとえば、取得した5つの感情情報が、すべて「喜び」である場合に、ユーザが作った感情は「喜び」であると判断する。
また、取得した5つの感情レベルの平均値を計算し、その平均値を、取得した感情の感情レベルとして採用する。たとえば、図5の場合は、5つの感情レベルの平均値は、3なので、ユーザが作った「喜び」の感情レベルは、3と判断する。
この場合は、取得した感情情報が「喜び」で、感情レベルが3なので、「喜び、レベル3」という感情情報データが生成される。また、感情取得送信情報24cとしては、「HA−03」が生成される。
また、上記のように、平均値を取得した感情の感情レベルとして採用するのではなく、取得した感情情報のうち、ユーザが選択した最新の感情情報の感情レベルを採用してもよい。これにより、ユーザが意図して作った表情の感情レベルが採用できる。
たとえば、一定期間ごとに感情を取得し続け、ユーザの表情を常にプレビューし、確定キーを押した時点で最新の表情の感情情報と感情レベルを採用し、このときの感情情報データを生成してもよい。
次に、送信情報生成部18が、記憶された発話文字列25aと、感情取得送信情報24cとを含む送信情報25を生成する。ここでは、「おはよう、HA−03」という送信情報25が生成される。
この後、通信部12によって、この送信情報「おはよう、HA−03」が、ロボットRBに送信される。
この第2実施例においても、ユーザは、文字列の入力と、感情を示す表情を作るだけで、発話文字列と感情とを対応させた情報が作成されるので、ユーザの入力にかかる操作負担を軽減でき、入力操作の時間短縮をすることができる。
さらに、ロボットに送信される情報には、入力画像そのものを含まないので、データ通信量が少なく、短時間でデータ通信が行われ、また、ロボット側では、感情判定処理を行う必要がないので、迅速に、感情を込めた発話処理を実行できる。
(第3実施例)
図6に、この発明の情報処理装置における送信情報の生成処理の一実施例の概略説明図を示す。
ここでも、第1実施例と同様に、ユーザが、PCのキーボード13を用いて、ロボットRBに発話させる入力文字列を入力し、ユーザの顔を含む身体画像の静止画像を、カメラ15で撮影するものとする。また、カメラ15を常時起動させ、カメラの前にユーザが座り、ユーザの身体画像を常に撮影できる状態とする。
ただし、第1実施例と異なり、複数の文字列を連続して入力し、各文字列に対応した感情情報を取得して、各文字列と感情取得データとを対応付けた情報を複数個含む送信情報を生成する。
すなわち、この第3実施例では、感情と対応付けられた複数の発話文字列を、一つの送信情報に含めて、ロボットに送信する。
1つの文字列の入力が終了するごとに、その文字列の入力が終了したことを示す確定キーを押し下げることにより、確定キーが入力されるまでに入力された入力文字列を、一つの発話文字列として記憶する。
また、ユーザの身体画像を実際に取得し記憶するタイミングは、1つの文字列の最後の文字を入力した後、確定キーを押し下げた時とする。
複数の文字列を続けて入力する場合は、各文字列の最後の文字を入力した後、ユーザがその文字列に対応付けたい感情を示す表情を作って、確定キーを押し下げると、ユーザの身体画像が取得され、その文字列に対応する入力画像として記憶される。
図6においては、「おはよう」、「こんにちは」、「元気ですか」という3つの文字列を、この順に入力するものとする。
また、ロボットが「おはよう」を発話するときには、喜びの感情をこめた音声を出力し、「こんにちは」を発話するときには、悲しみの感情をこめた音声を出力し、「元気ですか」を発話するときには、怒りの感情をこめた音声を出力するものとする。
この場合、ロボットRBに、喜びの感情をこめた「おはよう」という音声を出力させるためには、ユーザは、「おはよう」という文字列を入力し、喜びの表情を作りカメラで撮影する必要がある。また、ロボットRBに、悲しみの感情をこめた「こんにちは」という音声を出力させるためには、ユーザは、「こんにちは」という文字列を入力し、悲しみの表情を作りカメラで撮影する必要がある。また、ロボットRBに、怒りの感情をこめた「元気ですか」という音声を出力させるためには、ユーザは、「元気ですか」という文字列を入力し、怒りの表情を作りカメラで撮影する必要がある。
図6において、まず、ユーザは、時間T0において、「おはよう」という文字列の入力を開始し、最後の文字の「う」を入力した後、喜びの表情を作り、時間T1において、確定キーを押し下げる。
このとき、「おはよう」という入力文字列が、1つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「おはよう」という入力文字列に対応する感情情報データが生成される。たとえば、(喜び、レベル10)という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、(HA-10)が生成される。
次に、ユーザは、時間T2において、「こんにちは」という文字列の入力を開始し、最後の文字の「は」を入力した後、悲しみの表情を作り、時間T3において、確定キーを押し下げる。
このとき、「こんにちは」という入力文字列が、2つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「こんにちは」という入力文字列に対応する感情情報データが生成される。たとえば、(悲しみ、レベル3)という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、(SD-03)が生成される。
最後に、ユーザは、時間T4において、「元気ですか」という文字列の入力を開始し、最後の文字の「か」を入力した後、怒りの表情を作り、時間T5において、確定キーを押し下げる。
このとき、「元気ですか」という入力文字列が、3つ目の発話文字列として確定する。
また、確定キーを押し下げた時の画像が取得され、取得された入力画像を利用して、画像解析、顔画像抽出、感情取得の一連の処理が実行される。これにより、「元気ですか」という入力文字列に対応する感情情報データが生成される。たとえば、(怒り、レベル5)という感情情報データが生成され、記憶される。また、この感情情報データに相当する感情取得送信情報としては、(AN-05)が生成される。
次に、すべての文字列の入力が確定し、入力処理を終了するために、時間T6において、もう一度、確定キーを押し下げる。これにより、今までのすべての入力が確定される。
その後、入力された情報と、生成された情報とを用いて、送信情報が生成される。
ここでは、各発話文字列と、その発話文字列に対応して生成された感情取得送信情報とが、結合された情報が生成される。
たとえば、「おはよう」という発話文字列と、「おはよう」に対応して生成された感情取得送信情報である(HA-10)とが結合された[おはよう、HA-10]というような情報が生成される。
また、同様に、「こんにちは」という発話文字列と「こんにちは」に対応して生成された感情取得送信情報である(SD-03)とが結合された[こんにちは、SD-03]というような情報と、「元気ですか」という発話文字列と「元気ですか」に対応して生成された感情取得送信情報である(AN-05)とが結合された[元気ですか、AN-05]というような情報とが、生成される。
そして、[おはよう、HA-10]、[こんにちは、SD-03]、[元気ですか、AN-05]という3つの結合情報が、1つの送信情報に含められる。
このようにして生成された送信情報は、ロボットRBに送信される。
ロボットRB側では、この送信情報を受信すると、3つの結合情報をそれぞれ取得して、各発話文字列を、それぞれの発話文字列に対応付けられた感情を込めた音声で出力し、また、同時に、予めその感情に対応付けられた身振り動作を実行する。
これによれば、1つの送信情報の中に、複数個の発話文字列を含めて、ロボットRBに送信することができ、すでに、ロボットに発話させる複数の文字列が決まっている場合は、ユーザの入力操作の手間を削減し、入力時間も短縮できる。
(第4実施例)
上記した実施例では、主として、感情と対応付けられた顔画像を利用して、感情取得データを取得していた。
ただし、顔画像に限るものではなく、感情は、手足等の身振りで表現されることもある。
そこで、感情判定情報21として、手足、腕、首等の身体的な部位の身体画像特徴と、判定感情とを、予め対応付けて記憶部20に記憶してもよい。
手足等の身振りの感情表現は、静止した状態で表せる場合もあるが、連続的な動作で表現される場合もあるので、カメラで撮影される画像は、静止画像だけでなく、数秒間程度の長さの動画でもよい。
この場合は、ユーザが、入力文字列の最後の文字を入力し、確定キーを押し下げた後、その後の数秒間、カメラで、動画を撮影する。ユーザは、この数秒間の間、感情判定情報21に予め設定された手足等の身振りを利用した感情表現をすればよい。
その後、撮影した動画を解析し、手足等の部位の部分画像を抽出し、その部位の動作を認識し、感情判定情報21の身体画像特徴と比較する。
たとえば、抽出した部分画像が、「喜び」に対応した身体画像特徴と一致可能な場合は、感情情報として、「喜び」を取得する。また、抽出した部分画像と身体画像特徴の一致の程度などから、感情レベルを設定してもよい。
このように、身体的な部位の身体画像特徴から、感情情報と感情レベルからなる感情取得データを取得し、感情取得データを含む送信情報を、ロボットRBに送信すればよい。
また、顔画像と、身体的な部位の身体画像の両方を用いて、感情取得データを取得してもよい。
この場合は、たとえば、撮影した顔画像と感情判定情報21の顔画像特徴とを比較して取得した判定感情と、撮影した身体画像と感情判定情報21の身体画像特徴とを比較して取得した判定感情とが、一致した場合に、その感情を感情情報としてすればよい。また、顔画像特徴から取得した判定感情の感情レベルと、身体画像特徴から取得した判定感情との感情レベルの平均をとり、感情レベルを設定すればよい。
(第5実施例)
上記した第4実施例では、手足等の身振りで表現される身体画像特徴と、判定感情とを予め対応付けて記憶し、撮影した身振りの感情表現と、身体画像特徴とを比較することにより、感情取得データを取得していた。
ただし、これに限るものではなく、実際の感情表現とは別に、手足等の特定の動作を、所定の感情に対応付けて、予め記憶部20に記憶してもよい。
指の形状、首の傾き、腕の動きなどを、所定の感情に対応付けてもよい。たとえば、人差し指と中指でVサインを作った場合は、「喜び」の感情を表現したものと予め設定してもよい。また、首を下に傾けるような動作は、「悲しみ」の感情を表現したものと予め設定してもよい。
この場合は、ユーザが、独自に、所望の身振りを、特定の感情表現として定義できるので、ユーザは、自己が定義した身振り動作をすることにより、より確実かつ容易に、感情取得データを取得できる。
(第6実施例)
また、第5実施例では、手足等の特定の動作を、所定の感情に対応付けて予め記憶するものを示したが、手足等の特定の動作として、手話の動作を利用してもよい。
たとえば、手話の動作を動画撮影し、撮影された動画から得た手話の部分画像を、所望の感情に予め対応づけてもよい。
あるいは、手話の動作を、その動作が意味する文字情報に変換し、その文字情報から、感情を設定してもよい。たとえば、ユーザが、「悲しみ」を意味する手話の動作をした場合、その手話の動作を認識し、「悲しみ」という文字情報に変換し、「悲しみ」という感情を設定してもよい。
また、手話の動作から、発話文字列を入力してもよい。
たとえば、「おはよう」という意味の手話の動作をした場合、その動作の動画を撮影し、動画を認識することにより、「おはよう」という文字列を取得してもよい。
取得した文字列を、発話文字列として送信情報に含めてロボットRBに送り、ロボットに、その手話内容を音声で発話させればよい。また、ロボットRBが、身振りで手話の動きをすることが可能な場合、受信した手話内容を、手の動きで表現してもよい。
(第7実施例)
上記実施例では、発話文字列と、感情取得データとを対応させた送信情報を生成してロボットRBに送信するものを示したが、これに限るものではない。
たとえば、手を右から左へ移動させるような動作をした場合や、指で左方向を指し示すような身振りをした場合は、ロボットRBの身体を左側に移動させることを意味する「左移動」というデータと対応付けて、その身体画像の特徴を、PCの記憶部20に予め記憶しておく。また、ロボットRBの記憶部40には、「左移動」というデータが、ロボットRBの身体を左側に移動させる情報であることを、予め記憶しておく。
ユーザがこの身振り動作をした場合に、撮影した身体画像から、「左移動」というデータを取得し、所定の発話文字列と、「左移動」というデータを含む送信情報を、ロボットRBに送信する。
ロボットRBは、「左移動」というデータを受信すると、そのデータは、身体を左側に移動させる情報であることを認識し、ロボットRBの身体を、実際に左側に移動させる動作を実行する。
これによれば、ロボットRBに、感情表現以外の動作をさせることができる。
1 情報処理装置、
2 ネットワーク、
3 ロボット、
11 制御部、
12 通信部、
13 情報入力部、
14 表示部、
15 画像入力部、
16 画像解析部、
17 感情取得部、
18 送信情報生成部
20 記憶部、
21 感情判定情報、
22 入力文字列、
23 入力画像、
24 感情取得データ、
24a 感情情報、
24b 感情レベル、
24c 感情取得送信情報、
25 送信情報、
25a 発話文字列、
25b 感情取得データ、
31 制御部、
32 通信部、
33 出力音声生成部、
34 出力動作決定部、
35 音声出力部、
36 身体駆動部、
40 記憶部、
41 受信情報、
42 発話文字列、
43 感情取得データ、
44 出力音声情報、
45 出力動作情報、
46 感情設定情報

Claims (11)

  1. ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムであって、
    前記情報処理装置が、
    前記ロボットに発話させる発話文字列を入力する情報入力部と、
    画像情報を入力する画像入力部と、
    入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、
    入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、
    前記送信情報を前記ロボットに送信する第1通信部とを備え、
    前記ロボットが、
    前記送信情報を受信する第2通信部と、
    受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力部と、
    前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動部とを備えたことを特徴とするロボット制御システム。
  2. 前記入力された画像情報から、その画像情報に含まれる人物の顔画像および身体画像のうち、少なくとも一方の画像を抽出する画像解析部をさらに備えることを特徴とする請求項1に記載のロボット制御システム。
  3. 前記情報処理装置が、記憶部をさらに備え、
    前記記憶部に、人物の顔画像および身体画像の特徴データと、その特徴データから特定される感情情報との関係性を事前に機械学習させた感情判定情報を、予め記憶し、
    前記感情取得部が、前記感情判定情報を利用して、前記抽出された顔画像および身体画像から特徴データを検出し、
    前記記憶された特徴データを利用して、前記検出された特徴データに当てはまりの良い感情をその人物の感情情報として取得し、かつ当てはまりの良さを感情レベルとして取得することを特徴とする請求項2に記載のロボット制御システム。
  4. 前記画像入力部が、ロボットに発話させる発話文字列の入力を終了した時の画像情報を入力することを特徴とする請求項1から3のいずれかに記載のロボット制御システム。
  5. 前記情報入力部によって、ロボットに発話させる文字列を入力した後に、その文字列の入力が確定したことを意味する入力がされた時に、前記画像入力部が、画像情報を入力することを特徴とする請求項4に記載のロボット制御システム。
  6. 前記画像入力部が、ロボットに発話させる発話文字列の各文字を入力するごとに、画像情報を入力し、
    前記感情取得部が、入力された各画像情報を利用して、画像情報に含まれる人物の感情情報を取得することを特徴とする請求項1から3のいずれかに記載のロボット制御システム。
  7. 前記感情取得部が、入力された画像情報を利用して、画像情報に含まれる人物の感情情報と、その人物が表現している感情情報の程度を示す感情レベルを取得し、
    前記送信情報生成部が、前記感情情報と前記感情レベルとからなる感情取得データと、前記入力された発話文字列とを対応付けた送信情報を生成することを特徴とする請求項1から6のいずれかに記載のロボット制御システム。
  8. 前記情報入力部によって、ロボットに発話させる複数の発話文字列を入力し、
    前記画像入力部によって、前記各発話文字列の入力が終了するごとに、画像情報を入力し、
    前記感情取得部が、入力された各画像情報を利用して、画像情報ごとに人物の感情情報を取得し、
    前記送信情報生成部が、入力された前記各発話文字列と、発話文字列の入力が終了するごとに入力された画像情報から取得された前記感情情報とをそれぞれ対応付けた情報を複数個含む送信情報を生成することを特徴とする請求項1に記載のロボット制御システム。
  9. ロボットの動作を制御するロボット制御システムの情報処理装置であって、
    前記ロボットに発話させる発話文字列を入力する情報入力部と、
    画像情報を入力する画像入力部と、
    入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得部と、
    入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成部と、
    前記送信情報を前記ロボットに送信する通信部とを備えたことを特徴とする情報処理装置。
  10. ロボットと、ロボットの動作を制御する情報処理装置とからなるロボット制御システムの制御方法であって、
    前記情報処理装置が、
    前記ロボットに発話させる発話文字列を入力する情報入力ステップと、
    前記ロボットに発話させる発話文字列の入力を終了した時に画像情報を入力する画像入力ステップと、
    入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、
    入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、
    前記送信情報を前記ロボットに送信する通信ステップとを備え、
    前記ロボットが、
    前記送信情報を受信する通信ステップと、
    受信した前記送信情報に含まれる発話文字列を、前記送信情報に含まれる感情情報に対応した抑揚を付けた音声によって出力する音声出力ステップと、
    前記送信情報に含まれる感情情報に対応した身振り動作をさせる身体駆動ステップとを備えたことを特徴とするロボット制御システムの制御方法。
  11. ロボットの動作を制御する情報処理装置のロボットの制御方法であって、
    前記ロボットに発話させる発話文字列を入力する情報入力ステップと、
    画像情報を入力する画像入力ステップと、
    入力された画像情報を利用して、その画像情報に含まれる人物の感情情報を取得する感情取得ステップと、
    入力された前記発話文字列と、取得された前記感情情報とを対応付けた送信情報を生成する送信情報生成ステップと、
    前記送信情報を前記ロボットに送信する通信ステップとを備えたことを特徴とする情報処理装置のロボットの制御方法。
JP2017102651A 2017-05-24 2017-05-24 ロボット制御システム Pending JP2018196922A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017102651A JP2018196922A (ja) 2017-05-24 2017-05-24 ロボット制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017102651A JP2018196922A (ja) 2017-05-24 2017-05-24 ロボット制御システム

Publications (1)

Publication Number Publication Date
JP2018196922A true JP2018196922A (ja) 2018-12-13

Family

ID=64662938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017102651A Pending JP2018196922A (ja) 2017-05-24 2017-05-24 ロボット制御システム

Country Status (1)

Country Link
JP (1) JP2018196922A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089646A (ja) * 2019-12-05 2021-06-10 富士通株式会社 検出方法、通知方法、検出プログラムおよび通知プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089646A (ja) * 2019-12-05 2021-06-10 富士通株式会社 検出方法、通知方法、検出プログラムおよび通知プログラム
JP7354813B2 (ja) 2019-12-05 2023-10-03 富士通株式会社 検出方法、通知方法、検出プログラムおよび通知プログラム

Similar Documents

Publication Publication Date Title
JP6465077B2 (ja) 音声対話装置および音声対話方法
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN110688911B (zh) 视频处理方法、装置、***、终端设备及存储介质
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
JP6656447B1 (ja) 動画出力システム
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
KR20080050994A (ko) 제스처/음성 융합 인식 시스템 및 방법
JP7279494B2 (ja) 会議支援装置、および会議支援システム
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
WO2021232876A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
JP6201212B2 (ja) キャラクタ生成装置およびプログラム
JP7405093B2 (ja) 情報処理装置および情報処理方法
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
JP2017213612A (ja) ロボットおよびロボットの制御方法
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
WO2021232877A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
JP2018196922A (ja) ロボット制御システム
JP2006065683A (ja) アバタ通信システム
KR20190034494A (ko) 번역 장치 및 번역 시스템
JP5055486B2 (ja) 遠隔操作アンドロイドの発話動作制御システム
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2022091426A1 (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
JP6582157B1 (ja) 音声処理装置、およびプログラム
JP2000250587A (ja) 音声認識装置及び音声認識翻訳装置