JP6166234B2 - Robot control apparatus, robot control method, and robot control program - Google Patents
Robot control apparatus, robot control method, and robot control program Download PDFInfo
- Publication number
- JP6166234B2 JP6166234B2 JP2014162607A JP2014162607A JP6166234B2 JP 6166234 B2 JP6166234 B2 JP 6166234B2 JP 2014162607 A JP2014162607 A JP 2014162607A JP 2014162607 A JP2014162607 A JP 2014162607A JP 6166234 B2 JP6166234 B2 JP 6166234B2
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- information
- robot
- user
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
Description
本発明は、ロボットを制御する技術に関する。 The present invention relates to a technique for controlling a robot.
人間同士で共に映像を見た場合と一人で視聴する場合とでは、同じ喜劇ビデオを見せたとしても共視聴する他者が同席する方が一人で視聴するよりも笑う頻度と程度が増し、映像自体に対する面白さが向上することが分かっている(例えば非特許文献1)。そのため、ロボットと映像を共視聴することで共に映像内容に対して笑い・喜び・悲しみ・怒りといった同調的反応をロボットに行わせると、一人きりで映像を見た場合よりも笑い・喜びといった感情を促進し、悲しみ・怒りといった感情を抑えることが可能となる。 When people watch videos together and when they watch them alone, even if they show the same comedy video, the co-viewers who are co-viewing are more likely to laugh and laugh than those who watch alone. It has been found that the fun with respect to itself is improved (for example, Non-Patent Document 1). Therefore, by co-viewing the video with the robot and making the robot perform a synchronous reaction such as laughter, joy, sadness, and anger with respect to the video content together, emotions such as laughter and joy than when watching the video alone It is possible to suppress emotions such as sadness and anger.
また、人とCG人物とのコミュニケーション研究において、共感を与えるような表情変化をCG人物に行わせることで人に対し親和動機を与えることが指摘されている。親和動機とは、相手に対して近寄り・協力し・行為に報いることを求める欲求と定義されており、人は自分と類似した態度をとる他者に対して親和動機を抱くと考えられている。 Further, in communication research between a person and a CG person, it has been pointed out that an affinity motivation is given to a person by causing the CG person to perform a facial expression change that gives empathy. Affinity motivation is defined as a desire to approach, cooperate with, or reward the other person, and people are considered to have affinity motivation for others who have a similar attitude to them. Yes.
映像視聴時にロボットがユーザに対し情報を提供する技術として、例えば非特許文献2では、ユーザの視聴番組ログと視聴中の発話から、視聴番組に対するユーザの評価をプロファイルとして推定し、視聴中にユーザが退屈そうであればプロファイルを用いてロボットが他のテレビ番組を推薦する技術が開示されている。
For example, in Non-Patent
また、視聴番組に関するソーシャルメディア上のコメントをロボットが発話文として用いユーザに向けて対話を行い、更にロボットがソーシャルメディア上へコメントとして投稿するという、ロボットがソーシャルメディアの仲介役を行う技術が開示されている(例えば非特許文献3)。 Also disclosed is a technology that acts as an intermediary for social media, in which robots use social media comments related to viewing programs as utterances, interact with users, and robots post comments on social media. (For example, Non-Patent Document 3).
また、映像を見ている人の笑い行為に対して胸部の筋電位の変化を検知し、ロボットが反応して笑うことで、ユーザの笑い行動を促進する技術が開示されている(例えば非特許文献4)。 In addition, a technique is disclosed that promotes user laughing behavior by detecting changes in myoelectric potential of the chest in response to the laughing behavior of the person watching the video, and making the robot react and laugh (for example, non-patented) Reference 4).
しかしながら、非特許文献2に開示された技術では、番組単位のユーザ評価により他の番組を紹介しているのみで、視聴時の感情表現については扱うことができない。
However, with the technique disclosed in Non-Patent
また、非特許文献3においても、ソーシャルメディアから決定するのはロボットの発話内容のみであり、表出すべき感情表現については扱っていない。非特許文献3では、ロボットの発話動作をソーシャルメディアコメント情報のみから決定している。しかし、ソーシャルメディア上のコメント内容はユーザが映像から受ける感情と必ずしも近いものとは限らないため、ユーザが映像から受けた感情と、ソーシャルメディアコメント情報より決定されるロボットの発話動作からユーザが受ける印象が大きく食い違う場合において、ロボットの反応がユーザにとって共感できないものになってしまう課題がある。
Also in Non-Patent
また、非特許文献4は、ユーザの笑い行動のみを促進する手法である。「笑い」は喜感情の中の1要素であり興奮や悲しみといった感情表現全体における僅かな部分しか対応することができない。また、ロボットへの入力がユーザの笑い反応のみであるため、ロボットはユーザの反応を検出してから検出内容に応じるというユーザに対してリアクティブ(reactive)な制御しかすることができない。そのため、筋電位の変化が検出できないような笑い反応が少ない場合には、ロボットからユーザに笑うように働き掛けるといったユーザに対するプロアクティブ(proactive)な制御を行うことができず、映像視聴時の体験を向上させる条件が限定的である。
Non-Patent
本発明は、これらの課題に鑑みてなされたものであり、ユーザの視聴する映像に共感しているような同調的反応をロボットに行わせるロボット制御装置、ロボット制御方法及びロボット制御プログラムを提供することを目的とする。 The present invention has been made in view of these problems, and provides a robot control device, a robot control method, and a robot control program that cause a robot to perform a synchronous reaction that is sympathetic to a video viewed by a user. For the purpose.
本発明のロボット制御装置は、ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御装置であって、ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御装置であって、人間が前記映像を見た場合に当該人間に喚起される感情を表す映像印象情報と、前記映像を見た前記ユーザの感情を表すユーザ感情情報とを入力し、互いに関連する2種類の感情の種類を1組としてn組(nは1以上の整数)の感情の種類が予め設定されている場合において、前記映像印象情報から、予め用意された変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記ユーザ感情情報から、前記変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記各組につき、(1)前記映像印象情報から生成した当該組の一方の感情の種類についての値に予め定められた重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該一方の感情の種類についての値に予め定められた重みβを乗じた値の和を前記ロボットの当該組の当該一方の感情の種類についての値として計算し、(2)前記映像印象情報から生成した当該組の他方の感情の種類についての値に前記重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該他方の感情の種類についての値に前記重みβを乗じた値の和を前記ロボットの当該組の当該他方の感情の種類についての値として計算する感情状態決定部を備える。 A robot control apparatus according to the present invention is a robot control apparatus that causes a robot to perform an operation such as viewing a video together with a user, and a robot control apparatus that causes a robot to perform an operation such as viewing a video together with a user. Video impression information representing emotions aroused by a human when he / she sees the video and user emotion information representing the emotions of the user who viewed the video are input, and two types of emotions related to each other are input. In the case where n types (n is an integer of 1 or more) of emotion types are set in advance, the type of emotion is determined from the video impression information using a conversion rule prepared in advance. A value indicating the size is generated, and a value indicating the size of each type of emotion is generated from the user emotion information using the conversion rule. For each set, (1) the video A value obtained by multiplying a value for one emotion type of the set generated from the elephant information by a predetermined weight α and a value for the one emotion type of the set generated from the user emotion information. The sum of the values multiplied by the weight β is calculated as a value for the one emotion type of the set of the robot, and (2) for the other emotion type of the set generated from the video impression information The sum of the value obtained by multiplying the value by the weight α and the value for the other emotion type of the set generated from the user emotion information by the weight β is the other emotion of the set of the robot. An emotional state determination unit that calculates the value of the type of
また、本発明のロボット制御方法は、ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御装置が行うロボット制御方法であって、人間が前記映像を見た場合に当該人間に喚起される感情を表す映像印象情報と、前記映像を見た前記ユーザの感情を表すユーザ感情情報とを入力し、互いに関連する2種類の感情の種類を1組としてn組(nは1以上の整数)の感情の種類が予め設定されている場合において、前記映像印象情報から、予め用意された変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記ユーザ感情情報から、前記変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記各組につき、(1)前記映像印象情報から生成した当該組の一方の感情の種類についての値に予め定められた重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該一方の感情の種類についての値に予め定められた重みβを乗じた値の和を前記ロボットの当該組の当該一方の感情の種類についての値として計算し、(2)前記映像印象情報から生成した当該組の他方の感情の種類についての値に前記重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該他方の感情の種類についての値に前記重みβを乗じた値の和を前記ロボットの当該組の当該他方の感情の種類についての値として計算する。 The robot control method of the present invention is a robot control method performed by a robot control device that causes a robot to perform an operation of viewing a video together with a user. When the human views the video, the robot is controlled. Video impression information representing emotions and user emotion information representing the emotions of the user who viewed the video, and n sets of two types of emotions related to each other (n is an integer of 1 or more) ) Emotion types are set in advance, a value indicating the size of each type of emotion is generated from the video impression information using a conversion rule prepared in advance, and from the user emotion information Then, using the conversion rule, a value indicating the magnitude of each type of emotion is generated, and for each set, (1) a value for one type of emotion of the set generated from the video impression information The sum of a value obtained by multiplying a predetermined weight α and a value obtained by multiplying a value for the one emotion type of the set generated from the user emotion information by a predetermined weight β is the value of the set of the robot. Calculated as a value for the one emotion type, and (2) generated from the value obtained by multiplying the value for the other emotion type in the set generated from the video impression information by the weight α and the user emotion information A sum of values obtained by multiplying the value for the other emotion type of the set by the weight β is calculated as a value for the other emotion type of the set of the robot.
本発明では、映像印象情報とユーザ感情情報を用いてロボットの感情状態を決定するので共感を得られたと感じさせる同調的反応をロボットに行わせることが可能である。 In the present invention, since the emotional state of the robot is determined using the video impression information and the user emotion information, it is possible to cause the robot to perform a synchronous reaction that makes it feel that empathy has been obtained.
以下、本発明の実施の形態について図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1に、本実施の形態におけるロボット制御装置を含む全体構成図を示す。 FIG. 1 is an overall configuration diagram including a robot control device according to the present embodiment.
本実施の形態におけるロボット制御装置1は、映像とユーザ動画情報とユーザ音声情報をそれぞれ取得し、それらの情報を元にロボット5の感情状態を決定してロボット5を制御する装置である。映像は、映像を表示すると共に送信可能な映像表示デバイス2から取得する。ユーザ動画情報は、ユーザのユーザ表情を撮影し動画情報を送信可能なカメラ3から取得する。ユーザ音声情報は、ユーザの発話する音声を取得して音声情報を送信可能なマイク4から取得する。
The robot control device 1 according to the present embodiment is a device that acquires video, user moving image information, and user audio information, determines the emotional state of the
ロボット5は、音声データと駆動制御命令を受信し音声データの再生と駆動制御命令に従いモータを駆動させて身体表現をすることが可能なロボットである。位置情報取得サーバ6は、ロボット5から見たユーザと映像表示デバイス2の方位角と仰俯角を保持し送信可能なサーバであり、方位情報データベース60を備える。
The
〔ロボット制御装置の構成〕
まず、本実施の形態におけるロボット制御装置1の構成について説明する。
[Robot controller configuration]
First, the configuration of the robot control apparatus 1 in the present embodiment will be described.
ロボット制御装置1は、映像関連情報収集部11、ユーザ情報収集部12、ユーザ感情推定部13、映像印象推定部14、感情語辞書15、感情状態決定部16、感情表現生成部17、感情状態変換ルールベース18、音声表現データベース19、身体表現データベース20を備える。ロボット制御装置1は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはロボット制御装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。なお、ロボット制御装置1の各機能構成部をコンピュータで構成するようにしてもよい。図1では、ロボット制御装置1とロボット5とを分けて示しているが、ロボット5内にロボット制御装置1を組み込んでもよい。
The robot control apparatus 1 includes a video related
映像関連情報収集部11は、映像を映像表示デバイス2から受信し、当該映像に関する映像関連情報を映像印象推定部14に送信する。ここで映像関連情報とは、映像の動画像情報と音声情報と字幕情報を含む情報である。
The video related
ユーザ情報収集部12は、カメラ3で撮影して送信したユーザの表情をユーザ動画情報として受信する。また、マイク4で収音したユーザの発話する音声をユーザ音声情報として受信する。そして受信したユーザ動画情報とユーザ音声情報を、ユーザ情報としてユーザ感情推定部13に送信する。
The user
映像印象推定部14は、映像関連情報収集部11から送信される映像関連情報から、人が当該映像関連情報を視聴した際に喚起される感情である映像印象情報を推定する。ユーザ感情推定部13は、ユーザ情報収集部12から送信されるユーザ情報から、ユーザの感じているユーザ感情情報を推定する。
The video
感情状態決定部16は、映像印象推定部14で推定した映像印象情報と、ユーザ感情推定部13で推定したユーザ感情情報の2つの情報を用いてロボット5の感情状態であるロボット感情状態を決定する。感情表現生成部17は、感情状態決定部16で決定したロボット感情状態を受信し、ロボット制御装置1が保持するデータを参照してロボット5に送信する音声データと駆動制御命令を生成する。
The emotional
続いて、ロボット制御装置1が保持するデータについて説明する。 Next, data held by the robot control apparatus 1 will be described.
図2に、感情語辞書15の構成例を示す。感情語辞書15は、「きれい」や「凄い」といった感情を表現する単語と各単語の感情強度を格納する。感情を表現する各単語に対して、各単語を、「興奮」、「喜び」、「怒り」、「悲しみ」、「…」、といった感情要素に分解した各感情要素の強度が対応付けられている。例えばその強度は0.0〜1.0の値によって表される。感情語辞書15は、映像印象推定部14が、映像印象情報を推定するときに用いられる。
FIG. 2 shows a configuration example of the
図3に、感情状態変換ルールベース18の構成例を示す。感情状態変換ルールベース18は、感情語辞書15の感情要素に対応させた覚醒値式と快値式を格納する。感情要素の「興奮」に対する覚醒値は例えば覚醒値=n*0.15+0.35、快値は例えば快値=n*0.10+0.10で与えられる。ここでnは感情要素の強度を表す変数である。感情状態変換ルールベース18は、感情状態決定部16がロボットの感情状態を決定するときに用いられる。なお、覚醒値と快値について詳しくは後述する。
FIG. 3 shows a configuration example of the emotion state
図4に、音声表現データベース19の構成例を示す。音声表現データベース19は、音声名に対応させた覚醒値と快値と音声ファイルパスを格納する。例えば音声名「すごい」に対する覚醒値は0.85、快値は0.80である。音声ファイルパスは、「すごい」等の音声データの所在を表す。音声データは、例えばロボット制御装置1の内部にあってもよいし、外部のサーバにあってもよい。音声表現データベース19は、感情表現生成部17が音声データを生成するときに用いられる。
FIG. 4 shows a configuration example of the speech expression database 19. The voice expression database 19 stores the arousal value, pleasant value, and voice file path associated with the voice name. For example, the arousal value for the voice name “Wow” is 0.85, and the pleasant value is 0.80. The audio file path represents the location of audio data such as “awesome”. For example, the voice data may be in the robot control apparatus 1 or in an external server. The voice expression database 19 is used when the emotion
図5に、身体表現データベース20の構成例を示す。身体表現データベース20は、動作名と、それに対応させた覚醒値と快値と視線対象と駆動部制御関数を格納する。駆動部制御関数は、モータ制御箇所と値、シーケンス移動間隔の2つの値の配列で構成される。モータ制御箇所と値は、作動させるロボット5のモータ部位と作動量の値(角度)である。シーケンス移動間隔は、モータ制御箇所と値を次の値に変更するまでの時間間隔を表す数値である。身体表現データベース20は、感情表現生成部17が駆動制御命令を生成するときに用いられる。
FIG. 5 shows a configuration example of the
〔ロボット制御装置が利用する外部のデータ〕
続いて、ロボット制御装置1が利用する外部のサーバが保持するデータについて説明する。図6に、位置情報取得サーバ6が保持する方位情報データベース60の構成例を示す。方位情報データベース60は、視線対象に対応させた方位角と仰俯角を格納する。視線対象は、ロボット5の視線の先にあるユーザ又は映像表示デバイス2のことである。方位角と仰俯角はロボット5の視線の角度である。
[External data used by the robot controller]
Next, data held by an external server used by the robot control apparatus 1 will be described. FIG. 6 shows a configuration example of the
各視線対象の方位角と仰俯角は、ユーザ、ロボット5、映像表示デバイス2の移動に応じて逐次更新されるものである。その更新は、映像表示デバイス2とユーザの位置が決まった時点で、人が位置情報取得サーバ6に設定してもよい。または、自動的にそれらの位置を検出して逐次更新されるようにしてもよい。
The azimuth angle and elevation angle of each line-of-sight object are sequentially updated according to the movement of the user, the
方位角は、ロボット5から各対象が地面に水平方向において北を0°とした際にどの方向にあるかを示したものである。仰俯角は、ロボット5から各対象が地面に垂直方向において水平を0°、真上を90°とした際にどの角度にあるかを示したものである。
The azimuth angle indicates in which direction each object from the
方位情報データベース60は、感情表現生成部17が駆動制御命令を生成するときに用いられる。
The
〔映像関連情報とユーザ情報の流れ〕
本実施の形態を詳細に説明する前に、主要な情報である映像関連情報とユーザ情報の情報の流れを図7に示して本実施の形態の基本的な考えについて説明する。映像関連情報は、映像印象を推定するために必要な視聴シーンに関わる情報であり、視聴映像の音声、動画像、視聴映像に含まれる字幕などのデータを含む情報である。なお、視聴映像に関するTwitterなどのソーシャルコメント情報等を映像関連情報に含めてもよい。
[Flow of video-related information and user information]
Before describing the present embodiment in detail, the basic concept of the present embodiment will be described with reference to FIG. 7 showing the flow of information of video-related information and user information, which are main information. The video-related information is information related to a viewing scene necessary for estimating a video impression, and is information including data such as audio of a viewing video, a moving image, and captions included in the viewing video. In addition, social comment information such as Twitter related to the viewing video may be included in the video related information.
ユーザ情報は、映像視聴時におけるユーザの表情、ユーザの発話音声などのデータを含む情報である。なお、ユーザの姿勢やユーザの心拍数などの生体情報をユーザ情報に含めてもよい。 The user information is information including data such as the user's facial expression and the user's uttered voice during video viewing. In addition, you may include biometric information, such as a user's attitude | position and a user's heart rate, in user information.
映像関連情報が入力される映像印象推定部14は、一般の人が映像関連情報を視聴した際に喚起される感情を、映像印象情報として推定する。ユーザ情報が入力されるユーザ感情推定部13は、ユーザ情報からユーザが感じているユーザ感情情報を推定する。
The video
感情状態決定部16は、映像印象情報とユーザ感情情報を入力として、ユーザが共感を得られたと感じさせる同調的反応をロボット5に行わせる感情表現を生成する。ロボット5に行わせる感情表現としては、ロボット5の腕の動きや頭の動きなどの身体的表現、ロボット5が発話する音声、ロボット5の表情などである。
The emotion
感情状態決定部16が、2つの情報を用いてロボット5の感情状態を決定することで、ユーザの感情的な反応が少ない場合や、映像印象情報とユーザ感情情報のそれぞれから推定されるロボット5の感情表現が大きく食い違う場合でも、適切な感情表現をロボット5に対して行わせることが可能になる。
The emotional
また、映像印象情報とユーザ感情情報に加えてロボット5の視線方向を表すロボット視線情報を用いてロボット5に行わせる感情表現を生成するようにしてもよい。図8に、ロボット視線情報を追加した本実施の形態の情報の流れを示す。ロボット視線情報を用いて、映像印象情報とユーザ感情情報のどちらの情報に重み付けして利用するかを設定することで、ロボット5により人らしい自然な共感反応を行わせることが可能になる。
In addition to the image impression information and the user emotion information, emotion expression to be performed by the
このように本実施の形態は、映像関連情報とユーザ情報を用いてロボット5の適切な感情状態を決定する考えである。よって本実施の形態に係るロボット制御装置1は、ロボット5にユーザがロボットと共に映像を視聴して共感を得られたと感じさせる同調的反応を行わせることができる。
As described above, the present embodiment is an idea of determining an appropriate emotional state of the
〔ロボット制御装置の動作〕
次に、ロボット制御装置1の動作について説明する。以下では、ロボット制御装置1を構成する各機能構成部ごとの動作を順に説明する。
[Operation of robot controller]
Next, the operation of the robot control device 1 will be described. Below, operation | movement for every function structure part which comprises the robot control apparatus 1 is demonstrated in order.
〔映像関連情報収集部〕
図9に、映像関連情報収集部11の動作フローを示してその動作を説明する。映像関連情報収集部11は、映像表示デバイス2から映像を受信すると動作を開始する。まず、映像関連情報収集部11は、映像表示デバイス2から受信した情報が映像であるか否かを判定する(ステップS110)。映像でなかった場合は、映像が受信されるまで判定動作を繰り返す(ステップS110のNo)。
[Video Related Information Collection Department]
FIG. 9 shows an operation flow of the video related
映像が受信されると、映像を構成する映像の動画像情報と音声情報と字幕情報を映像関連情報として映像印象推定部14へ送信する(ステップS111)。映像関連情報収集部11は、映像関連情報を映像印象推定部14に送信すると動作を終了する。
When the video is received, moving image information, audio information, and subtitle information of the video constituting the video are transmitted to the video
〔ユーザ情報収集部〕
図10に、ユーザ情報収集部12の動作フローを示してその動作を説明する。ユーザ情報収集部12は、カメラ3からユーザ動画情報、マイク4からユーザ音声情報、の何れかを受信すると動作を開始する。まず、ユーザ情報収集部12は、カメラ3とマイク4から受信した情報がユーザ動画情報とユーザ音声情報であるか否かを判定する(ステップS120)。ユーザ動画情報とユーザ音声情報の両方が受信できるまで判定動作を繰り返す(ステップS120のNo)。
[User Information Collection Department]
FIG. 10 shows an operation flow of the user
ユーザ動画情報とユーザ音声情報の両方が受信できると、ユーザ動画情報とユーザ音声情報をユーザ情報としてユーザ感情推定部13へ送信する(ステップS121)。ユーザ情報収集部12は、ユーザ情報をユーザ感情推定部13に送信すると動作を終了する。
When both the user moving image information and the user audio information can be received, the user moving image information and the user audio information are transmitted to the user
〔映像印象推定部〕
図11に、映像印象推定部14の動作フローを示してその動作を説明する。映像印象推定部14は、最初に映像関連情報収集部11から受信した情報が映像関連情報であるか否かを判定する(ステップS140)。
[Image impression estimation part]
FIG. 11 shows an operation flow of the video
映像印象推定部14は、映像関連情報を受信すると動作を開始する(ステップS140のYes)。まず、映像印象推定部14は、受信した映像関連情報のうちの映像の動画像情報と音声情報から音声動画像感情の抽出を行う(ステップS141)。音声動画像感情は、感情要素のカテゴリとその強度で構成される。
The video
音声動画像感情の抽出方法は、例えば参考文献1(Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki and Kiyaharu Aizawa,“Affective Audio-Visual Words and Latent Topic Driving Model for Realizing Movie Affective Scene Classification”, IEEE Transactions on Multimedia, Vol.12, No.6, pp.523-534, 2010.)に記載された映像区間に対して感情ラベルを付与する方法を用いる。参考文献1では、音声情報から映像区間に対して感情ラベルを付与する手法が示されている。つまり、映像区間は音声区間に対応する区間である。音声区間は、例えばユーザ音声情報の振幅が所定値以上ある区間とすることで容易に抽出することができる。また、映像区間は話題(Topics)毎に分割された区間としてもよい。話題は、音声情報を音声認識した結果を分析して抽出してもよいし、後述する字幕情報を形態素解析した結果から抽出するようにしてもよい。 For example, Reference 1 (Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki and Kiyaharu Aizawa, “Affective Audio-Visual Words and Latent Topic Driving Model for Realizing Movie Affective Scene Classification”, IEEE Transactions on Multimedia, Vol.12, No.6, pp.523-534, 2010.). Reference 1 shows a technique for assigning an emotion label to a video section from audio information. That is, the video section is a section corresponding to the audio section. The voice section can be easily extracted by setting, for example, a section in which the amplitude of the user voice information is a predetermined value or more. The video section may be a section divided for each topic (Topics). The topic may be extracted by analyzing the result of speech recognition of the speech information, or may be extracted from the result of subtitle information described below after morphological analysis.
参考文献1に記載された方法は、映像区間毎に8種類の感情を表すラベルのうち最も適する感情ラベルの推定を行う。8種類の感情ラベルは、例えば、喜び(joy)、賛同(acceptance)、恐れ(fear)、驚き(surprise)、悲しみ(sadness)、嫌悪(disgust)、怒り(anger)、期待(anticipation)の8種類である。この感情ラベルが音声動画像感情の感情要素のカテゴリとなる。 The method described in Reference 1 estimates the most suitable emotion label among the eight types of labels representing emotion for each video section. Eight emotion labels are, for example, joy, acceptance, fear, surprise, sadness, disgust, anger, anticipation. It is a kind. This emotion label is a category of emotion elements of the voice moving image emotion.
本実施の形態では、映像区間について複数のシーンが検出され、複数のラベルが推定されてもよいし、ラベル数が0でもよい。映像区間の全シーンに対して感情ラベルの推定が終了したら各感情ラベルの数をカウントし、各感情ラベルの数を、当該感情要素の感情強度としたものを音声動画像感情とする。 In the present embodiment, a plurality of scenes may be detected for a video section, a plurality of labels may be estimated, and the number of labels may be zero. When the estimation of emotion labels is completed for all scenes in the video section, the number of each emotion label is counted, and the number of each emotion label is defined as the emotion strength of the emotion element as a voice moving image emotion.
次に、映像印象推定部14は、映像関連情報の字幕情報に対して形態素解析処理を実施する(ステップS142)。形態素解析処理は周知の方法を用いて行う。
Next, the video
字幕情報を形態素解析した結果の各語彙と一致する語句を、感情語辞書15を参照して探索する。感情語辞書15を用いて日本語テキストから感情抽出を行う方法は、例えば参考文献2(菅原久嗣、外2名、「感情語辞書を用いた日本語テキストからの感情抽出」、the 23rd Annual Conference of the Japanese Society for Artificial Intelligence,2009)に記載されている。一致する語句があればその単語を保持して探索を継続する。例えば、字幕情報を形態素解析した結果の語彙に、「凄い」と「きれい」の単語が含まれていると仮定する。その場合、映像印象推定部14は、「凄い」に対応する感情要素として「興奮:0.6」、「喜び:0.2」、「怒り:0.1」を保持する(図2参照)。同様に、「きれい」に対応する感情要素として「興奮:0.3」、「喜び:0.8」も保持する。この探索動作は、形態素解析結果の全ての語彙について終了するまで繰り返される。
The phrase that matches each vocabulary as a result of the morphological analysis of the caption information is searched with reference to the
そして、映像印象推定部14は、一致する語句として保持された全単語の各感情要素の感情強度の和を計算し、各感情要素と感情強度の和の組みを字幕感情として抽出する(ステップS144)。上記の例では、「興奮:0.9(0.6+0.3)」、「喜び:1.0(0.2+0.8)」、「怒り:0.1(0.1+0)」が字幕感情として抽出される。
Then, the video
次に、映像印象推定部14は、音声動画像感情と字幕感情から映像印象情報の決定を行う(ステップS145)。映像印象情報の決定は、音声動画像感情と字幕感情の各感情要素の強度を合算し、その合算値が例えば最大値の5以上である場合はその感情要素の強度を5として行う。全ての感情要素の値の算出が終了したら、各感情要素と各算出値の組を映像印象情報として決定する。決定した映像印象情報を、感情状態決定部16に送信すると映像印象推定部14は動作を終了する(ステップS146)。
Next, the video
〔ユーザ感情推定部〕
図12に、ユーザ感情推定部13の動作フローを示してその動作を説明する。ユーザ感情推定部13は、最初にユーザ情報収集部12から受信した情報がユーザ情報であるか否かを判定する(ステップS130)。
[User Emotion Estimator]
FIG. 12 shows an operation flow of the user
ユーザ感情推定部13は、ユーザ情報を受信すると動作を開始する(ステップS130のYes)。ユーザ感情推定部13は、受信したユーザ情報のうちのユーザ動画情報からユーザの表情感情の抽出を行う(ステップS131)。表情感情の抽出には、例えばオムロン株式会社の商品であるOKAO Visionなどを利用することができる。
The user
OKAO Visionではユーザ動画情報中のユーザの表情に対して7つの感情ラベルとその度合いを計測することができる。7つの感情ラベルは、上記の8種類の感情ラベルに含まれるものであり、この感情ラベルが表情感情の感情要素のカテゴリを表す。度合いを表す値の最大値がEmaxだとした場合、計測した各感情ラベルの度合いのうち計測区間における最大値に対し、5/ Emaxを積算した値と各感情ラベルに一致する感情要素の全てのペアを表情感情として決定する。 OKAO Vision can measure seven emotion labels and their levels for the user's facial expressions in user video information. The seven emotion labels are included in the above eight types of emotion labels, and the emotion labels represent the category of emotion elements of facial expression emotion. Assuming that the maximum value representing the degree is E max , the value obtained by adding 5 / E max to the maximum value in the measurement section of the degree of each measured emotion label and the emotion element that matches each emotion label All pairs are determined as facial emotions.
次に、ユーザ感情推定部13は、受信したユーザ情報のうちのユーザ音声情報から音声感情の抽出を行う(ステップS132)。音声感情の抽出方法は、例えば非特許文献3に記載された人の発話に対して感情ラベルを付与する方法を用いる。非特許文献3の方法は、音声区間に5種類の感情を表す感情ラベルのうち最も適する感情ラベルの推定を行う。5種類の感情ラベルは、喜びや悲しみや驚きなどである。この感情ラベルが音声感情の感情要素のカテゴリとなる。
Next, the user
本実施の形態においては、ユーザ音声情報について複数の音声区間が検出され、複数の感情ラベルが推定されてもよいし、感情ラベルの数が0であってもよい。ユーザ音声情報の音声区間に対して感情ラベルの推定が終了したら、音声区間毎に感情ラベルの数をカウントし、各感情ラベルの数を一致する感情要素の感情強度としたものを音声感情とする。 In the present embodiment, a plurality of voice sections may be detected for user voice information, a plurality of emotion labels may be estimated, and the number of emotion labels may be zero. When estimation of emotion labels for the speech segment of the user speech information is finished, the number of emotion labels is counted for each speech segment, and the emotion strength of the emotion element that matches the number of each emotion label is defined as speech emotion. .
そして、ユーザ感情推定部13は、ステップS131で抽出した表情感情とステップS132で抽出した音声感情の各感情要素の強度を合計した値を算出する。合計値が、例えば最大値の5以上である場合はその感情要素の強度を5とする。全ての感情要素の値の算出が終了したら、各感情要素と各算出値の組をユーザ感情情報として決定する(ステップS133)。決定したユーザ感情情報を、感情状態決定部16に送信するとユーザ感情推定部13は動作を終了する(ステップS134)。
And the user
〔感情状態決定部〕
図13に、感情状態決定部16の動作フローを示してその動作を説明する。感情状態決定部16は、映像印象推定部14から受信した情報が映像印象情報であるか否かを判定する(ステップS160)。映像印象情報である場合(ステップS160のYes)、感情状態決定部16は、ユーザ感情推定部13から受信した情報がユーザ感情情報であるか否かを判定する(ステップS161)。なお、判定の順番はユーザ感情情報が先であってもよい。
[Emotion state determination section]
FIG. 13 shows an operation flow of the emotion
感情状態決定部16は、映像印象情報とユーザ感情情報の両方を受信すると動作を開始する(ステップS161のYes)。感情状態決定部16は、映像印象情報とユーザ感情情報の2つの情報を用いてロボット5の感情状態を決定する。
The emotion
感情状態決定部16において2つの情報を用いる理由について説明する。映像印象情報を利用する理由は、ユーザ感情情報のみでロボット5の感情を決定しようとすると、ユーザの感情的な反応が少ない場合に、ロボット5から積極的にユーザに働きかけて、より笑わせる、より興奮させるといったユーザに対するプロアクティブな制御が行えない問題が発生するからである。また逆に、映像印象情報のみでロボット5の感情を決定しようとすると、ユーザの感情と映像印象情報から推定される印象が大きく食い違う場合に、ロボット5の反応がユーザにとって共感できないものになってしまう問題が発生するからである。
The reason for using two pieces of information in the emotional
印象が大きく食い違う問題として、例えば映像は笑いを喚起するような内容であるがユーザはそれを全く面白いと感じていない場合に、ロボット5がユーザの反応と関係なく笑い続けてしまう現象が生じる。このような問題を回避する目的で本実施の形態では、映像印象情報とユーザ感情情報の2つの情報を用いてロボット5の感情状態を決定する。
For example, if the image has contents that provoke laughter but the user does not feel it interesting at all, the
ロボット5がユーザに対して共感を生じさせる人らしい感情表現を行うためには、映像やユーザ状況に応じて適切な感情状態を決定し、その感情状態を伝えるための感情表現を行う必要がある。ここで適切な感情状態とは、例えば喜・怒・哀・楽などのような感情を構成する各感情要素に対して、各感情要素の強度を表す値が適切に決められることである。
In order for the
例えば各感情要素の強度が0〜1の範囲で定まるとすると、激しい怒りを表す感情状態は、喜=0、怒=1、哀=0、楽=0。小さな喜びを表す感情状態は喜=0.3、怒=0、哀=0、楽=0のように定まる。適切な感情状態を定めることができれば、ロボット5はその感情状態に応じた表情表出、身体動作、音声表現などによって感情表現を行うことが可能である。
For example, if the intensity of each emotional element is determined in the range of 0 to 1, the emotional state representing intense anger is joy = 0, anger = 1, sorrow = 0, comfort = 0. The emotional state representing small joy is determined as joy = 0.3, anger = 0, sorrow = 0, comfort = 0. If an appropriate emotional state can be determined, the
2つの情報を用いて上記の問題を緩和若しくは解決する手法として例えば中間値利用手法がある。次に中間値利用手法について説明する。 As a technique for mitigating or solving the above problem using two pieces of information, there is an intermediate value utilization technique, for example. Next, the intermediate value utilization method will be described.
〔中間値利用手法〕
中間値利用手法では、映像印象情報とユーザ感情情報を同じ種類の感情状態の要素と値のスケールにマッピングする。マッピングにおいては、マッピングの変換対応を記述したデータベースを用意することで実現できる。マッピングは、互いに関連する2種類の感情状態の要素を1組として行う。例えば、感情状態の要素を2組の覚醒−非覚醒と快−不快とした場合、マッピングの変換対応は例えば図14に示すように行うことができる。ここで、感情状態の要素とはロボット5の感情の種類である。よって、感情状態の要素を覚醒−非覚醒と快−不快とした場合のロボット5の感情は、覚醒レベル(覚醒値)と快適レベル(快値)とで表現される。
[Method of using intermediate values]
In the intermediate value utilization technique, video impression information and user emotion information are mapped to the same kind of emotion state elements and value scales. Mapping can be realized by preparing a database describing mapping conversion correspondence. Mapping is performed as a set of elements of two types of emotional states related to each other. For example, when the emotional state elements are two sets of awakening-non-awakening and pleasant-uncomfortable, mapping conversion can be performed as shown in FIG. Here, the emotional state element is the type of emotion of the
なお、覚醒−非覚醒と快−不快の組はラッセンの円環モデルに基づく。感情要素を表す2軸は、この例の他に歓喜−悲嘆と激怒と恐怖の組、憧憬−憎悪と警戒−驚嘆の組なども考えられる。 The awakening-non-awaking and pleasant-uncomfortable group is based on Lassen's ring model. In addition to this example, the two axes representing emotional elements can be a combination of joy—grief, rage, and fear, and a longing—hate, vigilance—marvel.
つまり、感情状態決定部16は、映像印象情報とユーザ感情情報とを、ロボット5の感情状態を決定するための感情状態の要素を2軸の2次元空間に配置し、配置した映像印象情報とユーザ感情情報との間の感情状態の要素の値を、ロボット5の感情状態として決定する。
That is, the emotional
なお、本実施の形態では感情状態の要素を2組とした例で説明するが、感情要素を表す軸は1組単位でよい。つまり、覚醒−非覚醒の1組(1軸)に対して中間値利用手法を適用してもよい。また、喜び−悲しみ、受容−嫌悪、恐れ−怒り、驚き−期待、の4組に拡張してもよい。このように互いに関連する2種類の感情の種類の組の数は、n組に拡大することができる。 In this embodiment, an example in which two emotional state elements are used will be described. However, an axis representing an emotional element may be one set unit. That is, the intermediate value utilization method may be applied to one set (one axis) of awakening / non-wakening. Further, it may be expanded to four sets of joy-sadness, acceptance-disgust, fear-anger, surprise-expectation. In this way, the number of sets of two types of emotions related to each other can be expanded to n sets.
図14において、入力1と入力2は2つの情報である。入力1は、例えば映像印象推定部14が推定した映像印象情報の推定結果が「怒り」の感情を表す単一ラベルで表される例を示している。「怒り」の覚醒値=0.85、快値=-0.5なのでその2軸上の座標に推定結果α(-0.5,0.85)がプロットされる。
In FIG. 14, input 1 and
入力2は、例えばユーザ感情推定部13が推定したユーザ感情情報の推定結果が複数の感情要素とその程度で表される例を示している。ユーザ感情情報の推定結果の例は、「喜び(n=5)」、「興奮(n=2)」である。このように推定結果が複数の感情要素とその程度で構成される場合は、推定結果が変換式ルール上で一致する各感情要素に対して、その程度の値を覚醒値式と快値式に代入した値を求める。そして各感情要素の代入結果の覚醒値と快値のそれぞれを加算した値が推定結果となる。
この例では、快値=2*0.05+0.10+5*0.08+0.35=0.95、覚醒値=2*0.10+0.35+5*0.05+0.25=1.05、である。本実施の形態では1.0以上の値は1.0とするので、2軸上の座標に推定結果β(0.95,1.0)がプロットされる。 In this example, the pleasant value = 2 * 0.05 + 0.10 + 5 * 0.08 + 0.35 = 0.95 and the arousal value = 2 * 0.10 + 0.35 + 5 * 0.05 + 0.25 = 1.05. In this embodiment, since a value of 1.0 or more is 1.0, the estimation result β (0.95, 1.0) is plotted on the two-axis coordinates.
中間値利用手法では、映像印象情報とユーザ感情情報の2つの情報をマッピングした感情状態を用いて次式に示すように両情報の中間値にロボット5の感情状態を決定する。
In the intermediate value utilization method, the emotional state of the
この感情状態の要素の組はn組(nは1以上の整数)であってもよい。感情状態の要素の組に、例えば歓喜−悲嘆と激怒と恐怖の組を追加して4組としてもよい。その場合のロボット5の感情には、歓喜−悲嘆のレベルと激怒と恐怖のレベルが追加される。その場合の式(1)は4個の式で表現されることになる。
This emotional state element set may be n sets (n is an integer of 1 or more). For example, a combination of delight, grief, rage, and fear may be added to the set of elements of the emotional state to form four sets. The emotion of the
また、MovieArousaliとMoviePositiveiは映像印象情報の覚醒−非覚醒と快−不快要素の値を表す。UserArousaliとUserPositiveiはユーザ感情情報の覚醒−非覚醒と快−不快要素の値を表す。また、val値はどの程度ユーザ感情情報又は映像印象情報に依存すべきかを規定する値であり0≦val≦1の範囲を取る値に設定する。 MovieArousal i and MoviePositive i represent the values of awakening-non-awaking and pleasant-unpleasant elements of video impression information. UserArousal i and UserPositive i represent the values of arousal-non-awakening and pleasant-unpleasant elements of user emotion information. The val value is a value that defines how much the user emotion information or video impression information should be relied on, and is set to a value that takes a range of 0 ≦ val ≦ 1.
中間値利用手法を用いることで、ロボット5はユーザの感情状態の表出が少ない場合、例えばUserArousaliとUserPositiveiが0に近い場合においてもロボット5は映像印象情報の推定値を用いてプロアクティブにユーザに対して感情表現を行うことができる。また、ユーザ感情情報と映像印象情報とから推定される印象が大きく食い違う場合であっても、val値を適切に設定することで、ユーザの反応を考慮した感情表現を行うことが可能である。
By using the intermediate value utilization method, the
例えばval値を大きく設定した場合、映像は笑いを喚起するシーンであるが、ユーザが全く笑っていない場面では、まずロボット5は小さく笑う反応を表出し、その後のロボット5の反応につられてユーザが笑った場合には、ロボット5もUserArousaliとUserPositiveiの変化に応じて笑い反応を強くするという制御が可能になる。
For example, when the val value is set to a large value, the image is a scene that arouses laughter, but in a scene where the user is not laughing at all, the
要するに、感情状態決定部16は、人間が前記映像を見た場合に当該人間に喚起される感情を表す映像印象情報と、前記映像を見た前記ユーザの感情を表すユーザ感情情報とを入力し、互いに関連する2種類の感情の種類を1組としてn組(nは1以上の整数)の感情の種類が予め設定されている場合において、前記映像印象情報から、予め用意された変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記ユーザ感情情報から、前記変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記各組につき、(1)前記映像印象情報から生成した当該組の一方の感情の種類についての値に予め定められた重みα(α=(1−val))を乗じた値と前記ユーザ感情情報から生成した当該組の当該一方の感情の種類についての値に予め定められた重みβ(β=val)を乗じた値の和を前記ロボットの当該組の当該一方の感情の種類についての値として計算し、(2)前記映像印象情報から生成した当該組の他方の感情の種類についての値に前記重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該他方の感情の種類についての値に前記重みβを乗じた値の和を前記ロボットの当該組の当該他方の感情の種類についての値として計算する。
In short, the emotion
次に、中間値利用手法に更にロボット5の視線方向を利用する手法について説明する。
Next, a method for further using the line-of-sight direction of the
〔ロボットの視線方向を利用した方式〕
ロボット5が感情表現を行うために利用する映像関連情報やユーザ情報は、ロボット5がどの方向を向いているかに関わらず取得することができる。一方で、人は視覚により周囲の情報を得ることが多い。人同士が交流する際には、相手が視覚によった情報処理をしている前提でコミュニケーションが図られる。
[Method using robot's gaze direction]
Video-related information and user information used by the
そのためロボット5が見ていない方向の情報を入力して感情表現を行うと、ロボット5の情報処理系と人が交流する相手に想定するモデルが食い違うため、人がロボット5に対して共感を生む際の障害となる。そこで、映像関連情報やユーザ情報のどちらの情報を重み付けして利用するか、ロボットの視線方向を用いて設定することでより人らしく自然な共感反応を行わせ、共感における障害を減ずる方法が考えられる。
For this reason, if the
ロボット5の視線方向を利用した方式の実現方法の例としては、中間値利用手法で説明したval値とRobotArousaliとRobotPositiveiを例えば次式に示すように設定することで実現することができる。
An example of a method for realizing the method using the line-of-sight direction of the
感情状態決定部16は、映像印象情報とユーザ感情情報を受信すると、上記の中間値利用手法に基づいてまず映像印象情報を覚醒値と快値のペアに変換する(ステップS162)。変換の方法は、映像印象情報の各感情要素と一致する感情状態変換ルールベース18に格納された変換ルールの感情要素の項目を探索し、一致した変換ルールの覚醒値式と快値式に対し、映像印象情報の感情要素の強度値を両変換式の変数nに代入する。
When the emotional
映像印象情報の強度が0ではない全感情要素に対して探索と代入の処理を繰り返し、全覚醒式と快式の代入結果をそれぞれ加算したものを覚醒値と快値とする。ただし、加算した結果が−1以下の場合は−1を、加算した結果が1以上の場合は1を覚醒値または快値の値とする。映像印象情報を変換した覚醒値を表す変数がMovieArousaliであり、快値を表す変数がMoviePositiveiである。 The search and substitution processes are repeated for all emotion elements whose image impression information intensity is not 0, and the sum of the results of substitution of all awakening expressions and pleasant expressions is used as an arousal value and a pleasant value. However, if the result of addition is −1 or less, −1 is set, and if the result of addition is 1 or more, 1 is set as a value of an arousal value or a pleasant value. A variable representing the arousal value obtained by converting the video impression information is MovieArousal i , and a variable representing the pleasant value is MoviePositive i .
感情状態決定部16は、次にユーザ感情情報を覚醒値と快値のペアに変換する(ステップS163)。変換の方法は映像印象情報と同様である。
The emotion
ユーザ感情情報を覚醒値と快値のペアに変換する処理は、具体例を示して説明する。例えば、感情要素と強度nを「喜び、n=5」と「興奮、n=4」と仮定する。その場合、感情状態変換ルールベース18に格納された変換ルールの快値式は「喜び」の「n*0.08+0.45」と「興奮」の「n*0.10+0.10」を用いる(図3参照)。よって快値は、快値=5*0.08+0.45+4*0.10+0.10=1.35と計算される。 The process of converting user emotion information into a pair of arousal value and pleasant value will be described with a specific example. For example, it is assumed that the emotion element and the intensity n are “joy, n = 5” and “excitement, n = 4”. In that case, “n * 0.08 + 0.45” of “joy” and “n * 0.10 + 0.10” of “excitement” are used as the pleasant expression of the conversion rule stored in the emotion state conversion rule base 18 (see FIG. 3). . Therefore, the pleasant value is calculated as the pleasant value = 5 * 0.08 + 0.45 + 4 * 0.10 + 0.10 = 1.35.
覚醒値式は「喜び」の「n*0.05+0.25」と「興奮」の「n*0.15+0.35」を用いる。よって覚醒値は、覚醒値=5*0.05+0.25+4*0.15+0.35=1.45と計算される。加算した結果が快値=1.35と覚醒値=1.45であり、それぞれが1以上であるので快値=1.0と覚醒値=1.0とされる。したがって上記の変数UserArousali=1.0、UserPositivei=1.0となる。 The arousal value formula uses “n * 0.05 + 0.25” for “joy” and “n * 0.15 + 0.35” for “excitement”. Therefore, the arousal value is calculated as arousal value = 5 * 0.05 + 0.25 + 4 * 0.15 + 0.35 = 1.45. The result of addition is a pleasant value = 1.35 and an arousal value = 1.45, and since each is 1 or more, the pleasant value = 1.0 and the arousal value = 1.0. Therefore, the above variables UserArousal i = 1.0 and UserPositive i = 1.0.
ここで映像印象情報から得られた覚醒値(MovieArousali)を0、快値(MoviePositivei)を0と仮定すると、ロボット5の感情状態の覚醒値(RobotArousali)と快値(RobotPositivei)は上記の式(1)に各変数の値を代入することで計算できる。
Here wake values obtained from the image impression information (
どの程度ユーザ感情情報又は映像印象情報に依存すべきかを規定する値であるval値をval=0.5と仮定すると、この例ではロボット5の感情状態のRobotArousaliはRobotArousali=(1-0.5)*0+0.5+1.0=0.5、RobotPositiveiはRobotPositivei=(1-0.5)*0+0.5+1.0=0.5として生成される(ステップS164)。
Assuming that val = 0.5 is a value that defines how much user emotion information or video impression information should be relied upon, RobotArousal i of the
感情状態決定部16は、生成したロボット5の感情状態を表すRobotArousaliとRobotPositiveiを感情表現生成部17に送信すると動作を終了する(ステップS166)。図11に示すステップS165の処理は、ロボット視線情報を受信した場合に行われる。
The emotional
ロボット視線情報が入力された場合の感情状態決定部16は、ロボット視線情報が映像の方向を表していれば映像印象情報の重み(1-val)を大きく、ユーザの方向を表していればユーザ感情情報の重み(val)を大きくしてロボット5の感情状態を決定する。
When the robot line-of-sight information is input, the emotion
感情状態決定部16は、感情表現生成部17からロボット5の視線方向を表すロボット視線情報を受信すると視線対象変数(RobotViewi)を設定する。視線方向が映像表示デバイス2であった場合はRobotViewi=Movieに、視線方向がユーザであった場合はRobotViewi=Userに設定する。視線方向が映像表示デバイス2又はユーザのどちらでもない場合はRobotViewi=Noneに設定する。
When the emotion
視線対象変数が設定された場合、感情状態決定部16は上記の式(2)を用いてロボット5の感情状態のRobotArousaliとRobotPositivei を生成する(ステップS164)。映像印象情報から得られた覚醒値と快値をそれぞれMovieArousaliとMoviePositiveiとし、ユーザ感情情報より得られた覚醒値と快値をそれぞれUserArousaliとUserPositiveiとし、valsee-movie=0.8, valnosee-movie=0.2, valsee-user=0.8, valnosee-user=0.2として上記の式(2)を用いることでロボット5の感情状態の覚醒値RobotArousaliと快値RobotPositivei を求める。
ここでvalsee-movie=0.8, valnosee-movie=0.2, valsee-user=0.8, valnosee-user=0.2の値は一例である。
When the line-of-sight target variable is set, the emotional
Here, the values of val see-movie = 0.8, val nosee-movie = 0.2, val see-user = 0.8, val nosee-user = 0.2 are examples.
このように視線対象変数が設定された場合の感情状態決定部16は、ロボット視線情報記映像の方向を示す場合は、ロボット視線情報が映像の方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ重みα(valsee-movie)および重みβ(valnosee-user)に設定し、ロボット視線情報がユーザの方向を示す場合は、ロボット視線情報がユーザの方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ重みα(valnosee-movie)および重みβ(valsee-user)に設定し、ロボット視線情報がその他の方向を示す場合は、ロボット視線情報がその他の方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ重みα(valnosee-movie)および重みβ(valnosee-user)に設定する。
When the gaze target variable is set in this way, the emotional
〔感情表現生成部〕
図15に、感情表現生成部17の動作フローを示してその動作を説明する。感情表現生成部17は、感情状態決定部16からロボット5の感情状態を受信すると動作を開始する(ステップS170のYes)。感情表現生成部17が動作を開始すると、ロボット5の感情状態の覚醒値と快値を用いて音声表現データベース19を参照し、ロボット5が発する音声データを決定する(ステップS171)。
[Emotion expression generator]
FIG. 15 shows an operation flow of the emotion
ここで決定とは、ある音声データOnの覚醒値をVoiceArousalon、快値をVoicePositiveonとしたときの全音声データONの中から次式を満たす参照する音声データを決定することである(図4参照)。音声表現データベース19は、音声データそのものを持つようにしてもよいが、本実施の形態では、音声表現データベース19は音声データが格納された場所を表す音声ファイルパスを格納している。 Here determined is to determine the audio data referring satisfies the following formula awake values of certain audio data O n from the VoiceArousalo n, all the audio data O N when the pleasure value was VoicePositiveo n ( (See FIG. 4). Although the voice expression database 19 may have the voice data itself, in the present embodiment, the voice expression database 19 stores a voice file path representing a place where the voice data is stored.
感情状態決定部16がロボット視線情報を利用する場合、感情表現生成部17は駆動部制御情報に含まれる視線対象をロボット視線情報として感情状態決定部16に送信する(ステップS175)。頭部方位角dxと頭部仰俯角dyに角度が代入された駆動制御関数と音声ファイルパスは、駆動制御命令及び音声データとしてロボット5に送信される(ステップS176)。
When the emotion
この駆動制御命令と音声データの送信は、駆動制御関数のシーケンス移動間隔として設定された時間毎に繰り返される。例えば身体表現データベース20(図5)の1行目の駆動部制御情報が参照された場合、ロボット5の視線方向は、映像表示デバイス2としたままの状態で、ロボット5の右腕チルト角0°左腕チルト角0°の状態が20秒継続した後に、右腕チルト角30°左腕チルト角30°の状態に変化する。
The transmission of the drive control command and audio data is repeated every time set as the sequence movement interval of the drive control function. For example, when the drive unit control information in the first row of the body representation database 20 (FIG. 5) is referenced, the
感情表現生成部17では、ロボット5の感情状態に基づいてロボット5の身体的表現と発話表現の内容を生成する。身体的表現とは、身体表現データベース20(図5)に格納された動作名に記載されたロボット5の動作である。発話表現とは、音声表現データベース19に格納された例えば「すごい」等の音声である。
The emotion
なお、身体的表現にロボット5の表情表現を含めてもよい。その場合、感情表現生成部17は、身体的表現と発話表現と合わせて表情表現の内容も生成する。感情表現生成部17は、ロボット5の感情状態に基づきロボット5の身体的表現と表情的表現と発話表現を、動的に生成してもよいし、予め感情状態に対応させて保持している身体的表現と表情的表現と発話表現を利用する方法をとってもよい。また、ロボット5の感情状態を決定するための感情状態の要素を、覚醒−非覚醒と快−不快の2組とする例で説明を行ったが、上記のように感情状態の要素の組の数をn組にしてもよい。
Note that the facial expression of the
以上説明したように本実施の形態によれば、ロボット5がユーザと共に映像を視聴する際に、より人らしい感情表現をロボット5が行うことで、ユーザがロボット5に対して共感を持ち映像視聴をより豊かに楽しむことを可能にする。
As described above, according to the present embodiment, when the
1:ロボット制御装置
11:映像関連情報収集部
12:ユーザ情報収集部
13:ユーザ感情推定部
14:映像印象推定部
15:感情語辞書
16:感情状態決定部
17:感情表現生成部
18:感情状態変換ルールベース
19:音声表現データベース
20:身体表現データベース
2:映像表示デバイス
3:カメラ
4:マイク
5:ロボット
6:位置情報取得サーバ
60:方位情報データベース
1: Robot control device 11: Video related information collection unit 12: User information collection unit 13: User emotion estimation unit 14: Video impression estimation unit 15: Emotion word dictionary 16: Emotion state determination unit 17: Emotion expression generation unit 18: Emotion State conversion rule base 19: voice expression database 20: body expression database 2: video display device 3: camera 4: microphone 5: robot 6: position information acquisition server 60: direction information database
Claims (6)
人間が前記映像を見た場合に当該人間に喚起される感情を表す映像印象情報と、前記映像を見た前記ユーザの感情を表すユーザ感情情報とを入力し、互いに関連する2種類の感情の種類を1組としてn組(nは1以上の整数)の感情の種類が予め設定されている場合において、前記映像印象情報から、予め用意された変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記ユーザ感情情報から、前記変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記各組につき、(1)前記映像印象情報から生成した当該組の一方の感情の種類についての値に予め定められた重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該一方の感情の種類についての値に予め定められた重みβを乗じた値の和を前記ロボットの当該組の当該一方の感情の種類についての値として計算し、(2)前記映像印象情報から生成した当該組の他方の感情の種類についての値に前記重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該他方の感情の種類についての値に前記重みβを乗じた値の和を前記ロボットの当該組の当該他方の感情の種類についての値として計算する
感情状態決定部を備えることを特徴とするロボット制御装置。 A robot control device that causes a robot to perform an operation such as viewing a video with a user,
Video impression information representing emotions aroused by a human when he / she sees the video and user emotion information representing the emotions of the user who viewed the video are input, and two types of emotions related to each other are input. In the case where n types (n is an integer of 1 or more) of emotion types are set in advance, the type of emotion is determined from the video impression information using a conversion rule prepared in advance. A value indicating a size is generated, and a value indicating the size of each type of emotion is generated from the user emotion information using the conversion rule. For each set, (1) from the video impression information A weight obtained by multiplying a value obtained by multiplying a value for one emotion type of the set by a predetermined weight α and a value for the one emotion type of the set generated from the user emotion information. The sum of the values multiplied by β Calculated as a value for the one emotion type of the set of the robot, and (2) a value obtained by multiplying the value for the other emotion type of the set generated from the video impression information by the weight α and the user Emotion state determination unit that calculates a sum of values obtained by multiplying the value of the other emotion type of the set generated from emotion information by the weight β as a value of the other emotion type of the set of the robot A robot control device comprising:
前記感情状態決定部は、
前記重みβは0≦β≦1の範囲に含まれ、前記重みαはα=(1−β)であることを特徴とするロボット制御装置。 The robot control device according to claim 1,
The emotional state determination unit
The robot control apparatus according to claim 1, wherein the weight β is included in a range of 0 ≦ β ≦ 1, and the weight α is α = (1−β).
前記ロボットの視線方向を表すロボット視線情報を入力とし、前記ロボット視線情報が前記映像の方向を示す場合はα>βであり、前記ロボット視線情報が前記ユーザの方向を示す場合はβ>αであることを特徴とするロボット制御装置。 The robot control device according to claim 1,
The robot gaze information indicating the robot gaze direction is input. If the robot gaze information indicates the direction of the video, α> β, and if the robot gaze information indicates the user direction, β> α. A robot controller characterized by being.
前記感情状態決定部は、
前記ロボット視線情報が前記映像の方向を示す場合は、前記ロボット視線情報が前記映像の方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ前記重みαおよび前記重みβに設定し、
前記ロボット視線情報が前記ユーザの方向を示す場合は、前記ロボット視線情報が前記ユーザの方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ前記重みαおよび前記重みβに設定し、
前記ロボット視線情報がその他の方向を示す場合は、前記ロボット視線情報がその他の方向を示す場合のために予め定められた映像印象情報の重みおよびユーザ感情情報の重みをそれぞれ前記重みαおよび前記重みβに設定する
ことを特徴とするロボット制御装置。 The robot controller according to claim 3, wherein
The emotional state determination unit
When the robot line-of-sight information indicates the direction of the video, the weight α and the weight of user emotion information predetermined for the case where the robot line-of-sight information indicates the direction of the video are respectively set to the weight α and Set to the weight β,
When the robot line-of-sight information indicates the direction of the user, a weight of video impression information and a weight of user emotion information predetermined for the case where the robot line-of-sight information indicates the direction of the user are set as the weight α and Set to the weight β,
When the robot line-of-sight information indicates the other direction, the weight α and the weight are set as the weight of the video impression information and the weight of the user emotion information that are predetermined for the case where the robot line-of-sight information indicates the other direction, respectively. A robot controller characterized by being set to β.
人間が前記映像を見た場合に当該人間に喚起される感情を表す映像印象情報と、前記映像を見た前記ユーザの感情を表すユーザ感情情報とを入力し、互いに関連する2種類の感情の種類を1組としてn組(nは1以上の整数)の感情の種類が予め設定されている場合において、前記映像印象情報から、予め用意された変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記ユーザ感情情報から、前記変換ルールを用いて、当該各種類の感情の大きさを示す値を生成し、前記各組につき、(1)前記映像印象情報から生成した当該組の一方の感情の種類についての値に予め定められた重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該一方の感情の種類についての値に予め定められた重みβを乗じた値の和を前記ロボットの当該組の当該一方の感情の種類についての値として計算し、(2)前記映像印象情報から生成した当該組の他方の感情の種類についての値に前記重みαを乗じた値と前記ユーザ感情情報から生成した当該組の当該他方の感情の種類についての値に前記重みβを乗じた値の和を前記ロボットの当該組の当該他方の感情の種類についての値として計算することを特徴とするロボット制御方法。 A robot control method performed by a robot control device that causes a robot to perform an operation such as viewing a video with a user,
Video impression information representing emotions aroused by a human when he / she sees the video and user emotion information representing the emotions of the user who viewed the video are input, and two types of emotions related to each other are input. In the case where n types (n is an integer of 1 or more) of emotion types are set in advance, the type of emotion is determined from the video impression information using a conversion rule prepared in advance. A value indicating a size is generated, and a value indicating the size of each type of emotion is generated from the user emotion information using the conversion rule. For each set, (1) from the video impression information A weight obtained by multiplying a value obtained by multiplying a value for one emotion type of the set by a predetermined weight α and a value for the one emotion type of the set generated from the user emotion information. The sum of the values multiplied by β Calculated as a value for the one emotion type of the set of the robot, and (2) a value obtained by multiplying the value for the other emotion type of the set generated from the video impression information by the weight α and the user Calculating a sum of values obtained by multiplying a value for the other emotion type of the set generated from the emotion information by the weight β as a value for the other emotion type of the set of the robot, Robot control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014162607A JP6166234B2 (en) | 2014-08-08 | 2014-08-08 | Robot control apparatus, robot control method, and robot control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014162607A JP6166234B2 (en) | 2014-08-08 | 2014-08-08 | Robot control apparatus, robot control method, and robot control program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016036883A JP2016036883A (en) | 2016-03-22 |
JP6166234B2 true JP6166234B2 (en) | 2017-07-19 |
Family
ID=55528438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014162607A Active JP6166234B2 (en) | 2014-08-08 | 2014-08-08 | Robot control apparatus, robot control method, and robot control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6166234B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11962545B2 (en) | 2021-12-27 | 2024-04-16 | Samsung Electronics Co., Ltd. | Method and device for providing chatbot participating chat service |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102522898B1 (en) * | 2016-05-09 | 2023-04-19 | 한국전자통신연구원 | Method and apparatus for adjusting safty of collaborating robot by recognizing emotion status of worker |
CN107590503A (en) * | 2016-07-07 | 2018-01-16 | 深圳狗尾草智能科技有限公司 | A kind of robot affection data update method and system |
JP6814089B2 (en) * | 2017-05-02 | 2021-01-13 | 株式会社ソニー・インタラクティブエンタテインメント | Object control system and object control method |
JP7051728B2 (en) * | 2019-01-25 | 2022-04-11 | Necパーソナルコンピュータ株式会社 | Interactive robot and its control device |
WO2022264234A1 (en) * | 2021-06-14 | 2022-12-22 | 日本電信電話株式会社 | Mirroring support method, mirroring support device, and program |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832189A (en) * | 1996-09-26 | 1998-11-03 | Interval Research Corporation | Affect-based robot communication methods and systems |
JP2001212783A (en) * | 2000-02-01 | 2001-08-07 | Sony Corp | Robot device and control method for it |
JP4266552B2 (en) * | 2001-10-16 | 2009-05-20 | 日本電気株式会社 | Robot apparatus and control method thereof |
JP2003191187A (en) * | 2001-12-21 | 2003-07-08 | Sony Corp | Robot device and method of controlling it |
JP3702297B2 (en) * | 2002-08-01 | 2005-10-05 | 株式会社Oiテクノロジーズ | Robot control apparatus, robot control method, and program thereof |
JP5499924B2 (en) * | 2010-06-14 | 2014-05-21 | 富士通株式会社 | Robot control method, robot control program, and robot |
JP5729692B2 (en) * | 2011-02-28 | 2015-06-03 | 国立大学法人信州大学 | Robot equipment |
JP5172049B2 (en) * | 2011-06-14 | 2013-03-27 | パナソニック株式会社 | Robot apparatus, robot control method, and robot control program |
JP2013099823A (en) * | 2011-11-09 | 2013-05-23 | Panasonic Corp | Robot device, robot control method, robot control program and robot system |
JP5527747B1 (en) * | 2012-12-25 | 2014-06-25 | コリア インスティチュート オブ インダストリアル テクノロジー | Apparatus and method for selecting a continuous emotional expression operation of a mechanical device |
-
2014
- 2014-08-08 JP JP2014162607A patent/JP6166234B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11962545B2 (en) | 2021-12-27 | 2024-04-16 | Samsung Electronics Co., Ltd. | Method and device for providing chatbot participating chat service |
Also Published As
Publication number | Publication date |
---|---|
JP2016036883A (en) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6166234B2 (en) | Robot control apparatus, robot control method, and robot control program | |
US11858118B2 (en) | Robot, server, and human-machine interaction method | |
US11836593B1 (en) | Devices, systems, and methods for learning and using artificially intelligent interactive memories | |
Yoon et al. | Robots learn social skills: End-to-end learning of co-speech gesture generation for humanoid robots | |
US12053301B2 (en) | Classifying facial expressions using eye-tracking cameras | |
US11430171B2 (en) | Explainable artificial intelligence | |
Piana et al. | Real-time automatic emotion recognition from body gestures | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
JP7254772B2 (en) | Methods and devices for robot interaction | |
US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
Zhang et al. | Intelligent affect regression for bodily expressions using hybrid particle swarm optimization and adaptive ensembles | |
Zhang et al. | M 3 f: Multi-modal continuous valence-arousal estimation in the wild | |
KR102346026B1 (en) | Electronic device and Method for controlling the electronic device thereof | |
CN110598576A (en) | Sign language interaction method and device and computer medium | |
CN114995657B (en) | Multimode fusion natural interaction method, system and medium for intelligent robot | |
US20210033873A1 (en) | Electronic device and method of controlling the same | |
US20230173683A1 (en) | Behavior control device, behavior control method, and program | |
Chu et al. | A face-to-face neural conversation model | |
Rwelli et al. | Gesture based Arabic sign language recognition for impaired people based on convolution neural network | |
KR102396794B1 (en) | Electronic device and Method for controlling the electronic device thereof | |
CN115187704A (en) | Virtual anchor generation method, device, equipment and storage medium | |
CN111949773A (en) | Reading equipment, server and data processing method | |
Zhen-Tao et al. | Communication atmosphere in humans and robots interaction based on the concept of fuzzy atmosfield generated by emotional states of humans and robots | |
Grassi et al. | Grounding Conversational Robots on Vision Through Dense Captioning and Large Language Models | |
JP6972526B2 (en) | Content providing device, content providing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6166234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |