JP5326843B2 - Emotion estimation device and emotion estimation method - Google Patents
Emotion estimation device and emotion estimation method Download PDFInfo
- Publication number
- JP5326843B2 JP5326843B2 JP2009139815A JP2009139815A JP5326843B2 JP 5326843 B2 JP5326843 B2 JP 5326843B2 JP 2009139815 A JP2009139815 A JP 2009139815A JP 2009139815 A JP2009139815 A JP 2009139815A JP 5326843 B2 JP5326843 B2 JP 5326843B2
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- voice
- event
- vehicle
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、感情推定装置及び感情推定方法に関する。 The present invention relates to an emotion estimation device and an emotion estimation method.
入力される音声信号の音声の強度や音声のテンポ及び音声の抑揚の変化量を求め、当該変化量に基づいて、怒り、悲しみ及び喜びのそれぞれの感情を把握する感情検出装置が知られている(特許文献1)。 2. Description of the Related Art An emotion detection device that obtains the amount of change in the intensity of an input audio signal, the tempo of the audio, and the inflection of the audio and grasps each emotion of anger, sadness, and joy based on the change is known. (Patent Document 1).
しかしながら、従来の感情検出装置は、音声の特徴を示す当該変化量と感情とを関連づけてデータベースに予め保持し、当該データベースを用いて入力される音声の変化量に対応する感情を、その時の感情として検出するため、個人毎の音質に合わせた感情の検出が困難であった。 However, the conventional emotion detection device associates the change amount indicating the feature of the voice with the emotion in advance in the database, and stores the emotion corresponding to the voice change amount input using the database as the emotion at that time. Therefore, it is difficult to detect emotions that match the sound quality of each individual.
そこで本発明は、個人毎で異なる音質に対応し、感情を推定できる感情推定装置を提供する。 Therefore, the present invention provides an emotion estimation device that can estimate emotions corresponding to different sound quality for each individual.
本発明は、車両のイベント毎に操作者の感情を表す感情データがそれぞれ対応づけられている第1のテーブルを予め保持し、音声の特徴と当該感情データが示す感情とが対応づけて第2テーブルに保持し、当該第2テーブルにより感情を推定することによって上記課題を解決する。 In the present invention, a first table in which emotion data representing an operator's emotion is associated with each vehicle event is stored in advance, and the voice feature and the emotion indicated by the emotion data are associated with each other. The above problem is solved by holding the table and estimating the emotion by the second table.
本発明によれば、車両のイベント毎に操作者の感情を表す感情データがそれぞれ対応づけられている第1のテーブルを予め保持し、音声の特徴と前記感情データが示す感情とが対応づけて第2テーブルに保持し、当該第2テーブルにより感情を推定するため、車両のイベントの時に発生される操作者の音声の特徴と、当該車両のイベントに対応する感情データが示す感情とを対応づけて保持し、感情を推定することができ、その結果、個人毎に応じて、感情を推定することができる。 According to the present invention, the first table in which the emotion data representing the operator's emotion is associated with each vehicle event is stored in advance, and the voice feature is associated with the emotion indicated by the emotion data. In order to hold the second table and estimate the emotion based on the second table, the voice characteristics of the operator generated at the time of the vehicle event are associated with the emotion indicated by the emotion data corresponding to the vehicle event. And the emotion can be estimated. As a result, the emotion can be estimated according to each individual.
以下、発明の実施形態を図面に基づいて説明する。 Hereinafter, embodiments of the invention will be described with reference to the drawings.
《第1実施形態》
本発明の感情推定装置を含むナビゲーション装置1を、例えば車両に搭載される場合を例として説明する。図1は、ナビゲーション装置1のブロック図を示す。
<< First Embodiment >>
The
図1に示すナビゲーション装置1は、車両を操作する操作者が発する音声から、当該操作者の感情を推定する感情推定部10と、感情推定部10により推定される感情に応じて、操作者へ音声ガイダンスを出力するための信号を生成するガイダンス応答生成部11と、ガイダンス応答生成部11から送信されるデジタル信号をアナログ信号に変換するD/Aコンバータ12(デジタル/アナログコンバータ)と、当該アナログ信号を増幅するアンプ13とを備える。ナビゲーション装置1は、外部から送信される車両信号を入力し、車両のイベントを検出イベント検出部101と、車両のイベントと「安心」、「不安」、「怒り」等の感情を表す感情データとを対応づけて、データベースとして保持するイベント感情データベース102(以下、イベント感情DBと称す。)と、車両を操作する操作者が発する音声を入力するマイク103と、当該マイクに入力される音声の特徴を抽出する音響特徴量抽出部104と、音声の特徴と感情とを対応づけてデータベースとして保持する音声感情データベース105(以下、音声感情DBと称す。)と、操作者毎に割り当てられるID(Identification)を認識するID認識部106と、感情制御部107とを有する。
The
次に各構成における制御内容を説明する。図2は、各イベントと、ステアリング201の操舵角、アクセル202の開度、ブレーキ203の踏込量及び車両の速度との対応関係を示す図であり、図3は、イベント感情DB102に予め格納されている各イベントと感情との対応関係を示す図であり、図4は、音声感情DB105に格納されている、各感情と音響特徴量のパラメータとの対応関係で、一部未更新の状態の対応関係を示す図であり、図5は、音声感情DB105に格納されている、各感情と音響特徴量のパラメータとの対応関係で、更新済みの状態の対応関係を示す図であり、図6は、ガイダンス生成部11に格納されている、感情と出力される音声ガイダンスとの対応関係を示す図である。
Next, the contents of control in each configuration will be described. FIG. 2 is a diagram showing a correspondence relationship between each event and the steering angle of the
イベント検出部101に入力される車両信号は、車両に備えるステアリング201、アクセル202及びブレーキ203に応じて設定され、イベント検出部101に入力され、イベント検出部101は当該車両信号から車両のイベントを検出する。ここで、イベントは、車両の例えば走行状態や、運転状態、車両の外部環境で起こっている状況を示す。すなわち、車両を制御する図示しないCPU(Central Processing Unit)は、ステアリング201の操舵角、アクセル202のアクセル開度、ブレーキ203の踏み込み量及び車両速度を車両信号としてイベント検出部101に送信する。
The vehicle signal input to the
イベント検出部101は、図2に示すように、車両信号に含まれる、ステアリング201の操舵角、アクセル202の開度、ブレーキ203の踏込量及び車両の速度から車両のイベントを特定する。例えば、ステアリング201の操舵角が45度、アクセル202の開度がオンに相当する、ブレーキ203の踏込量がオフに相当する及び車両の速度が20km/hの場合、イベント検出部101は、車両が急なカーブを低速で走行している状態である、と検出する。また例えば、ステアリング201の操舵角が5度、アクセル202の開度がオンに相当する、ブレーキ203の踏込量がオフに相当する及び車両の速度が20km/hの場合、イベント検出部101は、車両が緩いカーブを低速で走行している状態である、と検出する。また例えば、ステアリング201の操舵角が5度、アクセル202の開度がオンに相当する、ブレーキ203の踏込量がオフに相当する及び車両の速度が80km/hの場合、イベント検出部101は、車両が緩いカーブを高速で走行している状態である、と検出する。なお、図2は、三通りのイベントに対応するステアリング201の操舵角等を示すが、イベントは三通りに限定されない。また本例は、車両のイベントは、必ずしもステアリング201の操舵角、アクセル202の開度、ブレーキ203の踏込量及び車両の速度の全ての要素から抽出する必要はなく、ステアリング201の操舵角、アクセル202の開度、ブレーキ203の踏込量又は車両の速度の少なくとも一つの要素からイベントを抽出することも可能である。
As shown in FIG. 2, the
イベント感情DB102は、図3に示す、車両の各イベントに対応する、感情を表す感情データを示すテーブル(以下、イベント−感情テーブルと称す。)をデータベースとして予め保持している。すなわち、イベント−感情テーブルに含まれる感情データに示される感情は、イベント毎に、予め定義されている。例えば、車両のイベントが低速で急なカーブの状態を示す時、対応する感情は「不安」を示し、車両のイベントが低速で緩いカーブの状態を示す時、対応する感情は「安心」を示し、車両のイベントが高速で緩いカーブの時、対応する感情は「恐怖」を示す。各イベントに対応する感情「不安」、「安心」及び「恐怖」は、車両の操作者が当該イベントの車両の状態で運転している時に通常的に感じている精神状況に応じて、予め設定されている。言い換えると、緩いカーブを高速で走行している時、多くの操作者は、安心した精神状態で運転をしていることはなく、多少の恐怖を感じて運転している。そのため、高速度で緩いカーブを示すイベントには、「恐怖」の感情が割り当てられている。また急なカーブを低速で走行している時、操作者にとって見通しが悪いため、多くの操作者は、不安な精神状態で運転をしている。そのため、低速度で急なカーブを示すイベントには、「不安」の感情が割り当てられている。そして、イベント感情DB102は、イベント検出部101からイベントを含む信号を受信し、図3に示すテーブルから、当該イベントに対応する感情データを抽出し、感情制御部107へ送信する。
The event emotion DB 102 holds in advance as a database a table (hereinafter referred to as an event-emotion table) indicating emotion data representing emotions corresponding to each event of the vehicle shown in FIG. That is, the emotion shown in the emotion data included in the event-emotion table is defined in advance for each event. For example, when the vehicle event shows a slow and steep curve state, the corresponding emotion shows “anxiety”, and when the vehicle event shows a slow and loose curve state, the corresponding emotion shows “safe”. When a vehicle event is a fast and gentle curve, the corresponding emotion shows “fear”. The emotions “anxiety”, “relief”, and “fear” corresponding to each event are set in advance according to the mental condition that the operator of the vehicle usually feels when driving in the vehicle state of the event. Has been. In other words, when driving on a gentle curve at high speed, many operators are not driving in a reassuring mental state and are driving with some fear. Therefore, the event of “fear” is assigned to an event that shows a gentle curve at a high speed. Also, when driving on a sharp curve at a low speed, the operator has a poor outlook, so many operators are driving in an uneasy mental state. For this reason, an anxiety feeling is assigned to an event that shows a sharp curve at a low speed. Then, the event emotion DB 102 receives a signal including the event from the
マイク103は、ある車両の状況下で、操作者が発する音声を検出し、音声信号を音響特徴量抽出部104に送信する。音響特徴量抽出部104は、当該音声信号から音声の特徴を数値により抽出する。音声の特徴は、単位時間当たりの音素のテンポや、声の強度、声の抑揚等がから導き出される。そして、音響特徴量抽出部104は、音素のピッチ(Pitch)や音素の早さ(Speed)や、声の強度(Loudness)、声の抑揚(PitchSlope)を数値(パラメータ)として表し、それぞれの音響特徴値として感情制御部107に送信する。
The
ID認識部106は、予め登録されている操作者のIDを識別し認識する。例えば、車両を始動するためのキー毎に、IDがふられていて、操作者がキーを入力することにより、ID認識部106は当該キーに割り振られているIDを識別する。
The
感情制御部107は、イベント感情DB102から送信される感情データに示される、特定の車両のイベントに対応する感情と、音響特徴量出部104から送信される信号に含まれる特徴量と対応づけて、音声感情DB105に格納する。音声感情DB105は、イベント−感情テーブルに割り当てられている、それぞれの感情と、当該特徴量との対応関係を表すテーブル(以下、感情−特徴量テーブル)を有している。また音声感情DB105は、予め登録さているID毎に、感情−特徴量テーブルを有している。
The
図4及び図5に示すように、感情−特徴量テーブルには、イベント−感情テーブルで定義づけられている感情が、それぞれ割り当てられており、それぞれの感情に対して、音響特徴量が格納される。音響特徴量は、音響特徴量抽出部104で用いたパラメータに対応し、パラメータ毎に格納される。
As shown in FIGS. 4 and 5, emotions defined in the event-emotion table are assigned to the emotion-feature amount table, and acoustic feature amounts are stored for the respective emotions. The The acoustic feature amount corresponds to the parameter used in the acoustic feature
まずイベント感情DB102は、イベント−感情テーブルを参照して、特定の車両イベント時に対応する感情データを抽出し、音響特徴量抽出部104は、当該特定の車両イベント時に操作者が発する音声から特徴を抽出し、感情制御部107に送信する。感情制御部107は、抽出された感情データ及び特徴値を感情−特徴量テーブルに格納する。これにより感情制御部107は、イベント毎に予め割り当てられている、それぞれの感情に対して特徴量を蓄積し、感情−特徴量テーブルに格納する。
First, the
また感情制御部107は、感情−特徴量テーブルに特徴量を格納しつつ、音声の特徴量から当該感情―特徴量テーブルを用いて、操作者の感情を推定する。感情制御部107は、音響特徴量抽出部により抽出される特徴量が入力されると、感情―特徴量テーブルから、当該特徴量に対応する感情を抽出し、当該特徴量を抽出した時の操作者の感情として推定する。そして、感情制御部107は、当該推定される感情を、信号により、ガイダンス応答生成部11に送信する。
In addition, the
ガイダンス応答生成部11は、感情制御部107により推定される感情に応じて、スピーカ204を介して操作者に音声を発するための信号を生成する。図6を参照し、ガイダンス応答性生成部11は、推定される感情に応じて、出力される音声のガイダンステキストと音響特徴量を予め対応づけて定義する。例えば、推定される感情が「通常」の時、ガイダンス生成部11は、ガイダンステキストを「運転うまくなったね。」に、音響特徴量の各パラメータ「Pitch」、「Speed」、「Loudness」及び「PitchSlope」を基準値である100に設定し、信号をD/Aコンバータに送信する。また推定される感情が「不安」の時、ガイダンス生成部11は、ガイダンステキストを「ゆっくり焦らずに行きましょう。」に、音響特徴量の各パラメータ「Pitch」、「Speed」及び「PitchSlope」を基準値である100に、「Loudness」を110に設定し、信号をD/Aコンバータに送信する。感情が「通常」の時と比較して、「Loudness」が高く設定されているため、ガイダンスが、より聞き取り易く、操作者は、落ち着いて運転できる。また推定される感情が「安心」の時、ガイダンス生成部11は、ガイダンステキストを「今日は運転楽しいな」に、音響特徴量の各パラメータ「Pitch」及び「Speed」を110に、「Loudness」を90に、「PitchSlope」を100に設定し、信号をD/Aコンバータに送信する。感情が「通常」の時と比較して、「Pitch」及び「Speed」が高く、「Loudness」が低く設定されているため、ガイダンスは、小さな音かつ短時間で出力される。操作者は、当該ガイダンスを多少聞き取りにくくなるが、操作者は落ち着いている状態のため、引き続き、安全な運転をすることができる。また推定される感情が「恐怖」の時、ガイダンス生成部11は、ガイダンステキストを「ゆっくりあせらず行きましょう。」に、音響特徴量の各パラメータ「Pitch」及び「Speed」を90に、「Loudness」及び「PitchSlope」を110に設定し、信号をD/Aコンバータに送信する。感情が「通常」の時と比較して、「Pitch」及び「Speed」が小さく、「Loudness」及び「PitchSlope」が高く設定されているため、ガイダンスは、大きな音かつ長時間で出力される。操作者は、当該ガイダンスをより聞き取り易くなり、操作者は、落ち着いて運転できる。
The guidance response generation unit 11 generates a signal for emitting a voice to the operator via the
次に、図7及び図8を参照しつつ、本例のナビゲーション装置1の制御手順を説明する。図7は、音声感情DB105に格納さている感情−特徴テーブルを更新するための制御手順のフローチャートを示し、図8は、音声感情DB105に格納さている感情−特徴テーブルを用いて、感情を推定し、操作者に対して音声ガイダンスを出力するための制御手順のフローチャートである。
Next, the control procedure of the
図7を参照して、制御が開始されると、まずステップS1にて、ID認識部106により、操作者のIDを認識する。そして、ステップS2にて、感情制御部107は、音声感情DB105から当該IDが割り当てられている感情−特徴量テーブルを抽出する。
Referring to FIG. 7, when the control is started, first, in step S1, the
次に、音声がマイク103に入力されているか判断し(ステップS3)、音声が入力されると、当該音声から音響特徴量を抽出する(ステップS4)。ここで、ステップS3にて抽出される音響特徴量のパラメ−タについて、例として、「Pitch」をP2、「Speed」をS2、「Loudness」をL2、「PitchSlope」をPS2とする。そして、ステップS5にて、イベント検出部101は、マイク103に当該音声が入力される時の、イベントを検出する。イベントが検出されない場合、ステップS3にて抽出した特徴量から感情を推定する(ステップS10)。ステップS10以降の制御手順は、後述する。
Next, it is determined whether sound is input to the microphone 103 (step S3). When the sound is input, an acoustic feature amount is extracted from the sound (step S4). Here, for example, regarding the parameters of the acoustic feature amount extracted in step S3, “Pitch” is P2, “Speed” is S2, “Loudness” is L2, and “PitchSlope” is PS2. In step S <b> 5, the
一方、ステップS5にて、イベントが検出される場合(ここでは、イベント「緩いカーブ 低速度」が検出された仮定する。)、感情制御部107は、イベント−感情テーブルから(図3を参照)、当該イベント「緩いカーブ 低速度」に対応する感情「安心」を特定し、当該感情を表す感情データを特定する(ステップS6)。次に、感情制御部107は、音声感情DB105に格納され、ステップ2にて抽出された感情−特徴量テーブルを参照し、ステップS4の感情データが示す感情に対応する特徴量がテーブルに格納されているか否かを確認する(ステップ7)。図4に示すように、当該感情「安心」に対応する特徴量が格納されていない場合、感情制御部107は更新すると判断し、ステップS4にて抽出したパラメータを、感情−特徴量テーブルに格納する(ステップS8)。これにより、音声感情DB105の感情−特徴量テーブルが更新される。
On the other hand, when an event is detected in step S5 (here, it is assumed that the event “slow curve low speed” is detected), the
一方、ステップS6にて、当該感情「安心」に対応する特徴量が格納されている場合、ステップS3にて抽出した特徴量から感情を推定する(ステップS10)。ステップS10以降の制御手順は、後述する。 On the other hand, when the feature amount corresponding to the emotion “relief” is stored in step S6, the emotion is estimated from the feature amount extracted in step S3 (step S10). The control procedure after step S10 will be described later.
次に、図8を参照して、上記ステップS10以降である、音響特徴量抽出部104にて、抽出した音響特徴量から、操作者の感情を推定し音声ガイダンスを出力する制御手順を説明する。
Next, with reference to FIG. 8, a control procedure for estimating the emotion of the operator from the extracted acoustic feature amount and outputting voice guidance in the acoustic feature
ステップS10の後、ステップS11にて、感情制御部107は、音声感情DB105に格納される感情−特徴量テーブルを参照する。参照されるイベント−感情テーブルは、ステップS2にて、抽出されたテーブルである。ここで、以下、音響特徴量抽出部104により抽出される特徴量のパラメータについて、「Pitch」をP1、「Speed」をS1、「Loudness」L1、「PitchSlope」をPS1として、説明する。
After step S10, in step S11, the
ステップS12にて、感情制御部107は、感情−特徴量テーブルにより、当該パラメータに対応する感情を特定し、推定する。図5に示すように、「Pitch」P1、「Speed」S1、「Loudness」L1、「PitchSlope」PS1に対応する感情は「不安」であり、感情制御部10は、感情「不安」と推定する。
In step S12, the
次に、感情制御部10は、当該感情「不安」を示す信号をガイダンス応答生成部11に送信し、ガイダンス応答生成部11は、音声ガイダンスを生成する。すなわち、図6に示すように、感情「不安」に対応する音声ガイダンスは、ガイダンステキスト「ゆっくり焦らず行きましょう。」、Pitch100、Speed100、Loudness110、PitchSlope100となる。 Next, the emotion control unit 10 transmits a signal indicating the emotion “anxiety” to the guidance response generation unit 11, and the guidance response generation unit 11 generates voice guidance. That is, as shown in FIG. 6, the voice guidance corresponding to the emotion “anxiety” is the guidance text “Let's go slowly, not Pitch”, Pitch100, Speed100, Loudness110, and PitchSlope100.
そして、ステップS13にて生成される音声ガイダンスが、スピーカ204より出力され(ステップS14)、制御を終了する。 And the voice guidance produced | generated in step S13 is output from the speaker 204 (step S14), and control is complete | finished.
上記のように、本発明は、イベント毎に操作者が感じる感情を定義づける、イベント−感情テーブルを予め保持し、入力される音声の特徴量と感情との対応関係を示す特徴量−感情テーブルを保持する。これにより、車両のイベントから感情を特定し、当該特定される感情毎に、特徴量を示すデータを保持することできる。通常、音声の特徴量には、個人差があり、例えば「恐怖」の状況下において操作者が発する音声は様々である。本例は、感情の違いを車両のイベントにより定義し、感情毎の音声の特徴量を保持するため、個人毎で、特定の感情に対する音響特徴量をテーブルとして保持することができ、さらに、当該テーブルを用いて、操作者の感情を推定することができる、これにより、本例は、個人毎の音質に合わせた感情を推定することができる。従来のように、人の音声を一般化して、音声の特徴量のみから、感情を判断する場合、個人差によって、感情が判断されないおそれがあるが、本例は、予めイベントにより感情を定義づけて、個人毎に、それぞれの感情に応じた特徴量を保持し、データベースとして格納する。そのため、従来に比べて、個人毎の音質に合わせた感情を推定することができる。 As described above, the present invention holds in advance an event-emotion table that defines the emotion felt by the operator for each event, and the feature-emotion table indicating the correspondence between the feature value of the input voice and the emotion. Hold. Thereby, an emotion can be specified from a vehicle event, and data indicating a feature amount can be held for each specified emotion. Usually, there are individual differences in the feature amount of the voice, and for example, the voice uttered by the operator in a situation of “fear” varies. In this example, the difference in emotion is defined by the event of the vehicle, and the audio feature amount for each emotion is held. Therefore, for each individual, the acoustic feature amount for a specific emotion can be held as a table. An operator's emotion can be estimated using a table. Thereby, this example can estimate the emotion according to the sound quality for every individual. As in the past, when a person's voice is generalized and the emotion is judged only from the feature amount of the voice, the emotion may not be judged due to individual differences. In this example, the emotion is defined in advance by an event. Thus, for each individual, a feature amount corresponding to each emotion is held and stored as a database. Therefore, it is possible to estimate an emotion that matches the sound quality of each individual as compared to the conventional case.
また本例は、車両に生じるイベントに対して感情を定義し、イベントが生じた際に操作者が発する音声から特徴量を抽出し、感情と特徴量とを対応づけるため、操作者の声に適したシステムを実現することができる。さらに本例は、操作者特有の感情−特徴量テーブルを形成できるため、車両のイベントに対する操作者の感情にあった、制御を行うことができる。 This example also defines emotions for events that occur in the vehicle, extracts feature values from the voice that the operator utters when the events occur, and associates the emotions with the feature values. A suitable system can be realized. Furthermore, since this example can form an operator-specific emotion-feature amount table, it is possible to perform control that matches the operator's emotion with respect to the vehicle event.
そして、本例において、推定される感情に応じた制御を行うことができるため、例えば、操作者が「不安」に感じている状況下では、情報を操作者対して出力しない等、より安全な車内HMI(Human Machine Interface)を提供することができる。 In this example, since control according to the estimated emotion can be performed, for example, in a situation where the operator feels “anxious”, information is not output to the operator, for example, more secure. An in-vehicle HMI (Human Machine Interface) can be provided.
また本例は、感情−特徴量テーブルにおいて、感情に対する特徴量が当該テーブルに格納されていない場合、当該特徴量を当該テーブルに格納する。これにより、本例は、感情毎で異なる音声の特徴を、感情毎に格納することができ、当該テーブルを利用することで、正確に感情を推定することができる。 Also, in this example, in the emotion-feature amount table, when the feature amount for emotion is not stored in the table, the feature amount is stored in the table. Thereby, this example can store the characteristic of the voice which changes for every emotion for every emotion, and can estimate an emotion correctly by using the said table.
また本発明は、推定される感情に応じて、操作者に対して音声を設定する。これにより、操作者は、例えば「不安」、「恐怖」を感じている状況であっても、当該報知される音声により、気分を落ち着かせることができる。また、本例は、当該報知される音声のメッセージ、抑揚、速さ等を推定される感情に応じて設定するため、操作者が例えば「不安」、「恐怖」を感じ、通常の音声では気づきにくい状況であっても、当該音声を設定することで、より当該音声を聞き取り易くなり、気分を落ち着かせることができる。ゆえに、本例は、安全な車内HMIを提供することができる。 Moreover, this invention sets a voice | voice with respect to an operator according to the estimated emotion. Thereby, even if the operator feels, for example, “anxiety” or “fear”, the operator can calm down by the informed voice. Also, in this example, since the voice message, inflection, speed, etc. to be notified are set according to the estimated emotion, the operator feels "anxiety", "fear", for example, and notices it with normal voice. Even in difficult situations, setting the sound makes it easier to hear the sound and calms you down. Therefore, this example can provide a safe in-vehicle HMI.
また本例は、車両信号により車両のイベントを検出する。これにより、本例は、車両のイベントに応じて感情を予め定義することができる。 In this example, a vehicle event is detected by a vehicle signal. Thereby, this example can predefine an emotion according to the event of a vehicle.
また本例は、ID認識部106を有し、登録されるID毎に感情−特徴量テーブルを用意し、認識されるIDに応じて音声感情DB105から感情−特徴量テーブルを抽出する。これにより、本例は、操作者のID毎に、音声の特徴量をテーブルに格納することができるため、個人毎に、それぞれの感情に応じた特徴量を保持し、データベースとして格納する。そして、個人毎の音質に合わせた感情を推定することができる。
This example also has an
なお、本例は、音声感情DB105に、感情毎の特徴量のデータを複数、蓄積し、当該データを正規化し、感情制御部107は、正規化された感情−特徴量テーブルを参照して、感情を推定することも可能である。以下、当該正規化について、説明する。
In this example, the
まず、音響特徴抽出手段104は、操作者の音声の特徴を数値として抽出し、感情制御部107は、特定のイベントに対応する感情に対して、当該数値のデータを感情−特徴量テーブルに蓄積する。例えば、感情制御部107は、イベント(急なカーブ 低速)の時に発せられる音声の特徴量のデータを、感情「不安」に対応づけて、図5に示す感情−特徴量テーブルに蓄積する。ここで、当該感情−特徴量テーブルには、既に「Pitch」P1、「Speed」S1、「Loudness」L1、「PitchSlope」PS1のデータが格納されているが、既存のデータに追加して、データを格納する。
First, the acoustic
ここで、操作者は同じ感情であっても、発せされる音声の特徴量は、完全に同一にならない。そのため、感情−特徴量テーブルに蓄積される特徴量のデータは、一つの感情の中に、様々な数値を持つ。一方、操作者の音声の特徴量は、それぞれの感情毎に、ある程度の傾向を持つため、感情毎に特徴量の分布が形成される。そのため、本例は、特定の感情(例えば「不安」)において、蓄積されている、それぞれの音響特徴量(Para)と、その平均値(Ave)及び標準偏差(Dev)を利用して、正規化((Para−Ave/Dev))を行う。また他の感情についても、同様に行う。 Here, even if the operator has the same emotion, the feature amount of the uttered voice is not completely the same. Therefore, the feature amount data stored in the emotion-feature amount table has various numerical values in one emotion. On the other hand, since the feature amount of the operator's voice has a certain tendency for each emotion, a distribution of the feature amount is formed for each emotion. Therefore, in this example, in a specific emotion (for example, “anxiety”), each acoustic feature (Para), average value (Ave), and standard deviation (Dev) accumulated therein is used for normalization. ((Para-Ave / Dev)). The same applies to other emotions.
これにより、本例は、感情毎に特徴量の正規化された値を有するテーブルを音声感情DBに格納することができるため、感情毎に、正規化された異なる部分を割り当てることができる。これにより、本例は、感情を推定する際、誤認識の確率を下げることができる。 Thereby, since this example can store the table having the normalized value of the feature amount for each emotion in the voice emotion DB, a different normalized portion can be assigned for each emotion. Thereby, this example can reduce the probability of misrecognition when estimating an emotion.
なお、本例は、推定される感情に応じて、操作者へ伝える音声を設定するが、映像を設定してもよい。例えば、推定される感情が「不安」、「恐怖」等の場合、車内設備であるカーナビゲーションの映像を設定してもよい。また、図3〜6に示すように、本例は、「通常」、「不安」「安心」及び「恐怖」の4通りに感情を分けているが、必ずしも4通りにする必要はなく、2又は3通りでも、4通り以上でもよい。 In this example, the voice to be transmitted to the operator is set according to the estimated emotion, but a video may be set. For example, when the estimated emotion is “anxiety”, “fear” or the like, an image of car navigation as in-vehicle equipment may be set. In addition, as shown in FIGS. 3 to 6, in this example, emotions are divided into four types of “normal”, “anxiety”, “relief”, and “fear”. Or three or four or more may be used.
なお、本例のイベント検出部101は、本発明の「イベント検出手段」に相当し、イベント感情DB102は「イベント感情データ保持手段」に、マイク103は「音声入力手段」に、音響特徴量抽出部104は「音響特徴抽出手段」に、音声感情DB105は「音声感情格納手段」に、感情制御部107は「制御手段」に、ガイダンス応答生成部11及びスピーカ204は「音声出力手段」に相当する。また、本例の感情推定部10は「感情推定装置」に相当し、「感情推定装置」は、ガイダンス応答生成部11を含めてもよい。
The
《第2実施形態》
図9は、発明の他の実施形態に係る感情推定装置を含むナビゲーション装置のブロック図である。本例は上述した第1実施形態に対して、ステアリング201、アクセル202及びブレーキ203の代わりにカメラ301を備える点で異なる。これ以外の構成で上述した第1実施形態と同じ構成は、その記載を適宜、援用する。
<< Second Embodiment >>
FIG. 9 is a block diagram of a navigation device including an emotion estimation device according to another embodiment of the invention. This example is different from the above-described first embodiment in that a
図9を参照し、カメラ301は、車両の外部環境を映すカメラであって、車両の前方を映す前方カメラと、車両の側面の方向を映すサイドカメラと、車両の後方を映すリアカメラを有する。カメラ301の映像信号は、イベント検出部101に入力され、イベント検出部は、当該映像信号より、車両のイベントを検出する。
Referring to FIG. 9, a
次に、図10及び図11を参照して、イベント検出部101によるイベントの検出と、検出されたイベントと感情との対応関係を説明する。図10は、各イベントと、前方カメラの映像、サイドカメラの映像及びリアカメラの映像との対応関係を示す図であり、図11は、イベント感情DB102に格納されている、イベント−感情テーブルを示す。イベント検出部101は、それぞれのカメラに映し出される映像における、切り替わりのタイミングや、映し出される映像の距離感等から車両の状況をイベントして把握する。具体的には、例えば、前方カメラの映像は「対象物なし」、サイドカメラの映像は「近距離に対象物有り」、リアカメラ「近距離に対象物有り」の場合、バック駐車などを想定し、イベント検出部101は、「駐車操作」のイベントである、と検出する。また、前方カメラの映像は「対象物なし」、サイドカメラの映像は「対象物なし」、リアカメラ「対象物なし」の場合、通常の走行を想定し、イベント検出部101は、「通常走行」のイベントである、と検出する。また、前方カメラの映像は「近距離に対象物有り(急激な画像変化)」、サイドカメラの映像は「対象物なし」、リアカメラ「対象物なし」の場合、例えば隣の車線から急激な割り込みがあったと想定し、イベント検出部101は、「割り込み」のイベントである、と検出する。そしてイベント検出部101は、それぞれのイベントに応じた信号をイベント感情DB102へ送信する。
Next, with reference to FIG.10 and FIG.11, the detection of the event by the
イベント感情DB102は、図11に示す、車両の各イベントに対応する、感情を表す感情データを示すテーブルをデータベースとして予め保持している。イベント−感情テーブルに含まれる感情データに示される感情は、イベント毎に応じて、予め定義されている。例えば、車両のイベントが駐車操作の状態を示す時、対応する感情は「不安」を示し、通常運転の状態を示す時、対応する感情は「安心」を示し、割り込みの状態の時、対応する感情は「恐怖」を示す。そして、イベント感情DB102は、イベント検出部101からイベントを含む信号を受信し、図9に示すテーブルから、当該イベントに対応する感情データを抽出し、感情制御部107へ送信する。感情制御部107により行われる制御は、実施の形態1と同様であるため、説明を省略する。
The
上記のように本例の感情推定装置は、カメラの映像情報からイベントを検出するため、駐車支援やサイドビューなどのカメラを利用した車両システムにおいて、操作者の感情を推定することができる。そして、例えば操作者が「不安」に感じて運転をしている状況の場合、操作者に対して情報をしない等の制御を行うことができ、本例は、安全な車内HMIを提供することができる。 As described above, since the emotion estimation device of this example detects an event from video information of a camera, it can estimate an operator's emotion in a vehicle system using a camera such as parking assistance or side view. For example, in the situation where the operator feels anxious and is driving, it is possible to perform control such as not providing information to the operator, and this example provides a safe in-vehicle HMI. Can do.
なお、本例は、イベントを検出するために、ステアリング201、アクセル202及びブレーキ203の代わりにカメラ301を用いたが、両方を備えてもよい。これにより、例えば、車線変更イベントを検出することができ、より多くの車両イベントを検出することができる。
In this example, the
《第3実施形態》
図12は、発明の他の実施形態に係る感情推定装置を含むナビゲーション装置のブロック図である。本例は上述した第1実施形態に対して、対話制御部401を備える点で異なる。これ以外の構成で上述した第1実施形態と同じ構成は、その記載を適宜、援用する。
<< Third Embodiment >>
FIG. 12 is a block diagram of a navigation device including an emotion estimation device according to another embodiment of the invention. This example is different from the above-described first embodiment in that a
図12に示すように、対話制御部401は、マイク103に入力される音声を認識する。そして、操作者が、同じメッセ−ジ何度も繰り返した時、対話制御部401は、繰り返される音声信号を検出する。本例の感情推定装置が、操作者の感情を正確に推定できなかった場合、操作者は、何回も音声を発し、マイクに103へ音声入力が繰り返される。この場合、対話制御部401は、繰り返される音声信号を認識し、操作者の感情が「困る」又は「驚き」であると認識し、当該感情を示す感情データを感情制御部107へ送信する。感情制御部107は、例えば、ガイダンス応答生成部11を介して、「システムが正常に動作されませんでした」等のメッセージを含む音声を操作者に対して、出力する。
As illustrated in FIG. 12, the
これにより、本例は、感情推定装置が正常に操作者の感情を推定できない場合であっても、操作者に対して、心地よい空間を提供できる。 Thereby, this example can provide a comfortable space for the operator even when the emotion estimation apparatus cannot normally estimate the operator's emotion.
なお、本例は、音声が繰り返されることを検出するが、音声の発話内容を検出してもよい。 In addition, although this example detects that the voice is repeated, the utterance content of the voice may be detected.
1…ナビゲーション装置
10…感情推定部
11…ガイダンス応答生成部
12…D/Aコンバータ
13…アンプ
101…検出イベント検出部
102…イベント感情データベース
103…マイク
104…音響特徴量抽出部
105…音声感情データベース
106…ID認識部
107…感情制御部
201…ステアリング
202…アクセル
203…ブレーキ
204…スピーカ
301…カメラ
401…対話制御部
DESCRIPTION OF
Claims (9)
前記車両のイベント毎に操作者の感情を表す感情データがそれぞれ対応づけられている第1テーブルを予め保持するイベント感情データ保持手段と、
前記操作者の音声を入力する音声入力手段と、
前記音声入力手段に入力される音声の特徴を抽出する音響特徴抽出手段と、
前記音声の特徴と前記感情データが示す感情とを対応づけて第2テーブルに保持する音声感情格納手段と、
前記第2テーブルを用いて、前記音声入力手段に入力される音声の特徴から前記操作者の感情を推定する制御手段とを備え、
前記音声入力手段は、特定の車両のイベント時の音声を入力し、
前記音響特徴抽出手段は、前記特定のイベント時の音声の特徴を検出し、
前記制御手段は、
前記第1テーブルから、前記特定の車両のイベントに対応する前記感情データを抽出し、
前記第1テーブルから抽出される感情データが示す感情と前記特定の車両状態における音声の特徴とを対応づけて前記第2テーブルに保持することを特徴とする感情推定装置。 Event detection means for detecting a vehicle event;
Event emotion data holding means for holding in advance a first table in which emotion data representing an operator's emotion is associated with each vehicle event;
Voice input means for inputting the voice of the operator;
Acoustic feature extraction means for extracting features of voice input to the voice input means;
Voice emotion storage means for associating the characteristics of the voice with the emotions indicated by the emotion data and holding them in a second table;
Control means for estimating the operator's emotion from the characteristics of the voice input to the voice input means using the second table;
The voice input means inputs a voice at an event of a specific vehicle,
The acoustic feature extraction means detects a feature of the voice at the specific event,
The control means includes
Extracting the emotion data corresponding to the event of the specific vehicle from the first table,
An emotion estimation apparatus, characterized in that an emotion indicated by emotion data extracted from the first table and a voice characteristic in the specific vehicle state are associated with each other and held in the second table.
前記第1テーブルから抽出される感情データが示す感情と前記特定の車両のイベント時の音声の特徴との対応関係が前記第2テーブルに格納されていない場合、当該対応関係を前記第2テーブルに格納することを特徴とする
請求項1に記載の感情推定装置。 The control means includes
If the correspondence relationship between the emotion indicated by the emotion data extracted from the first table and the voice characteristics at the event of the specific vehicle is not stored in the second table, the correspondence relationship is stored in the second table. The emotion estimation apparatus according to claim 1, wherein the emotion estimation apparatus is stored.
前記制御手段は、
前記感情データが示す感情に対応する前記音声の特徴の数値を前記第2テーブルに蓄積し、
前記第2テーブルに蓄積される数値を正規化し、
前記正規化された数値を有する第2テーブルにより感情を推定することを特徴とする
請求項1又は2に記載の感情推定装置。 The acoustic feature extraction means extracts the voice feature as a numerical value, and the control means
Storing the numerical values of the features of the voice corresponding to the emotion indicated by the emotion data in the second table;
Normalize the numerical values stored in the second table;
The emotion estimation apparatus according to claim 1 or 2, wherein the emotion is estimated by a second table having the normalized numerical values.
前記制御手段は、前記推定する感情に応じて、前記音声出力手段より出力される音声を設定することを特徴とする
請求項1〜3のいずれか1項に記載の感情推定装置。 Voice output means for outputting voice inside the vehicle;
The emotion estimation apparatus according to any one of claims 1 to 3, wherein the control unit sets a voice output from the voice output unit in accordance with the estimated emotion.
前記制御手段は、前記推定する感情に応じて、前記映像出力手段より出力される映像を設定することを特徴とする
請求項1〜3のいずれか1項に記載の感情推定装置。 Video output means for outputting video inside the vehicle,
The emotion estimation apparatus according to any one of claims 1 to 3, wherein the control unit sets a video output from the video output unit in accordance with the estimated emotion.
請求項1〜4のいずれか1項に記載の感情推定装置。 The said event detection means detects the event of the said vehicle by the signal transmitted from at least any one of a steering, an accelerator, a brake, or a camera, The Claim 1 characterized by the above-mentioned. Emotion estimation device.
前記制御手段は、前記ID認識手段で認識されるIDを参照して、前記IDに対応する前記第2テーブルを前記音声感情格納手段から抽出することを特徴とする
請求項1〜6のいずれか1項に記載の感情推定装置。 An ID recognition means for recognizing the operator's ID;
The said control means refers to ID recognized by the said ID recognition means, The said 2nd table corresponding to the said ID is extracted from the said audio | voice emotion storage means, The one of Claims 1-6 The emotion estimation apparatus according to item 1.
前記イベント検出手段は、前記カメラの映像信号より前記車両のイベントを検出することを特徴とする
請求項1〜7のいずれか1項に記載の感情推定装置。 A camera that reflects an external environment of the vehicle;
The emotion estimation apparatus according to claim 1, wherein the event detection unit detects an event of the vehicle from a video signal of the camera.
前記車両のイベントと操作者の感情を示す感情データを対応づける第1のテーブルから、前記車両イベント検出ステップにより検出される車両のイベントに対応する前記感情データを抽出する感情データ抽出ステップと、
前記操作者の音声が入力される音声入力ステップと、
前記音声の特徴を抽出する音響特徴抽出ステップと、
前記感情データ抽出ステップにより抽出される感情データが示す感情と前記音声の特徴を対応づけて第2テーブルに格納するステップと、
前記第2テーブルを用いて、前記音声入力ステップにより入力される音声の特徴から前記操作者の感情を推定する推定ステップとを有し、
前記音声入力ステップは、特定の車両のイベント時の音声を入力し、
前記音響特徴抽出ステップは、前記特定のイベント時の音声の特徴を検出し、
前記推定ステップは、
前記第1テーブルから、前記特定の車両のイベントに対応する前記感情データを抽出し、
前記第1テーブルから抽出される感情データが示す感情と前記特定の車両状態における音声の特徴とを対応づけて前記第2テーブルに保持することを特徴とする感情推定方法。 A vehicle event detection step for detecting a vehicle event;
An emotion data extraction step for extracting the emotion data corresponding to the vehicle event detected by the vehicle event detection step from a first table associating the vehicle event with emotion data indicating an operator's emotion;
A voice input step in which the voice of the operator is input;
An acoustic feature extraction step for extracting the features of the speech;
Associating the emotion indicated by the emotion data extracted by the emotion data extraction step with the characteristics of the voice and storing them in the second table;
Using the second table, the estimation step of estimating the operator's emotion from the characteristics of the voice input by the voice input step,
The voice input step inputs a voice at an event of a specific vehicle,
The acoustic feature extraction step detects a feature of speech at the specific event,
The estimation step includes
Extracting the emotion data corresponding to the event of the specific vehicle from the first table,
An emotion estimation method comprising: associating an emotion indicated by emotion data extracted from the first table with a feature of voice in the specific vehicle state in the second table.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009139815A JP5326843B2 (en) | 2009-06-11 | 2009-06-11 | Emotion estimation device and emotion estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009139815A JP5326843B2 (en) | 2009-06-11 | 2009-06-11 | Emotion estimation device and emotion estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010286627A JP2010286627A (en) | 2010-12-24 |
JP5326843B2 true JP5326843B2 (en) | 2013-10-30 |
Family
ID=43542376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009139815A Expired - Fee Related JP5326843B2 (en) | 2009-06-11 | 2009-06-11 | Emotion estimation device and emotion estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5326843B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002128A1 (en) | 2012-06-25 | 2014-01-03 | 三菱電機株式会社 | On-board information device |
JP6612707B2 (en) * | 2016-09-30 | 2019-11-27 | 本田技研工業株式会社 | Information provision device |
JP6866715B2 (en) * | 2017-03-22 | 2021-04-28 | カシオ計算機株式会社 | Information processing device, emotion recognition method, and program |
WO2020065771A1 (en) * | 2018-09-26 | 2020-04-02 | 三菱電機株式会社 | Speech emotion recognition device and speech emotion recognition method |
JP2020091302A (en) * | 2018-12-03 | 2020-06-11 | 本田技研工業株式会社 | Emotion estimation device, emotion estimation method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09127979A (en) * | 1995-10-30 | 1997-05-16 | Toyota Motor Corp | Voice recognition device for vehicle |
JP4641389B2 (en) * | 2004-06-03 | 2011-03-02 | キヤノン株式会社 | Information processing method and information processing apparatus |
JP4296300B2 (en) * | 2004-12-13 | 2009-07-15 | 独立行政法人電子航法研究所 | Driver utterance voice collection system |
-
2009
- 2009-06-11 JP JP2009139815A patent/JP5326843B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010286627A (en) | 2010-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9230538B2 (en) | Voice recognition device and navigation device | |
CN106796786B (en) | Speech recognition system | |
JP3913771B2 (en) | Voice identification device, voice identification method, and program | |
JP5326843B2 (en) | Emotion estimation device and emotion estimation method | |
JP2006350567A (en) | Interactive system | |
JP2007226642A (en) | Voice recognition equipment controller | |
JP2010128099A (en) | In-vehicle voice information providing system | |
JP5077107B2 (en) | Vehicle drinking detection device and vehicle drinking detection method | |
CN104276037B (en) | Limitation or the method and apparatus for forcing activation vehicle function | |
JP2006227499A (en) | Device for speech recognition | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2018116130A (en) | In-vehicle voice processing unit and in-vehicle voice processing method | |
US11501775B2 (en) | Voice signal control device, voice signal control system, and voice signal control program | |
JP2000338994A (en) | Onboard speech recognition device | |
JP4910563B2 (en) | Voice recognition device | |
JP2008094228A (en) | Call warning device for vehicle | |
JP4604377B2 (en) | Voice recognition device | |
JP2019074498A (en) | Drive supporting device | |
JP2006313287A (en) | Speech dialogue apparatus | |
JP2012121387A (en) | Vehicle interior monitoring device | |
US20230419965A1 (en) | Emotion detection in barge-in analysis | |
JP2008268517A (en) | Operating device with speech recognition function | |
JP7039872B2 (en) | Vehicle travel recording device and viewing device | |
WO2019202351A1 (en) | Device control apparatus, and control method for controlling devices | |
CN111429882A (en) | Method and device for playing voice and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120424 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130708 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |