JP2004317822A

JP2004317822A - 感情分析・表示装置

Info

Publication number: JP2004317822A
Application number: JP2003112315A
Authority: JP
Inventors: Kaoru Ogata; 薫尾形; Kokichi Tanihira; 耕吉谷平
Original assignee: AGI KK
Current assignee: AGI KK
Priority date: 2003-04-17
Filing date: 2003-04-17
Publication date: 2004-11-11

Abstract

【課題】この発明は、ＰＤＡ等の低スペックなＣＰＵでも容易に情報を得られる音声の音量パワー情報を用い、パワーの変化情報を数値化することで感情認識を行う簡便な感情分析・表示装置を提供することを目的とする。
【解決手段】本発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情・分析装置において、上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示する。
【選択図】図５

Description

【０００１】
【発明の属する技術分野】
この発明は、人の音声を分析してその時のその人の感情を表示する感情分析・表示装置に関する。
【０００２】
【従来の技術】
人のしゃべる音声には意味内容の他に、感情の情報が加わっている。一般的に音声の認識とは内容の認識であるが、実際には同じ内容の音声であってもニュアンスの違いにより意味合いが異なる場合がある。例えば甘えた声で「いやだ」と表現する場合と、強い口調で「いやだ」という場合は意味合いはほとんど正反対と言える。従って音声に含まれる感情の認識はマンマシン対話インターフェースにおいても非常に重要と言える。
【０００３】
人は、意味内容が分からなくても喋っている声の調子で「興奮していそうだ」とか「落ち込んでいそうだ」などの感情の状態がある程度推測できる。このことから、言語理解を伴わなくとも、音響情報の機械処理で同様な感情の推測が可能であると考えられる。
【０００４】
音声からの感情検出手法はこれまでいくつかの提案がある。そのほとんどは、以下のような方法をもとにしている。
（ａ）音声の平均音量と、平均と全体の差分（あるいは偏差）
（ｂ）ピッチ（基本周波数）平均と、平均と全体の差分（あるいは偏差）
（ｃ）ポーズ区間（無音区間）の出現タイミング
【０００５】
しかしながら、（ａ）は単なる大声と抑揚の大きい音声（興奮した音声）との差は捉えられない。（ｂ）は安定した精度のよいピッチ解析手法はまだ確立されておらず、さらにピッチ抽出はＦＦＴなどの大量の計算を伴うため，低スペックのＣＰＵでは実現できない。（ｃ）は話速抽出として補助的に用いられる程度で感情検出には有効なものではない。
【０００６】
このように、感情認識はいくつかの先行研究が行われているが、そのほとんどは音量での判定、ピッチでの判定である。しかし音量はマイクとの位置関係に大きく左右され、また、ピッチ判定には上記のようにピッチ解析が必要であり、低スペックＣＰＵでは解析が困難である。すなわち、ピッチの変化を抽出するのは手間がかかり、ＰＤＡ等では実時間処理が困難である。また、ノイズに弱く、感情認識を行う場合は音声情報を得る環境が悪いことが多いので、誤りが多い欠点がある。
【０００７】
【特許文献１】
特開２００２−２１５１８３号公報
【特許文献２】
特開２００２−９１４８２号公報
【特許文献３】
特開平９−２２２９６号公報
【０００８】
【発明が解決しようとする課題】
この発明は、ＰＤＡ等の低スペックなＣＰＵでも容易に情報を得られる音声の音量パワー情報を用い、該パワーの変化情報を数値化することで感情認識を行う簡便な感情分析・表示装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
上記問題を解決するために、本願発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情分析・表示装置において、
上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間の音量のパワー差分を求めることにより、その人の感情を分析し、表示することを特徴とする。
【００１０】
さらに、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示することを特徴とする。
【００１１】
さらにまた、前記音声の分析が、有声音区間を抽出し、該有声音に対して行われることを特徴とする。
【００１２】
上記本発明では、以下の特徴がある。
（ａ）サンプリングされた音声は２５６サンプルを１単位（１フレーム）とし、フレームごとの音量を感情分析の単位とする。
（ｂ）隣接フレーム間での音量の差分（デルタ）を感情分析のパラメータの一つとする。
（ｃ）全フレームの音量平均と偏差、デルタ平均と偏差をパラメータとし、感情分析を行う。これらにより、低スペックのＣＰＵでも実装できる上、大声はデルタ偏差が小さくなる一方、興奮した抑揚のある声はデルタ偏差が大きくなる傾向を用いることで、より精度の高い感情分析を行うことが出来る。
【００１３】
【発明の実施の形態】
本願発明をより詳細に説明するために、添付の図面に従ってこれを説明する。
まず、本発明の原理を説明する。
【００１４】
この発明において、音声の音量パワー情報を用いて感情を認識するために用いる情報は、全区間のパワー平均とパワー偏差、正規化したパワー偏差である。
Ｎフレーム位置の区間パワーＰ_Ｎは以下で求められる。但しＷ（ｋ）は窓関数、Ａ（ｋ）は時刻ｋにおける音声データ列Ａの値（パワー）である。
【００１５】
【数１】

【００１６】
全区間の平均パワーは、フレーム数をＬとすると、
【００１７】
【数２】

【００１８】
また、全区間の偏差を求めると
【００１９】
【数３】

【００２０】
これを平均パワーで正規化する。
【００２１】
【数４】

【００２２】
なお、上記正規化する理由は以下のとおりである。
すなわち、話者とマイクの位置により、音声のパワーは大きく変化する。しかし、人間が聞いた場合には「遠くで興奮している声」と「近くで普通の声」は区別できる。人間は感情の分析を音声パワーのみに依存していないのである。
【００２３】
従って、音声の感情分析は、音声パワーに依存しないよう、パワー偏差や後述するデルタ平均・デルタ偏差はパワー平均による除算を行い、基準を一定にする必要がある。
【００２４】
実際の音声を適用し、評価を行うと、以下のごとくなる。
図７は、普通の口調で『あーどうも、こんちわ』と喋った場合の音声波形（ａ）、パワー変化（ｂ）を示している。（ｃ）は後述するデルタパワー変化である。これは、表１の音声Ａである。同様に、図８は、弱気な口調で『ちょっとじょうだんじゃないよー』と喋った場合の音声波形（ａ）、パワー変化（ｂ）を示している。これは表１の音声Ｃである。（ｃ）も後述するデルタパワー変化である。
【００２５】
このような音声に対する評価結果を、表１に示す。音声ＦとＧは、同じ口調でマイクとの距離を変えた場合である。
【００２６】
【表１】

【００２７】
なお、表１における具体的な音声のセリフは以下のごときものである。
Ａ．あーども、こんにちは（普通）
Ｂ．おがたです（大声）
Ｃ．おーい、おーい（大声）
Ｄ．ちょっとじょうだんじゃないよ（弱気）
Ｅ．お、お、お、おいおいまってくれよ（興奮）
Ｆ．なんでだよ、どうしてだよ（興奮・近くで）
Ｇ．なんでだよ、どうしてだよ（興奮・遠くから）
Ｈ．はーあもうやんなっちゃう（弱気）
【００２８】
パワー平均で区別すると、大声である音声ＢとＣは共に興奮と認識されてしまう。しかし、実際は大声だからといって、必ずしも「興奮」とは限らない。また、大声か、それとも人の口とマイクとの距離が近いかの区別ができない。正規化パワー偏差では音声Ａと音声Ｄの数値が近く、Ａは普通に話しＤは弱気に話しているが分離が難しい。また、音声ＧとＨも正規化パワー偏差では数値が近い傾向があり、Ｇは興奮しておりＨは弱気で話しているのに両者を識別できない。
【００２９】
従ってパワー平均とパワー偏差だけでは感情認識の情報としては足りないことが分かる。
上記のように、音声のパワー平均や偏差では感情認識のための情報量が足りないので、本発明は音量のパワー変化に注目し、フレーム間での該パワー差分の絶対値を求め、これらの平均と偏差を感情認識のパラメータに以下の如く追加している。
【００３０】
フレーム間パワー差分（以下，デルタパワーという。）は、以下のように絶対値で求める。
【００３１】
【数５】

【００３２】
デルタパワーの平均と偏差、正規化した偏差は同様に、
【００３３】
【数６】

【００３４】
【数７】

【００３５】
【数８】

【００３６】
となる。
以下、上記本発明の実施例について、具体的手順を追って説明する。
（１）図１に示すように、入力音声１はサンプリング周波数８ｋＨｚでサンプリング・データを抽出する。なお、サンプリング周波数はこれ以外も可能であるが、その際には後述する判断パラメータも変更する必要がある。
（２）次に、図２に示すように、上記サンプリング・データを２５６サンプリングを１単位＝１フレームとして、各フレーム２内の総パワー（総和）を算出する。この際、予め求めておいたゼロ基準値からの絶対値で総和を計算する。このフレームパワーが、分析処理の基本単位となる。
【００３７】
ここで、２５６サンプリングを１単位とするのは、以下の理由による。
すなわち、後述するように低スペックＣＰＵは整数演算となるので、低スペックＣＰＵにて演算を行う際に２の累乗を１単位とするのは一般的である。また、音声の分析においては２０〜５０ミリ秒が妥当とされており、両者をふまえて２５６サンプリングを１単位とする。これは、上記８ｋＨｚサンプリングの場合には３２ミリ秒に相当する。
【００３８】
（３）次に、図３に示すように、順次フレームパワー・データをバッファーに格納し、パワー値が音声開始基準値を一定区間超えたらば、有声区間３の開始とし、パワー値が音声終了基準値を一定区間下回ったら、有声区間の終了とし、これらの区間を有声区間として、感情分析を行う。
【００３９】
（４）図４に示すように、有声区間に対し、隣り合うフレーム間のパワー差（絶対値）を求める。これをデルタパワー（△Ｐ）と呼ぶ。
（５）図５に示すように、パワーとデルタパワーの区間平均値と偏差を求める。
（６）最後に、図６に示すように、パワー平均、デルタパワー平均、パワー偏差、デルタパワー偏差の解析結果４をもとに、あらかじめ作成してある統計情報５と比較して、感情状態を判定する。
【００４０】
判定には、概ね、以下の傾向がある：
強い興奮：
パワー平均：大パワー偏差：大 △Ｐ偏差：大
興奮：
パワー平均：中パワー偏差：中 △Ｐ偏差：大
弱気：
パワー平均：小 △Ｐ偏差：小
小声：パワー平均：小
大声：パワー平均：大 △Ｐ偏差：中
【００４１】
これらは、一般に興奮すると声が大きくなると共に語気がきつくなり、きれがよくなることで、音量と共に音量の変化量（微分値）が大きくなっていると推測される。すなわち、興奮した音声は語気が強くなるが、この際にパワー変化を観察すると小→大、あるいは大→小の変化は急激であり、かつ、頻度も高い。
【００４２】
これらのパラメータを基にいくつかの音声の分析結果を表２に示す。なお、表１と表２のＡ〜Ｈは同じ標本データを示し、表２には、表１に対応したＡ〜Ｈの音声のパワー偏差、デルタパワーの平均、偏差を記載する。
【００４３】
【表２】

【００４４】
表２において、音声ＡとＤの正規化デルタパワー平均と正規化デルタパワー偏差（１１と１３，１２と１４）は大きく離れており、弱気な調子の音声を判断することができる。音声ＧとＨも正規化デルタパワー平均、正規化デルタパワー偏差両方の数値（１５と１７，１６と１８）は離れており、分離が容易になる。
【００４５】
全体的に、パワー平均を排除し、正規化したパワー偏差・デルタパワー平均・デルタパワー偏差を用いることで感情を正確に分析できる。
このようにして、音声感情分析のために必要なパラメータを提案し、表３のように閾値を設定し感情認識を行う。
【００４６】
【表３】

【００４７】
この発明は，小型感情分析プログラムを搭載したワンチップマイコンボード（ＳＴボード）として具現される。該ＳＴボードは、マイクから音声を拾い、該音声をマイコンが分析して音声に含まれる感情要因を判断し、結果を４段階（強い興奮、興奮、平静、弱気）に識別して出力する。
【００４８】
この発明は，前記のようにワンチップマイコン等の非力なＣＰＵ、少ないメモリでの動作を前提にしており、このことにより電池駆動のおもちゃや携帯電話などに組み込むことが可能である。
【００４９】
なお、この発明でいう低スペックＣＰＵとは、以下のものである。
すなわち、低スペックとはクロック周波数１００ＭＨｚ程度以下、ＤＳＰなどの高速演算回路を持たないＣＰＵを指している。この場合，実数演算はきわめて遅く、整数演算に頼らなければならない。逆にいえば、高スペックＣＰＵは、高速な浮動小数点演算回路を持ち、クロック周波数も５００ＭＨｚ以上で整数演算よりも実数演算を高速に行うことができるＣＰＵのことである。ＦＦＴ処理など一般的な音声処理に用いる技術は大量の実数演算を前提としているため、この低スペックＣＰＵでは実時間内での処理は不可能である。本発明は、整数演算のみで実装が可能であり、実際の実装結果も良好である。
【００５０】
【発明の効果】
以上述べたように、この発明の感情分析・表示装置は、パワー情報そのものを認識に不要としたことで、マイクとの位置関係やボリュームへの依存を減少させることができる。
【００５１】
そして、正規化デルタパワー平均と正規化デルタパワー偏差をパラメータとして用いることにより、音量に拘わらず、その音声を発する人の「興奮」か、「弱気」か、の識別が簡便にできるようになった。
【００５２】
また、上記感情状態の分析は、ピッチ抽出等に比べ、ノイズに対する誤動作が少ないと共に、複雑な処理を必要としないのでＰＤＡ等の低スペックのＣＰＵで実現でき、安価で簡便な感情認識装置が実現できる。
【図面の簡単な説明】
【図１】本発明の感情分析・表示装置の入力音声を示す図である。
【図２】図１のフレーム解析を示す図である。
【図３】図２における有声音区間検出を示す図である。
【図４】デルタパワーの計算過程を示す図である。
【図５】パワーとデルタパワーの偏差を求める過程を示す図である。
【図６】感情状態の判定過程を示す図である。
【図７】普通の口調で喋った標本音声の例を示す図である。
【図８】弱気の口調で喋った標本音声の例を示す図である。
【符号の簡単な説明】
１入力音声
２フレーム
３有声音区間
４解析結果
５統計情報

Claims

人の音声を分析してその人の感情を表示する感情分析・表示装置において、
上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間の音量のパワー差分を求めることにより、その人の感情を分析し、表示することを特徴とする感情分析・表示装置。
前記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示することを特徴とする前記請求項１記載の感情分析・表示装置。
前記音声の分析が、有声音区間を抽出し、該有声音に対して行われることを特徴とする前記請求項１または２記載の感情分析・表示装置。