JP2004317822A - 感情分析・表示装置 - Google Patents
感情分析・表示装置 Download PDFInfo
- Publication number
- JP2004317822A JP2004317822A JP2003112315A JP2003112315A JP2004317822A JP 2004317822 A JP2004317822 A JP 2004317822A JP 2003112315 A JP2003112315 A JP 2003112315A JP 2003112315 A JP2003112315 A JP 2003112315A JP 2004317822 A JP2004317822 A JP 2004317822A
- Authority
- JP
- Japan
- Prior art keywords
- power
- voice
- deviation
- emotion
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】この発明は、PDA等の低スペックなCPUでも容易に情報を得られる音声の音量パワー情報を用い、パワーの変化情報を数値化することで感情認識を行う簡便な感情分析・表示装置を提供することを目的とする。
【解決手段】本発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情・分析装置において、上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示する。
【選択図】 図5
【解決手段】本発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情・分析装置において、上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示する。
【選択図】 図5
Description
【0001】
【発明の属する技術分野】
この発明は、人の音声を分析してその時のその人の感情を表示する感情分析・表示装置に関する。
【0002】
【従来の技術】
人のしゃべる音声には意味内容の他に、感情の情報が加わっている。一般的に音声の認識とは内容の認識であるが、実際には同じ内容の音声であってもニュアンスの違いにより意味合いが異なる場合がある。例えば甘えた声で「いやだ」と表現する場合と、強い口調で「いやだ」という場合は意味合いはほとんど正反対と言える。従って音声に含まれる感情の認識はマンマシン対話インターフェースにおいても非常に重要と言える。
【0003】
人は、意味内容が分からなくても喋っている声の調子で「興奮していそうだ」とか「落ち込んでいそうだ」などの感情の状態がある程度推測できる。このことから、言語理解を伴わなくとも、音響情報の機械処理で同様な感情の推測が可能であると考えられる。
【0004】
音声からの感情検出手法はこれまでいくつかの提案がある。そのほとんどは、以下のような方法をもとにしている。
(a)音声の平均音量と、平均と全体の差分(あるいは偏差)
(b)ピッチ(基本周波数)平均と、平均と全体の差分(あるいは偏差)
(c)ポーズ区間(無音区間)の出現タイミング
【0005】
しかしながら、(a)は単なる大声と抑揚の大きい音声(興奮した音声)との差は捉えられない。(b)は安定した精度のよいピッチ解析手法はまだ確立されておらず、さらにピッチ抽出はFFTなどの大量の計算を伴うため,低スペックのCPUでは実現できない。(c) は話速抽出として補助的に用いられる程度で感情検出には有効なものではない。
【0006】
このように、感情認識はいくつかの先行研究が行われているが、そのほとんどは音量での判定、ピッチでの判定である。しかし音量はマイクとの位置関係に大きく左右され、また、ピッチ判定には上記のようにピッチ解析が必要であり、低スペックCPUでは解析が困難である。すなわち、ピッチの変化を抽出するのは手間がかかり、PDA等では実時間処理が困難である。また、ノイズに弱く、感情認識を行う場合は音声情報を得る環境が悪いことが多いので、誤りが多い欠点がある。
【0007】
【特許文献1】
特開2002−215183号公報
【特許文献2】
特開2002−91482号公報
【特許文献3】
特開平9−22296号公報
【0008】
【発明が解決しようとする課題】
この発明は、PDA等の低スペックなCPUでも容易に情報を得られる音声の音量パワー情報を用い、該パワーの変化情報を数値化することで感情認識を行う簡便な感情分析・表示装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記問題を解決するために、本願発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情分析・表示装置において、
上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間の音量のパワー差分を求めることにより、その人の感情を分析し、表示することを特徴とする。
【0010】
さらに、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示することを特徴とする。
【0011】
さらにまた、前記音声の分析が、有声音区間を抽出し、該有声音に対して行われることを特徴とする。
【0012】
上記本発明では、以下の特徴がある。
(a)サンプリングされた音声は256サンプルを1単位(1フレーム)とし、フレームごとの音量を感情分析の単位とする。
(b)隣接フレーム間での音量の差分(デルタ)を感情分析のパラメータの一つとする。
(c)全フレームの音量平均と偏差、デルタ平均と偏差をパラメータとし、感情分析を行う。これらにより、低スペックのCPUでも実装できる上、大声はデルタ偏差が小さくなる一方、興奮した抑揚のある声はデルタ偏差が大きくなる傾向を用いることで、より精度の高い感情分析を行うことが出来る。
【0013】
【発明の実施の形態】
本願発明をより詳細に説明するために、添付の図面に従ってこれを説明する。
まず、本発明の原理を説明する。
【0014】
この発明において、音声の音量パワー情報を用いて感情を認識するために用いる情報は、全区間のパワー平均とパワー偏差、正規化したパワー偏差である。
Nフレーム位置の区間パワーPN は以下で求められる。但しW(k) は窓関数、A(k) は時刻kにおける音声データ列Aの値(パワー)である。
【0015】
【数1】
【0016】
全区間の平均パワーは、フレーム数をLとすると、
【0017】
【数2】
【0018】
また、全区間の偏差を求めると
【0019】
【数3】
【0020】
これを平均パワーで正規化する。
【0021】
【数4】
【0022】
なお、上記正規化する理由は以下のとおりである。
すなわち、話者とマイクの位置により、音声のパワーは大きく変化する。しかし、人間が聞いた場合には「遠くで興奮している声」と「近くで普通の声」は区別できる。人間は感情の分析を音声パワーのみに依存していないのである。
【0023】
従って、音声の感情分析は、音声パワーに依存しないよう、パワー偏差や後述するデルタ平均・デルタ偏差はパワー平均による除算を行い、基準を一定にする必要がある。
【0024】
実際の音声を適用し、評価を行うと、以下のごとくなる。
図7は、普通の口調で『あーどうも、こんちわ』と喋った場合の音声波形(a) 、パワー変化(b) を示している。(c) は後述するデルタパワー変化である。これは、表1の音声Aである。同様に、図8は、弱気な口調で『ちょっとじょうだんじゃないよー』と喋った場合の音声波形(a) 、パワー変化(b) を示している。これは表1の音声Cである。(c) も後述するデルタパワー変化である。
【0025】
このような音声に対する評価結果を、表1に示す。音声FとGは、同じ口調でマイクとの距離を変えた場合である。
【0026】
【表1】
【0027】
なお、表1における具体的な音声のセリフは以下のごときものである。
A.あーども、こんにちは(普通)
B.おがたです(大声)
C.おーい、おーい(大声)
D.ちょっとじょうだんじゃないよ(弱気)
E.お、お、お、おいおいまってくれよ(興奮)
F.なんでだよ、どうしてだよ(興奮・近くで)
G.なんでだよ、どうしてだよ(興奮・遠くから)
H.はーあもうやんなっちゃう(弱気)
【0028】
パワー平均で区別すると、大声である音声BとCは共に興奮と認識されてしまう。しかし、実際は大声だからといって、必ずしも「興奮」とは限らない。また、大声か、それとも人の口とマイクとの距離が近いかの区別ができない。正規化パワー偏差では音声Aと音声Dの数値が近く、Aは普通に話しDは弱気に話しているが分離が難しい。また、音声GとHも正規化パワー偏差では数値が近い傾向があり、Gは興奮しておりHは弱気で話しているのに両者を識別できない。
【0029】
従ってパワー平均とパワー偏差だけでは感情認識の情報としては足りないことが分かる。
上記のように、音声のパワー平均や偏差では感情認識のための情報量が足りないので、本発明は音量のパワー変化に注目し、フレーム間での該パワー差分の絶対値を求め、これらの平均と偏差を感情認識のパラメータに以下の如く追加している。
【0030】
フレーム間パワー差分(以下,デルタパワーという。)は、以下のように絶対値で求める。
【0031】
【数5】
【0032】
デルタパワーの平均と偏差、正規化した偏差は同様に、
【0033】
【数6】
【0034】
【数7】
【0035】
【数8】
【0036】
となる。
以下、上記本発明の実施例について、具体的手順を追って説明する。
(1)図1に示すように、入力音声1はサンプリング周波数8kHzでサンプリング・データを抽出する。なお、サンプリング周波数はこれ以外も可能であるが、その際には後述する判断パラメータも変更する必要がある。
(2)次に、図2に示すように、上記サンプリング・データを256サンプリングを1単位=1フレームとして、各フレーム2内の総パワー(総和)を算出する。この際、予め求めておいたゼロ基準値からの絶対値で総和を計算する。このフレームパワーが、分析処理の基本単位となる。
【0037】
ここで、256サンプリングを1単位とするのは、以下の理由による。
すなわち、後述するように低スペックCPUは整数演算となるので、低スペックCPUにて演算を行う際に2の累乗を1単位とするのは一般的である。また、音声の分析においては20〜50ミリ秒が妥当とされており、両者をふまえて256サンプリングを1単位とする。これは、上記8kHzサンプリングの場合には32ミリ秒に相当する。
【0038】
(3)次に、図3に示すように、順次フレームパワー・データをバッファーに格納し、パワー値が音声開始基準値を一定区間超えたらば、有声区間3の開始とし、パワー値が音声終了基準値を一定区間下回ったら、有声区間の終了とし、これらの区間を有声区間として、感情分析を行う。
【0039】
(4)図4に示すように、有声区間に対し、隣り合うフレーム間のパワー差(絶対値)を求める。これをデルタパワー(△P)と呼ぶ。
(5)図5に示すように、パワーとデルタパワーの区間平均値と偏差を求める。
(6)最後に、図6に示すように、パワー平均、デルタパワー平均、パワー偏差、デルタパワー偏差の解析結果4をもとに、あらかじめ作成してある統計情報5と比較して、感情状態を判定する。
【0040】
判定には、概ね、以下の傾向がある:
強い興奮:
パワー平均:大 パワー偏差:大 △P偏差:大
興奮:
パワー平均:中 パワー偏差:中 △P偏差:大
弱気:
パワー平均:小 △P偏差:小
小声:パワー平均:小
大声:パワー平均:大 △P偏差:中
【0041】
これらは、一般に興奮すると声が大きくなると共に語気がきつくなり、きれがよくなることで、音量と共に音量の変化量(微分値)が大きくなっていると推測される。すなわち、興奮した音声は語気が強くなるが、この際にパワー変化を観察すると小→大、あるいは大→小の変化は急激であり、かつ、頻度も高い。
【0042】
これらのパラメータを基にいくつかの音声の分析結果を表2に示す。なお、表1と表2のA〜Hは同じ標本データを示し、表2には、表1に対応したA〜Hの音声のパワー偏差、デルタパワーの平均、偏差を記載する。
【0043】
【表2】
【0044】
表2において、音声AとDの正規化デルタパワー平均と正規化デルタパワー偏差(11と13,12と14)は大きく離れており、弱気な調子の音声を判断することができる。音声GとHも正規化デルタパワー平均、正規化デルタパワー偏差両方の数値(15と17,16と18)は離れており、分離が容易になる。
【0045】
全体的に、パワー平均を排除し、正規化したパワー偏差・デルタパワー平均・デルタパワー偏差を用いることで感情を正確に分析できる。
このようにして、音声感情分析のために必要なパラメータを提案し、表3のように閾値を設定し感情認識を行う。
【0046】
【表3】
【0047】
この発明は,小型感情分析プログラムを搭載したワンチップマイコンボード(STボード)として具現される。該STボードは、マイクから音声を拾い、該音声をマイコンが分析して音声に含まれる感情要因を判断し、結果を4段階(強い興奮、興奮、平静、弱気)に識別して出力する。
【0048】
この発明は,前記のようにワンチップマイコン等の非力なCPU、少ないメモリでの動作を前提にしており、このことにより電池駆動のおもちゃや携帯電話などに組み込むことが可能である。
【0049】
なお、この発明でいう低スペックCPUとは、以下のものである。
すなわち、低スペックとはクロック周波数100MHz程度以下、DSPなどの高速演算回路を持たないCPUを指している。この場合,実数演算はきわめて遅く、整数演算に頼らなければならない。逆にいえば、高スペックCPUは、高速な浮動小数点演算回路を持ち、クロック周波数も500MHz以上で整数演算よりも実数演算を高速に行うことができるCPUのことである。FFT処理など一般的な音声処理に用いる技術は大量の実数演算を前提としているため、この低スペックCPUでは実時間内での処理は不可能である。本発明は、整数演算のみで実装が可能であり、実際の実装結果も良好である。
【0050】
【発明の効果】
以上述べたように、この発明の感情分析・表示装置は、パワー情報そのものを認識に不要としたことで、マイクとの位置関係やボリュームへの依存を減少させることができる。
【0051】
そして、正規化デルタパワー平均と正規化デルタパワー偏差をパラメータとして用いることにより、音量に拘わらず、その音声を発する人の「興奮」か、「弱気」か、の識別が簡便にできるようになった。
【0052】
また、上記感情状態の分析は、ピッチ抽出等に比べ、ノイズに対する誤動作が少ないと共に、複雑な処理を必要としないのでPDA等の低スペックのCPUで実現でき、安価で簡便な感情認識装置が実現できる。
【図面の簡単な説明】
【図1】本発明の感情分析・表示装置の入力音声を示す図である。
【図2】図1のフレーム解析を示す図である。
【図3】図2における有声音区間検出を示す図である。
【図4】デルタパワーの計算過程を示す図である。
【図5】パワーとデルタパワーの偏差を求める過程を示す図である。
【図6】感情状態の判定過程を示す図である。
【図7】普通の口調で喋った標本音声の例を示す図である。
【図8】弱気の口調で喋った標本音声の例を示す図である。
【符号の簡単な説明】
1 入力音声
2 フレーム
3 有声音区間
4 解析結果
5 統計情報
【発明の属する技術分野】
この発明は、人の音声を分析してその時のその人の感情を表示する感情分析・表示装置に関する。
【0002】
【従来の技術】
人のしゃべる音声には意味内容の他に、感情の情報が加わっている。一般的に音声の認識とは内容の認識であるが、実際には同じ内容の音声であってもニュアンスの違いにより意味合いが異なる場合がある。例えば甘えた声で「いやだ」と表現する場合と、強い口調で「いやだ」という場合は意味合いはほとんど正反対と言える。従って音声に含まれる感情の認識はマンマシン対話インターフェースにおいても非常に重要と言える。
【0003】
人は、意味内容が分からなくても喋っている声の調子で「興奮していそうだ」とか「落ち込んでいそうだ」などの感情の状態がある程度推測できる。このことから、言語理解を伴わなくとも、音響情報の機械処理で同様な感情の推測が可能であると考えられる。
【0004】
音声からの感情検出手法はこれまでいくつかの提案がある。そのほとんどは、以下のような方法をもとにしている。
(a)音声の平均音量と、平均と全体の差分(あるいは偏差)
(b)ピッチ(基本周波数)平均と、平均と全体の差分(あるいは偏差)
(c)ポーズ区間(無音区間)の出現タイミング
【0005】
しかしながら、(a)は単なる大声と抑揚の大きい音声(興奮した音声)との差は捉えられない。(b)は安定した精度のよいピッチ解析手法はまだ確立されておらず、さらにピッチ抽出はFFTなどの大量の計算を伴うため,低スペックのCPUでは実現できない。(c) は話速抽出として補助的に用いられる程度で感情検出には有効なものではない。
【0006】
このように、感情認識はいくつかの先行研究が行われているが、そのほとんどは音量での判定、ピッチでの判定である。しかし音量はマイクとの位置関係に大きく左右され、また、ピッチ判定には上記のようにピッチ解析が必要であり、低スペックCPUでは解析が困難である。すなわち、ピッチの変化を抽出するのは手間がかかり、PDA等では実時間処理が困難である。また、ノイズに弱く、感情認識を行う場合は音声情報を得る環境が悪いことが多いので、誤りが多い欠点がある。
【0007】
【特許文献1】
特開2002−215183号公報
【特許文献2】
特開2002−91482号公報
【特許文献3】
特開平9−22296号公報
【0008】
【発明が解決しようとする課題】
この発明は、PDA等の低スペックなCPUでも容易に情報を得られる音声の音量パワー情報を用い、該パワーの変化情報を数値化することで感情認識を行う簡便な感情分析・表示装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記問題を解決するために、本願発明の感情分析・表示装置は、人の音声を分析してその人の感情を表示する感情分析・表示装置において、
上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間の音量のパワー差分を求めることにより、その人の感情を分析し、表示することを特徴とする。
【0010】
さらに、上記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示することを特徴とする。
【0011】
さらにまた、前記音声の分析が、有声音区間を抽出し、該有声音に対して行われることを特徴とする。
【0012】
上記本発明では、以下の特徴がある。
(a)サンプリングされた音声は256サンプルを1単位(1フレーム)とし、フレームごとの音量を感情分析の単位とする。
(b)隣接フレーム間での音量の差分(デルタ)を感情分析のパラメータの一つとする。
(c)全フレームの音量平均と偏差、デルタ平均と偏差をパラメータとし、感情分析を行う。これらにより、低スペックのCPUでも実装できる上、大声はデルタ偏差が小さくなる一方、興奮した抑揚のある声はデルタ偏差が大きくなる傾向を用いることで、より精度の高い感情分析を行うことが出来る。
【0013】
【発明の実施の形態】
本願発明をより詳細に説明するために、添付の図面に従ってこれを説明する。
まず、本発明の原理を説明する。
【0014】
この発明において、音声の音量パワー情報を用いて感情を認識するために用いる情報は、全区間のパワー平均とパワー偏差、正規化したパワー偏差である。
Nフレーム位置の区間パワーPN は以下で求められる。但しW(k) は窓関数、A(k) は時刻kにおける音声データ列Aの値(パワー)である。
【0015】
【数1】
【0016】
全区間の平均パワーは、フレーム数をLとすると、
【0017】
【数2】
【0018】
また、全区間の偏差を求めると
【0019】
【数3】
【0020】
これを平均パワーで正規化する。
【0021】
【数4】
【0022】
なお、上記正規化する理由は以下のとおりである。
すなわち、話者とマイクの位置により、音声のパワーは大きく変化する。しかし、人間が聞いた場合には「遠くで興奮している声」と「近くで普通の声」は区別できる。人間は感情の分析を音声パワーのみに依存していないのである。
【0023】
従って、音声の感情分析は、音声パワーに依存しないよう、パワー偏差や後述するデルタ平均・デルタ偏差はパワー平均による除算を行い、基準を一定にする必要がある。
【0024】
実際の音声を適用し、評価を行うと、以下のごとくなる。
図7は、普通の口調で『あーどうも、こんちわ』と喋った場合の音声波形(a) 、パワー変化(b) を示している。(c) は後述するデルタパワー変化である。これは、表1の音声Aである。同様に、図8は、弱気な口調で『ちょっとじょうだんじゃないよー』と喋った場合の音声波形(a) 、パワー変化(b) を示している。これは表1の音声Cである。(c) も後述するデルタパワー変化である。
【0025】
このような音声に対する評価結果を、表1に示す。音声FとGは、同じ口調でマイクとの距離を変えた場合である。
【0026】
【表1】
【0027】
なお、表1における具体的な音声のセリフは以下のごときものである。
A.あーども、こんにちは(普通)
B.おがたです(大声)
C.おーい、おーい(大声)
D.ちょっとじょうだんじゃないよ(弱気)
E.お、お、お、おいおいまってくれよ(興奮)
F.なんでだよ、どうしてだよ(興奮・近くで)
G.なんでだよ、どうしてだよ(興奮・遠くから)
H.はーあもうやんなっちゃう(弱気)
【0028】
パワー平均で区別すると、大声である音声BとCは共に興奮と認識されてしまう。しかし、実際は大声だからといって、必ずしも「興奮」とは限らない。また、大声か、それとも人の口とマイクとの距離が近いかの区別ができない。正規化パワー偏差では音声Aと音声Dの数値が近く、Aは普通に話しDは弱気に話しているが分離が難しい。また、音声GとHも正規化パワー偏差では数値が近い傾向があり、Gは興奮しておりHは弱気で話しているのに両者を識別できない。
【0029】
従ってパワー平均とパワー偏差だけでは感情認識の情報としては足りないことが分かる。
上記のように、音声のパワー平均や偏差では感情認識のための情報量が足りないので、本発明は音量のパワー変化に注目し、フレーム間での該パワー差分の絶対値を求め、これらの平均と偏差を感情認識のパラメータに以下の如く追加している。
【0030】
フレーム間パワー差分(以下,デルタパワーという。)は、以下のように絶対値で求める。
【0031】
【数5】
【0032】
デルタパワーの平均と偏差、正規化した偏差は同様に、
【0033】
【数6】
【0034】
【数7】
【0035】
【数8】
【0036】
となる。
以下、上記本発明の実施例について、具体的手順を追って説明する。
(1)図1に示すように、入力音声1はサンプリング周波数8kHzでサンプリング・データを抽出する。なお、サンプリング周波数はこれ以外も可能であるが、その際には後述する判断パラメータも変更する必要がある。
(2)次に、図2に示すように、上記サンプリング・データを256サンプリングを1単位=1フレームとして、各フレーム2内の総パワー(総和)を算出する。この際、予め求めておいたゼロ基準値からの絶対値で総和を計算する。このフレームパワーが、分析処理の基本単位となる。
【0037】
ここで、256サンプリングを1単位とするのは、以下の理由による。
すなわち、後述するように低スペックCPUは整数演算となるので、低スペックCPUにて演算を行う際に2の累乗を1単位とするのは一般的である。また、音声の分析においては20〜50ミリ秒が妥当とされており、両者をふまえて256サンプリングを1単位とする。これは、上記8kHzサンプリングの場合には32ミリ秒に相当する。
【0038】
(3)次に、図3に示すように、順次フレームパワー・データをバッファーに格納し、パワー値が音声開始基準値を一定区間超えたらば、有声区間3の開始とし、パワー値が音声終了基準値を一定区間下回ったら、有声区間の終了とし、これらの区間を有声区間として、感情分析を行う。
【0039】
(4)図4に示すように、有声区間に対し、隣り合うフレーム間のパワー差(絶対値)を求める。これをデルタパワー(△P)と呼ぶ。
(5)図5に示すように、パワーとデルタパワーの区間平均値と偏差を求める。
(6)最後に、図6に示すように、パワー平均、デルタパワー平均、パワー偏差、デルタパワー偏差の解析結果4をもとに、あらかじめ作成してある統計情報5と比較して、感情状態を判定する。
【0040】
判定には、概ね、以下の傾向がある:
強い興奮:
パワー平均:大 パワー偏差:大 △P偏差:大
興奮:
パワー平均:中 パワー偏差:中 △P偏差:大
弱気:
パワー平均:小 △P偏差:小
小声:パワー平均:小
大声:パワー平均:大 △P偏差:中
【0041】
これらは、一般に興奮すると声が大きくなると共に語気がきつくなり、きれがよくなることで、音量と共に音量の変化量(微分値)が大きくなっていると推測される。すなわち、興奮した音声は語気が強くなるが、この際にパワー変化を観察すると小→大、あるいは大→小の変化は急激であり、かつ、頻度も高い。
【0042】
これらのパラメータを基にいくつかの音声の分析結果を表2に示す。なお、表1と表2のA〜Hは同じ標本データを示し、表2には、表1に対応したA〜Hの音声のパワー偏差、デルタパワーの平均、偏差を記載する。
【0043】
【表2】
【0044】
表2において、音声AとDの正規化デルタパワー平均と正規化デルタパワー偏差(11と13,12と14)は大きく離れており、弱気な調子の音声を判断することができる。音声GとHも正規化デルタパワー平均、正規化デルタパワー偏差両方の数値(15と17,16と18)は離れており、分離が容易になる。
【0045】
全体的に、パワー平均を排除し、正規化したパワー偏差・デルタパワー平均・デルタパワー偏差を用いることで感情を正確に分析できる。
このようにして、音声感情分析のために必要なパラメータを提案し、表3のように閾値を設定し感情認識を行う。
【0046】
【表3】
【0047】
この発明は,小型感情分析プログラムを搭載したワンチップマイコンボード(STボード)として具現される。該STボードは、マイクから音声を拾い、該音声をマイコンが分析して音声に含まれる感情要因を判断し、結果を4段階(強い興奮、興奮、平静、弱気)に識別して出力する。
【0048】
この発明は,前記のようにワンチップマイコン等の非力なCPU、少ないメモリでの動作を前提にしており、このことにより電池駆動のおもちゃや携帯電話などに組み込むことが可能である。
【0049】
なお、この発明でいう低スペックCPUとは、以下のものである。
すなわち、低スペックとはクロック周波数100MHz程度以下、DSPなどの高速演算回路を持たないCPUを指している。この場合,実数演算はきわめて遅く、整数演算に頼らなければならない。逆にいえば、高スペックCPUは、高速な浮動小数点演算回路を持ち、クロック周波数も500MHz以上で整数演算よりも実数演算を高速に行うことができるCPUのことである。FFT処理など一般的な音声処理に用いる技術は大量の実数演算を前提としているため、この低スペックCPUでは実時間内での処理は不可能である。本発明は、整数演算のみで実装が可能であり、実際の実装結果も良好である。
【0050】
【発明の効果】
以上述べたように、この発明の感情分析・表示装置は、パワー情報そのものを認識に不要としたことで、マイクとの位置関係やボリュームへの依存を減少させることができる。
【0051】
そして、正規化デルタパワー平均と正規化デルタパワー偏差をパラメータとして用いることにより、音量に拘わらず、その音声を発する人の「興奮」か、「弱気」か、の識別が簡便にできるようになった。
【0052】
また、上記感情状態の分析は、ピッチ抽出等に比べ、ノイズに対する誤動作が少ないと共に、複雑な処理を必要としないのでPDA等の低スペックのCPUで実現でき、安価で簡便な感情認識装置が実現できる。
【図面の簡単な説明】
【図1】本発明の感情分析・表示装置の入力音声を示す図である。
【図2】図1のフレーム解析を示す図である。
【図3】図2における有声音区間検出を示す図である。
【図4】デルタパワーの計算過程を示す図である。
【図5】パワーとデルタパワーの偏差を求める過程を示す図である。
【図6】感情状態の判定過程を示す図である。
【図7】普通の口調で喋った標本音声の例を示す図である。
【図8】弱気の口調で喋った標本音声の例を示す図である。
【符号の簡単な説明】
1 入力音声
2 フレーム
3 有声音区間
4 解析結果
5 統計情報
Claims (3)
- 人の音声を分析してその人の感情を表示する感情分析・表示装置において、
上記音声を所定のフレーム毎に時系列に分離し、上記時系列のフレーム間の音量のパワー差分を求めることにより、その人の感情を分析し、表示することを特徴とする感情分析・表示装置。 - 前記時系列のフレーム間のパワー偏差、パワー差分の平均値及びパワー差分の偏差を求めることにより、その人の感情を分析し、表示することを特徴とする前記請求項1記載の感情分析・表示装置。
- 前記音声の分析が、有声音区間を抽出し、該有声音に対して行われることを特徴とする前記請求項1または2記載の感情分析・表示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003112315A JP2004317822A (ja) | 2003-04-17 | 2003-04-17 | 感情分析・表示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003112315A JP2004317822A (ja) | 2003-04-17 | 2003-04-17 | 感情分析・表示装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004317822A true JP2004317822A (ja) | 2004-11-11 |
Family
ID=33472556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003112315A Pending JP2004317822A (ja) | 2003-04-17 | 2003-04-17 | 感情分析・表示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004317822A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219016A (ja) * | 2006-02-14 | 2007-08-30 | Seiko Instruments Inc | 音楽練習支援機器 |
JP2008076904A (ja) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情の判別方法、感情判別装置、雰囲気情報通信端末 |
JP2012168296A (ja) * | 2011-02-10 | 2012-09-06 | Fujitsu Ltd | 音声による抑圧状態検出装置およびプログラム |
US9020820B2 (en) | 2011-06-30 | 2015-04-28 | Fujitsu Limited | State detecting apparatus, communication apparatus, and storage medium storing state detecting program |
WO2015105994A1 (en) * | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
WO2017138376A1 (ja) * | 2016-02-09 | 2017-08-17 | Pst株式会社 | 推定方法、推定プログラム、推定装置および推定システム |
-
2003
- 2003-04-17 JP JP2003112315A patent/JP2004317822A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219016A (ja) * | 2006-02-14 | 2007-08-30 | Seiko Instruments Inc | 音楽練習支援機器 |
JP4520952B2 (ja) * | 2006-02-14 | 2010-08-11 | セイコーインスツル株式会社 | 音楽練習支援機器 |
JP2008076904A (ja) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情の判別方法、感情判別装置、雰囲気情報通信端末 |
JP2012168296A (ja) * | 2011-02-10 | 2012-09-06 | Fujitsu Ltd | 音声による抑圧状態検出装置およびプログラム |
US8935168B2 (en) | 2011-02-10 | 2015-01-13 | Fujitsu Limited | State detecting device and storage medium storing a state detecting program |
US9020820B2 (en) | 2011-06-30 | 2015-04-28 | Fujitsu Limited | State detecting apparatus, communication apparatus, and storage medium storing state detecting program |
US10645224B2 (en) | 2014-01-08 | 2020-05-05 | Callminer, Inc. | System and method of categorizing communications |
US9413891B2 (en) | 2014-01-08 | 2016-08-09 | Callminer, Inc. | Real-time conversational analytics facility |
US10313520B2 (en) | 2014-01-08 | 2019-06-04 | Callminer, Inc. | Real-time compliance monitoring facility |
US10582056B2 (en) | 2014-01-08 | 2020-03-03 | Callminer, Inc. | Communication channel customer journey |
US10601992B2 (en) | 2014-01-08 | 2020-03-24 | Callminer, Inc. | Contact center agent coaching tool |
WO2015105994A1 (en) * | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
US10992807B2 (en) | 2014-01-08 | 2021-04-27 | Callminer, Inc. | System and method for searching content using acoustic characteristics |
US11277516B2 (en) | 2014-01-08 | 2022-03-15 | Callminer, Inc. | System and method for AB testing based on communication content |
WO2017138376A1 (ja) * | 2016-02-09 | 2017-08-17 | Pst株式会社 | 推定方法、推定プログラム、推定装置および推定システム |
US11147487B2 (en) | 2016-02-09 | 2021-10-19 | Pst Corporation, Inc. | Estimation method, estimation program, estimation device, and estimation system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI590228B (zh) | 語音控制系統、電子裝置及語音控制方法 | |
CN100587806C (zh) | 语音识别方法和语音识别装置 | |
WO2017088364A1 (zh) | 动态选择语音模型的语音识别方法及装置 | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
US8473282B2 (en) | Sound processing device and program | |
WO2006132159A1 (ja) | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム | |
JP2005244968A (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
JPH10133693A (ja) | 音声認識装置 | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
JP3611223B2 (ja) | 音声認識装置及び方法 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
TWI299855B (en) | Detection method for voice activity endpoint | |
JP2004317822A (ja) | 感情分析・表示装置 | |
Grewal et al. | Isolated word recognition system for English language | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
JP2000029486A (ja) | 音声認識システムおよび方法 | |
JP2000250593A (ja) | 話者認識装置及び方法 | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 | |
Sudhakar et al. | Automatic speech segmentation to improve speech synthesis performance | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2012155301A (ja) | 状況認知型音声認識方法 | |
JP2004341340A (ja) | 話者認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090707 |