JP2018180334A

JP2018180334A - 感情認識装置、方法およびプログラム

Info

Publication number: JP2018180334A
Application number: JP2017080653A
Authority: JP
Inventors: 藤本　敦; Atsushi Fujimoto; 敦藤本; 亜紗美中島; Asami Nakajima; 奈緒程島; Nao Hodoshima
Original assignee: Tokai University; Iwatsu Electric Co Ltd
Current assignee: Tokai University; Iwatsu Electric Co Ltd
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2018-11-15

Abstract

【課題】音声信号から発話時の感情を高精度かつ高信頼度で認識できるようにすること。
【解決手段】自己相関処理部20は、セグメント化部10で分解されたセグメントについての規格化後自己相関信号を出力する。特徴量抽出部40は、１以上のセグメントを含む数10ms〜数100msの期間を分析フレームとして、規格化後自己相関信号および音声強度測定部30から分析フレームについての特徴量を抽出する。パターン識別・感情認識部50は、事前学習において取得済みの特徴量抽出部40により抽出された特徴量と感情との相関に基づいて音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する。
【選択図】図１

Description

本発明は、感情認識装置、方法およびプログラムに関し、特に、音声信号から発話時の感情を高精度かつ高信頼度で認識できるようにした感情認識装置、方法およびプログラムに関する。

音声信号から発話時の感情を認識するためには、音声信号から感情の指標となる特徴量を抽出することが必要である。

特許文献１には、音声情報から、音声速度、音声ピッチ周波数、音声情報の音量、音声情報の音声スペクトルを検出し、それらを音声情報に付随する感性情報とする手法が記載されている。

特許文献２には、音声信号に由来する特徴として、音声信号の強度、ピッチを抽出し、それらの時系列データの平均値、最大値、最小値のような統計的な代表値から感情を認識する手法が記載されている。

特許文献３には、入力音声信号の振幅包絡を抽出し、その周期的変動の周波数を求め、それが予め定められた範囲内にある場合に、力んだ状態での発話であると推定する手法が記載されている。また、特許文献３には、音韻という短い単位で、怒り強度を検出することも記載されている。

特許文献４には、音声信号データから、分析フレームごとに、基本周波数、基本周波数の時間変動特性、振幅のｒｍｓ値、振幅のｒｍｓ値の時間変動特性、パワー、パワーの時間変動特性、音声速度、音声速度の時間変動特性を音声特徴量として抽出し、音声信号データについての感情を推定する手法が記載されている。

特開平９−２２２９６号公報特開２００３−９９０８４号公報特開２００９−３１６２号公報特開２００８−２０４１９３号公報

音声の高さ、音声強度(パワー)、音声速度(発話速度)などの韻律的情報は、感情を伝達するためだけでなく、言語的情報を伝達するためにも使用される。例えば、日本語では基本周波数の高低のアクセントで同音異義語を区別する。したがって、音声信号からの感情の認識には、言語的情報としての韻律変化と区別し、感情表現としての韻律変化から感情を認識することが必要となる。また、音声信号からは、発話時の感情をできるだけ反映している特徴量を抽出することが望ましい。

特許文献１記載の手法は、発話あるいはフレーズ単位で、音声の高さ(基本周波数)、音声強度、音声速度などの韻律的特徴を抽出し、その韻律的特徴から音声情報全体についての特徴、例えば、「声が高い」、「声が大きい」などを判断して音声情報に付随する感性を認識するものであり、感情表現としての韻律変化と言語的情報としての韻律変化を区別しないので、誤認識が生じやすいという課題がある。また、この手法では、早口/声が高い/声が低いなどといった、音声の個人差に起因する韻律的特徴のばらつきにより誤認識が生じやすいという課題もある。

特許文献２記載の手法は、発話あるいはフレーズ単位で、音声強度および基本周波数の時系列データを求め、時系列データの平均値、最大値、最小値のような統計的な代表値から感情を認識するものであり、特許文献１記載の手法と同様の課題がある。また、この手法では、発話の時間長、発話の途中でのポーズの有無やその深さによる影響を受けやすいので、安定して精度よく感情を認識することが困難である。

特許文献３記載の手法は、力んだ状態での発話やその怒り強度を推定するものであり、ここでも感情表現としての韻律変化と言語的情報としての韻律変化を区別しないので、特許文献１記載の手法と同様の課題がある。特許文献３には、音韻という短い単位で怒り強度を検出することも記載されているが、その手法は、力んだ状態での発話と推定された音声信号について、音韻ごとの発話時の力みやすさを示す力み音声発生指標から怒りの強度を決定するというもので、その力み音声発生指標は、子音、母音、アクセント句中の位置、アクセント核からの相対的位置などの音韻の属性情報から発話時の力みやすさを求めるための規則を用いて計算される。

言語的情報を区別し、さらに、個人差による韻律情報のばらつきも考慮して、韻律的特徴に基づいて感情を認識するために、統計モデルを用いることが考えられるが、その統計モデルの構築には大量の学習データが必要となり、また、学習においては感情ラベルを付けることが必要となる。そのため、実際には、音声データに加えて、画像データや生体データなどを同時に取得し、例えば、画像データや生体データから感情ラベルを生成し、その感情ラベルで機械的に学習を進め、間違えたデータについては人手で確認するなどといった操作を行うことが必要となる。

特許文献４記載の手法では、分析フレームごとに、音声特徴量を抽出して感情を推定するが、ここに示されている音声特徴量は、音声の基本周波数、振幅、パワー、音声速度といったものである。

特許文献１〜３などにみられるように、発話やフレーズ単位で感情を認識する場合の特徴量については、多くの文献で議論されているが、分析フレーム単位で感情を認識する場合の特徴量については、特許文献４などの少数の文献で議論されているに過ぎない。

また、特許文献４に開示されている特徴量は、音声の基本周波数、振幅、パワー、音声速度といった、特許文献１〜３のものと同様である。このように、発話やフレーズの時間長よりも十分に短い分析フレーム単位で感情を認識する場合に有効な特徴量については、まだ十分に議論されていない。

図２９および図３０は、基本周波数および音声強度の時系列データから求めたフレーズごとの統計的な代表値(平均値、最大値、最小値など)の一例を示す図であり、同図は、発話あるいはフレーズ単位での特徴量と分析フレーム単位での特徴量の関係をみるために示している。

図２９において、フレーズにおける基本周波数の平均値は160Hzであり、時間が0.32秒のときに最大値200Hz、時間が0.77秒のときに最小値80Hzである。また、基本周波数が表示されていない期間は、無声音(声帯振動を伴わない音)であるか、音声強度が低いか、あるいは卓越する周波数成分がないため、基本周波数が抽出できない期間である。

統計的代表値を用いて感情を認識する従来の手法では、基本周波数については、その最大値、最小値、平均値などを使用しており、図２９の例では、最大値とレンジ(最大値と最小値の差分)が大きく、平均値が低くないので、感情は"怒り"や"驚き"などと認識される。

一方、分析フレーム単位で基本周波数の特徴量を抽出すると、基本周波数は、大部分の時間帯で典型的な範囲内の値をとり、その傾きは、通常よりも傾きが大きくなる時間帯が多い。

また、聴感上では、"ふざけるな"とか"いいかげんにしろよ"と怒って叫ぶ場面を想定すると、"ふ"、"ざ"、"け"、"る"、"な"の各音の中にも、"い"、"い"、"か"、"げ"、"ん"、"に"、"し"、"ろ"、"よ"の各音の中にも怒りの感情が含まれていると考えられる。当然、荒げた音声からは音声強度が大きいという特徴が抽出されるが、大きな音量でもやさしい感じの発話もある。したがって、音声強度以外の何らかの形で怒りの感情が表現されていると考えられる。

以上のように、発話やフレーズの時間長よりも十分に短い分析フレームにおいては、音声信号の基本周波数、音声強度、振幅、発話速度などの統計的な代表値以外の何らかの特徴により感情が伝達されていると考えられる。

ところで、分析フレームにおける音声の情報は、人間が知覚することのできないことが多い位相情報を除けば、自己相関関数もしくはパワースペクトルにより完全に記述できる。そこで、自己相関関数をモデルパラメータで記述し、モデルパラメータと感情の相関関係を統計モデル化することにより、音声信号についての発話時の感情を高精度かつ高信頼度で認識できると考えられる。

本発明は、上記課題を解決し、音声信号から発話時の感情を高精度かつ高信頼度でよく認識できる感情認識装置、方法およびプログラムを提供することを目的とする。

本発明では、上記した考察から、音声信号をセグメントに分解し、セグメントについての自己相関関数の低周波成分を生成し、数10ms〜数100msの分析フレームとして、前記低周波成分から、分析フレームごとに、感情に関連する特徴量を抽出し、さらに、複数の分析フレームにおける特徴量から音声信号についての感情を認識するようにしている。

上記課題を解決するため、本発明は、入力される音声信号から発話時の感情を認識するための感情認識装置であって、音声信号をセグメントに分解するセグメント化手段と、前記セグメントの各々についての音声信号の音声強度を測定してセグメントについての音声強度信号を出力する音声強度測定手段と、前記セグメントの各々についての自己相関関数を計算してセグメントについての自己相関信号を出力する自己相関計算手段と、前記自己相関信号からピッチ情報を抽出してセグメントについてのフィルタ後自己相関信号を出力するフィルタ手段と、前記フィルタ後自己相関信号の大きさを前記音声強度信号により規格化してセグメントについての規格化後自己相関信号を出力する規格化手段と、１以上のセグメントを含む数10ms〜数100msの期間を分析フレームとして、前記規格化後自己相関信号および前記音声強度信号から分析フレームについての特徴量を抽出して順次出力する特徴量抽出手段と、前記特徴量と感情との相関に基づいて前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力するパターン識別・感情認識手段を備えることを特徴としている。

前記パターン識別・感情認識手段は、前記特徴量と感情との相関値を分析フレームについてのパターン識別信号として出力するパターン識別手段と、前記パターン識別信号を保持するパターン記憶手段と、前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列における分析フレームについての特徴量と感情との相関から感情を認識し、その認識結果の感情ラベルを出力する感情認識手段により構成することができる

また、パターン識別・感情認識手段は、前記パターン識別・感情認識手段は、前記特徴量を各分析フレームについてのパターン識別信号として出力するパターン識別手段と、前記パターン識別信号を保持するパターン記憶手段と、前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情との相関、あるいは該発生頻度分布における最多のパターン識別信号または重要なパターン識別信号と感情との相関から前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する感情認識手段により構成することができる。

ここで、前記音声強度測定手段が、前記音声信号が所定閾値以下となる無音期間を検出して無音検出信号を出力し、前記パターン識別・感情認識手段は、前記無音検出信号が出力されるタイミングで感情を認識し、その認識結果の感情ラベルを出力することも好ましい。

また、フィルタ手段が、カットオフ周波数が500Hzから800Hzの範囲内のローパスフィルタであることも好ましい。

さらに、前記規格化後自己相関信号から分析フレームごとに母音を検出する母音検出手段を備え、前記パターン識別・感情認識手段は、前記母音検出手段により母音が検出された分析フレームに対してのみ感情の認識処理を実行することも好ましい。

また、前記特徴量抽出手段が、複数の異なる時間長の分析フレームについての特徴量をそれぞれ抽出し、前記パターン識別・感情認識手段は、得られたすべての特徴量と感情との相関に基づく感情の認識処理を実行し、これにより認識結果の感情ラベルを出力することも好ましい。

さらに、前記特徴量抽出手段により抽出された特徴量を入力として複数分析フレームについての特徴量を抽出する長期特徴量抽出手段を備え、前記パターン識別・感情認識手段は、前記特徴量抽出手段および長期特徴量抽出手段により抽出されたすべての特徴量と感情との相関に基づく感情の認識処理を実行し、これにより認識結果の感情ラベルを出力することも好ましい。

なお、本発明は、感情認識装置としてだけでなく、感情認識方法や感情認識用プログラムとしても実現することができる。

本発明によれば、音声信号をセグメントに分解し、各セグメントについての自己相関関数の低周波成分を生成し、該低周波成分から感情に関連する特徴量を抽出し、該特徴量から数10ms〜数100msの分析フレームについての特徴量を抽出し、さらに、複数の分析フレームにおける特徴量から感情を認識するので、音声の情報を正しく反映した特徴量を抽出することができ、それを元にして音声信号についての発話時の感情を高精度かつ高信頼度で安定して認識できる。

本発明の感情認識装置の実施形態を総括的に示すブロック図である。セグメント化部における動作の一例を示す図である。音声強度測定部の構成の一例を示すブロック図である。特徴量抽出部の構成の一例を示すブロック図である。帯域制限なしの場合の自己相関信号の波形を示す図である。帯域制限ありの場合の自己相関信号の波形を示す図である。正弦波信号のピーク値の変化が短時間に観測される場合の一例を示す図である。正弦波信号のピーク値の変化が長時間にわたって継続的に観測される場合の一例を示す図である。パターン識別・感情認識部での感情認識処理のイメージを示す図である。本発明の感情認識装置の第１の実施形態を示すブロック図である。パターン記憶部が保持するパターン識別信号系列の一具体例を示す図である。感情認識部の動作の一例を示すフローチャートである。本発明の感情認識装置の第２の実施形態を示すブロック図である。パターン識別信号系列におけるパターン識別信号の発生頻度分布を用いて感情を認識する場合の感情認識部の動作の例を示すフローチャートである。パターン識別信号系列におけるパターン識別信号をグループ分けしてから感情を認識する場合の説明図である。感情認識部に与えられるパターン識別信号系列の一具体例を示す図である。本発明の感情認識装置の第３の実施形態を示すブロック図である。母音検出部の構成の一例を示すブロック図である。第３の実施形態においてパターン識別用の統計モデルを使用する場合のブロック構成を示す図である。第３の実施形態において感情認識用の統計モデルを使用する場合のブロック構成を示す図である。本発明の感情認識装置の第４の実施形態を示すブロック図である。第４の実施形態において複数の分析フレーム長で、特徴量の抽出および感情の認識を並行して行う場合の特徴量抽出部のブロック構成を示す図である。第４の実施形態においてパターン識別用の統計モデルを使用する場合のブロック構成を示す図である。第４の実施形態において感情認識用の統計モデルを使用する場合のブロック構成を示す図である。本発明の感情認識装置の第５の実施形態を示すブロック図である。第５の実施形態において複数の分析フレーム長で、特徴量の抽出および感情の認識を行う場合の長期特徴量抽出部の内部ブロック構成を示す図である。第５の実施形態においてパターン識別用の統計モデルを使用する場合のブロック構成を示す図である。第５の実施形態において感情認識用の統計モデルを使用する場合のブロック構成を示す図である。基本周波数の時系列データから求めたフレーズごとの統計的な代表値の一例を示す図である。音声強度の時系列データから求めたフレーズごとの統計的な代表値の一例を示す図である。

以下、図面を参照して本発明を説明する。

以下では、本発明を感情認識装置として実現した場合について説明するが、本発明は、感情認識方法や感情認識用プログラムとしても実現することができる。

図１は、本発明の感情認識装置の実施形態を総括的に示すブロック図である。

本実施形態の感情認識装置は、セグメント化部10、自己相関処理部20、音声強度測定部30、特徴量抽出部40およびパターン識別・感情認識部50を備える。なお、これらの各部は、ハードウエアあるいはソフトウエアのいずれで構成されてもよい。

発話時の感情を認識するために入力される音声信号は、任意のレート、例えば16kspsでサンプリングされ、任意の精度、例えば16bitで量子化されたデジタル信号である。

セグメント化部10は、入力される音声信号を時間軸上で所定時間ごとに切り出してセグメント化を行う。このセグメント化では、音声信号からセグメントを単に順次切り出すのではなく、例えば、図２に示すように、時間的にオーバラップさせながら切り出すのが好ましい。

図２は、時間的に前後と10msだけオーバラップした30msの期間の音声信号から中央部分の10msの音声信号を切り出してセグメント化を行うことを示している。ここでのセグメント長は10msである。セグメント長は、10ms程度が好ましいが、数10ms程度でもよい。また、図２には、セグメントと分析フレームとの関係も示している。図２は、分析フレームが５個のセグメントからなる例であるが、分析フレームは１以上のセグメントを含めばよい。後述するように、分析フレーム単位で音声特徴量の抽出を行う。

また、後述するように、音声特徴量の検出精度を高めるために複数の時間長の異なる分析フレームを同時に使用することもできる。すなわち、短時間の分析フレームを用いて抽出した音声特徴量と長時間の分析フレームを用いて抽出した音声特徴量を併用することで音声特徴量の精度を高めてもよい。
分析フレームについては、後で詳細に説明する。

なお、セグメント長は、音声信号から感情を認識する場合、スペクトル構造が明瞭な母音のみを分析に使用することが好ましいこと、子音が分析に混入すると認識精度が劣化するので分析への子音の混入の影響を抑えることが好ましいこと、子音には継続時間の短いものがあること、長いセグメント長は分析フレーム内での子音を含むセグメントの比率の増大をもたらし、それにより分析フレームにおける特徴量への子音の影響が大きくなる可能性があること、などを考慮して設定すればよい。

なお、子音区間ではスペクトルが白色化して正弦波成分が存在しないので、これを分析に含めると誤判定の原因となるが、後述するように母音検出を追加することで、分析への子音混入の発生確率を低下させ、これに起因する誤判定も減らすことができる。なお、詳細は後述するが、母音の自己相関信号のゼロクロス数はピッチ周波数と関係することから、例えばピッチ周波数800Hz相当以上のゼロクロスが検出された場合には、子音あるいはノイズの混入が疑われるので、このような場合には特徴量の抽出を停止することが好ましい。

自己相関処理部20は、自己相関計算部21、フィルタ処理部22および規格化部23を備える。自己相関計算部21は、例えば、５つの連続するセグメントの音声信号を入力とし、各セグメントについての自己相関関数を計算し、自己相関信号をフィルタ処理部22へ出力する。５つの連続するセグメントの音声信号をパラレルに自己相関計算部21へ入力してもよい。

自己相関関数の計算では、パワースペクトルを計算し、それを逆フーリエ変換する手法などを用いれば、計算量を削減できる。パワースペクトルの計算では、予め時間窓処理を行うことも知られており、これによれば、パワースペクトルを計算する時の時間窓の形状にもよるが、ほぼ50Hz以上の周波数成分を反映した自己相関信号を得ることができる。

フィルタ処理部22は、自己相関計算部21から出力される自己相関信号を入力とし、低域フィルタ処理を行ってLPF後自己相関信号を生成し、それを規格化部23へ出力する。音声信号が有するフォルマント情報は言語情報と関連性が大きく、感情は、主にピッチ情報により伝達されるので、ここでは、低域通過フィルタ処理を行ってピッチ情報を抽出する。フィルタ処理部でのフィルタのカットオフ周波数は、例えば、500Hz〜800Hzとしてもよい。

規格化部23は、フィルタ処理部22から出力されるセグメントについてのLPF後自己相関信号および音声強度測定部30から出力されるセグメントについての音声強度信号を入力とし、LPF後自己相関信号を音声強度信号により規格化して規格化後自己相関信号を生成し、それを特徴量抽出部40へ出力する。規格化後自己相関信号は、フィルタ処理部22での帯域制限を受けて正弦波状信号となっている。

音声強度測定部30は、セグメントについての音声信号強度を求め、それを特徴量抽出部40へ出力する。また、音声強度測定部30は、入力された音声信号における所定期間以上の無音を検出して無音検出信号を生成し、それをパターン識別・感情認識部50の感情認識部53へ出力する。無音検出信号は、感情認識部53で発話終了を判断するために用いられる。

図３は、音声強度測定部30において音声強度信号を生成するための構成の一例を示すブロック図である。

音声強度測定部30は、ピークホールド回路31およびフィルタ処理部32を備える。ピークホールド回路31は、セグメント内の音声信号の包絡線を検出し、それをピークホールド信号として出力する。ピークホールド信号に対して低域通過フィルタ処理を施し、雑音の影響を軽減した信号を音声強度信号として出力する。

特徴量抽出部40は、規格化部23から出力される規格化後自己相関信号および音声強度測定部30から出力される音声強度信号を入力とし、分析フレームについての特徴量を抽出する。規格化後自己相関信号において感情の指標となる特徴量の変化は、数10ms程度の短時間で観測される場合や数100ms程度の期間にわたって継続的に観測される場合がある。

そこで、分析フレームを数10msから数100msの範囲内の時間長に設定し、その時間長で特徴量を抽出することにより、音声信号についての感情を認識するための特徴量を適切に抽出できる。なお、自己相関信号および音声強度信号はセグメント単位で計算されるため、分析フレーム長は、セグメント長の整数倍としてもよい。なお、既に説明したように、感情による音声特徴量の変化速度はさまざまであり、これを精度よく検出するためには、時間長の異なる複数の分析フレームを併用することが好ましい。

図１は単一の分析フレームを使用する一例のブロック構成図であるが、後で複数分析フレームを使用する場合のブロック構成についても説明する。図１においては、使用する分析フレーム数を明示する意味で、分析フレーム長を本ブロックに印加する形としている。もちろん、分析フレーム長を複数のものの中から適宜のものを選択して特徴量抽出部40に設定できるようにしてもよいし、それを可変設定できるようにしてもよい。以下の実施形態でも同様である。

図４は、特徴量抽出部40の構成の一例を示すブロック図である。

特徴量抽出部40は、ピーク検出部41、対数圧縮部42、タイムラグ解析部43、ピーク値解析部44および音声強度解析部45を備える。

ピーク検出部41は、規格化部23から出力される規格化後自己相関信号を入力とし、規格化後自己相関信号のピークタイムラグおよびピーク値を検出し、ピークタイムラグをタイムラグ解析部43へ出力し、ピーク値をピーク値解析44部へ出力する。なお、規格化後自己相関信号は、フィルタ処理部22での帯域制限を受けて正弦波状信号となっており、ピーク検出部41は、その正弦波信号のピークタイムラグおよびピーク値を検出する。

図５および図６は、帯域制限の有無による自己相関信号の波形の違いを示す。

帯域制限を受けていない自己相関信号は、図５に示すように、発話内容に応じて時々刻々と大きく変化する。一方、フィルタ処理部22で帯域制限を受けた自己相関信号は、図６に示すように、発話内容に拘わらず安定した正弦波信号となる。また、感情を含む発話においては、正弦波信号のピークタイムラグおよびピーク値の変化が観測される。

なお、自己相関信号は正弦波の信号となるため、略等間隔で複数のピークが出現する。自己相関信号に対して最大値検出を行うと、音声強度の時間変動やノイズ等の影響により、最大値をとるタイムラグが何番目のピーク位置となるかは変動する。以下では、タイムラグが正(0よりも大きい)の領域での１番目のピークのタイムラグおよびピーク値を、各々ピークタイムラグおよびピーク値とするものとする。

また、これらの変化は、数10ms程度の短時間で観測される場合や数100ms程度の期間にわたって継続的に観測される場合がある。ピーク値の変化が数10ms程度の短時間に観測される場合の一例を図７に、数100msの期間にわたって継続的に観測される場合を図８に示す。短期間での急激な変化（立ち上がり）を捉える上では短期間の分析フレーム１が有効であるが、その傾向の継続性を把握するためには長期間の分析フレーム２と組み合わせる必要があることが分かる。

すなわち、図８における分析フレーム１のように、特徴量の変化速度と比較して、分析フレームの時間長が小さい場合には、感情に起因した特徴量の変化の全体像を１つの分析フレーム内で捉えることができない。この場合において、分析フレーム１のみを使用すると特徴量の増大の傾向を明確に捉えることはできないが、分析フレーム２を併用することで、特徴量の増大の傾向を捉えることが可能となる。

一方、図７における分析フレーム２のように、特徴量の変化速度と比較して分析フレームの時間長が大きい場合には、特徴量が分析フレーム内で単調増加あるいは単調減少の場合にはよいが、特徴量が分析フレーム内で凸型または凹型の場合には、全体の平均としての傾きが求まるのみであり、急激な変化を正しくとらえることはできない。このような場合でも、時間長の短い分析フレーム１を併用することで、急激な変化も捉えられるようになる。

タイムラグ解析部43は、ピーク検出部41から出力されるピークタイムラグを入力とし、数10ms〜数100msの期間、例えば、50msの期間を分析フレームとし、分析フレームで検出されたピークタイムラグを保持し、さらに、平均タイムラグ、最大タイムラグ、タイムラグ変化率を当該分析フレームについての特徴量としてパターン識別・感情認識部50のパターン識別部51へ出力する。

同様に、ピーク値解析部44は、ピーク検出部41から出力されるピーク値を入力とし、分析フレームで検出されたピーク値を保持し、さらに、平均ピーク値、最大ピーク値、ピーク値変化率情報を当該分析フレームについての特徴量としてパターン識別・感情認識部50のパターン識別部51へ出力する。

対数圧縮部42は、音声強度測定部30から出力される音声強度信号を入力とし、対数圧縮後音声強度を出力する。音声強度測定部30から出力される音声強度信号は、通常、そのダイナミックレンジが100dB以上ある。そこで、ここでは音声強度信号を対数圧縮して広範囲の入力レベルの音声信号強度を扱うことができるようにする。

音声強度解析部45は、対数圧縮部42から出力される対数圧縮後音声強度を入力とし、分析フレーム(50ms)のセグメント(10ms)についての対数圧縮後音声強度を保持し、さらに、分析フレームのセグメントについての対数圧縮後音声強度の平均値、最大値、変化率を計算し、平均音声強度、最大音声強度、音声強度変化率を、当該分析フレームについての特徴量としてパターン識別・感情認識部50のパターン識別部51へ出力する。

以上のように、特徴量抽出部40は、規格化後自己相関信号および音声強度信号から特徴量(図４の例では、平均タイムラグ、最大タイムラグ、タイムラグ変化率、平均ピーク値、最大ピーク値、ピーク値変化率、平均音声強度、最大音声強度および音声強度変化率の９個の要素)を抽出し、それらを分析フレームについての特徴量としてパターン識別・感情認識部50へ出力する。

パターン識別・感情認識部50は、パターン識別部51、パターン記憶部52および感情認識部53を備える。

パターン識別部51は、特徴量抽出部40から出力される分析フレームについての特徴量を入力とし、その特徴量と感情との相関に応じたパターン識別信号、あるいは特徴量(各要素のパターン)に応じたパターン識別信号を出力する。

パターン記憶部52は、パターン識別部51から出力される分析フレームについてのパターン識別信号を保持する。パターン記憶部52は、続く分析フレームについてのパターン識別信号を順次に記憶する。

感情認識部53は、パターン記憶部52から分析フレームについてのパターン識別信号を順次にパターン識別信号系列として読み出し、パターン識別信号系列と感情との相関に基づいて音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する。例えば、パターン識別信号が分析フレームについての特徴量と感情との相関に応じたものである場合、それらの相関を用いて感情を認識できる。また、パターン識別信号が特徴量抽出部40から出力される特徴量(各要素のパターン)に応じたものである場合には、ここで、パターン識別信号系列におけるパターン識別信号と感情との相関を求め、その相関に基づいて感情を認識できる。

以上のように、パターン識別・感情認識部50は、特徴量抽出部40から出力される分析フレームについての特徴量と感情との相関に基づいて音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する。

図９は、パターン識別・感情認識部50での感情認識処理のイメージを示す図である。

分析フレームについての特徴量は、抽出される数だけの要素を持つ特徴量(図４の例では９個の要素)であり、要素数だけの次元の空間上のベクトルで表すことができる。図９では、特徴量は、２つの特徴量(要素)１，２を持ち、分析フレームについての特徴量は、特徴量１，２が張る２次元の空間上の位置のベクトルで表すことができる。ここでは説明を簡単にするために、分析フレームについての特徴量の数を２としているが、図４の例のように、分析フレームについての特徴量が９個あれば、分析フレームについての特徴量のパターンは、９次元の空間上のベクトルとなる。

このように、分析フレームについての特徴量のパターンを、特徴量が張る空間におけるベクトルで表したとき、それらのベクトルを感情ごとにグループ分けしてグループのベクトルを感情に関連付けることができる。これは、パターン識別信号系列の分析フレームについての特徴量に基づいて感情を認識できることを意味している。

以上のことから、パターン識別・感情認識部50では、分析フレームについての特徴量と感情との相関に基づいて音声信号についての発話時の感情を認識する。その具体的手法については、各実施形態とともに後で説明する。

図１０は、本発明の感情認識装置の第１の実施形態を示すブロック図である。なお、図１と同一あるいは同等部分には同じ符号を付してある。

第１の実施形態では、統計モデルを用いて、分析フレームについての特徴量と感情との相関値を求め、この相関値に基づいて音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する。

まず、パターン認識部51で使用する統計モデルの作成について説明する。統計モデルは、統計モデルを作成するための学習用の音声信号を用いて事前に作成することができる。

図１０に示すように、予め感情が分かっている学習用の音声信号をセグメント化部10へ入力し、その音声信号の分析フレームについての特徴量を特徴量抽出部40で抽出して統計モデル生成部60に与える。同時に、該特徴量についてのパターン識別信号を統計モデル生成部60に与える。統計モデル生成部60は、分析フレームについての特徴量と該特徴量についてのパターン識別信号から両者の相関を表す統計モデルを生成する。

なお、図１０は単一の分析フレームを使用する一例のブロック構成図であるが、後で複数分析フレームを使用する場合のブロック構成についても説明する。

統計モデルは、例えば、行列Ｗで表現することができ、この行列Ｗを用いて、入力される音声信号の分析フレームについての特徴量に対応するパターン識別信号を生成できる。なお、行列Ｗは、最尤法やSVM(Support Vector Machine)の手法で求めることができる。

下記式(１)は、統計モデルを表す行列Ｗの一例である。下記式(２)で示されるように、行列Ｗに分析フレームについての９個の特徴量からなる列ベクトルｖを掛け合わせることにより、分析フレームについての９個の特徴量と４個の各感情との相関を表すパターン識別信号としてのベクトルｒを求めることができる。

行列Ｗを用いて生成されるパターン識別信号は、例えば｛４０，８，１１，２７｝などといったベクトルｒであり、ベクトルの各要素は、分析フレームについての特徴量と４個の各感情、例えば、"怒り"、"悲しみ"、"退屈"、"驚き"との相関を表している。ここで、数値が大きいほど相関が大きいとすると、上記数値例では、特徴量と"怒り"の感情との相関が最大であり、"驚き"の感情との相関もある程度認められ、"悲しみ"や"退屈"の感情との相関は低いことを表している。

以上では、分析フレームについての特徴量と感情との相関をパターン識別信号としたが、特徴量と感情との相関が最大となる要素に対応する感情の感情ラベルをパターン識別信号としてもよい。例えば、ベクトルでの表現が｛４０，８，１１，２７｝の場合、"怒り"の感情ラベルをパターン識別信号とすることができる。このように、パターン識別信号は、発話時の感情を表す感情ラベルでもよい。

また、感情ラベルは、例えば、"怒り"、"悲しみ"、"退屈"、"驚き"などといった感情を"１"、"２"、"３"、"４"のように数字で表してもよく、｛１，０，０，０｝、｛０，１，０，０｝、｛０，０，１，０｝、｛０，０，０，１｝のようにベクトルで表してもよい。

パターン記憶部52は、パターン識別部51から順次に出力される分析フレームについてのパターン識別信号を保持する。

図１１は、パターン記憶部52が保持するパターン識別信号系列の一具体例を示す図である。

ここで、１行目の数値は、最初の１つの分析フレームについての特徴量と４個の各感情との相関値を示し、"怒り"、"悲しみ"、"退屈"、"驚き"との相関の値が｛２０，１０，１５，１７｝である。２行目の数値は、続く１つの分析フレームについての特徴量と４個の各感情との相関値を示し、"怒り"、"悲しみ"、"退屈"、"驚き"との相関の値が｛８０，７，２５，３７｝である。以下同様である。なお、ここでは、連続する９個の分析フレームについての特徴量と４個の感情との相関を示しているが、パターン記憶部は、入力される音声信号の分析フレームについての相関をパターン識別信号として保持する。

感情認識部53は、パターン記憶部52から分析フレームについてのパターン識別信号を順次にパターン識別信号系列として読み出し、パターン識別信号系列における分析フレームについての相関に基づいて音声信号についての発話時の感情を識別する。

第１の実施形態のように、特徴量を入力信号とする統計モデルを用いて分析フレームごとに特徴量と感情との相関を求め、それをパターン識別信号としてパターン記憶部52に保持する場合には、パターン識別信号系列における分析フレームについての相関を感情ごとに加算して、その合計が最大となる感情を音声信号についての発話時の感情と認識できる、

例えば、図１１の例では、"怒り"に対する相関の合計が最大となるので、音声信号についての発話時の感情は、"怒り"と認識できる。なお、相関の合計を求めることなく、相関が最大を示す感情、あるいは相関が所定のしきい値以上となる分析フレームの数が最大となる感情を音声信号についての発話時の感情と認識するようにしてもよい。

図１２は、感情認識部53の動作の一例を示すフローチャートである。

感情認識部53は、音声強度測定部30から出力される無音検出信号により発話が終了したかどうかを判断する。ここで、発話が終了したと判断した場合には、パターン識別信号系列における分析フレームについての相関値を感情ごとに加算し、その合計値が最大となる感情を音声信号についての発話時の感情と認識し、その認識結果の感情ラベルを出力する。

以上のように、第１の実施形態では、パターン識別部51で、分析フレームについての特徴量と感情との相関値を求め、その相関値のパターン識別信号を生成し、感情認識部53で、パターン識別信号系列における分析フレームについての相関値を感情ごとに加算することにより音声信号についての発話時の感情を認識するようにしているが、以下に説明するように、分析フレームについての特徴量をパターン識別信号とし、パターン識別信号系列におけるパターン識別信号の発生頻度分布(ヒストグラム)と感情との相関に基づいて音声信号についての発話時の感情を認識することもできる。

図１３は、本発明の感情認識装置の第２の実施形態を示すブロック図である。なお、図１と同一あるいは同等部分には同じ符号を付してある。

第２の実施形態は、特徴量抽出部40から出力される特徴量をパターン識別信号とし、統計モデルを用いて、パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情との相関に基づいて音声信号についての発話時の感情を認識するようにしたものである。

図１３は単一の分析フレームを使用する一例のブロック構成図であるが、後で複数分析フレームを使用する場合のブロック構成についても説明する。

まず、感情認識部53で用いる統計モデルの作成について説明する。統計モデルは、統計モデルを作成するための学習用の音声信号を用いて事前に作成することができる。

図１３に示すように、予め感情が分かっている学習用の音声信号からパターン識別信号およびパターン識別信号系列を生成し、そのパターン識別信号系列におけるパターン識別信号の発生頻度分布を統計モデル生成部70に与える。同時に、パターン識別信号の発生頻度分布に対応する感情ラベルを統計モデル生成部70に与える。

統計モデル生成部70は、パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情ラベルとから両者の相関を表す統計モデルを生成する。統計モデルは、例えば、学習用の音声信号から生成されたパターン識別信号系列のパターン識別信号のヒストグラムを生成し、このヒストグラムの各値を用いて深層学習あるいはSVM(Support Vector Machine)などの機械学習を利用して生成できる。

音声信号についての感情の認識時、感情認識部53は、入力される音声信号から生成されるパターン識別信号系列におけるパターン識別信号の発生頻度分布を求め、統計モデルを用いて、該発生頻度分布と相関の高い感情を、音声信号についての発話時の感情と認識し、その認識結果の感情ラベルを出力する。

図１４は、パターン識別信号系列におけるパターン識別信号の発生頻度分布を用いて感情を認識する場合の感情認識部53の動作の例を示すフローチャートである。

感情認識部53は、音声強度測定部30から出力される無音検出信号により発話が終了したかどうかを判断する。ここで、発話が終了したと判断された場合、パターン識別信号系列における各パターン識別信号の発生頻度を計算し、パターン識別信号系列についてのパターン識別信号の発生頻度分布と相関の高い感情を音声信号についての発話時の感情と認識し、この認識結果の感情ラベルを出力する。

また、感情認識部53では、例えば、パターン識別信号系列において発生頻度の最多のパターン識別信号と相関の高い感情を発話時の感情と認識することもできる。さらに、パターン識別部51で、各分析フレームについての特徴量をグループ分けしてグループごとのパターン識別信号とし、感情認識部53では、統計モデルを用いて、パターン識別信号系列における各パターン識別信号の発生頻度分布や発生頻度が最多のパターン識別信号と相関の高い感情を発話時の感情と認識することもできる。

図１５は、パターン識別信号系列におけるパターン識別信号をグループ分けしてから感情を認識する場合の説明図である。ここでも説明を簡単にするために、特徴量の数を２としている。

図１５の例では、特徴量１，２をそれぞれ８段階に量子化することによりパターン識別信号を６４個にグループ分けしている。なお、このグループ分けには、K-MEANS法などを利用することができる。ここでも、パターン識別信号系列におけるパターン識別信号のグループごとの発生頻度分布や発生頻度が最多のパターン識別信号と感情との相関に基づいて音声信号についての発話時の感情を認識することができる。

図１６は、感情認識部53に与えられるパターン識別信号系列の一具体例を示す図である。

ここでは、パターン記憶部が保持する１０個の連続する分析フレームについてのパターン識別信号のパターン識別信号系列を示しているが、パターン記憶部52は、入力される音声信号の各分析フレームについてのパターン識別信号のパターン識別信号系列を保持する。なお、パターン識別信号"パターン１，パターン２，・・・，パターン６４"は、図１５の６４個のグループのそれぞれに対応している。

図１６のパターン識別信号系列において出現頻度が最多のパターン識別信号は、パターン５であるので、パターン５のパターン識別信号と相関が大きい感情を音声信号についての発話時の感情と認識できる。

なお、感情を認識する上で重要なパターン識別信号(重要パターン)を統計モデルとして予め保持しておき、パターン識別信号系列が重要パターンを含む場合、重要パターンとの相関が大きい感情を音声信号についての発話時の感情と認識することもできる。さらに、複数の重要パターンを統計モデルとして予め保持しておき、パターン識別信号系列が複数の重要パターンを含む場合、予め定めた優先順位に従って優先順位の高い方の重要パターンとの相関が大きい感情を音声信号についての発話時の感情と認識することもできる。

図１７は、本発明の感情認識装置の第３の実施形態を示すブロック図であり、図１と同一あるいは同等部分には同じ符号を付してある。

上記したように、分析フレーム内に子音が混入すると感情認識の精度が劣化するが、この劣化は、母音発話中の場合にのみ特徴量を抽出すること、あるいは母音発話中の場合にのみ特徴量からパターン識別を行うこと、により防ぐことができる。

そこで、第３の実施形態では、自己相関処理部20の規格化部23から出力される規格化後自己相関信号のゼロクロスの発生頻度に基づいて母音発話中を検出する母音検出部90を設け、これによる母音検出信号をパターン識別部51へ出力する。

パターン識別部51は、基本的には、分析フレームごとにパターン識別信号を出力するが、母音検出部90から母音検出信号が出力されない(母音検出信号が無効を示す)分析フレームについてはパターン識別信号を出力しない。

なお、図１７は単一の分析フレームを使用する一例のブロック構成図であるが、後で複数分析フレームを使用する場合のブロック構成についても説明する。

図２０は、母音検出部90の構成の一例を示すブロック図である。

この母音検出部90は、ゼロクロス回数カウント部91およびしきい値判定部92を備える。

ゼロクロス回数カウント部91は、自己相関処理部20の規格化部23から出力される規格化後自己相関信号を入力とし、１つの分析フレーム(例えば、５つのセグメント)に対する規格化後自己相関信号におけるゼロクロスを検出し、そのゼロクロスの数である自己相関ゼロクロス回数信号を出力する。

しきい値判定部92は、ゼロクロス回数カウント部91から出力される自己相関ゼロクロス回数信号を入力とし、自己相関ゼロクロス回数が所定しきい値以下の場合に母音検出信号を出力する。自己相関ゼロクロス回数に対する所定しきい値は、例えば、分析フレーム長が50msの場合、50回〜100回程度に設定する。

なお、図１７では省略しているが、パターン識別部51もしくは感情認識部53では、事前学習時に生成される統計モデルを使用する。図１８は、パターン識別用の統計モデルを使用する場合のブロック構成を示し、図１９は、感情認識用の統計モデルを使用する場合のブロック構成を示す。なお、統計モデルの生成および統計モデルを使用した感情認識の動作は、第１および第２の実施形態と同様であるので、説明は省略する。

図２１は、本発明の感情認識装置の第４の実施形態を示すブロック図であり、図１と同一部分には同じ符号を付してある。

上記したように、自己相関処理部20の規格化部23から出力される規格化後自己相関信号は、フィルタ処理部22での帯域制限を受けて正弦波信号となるが、発話時の音声信号には各感情に対応した正弦波ピークのタイムラグおよびピーク値の変化が観測され、これらの変化は、短時間に急激に発生する場合や数100ms程度の期間にわたって継続する場合がある。

第４の実施形態では、それらの場合に対応できるように、異なる分析フレーム長として、複数の分析フレーム長についての特徴量の抽出を並行して行い、それらの特徴量のすべてを使用してパターン識別を行い発話時の感情を認識するようにしている。特徴量抽出部40は、異なる分析フレーム長として、複数の分析フレーム長についての特徴量を並行して抽出する。そのために、特徴量抽出部40には複数の分析フレーム長が与えられる。

図２１においては、時間長の異なる２個の分析フレームを使用して特徴量抽出を行うことを明示するために、特徴量抽出部40に分析フレーム長1,2を印加する形としている。なお、複数の分析フレーム長で、特徴量の抽出および感情の認識を並行して行うには、それらの処理を行う部分を複数系統にすればよい。図２２は、この場合の特徴量抽出部のブロック構成を示す。

パターン識別部51は、異なる分析フレーム長の特徴量をすべて使用してパターン識別信号を生成し、パターン記憶部52は、こうして得られたパターン識別信号を保持する。

感情認識部53は、パターン記憶部52からパターン識別信号系列を読み出し、該パターン識別信号系列から発話時の感情を認識し、その認識結果の感情ラベルを出力する。なお、図２１では省略しているが、パターン識別部51もしくは感情認識部53では、事前学習時に生成される統計モデルを使用する。図２３は、パターン識別用の統計モデルを使用する場合のブロック構成を示し、図２４は、感情認識用の統計モデルを使用する場合のブロック構成を示す。ここでの統計モデルの生成および統計モデルを使用した感情認識の動作は、第１および第２の実施形態と同様であるので、説明は省略する。なお、この場合には、事前学習において異なる分析フレーム長を使用して求めた複数の特徴量と学習用入力信号（パターン識別信号もしくは感情ラベル）の相関を学習して統計モデルを生成する。

図２５は、本発明の感情認識装置の第５の実施形態を示すブロック図であり、図１と同一あるいは同等部分には同じ符号を付してある。

第５の実施形態も、上記の場合に対応できるようにしたものであり、分析フレームで抽出された特徴量を処理して複数分析フレームについての特徴量を抽出する長期特徴量抽出部80を設けている。そして、特徴量抽出部40で抽出された分析フレームについての特徴量と長期特徴量抽出部80で抽出された複数分析フレームについて特徴量のすべてを使用してパターン識別信号系列を生成し、それを用いて発話時の感情を認識するようにしている。

図２６は、長期特徴量抽出部の内部ブロック構成を示す。ここでは、予め決められた数、例えば５個の分析フレームでの５個の特徴量を各々保持し、その平均値、最大値、変化率を各々求めて、長期平均タイムラグ、長期最大タイムラグ、長期タイムラグ変化率、長期平均ピーク値、長期最大ピーク値、長期ピーク値変化率、長期平均音声強度、長期最大音声強度および音声強度変化率を出力する。

パターン認識部51は、特徴量抽出部40で抽出された分析フレームについての特徴量と長期特徴量抽出部80で抽出された複数分析フレームについて特徴量のすべてを使用してパターン識別信号を生成し、パターン記憶部52は、こうして得られたパターン識別信号を保持する。感情認識部53は、パターン記憶部52からパターン識別信号系列を読み出し、該パターン識別信号系列から感情を認識し、それらの認識結果の感情ラベルを出力する。

なお、図２５では省略しているが、パターン識別部51もしくは感情認識部53では、事前学習時に生成される統計モデルを使用する。図２７は、パターン識別用の統計モデルを使用する場合のブロック構成を示し、図２８は、感情認識用の統計モデルを使用する場合のブロック構成を示す。ここでの統計モデルの生成および統計モデルを使用した感情認識の動作は、第１および第２の実施形態と同様であるので、説明は省略する。なお、この場合には、事前学習において１つの分析フレームと複数分析フレームについて求めた複数の特徴量と学習用入力信号（パターン識別信号もしくは感情ラベル）の相関を学習して統計モデルを生成する。

以上、本発明の実施形態を説明したが、本発明は、上記実施形態に限られるものではない。

例えば、上記実施形態におけるパターン識別・感情認識部は、発話終了のタイミングで感情を認識するようにしているが、ユーザ操作などで所定期間の音声信号を指定し、該所定期間での音声信号についての感情を認識してもよい。この場合、所定期間の動作中を表示させることが好ましい。また、所定期間ごと音声信号を対象として感情を認識することにより、発話全体を通しての感情の変化を認識できる。

なお、本発明は、感情認識装置としてだけでなく、感情認識方法や感情認識用プログラムとしても実現できる。

10・・・セグメント化部、20・・・自己相関処理部、21・・・自己相関計算部、22・・・フィルタ処理部、23・・・規格化部、30・・・音声強度測定部、31・・・ピークホールド回路、32・・・フィルタ処理部、40・・・特徴量抽出部、41・・・ピーク検出部、42・・・対数圧縮部、43・・・タイムラグ解析部、44・・・ピーク値解析部、45・・・音声強度解析部、50・・・パターン識別・感情認識部、51・・・パターン認識部、52・・・パターン記憶部、53・・・感情認識部、60,70・・・統計モデル生成部、80・・・長期特徴量抽出部、90・・・母音検出部、91・・・ゼロクロス回数カウント部、92・・・しきい値判定部

Claims

入力される音声信号から発話時の感情を認識するための感情認識装置であって、
音声信号をセグメントに分解するセグメント化手段と、
前記セグメントの各々についての音声信号の音声強度を測定してセグメントについての音声強度信号を出力する音声強度測定手段と、
前記セグメントの各々についての自己相関関数を計算してセグメントについての自己相関信号を出力する自己相関計算手段と、
前記自己相関信号からピッチ情報を抽出してセグメントについてのフィルタ後自己相関信号を出力するフィルタ手段と、
前記フィルタ後自己相関信号の大きさを前記音声強度信号により規格化してセグメントについての規格化後自己相関信号を出力する規格化手段と、
１以上のセグメントを含む数10ms〜数100msの期間を分析フレームとして、前記規格化後自己相関信号および前記音声強度信号から分析フレームについての特徴量を抽出して順次出力する特徴量抽出手段と、
前記特徴量と感情との相関に基づいて前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力するパターン識別・感情認識手段を備えることを特徴とする感情認識装置。
前記パターン識別・感情認識手段は、
前記特徴量と感情との相関値を分析フレームについてのパターン識別信号として出力するパターン識別手段と、
前記パターン識別信号を保持するパターン記憶手段と、
前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列における分析フレームについての特徴量と感情との相関から感情を認識し、その認識結果の感情ラベルを出力する感情認識手段を備えることを特徴とする請求項１に記載の感情認識装置。
前記パターン識別・感情認識手段は、
前記特徴量を各分析フレームについてのパターン識別信号として出力するパターン識別手段と、
前記パターン識別信号を保持するパターン記憶手段と、
前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情との相関、あるいは該発生頻度分布における最多のパターン識別信号または重要なパターン識別信号と感情との相関から前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する感情認識手段を備えることを特徴とする請求項１に記載の感情認識装置。
前記音声強度測定手段は、前記音声信号が所定閾値以下となる無音期間を検出して無音検出信号を出力し、
前記パターン識別・感情認識手段は、前記無音検出信号が出力されるタイミングで感情を認識し、その認識結果の感情ラベルを出力することを特徴とする請求項１ないし３のいずれか１つに記載の感情認識装置。
前記フィルタ手段は、カットオフ周波数が500Hzから800Hzの範囲内のローパスフィルタであることを特徴とする請求項１ないし４のいずれか１つに記載の感情認識装置。
さらに、前記規格化後自己相関信号から分析フレームごとに母音を検出する母音検出手段を備え、
前記パターン識別・感情認識手段は、前記母音検出手段により母音が検出された分析フレームに対してのみ感情の認識処理を実行することを特徴とする請求項１ないし５のいずれか１つに記載の感情認識装置。
前記特徴量抽出手段は、複数の異なる時間長の分析フレームについての特徴量をそれぞれ抽出し、
前記パターン識別・感情認識手段は、得られたすべての特徴量と感情との相関に基づく感情の認識処理を実行し、これにより認識結果の感情ラベルを出力することを特徴とする請求項１ないし６のいずれか１つに記載の感情認識装置。
さらに、前記特徴量抽出手段により抽出された特徴量を入力として複数分析フレームについての特徴量を抽出する長期特徴量抽出手段を備え、
前記パターン識別・感情認識手段は、前記特徴量抽出手段および長期特徴量抽出手段により抽出されたすべての特徴量と感情との相関に基づく感情の認識処理を実行し、これにより認識結果の感情ラベルを出力することを特徴とする請求項１ないし６のいずれか１つに記載の感情認識装置。
入力される音声信号から発話時の感情を認識するための方法であって、
音声信号をセグメントに分解するセグメント化のステップと、
前記セグメントの各々についての音声信号の音声強度を測定してセグメントについての音声強度信号を出力する音声強度測定のステップと、
前記セグメントの各々についての自己相関関数を計算してセグメントについての自己相関信号を出力する自己相関計算のステップと、
前記自己相関信号からピッチ情報を抽出してセグメントについてのフィルタ後自己相関信号を出力するフィルタリングのステップと、
前記フィルタ後自己相関信号の大きさを前記音声強度信号により規格化してセグメントについての規格化後自己相関信号を出力する規格化のステップと、
１以上のセグメントを含む数10ms〜数100msの期間を分析フレームとして、前記規格化後自己相関信号および前記音声強度信号から分析フレームについての特徴量を抽出して順次出力する特徴量抽出のステップと、
前記特徴量と感情との相関に基づいて前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力するパターン識別・感情認識のステップを有することを特徴とする方法。
前記パターン識別・感情認識のステップは、
前記特徴量と感情との相関値を分析フレームについてのパターン識別信号として出力するパターン識別のステップと、
前記パターン識別信号をパターン記憶手段に保持させるパターン記憶のステップと、
前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列における分析フレームについての特徴量と感情との相関から感情を認識し、その認識結果の感情ラベルを出力する感情認識のステップ有する請求項９に記載の方法。
前記パターン識別・感情認識のステップは、
前記特徴量を各分析フレームについてのパターン識別信号として出力するパターン識別のステップと、
前記パターン識別信号をパターン記憶手段に保持させるパターン記憶のステップと、
前記パターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情との相関、あるいは該発生頻度分布における最多のパターン識別信号または重要なパターン識別信号と感情との相関から前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する感情認識のステップを有する請求項９に記載の方法。
入力される音声信号から発話時の感情を認識するためのプログラムであって、コンピュータを、
音声信号をセグメントに分解するセグメント化手段、
前記セグメントの各々についての音声信号の音声強度を測定してセグメントについての音声強度信号を出力する音声強度測定手段、
前記セグメントの各々についての自己相関関数を計算してセグメントについての自己相関信号を出力する自己相関計算手段、
前記自己相関信号からピッチ情報を抽出してセグメントについてのフィルタ後自己相関信号を出力するフィルタ手段、
前記フィルタ後自己相関信号の大きさを前記音声強度信号により規格化してセグメントについての規格化後自己相関信号を出力する規格化手段、
１以上のセグメントを含む数10ms〜数100msの期間を分析フレームとして、前記規格化後自己相関信号および前記音声強度信号から分析フレームについての特徴量を抽出して順次出力する特徴量抽出手段、
前記特徴量と感情との相関に基づいて前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力するパターン識別・感情認識手段として機能させるプログラム。
前記パターン識別・感情認識手段は、
前記特徴量と感情との相関値を分析フレームについてのパターン識別信号として出力するパターン識別手段と、
前記パターン識別信号を保持するパターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列における分析フレームについての特徴量と感情との相関から感情を認識し、その認識結果の感情ラベルを出力する感情認識手段からなる請求項１２に記載のプログラム。
前記パターン識別・感情認識手段は、
前記特徴量を各分析フレームについてのパターン識別信号として出力するパターン識別手段と、
前記パターン識別信号を保持するパターン記憶手段からパターン識別信号系列を読み出し、該パターン識別信号系列におけるパターン識別信号の発生頻度分布と感情との相関、あるいは該発生頻度分布における最多のパターン識別信号または重要なパターン識別信号と感情との相関から前記音声信号についての発話時の感情を認識し、その認識結果の感情ラベルを出力する感情認識手段からなる請求項１２に記載のプログラム。