JP4851447B2 - ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム - Google Patents

ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム Download PDF

Info

Publication number
JP4851447B2
JP4851447B2 JP2007520082A JP2007520082A JP4851447B2 JP 4851447 B2 JP4851447 B2 JP 4851447B2 JP 2007520082 A JP2007520082 A JP 2007520082A JP 2007520082 A JP2007520082 A JP 2007520082A JP 4851447 B2 JP4851447 B2 JP 4851447B2
Authority
JP
Japan
Prior art keywords
frequency
pitch
autocorrelation waveform
appearance
speech analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007520082A
Other languages
English (en)
Other versions
JPWO2006132159A1 (ja
Inventor
俊二 光吉
薫 尾形
史晃 門間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2007520082A priority Critical patent/JP4851447B2/ja
Publication of JPWO2006132159A1 publication Critical patent/JPWO2006132159A1/ja
Application granted granted Critical
Publication of JP4851447B2 publication Critical patent/JP4851447B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、音声のピッチ周波数を検出する音声解析の技術に関する。
また、本発明は、音声のピッチ周波数から感情を推定する感情検出の技術に関する。
従来、被験者の音声信号を分析して、被験者の感情を推定する技術が開示されている。
例えば、特許文献1には、歌唱音声の基本周波数を求め、歌い終わりにおける基本周波数の上下変化から、歌唱者の感情を推定する技術が提案されている。
特開平10-187178公報
ところで、楽器音では、基本周波数が明瞭に現れるため、基本周波数を検出することが容易である。
しかしながら、一般的な音声では、しわがれ声や震えた声などを含むため、基本周波数が揺らぐ。また、倍音の構成成分が不規則になる。そのため、この種の音声から、基本周波数を確実に検出する有効な方法が確立していない。
そこで、本発明の目的は、音声の周波数を正確かつ確実に検出する技術を提供することである。
また、本発明の別の目的は、音声処理に基づく新しい感情推定の技術を提供することである。
《1》 本発明の音声解析装置は、音声取得部、周波数変換部、自己相関部、およびピッチ検出部を備える。
音声取得部は、被験者の音声信号を取り込む。
周波数変換部は、音声信号を周波数スペクトルに変換する。
自己相関部は、周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。
ピッチ検出部は、自己相関波形における複数の極値の出現順番と複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求める。
《2》 なお好ましくは、自己相関部は、周波数スペクトルを周波数軸上で離散的にずらしながら、自己相関波形の離散データを求める。ピッチ検出部は、この自己相関波形の離散データを補間し、その補間ラインから極値の出現周波数を求める
《3》 なお好ましくは、ピッチ検出部は、複数求めた(出現順番,出現周波数)の母集団から、自己相関波形のレベル変動の小さな標本を除く。ピッチ検出部は、このようにして残った母集団について回帰分析を行い、得られた回帰直線の傾きに基づいてピッチ周波数を求める。
》 また好ましくは、ピッチ検出部は、抽出部および減算部を備える。
抽出部は、自己相関波形を曲線近似することによって、自己相関波形に含まれる『フォルマントに依存する成分』を抽出する。
減算部は、自己相関波形からこの成分を除去することにより、フォルマントの影響を軽減した自己相関波形を求める。
この構成により、ピッチ検出部は、フォルマントの影響を軽減した自己相関波形に基づいて、ピッチ周波数を求めることが可能になる。
》 なお好ましくは、上述した音声解析装置に、対応記憶部、感情推定部を備える。
対応記憶部は、少なくとも『ピッチ周波数』と『感情状態』との対応関係を記憶する。
感情推定部は、ピッチ検出部で検出されたピッチ周波数を対応関係に照会して、被験者の感情状態を推定する。
》 なお好ましくは、上記《》の音声解析装置において、ピッチ検出部は、『回帰直線に対する(出現順番,出現周波数)の分散度合い』および『回帰直線と原点とのずれ』の少なくとも一方を、ピッチ周波数の不規則性として求める。この音声解析装置に、対応記憶部、感情推定部を備える。
対応記憶部は、少なくとも『ピッチ周波数』および『ピッチ周波数の不規則性』と、『感情状態』との対応関係を記憶する。
感情推定部は、ピッチ検出部で求めた『ピッチ周波数』および『ピッチ周波数の不規則性』を対応関係に照会して、被験者の感情状態を推定する。
》 本発明の音声解析方法は、次のステップを有する。
(ステップ1)被験者の音声信号を取り込むステップ
(ステップ2)音声信号を周波数スペクトルに変換するステップ
(ステップ3)周波数スペクトルを周波数軸上でずらしながら自己相関波形を求めるステップ
(ステップ4)自己相関波形における複数の極値の出現順番と複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求めるステップ
》本発明の音声解析プログラムは、コンピュータを、上記《1》〜《》のいずれか1項に記載の音声解析装置として機能させるためのプログラムである。
[1] 本発明では、音声信号を周波数スペクトルに一旦変換する。この周波数スペクトルには、基本周波数の揺らぎや倍音成分の不規則性がノイズ分として含まれる。そのため、この周波数スペクトルから基本周波数を読み取ることは困難である。
そこで、本発明は、この周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。この自己相関波形では、周期性の低いスペクトルノイズが抑制される。その結果、自己相関波形には、周期性の強い倍音成分が山となって周期的に現れる。
本発明では、この低ノイズ化された自己相関波形における複数の極値の出現順番と複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を正確に求める。
このように得られたピッチ周波数は、基本周波数に類似する場合もあるが、自己相関波形の最大ピークや1番目のピークから求めるわけではないため、必ずしも基本周波数とは一致しない。むしろ、山と山(または谷と谷)の間隔から求めることにより、基本周波数の不明瞭な音声からも安定かつ正確にピッチ周波数を求めることが可能となる。
また、音声によっては、自己相関波形に周期的に現れるローカルな山と山(または谷と谷)の間隔が不等間隔になる場合もある。このとき、どこか1箇所の間隔だけを参照してピッチ周波数を決定しては、正確なピッチ周波数を求めることができない。そこで、自己相関波形の山または谷である極値の(出現順番,出現周波数)を複数求めることが好ましい。これら(出現順番,出現周波数)を回帰直線で近似することによって、不等間隔の変動を均したピッチ周波数を求めることが可能になる。
このようなピッチ周波数の求め方により、極めて微弱な発話音声からでもピッチ周波数を正確に求めることが可能になる。その結果、ピッチ周波数の分析が困難な音声についても、感情推定の成功率を高めることが可能になる。
[2] また、本発明においては、周波数スペクトルを周波数軸上で離散的にずらしながら、自己相関波形の離散データを求めることが好ましい。このような離散的な処理により、演算回数を軽減し、処理時間の短縮を図ることができる。しかし、離散的にずらす周波数を大きくすると、自己相関波形の分解能が低くなり、ピッチ周波数の検出精度が低下する。そこで、自己相関波形の離散データを補間して、極値の出現周波数を精密に求めることにより、離散データの分解能よりも細かい精度でピッチ周波数を求めることが可能になる。
[3] なお、自己相関波形のレベル変動が小さい箇所は、なだらかな山(または谷)となるため、山や谷の出現周波数を正確に求めることが困難となる。そこで、上記のように求めた(出現順番,出現周波数)の母集団から、自己相関波形のレベル変動の小さな標本を除くことが好ましい。このようにして限定した母集団について回帰分析を行うことにより、ピッチ周波数を一段と安定かつ正確に求めることが可能になる。
] 音声の周波数成分には、時間的に移動する特定のピークが現れる。このピークをフォルマントと言う。自己相関波形にも、波形の山谷とは別に、このフォルマントを反映した成分が現れる。そこで、自己相関波形の揺らぎにフィッティングする程度の曲線で近似する。この曲線は、自己相関波形に含まれる『フォルマントに依存する成分』であると推定できる。この成分を、自己相関波形から除くことによって、フォルマントの影響を軽減した自己相関波形を求めることができる。このような処理を施した自己相関波形は、フォルマントによる乱れが少なくなる。そのため、ピッチ周波数をより正確かつ確実に求めることが可能になる。
] このように得られるピッチ周波数は、声の高さや声質などの特徴を表すパラメータであり、発話時の感情によっても敏感に変化する。そのため、このピッチ周波数を感情推定の材料とすることにより、基本周波数の検出困難な音声においても確実に感情推定を行うことが可能になる。
] さらに、周期的な山と山(または谷と谷)の間隔の不規則性を新たな音声特徴として検出することが好ましい。例えば、回帰直線に対する(出現順番,出現周波数)の分散度合いを統計的に求める。また例えば、回帰直線と原点とのずれを求める。
このように求めた不規則性は、音声の集音環境の善し悪しを示すと共に、声の微妙な変化を表すものである。そこで、このピッチ周波数の不規則性を感情推定の材料に加えることにより、推定可能な感情の種類を増やしたり、微妙な感情の推定成功率を高めることが可能になる。
なお、本発明における上述した目的およびそれ以外の目的は、以下の説明と添付図面とにおいて具体的に示される。
感情検出装置(音声解析装置を含む)11のブロック図である。 感情検出装置11の動作を説明する流れ図である。 音声信号の処理過程を説明する図である。 自己相関波形の補間処理を説明する図である。 回帰直線とピッチ周波数との関係を説明する図である。
[実施形態の構成]
図1は、感情検出装置(音声解析装置を含む)11のブロック図である。
図1において、感情検出装置11は、下記の構成を備える。
(1)マイク12・・被験者の音声を音声信号に変換する。
(2)音声取得部13・・音声信号を取り込む。
(3)周波数変換部14・・取り込まれた音声信号を周波数変換し、音声信号の周波数スペクトルを求める。
(4)自己相関部15・・周波数スペクトルについて周波数軸上で自己相関を求め、周波数軸上に周期的に現れる周波数成分を自己相関波形として求める。
(5)ピッチ検出部16・・自己相関波形の山と山(または谷と谷)の周波数間隔を、ピッチ周波数として求める。
(6)対応記憶部17・・ピッチ周波数や分散などの判断材料と、被験者の感情状態との対応関係を記憶する。この対応関係は、ピッチ周波数や分散などの実験データと、被験者の申告する感情状態(怒り、喜び、緊張、または悲しみなど)とを対応付けることによって作成できる。この対応関係の記述方式としては、対応テーブルや判断ロジックやニューラルネットなどが好ましい。
(7)感情推定部18・・ピッチ検出部16で求めたピッチ周波数を、対応記憶部17の対応関係に照会して、対応する感情状態を決定する。決定された感情状態は、推定感情として出力される。
なお、上述した構成13〜18については、その一部または全部をハードウェア的に構成してもよい。また、コンピュータにおいて感情検出プログラム(音声解析プログラムを含む)を実行することにより、構成13〜18の一部または全部をソフトウェア的に実現してもよい。
[感情検出装置11の動作説明]
図2は、感情検出装置11の動作を説明する流れ図である。
以下、図2に示すステップ番号に沿って、具体的な動作を説明する。
ステップS1: 周波数変換部14は、音声取得部13からFFT(Fast Fourier Transform)演算に必要な区間の音声信号を切り出す(図3[A]参照)。このとき、切り出し区間の両端の影響を軽減するよう、切り出し区間に対してコサイン窓などの窓関数を施す。
ステップS2: 周波数変換部14は、窓関数で加工した音声信号に対してFFT演算を施し、周波数スペクトルを求める(図3[B]参照)。
なお、周波数スペクトルについては、一般的な対数演算によるレベル抑圧処理を施すと、負値が発生するため、後述する自己相関演算が複雑かつ困難になる。そこで、周波数スペクトルについては、対数演算のレベル抑圧処理ではなく、ルート演算などの正の値が得られるレベル抑圧処理を施しておくことが好ましい。
また、周波数スペクトルのレベル変化を強調する場合には、周波数スペクトルの値を4乗演算するなどの強調処理を施してもよい。
ステップS3: 周波数スペクトルには、楽器音で言えば倍音に相当するスペクトルが周期的に現れる。しかし、発話音声の周波数スペクトルは、図3[B]に示すように複雑な成分を含むため、このままでは周期的なスペクトルを明確に区別することが難しい。そこで、自己相関部15は、この周波数スペクトルを周波数軸方向に所定幅ずつずらしながら自己相関値を順次求める。この演算により得られる自己相関値の離散データを、ずらし周波数ごとにプロットすることによって自己相関波形が得られる(図3[C]参照)。
なお、周波数スペクトルには、音声帯域以外の不要な成分(直流成分や極端に低域の成分)が含まれる。これらの不要な成分は、自己相関の演算を狂わせる。そこで、自己相関の演算に先立って、周波数変換部14は、周波数スペクトルからこれらの不要な成分を抑制または除去しておくことが好ましい。
例えば、周波数スペクトルから、直流成分(例えば60ヘルツ以下など)をカットしておくことが好ましい。
また例えば、所定の下限レベル(例えば周波数スペクトルの平均レベル)を設定して周波数スペクトルの足切り(下限リミット)を行い、微小な周波数成分をノイズとしてカットしておくことが好ましい。
このような処理により、自己相関演算において生じる波形乱れを未然に防ぐことができる。
ステップS4: 自己相関波形は、図4に示すように離散データである。そこで、ピッチ検出部16は、離散データを補間することにより、複数の山および/または谷について出現周波数を求める。例えば、ここでの補間方法としては、山や谷の付近の離散データについて、直線補間や曲線関数で補間する方法が簡便で好ましい。なお、離散データの間隔が十分に狭い場合は、離散データの補間処理を省略することも可能である。このようにして、(出現順番,出現周波数)の標本データを複数求める。
なお、自己相関波形のレベル変動が小さい箇所は、なだらかな山(または谷)となるため、この山や谷の出現周波数を正確に求めることが難しい。そのため、不正確な出現周波数をそのまま標本として含めると、後から検出するピッチ周波数の精度が下がる。そこで、上記のように求めた(出現順番,出現周波数)の母集団から、自己相関波形のレベル変動の小さな標本データを判定する。このように判定された標本データを母集団から取り除くことにより、ピッチ周波数の分析に適した母集団を得る。
ステップS5: ピッチ検出部16は、ステップS4で求めた母集団から標本データをそれぞれ取り出して、出現周波数を出現順番ごとに並べる。このとき、自己相関波形のレベル変動が小さいために取り除かれた出現順番については欠番となる。
ピッチ検出部16は、このように標本データを並べた座標空間において回帰分析を実施し、回帰直線の傾きを求める。この傾きに基づいて、出現周波数の揺らぎを排除したピッチ周波数を求めることができる。
なお、回帰分析を実施する際に、ピッチ検出部16は、回帰直線に対する出現周波数の分散を統計的に求め、ピッチ周波数の分散とする。
また、回帰直線と原点とのずれ(例えば、回帰直線の切片)を求め、このずれが、予め定められた許容限界よりも大きい場合、ピッチ周波数の検出に適さない音声区間(騒音など)であると判定してもよい。この場合、その音声区間を除いて、残りの音声区間についてピッチ周波数を検出することが好ましい。
ステップS6: 感情推定部18は、ステップS5で求めた(ピッチ周波数,分散)のデータを、対応記憶部17の対応関係に照会して、対応する感情状態(怒り、喜び、緊張、または悲しみなど)を決定する。
[本実施形態の効果など]
まず、図5[A][B]を用いて、本実施形態と、従来技術との違いについて説明する。
本実施形態のピッチ周波数は、自己相関波形の山と山(または谷と谷)の間隔に相当し、図5[A][B]では、回帰直線の傾きに対応する。一方、従来の基本周波数は、図5[A][B]に示す一番目の山の出現周波数に相当する。
図5[A]では、回帰直線が原点近傍を通過し、その分散が小さい。この場合、自己相関波形には、山がほぼ等間隔に規則正しく現れる。したがって、従来技術でも、基本周波数を明瞭に検出できるケースである。
一方、図5[B]は、回帰直線が原点から大きく外れ、分散が大きい。この場合、自己相関波形の山は不等間隔に現れる。したがって、基本周波数が不明瞭な音声であり、基本周波数を特定することが困難となる。従来技術では、一番目の山の出現周波数から求めるため、このようなケースにおいては、間違った基本周波数を求めてしまう。
本発明では、このようなケースでは、山の出現周波数から求めた回帰直線が原点近傍を通るか否か、ピッチ周波数の分散が小さいか否かなどによって、ピッチ周波数の信頼性を判断することができる。したがって、本実施形態では、図5[B]の音声信号については、ピッチ周波数の信頼性が低いと判断して感情推定の材料から除くことが可能になる。そのことにより、信頼性の高いピッチ周波数のみを使用することが可能になり、感情推定の成功率を一段と高めることが可能になる。
なお、図5[B]のようなケースにおいては、傾きの程度を広義のピッチ周波数として求めることが可能である。この広義のピッチ周波数を感情推定の材料とすることも好ましい。さらに、『分散度合い』および/または『回帰直線と原点とのずれ』をピッチ周波数の不規則性として求めることも可能である。このように求めた不規則性を、感情推定の材料とすることも好ましい。もちろん、このように求めた広義のピッチ周波数およびその不規則性を、感情推定の材料とすることも好ましい。これらの処理では、狭義のピッチ周波数に限らず、音声周波数の特徴や変化を総合的に反映した感情推定が可能になる。
また、本実施形態では、自己相関波形の離散データを補間して、ローカルな山と山(または谷と谷)の間隔を求める。したがって、一段と高い分解能でピッチ周波数を求めることが可能になる。その結果、ピッチ周波数の変化をより細かく検出することが可能になり、より精細な感情推定が可能になる。
さらに、本実施形態では、ピッチ周波数の分散度合い(分散や標準偏差など)も、感情推定の判断材料に加える。このピッチ周波数の分散度合いは、音声信号の不安定さや不協和音の度合いなどの独特な情報を示すものであり、発話者の自信の無さや緊張度合いなどの感情を検出するのに適している。また、この緊張度合いなどからうそ特有の感情を検出するうそ発見器を実現することなどが可能になる。
[実施形態の補足事項]
なお、上述した実施形態では、自己相関波形からそのまま山や谷の出現周波数を求めている。しかしながら、本発明はこれに限定されるものではない。
例えば、音声信号の周波数成分には、時間的に移動する特定のピーク(フォルマント)が現れる。自己相関波形にも、ピッチ周波数とは別に、このフォルマントを反映した成分が現れる。そこで、自己相関波形を、山谷の細かな変動にフィッティングしない程度の曲線関数で近似することで、自己相関波形に含まれる『フォルマントに依存する成分』を推定することが好ましい。このように推定した成分(近似曲線)を、自己相関波形から減算することによって、フォルマントの影響を軽減した自己相関波形を求めることができる。このような処理を施すことにより、自己相関波形からフォルマントによる乱れ波形を除くことが可能になり、ピッチ周波数をより正確かつ確実に求めることが可能になる。
また例えば、特殊な音声信号では、自己相関波形の山と山の間に小さな山が出現する。この小さな山を、自己相関波形の山と誤認識すると、ハーフピッチの周波数を求めてしまうことになる。この場合、自己相関波形の山の高さを比較して、小さな山については波形の谷と見なすことが好ましい。この処理により、正確なピッチ周波数を求めることが可能になる。
また例えば、自己相関波形に対して回帰分析を行って回帰直線を求め、その回帰直線より上側の自己相関波形のピーク点を、自己相関波形の山として検出してもよい。
上述した実施形態では、(ピッチ周波数,分散)を判断材料として感情推定を実施する。しかしながら、実施形態はこれに限定されるものではない。例えば、少なくともピッチ周波数を判断材料として感情推定を実施してもよい。また例えば、このような判断材料を時系列に収集した時系列データを判断材料として感情推定を実施してもよい。また例えば、過去に推定した感情を判断材料に加えることで、感情の変化傾向を加味した感情推定を実現してもよい。また例えば、音声認識した意味情報を判断材料に加えることにより、会話内容を加味した感情推定を実現してもよい。
また、上述した実施形態では、回帰分析によりピッチ周波数を求めている。しかしながら、実施形態はこれに限定されるものではない。例えば、自己相関波形の山(または谷)の間隔を求めて、ピッチ周波数としてもよい。また例えば、山(または谷)の間隔ごとにピッチ周波数を求め、これら複数のピッチ周波数を母集団として統計処理を実施し、ピッチ周波数およびその分散度合いを決定してもよい。
なお、上述した実施形態では、話し声についてピッチ周波数を求め、そのピッチ周波数の時間変化(抑揚的な変化量)に基づいて、感情推定用の対応関係を作成することが好ましい。
本発明者は、この話し声から実験的に作成された対応関係を使用して、歌声や楽器演奏などの楽曲(音声信号の一種)についても感情推定を試みた。
具体的には、音符よりも短い時間間隔でピッチ周波数の時間変化をサンプリングすることにより、単純な音程変化とは異なる抑揚的な情報を得ることが可能になる。(なお、一つのピッチ周波数を求めるための音声区間は、音符よりも短くても長くしてもよい)
また別の手法として、節単位などの複数の音符を含む長い音声区間でサンプリングしてピッチ周波数を求めることで、複数の音符を反映した抑揚的な情報を得ることが可能になる。
この楽曲による感情推定では、楽曲を聴いたときに人間が感じる感情(或いは楽曲作成者が楽曲に込めたであろう感情)とほぼ同じ傾向の感情出力が得られることが分かった。
例えば、長調/短調といった調子の違いに応じて、喜び/悲しみという感情を検出することが可能になる。また、浮き浮きするようなテンポの良いサビ部分では、強い喜びを検出することが可能になる。また、激しいドラム音からは、怒りを検出することが可能になる。
なお、ここでは話し声から作成した対応関係をそのまま兼用しているが、楽曲専用の感情検出装置であれば、楽曲に特化した対応関係を実験的に作成することももちろん可能である。
このように、本実施形態の感情検出装置を用いることで、楽曲に表れる感情を推定することも可能になる。これを応用することによって、人間の音楽鑑賞状態をシミュレーションする装置や、楽曲の示す喜怒哀楽に応じて反応するロボットなどを作成することができる。
また、上述した実施形態では、ピッチ周波数を基準にして、対応する感情状態を推定する。しかしながら、本発明はこれに限定されるものではない。例えば、下記のパラメータの少なくとも1つを加味して、感情状態を推定してもよい。
(1)時間単位における周波数スペクトラムの変化量
(2)ピッチ周波数の揺らぎ周期、立上がり時間、維持時間、または立下がり時間
(3)低域側の山(谷)から求めたピッチ周波数と平均ピッチ周波数との差
(4)高域側の山(谷)から求めたピッチ周波数と平均ピッチ周波数との差
(5)低域側の山(谷)から求めたピッチ周波数と、高域側の山(谷)から求めたピッチ周波数との差異、または増減傾向
(6)山(谷)の間隔の最大値、または最小値
(7)山(谷)の連続する数
(8)発話スピード
(9)音声信号のパワー値、またはその時間変動
(10)音声信号における人間の可聴域を外れた周波数域の状態
ピッチ周波数と上記のパラメータの実験データと、被験者の申告する感情状態(怒り、喜び、緊張、または悲しみなど)とを対応付けることによって、感情推定用の対応関係を予め作成することができる。対応記憶部17は、この対応関係を記憶する。一方、感情推定部18は、音声信号から求めたピッチ周波数と上記パラメータとを、対応記憶部17の対応関係に照会することにより、感情状態を推定する。
[ピッチ周波数の応用例]
(1)音声や音響からの感情要素のピッチ周波数の抽出(本実施形態)により、周波数特性やピッチが求められる。さらに、フォルマント情報やパワー情報についても、時間軸での変化から容易に求めることができる。さらに、これら情報を可視化することも可能になる。
また、ピッチ周波数の抽出により、時間変化による音声や音響、音楽などの揺らぎの状態が明確になるため、スムーズな音声や音楽の感情感性リズム解析や音色分析も可能になる。
(2)本実施形態でのピッチ解析で得られた情報の時間変化における変化パターン情報などを感性会話以外にも、映像、アクション(表情や動作)、音楽、映像、構文などに応用することも可能である。
(3)また、映像、アクション(表情や動作)、音楽、映像、構文などのリズムを有する情報(リズム情報という)を音声信号と見なしてピッチ解析することも可能である。さらに、リズム情報について時間軸での変化パターン分析も可能である。これらの解析結果に基づいてリズム情報を可視化したり、音声化することにより、別の表現形態の情報に変換することも可能になる。
(4)また、感情や感性、リズム情報、音色分析手段などで得られた、変化パターンなどを感情感性心理特性解析などに応用することもできる。その結果を用いて、共有もしくは連動する感性の変化パターンやパラメータ、閾値などを求めることも可能になる。
(5)二次利用として、感情要素のばらつき度合いや多感情の同時検出状態などから、真意といった心理情報を推測して、心理や精神の状態を推測することも可能になる。その結果、顧客やユーザーや相手の心理状態による、金融やコールセンタなどでの商品顧客分析管理システム、真偽分析などへの応用が可能になる。
(6)また、ピッチ周波数による感情要素の判断では、人間が持つ心理特性(感情、指向性、嗜好性、思考(心理意思))を分析して、シミュレーション構築する要素を得ることが可能になる。この人間の心理特性を、既存のシステム、商品、サービス、ビジネスモデルに応用することも可能である。
(7)上述したように、本発明の音声解析では、不明瞭な歌声、鼻歌、楽器音などからもピッチ周波数を安定かつ確実に検出できる。これを応用することによって、従来は評価が困難であった不明瞭な歌声などについても、歌唱の正確さを的確に評価判定するカラオケシステムを実現することができる。
また、ピッチ周波数やその変化を画面に表示することにより、歌声の音程や抑揚やピッチ変化を可視化することが可能になる。このように可視化された音程や抑揚やピッチ変化を参考にすることにより、正確な音程や抑揚やピッチ変化をより短時間に感覚的に習得することが可能になる。さらに、上級者の音程や抑揚やピッチ変化を可視化してお手本とすることにより、上級者の音程や抑揚やピッチ変化をより短時間に感覚的に習得することも可能になる。
(8)また、本発明の音声解析を実施することにより、従来は困難であった不明瞭な鼻歌やアカペラからもピッチ周波数を検出できるため、安定かつ確実に譜面を自動作成することが可能になる。
(9)本発明の音声解析を、言語教育システムに応用することも可能である。すなわち、本発明の音声解析を用いることにより、不馴れな外国語や標準語や方言の発話音声からもピッチ周波数を安定かつ確実に検出することがでる。このピッチ周波数に基づいて、外国語や標準語や方言の正しいリズムや発音を誘導する言語教育システムを構築することが可能になる。
(10)さらに、本発明の音声解析を、台詞指導システムに応用することも可能である。すなわち、本発明の音声解析を用いることにより、不馴れな台詞のピッチ周波数を安定かつ確実に検出することがでる。このピッチ周波数を、上級者のピッチ周波数と比較することにより、台詞の指導や更には演出を行う台詞指導システムを構築することが可能になる。
(11)また、本発明の音声解析を、ボイストレーニングシステムに応用することも可能である。すなわち、音声のピッチ周波数から、音程の不安定さや、発声方法の間違いを検出してアドバイスなどを出力することにより、正しい発声方法を指導するボイストレーニングシステムを構築することが可能になる。
[感情推定で得られる心的状態の応用例]
(1) 一般に、心的状態の推定結果は、心的状態に反応して処理を変化させる製品全般に使用が可能である。例えば、相手の心的状態に応じて応答(性格、会話特性、心理特性、感性、感情パターン、または会話分岐パターンなど)を変化させる仮想人格(エージェント、キャラクターなど)をコンピュータ上で構築することが可能である。また例えば、お客様の心的状態に柔軟に応じて、商品検索、商品クレーム対応、コールセンタ業務、受付システム、顧客感性分析、顧客管理、ゲーム、パチンコ、パチスロ、コンテンツ配信、コンテンツ作成、ネット検索、携帯電話サービス、商品説明、プレゼンテーション、または教育支援などを実現するシステムにも応用が可能となる。
(2) また、心的状態の推定結果は、心的状態をユーザーに関する校正情報とすることで処理の正確性を高める製品全般にも使用が可能である。例えば、音声認識システムにおいて、認識された語彙の候補の中から、発話者の心的状態に対して親和度の高い語彙を選択することにより、音声認識の精度を高めることが可能になる。
(3) さらに、心的状態の推定結果は、心的状態からユーザーの不正意図を推測することにより、セキュリティを高める製品全般にも使用が可能である。例えば、ユーザー認証システムでは、不安または演技などの心的状態を示すユーザーに対して、認証拒否をしたり、追加の認証を要求することによってセキュリティを高めることが可能になる。さらには、このような高セキュリティーな認証技術を基礎として、ユビキタスシステムを構築することも可能である。
(4) また、心的状態の推定結果は、心的状態を操作入力として扱う製品全般にも使用が可能である。例えば、心的状態を操作入力として処理(制御、音声処理、画像処理、またはテキスト処理など)を実行するシステムを実現することができる。また例えば、心的状態を操作入力としてキャラクター動作をコントロールすることによって、ストーリーを展開させるストーリー創作支援システムを実現することが可能になる。また例えば、心的状態を操作入力として、音律、キー、または楽器構成などを変更することにより、心的状態に沿った音楽創作や編曲を行う音楽創作支援システムを実現することも可能になる。また例えば、心的状態を操作入力として、照明、BGMなどの周辺環境をコントロールする演出装置を実現することも可能である。
(5) さらに、心的状態の推定結果は、精神分析、感情分析、感性分析、性格分析、または心理分析を目的とする装置全般にも使用が可能である。
(6) また、心的状態の推定結果は、音、音声、音楽、香り、色、映像、文字、振動、または光などの表現手段を用いて、心的状態を外部出力する装置全般にも使用が可能である。このような装置を使用することで、対人間における心情のコミュニケーションを支援することが可能になる。
(7) さらに、心的状態の推定結果は、心的状態を情報通信する通信システム全般にも使用が可能である。例えば、感性通信、または感性感情共鳴通信などに応用することができる。
(8) また、心的状態の推定結果は、映像や音楽などのコンテンツが人間に与える心理的な効果を判定(評価)する装置全般にも使用が可能である。さらに、この心理効果を項目としてコンテンツを分類することで、心理効果の面からコンテンツ検索が可能になるデータベースシステムを構築することも可能になる。
なお、映像や音楽などのコンテンツそのものを、音声信号と同様に分析することにより、コンテンツ出演者や楽器演奏者の音声興奮度や感情傾向などを検出することも可能である。また、コンテンツの音声を音声認識または音素片認識することでコンテンツの特徴を検出することも可能である。このような検出結果に従ってコンテンツを分類することで、コンテンツの特徴を切り口にしたコンテンツ検索が可能になる。
(9) さらに、心的状態の推定結果は、商品使用時におけるユーザー満足度などを心的状態によって客観的に判定する装置全般にも使用が可能である。このような装置を使用することにより、ユーザーにとって親しみやすい製品開発や仕様作成が容易になる。
(10) さらに、心的状態の推定結果は、下記の分野などにも応用が可能である。
介護支援システム、カウンセリングシステム、カーナビゲーション、自動車制御、運転者の状態監視、ユーザーインターフェース、オペレーションシステム、ロボット、アバター、ネットショッピングモール、通信教育システム、Eラーニング、学習システム、マナー研修、ノウハウ学習システム、能力判定、意味情報判断、人工知能分野、ニューラルネットワーク(ニューロンも含む)への応用、確率モデルが必要なシミュレーションやシステムなどの判断基準や分岐基準、経済・金融などの市場シミュレーションへの心理要素入力、アンケート収集、芸術家の感情や感性の解析、金融信用調査、与信管理システム、占いなどのコンテンツ、ウェアラブルコンピュータ、ユビキタスネットワーク商品、人間の知覚判断の支援、広告業務、ビルやホールなどの管理、フィルタリング、ユーザーの判断支援、キッチンやバスやトイレなどの制御、ヒューマンデバイス、柔らかさ、通気性が変化する繊維との連動による被服、癒しやコミュニケーションを目的とした仮想ペットやロボット、プランニングシステム、コーディネーターシステム、交通支援制御システム、料理支援システム、演奏支援、DJ映像効果、カラオケ装置、映像制御システム、個人認証、デザイン、設計シミュレーター、購買意欲を刺激するシステム、人事管理システム、オーディション、仮想の顧客集団市場調査、陪審員・裁判員シミュレーションシステム、スポーツや芸術や営業や戦略などのイメージトレーニング、故人や先祖のメモリアルコンテンツ作成支援、生前の感情や感性のパターンを保存するシステムやサービス、ナビゲーション・コンシェルジェサービス、ブログ作成支援、メッセンジャーサービス、目覚まし時計、健康器具、マッサージ器具、歯ブラシ、医療器具、生体デバイス、スイッチング技術、制御技術、ハブ、分岐システム、コンデンサシステム、分子コンピュータ、量子コンピュータ、ノイマン型コンピュータ、生体素子コンピュータ、ボルツマンシステム、AI制御、ファジー制御。
[備考:騒音環境下での音声信号の取得について]
本発明者は、騒音環境下においても、音声のピッチ周波数を良好に検出するため、次のような防音マスクを用いた計測環境を構築した。
まず、防音マスクの基材として防毒マスク(TOYO製 SAFETY No1880-1)を調達する。この防毒マスクは、口に接して覆う部分がゴム製である。このゴムは周辺騒音によって振動するため、周辺騒音がマスク内に侵入する。そこで、このゴム部分にシリコン(日新レジン株式会社製、クイックシリコーン、ライトグレー液状、比重1.3)を注入して重くする。 さらに、防毒マスクの通気フィルタには、キッチンペーパー5枚以上とスポンジを多層に重ねて密閉性を高める。この状態のマスク室の中央部分に小型マイクをフィットさせて設ける。このように準備された防音マスクは、シリコンの自重と異質物の積層構造によって周辺騒音の振動を効果的に減衰させることができる。その結果、被験者の口周辺にマスク形態の小型防音室を設けることに成功し、周辺騒音の影響を抑えつつ、被験者の音声を良好に集音できるようになる。
さらに、同様の防音対策を施したヘッドホンを被験者の耳に装着することにより、周辺騒音の影響をさほど受けずに、被験者と会話を行うことが可能になる。
なお、ピッチ周波数の検出には、上記の防音マスクが有効である。ただし、防音マスクの密閉空間が狭いために、音声がこもりやすい傾向となる。そのため、ピッチ周波数以外の周波数解析や音色の分析には適さない。そのような用途には、マスク同様の防音処理を施したパイプラインを防音マスクに通し、防音環境の外界(空気室)と通気させることが好ましい。この場合、呼吸に支障がないため、口だけでなく鼻も含めてマスクすることができる。この通気設備の追加によって、防音マスクにおける音声のこもりを低減することができる。さらに、被験者にとって息苦しさなどの不快感が少ないため、より自然な状態の音声を集音できるようになる。
なお、本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形で実施することができる。そのため、前述の実施例はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、なんら拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、すべて本発明の範囲内のものである。
以上説明したように、本発明は、音声解析装置などに利用可能な技術である。

Claims (8)

  1. 被験者の音声信号を取り込む音声取得部と、
    前記音声信号を周波数スペクトルに変換する周波数変換部と、
    前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める自己相関部と、
    前記自己相関波形における複数の極値の出現順番と前記複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求めるピッチ検出部と、
    を備えたことを特徴とする音声解析装置。
  2. 請求項1に記載の音声解析装置において、
    前記自己相関部は、前記周波数スペクトルを前記周波数軸上で離散的にずらしながら、前記自己相関波形の離散データを求め、
    前記ピッチ検出部は、前記自己相関波形の前記離散データを補間して、前記極値前記出現周波数を求め
    ことを特徴とする音声解析装置。
  3. 請求項1または請求項2に記載の音声解析装置において、
    前記ピッチ検出部は(前記出現順番,前記出現周波数)の母集団から、前記自己相関波形のレベル変動の小さな標本を除き、残った母集団について前記回帰分析を行い前記回帰直線の傾きに基づいて前記ピッチ周波数を求める
    ことを特徴とする音声解析装置。
  4. 請求項1ないし請求項3のいずれか1項に記載の音声解析装置において、
    前記ピッチ検出部は
    前記自己相関波形を曲線近似することにより前記自己相関波形に含まれる『フォルマントに依存する成分』を抽出する抽出部と、
    前記自己相関波形から前記成分を除去することにより、フォルマントの影響を軽減した自己相関波形を求める減算部とを備え、
    前記フォルマントの影響を軽減した前記自己相関波形に基づいて、前記ピッチ周波数を求める
    ことを特徴とする音声解析装置。
  5. 請求項1ないし請求項4のいずれか1項に記載の音声解析装置において、
    少なくとも『ピッチ周波数』と『感情状態』との対応関係を記憶する対応記憶部と、
    前記ピッチ検出部で検出された前記ピッチ周波数を前記対応関係に照会して、前記被験者の感情状態を推定する感情推定部とを備え
    ことを特徴とする感情検出用の音声解析装置。
  6. 請求項に記載の音声解析装置において、
    前記ピッチ検出部は、『前記回帰直線に対する(前記出現順番,前記出現周波数)の分散度合い』および『前記回帰直線と原点とのずれ』の少なくとも一方を、前記ピッチ周波数の不規則性として求め、
    少なくとも『ピッチ周波数』および『ピッチ周波数の不規則性』『感情状態』との対応関係を記憶する対応記憶部と、
    前記ピッチ検出部で求めた『ピッチ周波数』および『ピッチ周波数の不規則性』を前記対応関係に照会して、前記被験者の感情状態を推定する感情推定部とを備えた
    ことを特徴とする感情検出用の音声解析装置。
  7. 被験者の音声信号を取り込むステップと
    前記音声信号を周波数スペクトルに変換するステップと
    前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求めるステップと
    前記自己相関波形における複数の極値の出現順番と前記複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求めるステップと、
    を備えたことを特徴とす音声解析方法
  8. コンピュータを、請求項1ないし請求項6のいずれか1項に記載の音声解析装置として機能させるための音声解析プログラム
JP2007520082A 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム Active JP4851447B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007520082A JP4851447B2 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2005169414 2005-06-09
JP2005169414 2005-06-09
JP2005181581 2005-06-22
JP2005181581 2005-06-22
PCT/JP2006/311123 WO2006132159A1 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
JP2007520082A JP4851447B2 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム

Publications (2)

Publication Number Publication Date
JPWO2006132159A1 JPWO2006132159A1 (ja) 2009-01-08
JP4851447B2 true JP4851447B2 (ja) 2012-01-11

Family

ID=37498359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007520082A Active JP4851447B2 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム

Country Status (9)

Country Link
US (1) US8738370B2 (ja)
EP (1) EP1901281B1 (ja)
JP (1) JP4851447B2 (ja)
KR (1) KR101248353B1 (ja)
CN (1) CN101199002B (ja)
CA (1) CA2611259C (ja)
RU (1) RU2403626C2 (ja)
TW (1) TW200707409A (ja)
WO (1) WO2006132159A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9653097B2 (en) 2014-08-07 2017-05-16 Sharp Kabushiki Kaisha Sound output device, network system, and sound output method
WO2017138376A1 (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
JP2009047831A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法
KR100970446B1 (ko) 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
US8148621B2 (en) * 2009-02-05 2012-04-03 Brian Bright Scoring of free-form vocals for video game
JP5278952B2 (ja) * 2009-03-09 2013-09-04 国立大学法人福井大学 乳幼児の感情診断装置及び方法
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
TWI401061B (zh) * 2009-12-16 2013-07-11 Ind Tech Res Inst 活動力監測方法與系統
JP5696828B2 (ja) * 2010-01-12 2015-04-08 ヤマハ株式会社 信号処理装置
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
JP5494813B2 (ja) * 2010-09-29 2014-05-21 富士通株式会社 呼吸検出装置および呼吸検出方法
RU2454735C1 (ru) * 2010-12-09 2012-06-27 Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН Способ обработки речевого сигнала в частотной области
JP5803125B2 (ja) * 2011-02-10 2015-11-04 富士通株式会社 音声による抑圧状態検出装置およびプログラム
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US20130166042A1 (en) * 2011-12-26 2013-06-27 Hewlett-Packard Development Company, L.P. Media content-based control of ambient environment
KR101471741B1 (ko) * 2012-01-27 2014-12-11 이승우 보컬프랙틱 시스템
RU2510955C2 (ru) * 2012-03-12 2014-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ обнаружения эмоций по голосу
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
RU2553413C2 (ru) * 2012-08-29 2015-06-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу
RU2546311C2 (ru) * 2012-09-06 2015-04-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ оценки частоты основного тона речевого сигнала
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
KR101499606B1 (ko) * 2013-05-10 2015-03-09 서강대학교산학협력단 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US10431209B2 (en) * 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
KR101867198B1 (ko) 2013-12-05 2018-06-12 피에스티 가부시키가이샤 추정장치, 프로그램, 추정방법 및 추정시스템
US9363378B1 (en) 2014-03-19 2016-06-07 Noble Systems Corporation Processing stored voice messages to identify non-semantic message characteristics
JP6262613B2 (ja) * 2014-07-18 2018-01-17 ヤフー株式会社 提示装置、提示方法及び提示プログラム
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
US9773426B2 (en) * 2015-02-01 2017-09-26 Board Of Regents, The University Of Texas System Apparatus and method to facilitate singing intended notes
US11120816B2 (en) 2015-02-01 2021-09-14 Board Of Regents, The University Of Texas System Natural ear
US10726863B2 (en) 2015-04-27 2020-07-28 Otocon Inc. System and method for locating mobile noise source
TWI660160B (zh) 2015-04-27 2019-05-21 維呈顧問股份有限公司 移動噪音源的檢測系統與方法
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
JP6531567B2 (ja) * 2015-08-28 2019-06-19 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
US9865281B2 (en) 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
EP3309785A1 (en) * 2015-11-19 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for voiced speech detection
KR101777302B1 (ko) 2016-04-18 2017-09-12 충남대학교산학협력단 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법
CN105725996A (zh) * 2016-04-20 2016-07-06 吕忠华 一种智能控制人体器官情绪变化医疗器械装置及方法
CN105852823A (zh) * 2016-04-20 2016-08-17 吕忠华 一种医学用智能化息怒提示设备
JP6345729B2 (ja) * 2016-04-22 2018-06-20 Cocoro Sb株式会社 応対データ収集システム、顧客応対システム及びプログラム
JP6219448B1 (ja) * 2016-05-16 2017-10-25 Cocoro Sb株式会社 顧客応対制御システム、顧客応対システム及びプログラム
CN106024015A (zh) * 2016-06-14 2016-10-12 上海航动科技有限公司 一种呼叫中心坐席人员监控方法及***
CN106132040B (zh) * 2016-06-20 2019-03-19 科大讯飞股份有限公司 歌唱环境的灯光控制方法和装置
US11351680B1 (en) * 2017-03-01 2022-06-07 Knowledge Initiatives LLC Systems and methods for enhancing robot/human cooperation and shared responsibility
JP2018183474A (ja) * 2017-04-27 2018-11-22 ファミリーイナダ株式会社 マッサージ装置及びマッサージシステム
CN107368724A (zh) * 2017-06-14 2017-11-21 广东数相智能科技有限公司 基于声纹识别的防作弊网络调研方法、电子设备及存储介质
JP7103769B2 (ja) * 2017-09-05 2022-07-20 京セラ株式会社 電子機器、携帯端末、コミュニケーションシステム、見守り方法、およびプログラム
JP6907859B2 (ja) 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6904198B2 (ja) 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
JP6911208B2 (ja) * 2018-02-16 2021-07-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 発話スタイル転移
US11538455B2 (en) 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3821815A4 (en) 2018-07-13 2021-12-29 Life Science Institute, Inc. Mental/nervous system disorder estimation system, estimation program, and estimation method
US12029579B2 (en) 2018-07-13 2024-07-09 Pst Inc. Apparatus for estimating mental/neurological disease
KR20200064539A (ko) 2018-11-29 2020-06-08 주식회사 위드마인드 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법
JP7402396B2 (ja) * 2020-01-07 2023-12-21 株式会社鉄人化計画 感情解析装置、感情解析方法、及び感情解析プログラム
JP7265293B2 (ja) * 2020-01-09 2023-04-26 Pst株式会社 音声を用いて、精神・神経系疾患を推定する装置
TWI752551B (zh) * 2020-07-13 2022-01-11 國立屏東大學 迅吃偵測方法、迅吃偵測裝置與電腦程式產品
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system
CN113707180A (zh) * 2021-08-10 2021-11-26 漳州立达信光电子科技有限公司 一种哭叫声音侦测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240214A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
WO2006112009A1 (ja) * 2005-04-13 2006-10-26 Hitachi, Ltd. 雰囲気制御装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519793A (ja) 1991-07-11 1993-01-29 Hitachi Ltd ピツチ抽出方法
KR0155798B1 (ko) * 1995-01-27 1998-12-15 김광호 음성신호 부호화 및 복호화 방법
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JPH10187178A (ja) 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
JP3251555B2 (ja) 1998-12-10 2002-01-28 科学技術振興事業団 信号分析装置
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
EP1262844A1 (en) * 2001-06-01 2002-12-04 Sony International (Europe) GmbH Method for controlling a man-machine-interface unit
JP2003108197A (ja) 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
CN1272911C (zh) * 2001-07-13 2006-08-30 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
KR100393899B1 (ko) * 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
IL144818A (en) * 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
JP3841705B2 (ja) 2001-09-28 2006-11-01 日本電信電話株式会社 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
JP3806030B2 (ja) 2001-12-28 2006-08-09 キヤノン電子株式会社 情報処理装置及び方法
JP3960834B2 (ja) * 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
EP1706936A1 (en) 2004-01-09 2006-10-04 Philips Intellectual Property & Standards GmbH Decentralized power generation system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240214A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
WO2006112009A1 (ja) * 2005-04-13 2006-10-26 Hitachi, Ltd. 雰囲気制御装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9653097B2 (en) 2014-08-07 2017-05-16 Sharp Kabushiki Kaisha Sound output device, network system, and sound output method
WO2017138376A1 (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
US11147487B2 (en) 2016-02-09 2021-10-19 Pst Corporation, Inc. Estimation method, estimation program, estimation device, and estimation system

Also Published As

Publication number Publication date
TW200707409A (en) 2007-02-16
CA2611259C (en) 2016-03-22
WO2006132159A1 (ja) 2006-12-14
KR20080019278A (ko) 2008-03-03
CA2611259A1 (en) 2006-12-14
TWI307493B (ja) 2009-03-11
EP1901281B1 (en) 2013-03-20
EP1901281A1 (en) 2008-03-19
KR101248353B1 (ko) 2013-04-02
CN101199002B (zh) 2011-09-07
RU2403626C2 (ru) 2010-11-10
JPWO2006132159A1 (ja) 2009-01-08
EP1901281A4 (en) 2011-04-13
US8738370B2 (en) 2014-05-27
RU2007149237A (ru) 2009-07-20
CN101199002A (zh) 2008-06-11
US20090210220A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US11373641B2 (en) Intelligent interactive method and apparatus, computer device and computer readable storage medium
EP1423846B1 (en) Method and apparatus for speech analysis
US20120089396A1 (en) Apparatus and method for speech analysis
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
Deb et al. Fourier model based features for analysis and classification of out-of-breath speech
Fan et al. Automatic recognition of eventfulness and pleasantness of soundscape
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
He Stress and emotion recognition in natural speech in the work and family environments
Lech et al. Stress and emotion recognition using acoustic speech analysis
JP2022145373A (ja) 音声診断システム
Grigorev et al. An Electroglottographic Method for Assessing the Emotional State of the Speaker
He et al. Emotion recognition in spontaneous speech within work and family environments
Deb et al. Analysis of out-of-breath speech for assessment of person’s physical fitness
WO2016039465A1 (ja) 音響解析装置
Jiang et al. Piano Monotone Signal Recognition based on Improved Endpoint Detection and Fuzzy Neural Network
Qiu et al. Machine Learning in Human Emotion Detection from the Speech
WO2016039463A1 (ja) 音響解析装置
Bharadwaj et al. A Critical Study of the relation of Emotion and Stress from the Suprasegmental Features of an Assamese Emotional Spontaneous Speech
CN116129938A (zh) 歌声合成方法、装置、设备及存储介质
Półrolniczak et al. Analysis of the dependencies between parameters of the voice at the context of the succession of sung vowels
WO2016039464A1 (ja) 音響解析装置
Pohjalainen Tools for voice source analysis: Updated Aalto Aparat and a database of continuous speech with simultaneous electroglottography

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111020

R150 Certificate of patent or registration of utility model

Ref document number: 4851447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S201 Request for registration of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R314531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250