JP2013183755A - Detector, detection program and detection method - Google Patents
Detector, detection program and detection method Download PDFInfo
- Publication number
- JP2013183755A JP2013183755A JP2012048629A JP2012048629A JP2013183755A JP 2013183755 A JP2013183755 A JP 2013183755A JP 2012048629 A JP2012048629 A JP 2012048629A JP 2012048629 A JP2012048629 A JP 2012048629A JP 2013183755 A JP2013183755 A JP 2013183755A
- Authority
- JP
- Japan
- Prior art keywords
- detection
- unit
- parameter
- calculated
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Description
本発明は、検出装置、検出プログラムおよび検出方法に関する。 The present invention relates to a detection device, a detection program, and a detection method.
近年、音声データを分析して発話者の感情等の状態を検出する技術が知られている。例えば、音声信号に基づいて、その強度、速度、テンポ、強度変化パターンの抑揚等を検出し、それぞれの変化量から、悲しみや怒り、喜び等の感情状態を生成する方法が知られている(例えば、特許文献1)。また、音声信号をローパスフィルタ処理して、音声信号の強度やピッチ等の特徴を抽出することにより、感情を検出する方法が知られている(例えば、特許文献2)。さらに、音声情報から音韻スペクトルに係る特徴量を抽出し、予め備えた状態判断テーブルに基づいて感情状態を判断する方法が知られている(例えば、特許文献3)。さらに加えて、音声信号の振幅包絡についての周期的変動を抽出し、話者が力んだ状態で発生したか否かを判定して、話者の怒りや苛立ちを検出する装置が知られている(例えば、特許文献4)。他には、音声の高さと大きさとに関連する、音声の基本周波数、および、音声の高域周波数成分を示すスペクトルについての平坦性を評価可能な指標が用いられて、心理状態が検出される技術がある(特許文献5)。 In recent years, techniques for analyzing speech data and detecting a state such as a speaker's emotion have been known. For example, a method is known in which intensity, speed, tempo, inflection of an intensity change pattern, and the like are detected based on an audio signal, and emotional states such as sadness, anger, and joy are generated from each change amount ( For example, Patent Document 1). In addition, a method for detecting emotion by performing low-pass filter processing on an audio signal and extracting features such as intensity and pitch of the audio signal is known (for example, Patent Document 2). Furthermore, a method is known in which a feature amount related to a phoneme spectrum is extracted from speech information and an emotional state is determined based on a state determination table prepared in advance (for example, Patent Document 3). In addition, a device that extracts periodic fluctuations in the amplitude envelope of a speech signal, determines whether or not the speaker is in a state of strength, and detects the speaker's anger and irritation is known. (For example, Patent Document 4). In addition, the psychological state is detected by using an index that can evaluate the flatness of the spectrum indicating the fundamental frequency of the speech and the high frequency component of the speech related to the speech height and volume. There is technology (Patent Document 5).
また、ストレス状態(リファレンス)と音声などの生体情報との対応付けを行い、生体情報からストレス状態を推定する技術がある。例えば、ストレスセンサを使用するときに、同時に顔画像データや音声データ等の人体情報を取得し、ストレス状態と人体情報との相関について学習し、ストレスセンサを使用しない場合には、人体情報のみからストレス状態を推定する技術がある(例えば、特許文献6)。また、被験者の音声信号に基づいた感情と、被験者の生体情報とを対応付けてDB(Data Base)に登録しておき、被験者の生体情報を計測し、計測結果と対応付けられた感情をDBから検索し、検索の結果得られた感情を推定結果として出力する技術もある(例えば、特許文献7)。さらに、ストレス状態を推定する技術として、次のような技術がある。すなわち、かかる技術では、まず、学習音声に基づき予め被験者のストレス状態での音声特徴量ベクトルの出現確率、および非ストレス状態での音声特徴量ベクトルの出現確率を音声特徴量ベクトルに対応付けた符号帳を作成する。そして、検査時に、被験者の入力音声から音声特徴量を抽出し、抽出した音声特徴量に基づいて符号帳の対応する音声特徴量ベクトルを判定する。続いて、判定した音声特徴量ベクトルに対応するストレス状態での音声特徴量ベクトルの出現確率と、非ストレス状態での音声特徴量ベクトルの出現確率からストレス状態尤度および非ストレス状態尤度を算出する。その後、算出したこれらの尤度情報を一定期間蓄積し、蓄積されたストレス状態尤度および非ストレス状態尤度に基づいて話者がストレス状態にあったか否かを推定し、推定したストレス状態に対応したストレス緩和音を出力する(例えば、特許文献8)。ここで、音声は、声帯の振動が声道を伝わって口から放射される。 There is also a technique for associating a stress state (reference) with biological information such as voice and estimating the stress state from the biological information. For example, when using a stress sensor, acquire human body information such as face image data and voice data at the same time, learn about the correlation between the stress state and human body information, and if the stress sensor is not used, use only human body information There is a technique for estimating a stress state (for example, Patent Document 6). Also, emotions based on the voice signal of the subject and biological information of the subject are associated and registered in a DB (Data Base), the biological information of the subject is measured, and the emotion associated with the measurement result is stored in the DB. There is also a technique for searching from the above and outputting an emotion obtained as a result of the search as an estimation result (for example, Patent Document 7). Furthermore, there are the following techniques for estimating the stress state. That is, in this technique, first, based on the learning speech, a code that associates the appearance probability of the speech feature amount vector in the stress state of the subject and the appearance probability of the speech feature amount vector in the non-stress state in advance with the speech feature amount vector. Create a book. And at the time of a test | inspection, an audio | voice feature-value is extracted from a test subject's input audio | voice, and the audio | voice feature-value vector corresponding to a codebook is determined based on the extracted audio | voice feature-value. Subsequently, the stress state likelihood and the non-stress state likelihood are calculated from the appearance probability of the speech feature vector in the stress state corresponding to the determined speech feature vector and the appearance probability of the speech feature vector in the non-stress state. To do. After that, the calculated likelihood information is accumulated for a certain period, and it is estimated whether or not the speaker is in a stress state based on the accumulated stress state likelihood and non-stress state likelihood, and corresponds to the estimated stress state The stress relaxation sound is output (for example, Patent Document 8). Here, the sound is radiated from the mouth as the vibration of the vocal cords travels along the vocal tract.
しかしながら、上記の従来の技術では、心理状態の検出結果の精度が低いという問題がある。例えば、上記の従来の技術では、心理状態を検出する際に用いられる特徴量は、心理状態との関係が弱い声道の影響を受けている。そのため、心理状態との関係が弱い声道の影響を受けた特徴量を用いて心理状態を検出する場合には、心理状態の検出における精度が低くなってしまうという問題がある。 However, the above conventional technique has a problem that the accuracy of the detection result of the psychological state is low. For example, in the above-described conventional technique, the feature amount used when detecting the psychological state is affected by the vocal tract having a weak relationship with the psychological state. Therefore, when the psychological state is detected using the feature quantity affected by the vocal tract having a weak relationship with the psychological state, there is a problem that accuracy in detecting the psychological state is lowered.
開示の技術は、上記に鑑みてなされたものであって、心理状態の検出結果の精度の低下を抑制することができる検出装置、検出プログラムおよび検出方法を提供することを目的とする。 The disclosed technology has been made in view of the above, and an object thereof is to provide a detection device, a detection program, and a detection method that can suppress a decrease in accuracy of a detection result of a psychological state.
本願の開示する検出装置は、取得部と、第一の算出部と、第二の算出部と、決定部と、検出部とを有する。取得部は、音声を発した人物の音声データを取得する。第一の算出部は、取得部により取得された音声データから第一の特徴量を算出する。第二の算出部は、所定のパラメータを用いた声帯振動のモデルから第二の特徴量を算出する。決定部は、第二の算出部により算出された第二の特徴量のうち、第一の算出部により算出された第一の特徴量との差分が最小となる場合の第二の特徴量について、第二の特徴量を算出したときに用いられたパラメータを決定する。検出部は、決定部により決定されたパラメータを用いて人物の心理状態を検出する。 The detection device disclosed in the present application includes an acquisition unit, a first calculation unit, a second calculation unit, a determination unit, and a detection unit. The acquisition unit acquires the voice data of the person who uttered the voice. The first calculation unit calculates a first feature amount from the audio data acquired by the acquisition unit. The second calculation unit calculates a second feature amount from a vocal cord vibration model using a predetermined parameter. The determination unit includes the second feature amount when the difference between the second feature amount calculated by the second calculation unit and the first feature amount calculated by the first calculation unit is minimum. The parameter used when calculating the second feature amount is determined. The detection unit detects the psychological state of the person using the parameter determined by the determination unit.
本願の開示する検出装置の一つの態様によれば、心理状態の検出結果の精度の低下を抑制することができる。 According to one aspect of the detection device disclosed in the present application, it is possible to suppress a decrease in accuracy of the detection result of the psychological state.
以下に、本願の開示する検出装置、検出プログラムおよび検出方法の各実施例を図面に基づいて詳細に説明する。なお、実施例は開示の技術を限定するものではない。また、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Hereinafter, embodiments of a detection apparatus, a detection program, and a detection method disclosed in the present application will be described in detail with reference to the drawings. The embodiments do not limit the disclosed technology. In addition, the embodiments can be appropriately combined within a range in which processing contents are not contradictory.
実施例に係る検出装置について説明する。図1は、実施例に係る検出装置の機能構成の一例を示す図である。 The detection apparatus according to the embodiment will be described. FIG. 1 is a diagram illustrating an example of a functional configuration of the detection apparatus according to the embodiment.
[検出装置の機能構成]
図1に示すように、検出装置10は、入力部11と、出力部12と、通信部13と、記憶部14と、制御部15とを有する。
[Functional configuration of detection device]
As illustrated in FIG. 1, the
入力部11は、各種情報を制御部15に入力する。例えば、入力部11は、ユーザから、後述の検出処理を実行するための指示を受け付けて、受け付けた指示を制御部15に入力する。また、入力部11は、音声データを制御部15に入力する。ここで、音声データとは、発話者が発話した内容を示す音声のデータである。入力部11のデバイスの一例としては、発話者の音声データを制御部15に入力するためのマイクロフォンや、ユーザの操作を受け付けるマウスやキーボードなどのデバイスなどが挙げられる。
The
出力部12は、各種の情報を出力する。例えば、出力部12は、後述の決定部15dにより決定されたパラメータの種類および値を表示する。出力部12のデバイスの一例としては、液晶ディスプレイなどが挙げられる。
The
通信部13は、各装置間の通信を行うためのインターフェースである。例えば、通信部13は、図示しないサーバに接続される。かかるサーバの一例としては、後述の決定部15dにより決定されたパラメータの種類および値を受信すると、受信したパラメータを用いて、後述の検出部15eによる処理と同様の処理を行って、発話者の心理状態を検出するサーバが挙げられる。また、通信部13は、制御部15から、パラメータの種類および値を受信すると、受信したパラメータをサーバへ送信する。
The
記憶部14は、各種情報を記憶する。例えば、記憶部14は、比較用特徴量14aを記憶する。比較用特徴量14aは、後述する検出部15eにおいて、後述するバネ定数のパラメータk1、kcとの比較に用いられる特徴量である。例えば、比較用特徴量14aには、声帯の上側部分および下側部分の振動状態を表すモデルである「声帯の2質量モデル」におけるパラメータを採用することができる。ここで、「声帯の2質量モデル」については、公知のモデルである。例えば、「声帯の2質量モデル」については、「K.Ishizaka, J.L. Flanagan. “Synthesis of voiced sounds from a two-mass model of the vocal cords”, Bell.Syst.Tech.Journal, Vol. 51, pp. 1233-1268, 1972.」に記載されている。図2Aおよび図2Bは、声帯の2質量モデルの一例を示す図である。図2Aおよび図2Bの例は、次の式(1)、式(2)および式(3)によって定められる声帯の振動状態を示すモデルの一例を示す。
ストレスを受けていない状態である日常状態におけるバネ定数のパラメータk1、kcの値の範囲を「声帯の2質量モデル」を用いて算出し、算出したバネ定数のパラメータk1、kcの値の範囲を比較量特徴量14aとして採用することができる。
The range of values of the spring constant parameters k 1 and k c in the daily state that is not stressed is calculated using the “two-mass model of vocal cords”, and the calculated spring constant parameters k 1 and k c are calculated. A range of values can be adopted as the
記憶部14は、例えば、フラッシュメモリなどの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。なお、記憶部14は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。 The storage unit 14 is, for example, a semiconductor memory device such as a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 14 is not limited to the above type of storage device, and may be a RAM (Random Access Memory) or a ROM (Read Only Memory).
制御部15は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。図1に示すように、制御部15は、取得部15aと、第一の算出部15bと、第二の算出部15cと、決定部15dと、検出部15eとを有する。
The
取得部15aは、発話者の音声データを取得する。例えば、取得部15aは、入力部11から音声データが入力された場合には、入力された音声データを取得する。なお、予め録音された音声データが記憶部14に記憶されている場合には、記憶部14に記憶された音声データを取得することもできる。図3は、実施例に係る検出装置が実行する処理の一例を説明するための図である。
The
第一の算出部15bは、取得部15aにより取得された音声データから、音声の基本周波数F0、音声の高域周波数成分を示すスペクトルについての平坦性を評価可能な指標(SFM;Spectral Flatness Measure)を算出する。例えば、第一の算出部15bは、音声データの音声区間を1フレーム(例えば64msec)ごとに線形予測分析(LPC)を行い、予測残差波形を抽出する。そして、第一の算出部15bは、音声の基本周波数F0を特定することで、基本周波数F0を算出する。また、第一の算出部15bは、公知の技術、例えば、特開2011−242755号公報に記載されている技術を用いて、指標SFMを算出する。このように、第一の算出部15bは、フレームごとに、基本周波数F0および指標SFMを算出する。
The first calculation unit 15b is an index (SFM; Spectral Flatness Measure) that can evaluate the flatness of the spectrum indicating the fundamental frequency F0 of speech and the high frequency component of speech from the speech data acquired by the
図3は、実施例に係る検出装置が実行する処理の一例として、音声1フレーム分の処理を説明するための図である。図3の例に示すように、第一の算出部15bは、取得部15aにより取得された音声データの音声区間を1フレームごとに線形予測分析を行い、予測残差波形を抽出する。そして、第一の算出部15bは、基本周波数F0、指標SFMを特徴量として算出する。
FIG. 3 is a diagram for explaining processing for one frame of audio as an example of processing executed by the detection apparatus according to the embodiment. As shown in the example of FIG. 3, the first calculation unit 15 b performs linear prediction analysis for each voice segment of the voice data acquired by the
第二の算出部15cは、k1、kcなどの各種パラメータを用いた「声帯の2質量モデル」を用いて、音声の基本周波数F0´、音声の高域周波数成分を示すスペクトルについての平坦性を評価可能な指標(SFM´)を算出する。例えば、第二の算出部15cは、k1、kcなどの各種パラメータを用いた「声帯の2質量モデル」により、声帯振動をシミュレーションする。そして、第二の算出部15cは、シミュレーションの結果得られた声帯振動である声門流の1フレーム(例えば64msec)を抽出する。そして、第二の算出部15cは、音声の基本周波数を特定することで、基本周波数F0´を算出する。また、第二の算出部15cは、公知の技術、例えば、第一の算出部15bにより行われる処理と同様に、特開2011−242755号公報に記載されている技術を用いて、指標SFM´を算出する。 The second calculation unit 15c uses a “two-mass model of vocal cords” using various parameters such as k 1 and k c to flatten the spectrum indicating the fundamental frequency F0 ′ of the speech and the high frequency component of the speech. An index (SFM ′) capable of evaluating the sex is calculated. For example, the second calculation unit 15c simulates vocal fold vibration by a “two-mass model of vocal folds” using various parameters such as k 1 and k c . Then, the second calculation unit 15c extracts one frame (for example, 64 msec) of glottal flow that is vocal cord vibration obtained as a result of the simulation. And the 2nd calculation part 15c calculates fundamental frequency F0 'by specifying the fundamental frequency of an audio | voice. Further, the second calculation unit 15c uses a technique described in Japanese Patent Application Laid-Open No. 2011-242755 in the same manner as a known technique, for example, the process performed by the first calculation unit 15b. Is calculated.
図3の例では、第二の算出部15cは、「声帯の2質量モデル」により、声帯振動をシミュレーションし、基本周波数F0´および指標SFM´を特徴量として算出する。 In the example of FIG. 3, the second calculation unit 15 c simulates vocal fold vibration using a “two-mass model of the vocal fold” and calculates the fundamental frequency F0 ′ and the index SFM ′ as feature amounts.
決定部15dは、算出された特徴量F0´およびSFM´と、算出された特徴量F0およびSFMとの差分の大きさが最小となる場合の特徴量F0´およびSFM´の組について、次のような処理を行う。すなわち、決定部15dは、かかる場合の特徴量F0´およびSFM´の組を算出したときに用いられたパラメータk1、kcの値を決定する。決定部15dは、この処理をフレームごとに行って、フレームごとにパラメータk1、kcの値を決定する。
The
例えば、決定部15dは、あるフレームについて、第一の算出部15bにより算出された特徴量F0およびSFMと、第二の算出部15cにより算出された特徴量F0´およびSFM´を用いて、次の式(4)が示す評価値cの値を算出する。
c=α(F0−F0´)2+β(SFM−SFM´)2・・・式(4)
ただし、α、βは、「(F0−F0´)2」、「(SFM−SFM´)2」の項に対して重み付けを行うための定数である。
For example, the
c = α (F0−F0 ′) 2 + β (SFM−SFM ′) 2 Expression (4)
However, α and β are constants for weighting the terms “(F0−F0 ′) 2 ” and “(SFM−SFM ′) 2 ”.
そして、決定部15dは、パラメータk1、kcの値の複数の組み合わせに対して算出した複数の評価値cのうち、最も値が小さい評価値cを特定し、特定した評価値cの場合における特徴量F0´およびSFM´の組を特定する。続いて、決定部15dは、特定した特徴量F0´およびSFM´の組を算出した場合のパラメータk1、kcの値を特定することで、パラメータk1、kcの値を決定する。続いて、決定部15dは、パラメータk1、kcの種類および決定したパラメータk1、kcの値を通信部13に送信する。これにより図示しないサーバにパラメータk1、kcの種類および値が送信される。決定部15dは、この処理をフレームごとに行って、フレームごとにパラメータk1、kcの値を決定し、通信部13に送信する。
And the
図3の例では、決定部15dは、あるフレームについて、第一の算出部15bにより算出された特徴量F0およびSFMと、第二の算出部15cにより算出された特徴量F0´およびSFM´を用いて、上記の式(4)が示す評価値cの値を算出する。そして、決定部15dは、パラメータk1、kcの値の複数の組み合わせに対して算出した複数の評価値cのうち、最も値が小さい評価値cの場合における特徴量F0´およびSFM´の組を特定する。続いて、決定部15dは、特定した特徴量F0´およびSFM´の組を算出した場合のパラメータk1、kcの値を特定し、送信する。このようにして、決定部15dは、フレームごとに、特徴量F0およびSFMと、特徴量F0´およびSFM´の複数の組のそれぞれとの誤差を評価して、最適なパラメータk1、kcの値を決定し、通信部13に送信する。パラメータk1、kcの値を更新しながら、最適な値を探索する方法としては、公地の技術であるNelder-Meadシンプレックス法(J. A. Nelder, and R. Mead, "A Simplex Method for Function Minimization," Computer Journal, Vol. 7, pp. 308-313, 1965)などを利用できる。
In the example of FIG. 3, the
図4Aは、時系列に沿って、第一の算出部により算出された特徴量F0の一例を示した図である。図4Bは、時系列に沿って、決定部により特定された特徴量F0´の一例を示した図である。図4Aおよび図4Bに示す図から、図4Aに示す特徴量F0と、図4Bに示す特徴量F0´とがほぼ同一となることが把握できる。また、図5Aは、時系列に沿って、第一の算出部により算出された特徴量SFMの一例を示した図である。図5Bは、時系列に沿って、決定部により特定された特徴量SFM´の一例を示した図である。図5Aおよび図5Bに示す図から、図5Aに示す特徴量SFMと、図5Bに示す特徴量SFM´とがほぼ同一となることが把握できる。 FIG. 4A is a diagram illustrating an example of the feature amount F0 calculated by the first calculation unit along a time series. FIG. 4B is a diagram illustrating an example of the feature amount F0 ′ identified by the determination unit along a time series. From the diagrams shown in FIGS. 4A and 4B, it can be understood that the feature quantity F0 shown in FIG. 4A is substantially the same as the feature quantity F0 ′ shown in FIG. 4B. FIG. 5A is a diagram illustrating an example of the feature amount SFM calculated by the first calculation unit along a time series. FIG. 5B is a diagram illustrating an example of the feature amount SFM ′ specified by the determination unit along a time series. From the diagrams shown in FIGS. 5A and 5B, it can be understood that the feature quantity SFM shown in FIG. 5A and the feature quantity SFM ′ shown in FIG. 5B are substantially the same.
検出部15eは、決定部15dにより決定されたパラメータk1、kcを用いて発話者の心理状態を検出する。例えば、検出部15eは、まず、記憶部14に記憶された比較用特徴量14aを取得する。続いて、検出部15eは、比較用特徴量14aが示すストレスを受けていない状態である日常状態におけるバネ定数のパラメータk1の値の範囲内に、決定部15dにより決定されたパラメータk1が含まれるか否かを判定する。日常状態におけるバネ定数のパラメータk1の値の範囲内に、決定部15dにより決定されたパラメータk1が含まれない場合には、検出部15eは、発話者の状態はストレス状態などの非日常状態であることを検出する。
The detection unit 15e detects the mental state of the speaker using the parameters k 1 and k c determined by the
一方、日常状態におけるバネ定数のパラメータk1の値の範囲内に、決定部15dにより決定されたパラメータk1が含まれる場合には、検出部15eは、次のような処理を行う。すなわち、検出部15eは、比較用特徴量14aが示す日常状態におけるバネ定数のパラメータkcの値の範囲内に、決定部15dにより決定されたパラメータkcが含まれるか否かを判定する。日常状態におけるバネ定数のパラメータkcの値の範囲内に、決定部15dにより決定されたパラメータkcが含まれない場合には、検出部15eは、発話者の状態はストレス状態などの非日常状態であることを検出する。一方、日常状態におけるバネ定数のパラメータkcの値の範囲内に、決定部15dにより決定されたパラメータkcが含まれる場合には、検出部15eは、発話者の状態は日常状態であることを検出する。なお、決定部15dは、フレームごとに発話者の心理状態などの状態を検出することができる。また、決定部15dは、複数のフレームにおいて決定部15dにより決定されたパラメータk1、kcの平均値と、比較用特徴量14aが示すパラメータk1、kcの値の範囲とを比較して発話者の状態を検出することもできる。
On the other hand, within the range of values of the parameters k 1 a spring constant in everyday state, if the parameter k 1 is determined by the
図6は、従来の技術による心理状態の検出結果と、実施例に係る検出装置による心理状態の検出結果との一例を示す図である。図6の例では、「Speaker1」〜「Speaker4」の4人の男性が発話者である場合の検出結果を示す。図6の例が示す検出結果は、次のことを示す。すなわち、基本周波数F0、および、指標SFMを用いて発話者の心理状態を検出する場合に比べて、特徴量k1、kcを用いて発話者の心理状態を検出する場合の方が検出率が高いことを示す。
FIG. 6 is a diagram illustrating an example of a psychological state detection result by a conventional technique and a psychological state detection result by the detection device according to the embodiment. In the example of FIG. 6, a detection result when four men “
なお、実験によれば、日常状態では、パラメータk1は、小さい値となり、パラメータkcは、大きい値となる。また、非日常状態では、パラメータk1は、男性では大きく、女性では小さい値となり、パラメータkcは、男女ともに小さい値となる。 According to experiments, in the daily state, the parameter k 1 has a small value and the parameter k c has a large value. In an extraordinary state, the parameter k 1 is large for men and small for women, and the parameter k c is small for both men and women.
このように、検出装置10は、心理状態との関係が強く、声帯を動かす筋肉の張力に関係し、声帯の振動に影響を与えるバネ定数のパラメータk1、kcを、発話者の心理状態を検出する際に用いる。すなわち、検出装置10は、発話者の心理状態との関係が弱い声道の影響が抑制された特徴量k1、kcを用いて心理状態を検出する。したがって、検出装置10によれば、心理状態の検出結果の精度の低下を抑制することができる。
Thus, the
制御部15は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路またはCPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
The
[処理の流れ]
次に、本実施例に係る検出装置10の処理の流れについて説明する。図7は、実施例に係る検出処理の手順を示すフローチャートである。検出処理は、例えば、入力部11から、検出処理を実行するための指示を制御部15が受け付けたタイミングで実行される。
[Process flow]
Next, the process flow of the
図7に示すように、取得部15aは、発話者の音声データを取得する(S101)。続いて、第一の算出部15bは、音声データから1フレーム取得し(S102)、LPC残差波形を抽出する(S103)。そして、第一の算出部15bは、基本周波数F0および指標SFMを算出する(S104)。
As shown in FIG. 7, the
続いて、第二の算出部15cは、k1、kcなどの各種パラメータを用いた「声帯の2質量モデル」により、声帯振動をシミュレーションする(S105)。そして、第二の算出部15cは、合成された声門流から特徴量として、音声の基本周波数F0´、および、指標SFM´を算出する(S106)。その後、第二の算出部15cは、特徴量F0およびSFMと、特徴量F0´およびSFM´を用いて、式(4)が示す誤差評価値cの値を算出する(S107)。 Subsequently, the second calculation unit 15c simulates vocal fold vibration using a “two-mass model of vocal folds” using various parameters such as k 1 and k c (S105). Then, the second calculation unit 15c calculates the fundamental frequency F0 ′ and the index SFM ′ of the speech as feature amounts from the synthesized glottal flow (S106). Thereafter, the second calculation unit 15c calculates the value of the error evaluation value c indicated by the equation (4) using the feature amounts F0 and SFM and the feature amounts F0 ′ and SFM ′ (S107).
決定部15dは、評価値cが最小であるかを調べ(S108)、そうでない場合(S108否定)には、識別用特徴量として用いる2質量モデルのパラメータk1、kcの値を更新する(S109)。評価値cが最小である場合(S108肯定)、特定した特徴量F0´およびSFM´の組を算出した場合のパラメータk1、kcの値を特定することで、パラメータk1、kcの値を決定し、出力する(S110)。このように、パラメータk1、kcの値を更新しながら、最適な値を探索する方法としては、公知の技術であるNelder-Meadシンプレックス法などを利用することが可能である。
The
そして、決定部15dは、音声データの中に未処理の次のフレームがあるか否かを判定する(S111)。未処理の次のフレームがある場合(S111肯定)には、未処理の次のフレームを処理対象のフレームとして、S102に戻り、再び、上述した処理を行う。
Then, the
一方、未処理の次のフレームがない場合(S111否定)には、検出部15eは、決定部15dにより決定された入力音声全体に対する識別用特徴量パラメータk1、kcの分布を用いて発話者の心理状態を検出する(S112)。具体的には一般的な判別分析手法や識別学習が利用できる。そして、処理を終了する。
On the other hand, when there is no unprocessed next frame (No at S111), the detection unit 15e uses the distribution of the identification feature parameter parameters k 1 and k c for the entire input speech determined by the
上述してきたように、実施例に係る検出装置10は、心理状態との関係が強く、声帯を動かす筋肉の張力に関係し、声帯の振動に影響を与えるバネ定数のパラメータk1、kcを、発話者の心理状態を検出する際に用いる。すなわち、検出装置10は、発話者の心理状態との関係が弱い声道の影響が抑制された特徴量k1、kcを用いて心理状態を検出する。したがって、検出装置10によれば、心理状態の検出結果の精度の低下を抑制することができる。
As described above, the
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。 Although the embodiments related to the disclosed apparatus have been described above, the present invention may be implemented in various different forms other than the above-described embodiments. Therefore, another embodiment included in the present invention will be described below.
例えば、上記の実施例では、発話者の状態を検出する際に、バネ定数のパラメータk1、kcを用いる場合について説明したが、開示の装置は、これに限定されない。例えば、開示の装置は、発話者の状態を検出する際に、バネ定数のパラメータk1、kcに加え、声門下圧のパラメータPsを用いるようにしてもよい。ここで、声門下圧とは、声帯下の気管での空気圧を指す。また、パラメータPsは、上記の式(1)、式(2)において、F1、F2に関係するパラメータである。なお、実験によれば、日常状態では、パラメータPsは、大きい値となり、非日常状態では、パラメータPsは、とても小さい値となる。この場合、開示の装置における比較用特徴量14aには、上述したパラメータk1、kcの値の範囲に加え、声門加圧についても同様の値の範囲が含まれる。すなわち、ストレスを受けていない状態である日常状態における声門下圧のパラメータPsの値の範囲を「声帯の2質量モデル」を用いて算出し、算出した声門下圧のパラメータPsの値の範囲を比較量特徴量14aとして採用する。
For example, in the above embodiment, the case where the spring constant parameters k 1 and k c are used when detecting the state of the speaker has been described, but the disclosed apparatus is not limited to this. For example, the disclosed apparatus may use the subglottic pressure parameter Ps in addition to the spring constant parameters k 1 and k c when detecting the state of the speaker. Here, subglottic pressure refers to the air pressure in the trachea below the vocal cords. The parameter Ps is a parameter related to F 1 and F 2 in the above formulas (1) and (2). According to experiments, the parameter Ps has a large value in the daily state, and the parameter Ps has a very small value in the unusual state. In this case, the
そして、第一の算出部15bは、基本周波数F0および指標SFMを算出する。また、第二の算出部15cは、k1、kc、Psの各種パラメータの値を変更して、フレームごとに、音声の基本周波数F0´、および、指標SFM´を算出する。 Then, the first calculation unit 15b calculates the fundamental frequency F0 and the index SFM. Further, the second calculation unit 15c changes the values of various parameters of k 1 , k c , and Ps, and calculates the voice fundamental frequency F0 ′ and the index SFM ′ for each frame.
また、決定部15dは、特徴量F0およびSFMと、特徴量F0´およびSFM´を用いて、上記の式(4)が示す評価値cの値を算出する。
Further, the
そして、決定部15dは、k1、kc、Psの各種パラメータの複数の値に対して算出したそれぞれの評価値cのうち、最も値が小さい評価値cを特定し、特定した評価値cの場合における特徴量F0´およびSFM´の組を特定し、次のような処理を行う。すなわち、決定部15dは、特定した特徴量F0´およびSFM´の組を算出した場合のパラメータk1、kc、Psの値を特定することで、パラメータk1、kc、Psの値を決定する。続いて、決定部15dは、パラメータk1、kc、Psの種類および決定したパラメータk1、kc、Psの値を通信部13に送信する。その後、検出部15eは、決定部15dにより決定されたパラメータk1、kc、Psを用いて、パラメータk1、kcを用いる場合と同様の方法で発話者の心理状態を検出する。
The
図8は、従来の技術による心理状態の検出結果と、実施例および実施例の変形例に係る各検出装置による心理状態の検出結果との一例を示す図である。図8の例では、3人の男性および3人の女性が発話者である場合の検出結果を示す。図8の例が示す検出結果は、次のことを示す。すなわち、基本周波数F0、および、指標SFMを用いて発話者の心理状態を検出する場合や、特徴量k1、kcを用いて発話者の心理状態を検出する場合と比べて、特徴量k1、kc、Psを用いて発話者の心理状態を検出する場合の方が、検出率が高いことを示す。 FIG. 8 is a diagram illustrating an example of the detection result of the psychological state according to the conventional technique and the detection result of the psychological state by each detection device according to the embodiment and a modified example of the embodiment. In the example of FIG. 8, the detection result when three men and three women are speakers is shown. The detection result shown in the example of FIG. 8 indicates the following. That is, the feature amount k is compared with the case where the speaker's psychological state is detected using the fundamental frequency F0 and the index SFM, and the case where the speaker's psychological state is detected using the feature amounts k 1 and k c. 1 , k c , Ps indicates that the detection rate is higher when the speaker's psychological state is detected.
このように、変形例における検出装置は、心理状態との関係が強く、声帯を動かす筋肉の張力に関係し、声帯の振動に影響を与えるパラメータk1、kc、Psを、発話者の心理状態を検出する際に用いる。すなわち、検出装置は、発話者の心理状態との関係が弱い声道の影響が抑制された特徴量k1、kc、Psを用いて心理状態を検出する。したがって、検出装置によれば、心理状態の検出結果の精度の低下を抑制することができる。 Thus, the detection device in the modified example has a strong relationship with the psychological state, relates to the tension of the muscle that moves the vocal cords, and determines the parameters k 1 , k c , and Ps that affect the vibration of the vocal cords as the psychology of the speaker. Used when detecting the state. That is, the detection device detects the psychological state using the feature quantities k 1 , k c , and Ps in which the influence of the vocal tract having a weak relationship with the speaker's psychological state is suppressed. Therefore, according to the detection device, it is possible to suppress a decrease in the accuracy of the detection result of the psychological state.
また、実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。また、本実施例において説明した各処理のうち、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。 In addition, among the processes described in the embodiments, all or a part of the processes described as being automatically performed can be manually performed. In addition, among the processes described in this embodiment, all or a part of the processes described as being performed manually can be automatically performed by a known method.
また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理を任意に細かくわけたり、あるいはまとめたりすることができる。また、ステップを省略することもできる。 In addition, the processing at each step of each processing described in each embodiment can be arbitrarily finely divided or combined according to various loads and usage conditions. Also, the steps can be omitted.
また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理の順番を変更できる。 Further, the order of processing at each step of each processing described in each embodiment can be changed according to various loads and usage conditions.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的状態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific state of distribution / integration of each device is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
[検出プログラム]
また、上記の実施例で説明した検出装置10の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図9を用いて、上記の実施例で説明した検出装置10と同様の機能を有する検出プログラムを実行するコンピュータの一例を説明する。図9は、検出プログラムを実行するコンピュータを示す図である。
[Detection program]
Various processes of the
図9に示すように、コンピュータ300は、CPU310、ROM320、HDD330、RAM340を有する。
As illustrated in FIG. 9, the
ROM320には、OSなどの基本プログラムが記憶されている。また、HDD330には、上記の実施例で示す取得部15aと、第一の算出部15bと、第二の算出部15cと、決定部15dと、検出部15eと同様の機能を発揮する検出プログラム330aが予め記憶される。なお、検出プログラム330aについては、適宜分離しても良い。また、HDD330には、比較用特徴量が設けられる。この比較用特徴量は、上述した比較用特徴量14aに対応する。
The
そして、CPU310が、検出プログラム330aをHDD330から読み出して実行する。
Then, the
そして、CPU310は、比較用特徴量を読み出してRAM340に格納する。さらに、CPU310は、RAM340に格納された比較用特徴量を用いて、検出プログラム330aを実行する。なお、RAM340に格納される各データは、常に全てのデータがRAM330に格納されなくともよい。処理に用いられるデータがRAM340に格納されれば良い。
Then, the
なお、上記した検出プログラム330aについては、必ずしも最初からHDD330に記憶させておく必要はない。
Note that the above-described
例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
For example, the program is stored in a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into the
さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ300に接続される「他のコンピュータ(またはサーバ)」などにプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
Furthermore, the program is stored in “another computer (or server)” connected to the
10 検出装置
14 記憶部
14a 比較用特徴量
15 制御部
15a 取得部
15b 第一の算出部
15c 第二の算出部
15d 決定部
15e 検出部
DESCRIPTION OF
Claims (5)
前記取得部により取得された音声データから第一の特徴量を算出する第一の算出部と、
所定のパラメータを用いた声帯振動のモデルから第二の特徴量を算出する第二の算出部と、
前記第二の算出部により算出された第二の特徴量のうち、前記第一の算出部により算出された第一の特徴量との差分が最小となる場合の前記第二の特徴量について、該第二の特徴量を算出したときに用いられたパラメータを決定する決定部と、
前記決定部により決定されたパラメータを用いて前記人物の心理状態を検出する検出部と、
を有することを特徴とする検出装置。 An acquisition unit for acquiring voice data of a person who has made a voice;
A first calculation unit for calculating a first feature amount from the audio data acquired by the acquisition unit;
A second calculation unit for calculating a second feature amount from a model of vocal cord vibration using predetermined parameters;
Of the second feature value calculated by the second calculation unit, the second feature value when the difference from the first feature value calculated by the first calculation unit is minimum. A determination unit for determining a parameter used when calculating the second feature amount;
A detection unit for detecting the psychological state of the person using the parameters determined by the determination unit;
A detection apparatus comprising:
前記決定部は、前記バネ定数のパラメータを決定する
ことを特徴とする請求項1に記載の検出装置。 The second calculation unit calculates the second feature amount from a model of the vocal cord vibration using a parameter of a spring constant,
The detection device according to claim 1, wherein the determination unit determines a parameter of the spring constant.
前記決定部は、前記バネ定数のパラメータおよび前記声門下圧のパラメータを決定する
ことを特徴とする請求項1に記載の検出装置。 The second calculation unit calculates the second feature amount from the vocal cord vibration model using a spring constant parameter and a subglottic pressure parameter,
The detection device according to claim 1, wherein the determination unit determines a parameter of the spring constant and a parameter of the subglottic pressure.
音声を発した人物の音声データを取得し、
取得された音声データから第一の特徴量を算出し、
所定のパラメータを用いた声帯振動のモデルから第二の特徴量を算出し、
算出された前記第二の特徴量のうち、算出された前記第一の特徴量との差分が最小となる場合の前記第二の特徴量について、該第二の特徴量を算出したときに用いられたパラメータを決定し、
決定された前記パラメータを用いて前記人物の心理状態を検出する、
各処理を実行させることを特徴とする検出プログラム。 On the computer,
Get the voice data of the person who made the voice,
Calculate the first feature value from the acquired audio data,
Calculate the second feature amount from a model of vocal cord vibration using predetermined parameters,
Used when the second feature value is calculated for the second feature value when the difference between the calculated second feature value and the calculated first feature value is minimized. Determined parameters,
Detecting the psychological state of the person using the determined parameters;
A detection program characterized by causing each process to be executed.
音声を発した人物の音声データを取得し、
取得された音声データから第一の特徴量を算出し、
所定のパラメータを用いた声帯振動のモデルから第二の特徴量を算出し、
算出された前記第二の特徴量のうち、算出された前記第一の特徴量との差分が最小となる場合の前記第二の特徴量について、該第二の特徴量を算出したときに用いられたパラメータを決定し、
決定された前記パラメータを用いて前記人物の心理状態を検出する、
各処理を実行することを特徴とする検出方法。 Computer
Get the voice data of the person who made the voice,
Calculate the first feature value from the acquired audio data,
Calculate the second feature amount from a model of vocal cord vibration using predetermined parameters,
Used when the second feature value is calculated for the second feature value when the difference between the calculated second feature value and the calculated first feature value is minimized. Determined parameters,
Detecting the psychological state of the person using the determined parameters;
A detection method characterized by executing each process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048629A JP2013183755A (en) | 2012-03-05 | 2012-03-05 | Detector, detection program and detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048629A JP2013183755A (en) | 2012-03-05 | 2012-03-05 | Detector, detection program and detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013183755A true JP2013183755A (en) | 2013-09-19 |
Family
ID=49385764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012048629A Pending JP2013183755A (en) | 2012-03-05 | 2012-03-05 | Detector, detection program and detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013183755A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017138376A1 (en) * | 2016-02-09 | 2017-08-17 | Pst株式会社 | Estimation method, estimation program, estimation device, and estimation system |
WO2020166756A1 (en) * | 2019-02-14 | 2020-08-20 | 연세대학교 산학협력단 | Device for recognizing presenter's mental stress and providing feedback |
-
2012
- 2012-03-05 JP JP2012048629A patent/JP2013183755A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017138376A1 (en) * | 2016-02-09 | 2017-08-17 | Pst株式会社 | Estimation method, estimation program, estimation device, and estimation system |
US11147487B2 (en) | 2016-02-09 | 2021-10-19 | Pst Corporation, Inc. | Estimation method, estimation program, estimation device, and estimation system |
WO2020166756A1 (en) * | 2019-02-14 | 2020-08-20 | 연세대학교 산학협력단 | Device for recognizing presenter's mental stress and providing feedback |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fagherazzi et al. | Voice for health: the use of vocal biomarkers from research to clinical practice | |
Jiang et al. | Investigation of different speech types and emotions for detecting depression using different classifiers | |
Cernak et al. | Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features | |
Hadjitodorov et al. | A computer system for acoustic analysis of pathological voices and laryngeal diseases screening | |
v. Latoszek et al. | A meta-analysis: acoustic measurement of roughness and breathiness | |
Panek et al. | Acoustic analysis assessment in speech pathology detection | |
Baghai-Ravary et al. | Automatic speech signal analysis for clinical diagnosis and assessment of speech disorders | |
US11672472B2 (en) | Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses | |
CN108806722A (en) | The method and automation affective state inference system inferred for automatic affective state | |
US9489864B2 (en) | Systems and methods for an automated pronunciation assessment system for similar vowel pairs | |
Rendón et al. | Automatic detection of hypernasality in children | |
Simantiraki et al. | Stress detection from speech using spectral slope measurements | |
Ngo et al. | Computerized analysis of speech and voice for Parkinson's disease: A systematic review | |
Moro-Velázquez et al. | Modulation spectra morphological parameters: A new method to assess voice pathologies according to the grbas scale | |
Khan et al. | Cepstral separation difference: A novel approach for speech impairment quantification in Parkinson's disease | |
Pompili et al. | Automatic detection of parkinson’s disease: an experimental analysis of common speech production tasks used for diagnosis | |
Daudet et al. | Portable mTBI assessment using temporal and frequency analysis of speech | |
Zakariah et al. | [Retracted] An Analytical Study of Speech Pathology Detection Based on MFCC and Deep Neural Networks | |
Sabir et al. | Improved algorithm for pathological and normal voices identification | |
Svoboda et al. | Assessing clinical utility of machine learning and artificial intelligence approaches to analyze speech recordings in multiple sclerosis: A pilot study | |
Madruga et al. | Multicondition training for noise-robust detection of benign vocal fold lesions from recorded speech | |
Cordeiro et al. | Spectral envelope first peak and periodic component in pathological voices: A spectral analysis | |
Panek et al. | Quantification of linear and non-linear acoustic analysis applied to voice pathology detection | |
Xie et al. | Deep Neural Networks for Voice Quality Assessment Based on the GRBAS Scale. | |
JP2013183755A (en) | Detector, detection program and detection method |