JP7271827B2

JP7271827B2 - 音声感情予測方法及びシステム

Info

Publication number: JP7271827B2
Application number: JP2021152163A
Authority: JP
Inventors: チャン、キャン; チャオ、ラシェン; チュウ、ドンシェン; ホウ、ヤキン
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-05-12
Anticipated expiration: 2041-09-17
Also published as: JP2023044240A

Description

本発明は、信号処理の技術分野、特に音声感情予測方法及びシステムに関する。

コンピュータは現代人の仕事や生活に欠かせないものになり、ますます重要な役割を果たしているため、人々は一般に、人間とコンピュータの相互作用が人間同士のコミュニケーションと同じくらい親切で自然で感情的なものになることを望んでいる。この目的を達成するために、音声感情認識は研究者の注目を集めている。現在、音声感情認識は、主に２つのカテゴリに分類される。１つは、従来の機械学習方法に基づき、音声感情を表すことができる効果的な特徴を抽出して分類器と組み合わせることによって認識される。もう１つは、深層学習に基づく音声感情認識方法である。これは、最初のタイプの方法よりもパフォーマンスが優れたエンドツーエンドの方法である。ただし、どの深層学習モデルを音声感情認識に使用しても、各モデルには独自の欠点があるため、単一のモデルで効果的な感情的特徴情報を包括的に学習することは困難である。

本発明は、音声感情認識の精度を向上させる音声感情予測方法及びシステムを提供することを目的とする。

上記の目的を達成するために、本発明は以下の解決手段を提供する。

感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれＭ個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップと、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつｍ番目の予測モデルの混同行列に従って、ｍ番目の予測モデルに対応するＦ１値ベクトルを決定し、ｍ番目のＦ１値ベクトルを、ｍ∈［１、Ｍ］として記録するステップと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、ｍ番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、ｍ番目の感情予測ベクトルとして記録するステップと、
ｍ番目のＦ１値ベクトルにおけるｎ番目のＦ１値にｍ番目の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算の結果がｍ番目の積ベクトルになり、ｎ番目のＦ１値に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであり、ｎ∈［１、Ｎ］、Ｎは感情タイプの数を表すステップと、
それぞれ、各積ベクトルにおけるｎ番目の乗算結果を加算してｎ番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む音声感情の予測方法。

本発明によって提供される具体的な実施例によれば、本発明は、以下の技術的効果を開示する。

本発明は、トレーニングセットに従ってそれぞれ異なる分類器モデルをトレーニングし、次に検証セットからそれぞれ各予測モデルのＦ１値ベクトルを取得し、それに対応して、Ｆ１値ベクトルのＦ１値を感情予測ベクトルの予測値と乗算する。最後に、各積ベクトルの各対応する乗算結果を加算して情報融合を実現し、異なる分類器の認識結果を融合することにより、音声感情認識の精度が向上する。

本発明の音声感情予測方法のプロセスの模式図である。本発明の実施例の音声感情予測方法のプロセスの模式図である。本発明のＶＧＧモデルの構造の模式図である。本発明のＲｅｓＮｅｔモデルの構造の模式図である。本発明のＸｃｅｐｔｉｏｎモデルの構造の模式図である。本発明の音声感情予測システムの構造の模式図である。

本発明は、音声感情認識の精度を向上させる音声感情の予測方法及びシステムを提供することを目的とする。

本発明の上記目的、特徴及び利点をより顕著で分かりやすくするために、以下に図面及び発明を実施するための形態を参照しながら本発明をさらに詳しく説明する。

図１に示すように、音声感情予測方法は、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含み、
感情タイプは、中立、喜び、怒り、悲しみ、驚き、および恐れを含み、中立（Ｎｅｕｔｒａｌ）は感情がないことを意味するステップ１０１と、
データセットをトレーニングセットと検証セットに分割するステップ１０２と、
トレーニングセットに従って、それぞれＭ個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップ１０３と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつｍ番目の予測モデルの混同行列に従って、ｍ番目の予測モデルに対応するＦ１値ベクトルを決定し、ｍ番目のＦ１値ベクトル、ｍ∈［１、Ｍ］として記録するステップ１０４と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、ｍ番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、ｍ番目の感情予測ベクトルとして記録するステップ１０５と、
ｍ番目のＦ１値ベクトルにおけるｎ番目のＦ１値にｍ番目の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算の結果がｍ番目の積ベクトルになり、ｎ番目のＦ１値に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであり、ｎ∈［１、Ｎ］、Ｎは感情タイプの数を表すステップ１０６と、
それぞれ、各積ベクトルにおけるｎ番目の乗算結果を加算してｎ番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップ１０７と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップ１０８と、を含む。

Ｍ値は３であり、分類器モデルの３つの異なるタイプは、それぞれＶＧＧモデル、ＲｅｓＮｅｔモデル、およびＸｃｅｐｔｉｏｎモデルである。

Ｍ値が３の場合、音声感情予測法は具体的に、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれ第１分類器モデル、第２分類器モデル、および第３分類器モデルをトレーニングして、第１予測モデル、第２予測モデル、および第３予測モデルを取得し、第１分類器モデル、第２分類器モデル及び第３分類器モデルは異なるタイプの分類器であるステップと、
検証セットによれば、第１予測モデルの混同行列、第２予測モデルの混同行列、および第３予測モデルの混同行列をそれぞれ得て、第１予測モデルの混同行列に従ってＦ１値ベクトルを決定し、それを第１のＦ１値ベクトルとして記録し、第２予測モデルの混同行列に従ってＦ１値ベクトルを決定し、それを第２のＦ１値ベクトルとして記録し、第３予測モデルの混同行列に従ってＦ１値ベクトルを決定し、それを第３のＦ１値ベクトルとして記録するステップと、
予測待ちの感情音声信号セットを、それぞれ第１の予測モデル、第２の予測モデル、および第３の予測モデルに入力し、第１の予測モデルによって出力される感情予測タイプは、第１の感情予測ベクトルを構成し、第２の予測モデルによって出力される感情予測タイプは、第２の感情予測ベクトルを構成し、第３の感情予測タイプによって出力される感情予測タイプは、第３の感情予測ベクトルを構成するステップと、
第１のＦ１値ベクトルにおけるｎ番目のＦ１値に、第１の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算結果が第１の積ベクトルを構成し、第２のＦ１値ベクトルにおけるｎ番目のＦ１値に、第２の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算結果が第２の積ベクトルを構成し、第３のＦ１値ベクトルにおけるｎ番目のＦ１値に、第３の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算結果が第３の積ベクトルを構成し、ｎ番目のＦ１値に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであるステップと、
第１の積ベクトルにおけるｎ番目の乗算結果、第２の積ベクトルにおけるｎ番目の乗算結果、および第３の積ベクトルにおけるｎ番目の乗算結果を加算し、各加算結果は和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む。

トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。

本発明は、最初に、トレーニングセット音声強化メルスペクトログラムからそれぞれ異なる基本分類器ネットワークモデルをトレーニングし、次に、検証セット音声強化メルスペクトログラムからそれぞれ各基本分類器ネットワークモデルのＦ１値ベクトルを取得し、かつそれをテスト音声と、各対応する基本分類器感情予測値ベクトルにおいて、ドット積演算し、最後に各基本モデルのドット積ベクトルを加算して情報融合を実現する。この方法は、異なる分類器の分類情報を使用し、各予測モデルの優勢相補を通じて感情認識の精度を向上させる。

以下では、具体的な実施例を使用して、本発明の音声感情予測方法を説明する。

本実施例では、７２００個のＣＡＳＩＡ中国語感情音声データを、トレーニングセット、検証セット、およびテストセットとして選択し、３つの比率は８：１：１で、認識される感情のタイプは６種類であった。図２に示すように、音声感情予測法は、
トレーニングセットの感情音声から強化されたメルスペクトログラムを抽出し、ＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類ネットワークモデルをそれぞれトレーニングし、ＶＧＧモデル（ＶＧＧ分類ネットワークモデル）、ＲｅｓＮｅｔモデル（ＲｅｓＮｅｔ分類ネットワークモデル）、およびＸｃｅｐｔｉｏｎ（Ｘｃｅｐｔｉｏｎ分類ネットワークモデル）モデルに対応する予測モデルを取得し、
ＶＧＧモデルの構造を図３に、ＲｅｓＮｅｔモデルの構造を図４に、Ｘｃｅｐｔｉｏｎモデルの構造を図５に示したＳｔｅｐ１と、
検証セットの感情音声から、強化されたメルスペクトログラムを抽出し、Ｓｔｅｐ１でトレーニングされたＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類器ネットワークモデルの入力として使用され、各予測モデルによって出力された検証セットの音声感情混同行列に従って、各基本分類器ネットワークモデルの下での検証セット音声のさまざまな感情のＦ１値ベクトルを取得したＳｔｅｐ２と、
テストセットの感情音声から強化されたメルスペクトログラムを抽出し、それぞれＳｔｅｐ１でトレーニングされたＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類ネットワークモデルの入力とし、それぞれ異なるモデルのテストサンプルの感情予測ベクトルを取得し、次に各予測モデルの感情予測ベクトルと、Ｓｔｅｐ２で取得された検証セットの各予測モデルでのＦ１値ベクトルに対してドット積演算を実行し、次に各予測モデルのドット積ベクトルを加算して和ベクトルを取得し、和ベクトル内の要素の最大値に対応する感情は、テスト音声の認識感情であった。ここで、其中，ドット積演算は、感情予測ベクトルのｎ番目の予測値にＦ１値ベクトルのｎ番目のＦ１値を乗算することを指し、ｎ番目のＦ１値に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであったＳｔｅｐ３と、を含む。

トレーニングされたＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類器の下でのテスト音声（テストセット）の感情予測ベクトルは、それぞれ

であり、
ここで、Ｎは、感情の種類の数を示し、Ｅ_Ｖｇｇは、第１の予測モデル（ＶＧＧ予測モデル）によって出力された感情予測ベクトル、

は、第１の予測モデルの第１種感情タイプの予測値、

は、第１の予測モデルの第２種感情タイプの予測値、

は、第１の予測モデルの第Ｎ種の感情タイプの予測値であった。
Ｅ_Ｒｅｓは、第２の予測モデル（ＲｅｓＮｅｔ予測モデル）によって出力された感情予測ベクトル、

は、第２の予測モデルの第１種感情タイプの予測値、

は、第２の予測モデルの第２種感情タイプの予測値、

は、第２の予測モデルの第Ｎ種の感情タイプの予測値であった。
Ｅ_Ｘｃｅは、第３の予測モデル（Ｘｃｅｐｔｉｏｎ予測モデル）によって出力された感情予測ベクトル、

は、第３の予測モデルの第１種感情タイプの予測値、

は、第３の予測モデルの第２種感情タイプの予測値、

は、第３の予測モデルの第Ｎ種の感情タイプの予測値であった。

トレーニングされたＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類器の下での検証セットにおける感情音声信号のＦ１値ベクトルはそれぞれ

であり、
Ｆ１_Ｖｇｇは、検証セットに従って第１の予測モデルによって取得されたＦ１値ベクトル、

は、第１の予測モデルの第１種感情タイプによって予測されたＦ１値、

は、第１の予測モデルの第２種感情タイプによって予測されたＦ１値、

は、第１の予測モデルの第Ｎ種の感情タイプによって予測されたＦ１値であった。
Ｆ１_Ｒｅｓは、検証セットに従って第２の予測モデルによって取得されたＦ１値ベクトル、

は、第２の予測モデルの第１種感情タイプによって予測されたＦ１値、

は、第２の予測モデルの第２種感情タイプによって予測されたＦ１値、

は、第２の予測モデルの第Ｎ種の感情タイプによって予測されたＦ１値であった。
Ｆ１_Ｘｃｅは、検証セットに従って第３の予測モデルによって取得されたＦ１値ベクトル、

は、第３の予測モデルの第１種感情タイプによって予測されたＦ１値、

は、第３の予測モデルの第２種感情タイプによって予測されたＦ１値、

は、第３の予測モデルの第Ｎ種の感情タイプによって予測されたＦ１値であった。

各予測モデルのＦ１値ベクトルと感情予測ベクトルに対してドット積演算を実行し、ＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類器の下でのドット積ベクトルを取得した。

であり、
Ｖ_Ｖｇｇは、第１の予測モデルによって対応するドット積ベクトル、Ｖ_Ｒｅｓは、第２の予測モデルに対応するドット積ベクトル、Ｖ_Ｘｃｅは、第３の予測モデルに対応するドット積ベクトルであった。

次に、ＶＧＧ、ＲｅｓＮｅｔ、Ｘｃｅｐｔｉｏｎの３つの基本的な分類器の下でのドット積ベクトルを加算して、和ベクトルを次のように取得した。
Ｓ＝Ｖ_Ｘｃｅ＋Ｖ_Ｒｅｓ＋Ｖ_Ｘｃｅ（１０）
ベクトルＳに含まれる要素の数はＮ個であり、Ｎ個の要素の最大値要素に対応する感情は、テスト音声の認識感情であった。

テストセットの実験結果を表１に示した。表１から、本発明の音声感情認識方法は、各単一分類器モデルよりも認識精度が高く、本発明による認識方法の性能が優れていることが分かる。

表１各種方法の実験結果の比較表

図６に示すように、音声感情予測システムは、
感情音声データセットを収集するために使用され、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュール２０１と、
データセットをトレーニングセットと検証セットに分割するために使用されるデータセット分割モジュール２０２と、
トレーニングセットに従って、それぞれＭ個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルトレーニングモジュール２０３と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつｍ番目の予測モデルの混同行列に従って、ｍ番目の予測モデルに対応するＦ１値ベクトルを決定し、ｍ番目のＦ１値ベクトルとして記録するために使用されるＦ１値ベクトル決定モジュール２０４と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、ｍ番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、ｍ番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュール２０５と、
ｍ番目のＦ１値ベクトルにおけるｎ番目のＦ１値にｍ番目の感情予測ベクトルにおけるｎ番目の予測値を乗算すると、各乗算の結果がｍ番目の積ベクトルになり、ｎ番目のＦ１値に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであるために使用されるＦ１値ベクトルと感情予測ベクトルの乗算モジュール２０６と、
それぞれ、各積ベクトルにおけるｎ番目の乗算結果を加算してｎ番目の加算結果を取得し、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュール２０７と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するために使用される感情タイプ決定モジュールと、を含む。

本明細書では、特定の例を使用して、本発明の原理と実施形態を説明し、上記の実施例の説明は、本発明の方法とコアアイデアを理解するのを助けるためにのみ使用され、同時に、当業者にとって、本発明のアイデアによれば、発明を実施するための形態および応用範囲に変更がある。要約すると、本明細書の内容は、本発明の限定として解釈されるべきではない。

Claims

感情音声データセットを収集するために使用され、前記データセットの各サンプルは、感
情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュールと、
前記データセットをトレーニングセットと検証セットに分割するために使用されるデータ
セット分割モジュールと、
前記トレーニングセットに従って、それぞれＭ個の異なるタイプの分類器モデルをトレー
ニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルト
レーニングモジュールと、
前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつｍ番目の予測モ
デルの混同行列に従って、ｍ番目の予測モデルに対応するＦ１値ベクトルを決定し、ｍ番
目のＦ１値ベクトルｍ∈［１，Ｍ］として記録するために使用されるＦ１値ベクトル決定
モジュールと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、ｍ
番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、こ
れを、ｍ番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュールと、
ｍ番目のＦ１値ベクトルにおけるｎ番目のＦ１値にｍ番目の感情予測ベクトルにおけるｎ
番目の予測値を乗算すると、各乗算の結果がｍ番目の積ベクトルになり、ｎ番目のＦ１値
に対応する感情タイプは、ｎ番目の予測値に対応する感情タイプと同じであり、ｎ∈［１
、Ｎ］、Ｎは感情タイプの数を表すために使用されるＦ１値ベクトルと感情予測ベクトル
乗算モジュールと、
それぞれ、各積ベクトルにおけるｎ番目の乗算結果を加算してｎ番目の加算結果を取得し
、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュールと、
前記和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決
定するために使用される感情タイプ決定モジュールと、を含むことを特徴とする音声感情
予測システム。
Ｍ値は３であり、分類器モデルの３つの異なるタイプは、それぞれＶＧＧモデル、Ｒｅｓ
Ｎｅｔモデル、およびＸｃｅｐｔｉｏｎモデルであることを特徴とする請求項１に記載の
音声感情予測システム。
前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は
、どちらも強化されたメルスペクトログラムであることを特徴とする請求項１に記載の音
声感情予測システム。
前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトロ
グラムであることを特徴とする請求項１に記載の音声感情予測システム。
前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化さ
れたメルスペクトログラムであることを特徴とする請求項４に記載の音声感情予測システ
ム。