JP7271827B2 - 音声感情予測方法及びシステム - Google Patents

音声感情予測方法及びシステム Download PDF

Info

Publication number
JP7271827B2
JP7271827B2 JP2021152163A JP2021152163A JP7271827B2 JP 7271827 B2 JP7271827 B2 JP 7271827B2 JP 2021152163 A JP2021152163 A JP 2021152163A JP 2021152163 A JP2021152163 A JP 2021152163A JP 7271827 B2 JP7271827 B2 JP 7271827B2
Authority
JP
Japan
Prior art keywords
emotion
prediction
vector
value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021152163A
Other languages
English (en)
Other versions
JP2023044240A (ja
Inventor
チャン、キャン
チャオ、ラシェン
チュウ、ドンシェン
ホウ、ヤキン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to JP2021152163A priority Critical patent/JP7271827B2/ja
Publication of JP2023044240A publication Critical patent/JP2023044240A/ja
Application granted granted Critical
Publication of JP7271827B2 publication Critical patent/JP7271827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、信号処理の技術分野、特に音声感情予測方法及びシステムに関する。
コンピュータは現代人の仕事や生活に欠かせないものになり、ますます重要な役割を果たしているため、人々は一般に、人間とコンピュータの相互作用が人間同士のコミュニケーションと同じくらい親切で自然で感情的なものになることを望んでいる。この目的を達成するために、音声感情認識は研究者の注目を集めている。現在、音声感情認識は、主に2つのカテゴリに分類される。1つは、従来の機械学習方法に基づき、音声感情を表すことができる効果的な特徴を抽出して分類器と組み合わせることによって認識される。もう1つは、深層学習に基づく音声感情認識方法である。これは、最初のタイプの方法よりもパフォーマンスが優れたエンドツーエンドの方法である。ただし、どの深層学習モデルを音声感情認識に使用しても、各モデルには独自の欠点があるため、単一のモデルで効果的な感情的特徴情報を包括的に学習することは困難である。
本発明は、音声感情認識の精度を向上させる音声感情予測方法及びシステムを提供することを目的とする。
上記の目的を達成するために、本発明は以下の解決手段を提供する。
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップと、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルを、m∈[1、M]として記録するステップと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む音声感情の予測方法。
本発明によって提供される具体的な実施例によれば、本発明は、以下の技術的効果を開示する。
本発明は、トレーニングセットに従ってそれぞれ異なる分類器モデルをトレーニングし、次に検証セットからそれぞれ各予測モデルのF1値ベクトルを取得し、それに対応して、F1値ベクトルのF1値を感情予測ベクトルの予測値と乗算する。最後に、各積ベクトルの各対応する乗算結果を加算して情報融合を実現し、異なる分類器の認識結果を融合することにより、音声感情認識の精度が向上する。
本発明の音声感情予測方法のプロセスの模式図である。 本発明の実施例の音声感情予測方法のプロセスの模式図である。 本発明のVGGモデルの構造の模式図である。 本発明のResNetモデルの構造の模式図である。 本発明のXceptionモデルの構造の模式図である。 本発明の音声感情予測システムの構造の模式図である。
本発明は、音声感情認識の精度を向上させる音声感情の予測方法及びシステムを提供することを目的とする。
本発明の上記目的、特徴及び利点をより顕著で分かりやすくするために、以下に図面及び発明を実施するための形態を参照しながら本発明をさらに詳しく説明する。
図1に示すように、音声感情予測方法は、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含み、
感情タイプは、中立、喜び、怒り、悲しみ、驚き、および恐れを含み、中立(Neutral)は感情がないことを意味するステップ101と、
データセットをトレーニングセットと検証セットに分割するステップ102と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップ103と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトル、m∈[1、M]として記録するステップ104と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップ105と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップ106と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップ107と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップ108と、を含む。
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。
M値が3の場合、音声感情予測法は具体的に、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれ第1分類器モデル、第2分類器モデル、および第3分類器モデルをトレーニングして、第1予測モデル、第2予測モデル、および第3予測モデルを取得し、第1分類器モデル、第2分類器モデル及び第3分類器モデルは異なるタイプの分類器であるステップと、
検証セットによれば、第1予測モデルの混同行列、第2予測モデルの混同行列、および第3予測モデルの混同行列をそれぞれ得て、第1予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第1のF1値ベクトルとして記録し、第2予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第2のF1値ベクトルとして記録し、第3予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第3のF1値ベクトルとして記録するステップと、
予測待ちの感情音声信号セットを、それぞれ第1の予測モデル、第2の予測モデル、および第3の予測モデルに入力し、第1の予測モデルによって出力される感情予測タイプは、第1の感情予測ベクトルを構成し、第2の予測モデルによって出力される感情予測タイプは、第2の感情予測ベクトルを構成し、第3の感情予測タイプによって出力される感情予測タイプは、第3の感情予測ベクトルを構成するステップと、
第1のF1値ベクトルにおけるn番目のF1値に、第1の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第1の積ベクトルを構成し、第2のF1値ベクトルにおけるn番目のF1値に、第2の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第2の積ベクトルを構成し、第3のF1値ベクトルにおけるn番目のF1値に、第3の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第3の積ベクトルを構成し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるステップと、
第1の積ベクトルにおけるn番目の乗算結果、第2の積ベクトルにおけるn番目の乗算結果、および第3の積ベクトルにおけるn番目の乗算結果を加算し、各加算結果は和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む。
トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。
本発明は、最初に、トレーニングセット音声強化メルスペクトログラムからそれぞれ異なる基本分類器ネットワークモデルをトレーニングし、次に、検証セット音声強化メルスペクトログラムからそれぞれ各基本分類器ネットワークモデルのF1値ベクトルを取得し、かつそれをテスト音声と、各対応する基本分類器感情予測値ベクトルにおいて、ドット積演算し、最後に各基本モデルのドット積ベクトルを加算して情報融合を実現する。この方法は、異なる分類器の分類情報を使用し、各予測モデルの優勢相補を通じて感情認識の精度を向上させる。
以下では、具体的な実施例を使用して、本発明の音声感情予測方法を説明する。
本実施例では、7200個のCASIA中国語感情音声データを、トレーニングセット、検証セット、およびテストセットとして選択し、3つの比率は8:1:1で、認識される感情のタイプは6種類であった。図2に示すように、音声感情予測法は、
トレーニングセットの感情音声から強化されたメルスペクトログラムを抽出し、VGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルをそれぞれトレーニングし、VGGモデル(VGG分類ネットワークモデル)、ResNetモデル(ResNet分類ネットワークモデル)、およびXception(Xception分類ネットワークモデル)モデルに対応する予測モデルを取得し、
VGGモデルの構造を図3に、ResNetモデルの構造を図4に、Xceptionモデルの構造を図5に示したStep1と、
検証セットの感情音声から、強化されたメルスペクトログラムを抽出し、Step1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器ネットワークモデルの入力として使用され、各予測モデルによって出力された検証セットの音声感情混同行列に従って、各基本分類器ネットワークモデルの下での検証セット音声のさまざまな感情のF1値ベクトルを取得したStep2と、
テストセットの感情音声から強化されたメルスペクトログラムを抽出し、それぞれStep1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルの入力とし、それぞれ異なるモデルのテストサンプルの感情予測ベクトルを取得し、次に各予測モデルの感情予測ベクトルと、Step2で取得された検証セットの各予測モデルでのF1値ベクトルに対してドット積演算を実行し、次に各予測モデルのドット積ベクトルを加算して和ベクトルを取得し、和ベクトル内の要素の最大値に対応する感情は、テスト音声の認識感情であった。ここで、其中,ドット積演算は、感情予測ベクトルのn番目の予測値にF1値ベクトルのn番目のF1値を乗算することを指し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであったStep3と、を含む。
トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下でのテスト音声(テストセット)の感情予測ベクトルは、それぞれ
Figure 0007271827000001
であり、
ここで、Nは、感情の種類の数を示し、EVggは、第1の予測モデル(VGG予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000002
は、第1の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000003
は、第1の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000004
は、第1の予測モデルの第N種の感情タイプの予測値であった。
Resは、第2の予測モデル(ResNet予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000005
は、第2の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000006
は、第2の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000007
は、第2の予測モデルの第N種の感情タイプの予測値であった。
Xceは、第3の予測モデル(Xception予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000008
は、第3の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000009
は、第3の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000010
は、第3の予測モデルの第N種の感情タイプの予測値であった。
トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下での検証セットにおける感情音声信号のF1値ベクトルはそれぞれ
Figure 0007271827000011
であり、
F1Vggは、検証セットに従って第1の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000012
は、第1の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000013
は、第1の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000014
は、第1の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1Resは、検証セットに従って第2の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000015
は、第2の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000016
は、第2の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000017
は、第2の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1Xceは、検証セットに従って第3の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000018
は、第3の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000019
は、第3の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000020
は、第3の予測モデルの第N種の感情タイプによって予測されたF1値であった。
各予測モデルのF1値ベクトルと感情予測ベクトルに対してドット積演算を実行し、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを取得した。
Figure 0007271827000021
であり、
Vggは、第1の予測モデルによって対応するドット積ベクトル、VResは、第2の予測モデルに対応するドット積ベクトル、VXceは、第3の予測モデルに対応するドット積ベクトルであった。
次に、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを加算して、和ベクトルを次のように取得した。
S=VXce+VRes+VXce(10)
ベクトルSに含まれる要素の数はN個であり、N個の要素の最大値要素に対応する感情は、テスト音声の認識感情であった。
テストセットの実験結果を表1に示した。表1から、本発明の音声感情認識方法は、各単一分類器モデルよりも認識精度が高く、本発明による認識方法の性能が優れていることが分かる。
表1 各種方法の実験結果の比較表
Figure 0007271827000022
図6に示すように、音声感情予測システムは、
感情音声データセットを収集するために使用され、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュール201と、
データセットをトレーニングセットと検証セットに分割するために使用されるデータセット分割モジュール202と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルトレーニングモジュール203と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルとして記録するために使用されるF1値ベクトル決定モジュール204と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュール205と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるために使用されるF1値ベクトルと感情予測ベクトルの乗算モジュール206と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュール207と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するために使用される感情タイプ決定モジュールと、を含む。
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。
トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。
本明細書では、特定の例を使用して、本発明の原理と実施形態を説明し、上記の実施例の説明は、本発明の方法とコアアイデアを理解するのを助けるためにのみ使用され、同時に、当業者にとって、本発明のアイデアによれば、発明を実施するための形態および応用範囲に変更がある。要約すると、本明細書の内容は、本発明の限定として解釈されるべきではない。

Claims (5)

  1. 感情音声データセットを収集するために使用され、前記データセットの各サンプルは、感
    情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュールと、
    前記データセットをトレーニングセットと検証セットに分割するために使用されるデータ
    セット分割モジュールと、
    前記トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレー
    ニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルト
    レーニングモジュールと、
    前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モ
    デルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番
    目のF1値ベクトルm∈[1,M]として記録するために使用されるF1値ベクトル決定
    モジュールと、
    予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m
    番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、こ
    れを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュールと、
    m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn
    番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値
    に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1
    、N]、Nは感情タイプの数を表すために使用されるF1値ベクトルと感情予測ベクトル
    乗算モジュールと、
    それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し
    、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュールと、
    前記和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決
    定するために使用される感情タイプ決定モジュールと、を含むことを特徴とする音声感情
    予測システム。
  2. M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、Res
    Netモデル、およびXceptionモデルであることを特徴とする請求項に記載の
    音声感情予測システム。
  3. 前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は
    、どちらも強化されたメルスペクトログラムであることを特徴とする請求項に記載の音
    声感情予測システム。
  4. 前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトロ
    グラムであることを特徴とする請求項に記載の音声感情予測システム。
  5. 前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化さ
    れたメルスペクトログラムであることを特徴とする請求項に記載の音声感情予測システ
    ム。
JP2021152163A 2021-09-17 2021-09-17 音声感情予測方法及びシステム Active JP7271827B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021152163A JP7271827B2 (ja) 2021-09-17 2021-09-17 音声感情予測方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021152163A JP7271827B2 (ja) 2021-09-17 2021-09-17 音声感情予測方法及びシステム

Publications (2)

Publication Number Publication Date
JP2023044240A JP2023044240A (ja) 2023-03-30
JP7271827B2 true JP7271827B2 (ja) 2023-05-12

Family

ID=85725690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021152163A Active JP7271827B2 (ja) 2021-09-17 2021-09-17 音声感情予測方法及びシステム

Country Status (1)

Country Link
JP (1) JP7271827B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
JP2015069231A (ja) 2013-09-26 2015-04-13 Kddi株式会社 キャラクタ生成装置およびプログラム
WO2019155523A1 (ja) 2018-02-06 2019-08-15 日本電気株式会社 分類器形成装置、分類器形成方法、及びプログラムを格納する非一時的なコンピュータ可読媒体
JP2020004137A (ja) 2018-06-28 2020-01-09 エヌ・ティ・ティ・コミュニケーションズ株式会社 評価装置、評価方法および評価プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
JP2015069231A (ja) 2013-09-26 2015-04-13 Kddi株式会社 キャラクタ生成装置およびプログラム
WO2019155523A1 (ja) 2018-02-06 2019-08-15 日本電気株式会社 分類器形成装置、分類器形成方法、及びプログラムを格納する非一時的なコンピュータ可読媒体
JP2020004137A (ja) 2018-06-28 2020-01-09 エヌ・ティ・ティ・コミュニケーションズ株式会社 評価装置、評価方法および評価プログラム

Also Published As

Publication number Publication date
JP2023044240A (ja) 2023-03-30

Similar Documents

Publication Publication Date Title
CN106919646B (zh) 中文文本摘要生成***及方法
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
JP2764277B2 (ja) 音声認識装置
CN109829058A (zh) 一种基于多任务学习提高方言识别准确率的分类识别方法
CN108388926A (zh) 语音交互满意度的确定方法及设备
CN105427858A (zh) 实现语音自动分类的方法及***
Wang et al. Speech emotion recognition based on multi‐feature and multi‐lingual fusion
Barker et al. The CHiME challenges: Robust speech recognition in everyday environments
CN114579743A (zh) 基于注意力的文本分类方法、装置及计算机可读介质
Arla et al. Multiclass spoken language identification for Indian Languages using deep learning
Mohmmad et al. Tree cutting sound detection using deep learning techniques based on mel spectrogram and MFCC features
CN116612541A (zh) 一种多模态情感识别方法、装置及存储介质
Krishna et al. Language independent gender identification from raw waveform using multi-scale convolutional neural networks
Liu et al. Time-frequency attention for speech emotion recognition with squeeze-and-excitation blocks
CN110390929A (zh) 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
JP7271827B2 (ja) 音声感情予測方法及びシステム
Dua et al. Gujarati language automatic speech recognition using integrated feature extraction and hybrid acoustic model
Wan Research on speech separation and recognition algorithm based on deep learning
CN113823271B (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
Lichouri et al. Toward building another arabic voice command dataset for multiple speech processing tasks
Pragati et al. Evaluation of Customer Care Executives Using Speech Emotion Recognition
Wu et al. Cm-tcn: channel-aware multi-scale temporal convolutional networks for speech emotion recognition
Pavithra Recurrent Neural Network Based Speech emotion detection using Deep Learning
Hatem et al. Human Speaker Recognition Based Database Method
Ahamed et al. Emotion Detection using Speech and Face in Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221230

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20221230

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230331

R150 Certificate of patent or registration of utility model

Ref document number: 7271827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150