CN112489690A - 语音情绪识别方法及*** - Google Patents
语音情绪识别方法及*** Download PDFInfo
- Publication number
- CN112489690A CN112489690A CN202011536031.0A CN202011536031A CN112489690A CN 112489690 A CN112489690 A CN 112489690A CN 202011536031 A CN202011536031 A CN 202011536031A CN 112489690 A CN112489690 A CN 112489690A
- Authority
- CN
- China
- Prior art keywords
- audio
- emotion recognition
- voice file
- voice
- speech emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 25
- 230000003595 spectral effect Effects 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 4
- 230000008451 emotion Effects 0.000 abstract description 18
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种语音情绪识别方法,包括:将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。本发明还涉及一种语音情绪识别***。本发明能够提升语音情绪识别准确率,并且在短时间内准确、实时地识别说话人的潜在情绪。
Description
技术领域
本发明涉及一种语音情绪识别方法及***。
背景技术
传统的基于支持向量机(Support Vector Machine,SVM)、隐马尔科夫链(HiddenMarkov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、K最近邻居(KNearest Neighbors,KNN)等方法在语音情绪识别方面取得了一定的效果。
然而,传统的语音情绪识别方法准确率并不高,且不能够在短时间内准确、实时地识别说话人的潜在情绪。
发明内容
有鉴于此,有必要提供一种语音情绪识别方法及***,其能够提升语音情绪识别准确率,并且在短时间内准确、实时地识别说话人的潜在情绪。
本发明提供一种语音情绪识别方法,该方法包括如下步骤:a.将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;b.使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;c.将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
具体地,所述的音频预处理包括:静音移除及数据增强。
具体地,所述的静音移除包括:
使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。
具体地,所述的语音数据增强包括:
如果当前语音文件短于最小音频片段数据,则将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
具体地,所述的步骤b包括:
使用音频处理库函数抽取包括以音高、能量、过零率、色度为代表的韵律特征,以共振频率、谱特征为代表的质量特征,及以梅尔倒频谱系数、MFCC一阶导数、线性预测编码系数为代表的导出特征,通过拼接的方式组成音频特征向量。
具体地,所述的步骤b包括:
使用谱图像特征的形式展示预处理后的语音文件的多维度特征。
具体地,所述语音情绪识别模型为卷积神经网络模型,采用所述卷积神经网络模型完成语音情绪识别。
具体地,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型,采用所述融合双向长短时记忆与注意力机制模型完成语音情绪识别。
本发明提供一种语音情绪识别***,该***包括该***包括预处理模块、音频特征抽取模块、语音情绪识别模块,其中:所述预处理模块用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;所述音频特征抽取模块用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;所述语音情绪识别模块用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
本发明通过深度学习语音情绪识别模型,使得语音情绪识别的准确率得到明显提升。从实际应用效果来看,本发明能够在短时间内准确、实时地识别说话人的潜在情绪。
附图说明
图1为本发明语音情绪识别方法的流程图;
图2为本发明实施例提供的BiLSTM+Att模型示意图;
图3为本发明语音情绪识别***的硬件架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
参阅图1所示,是本发明语音情绪识别方法较佳实施例的作业流程图。
步骤S1,将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件。具体而言:
将说话人说的一句话保存为一个原始语音文件,所述原始语音文件为wav或者mp3格式,时长2秒左右。对所述原始语音文件进行音频预处理,所述音频预处理包括:静音移除及数据增强。
进一步地,
a)静音移除:使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。其中,所述语音能量为根均方能量(Root-Mean-SquareEnergy,RMSE)。
b)语音数据增强:如果当前语音文件短于最小音频片段数据,则使用语音数据增强的方法增加当前语音文件音频的长度,使得当前语音文件有足够的数据输入语音情绪识别模型,且保证当前语音文件中语音情绪识别的结果与原始语音情绪相同。本实施例中的语音数据增强方法是将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
步骤S2,使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征。具体而言:
所述音频特征抽取包括两种方法:
a)音频特征向量:使用音频处理库函数抽取包括以音高(Pitch)、能量(energy)、过零率(Zero-Crossing Rate,ZCR)、色度(chroma)为代表的韵律(prosody)特征,以共振频率(Fromant Frequencies)、谱(Spectral)特征为代表的质量(quality)特征,及以梅尔倒频谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、MFCC一阶导数(first timederivatives of MFCC)、线性预测编码系数(Linear Predictive Coding Coefficients,LPCC)等导出特征,通过拼接的方式组成音频特征向量。
b)使用谱图像特征,该类型谱图像包括梅尔频谱(Mel-frequency spectrogram)图像特征、梅尔倒频谱(MFCC)图像特征和谱(spectrogram)图像特征,即,使用图像的形式展示原始语音信号的多维度特征。
在一些实施例中,通过方法a)抽取得到音频特征向量;在另一些实施例中,通过方法b)抽取得到谱图像特征。
步骤S3,将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。具体而言:
在一些实施例中,所述语音情绪识别模型为卷积神经网络模型(CNN),采用CNN模型完成语音情绪识别。
CNN模型:包括输入层、卷积层、全连接层和分类层。将抽取得到的上述音频特征经数据标准化处理后送入输入层,经卷积层的卷积操作后送至全连接层,经过全连接层处理后送入分类层,所述分类层实现对音频类型的分类,完成语音情绪识别。
在另一些实施例中,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型(BiLSTM+Att),采用BiLSTM+Att模型完成语音情绪识别。
BiLSTM+Att模型,如图2所示:
(1)输入层:将抽取得到的上述音频特征,作为输入层的数据直接输入BiLSTM+Att模型;
(2)BiLSTM网络层:由双向LSTM网络构成的一个网络结构,使用标注后的数据输入BiLSTM网络层,在BiLSTM网络层完成语音情绪识别模型的训练;
其中,所述标注后的数据是指已经标注好各种情绪标签的数据;
(3)注意力层:产生一个权重向量,该权重向量乘以BiLSTM网络层的输出,完成对网络输出中不同维度的权重赋值,使得特征中能够表达情绪的部分得到充分表达;
(4)输出层:使用两个全连接网络层,结合softmax函数,实现情绪类型的准确判断。
一个BiLSTM网络层包括多个双向传输的LSTM网络单元。在具体的网络内部,一个LSTM循环单元以音频数据作为输入,产生特征输出H=(h1,h2,…,hT),其中hi表示LSTM在时间戳i的隐状态,并总结所有的音频特征到参数xi。本实施例中使用双向LSTM以更好地得到音频特征,且使用两个方向的特征来完成。一个双向的LSTM包括一个正向的LSTM网络和一个反向的LSTM网络其中读取音频特征数据顺序为从x1到xT,读取音频特征数据顺序为xT到x1,最终标记一个音频片段xi将二者合并起来,如下式所示:
其中,||表示连接操作,T代表每个LSTM网络的长度。本文使用一个Bi-LSTM网络结构以获取更多的抽象特征。
在实际的情绪判断中,并不是每个音频片段特征都对最终情绪的识别结果产生决定性作用,因此需要使用一种自动的机制或方法来完成不同音频片段的权重判断。而注意力机制则是能够充分利用自动更新的语音情绪识别模型并给予不同音频片段特征赋予不同权重。因此,本实施例在包括相关模型的基础上,使用如下公式进行注意力的判断:
uai=tanh(Whai+b)
其中,a代表第t个语音文件,i代表第i个语音特征,n代表一个语音文件中总的特征个数。Hti代表第t个语音文件中的第i个音频向量输入到一个一层的多层感知网络中得到uti作为hti的隐表示,Hti是Bi-LSTM层输出的拼接(concatenation),W是注意力网络的权重矩阵,b是注意力网络的一个偏置向量。然后本实施例使用相似度计算方法来分析语音片段特征的权重,该相似度方法是使用uti与随机初始化的音频特征向量uw做余弦计算。接着,使用一个softmax函数得到一个标准化的权重ati。ati是第t个语音文件中第i个音频片段特征的权重。Ati的值越大,代表该第i个特征更能够表达最终的情感。最终,使用st代表第t个语音文件的语音片段的权重和。
参阅图3所示,是本发明语音情绪识别***10的硬件架构图。该***包括:预处理模块101、音频特征抽取模块102以及语音情绪识别模块103。
所述预处理模块101用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件。具体而言:
将说话人说的一句话保存为一个原始语音文件,所述原始语音文件为wav或者mp3格式,时长2秒左右。所述预处理模块101对所述原始语音文件进行音频预处理,所述音频预处理包括:静音移除及数据增强。
进一步地,
a)静音移除:使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。其中,所述语音能量为根均方能量(Root-Mean-SquareEnergy,RMSE)。
b)语音数据增强:如果当前语音文件短于最小音频片段数据,则使用语音数据增强的方法增加当前语音文件音频的长度,使得当前语音文件有足够的数据输入语音情绪识别模型,且保证当前语音文件中语音情绪识别的结果与原始语音情绪相同。本实施例中的语音数据增强方法是将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
所述音频特征抽取模块102用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征。具体而言:
所述音频特征抽取包括两种方法:
a)音频特征向量:所述音频特征抽取模块102使用音频处理库函数抽取包括以音高(Pitch)、能量(energy)、过零率(Zero-Crossing Rate,ZCR)、色度(chroma)为代表的韵律(prosody)特征,以共振频率(Fromant Frequencies)、谱(Spectral)特征为代表的质量(quality)特征,及以梅尔倒频谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、MFCC一阶导数(first time derivatives of MFCC)、线性预测编码系数(LinearPredictive Coding Coefficients,LPCC)等导出特征,通过拼接的方式组成音频特征向量。
b)使用谱图像特征,该类型谱图像包括梅尔频谱(Mel-frequency spectrogram)图像特征、梅尔倒频谱(MFCC)图像特征和谱(spectrogram)图像特征,即,所述音频特征抽取模块102使用图像的形式展示原始语音信号的多维度特征。
在一些实施例中,所述音频特征抽取模块102通过方法a)抽取得到音频特征向量;在另一些实施例中,所述音频特征抽取模块102通过方法b)抽取得到谱图像特征。
所述语音情绪识别模块103用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。具体而言:
在一些实施例中,所述语音情绪识别模型为卷积神经网络模型(CNN),采用CNN模型完成语音情绪识别。
CNN模型:包括输入层、卷积层、全连接层和分类层。将抽取得到的上述音频特征经数据标准化处理后送入输入层,经卷积层的卷积操作后送至全连接层,经过全连接层处理后送入分类层,所述分类层实现对音频类型的分类,完成语音情绪识别。
在另一些实施例中,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型(BiLSTM+Att),采用BiLSTM+Att模型完成语音情绪识别。
BiLSTM+Att模型,如图2所示:
(1)输入层:将抽取得到的上述音频特征,作为输入层的数据直接输入BiLSTM+Att模型;
(2)BiLSTM网络层:由双向LSTM网络构成的一个网络结构,使用标注后的数据输入BiLSTM网络层,在BiLSTM网络层完成语音情绪识别模型的训练;
其中,所述标注后的数据是指已经标注好各种情绪标签的数据;
(3)注意力层:产生一个权重向量,该权重向量乘以BiLSTM网络层的输出,完成对网络输出中不同维度的权重赋值,使得特征中能够表达情绪的部分得到充分表达;
(4)输出层:使用两个全连接网络层,结合softmax函数,实现情绪类型的准确判断。
一个BiLSTM网络层包括多个双向传输的LSTM网络单元。在具体的网络内部,一个LSTM循环单元以音频数据作为输入,产生特征输出H=(h1,h2,…,hT),其中hi表示LSTM在时间戳i的隐状态,并总结所有的音频特征到参数xi。本实施例中使用双向LSTM以更好地得到音频特征,且使用两个方向的特征来完成。一个双向的LSTM包括一个正向的LSTM网络和一个反向的LSTM网络其中读取音频特征数据顺序为从x1到xT,读取音频特征数据顺序为xT到x1,最终标记一个音频片段xi将二者合并起来,如下式所示:
其中,||表示连接操作,T代表每个LSTM网络的长度。本文使用一个Bi-LSTM网络结构以获取更多的抽象特征。
在实际的情绪判断中,并不是每个音频片段特征都对最终情绪的识别结果产生决定性作用,因此需要使用一种自动的机制或方法来完成不同音频片段的权重判断。而注意力机制则是能够充分利用自动更新的语音情绪识别模型并给予不同音频片段特征赋予不同权重。因此,本实施例在包括相关模型的基础上,使用如下公式进行注意力的判断:
uai=tanh(Whai+b)
其中,a代表第t个语音文件,i代表第i个语音特征,n代表一个语音文件中总的特征个数。Hti代表第t个语音文件中的第i个音频向量输入到一个一层的多层感知网络中得到uti作为hti的隐表示,Hti是Bi-LSTM层输出的拼接(concatenation),W是注意力网络的权重矩阵,b是注意力网络的一个偏置向量。然后本实施例使用相似度计算方法来分析语音片段特征的权重,该相似度方法是使用uti与随机初始化的音频特征向量uw做余弦计算。接着,使用一个softmax函数得到一个标准化的权重ati。ati是第t个语音文件中第i个音频片段特征的权重。Ati的值越大,代表该第i个特征更能够表达最终的情感。最终,使用st代表第t个语音文件的语音片段的权重和。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。
Claims (9)
1.一种语音情绪识别方法,其特征在于,该方法包括如下步骤:
a.将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;
b.使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;
c.将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
2.如权利要求1所述的方法,其特征在于,所述的音频预处理包括:静音移除及数据增强。
3.如权利要求2所述的方法,其特征在于,所述的静音移除包括:
使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。
4.如权利要求3所述的方法,其特征在于,所述的语音数据增强包括:
如果当前语音文件短于最小音频片段数据,则将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
5.如权利要求1所述的方法,其特征在于,所述的步骤b包括:
使用音频处理库函数抽取包括以音高、能量、过零率、色度为代表的韵律特征,以共振频率、谱特征为代表的质量特征,及以梅尔倒频谱系数、MFCC一阶导数、线性预测编码系数为代表的导出特征,通过拼接的方式组成音频特征向量。
6.如权利要求1所述的方法,其特征在于,所述的步骤b包括:
使用谱图像特征的形式展示预处理后的语音文件的多维度特征。
7.如权利要求1所述的方法,其特征在于,所述语音情绪识别模型为卷积神经网络模型,采用所述卷积神经网络模型完成语音情绪识别。
8.如权利要求1所述的方法,其特征在于,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型,采用所述融合双向长短时记忆与注意力机制模型完成语音情绪识别。
9.一种语音情绪识别***,其特征在于,该***包括预处理模块、音频特征抽取模块以及语音情绪识别模块,其中:
所述预处理模块用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;
所述音频特征抽取模块用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;
所述语音情绪识别模块用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011536031.0A CN112489690A (zh) | 2020-12-23 | 2020-12-23 | 语音情绪识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011536031.0A CN112489690A (zh) | 2020-12-23 | 2020-12-23 | 语音情绪识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112489690A true CN112489690A (zh) | 2021-03-12 |
Family
ID=74914348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011536031.0A Pending CN112489690A (zh) | 2020-12-23 | 2020-12-23 | 语音情绪识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489690A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113593532A (zh) * | 2021-08-31 | 2021-11-02 | 竹间智能科技(上海)有限公司 | 语音情绪识别模型训练方法及电子设备 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN113780198A (zh) * | 2021-09-15 | 2021-12-10 | 南京邮电大学 | 一种面向影像生成的多模态情感分类方法 |
CN116863957A (zh) * | 2023-09-05 | 2023-10-10 | 硕橙(厦门)科技有限公司 | 工业设备运行状态的识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108115695A (zh) * | 2016-11-28 | 2018-06-05 | 沈阳新松机器人自动化股份有限公司 | 一种情感色彩表达***及机器人 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
US20200086496A1 (en) * | 2018-09-14 | 2020-03-19 | Lg Electronics Inc. | Emotion recognizer, robot including the same, and server including the same |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111445899A (zh) * | 2020-03-09 | 2020-07-24 | 咪咕文化科技有限公司 | 语音情绪识别方法、装置及存储介质 |
-
2020
- 2020-12-23 CN CN202011536031.0A patent/CN112489690A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108115695A (zh) * | 2016-11-28 | 2018-06-05 | 沈阳新松机器人自动化股份有限公司 | 一种情感色彩表达***及机器人 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
US20200086496A1 (en) * | 2018-09-14 | 2020-03-19 | Lg Electronics Inc. | Emotion recognizer, robot including the same, and server including the same |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111445899A (zh) * | 2020-03-09 | 2020-07-24 | 咪咕文化科技有限公司 | 语音情绪识别方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
褚钰等: "语音情感识别中的特征选择方法", 《应用声学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113593532A (zh) * | 2021-08-31 | 2021-11-02 | 竹间智能科技(上海)有限公司 | 语音情绪识别模型训练方法及电子设备 |
CN113593532B (zh) * | 2021-08-31 | 2024-06-18 | 竹间智能科技(上海)有限公司 | 语音情绪识别模型训练方法及电子设备 |
CN113780198A (zh) * | 2021-09-15 | 2021-12-10 | 南京邮电大学 | 一种面向影像生成的多模态情感分类方法 |
CN113780198B (zh) * | 2021-09-15 | 2023-11-24 | 南京邮电大学 | 一种面向影像生成的多模态情感分类方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN116863957A (zh) * | 2023-09-05 | 2023-10-10 | 硕橙(厦门)科技有限公司 | 工业设备运行状态的识别方法、装置、设备及存储介质 |
CN116863957B (zh) * | 2023-09-05 | 2023-12-12 | 硕橙(厦门)科技有限公司 | 工业设备运行状态的识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | Effective combination of DenseNet and BiLSTM for keyword spotting | |
CN112489690A (zh) | 语音情绪识别方法及*** | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
US7054810B2 (en) | Feature vector-based apparatus and method for robust pattern recognition | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
CN111640456B (zh) | 叠音检测方法、装置和设备 | |
Vadwala et al. | Survey paper on different speech recognition algorithm: challenges and techniques | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
CN114530141A (zh) | 一种特定场景下的中英文混合的离线语音关键词识别方法及其***实现 | |
Barakat et al. | Keyword spotting based on the analysis of template matching distances | |
KR20230129094A (ko) | 멀티모달 기반 실시간 감정인식 방법 및 장치 | |
CN112735404A (zh) | 一种语音反讽检测方法、***、终端设备和存储介质 | |
US11282495B2 (en) | Speech processing using embedding data | |
Liu | Deep convolutional and LSTM neural networks for acoustic modelling in automatic speech recognition | |
O’Shaughnessy | Recognition and processing of speech signals using neural networks | |
Tabibian | A voice command detection system for aerospace applications | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
CN116090474A (zh) | 对话情绪分析方法、装置和计算机可读存储介质 | |
Wöllmer et al. | A novel bottleneck-BLSTM front-end for feature-level context modeling in conversational speech recognition | |
Gade et al. | A comprehensive study on automatic speaker recognition by using deep learning techniques | |
Patil et al. | Emotion detection from speech using Mfcc & GMM | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210312 |
|
RJ01 | Rejection of invention patent application after publication |