CN109767790A - 一种语音情感识别方法及*** - Google Patents
一种语音情感识别方法及*** Download PDFInfo
- Publication number
- CN109767790A CN109767790A CN201910173689.0A CN201910173689A CN109767790A CN 109767790 A CN109767790 A CN 109767790A CN 201910173689 A CN201910173689 A CN 201910173689A CN 109767790 A CN109767790 A CN 109767790A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- obtains
- pretreatment
- sound spectrograph
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种语音情感识别方法及***。所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。采用基于语谱图和卷积神经网络的语音情感识别方法提升了语音情感识别率。
Description
技术领域
本发明涉及语音识别领域,特别是涉及一种语音情感识别方法及***。
背景技术
语音情感识别作为人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,语音情感识别的需求越来越大,所以分析、研究语音中包含的情感特征,判断说话人喜怒哀乐的情绪有非常重要的影响。
传统的语音情感识别领域的研究偏向于分析语音的声学统计特征,其中,情感语音数据库中的语音条目较少,语义也较简单情感语音数据库。现有技术中,用于情感识别的声学特征可分为韵律学特征、基于谱的特征,音质特征。进入21世纪,随着人工智能领域的快速发展,语音情感识别的需求变大,在情感特征的提取方面,最早有启发式算法,包括顺序向后选择、顺序向前选择、优先选择,线性特征参数的提取的算法也被应用,包括主成分分析法、线性判别分析法线性判别分析法,由于现有技术中的分析方法的分析结果的准确率低,提出了一种利用深度信念网络来自动提取特征的方法,并且现有技术中采用过线性判别分类的方法,以及k最近邻法和支持向量机的方法,采用最大似然贝叶斯分类法、核回归和k最近邻法三种分类器,取得了60%-65%的识别率。
现有技术中采用的分类方法以及分析方法的进行语音情感的识别率较低。
发明内容
本发明的目的是提供一种能够提高语音情感识别的识别率的语音情感识别方法及***。
为实现上述目的,本发明提供了如下方案:
一种语音情感识别方法,所述识别方法包括:
获取语音信号;
预处理所述语音信号,获得预处理语音信号;
计算所述预处理语音信号对应的语谱图;
计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
可选的,所述预处理所述语音信号,获得预处理语音信号具体包括:
将所述语音信号经过数字化处理,获得脉冲语音信号;
将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
可选的,所述计算所述预处理语音信号对应的语谱图具体包括:
获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,
S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;
将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;
根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
可选的,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:
所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
其中,bj为能够训练的偏差函数,kij为卷积核,xi表示输入的第i段语谱图;yi表示输出的第i段语谱图对应的二维特征;
将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;
所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
一种语音情感识别***,所述识别***包括:
语音信号获取模块,用于获取语音信号;
预处理模块,用于预处理所述语音信号,获得预处理语音信号;
语谱图计算模块,用于计算所述预处理语音信号对应的语谱图;
最佳语段长度确定模块,用于计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
声学特征提取模块,用于根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
卷积神经网络模块,用于将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
可选的,所述预处理模块具体包括:
数字化处理单元,用于将所述语音信号经过数字化处理,获得脉冲语音信号;
采样处理单元,用于将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
量化处理单元,用于将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
预加重处理单元,用于将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
分帧加窗单元,用于将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
可选的,所述语谱图计算模块具体包括:
预处理语音信号信息获取单元,用于获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
预处理语音信号分段单元,用于根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
帧移计算单元,用于根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
加窗处理单元,用于对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,
S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;
傅里叶变换单元,用于将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;
语谱图获取单元,用于根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
可选的,所述卷积神经网络模块具体包括:
卷积层单元,用于所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
池化层单元,用于将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;
全连接层单元,用于所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明公开了一种语音情感识别方法及***。所述识别方法为获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。采用基于语谱图和卷积神经网络的语音情感识别方法提升了语音情感识别率,基于最佳语段长度的语谱图的特征和卷积神经网络的识别方法也进一步提高了语音情感的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的语音情感识别方法的流程图;
图2为本发明提供的语音情感识别***的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种能够提高语音情感识别的识别率的语音情感识别方法及***。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种语音情感识别方法,所述识别方法包括:
步骤100:获取语音信号;
步骤200:预处理所述语音信号,获得预处理语音信号;
步骤300:计算所述预处理语音信号对应的语谱图;
步骤400:计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
步骤500:根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
步骤600:将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
所述步骤200:预处理所述语音信号,获得预处理语音信号具体包括:
将所述语音信号经过数字化处理,获得脉冲语音信号;
将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
所述步骤300:计算所述预处理语音信号对应的语谱图具体包括:
获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,
S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;
将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;
根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图,通过权值共享的滤波器能够减少需要训练的系数的数量。
所述步骤600:将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:
所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
其中,bj为能够训练的偏差函数,kij为卷积核,xi表示输入的第i段语谱图;yi表示输出的第i段语谱图对应的二维特征;
将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;
所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
如图2所示,一种语音情感识别***,所述识别***包括:
语音信号获取模块1,用于获取语音信号;
预处理模块2,用于预处理所述语音信号,获得预处理语音信号;
语谱图计算模块3,用于计算所述预处理语音信号对应的语谱图;
最佳语段长度确定模块4,用于计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
声学特征提取模块5,用于根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
卷积神经网络模块6,用于将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
所述预处理模块2具体包括:
数字化处理单元,用于将所述语音信号经过数字化处理,获得脉冲语音信号;
采样处理单元,用于将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
量化处理单元,用于将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
预加重处理单元,用于将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
分帧加窗单元,用于将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
所述语谱图计算模块3具体包括:
预处理语音信号信息获取单元,用于获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
预处理语音信号分段单元,用于根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
帧移计算单元,用于根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
加窗处理单元,用于对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,
S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;
傅里叶变换单元,用于将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;
语谱图获取单元,用于根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
所述卷积神经网络模块6具体包括:
卷积层单元,用于所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
池化层单元,用于将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;
全连接层单元,用于所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种语音情感识别方法,其特征在于,所述识别方法包括:
获取语音信号;
预处理所述语音信号,获得预处理语音信号;
计算所述预处理语音信号对应的语谱图;
计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述预处理所述语音信号,获得预处理语音信号具体包括:
将所述语音信号经过数字化处理,获得脉冲语音信号;
将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
3.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述计算所述预处理语音信号对应的语谱图具体包括:
获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
对第i帧语音信号Si加窗处理,获得加窗语音信号Si′,
Si′=Si×hanning(Nnew),其中i的取值为1,2,......,N;
将所述加窗语音信号Si′进行傅里叶变换,获得傅里叶变换语音信号Zi;
根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
4.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:
所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
其中,bj为能够训练的偏差函数,kij为卷积核,xi表示输入的第i段语谱图;yi表示输出的第i段语谱图对应的二维特征;
将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征yi′;
所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
5.一种语音情感识别***,其特征在于,所述识别***包括:
语音信号获取模块,用于获取语音信号;
预处理模块,用于预处理所述语音信号,获得预处理语音信号;
语谱图计算模块,用于计算所述预处理语音信号对应的语谱图;
最佳语段长度确定模块,用于计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
声学特征提取模块,用于根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
卷积神经网络模块,用于将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
6.根据权利要求5所述的一种语音情感识别***,其特征在于,所述预处理模块具体包括:
数字化处理单元,用于将所述语音信号经过数字化处理,获得脉冲语音信号;
采样处理单元,用于将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
量化处理单元,用于将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
预加重处理单元,用于将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;
分帧加窗单元,用于将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
7.根据权利要求5所述的一种语音情感识别***,其特征在于,所述语谱图计算模块具体包括:
预处理语音信号信息获取单元,用于获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;
预处理语音信号分段单元,用于根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;
帧移计算单元,用于根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;
加窗处理单元,用于对第i帧语音信号Si加窗处理,获得加窗语音信号Si′,
Si′=Si×hanning(Nnew),其中i的取值为1,2,......,N;
傅里叶变换单元,用于将所述加窗语音信号Si′进行傅里叶变换,获得傅里叶变换语音信号Zi;
语谱图获取单元,用于根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;
获得一个[Nnew/2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
8.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述卷积神经网络模块具体包括:
卷积层单元,用于所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;
池化层单元,用于将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征yi′;
全连接层单元,用于所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173689.0A CN109767790A (zh) | 2019-02-28 | 2019-02-28 | 一种语音情感识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173689.0A CN109767790A (zh) | 2019-02-28 | 2019-02-28 | 一种语音情感识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109767790A true CN109767790A (zh) | 2019-05-17 |
Family
ID=66457882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910173689.0A Pending CN109767790A (zh) | 2019-02-28 | 2019-02-28 | 一种语音情感识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767790A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别***及语音情感识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090063202A (ko) * | 2009-05-29 | 2009-06-17 | 포항공과대학교 산학협력단 | 감정 인식 장치 및 방법 |
US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
CN104021373A (zh) * | 2014-05-27 | 2014-09-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及*** |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
-
2019
- 2019-02-28 CN CN201910173689.0A patent/CN109767790A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090063202A (ko) * | 2009-05-29 | 2009-06-17 | 포항공과대학교 산학협력단 | 감정 인식 장치 및 방법 |
US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
CN104021373A (zh) * | 2014-05-27 | 2014-09-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及*** |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
Non-Patent Citations (5)
Title |
---|
SATHIT PRASOMPHAN: "Improvement of speech emotion recognition with neural network classifier by using speech spectrogram", 《2015 INTERNATIONAL CONFERENCE ON SYSTEMS, SIGNALS AND IMAGE PROCESSING (IWSSIP)》 * |
张若凡 等: "基于语谱图的老年人语音情感识别方法", 《软件导刊》 * |
王建伟: "基于深度学习的情绪感知***的研究与设计", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
田熙燕 等: "基于语谱图和卷积神经网络的语音情感识别", 《河南科技学院学报》 * |
黄晨晨 等: "基于深度信念网络的语音情感识别的研究", 《计算机研究与发展》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110415728B (zh) * | 2019-07-29 | 2022-04-01 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别***及语音情感识别方法 |
CN110534133B (zh) * | 2019-08-28 | 2022-03-25 | 珠海亿智电子科技有限公司 | 一种语音情感识别***及语音情感识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alim et al. | Some commonly used speech feature extraction algorithms | |
Stanton et al. | Predicting expressive speaking style from text in end-to-end speech synthesis | |
US8676574B2 (en) | Method for tone/intonation recognition using auditory attention cues | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN115641543B (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN109767790A (zh) | 一种语音情感识别方法及*** | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN112002348A (zh) | 一种患者语音愤怒情绪识别方法和*** | |
CN114722812A (zh) | 一种多模态深度学习模型脆弱性的分析方法和*** | |
CN112712789A (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 | |
Jie et al. | Speech emotion recognition of teachers in classroom teaching | |
CN116612541A (zh) | 一种多模态情感识别方法、装置及存储介质 | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和*** | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及*** | |
Wang et al. | Speech signal feature parameters extraction algorithm based on PCNN for isolated word recognition | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN116312617A (zh) | 语音转换方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |