CN110246518A - 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 - Google Patents
基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 Download PDFInfo
- Publication number
- CN110246518A CN110246518A CN201910496244.6A CN201910496244A CN110246518A CN 110246518 A CN110246518 A CN 110246518A CN 201910496244 A CN201910496244 A CN 201910496244A CN 110246518 A CN110246518 A CN 110246518A
- Authority
- CN
- China
- Prior art keywords
- frame
- dimension
- feature
- speech
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 235000019580 granularity Nutrition 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 230000002996 emotional effect Effects 0.000 claims abstract description 14
- 230000003542 behavioural effect Effects 0.000 claims abstract description 12
- 230000003068 static effect Effects 0.000 claims abstract description 9
- 230000002596 correlated effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 41
- 238000009432 framing Methods 0.000 claims description 21
- 230000008909 emotion recognition Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 210000004556 brain Anatomy 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供了一种基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质,该语音情感识别方法包括如下步骤:第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征。本发明的有益效果是:本发明提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质。
背景技术
传统的方法是先对语音提取以帧为单位的声学特征,然后将整段语音的所有帧特征进行统计分析,得到最终特征。采用支持向量机(SupportVectorMachine,SVM)、感知器等作为分类器。
传统的特征提取方法,提取的特征是针对整段语音的全局静态特征,无法体现说话人说话期间的语音情感动态变化特性。在分类器的选择上也没有针对语音的动态变化信息进行设计或者优化。
发明内容
本发明提供了一种基于多粒度动静态融合特征的语音情感识别方法,包括如下步骤:第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
本发明还提供了一种基于多粒度动静态融合特征的语音情感识别装置,包括:帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
本发明还提供了一种基于多粒度动静态融合特征的语音情感识别***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明根据人脑对于语音情感识别中表现的时间段上的认知规律,提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。
附图说明
图1是本发明的方法流程图。
具体实施方式
本发明公开了一种基于多粒度动静态融合特征的语音情感识别方法,采用多粒度动静态特征融合的分析技术,首先以帧为单位计算出每一帧的声音韵律学特征、谱特征及声音质量特征等,然后通过统计计算得到整句语料的大粒度静态全局特征。同时我们利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
该基于多粒度动静态融合特征的语音情感识别方法,包括如下步骤:
第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
在所述第一步,帧计算步骤中,包括如下步骤:
第1步,语音分帧步骤:以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
第2步,帧粒度特征的提取步骤:对语音分帧步骤中划分的每一个帧,提取65维声学特征,包括基频、短时能量、短时平均能量、过零率、平均振幅差、共振峰、MFCC等,如下表所示;
这里,用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
在第二步,段粒度特征的提取步骤中,对于得到的每个大小为65×T的帧特征矩阵,我们利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,
S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T
(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算,其中TD为相邻两个卷积窗之间的时延,在这里等同于一个帧的长度。
其中,σm由下式进行计算,这里我们事先定义
本发明还公开了一种基于多粒度动静态融合特征的语音情感识别装置,包括:
帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
段粒度特征的提取模块:用于通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
在所述帧计算模块中,包括:
语音分帧模块:用于以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
帧粒度特征的提取模块:用于对语音分帧模块中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵。
在所述段粒度特征的提取模块中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数。
在语音分帧模块中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度。
在帧粒度特征的提取模块中,对语音分帧模块中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
在所述段粒度特征的提取模块中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L22,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算,其中TD为相邻两个卷积窗之间的时延。
本发明还公开了一种基于多粒度动静态融合特征的语音情感识别***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还公开了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明提出一种基于听觉认知规律的语音情感特征提取分析方法,并基于此构建出语音情感识别方法,涉及利用此方法来解决语音情感识别问题,包括但不限于在计算机、机器终端运行的包含语音情感识别的人工智能技术。
本发明根据人脑对于语音情感识别中表现的时间段上的认知规律,提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。
在识别算法上,采用长短时记忆(Long Short Term-Memory,LSTM)网络模型。LSTM模型可以有效的对时间序列进行建模,充分利用特征中的时序信息。另一方面,LSTM的长短时记忆机制可以让网络对不同时刻的特征进行有选择性的记忆和识别,具有特征融合机制。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于多粒度动静态融合特征的语音情感识别方法,其特征在于,包括如下步骤:
第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
2.根据权利要求1所述的语音情感识别方法,其特征在于,在所述第一步,帧计算步骤中,包括如下步骤:
第1步,语音分帧步骤:以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
第2步,帧粒度特征的提取步骤:对语音分帧步骤中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵;
在所述第二步,段粒度特征的提取步骤中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。
3.根据权利要求2所述的语音情感识别方法,其特征在于,在第1步,语音分帧步骤中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
在第2步,帧粒度特征的提取步骤中,对语音分帧步骤中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
4.根据权利要求3所述的语音情感识别方法,其特征在于,在所述第二步,段粒度特征的提取步骤中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算, 其中TD为相邻两个卷积窗之间的时延。
5.一种基于多粒度动静态融合特征的语音情感识别装置,其特征在于,包括:
帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
段粒度特征的提取模块:用于通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
6.根据权利要求5所述的语音情感识别装置,其特征在于,在所述帧计算模块中,包括:
语音分帧模块:用于以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
帧粒度特征的提取模块:用于对语音分帧模块中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵;在所述段粒度特征的提取模块中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。
7.根据权利要求6所述的语音情感识别装置,其特征在于,在语音分帧模块中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
在帧粒度特征的提取模块中,对语音分帧模块中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
8.根据权利要求7所述的语音情感识别装置,其特征在于,在所述段粒度特征的提取模块中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-1+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算, 其中TD为相邻两个卷积窗之间的时延。
9.一种基于多粒度动静态融合特征的语音情感识别***,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496244.6A CN110246518A (zh) | 2019-06-10 | 2019-06-10 | 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496244.6A CN110246518A (zh) | 2019-06-10 | 2019-06-10 | 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110246518A true CN110246518A (zh) | 2019-09-17 |
Family
ID=67886454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910496244.6A Pending CN110246518A (zh) | 2019-06-10 | 2019-06-10 | 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110246518A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291640A (zh) * | 2020-01-20 | 2020-06-16 | 北京百度网讯科技有限公司 | 用于识别步态的方法和装置 |
CN113255630A (zh) * | 2021-07-15 | 2021-08-13 | 浙江大华技术股份有限公司 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
CN113808619A (zh) * | 2021-08-13 | 2021-12-17 | 北京百度网讯科技有限公司 | 一种语音情绪识别方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN103531206A (zh) * | 2013-09-30 | 2014-01-22 | 华南理工大学 | 一种结合局部与全局信息的语音情感特征提取方法 |
CN104835508A (zh) * | 2015-04-01 | 2015-08-12 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及*** |
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
-
2019
- 2019-06-10 CN CN201910496244.6A patent/CN110246518A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN103531206A (zh) * | 2013-09-30 | 2014-01-22 | 华南理工大学 | 一种结合局部与全局信息的语音情感特征提取方法 |
CN104835508A (zh) * | 2015-04-01 | 2015-08-12 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及*** |
Non-Patent Citations (3)
Title |
---|
徐聪: "基于卷积—长短时记忆神经网络的时序信号多粒度分析处理方法研究", 《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》 * |
薄洪健等: "基于卷积神经网络学习的语音情感特征降维方法研究", 《高技术通讯》 * |
陈婧等: "多粒度特征融合的维度语音情感识别方法", 《信号处理》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291640A (zh) * | 2020-01-20 | 2020-06-16 | 北京百度网讯科技有限公司 | 用于识别步态的方法和装置 |
CN111291640B (zh) * | 2020-01-20 | 2023-02-17 | 北京百度网讯科技有限公司 | 用于识别步态的方法和装置 |
CN113255630A (zh) * | 2021-07-15 | 2021-08-13 | 浙江大华技术股份有限公司 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
CN113255630B (zh) * | 2021-07-15 | 2021-10-15 | 浙江大华技术股份有限公司 | 一种运动目标识别训练方法、运动目标识别方法及装置 |
CN113808619A (zh) * | 2021-08-13 | 2021-12-17 | 北京百度网讯科技有限公司 | 一种语音情绪识别方法、装置及电子设备 |
CN113808619B (zh) * | 2021-08-13 | 2023-10-20 | 北京百度网讯科技有限公司 | 一种语音情绪识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cummins et al. | An image-based deep spectrum feature representation for the recognition of emotional speech | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN109326302A (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN107945790A (zh) | 一种情感识别方法和情感识别*** | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Mashao et al. | Combining classifier decisions for robust speaker identification | |
CN108900725A (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN110246518A (zh) | 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 | |
Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
Sailor et al. | Filterbank learning using convolutional restricted Boltzmann machine for speech recognition | |
Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
Sarkar et al. | Time-contrastive learning based deep bottleneck features for text-dependent speaker verification | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN112614510A (zh) | 一种音频质量评估方法及装置 | |
López-Espejo et al. | Improved external speaker-robust keyword spotting for hearing assistive devices | |
Mahesha et al. | LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies | |
CN109377986A (zh) | 一种非平行语料语音个性化转换方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Selva Nidhyananthan et al. | Assessment of dysarthric speech using Elman back propagation network (recurrent network) for speech recognition | |
Liu et al. | Using bidirectional associative memories for joint spectral envelope modeling in voice conversion | |
Chakroun et al. | Efficient text-independent speaker recognition with short utterances in both clean and uncontrolled environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |
|
RJ01 | Rejection of invention patent application after publication |