CN110246518A - 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 - Google Patents

基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 Download PDF

Info

Publication number
CN110246518A
CN110246518A CN201910496244.6A CN201910496244A CN110246518A CN 110246518 A CN110246518 A CN 110246518A CN 201910496244 A CN201910496244 A CN 201910496244A CN 110246518 A CN110246518 A CN 110246518A
Authority
CN
China
Prior art keywords
frame
dimension
feature
speech
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910496244.6A
Other languages
English (en)
Inventor
***
徐聪
马琳
薄洪健
丰上
陈婧
李洪伟
王子豪
孙聪珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Academy of Aerospace Technology
Original Assignee
Shenzhen Academy of Aerospace Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Academy of Aerospace Technology filed Critical Shenzhen Academy of Aerospace Technology
Priority to CN201910496244.6A priority Critical patent/CN110246518A/zh
Publication of CN110246518A publication Critical patent/CN110246518A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供了一种基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质,该语音情感识别方法包括如下步骤:第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征。本发明的有益效果是:本发明提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。

Description

基于多粒度动静态融合特征的语音情感识别方法、装置、*** 及存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质。
背景技术
传统的方法是先对语音提取以帧为单位的声学特征,然后将整段语音的所有帧特征进行统计分析,得到最终特征。采用支持向量机(SupportVectorMachine,SVM)、感知器等作为分类器。
传统的特征提取方法,提取的特征是针对整段语音的全局静态特征,无法体现说话人说话期间的语音情感动态变化特性。在分类器的选择上也没有针对语音的动态变化信息进行设计或者优化。
发明内容
本发明提供了一种基于多粒度动静态融合特征的语音情感识别方法,包括如下步骤:第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
本发明还提供了一种基于多粒度动静态融合特征的语音情感识别装置,包括:帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
本发明还提供了一种基于多粒度动静态融合特征的语音情感识别***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明根据人脑对于语音情感识别中表现的时间段上的认知规律,提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。
附图说明
图1是本发明的方法流程图。
具体实施方式
本发明公开了一种基于多粒度动静态融合特征的语音情感识别方法,采用多粒度动静态特征融合的分析技术,首先以帧为单位计算出每一帧的声音韵律学特征、谱特征及声音质量特征等,然后通过统计计算得到整句语料的大粒度静态全局特征。同时我们利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
该基于多粒度动静态融合特征的语音情感识别方法,包括如下步骤:
第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
在所述第一步,帧计算步骤中,包括如下步骤:
第1步,语音分帧步骤:以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
第2步,帧粒度特征的提取步骤:对语音分帧步骤中划分的每一个帧,提取65维声学特征,包括基频、短时能量、短时平均能量、过零率、平均振幅差、共振峰、MFCC等,如下表所示;
这里,用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
在第二步,段粒度特征的提取步骤中,对于得到的每个大小为65×T的帧特征矩阵,我们利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T
S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T
(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算,其中TD为相邻两个卷积窗之间的时延,在这里等同于一个帧的长度。
其中,σm由下式进行计算,这里我们事先定义
本发明还公开了一种基于多粒度动静态融合特征的语音情感识别装置,包括:
帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
段粒度特征的提取模块:用于通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
在所述帧计算模块中,包括:
语音分帧模块:用于以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
帧粒度特征的提取模块:用于对语音分帧模块中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵。
在所述段粒度特征的提取模块中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数。
在语音分帧模块中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度。
在帧粒度特征的提取模块中,对语音分帧模块中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
在所述段粒度特征的提取模块中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L22,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算,其中TD为相邻两个卷积窗之间的时延。
本发明还公开了一种基于多粒度动静态融合特征的语音情感识别***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还公开了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明提出一种基于听觉认知规律的语音情感特征提取分析方法,并基于此构建出语音情感识别方法,涉及利用此方法来解决语音情感识别问题,包括但不限于在计算机、机器终端运行的包含语音情感识别的人工智能技术。
本发明根据人脑对于语音情感识别中表现的时间段上的认知规律,提出多粒度动静态特征融合情感语音分析技术,对语音从三个不同的粒度进行特征的提取,从而得到多粒度时变动态特恒,使得特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化,让提取的特征更加有效。
在识别算法上,采用长短时记忆(Long Short Term-Memory,LSTM)网络模型。LSTM模型可以有效的对时间序列进行建模,充分利用特征中的时序信息。另一方面,LSTM的长短时记忆机制可以让网络对不同时刻的特征进行有选择性的记忆和识别,具有特征融合机制。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多粒度动静态融合特征的语音情感识别方法,其特征在于,包括如下步骤:
第一步,帧计算步骤:以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
第二步,段粒度特征的提取步骤:通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
2.根据权利要求1所述的语音情感识别方法,其特征在于,在所述第一步,帧计算步骤中,包括如下步骤:
第1步,语音分帧步骤:以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
第2步,帧粒度特征的提取步骤:对语音分帧步骤中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵;
在所述第二步,段粒度特征的提取步骤中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。
3.根据权利要求2所述的语音情感识别方法,其特征在于,在第1步,语音分帧步骤中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
在第2步,帧粒度特征的提取步骤中,对语音分帧步骤中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
4.根据权利要求3所述的语音情感识别方法,其特征在于,在所述第二步,段粒度特征的提取步骤中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算, 其中TD为相邻两个卷积窗之间的时延。
5.一种基于多粒度动静态融合特征的语音情感识别装置,其特征在于,包括:
帧计算模块:用于以帧为单位计算出每一帧的韵律学特征、谱相关特征及声音质量特征;
段粒度特征的提取模块:用于通过统计计算得到整句语料的大粒度静态全局特征,同时利用高斯窗对在时序上相邻的帧特征进行卷积,得到多粒度时变动态特征,使得多粒度时变动态特征既能刻画说话人的总体语音特征,又能描述语音情感特征随时间的变化。
6.根据权利要求5所述的语音情感识别装置,其特征在于,在所述帧计算模块中,包括:
语音分帧模块:用于以汉明窗作为窗函数,按照设置的帧长和帧移,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
帧粒度特征的提取模块:用于对语音分帧模块中划分的每一个帧,提取设定维数的声学特征,对于每个包含T个帧的时序信号便可以得到帧特征矩阵;在所述段粒度特征的提取模块中,对于得到的的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-L+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,(xt-L+1,xt-L+2,…,xt)T为段长为L的卷积窗内所覆盖的以xt为结尾的帧特征矩阵。
7.根据权利要求6所述的语音情感识别装置,其特征在于,在语音分帧模块中,以汉明窗作为窗函数,设定帧长为25ms,帧移为10ms,对连续的待识别语音片段进行分帧,作为特征提取中的最小处理粒度;
在帧粒度特征的提取模块中,对语音分帧模块中划分的每一个帧,提取65维声学特征,65维声学特征包括:平滑的基频、维度1,浊音概率、维度1,过零率、维度1,MFCC、维度14,均方能量、维度1,声谱滤波、维度28,频谱能量、维度15,局部频率抖动、维度1,帧间频率抖动、维度1,局部振幅微扰、维度1,谐噪比、维度1;用xt=(a(t,1),a(t,2),…,a(t,65))来表示第t个帧特征矢量,其中65为帧特征矢量的维数,于是对于每个包含T个帧的时序信号便可以得到帧特征矩阵
8.根据权利要求7所述的语音情感识别装置,其特征在于,在所述段粒度特征的提取模块中,对于得到的每个大小为65×T的帧特征矩阵,利用预先依据人脑听觉机理设定好的段长L=300ms,和相应的卷积函数组G(M,T)进行卷积,其中M为卷积函数组中卷积函数的个数,并由下式计算得出最后的段特征矩阵SM×T,S(m,t)=G(m,t)*(xt-1+1,xt-L+2,…,xt)T,G(m,t)为卷积函数组G(M,T)中第m个高斯函数,可按下式进行计算, 其中TD为相邻两个卷积窗之间的时延。
9.一种基于多粒度动静态融合特征的语音情感识别***,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
CN201910496244.6A 2019-06-10 2019-06-10 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质 Pending CN110246518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910496244.6A CN110246518A (zh) 2019-06-10 2019-06-10 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910496244.6A CN110246518A (zh) 2019-06-10 2019-06-10 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质

Publications (1)

Publication Number Publication Date
CN110246518A true CN110246518A (zh) 2019-09-17

Family

ID=67886454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910496244.6A Pending CN110246518A (zh) 2019-06-10 2019-06-10 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质

Country Status (1)

Country Link
CN (1) CN110246518A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291640A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 用于识别步态的方法和装置
CN113255630A (zh) * 2021-07-15 2021-08-13 浙江大华技术股份有限公司 一种运动目标识别训练方法、运动目标识别方法及装置
CN113808619A (zh) * 2021-08-13 2021-12-17 北京百度网讯科技有限公司 一种语音情绪识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及***
US20190074028A1 (en) * 2017-09-01 2019-03-07 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
US20190074028A1 (en) * 2017-09-01 2019-03-07 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐聪: "基于卷积—长短时记忆神经网络的时序信号多粒度分析处理方法研究", 《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》 *
薄洪健等: "基于卷积神经网络学习的语音情感特征降维方法研究", 《高技术通讯》 *
陈婧等: "多粒度特征融合的维度语音情感识别方法", 《信号处理》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291640A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 用于识别步态的方法和装置
CN111291640B (zh) * 2020-01-20 2023-02-17 北京百度网讯科技有限公司 用于识别步态的方法和装置
CN113255630A (zh) * 2021-07-15 2021-08-13 浙江大华技术股份有限公司 一种运动目标识别训练方法、运动目标识别方法及装置
CN113255630B (zh) * 2021-07-15 2021-10-15 浙江大华技术股份有限公司 一种运动目标识别训练方法、运动目标识别方法及装置
CN113808619A (zh) * 2021-08-13 2021-12-17 北京百度网讯科技有限公司 一种语音情绪识别方法、装置及电子设备
CN113808619B (zh) * 2021-08-13 2023-10-20 北京百度网讯科技有限公司 一种语音情绪识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Cummins et al. An image-based deep spectrum feature representation for the recognition of emotional speech
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN109326302A (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN107945790A (zh) 一种情感识别方法和情感识别***
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
Mashao et al. Combining classifier decisions for robust speaker identification
CN108900725A (zh) 一种声纹识别方法、装置、终端设备及存储介质
CN110246518A (zh) 基于多粒度动静态融合特征的语音情感识别方法、装置、***及存储介质
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
Sailor et al. Filterbank learning using convolutional restricted Boltzmann machine for speech recognition
Paulose et al. Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition
CN112786052A (zh) 语音识别方法、电子设备和存储装置
Sarkar et al. Time-contrastive learning based deep bottleneck features for text-dependent speaker verification
CN106653002A (zh) 一种文字直播方法及平台
CN108986798A (zh) 语音数据的处理方法、装置及设备
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN112614510A (zh) 一种音频质量评估方法及装置
López-Espejo et al. Improved external speaker-robust keyword spotting for hearing assistive devices
Mahesha et al. LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies
CN109377986A (zh) 一种非平行语料语音个性化转换方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Selva Nidhyananthan et al. Assessment of dysarthric speech using Elman back propagation network (recurrent network) for speech recognition
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
Chakroun et al. Efficient text-independent speaker recognition with short utterances in both clean and uncontrolled environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication