CN105869657A - 语音情感辨识***及方法 - Google Patents

语音情感辨识***及方法 Download PDF

Info

Publication number
CN105869657A
CN105869657A CN201610393007.3A CN201610393007A CN105869657A CN 105869657 A CN105869657 A CN 105869657A CN 201610393007 A CN201610393007 A CN 201610393007A CN 105869657 A CN105869657 A CN 105869657A
Authority
CN
China
Prior art keywords
emotion
speech
voice signal
value
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610393007.3A
Other languages
English (en)
Inventor
孙廷玮
吴安翔
郭英树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Technology (shanghai) Co Ltd
Original Assignee
Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Technology (shanghai) Co Ltd filed Critical Intelligent Technology (shanghai) Co Ltd
Priority to CN201610393007.3A priority Critical patent/CN105869657A/zh
Publication of CN105869657A publication Critical patent/CN105869657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供一种语音情感辨识***及方法,其中,方法包括:接收语音信号,并计算语音信号的情感特征集合的值;根据情感特征集合的值判别说话者的性别;根据说话者的性别选择对应的情感匹配表,并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号进行情感辨识。本发明提供的语音情感辨识***及方法,在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。

Description

语音情感辨识***及方法
技术领域
本发明涉及一种语音情感辨识***及方法。
背景技术
语音情感辨识是指机器接收人类发出的语音信号,并对该语音信号中的情感进行辨识,从而更加灵活地执行人类发出的指令。
由于语音信号不仅受说话者的情绪的影响,也受其他一些因素的影响,比如,说话者的个性特征和说话的内容。目前的语音情感辨识***,在对某一个固定的说话者发出的语音信号进行情感辨识时,具有较高的情感辨识正确率,但是当说话者不是固定的某一个人而是经常变换的不定人群的时候,现有的语音情感识别***对语音信号所表达的情感的辨识正确率则大幅度下降。
发明内容
本发明要解决的技术问题是提供一种语音情感辨识***及方法,以使得在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
为解决上述技术问题,本发明的技术方案是:
一方面,本发明提供一种语音情感辨识方法,包括:接收语音信号,并计算语音信号的情感特征集合的值;根据情感特征集合的值判别说话者的性别;根据说话者的性别选择对应的情感匹配表,并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号进行情感辨识。
进一步地,情感特征集合包括:音调,音量和梅尔频率倒谱系数。
进一步地,情感特征集合还包括RFC,RFC为声谱平滑度与声谱中心的比值,其中,声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
进一步地,声谱平滑度的计算公式为其中,N为语音信号中的语音的帧数,Xj(f)为第j帧语音对应的频谱。
进一步地,声谱中心的计算公式为其中,fj为第j帧语音对应的加权系数。
进一步地,情感包括:愤怒,恐惧,喜悦,悲伤,中立。
进一步地,情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。
另一方面,本发明提供一种语音情感辨识***,包括:语音信号接收模块:用于接收语音信号,并计算语音信号的情感特征集合的值;性别判断模块:用于根据情感特征集合的值判别说话者的性别;语音情感辨识模块:用于根据说话者的性别选择对应的情感匹配表,并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号进行情感辨识。
进一步地,情感特征集合包括:音调,音量和梅尔频率倒谱系数。
进一步地,情感特征集合还包括RFC,RFC为声谱平滑度与声谱中心的比值,其中,声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值,声谱中心为语音信号的加权平均值。
本发明提供的语音情感辨识***及方法,将男性与女性在发声***上的差异进行考虑,在接收到语音信号并对该语音信号计算情感特征集合的值之后,首先对说话者(即,语音信号的来源个体)的性别进行判别,再根据说话者的性别选择对应的情感匹配表(例如,说话者为女性时,则选择对应女性性别的情感匹配表),并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号所呈现的情感进行辨识。
本发明提供的语音情感辨识***及方法,在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
附图说明
图1是本发明实施例提供的一种语音情感辨识方法的流程图;
图2是本发明实施例提供的一种语音情感辨识***的框图;
图3是本发明实施例提供的一种激励-效价二维坐标图;
图4是本发明实施例提供的一种分级匹配方式示意图。
具体实施方式
下面通过具体的实施例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本发明。
实施例一
结合图1,本实施例提供的语音情感辨识方法,包括
步骤S1:接收语音信号,并计算语音信号的情感特征集合的值;
步骤S2:根据情感特征集合的值判别说话者的性别;
步骤S3:根据说话者的性别选择对应的情感匹配表,并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号进行情感辨识。
本发明实施例提供的语音情感辨识方法,将男性与女性在发声***上的差异进行考虑,在接收到语音信号并对该语音信号计算情感特征集合的值之后,首先对说话者(即,语音信号的来源个体)的性别进行判别,再根据说话者的性别选择对应的情感匹配表(例如,说话者为女性时,则选择对应女性性别的情感匹配表),并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号所呈现的情感进行辨识。
本发明实施例提供的语音情感辨识方法,在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
优选地,情感特征集合包括:音调,音量和梅尔频率倒谱系数。本实施例中根据语音信号中的音调,音量和梅尔频率倒谱系数来判别说话者的性别。其中,需要说明的是音调(pitch),音量(energy)和梅尔频率倒谱系数(Mel FrequencyCepstral Coefficents,MFCCs)是用于对语音信号进行分析的常用情感特征量,能够被本领域技术人员理解并接受。
优选地,情感特征集合还包括声谱平滑度与声谱中心的比值(Ratio of aspectral Flatness to a spectral Center,RFC),其中,声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
具体地,声谱平滑度的计算公式为其中,N为语音信号中的语音的帧数,Xj(f)为第j帧语音对应的频谱。更加具体地,声谱中心的计算公式为其中,fj为第j帧语音对应的加权系数。
本实施例中,当说话者变化时,也即是说,当语音信号的发出者有变化的时候,声谱平滑度值和声谱中心值会与其他的情感特征量一样,发生较大的变化,但是此时,声谱平滑度值和声谱中心值的比值,即RFC值,几乎是一个常量,因为声谱平滑度和声谱中心成正比例关系。也就是说,本发明实施例提出的情感特征量RFC的值不会因为说话者的改变而受到大的影响。
此外,需要说明的是,本实施例的声谱平滑度值可以用于判断一个信号是语音信号还是噪声信号,声谱中心值可以用于判断具有较高声谱中心值的塞音(例如,擦音)。也就是说,声谱平滑度值和声谱中心值可以用于滤除噪声信号。
优选地,情感包括:愤怒,恐惧,喜悦,悲伤,中立。根据奥斯古德(英译名,原名Osgood)原理,将对情感的计算概念化为三个主要的维度:激励维度、效价维度和能量维度。其中,激励维度和效价两个维度构成的二维坐标图能够用于区分人类基本的情感,这些基本的情感包括中立,悲伤,恐惧,愤怒和喜悦,并且,它们在激励-效价二维坐标图中所对应的位置如图3所示。此外,需要说明的是,本实施例的情感类别并不限于所提及的愤怒,恐惧,喜悦,悲伤,中立五种,可以结合实际需要进行设定。
进一步地优选,情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。由于本实施例中,愤怒,喜悦,悲伤,中立这四种情感所分别对应的RFC值之间均具有很大的差异,能够很好地进行区分,但是中立和恐惧所分别对应的两个RFC值比较相近,因此,为了提高语音情感辨识正确率,本实施例的情感分类器采用分级匹配方式,先采用音调,音量和梅尔频率倒谱系数将语音信号的情感分成两个类组,第一组为愤怒,恐惧和喜悦,第二组为悲伤和中立,以这种方式将较难区分的中立和恐惧分开处理,然后再通过语音信号的RFC值来对情感匹配表中的情感的范围值进行逐级匹配,从而实现对某一语音信号进行情感辨识。具体地,例如,对于某一语音信号,先计算它所表现出的音调,音量和梅尔频率倒谱系数,但是仅仅通过计算这三个情感特征量的值只能获知该语音信号所属的类组(例如,该语音信号属于第一组),又由于愤怒,喜悦,悲伤,中立这四种情感所分别对应的RFC值之间均具有很大的差异,能够很好地进行区分,因此,继而再通过计算该语音信号的RFC值,通过RFC值来与情感匹配表中的情感进行匹配。如图4所示地,在采用音调,音量和梅尔频率倒谱系数三个情感特征集合的值判断出该语音信号的情感属于某一组(例如,第一组)后,再采用RFC值判断该语音信号的情感是否与情感匹配表中喜悦所对应的RFC范围值相匹配,若是,则将该语音信号的情感判断为喜悦,否则再分别与恐惧所对应的RFC范围值以及愤怒所对应的RFC范围值进行匹配,逐级地对语音信号所呈现的情感进行判别。本实施的分级匹配的方式,采用分组再分级的匹配方式,一方面可以提高对语音信号情感辨识的速度,另一方面还可以有效提高语音辨识正确率。
此外,需要说明的是,在对语音信号的情感进行分组时,还可以使用其他的情感特征量,包括线性预测到普系数(LPCC),共振峰(Formants)等,需要结合实际需要进行情感特征量的选择,本实施例不做具体限定。
实施例二
结合图2,本实施例提供的语音情感辨识***100,包括:
语音信号接收模块1:用于接收语音信号,并计算语音信号的情感特征集合的值;
性别判断模块2:用于根据情感特征集合的值判别说话者的性别;
语音情感辨识模块3:用于根据说话者的性别选择对应的情感匹配表,并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号进行情感辨识。
本发明实施例提供的语音情感辨识***100,将男性与女性在发声***上的差异进行考虑,在接收到语音信号并对该语音信号计算情感特征集合的值之后,首先对说话者(即,语音信号的来源个体)的性别进行判别,再根据说话者的性别选择对应的情感匹配表(例如,说话者为女性时,则选择对应女性性别的情感匹配表),并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配,实现对语音信号所呈现的情感进行辨识。
本发明实施例提供的语音情感辨识***100,在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
优选地,情感特征集合包括:音调,音量和梅尔频率倒谱系数。本实施例中根据语音信号中的音调,音量和梅尔频率倒谱系数来判别说话者的性别。其中,需要说明的是音调(pitch),音量(energy)和梅尔频率倒谱系数(Mel FrequencyCepstral Coefficents,MFCCs)是用于对语音信号进行分析的常用情感特征量,能够被本领域技术人员理解并接受。
优选地,情感特征集合还包括声谱平滑度与声谱中心的比值(Ratio of aspectral Flatness to a spectral Center,RFC),其中,声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
具体地,声谱平滑度的计算公式为其中,N为语音信号中的语音的帧数,Xj(f)为第j帧语音对应的频谱。更加具体地,声谱中心的计算公式为其中,fj为第j帧语音对应的加权系数。
本实施例中,当说话者变化时,也即是说,当语音信号的发出者有变化的时候,声谱平滑度值和声谱中心值会与其他的情感特征量一样,发生较大的变化,但是此时,声谱平滑度值和声谱中心值的比值,即RFC值,几乎是一个常量,因为声谱平滑度和声谱中心成正比例关系。也就是说,本发明实施例提出的情感特征量RFC的值不会因为说话者的改变而受到大的影响。
此外,需要说明的是,本实施例的声谱平滑度值可以用于判断一个信号是语音信号还是噪声信号,声谱中心值可以用于判断具有较高声谱中心值的塞音(例如,擦音)。也就是说,声谱平滑度值和声谱中心值可以用于滤除噪声信号。
优选地,情感包括:愤怒,恐惧,喜悦,悲伤,中立。根据奥斯古德(英译名,原名Osgood)原理,将对情感的计算概念化为三个主要的维度:激励维度、效价维度和能量维度。其中,激励维度和效价两个维度构成的二维坐标图能够用于区分人类基本的情感,这些基本的情感包括中立,悲伤,恐惧,愤怒和喜悦,并且,它们在激励-效价二维坐标图中所对应的位置如图3所示。此外,需要说明的是,本实施例的情感类别并不限于所提及的愤怒,恐惧,喜悦,悲伤,中立五种,可以结合实际需要进行设定。
进一步地优选,情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。由于本实施例中,愤怒,喜悦,悲伤,中立这四种情感所分别对应的RFC值之间均具有很大的差异,能够很好地进行区分,但是中立和恐惧所分别对应的两个RFC值比较相近,因此,为了提高语音情感辨识正确率,本实施例的情感分类器采用分级匹配方式,先采用音调,音量和梅尔频率倒谱系数将语音信号的情感分成两个类组,第一组为愤怒,恐惧和喜悦,第二组为悲伤和中立,以这种方式将较难区分的中立和恐惧分开处理,然后再通过语音信号的RFC值来对情感匹配表中的情感的范围值进行逐级匹配,从而实现对某一语音信号进行情感辨识。具体地,例如,对于某一语音信号,先计算它所表现出的音调,音量和梅尔频率倒谱系数,但是仅仅通过计算这三个情感特征量的值只能获知该语音信号所属的类组(例如,该语音信号属于第一组),又由于愤怒,喜悦,悲伤,中立这四种情感所分别对应的RFC值之间均具有很大的差异,能够很好地进行区分,因此,继而再通过计算该语音信号的RFC值,通过RFC值来与情感匹配表中的情感进行匹配。如图4所示地,在采用音调,音量和梅尔频率倒谱系数三个情感特征集合的值判断出该语音信号的情感属于某一组(例如,第一组)后,再采用RFC值判断该语音信号的情感是否与情感匹配表中喜悦所对应的RFC范围值相匹配,若是,则将该语音信号的情感判断为喜悦,否则再分别与恐惧所对应的RFC范围值以及愤怒所对应的RFC范围值进行匹配,逐级地对语音信号所呈现的情感进行判别。本实施的分级匹配的方式,采用分组再分级的匹配方式,一方面可以提高对语音信号情感辨识的速度,另一方面还可以有效提高语音辨识正确率。
此外,需要说明的是,在对语音信号的情感进行分组时,还可以使用其他的情感特征量,包括线性预测到普系数(LPCC),共振峰(Formants)等,需要结合实际需要进行情感特征量的选择,本实施例不做具体限定。
尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。

Claims (10)

1.一种语音情感辨识方法,其特征在于,包括:
步骤S1:接收语音信号,并计算所述语音信号的情感特征集合的值;
步骤S2:根据所述情感特征集合的值判别说话者的性别;
步骤S3:根据所述说话者的性别选择对应的情感匹配表,并将所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配,实现对所述语音信号进行情感辨识。
2.根据权利要求1所述的语音情感辨识方法,其特征在于,所述情感特征集合包括:音调,音量和梅尔频率倒谱系数。
3.根据权利要求2所述的语音情感辨识方法,其特征在于,所述情感特征集合还包括RFC,所述RFC为声谱平滑度与声谱中心的比值,其中,
所述声谱平滑度为所述语音信号的几何平均值与所述语音信号的算术平均值的比值;
所述声谱中心为所述语音信号的加权平均值。
4.根据权利要求3所述的语音情感辨识方法,其特征在于,所述声谱平滑度的计算公式为其中,N为所述语音信号中的语音的帧数,Xj(f)为第j帧语音对应的频谱。
5.根据权利要求3所述的语音情感辨识方法,其特征在于,所述声谱中心的计算公式为其中,fj为第j帧语音对应的加权系数。
6.根据权利要求1至5中任一项所述的语音情感辨识方法,其特征在于,所述情感包括:愤怒,恐惧,喜悦,悲伤,中立。
7.根据权利要求6所述的语音情感辨识方法,其特征在于,所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。
8.一种语音情感辨识***,其特征在于,包括:
语音信号接收模块:用于接收语音信号,并计算所述语音信号的情感特征集合的值;
性别判断模块:用于根据所述情感特征集合的值判别说话者的性别;
语音情感辨识模块:用于根据所述说话者的性别选择对应的情感匹配表,并将所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配,实现对所述语音信号进行情感辨识。
9.根据权利要求8所述的语音情感辨识***,其特征在于,所述情感特征集合包括:音调,音量和梅尔频率倒谱系数。
10.根据权利要求8所述的语音情感辨识***,其特征在于,所述情感特征集合还包括RFC,所述RFC为声谱平滑度与声谱中心的比值,其中,
所述声谱平滑度为所述语音信号的几何平均值与所述语音信号的算术平均值的比值;
所述声谱中心为所述语音信号的加权平均值。
CN201610393007.3A 2016-06-03 2016-06-03 语音情感辨识***及方法 Pending CN105869657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610393007.3A CN105869657A (zh) 2016-06-03 2016-06-03 语音情感辨识***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610393007.3A CN105869657A (zh) 2016-06-03 2016-06-03 语音情感辨识***及方法

Publications (1)

Publication Number Publication Date
CN105869657A true CN105869657A (zh) 2016-08-17

Family

ID=56677052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610393007.3A Pending CN105869657A (zh) 2016-06-03 2016-06-03 语音情感辨识***及方法

Country Status (1)

Country Link
CN (1) CN105869657A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976820A (zh) * 2016-06-14 2016-09-28 上海质良智能化设备有限公司 一种语音情感分析***
CN106503646A (zh) * 2016-10-19 2017-03-15 竹间智能科技(上海)有限公司 多模态情感辨识***及方法
CN106559321A (zh) * 2016-12-01 2017-04-05 竹间智能科技(上海)有限公司 动态调整对话策略的方法及***
CN109192225A (zh) * 2018-09-28 2019-01-11 清华大学 语音情感识别和标注的方法及装置
CN110021308A (zh) * 2019-05-16 2019-07-16 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质
CN110047517A (zh) * 2019-04-24 2019-07-23 京东方科技集团股份有限公司 语音情感识别方法、问答方法及计算机设备
CN110555379A (zh) * 2019-07-30 2019-12-10 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN112712824A (zh) * 2021-03-26 2021-04-27 之江实验室 一种融合人群信息的语音情感识别方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751928A (zh) * 2008-12-08 2010-06-23 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
CN104036776A (zh) * 2014-05-22 2014-09-10 毛峡 一种应用于移动终端的语音情感识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751928A (zh) * 2008-12-08 2010-06-23 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
CN104036776A (zh) * 2014-05-22 2014-09-10 毛峡 一种应用于移动终端的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EUN HO KIM,ET AL.: "Improved Emotion Recognition With a Novel Speaker-Independent Feature", 《IEEE/ASME TRANSACTIONS ON MECHATRONICS》 *
韩文静 等: "语音情感识别研究进展综述", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976820A (zh) * 2016-06-14 2016-09-28 上海质良智能化设备有限公司 一种语音情感分析***
CN105976820B (zh) * 2016-06-14 2019-12-31 上海质良智能化设备有限公司 一种语音情感分析***
CN106503646A (zh) * 2016-10-19 2017-03-15 竹间智能科技(上海)有限公司 多模态情感辨识***及方法
CN106559321A (zh) * 2016-12-01 2017-04-05 竹间智能科技(上海)有限公司 动态调整对话策略的方法及***
CN109192225A (zh) * 2018-09-28 2019-01-11 清华大学 语音情感识别和标注的方法及装置
CN110047517A (zh) * 2019-04-24 2019-07-23 京东方科技集团股份有限公司 语音情感识别方法、问答方法及计算机设备
CN110021308A (zh) * 2019-05-16 2019-07-16 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质
CN110021308B (zh) * 2019-05-16 2021-05-18 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质
CN110555379A (zh) * 2019-07-30 2019-12-10 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN110555379B (zh) * 2019-07-30 2022-03-25 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN112712824A (zh) * 2021-03-26 2021-04-27 之江实验室 一种融合人群信息的语音情感识别方法和***

Similar Documents

Publication Publication Date Title
CN105869657A (zh) 语音情感辨识***及方法
Wang et al. Speech emotion recognition with dual-sequence LSTM architecture
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
EP2482277A2 (en) Method for identifying a speaker based on random speech phonograms using formant equalization
CN103646649A (zh) 一种高效的语音检测方法
CN106023986B (zh) 一种基于声效模式检测的语音识别方法
CN106875943A (zh) 一种用于大数据分析的语音识别***
WO2018095167A1 (zh) 声纹识别方法和声纹识别***
Joshi et al. Speech emotion recognition: a review
Barker et al. Speech fragment decoding techniques for simultaneous speaker identification and speech recognition
Shahzadi et al. Recognition of emotion in speech using spectral patterns
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及***
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
Biswas et al. Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition
CN106128480B (zh) 一种对带噪语音进行语音活动检测的方法
Lugger et al. Classification of different speaking groups by means of voice quality parameters
Teodorescu A retrospective assessment of fuzzy logic applications in voice communications and speech analytics
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
Ruinskiy et al. Spectral and textural feature-based system for automatic detection of fricatives and affricates
Dumpala et al. Robust Vowel Landmark Detection Using Epoch-Based Features.
US11270721B2 (en) Systems and methods of pre-processing of speech signals for improved speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Inventor after: Jian Renxian

Inventor after: Sun Tingwei

Inventor after: Wu Anxiang

Inventor after: Guo Yingshu

Inventor before: Sun Tingwei

Inventor before: Wu Anxiang

Inventor before: Guo Yingshu

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160817