CN109243493B - 基于改进长短时记忆网络的婴儿哭声情感识别方法 - Google Patents
基于改进长短时记忆网络的婴儿哭声情感识别方法 Download PDFInfo
- Publication number
- CN109243493B CN109243493B CN201811273025.3A CN201811273025A CN109243493B CN 109243493 B CN109243493 B CN 109243493B CN 201811273025 A CN201811273025 A CN 201811273025A CN 109243493 B CN109243493 B CN 109243493B
- Authority
- CN
- China
- Prior art keywords
- time
- memory network
- short
- long
- baby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010011469 Crying Diseases 0.000 title claims abstract description 62
- 230000015654 memory Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 13
- 230000008451 emotion Effects 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000009432 framing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 6
- 230000007787 long-term memory Effects 0.000 description 10
- 230000006403 short-term memory Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 206010041349 Somnolence Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 235000003642 hunger Nutrition 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。
Description
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于改进长短时记忆网络的婴儿哭声情感识别方法。
背景技术
新生婴儿的啼哭是孩子的一种表达方式,父母及时了解自己宝宝的需求显得异常重要。婴儿出生后的最先几个月内获得的安全感将伴随今后生活,因此及时满足宝宝需求会让孩子更健康的成长。对于一个″呱呱″落地的婴儿来说,其表达情感需求信息的方式有限,基本上只能通过哭和笑来表达需求和心情。然而婴儿通常以笑的方式来表达当时的心情,其传达的信息比较简单明确,一般表示开心、愉悦等心理情感状态。因此,婴儿只能通过哭泣的方式来向父母或者监护人来表达自己的需求。
相对于婴儿的笑声来说,哭声相对比较复杂,哭声所传达的信息也是比较模糊的,比如饥饿、痛苦、困倦等,婴儿都可以依靠哭泣方式来向父母或监护人来表达自己的需求。但是,对于一个有经验的保姆来说分清婴儿哭声中所包含的需求尚很困难,更不用说初为人父的青年父母。面对以上种种难题,当前比较好的解决方案是采取人机结合的方式。通过对婴儿在不同需求下啼哭语音进行分析筛选出有效特征,并使用这些特征来进行相关模型的训练,然后将采集到的新的啼哭语音通过已训练好的分类模型来对哭声语音进行分类,从而达到智能识别的目的。通过这种方式,可以减轻父母照顾婴儿的压力,提高年轻父母的生活幸福指数,且还能提高婴儿的生活质量。
早在十九世纪中叶,达尔文就进行了婴儿啼哭的相关研究工作,他利用收集到的各种代表婴儿情绪的照片和图表,研究婴儿在不同生理状态和病理状态下所发出哭声的特点。进入21世纪,婴儿哭声相关的研究课题越来越受到相关研究人员的关注。这里列举部分研究工作:1)对婴儿哭声语音进行梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)提取并将MFCC作为特征向量,然后使用隐马尔科夫模型进行类别的划分,最后对婴儿哭声语音进行识别,从而分辨出婴儿是否处于健康状态;2)通过图像与音频相结合的方式来共同确定婴儿哭声所表达的情感需求;3)将语谱图作为特征向量,选取卷积神经网络作为分类模型,应用于婴儿疼痛、饥饿及困倦等三种状态下的哭声分类;4)将支持向量机作为分类器对婴儿在饥饿、疼痛及困倦等三种状态下的哭声进行分类,得到不错的识别效果。上述工作推动了婴儿哭声情感的研究,但是,也存在一些值得深入研究的问题,具体如下:
(1)语音存在长短问题,如果对语音求固定长度的特征,必定会流失时序上的信息;
(2)从分类算法看,早期的分类算法效果对特征依赖较大,算法本身不具有特征学习能力。
(3)尚缺乏统一的、成熟的婴儿哭声情感需求信息识别的特征描述和分类方法,同时也缺少相应鲁棒性比较好的特征描述及识别算法。
因此,如何克服上述问题,是当前急需解决的问题。
发明内容
本发明的目的是克服现有的婴儿哭声情感识别方法中存在的语音长短不一,以及分类算法效率低等问题。本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于改进长短时记忆网络的婴儿哭声情感识别方法,包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征;
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集;
步骤(C),计算长短时记忆网络的注意力门以及深度注意力门;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,并将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到此刻婴儿哭声数据集分类的情感以及识别率。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(B),将长度不同的时序相关特征补零到固定长度为先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(C),计算长短时记忆网络的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态;
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,该改进长短时记忆网络的细胞状态,如公式(3)所示,
本发明的有益效果是:本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景,并具有以下优点,
(1)采用改进长短时记忆网络来实现婴儿哭声情感识别方法,提取具有时序特点的特征并做等长处理,克服传统方法语音样本不等长问题;
(2)将注意力机制结合时序的深度引入长短时记忆网络的遗忘门和输出门,提升了情感识别性能和效率。
附图说明
图1是本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法的流程图;
图2是本发明与其他算法训练过程中训练集和测试集的准确率变化曲线图;
图3是图2变化曲线收敛后的算法性能的箱型图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征,所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征。
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集,先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得,并在长短时记忆网络中去根据实际长度决定是否计算下一个时刻信息;
步骤(C),计算长短时记忆网络(LSTM)的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa分别为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态,
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,我们知道长短时记忆网络的关键就是细胞状态,有通过精心设计的称作为″门″的结构来去除或者增加信息到细胞状态的能力,算法通过考虑对每一刻的细胞状态做自注意力,并对细胞状态不需要注意的部分加入输入的信息,从而用注意力门替换了遗忘门和输入门,该改进长短时记忆网络的细胞状态,如公式(3)所示,
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,并将将最后一个时刻的输出作为全连接层的输入,为了避免过拟合,需要在训练时刻加入dropout层,来随机的遗忘部分信息,最后,为了对标签进行预测,我们需要将dropout的输出通过一个softmax层,来计算该样本属于每一个类别的概率,并将概率最大的类别判定为该样本所属的类别,从而实现将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到该婴儿哭声数据集语音对应的情感。
根据本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,如图2-3所示,介绍一下识别效果:
实验均采用单向两层LSTM堆叠结构,并使用了一个全连接层和一个softmax层作为训练模型,训练过程中,采用tanh作为激活函数,采用小批量梯度下降法,批量为64,对800个训练样本总共训练了1500个epochs,每次训练10个batch。通过对测试集打印一次测试的结果以验证模型的效果。为了保证对比有效性,以下实验的所有参数均完全相同(除了第一层全连接层,因为输入的维度不一样,但输出的维度是相同的)。参数设置如表1所示。
表1网络参数
Parameters | Values |
Eta | 0.001 |
Adam Beta1,2 | 0.7,0.7 |
Batch size | 64 |
Epochs | 1500 |
N inputs | 93 |
Lstm cells | [512,256],单向 |
Dense layers | [128,5] |
L2 | 0.0001 |
Train samples | 800 |
Test samples | 200 |
实验比较的模型包括传统LSTM以及深度分别为1,2和3的LSTM+deepf_1,LSTM+deepf_2,LSTM+deepf_3模型。
其中,图2为训练过程中训练集和测试集的准确率变化曲线,图3为变化曲线收敛后的算法性能的箱型图,
从图2的准确率变化曲线可知,提出的LSTM+deepf不管在什么深度下,在训练集和测试集上收敛速度和识别效果均高于传统LSTM,而且LSTM+deepf_2和LSTM+deepf_3性能均优于LSTM+deepf_1。
从图3的箱型图来看,传统LSTM模型有8个异常值,LSTM+deepf_1有两个,LSTM+deepf_2有5个,而LSTM+deepf_3没有异常值。对比模型收敛后的识别率三项指标,LSTM+deepf_3模型、LSTM+deepf_2模型和LSTM+deepf_1模型的三项指标分别为(0.920,0.815,0.869),(0.920,0.810,0.868)和(0.915,0.805,0.859)。相比较LSTM模型的相同指标(0.870,0.745,0.805)均有提升,而且随着深度的增加,性能也在逐渐增加。
由上述实验所示,采用自注意力门可以大幅度提高LSTM的识别率,且加深自注意力门的深度,也可以提高浅自注意力门的识别率。
综上所述,本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景,并具有以下优点,
(1)采用改进长短时记忆网络来实现婴儿哭声情感识别方法,提取具有时序特点的特征并做等长处理,克服传统方法语音样本不等长问题;
(2)将注意力机制结合时序的深度引入长短时记忆网络的遗忘门和输出门,提升了情感识别性能和效率。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征;
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集;
步骤(C),计算长短时记忆网络的注意力门以及深度注意力门;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,
并将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到此刻婴儿哭声数据集分类的情感以及识别率。
2.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征。
3.根据权利要求2所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
4.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(B),将长度不同的时序相关特征补零到固定长度为先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273025.3A CN109243493B (zh) | 2018-10-30 | 2018-10-30 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273025.3A CN109243493B (zh) | 2018-10-30 | 2018-10-30 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243493A CN109243493A (zh) | 2019-01-18 |
CN109243493B true CN109243493B (zh) | 2022-09-16 |
Family
ID=65079022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273025.3A Active CN109243493B (zh) | 2018-10-30 | 2018-10-30 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243493B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817246B (zh) * | 2019-02-27 | 2023-04-18 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的***、方法和装置 |
CN110400579B (zh) * | 2019-06-25 | 2022-01-11 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110321827A (zh) * | 2019-06-27 | 2019-10-11 | 嘉兴深拓科技有限公司 | 一种基于人脸疼痛表***的疼痛水平评估方法 |
JP7290507B2 (ja) * | 2019-08-06 | 2023-06-13 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、認識モデルならびにプログラム |
CN111326179B (zh) * | 2020-02-27 | 2023-05-26 | 杭州雄迈集成电路技术股份有限公司 | 一种婴儿哭声检测深度学习方法 |
EP3940698A1 (en) | 2020-07-13 | 2022-01-19 | Zoundream AG | A computer-implemented method of providing data for an automated baby cry assessment |
CN113053417B (zh) * | 2021-03-29 | 2022-04-19 | 济南大学 | 带噪语音情感识别方法、***、设备及存储介质 |
CN113053418A (zh) * | 2021-04-30 | 2021-06-29 | 南京工程学院 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
CN116386661B (zh) * | 2023-06-05 | 2023-08-08 | 成都启英泰伦科技有限公司 | 一种基于双注意力和数据增强的哭声检测模型训练方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
CN107368613A (zh) * | 2017-09-05 | 2017-11-21 | 中国科学院自动化研究所 | 短文本情感分析方法及装置 |
WO2018053835A1 (en) * | 2016-09-26 | 2018-03-29 | Intel Corporation | Method and apparatus for reducing parameter density of deep neural network (dnn) |
CN108460455A (zh) * | 2018-02-01 | 2018-08-28 | 成都小多科技有限公司 | 模型处理方法及装置 |
CN108520753A (zh) * | 2018-02-26 | 2018-09-11 | 南京工程学院 | 基于卷积双向长短时记忆网络的语音测谎方法 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及*** |
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN108701453A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 模块化深度学习模型 |
-
2018
- 2018-10-30 CN CN201811273025.3A patent/CN109243493B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN108701453A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 模块化深度学习模型 |
WO2018053835A1 (en) * | 2016-09-26 | 2018-03-29 | Intel Corporation | Method and apparatus for reducing parameter density of deep neural network (dnn) |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
CN107368613A (zh) * | 2017-09-05 | 2017-11-21 | 中国科学院自动化研究所 | 短文本情感分析方法及装置 |
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN108460455A (zh) * | 2018-02-01 | 2018-08-28 | 成都小多科技有限公司 | 模型处理方法及装置 |
CN108520753A (zh) * | 2018-02-26 | 2018-09-11 | 南京工程学院 | 基于卷积双向长短时记忆网络的语音测谎方法 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及*** |
Non-Patent Citations (3)
Title |
---|
Derivation of document vectors from adaptation of LSTM language model;LI Wei,MAK B;《Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics》;20171231;全文 * |
End-to-end multimodal emotion recognition using deep neural networks;TZIRAKIS P,TRIGEORGIS G,NICOLAOU M A,et al.;《IEEE Journal of Selected Topics in Signal Processing》;20171231;全文 * |
采用最少门单元结构的改进注意力声学模型;龙星延等;《信号处理》;20180625(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109243493A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243493B (zh) | 基于改进长短时记忆网络的婴儿哭声情感识别方法 | |
CN109243494B (zh) | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 | |
Chatterjee et al. | Real-time speech emotion analysis for smart home assistants | |
CN103280220B (zh) | 一种实时的婴儿啼哭声识别方法 | |
CN110956953B (zh) | 基于音频分析与深度学习的争吵识别方法 | |
CN105761720A (zh) | 一种基于语音属性分类的交互***及其方法 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN112581979A (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN112820279B (zh) | 基于语音上下文动态特征的帕金森检测模型构建方法 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN107808658A (zh) | 基于家居环境下实时的婴儿音频系列行为检测方法 | |
WO2007102505A1 (ja) | 乳児の情動を判定する方法、そのための装置とプログラム | |
Islam et al. | Early detection of COVID-19 patients using chromagram features of cough sound recordings with machine learning algorithms | |
Gallardo-Antolín et al. | On combining acoustic and modulation spectrograms in an attention LSTM-based system for speech intelligibility level classification | |
Galaz et al. | Degree of Parkinson's disease severity estimation based on speech signal processing | |
Kulkarni et al. | Child cry classification-an analysis of features and models | |
Verma et al. | An acoustic analysis of speech for emotion recognition using deep learning | |
Aggarwal et al. | A machine learning approach to classify biomedical acoustic features for baby cries | |
Al-Banna et al. | A novel attention model across heterogeneous features for stuttering event detection | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Vaishnavi et al. | Neonatal cry signal prediction and classification via dense convolution neural network | |
Rammohan et al. | Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety | |
Manjutha et al. | An optimized cepstral feature selection method for dysfluencies classification using Tamil speech dataset | |
Jothi et al. | Speech intelligence using machine learning for aphasia individual | |
Mondal et al. | Deep learning technique based real-time audio event detection experiment in a distributed system architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |