CN109243494A - 基于多重注意力机制长短时记忆网络的儿童情感识别方法 - Google Patents

基于多重注意力机制长短时记忆网络的儿童情感识别方法 Download PDF

Info

Publication number
CN109243494A
CN109243494A CN201811273105.9A CN201811273105A CN109243494A CN 109243494 A CN109243494 A CN 109243494A CN 201811273105 A CN201811273105 A CN 201811273105A CN 109243494 A CN109243494 A CN 109243494A
Authority
CN
China
Prior art keywords
term
short
memory network
attention
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811273105.9A
Other languages
English (en)
Other versions
CN109243494B (zh
Inventor
梁瑞宇
梁镇麟
谢跃
赵力
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201811273105.9A priority Critical patent/CN109243494B/zh
Publication of CN109243494A publication Critical patent/CN109243494A/zh
Application granted granted Critical
Publication of CN109243494B publication Critical patent/CN109243494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。

Description

基于多重注意力机制长短时记忆网络的儿童情感识别方法
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于多重注意力机制长短时记忆网络的儿童情感识别方法。
背景技术
通过情感识别方式,父母可以更好的感知儿童的情绪,从而减轻父母照顾儿童的压力,尤其可以提高年轻父母的生活幸福指数,并提高儿童的生活质量。
此外,对于只能通过哭泣的方式来向父母或者监护人来表达自己的需求的婴儿来说,对于其的情感识别方法意义更大。因为婴儿表达情感需求信息的方式有限,基本上只能通过哭和笑来表达需求和心情,但是其传递的信息可能比较丰富,比如饥饿、痛苦、困倦等。面对以上种种难题,当前比较好的解决方案是采取人机结合的方式,即通过对婴儿在不同需求下啼哭语音进行分析筛选出有效特征,并使用这些特征来进行相关模型的训练,然后将采集到的新的啼哭语音通过已训练好的分类模型来对哭声语音进行分类,从而达到智能识别的目的。
如专利号CN200810148844.5公开了一种儿童情感方法,包括训练语音库建立、分类器训练和情感识别,但是该方法采用的数据处理方法,所选特征和模式识别方法,存下以下问题,具体描述如下:
(1)语音存在长短问题,如果对语音求固定长度的特征,必定会流失时序上的有效数据信息;
(2)从分类算法看,该分类算法效果对特征依赖较大,算法本身不具有特征学习能力;
(3)尚缺乏统一的、成熟的儿童情感需求信息识别的特征描述和分类方法,同时也缺少相应鲁棒性比较好的特征描述及识别算法。
因此,如何克服上述现有的儿童情感识别方法中存在的语音长短不一,以及分类算法效率低等问题,是当前急需解决的。
发明内容
本发明的目的是克服现有的童情感识别方法中存在的语音长短不一,以及分类算法效率低等问题。本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,而且,还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合;
步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值根据数据情况自定义,定义注意力门如公式(1)所示,
其中,V和Q均为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练矩阵,代表多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,代表多个细胞状态的对齐向量的集合,代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
其中,sigmod(x)函数的表示式为Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,为当前需要加入细胞状态的候选信息。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vhtanh(Whht) (3)
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重的计算,如公式(4)所示,
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重进行加权,如公式(5)所示,
其中,为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O)
(7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起。
本发明的有益效果是:本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,而且,还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
附图说明
图1是本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法的流程图;
图2是本发明与其他算法平均识别率随训练时间变化的收敛曲线图;
图3是图2收敛后测试集识别结果的示意图;
图4是本发明与其他算法平均识别率随训练时间变化的收敛曲线图;
图5是图4收敛后测试集识别结果的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集,所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合,从而克服不同帧数的时序相关特征长度不一致的问题,在后续的训练集网络计算的循环之前,补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得,并在长短时记忆网络中去根据实际长度决定是否计算下一个时刻信息;
步骤(C),建立长短时记忆网络(LSTM),并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值根据数据情况自定义,定义注意力门如公式(1)所示,
其中,V和Q为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练的矩阵,属于中间变量,表示多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,代表多个细胞状态的对齐向量的集合,代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
其中,sigmod(x)函数的表示式为Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,为当前需要加入细胞状态的候选信息;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vhtanh(Whht) (3)
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重的计算,如公式(4)所示,
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重进行加权,如公式(5)所示,
其中,为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O)
(7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
根据本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,图2-图5为该方法在特征注意力上的情感识别性能的对比,对比方法包括传统长短时记忆网络(LSTM),上述模型和特征注意力的结合(LSTM+c),以及特征注意力结合最后一刻输出状态的结合(LSTM+sc,本发明的方法),实验均采用单向两层LSTM堆叠结构,并使用了一个全连接层和一个softmax层作为训练模型,训练过程中,采用tanh作为激活函数,采用小批量梯度下降法,批量为64,对800个训练样本总共训练了1500个epochs,每次训练10个batch,通过对测试集打印一次测试的结果以验证模型的效果。为了保证对比有效性,以下实验的所有参数均完全相同(除了第一层全连接层,因为输入的维度不一样,但输出的维度是相同的),参数设置如表1所示。
表1网络参数
由图2所示的准确率变化曲线可知,对比3类模型可知,提出的LSTM+c在训练集和测试集上收敛速度和识别效果均高于LSTM,而LSTM+sc更优于LSTM+c;
图3为不同方法收敛后在测试集识别结果,LSTM+sc模型和LSTM+c模型均只有一个异常值,远小于传统LSTM模型的8个异常值,而且,LSTM+sc模型收敛后的识别率的最大值为0.900,最小值为0.780,均值为0.837,三者均高于LSTM+c模型的0.890,0.765和0.829,以及LSTM模型的0.870,0.745和0.805;
图4-图5为上述方法在3种注意力门的深度n的情感识别性能对比,对比方法包括传统长短时记忆网络+特征全连层(LSTM+sc)、上述模型与不同n(1,2,3)的注意力门相结合,即对应模型分别为LSTM+sc+deepf_1,LSTM+sc+deepf_2,LSTM+sc+deepf_3,实验设置如上所示;
由图4所示的准确率变化曲线可知,提出的LSTM+sc+deepf_n在训练集和测试集上收敛速度和识别效果均高于LSTM+sc。LSTM+deepf_2性能优于LSTM+deepf_1,但LSTM+deepf_3性能比LSTM+deepf_2的差,和LSTM+deepf_1类似。
图5为不同方法收敛后在测试集识别结果,LSTM+sc+deepf_3模型、LSTM+sc+deepf_2模型和LSTM+sc+deepf_1模型的三项指标(识别率的最大值,最小值和均值)分别为(0.930,0.835,0.886),(0.945,0.855,0.903)和(0.940,0.835,0.889),相比较LSTM+sc模型的相同指标(0.900,0.780,0.837)均有提升,且在深度为2时,算法性能达到最佳。
综上所述,本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,提出了三种基本注意力长短时记忆网络模型,并将其模块化,使得不同的模块组合在一起以进一步提高性能,最终表现性能显著,根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合;
步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
2.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集。
3.根据权利要求2所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:(A3),所述93维的时序相关特征,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
4.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值
根据数据情况自定义,定义注意力门如公式(1)所示,
其中,V和Q均为对之前某一时刻的细胞状态来计算注意力门的参数共享的的可训练矩阵,代表多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,代表多个细胞状态的对齐向量的集合,代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
其中,sigmod(x)函数的表示式为Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,为当前需要加入细胞状态的候选信息。
5.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vh tanh(Whht) (3)
其中,
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重的计算,如公式(4)所示,
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重进行加权,如公式(5)所示,
其中,为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O)
(7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起。
CN201811273105.9A 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法 Active CN109243494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273105.9A CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273105.9A CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Publications (2)

Publication Number Publication Date
CN109243494A true CN109243494A (zh) 2019-01-18
CN109243494B CN109243494B (zh) 2022-10-11

Family

ID=65079083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273105.9A Active CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Country Status (1)

Country Link
CN (1) CN109243494B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110263321A (zh) * 2019-05-06 2019-09-20 成都数联铭品科技有限公司 一种情感词典构建方法及***
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110515456A (zh) * 2019-08-14 2019-11-29 东南大学 基于注意力机制的脑电信号情感判别方法及装置
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112686194A (zh) * 2021-01-06 2021-04-20 中山大学 第一人称视角动作识别方法、***及存储介质
CN112967739A (zh) * 2021-02-26 2021-06-15 山东省计算中心(国家超级计算济南中心) 一种基于长短期记忆网络的语音端点检测方法及***
CN113053418A (zh) * 2021-04-30 2021-06-29 南京工程学院 一种基于长短时记忆网络快速识别语音情感类别的方法
CN113284515A (zh) * 2021-04-19 2021-08-20 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113488052A (zh) * 2021-07-22 2021-10-08 深圳鑫思威科技有限公司 无线语音传输和ai语音识别互操控方法
CN113628639A (zh) * 2021-07-06 2021-11-09 哈尔滨理工大学 一种基于多头注意力机制的语音情感识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107293291A (zh) * 2016-03-30 2017-10-24 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN107293291A (zh) * 2016-03-30 2017-10-24 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚增伟等: "基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法", 《新型工业化》 *
张原溥: "基于LSTM长短期记忆网络的情感分析", 《电子世界》 *
赵淑芳等: "基于改进的LSTM深度神经网络语音识别研究", 《郑州大学学报(工学版)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263321A (zh) * 2019-05-06 2019-09-20 成都数联铭品科技有限公司 一种情感词典构建方法及***
CN110263321B (zh) * 2019-05-06 2023-06-09 成都数联铭品科技有限公司 一种情感词典构建方法及***
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110515456B (zh) * 2019-08-14 2022-09-23 东南大学 基于注意力机制的脑电信号情感判别方法及装置
CN110515456A (zh) * 2019-08-14 2019-11-29 东南大学 基于注意力机制的脑电信号情感判别方法及装置
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112185423B (zh) * 2020-09-28 2023-11-21 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112686194A (zh) * 2021-01-06 2021-04-20 中山大学 第一人称视角动作识别方法、***及存储介质
CN112686194B (zh) * 2021-01-06 2023-07-18 中山大学 第一人称视角动作识别方法、***及存储介质
CN112967739A (zh) * 2021-02-26 2021-06-15 山东省计算中心(国家超级计算济南中心) 一种基于长短期记忆网络的语音端点检测方法及***
CN113284515A (zh) * 2021-04-19 2021-08-20 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113284515B (zh) * 2021-04-19 2023-05-02 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113053418A (zh) * 2021-04-30 2021-06-29 南京工程学院 一种基于长短时记忆网络快速识别语音情感类别的方法
CN113628639A (zh) * 2021-07-06 2021-11-09 哈尔滨理工大学 一种基于多头注意力机制的语音情感识别方法
CN113488052A (zh) * 2021-07-22 2021-10-08 深圳鑫思威科技有限公司 无线语音传输和ai语音识别互操控方法

Also Published As

Publication number Publication date
CN109243494B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN109243494A (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110534132A (zh) 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN109473120A (zh) 一种基于卷积神经网络的异常声音信号识别方法
CN110298391A (zh) 一种基于小样本的迭代式增量对话意图类别识别方法
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109243493A (zh) 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN108899051A (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN105761720A (zh) 一种基于语音属性分类的交互***及其方法
Han et al. Speech emotion recognition with a resnet-cnn-transformer parallel neural network
Zhou et al. Deep learning based affective model for speech emotion recognition
CN110534133A (zh) 一种语音情感识别***及语音情感识别方法
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN113591728A (zh) 基于集成深度学习的电能质量扰动分类方法
CN110349597A (zh) 一种语音检测方法及装置
CN109558935A (zh) 基于深度学习的情感识别与交互方法及***
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN111048097A (zh) 一种基于3d卷积的孪生网络声纹识别方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant