CN110390956A - 情感识别网络模型、方法及电子设备 - Google Patents
情感识别网络模型、方法及电子设备 Download PDFInfo
- Publication number
- CN110390956A CN110390956A CN201910751541.0A CN201910751541A CN110390956A CN 110390956 A CN110390956 A CN 110390956A CN 201910751541 A CN201910751541 A CN 201910751541A CN 110390956 A CN110390956 A CN 110390956A
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- emotion recognition
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008451 emotion Effects 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 49
- 230000002996 emotional effect Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种情感识别的网络模型、方法、电子设备,通过语音情感识别模块和文本情感识别模块,实现了可以根据目标输入的种类,调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,解决了相关技术中情感识别方法模型复杂、训练繁琐,应用场景单一的技术问题。
Description
技术领域
本发明涉及情感识别技术领域,特别是一种情感识别网络模型、方法及电子设备。
背景技术
通过语音进行情感识别和通过文本进行情况识别是当前情感识别的两种主要方法。在语音的场景下,为了更好的情感识别效果,通常的方法是先识别语音的情感,再对语音对应的文本进行情感识别,然后将语音与文本的情感进行综合打分,得到最终的情感识别结果,这种方法在最后的综合打分需要人工构建打分规则,打分规则的制定可能过于主观,人为因素影响大,通用性不强,同时识别的结果也不十分准确。
针对这个问题,专利文献(公开号CN108305641A)提出了一种多模态特征融合的情感识别方法,具体是首先从音频和通过音频识别到文本中分别提取音频特征向量和文本特征向量,然后将音频特征向量和文本特征向量合并输入神经网络进行训练,最终得到一个通过音频和文本进行情感预测的模型。这种方法避免了上述人为制定打分规则过于主观受人为因素影响导致的通用性差的问题,同时也提高了情感识别的准确性。但是,上述方法的情感预测模型相对复杂,其文本分类CNN模型与文本音频DNN模型需要分别训练,训练过程繁琐,同时,由于其文本音频DNN模型的输入必须是音频与文本的组合特征,导致这种方法的应用场景较为单一,具有局限性。
发明内容
本发明实施例提供了一种情感识别网络模型、方法及电子设备,以至少部分解决相关技术中情感识别方法模型复杂、训练繁琐,应用场景单一的技术问题。
为达到上述目的,本发明的一个实施例提供了一种情感识别的网络模型,所述网络模型包括:语音情感识别模块和文本情感识别模块;其中,所述语音情感识别模块,用于对语音输入进行语音情感特征提取,输出语音情感特征向量;所述文本情感识别模块,用于对文本输入进行文本情感特征提取,输出文本情感特征向量;所述网络模型根据所述语音情感特征向量和/或文本情感特征向量进行情感识别;
所述网络模型可以根据目标输入的种类,调用所述语音情感识别模块或/和所述文本情感识别模块进行情感识别,其中,所述目标输入的种类包括:语音输入、文本输入、语音及对应的文本的输入。
进一步地,所述语音情感识别模块包括:语音特征提取层和第一多层双向长短时记忆网络层;所述文本情感识别模块包括:预处理层、第二多层双向长短时记忆网络层和注意力层。
进一步地,所述网络模型还包括:
输入层,用于作为所述语音情感识别模块和所述文本情感识别模块的共同输入端;
融合层,用于将所述语音情感特征向量和所述文本情感特征向量进行融合,得到融合情感特征向量;
分类网络层,用于根据所述融合情感特征向量输出所述目标输入的情感识别结果。
进一步地,所述融合层将将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。
进一步地,所述语音情感识别模块和所述文本情感识别模块为并联结构。
进一步地,所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到。
进一步地,所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到,具体为:
将训练集数据输入所述情感识别模型,得到情感预测结果,其中,所述训练集数据包括:语音、语音对应的文本、情感标签;
将所述情感预测结果与所述情感标签进行比较,当所述情感预测结果与所述情感标签不匹配的情况下,采用梯度下降算法,通过反向传播,分别调整所述语音情感识别模块和所述文本情感识别模块的网络参数的取值,经过多次迭代,完成所述语音情感识别模块和所述文本情感识别模块网络参数的训练。
根据本发明的一个实施例,提供了一种情感识别方法,包括:
获取目标输入,所述目标输入的种类包括以下之一:语音输入、文本输入、语音及对应的文本的输入;
根据所述目标输入的种类,调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别;
输出所述目标输入的情感识别结果。
进一步地,根据所述目标输入的种类,调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,包括:
当所述目标输入为语音输入时,调用所述语音情感识别模块进行情感识别;
当所述目标输入为文本输入时,调用所述文本情感识别模块进行情感识别;
当所述目标输入为语音及对应的文本的输入时,同时调用所述语音情感识别模块和所述文本情感识别模块进行情感识别。
根据本发明的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
本发明提供的情感识别的网络模型,通过语音情感识别模块和文本情感识别模块,实现了可以根据目标输入的种类,调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,解决了相关技术中情感识别方法模型复杂、训练繁琐,应用场景单一的技术问题。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明的一个实施例提供的一种情感识别的网络模型的示意图;
图2是本发明的又一个实施例提供的一种情感识别方法的流程图;
图3是本发明的一个实施例提供的情感识别方法的电子设备的硬件结构框图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明的一个实施例提供的一种情感识别的网络模型20的示意图,该网络模型20包括:
语音情感识别模块202和文本情感识别模块204;其中,所述语音情感识别模块202,用于对语音输入进行语音情感特征提取,输出语音情感特征向量V1;所述文本情感识别模块204,用于对文本输入进行文本情感特征提取,输出文本情感特征向量V2;所述网络模型20根据所述语音情感特征向量V1和/或文本情感特征向量V2进行情感识别;所述网络模型20可以根据目标输入的种类,调用所述语音情感识别模块202或/和所述文本情感识别模块204 进行情感识别,其中,所述目标输入的种类包括:语音输入、文本输入、语音及对应的文本的输入。
需要说明的是,在现有技术中,为解决某一场景下的情感识别问题,一般会针对该场景构建特定的情感识别的网络模型,这种网络模型的网络结构、情感识别的输入相对固定,如果改变了情感识别场景,情感识别的输入发生改变时,这种网络模型就不再适用,需要重新构建新的情感识别的网络模型,从而带来的额外的成本。例如,在文本的场景下,例如手机短信聊天、邮件来往,或者单纯的微信文字聊天等,这些场景下情感识别的目标对象是文本,因此,需要构建针对文本输入来识别情感的网络模型;而在语音的场景下,例如电话语音聊天、微信语音聊天、会议录音等,这些场景下情感识别的目标对象是语音,因此,需要构建针对语音输入来识别情感的网络模型;此外,在一些同时具有语音及对应的文本的场景下,如一些自带语音识别功能的语音聊天平台,其可以输出语音及对应的文本,这些场景下情感识别的目标对象是,因此,需要构建针对语音及对应的文本的输入来识别情感的网络模型。如果需要同时适应上述三种场景的情感识别,现在技术中往往是采用多个情感识别的网络模型,这样就导致需要对多个网络模型进行分别构建、训练,同时需要采集不同的训练数据,其费时费力,成本非常高。
本发明实施例提供的情感识别的网络模型,通过语音情感识别模块和文本情感识别模块,实现了可以根据目标输入的种类,调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,解决了现有技术中情感识别的模型应用场景单一的技术问题,同时,网络模型训练过程简单,训练集数据的收集也相对容易。
具体地,所述语音情感识别模块202包括:语音特征提取层和第一多层双向长短时记忆网络层(Bi-LSTM);所述文本情感识别模块204包括:预处理层、第二多层双向长短时记忆网络层(Bi-LSTM)和注意力层(Attention)。在文本情感识别模块204中,因为主要情感的表达多集中在某些关键的词或者短语上,所以文本情感识别模块204需要用注意力机制(Attention Model)去重点寻找表达情感的关键词或短语,有助于提升文本情感识别的准确率。而在语音情感识别模块202中,情感的表达多与持续性的语气语调变化有关,因此语音情感识别模块202只需要多层双向长短时记忆网络层(Bi-LSTM)结构去学习前后音频信息就可以了,不需要注意力机制(Attention Model)。语音特征提取层,可采用多种方式,包括线性预测分析(LinearPredictionCoefficients,LPC)、感知线性预测系数(PerceptualLinearPredictive,PLP)、线性预测倒谱系数(LinearPredictiveCepstralCoefficient,LPCC)、梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)等,在本发明实施例中采用MFCC特征,其为现有技术,非本发明的重点,在此不再赘述。此外,多层双向长短时记忆网络层(Bi-LSTM)和注意力层(Attention)的网络结构也为现有技术,非本发明的重点,在此也不再赘述。特别地,本发明的重点在于情感识别的网络模型20的整体结构的设计,而不在于网络模型20中组成部分本身的改变,因此说明书仅对网络模型20的整体结构的组成、设计原理进行重点阐述。
进一步地,所述网络模型20还包括:输入层206,用于作为所述语音模块202和所述文本情感识别模块204的共同输入端;融合层208,用于将所述语音情感特征向量V1和所述文本情感特征向量V2进行融合,得到融合情感特征向量V3;分类网络层(Softmax)210,用于根据所述融合情感特征向量V3输出所述目标输入的情感识别结果。输入层206会根据输入数据的类型,将输入数据传输到所述语音情感识别模块202和/或所述文本情感识别模块204,例如,如果输入数据为语音,则将该输入数据输入所述语音情感识别模块202,如果输入数据为文本,则将该输入数据输入至所述文本情感识别模块204,如果输入为语音及对应的文本,则将该输入数据输入至所述语音情感识别模块202和所述文本情感识别模块204。分类网络层(Softmax)为现有技术,非本发明的重点,在此也不再赘述。
具体地,所述融合层将将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。所述语音情感特征向量V1是一个形式为1*M维的向量,所述文本情感特征向量V2是一个形式为1*N维的向量。当M=N时,所述语音情感特征向量V1与所述文本情感特征向量V2可采用对位相加的方式进行融合,得到最终的融合情感特征向量V3,融合的公式如下:V3=V1+V2。当M≠N,所述语音情感特征向量V1与所述文本情感特征向量V2可采用拼接的方法,即V3 = [V1,V2]。当M≠N时,在网络训练时,要注意在反向传播时,网络的参数更新要设置好相应的维度,即M维更新语音情感识别模块202中的网络参数,N维更新所述文本情感识别模块204中的网络参数。具体地,所述语音情感识别模块202和所述文本情感识别模块204为并联结构。并联的网络结构设计,使得网络模型训练的反向传播过程中,可以实现同时更新了所述语音情感识别模块202和所述文本情感识别模块204的网络参数的效果,进而通过一次性训练完成所述语音情感识别模块202和所述文本情感识别模块204的网络参数的训练,使得训练过程简单高效,现时节约了收集训练数据的成本。此外,并联的网络结构设计,使得情感识别的网络模型20训练的过程中,训练数据中文本包含的文本情感信息同时参与了所述语音情感识别模块202的网络参数的更新,训练数据中语音中的语音情感信息也参与了的网络参数的更新,因此,两个网络在各自领域下同时可以学习到更多的情感特征信息,比现有技术中单独训练一个文本情感识别模型或者单独训练一个语音情感识别模型学到的信息要更多,使得网络参数的收敛得更优,进而使得网络模型的预测更加准确。本发明实施例提供的情感识别的网络模型,通过语音情感识别模块和文本情感识别模块,实现了可以根据目标输入的种类,调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,解决了现有技术中情感识别的模型应用场景单一的技术问题,同时,由于本发明的情感识别网络模型中语音情感识别模块和文本情感识别模块为并联结构,其网络结构简单,并且可以通过一次性训练完成语音情感识别模块和文本情感识别模块的网络参数训练,训练过程简单,训练集数据的收集也相对容易。
本发明实施例中,所述网络模型20的所述语音情感识别模块202和所述文本情感识别模块204的网络参数是通过一次性训练得到。具体训练过程如下:
将训练集数据输入所述情感识别模型20,得到情感预测结果,其中,所述训练集数据包括:语音、语音对应的文本、情感标签;
将所述情感预测结果与所述情感标签进行比较,当所述情感预测结果与所述情感标签不匹配的情况下,采用梯度下降算法,通过反向传播,分别调整所述语音情感识别模块202和所述文本情感识别模块204的网络参数的取值,经过多次迭代,完成所述语音情感识别模块202和所述文本情感识别模块204网络参数的训练。
具体而言,训练集中的数据包括语音、语音对应的文本、情感标签,其格式形如:{“wav”,”“txt”,“情感标签”},其中,“wav”为一段语音音频文件,其文件格式wav格式,语音音频文件也可以采用其它的音频格式;“txt”为语音通过语音识别得到的文本,并且是经过人工复核后的文本;“情感标签”则是该语音及对应的文本的情感极性,如“高兴”、“悲伤”、“平和”等。
将上述训练集的数据输入到本发明的网络模型中,得到情感预测结果。具体过程为:训练集的数据中的语音部分“wav”作为语音情感识别模块202的输入,在语音特征提取层提取语音特征,例如MFCC特征,然后在第一多层双向长短时记忆网络层(Bi-LSTM)形成语音情感特征向量V1,V1是一个形式为1*N维的向量;训练集的数据中的文本部分“txt”作为文本情感识别模块204的输入,首先对文本进行预处理,预处理步骤包括分词及生成词向量,然后在第二多层双向长短时记忆网络层(Bi-LSTM)和注意力层(Attention)形成文本情感特征向量V2,V2是一个形式为1*M维的向量; 接着,融合层208将语音情感特征向量V1与文本情感特征向量V2进行融合,得到融合情感特征向量V3,融合过程可采用对位相加或者拼接的方式进行;最后,基于融合情感特征向量V3,采用分类网络层(Softmax)输出情感预测结果。
将所述情感预测结果与所述情感标签进行比较,例如,当所述情感预测结果与所述情感标签不匹配的情况下,例如,该语音及对应文本的情感预测结果为“高兴”与其情感标签“平和”不匹配,则采用梯度下降算法,通过反向传播,分别调整所述语音情感识别模块202和所述文本情感识别模块204的网络参数的取值,经过多次迭代,完成所述语音情感识别模块202和所述文本情感识别模块204网络参数的训练。运用梯度下降算法进行网络模型的参数训练为现有技术,非本发明的重点,故不再详述。
需要说明的是,由于本发明的情感识别的网络模型20的独特结构,即所述语音情感识别模块202和所述文本情感识别模块204为并联结构,在网络模型训练的反向传播过程中,实现了同时更新了所述语音情感识别模块202和所述文本情感识别模块204的网络参数的效果,进而通过一次性训练完成所述语音情感识别模块202和所述文本情感识别模块204的网络参数的训练,使得训练过程简单高效,现时节约了收集训练数据的成本。
此外,情感识别的网络模型20训练的过程中,训练数据中文本包含的文本情感信息同时参与了所述语音情感识别模块202的网络参数的更新,训练数据中语音中的语音情感信息也参与了的网络参数的更新,因此,两个网络在各自领域下同时可以学习到更多的情感特征信息,比现有技术中单独训练一个文本情感识别模型或者单独训练一个语音情感识别模型学到的信息要更多,使得网络参数的收敛得更优,进而使得网络模型的预测更加准确。另一方面,由于在融合层208之后只有分类网络层(Softmax)用于输出情感预测结果,所述语音情感识别模块202与所述文本情感识别模块204为并联结构,两个网络之间没有共用的网络参数,所以两个网络相互独立、可拆解。所述语音情感识别模块202可以单独拿出来作为独立的语音情感识别模型,并且其网络参数包含了先验的文本情感信息,即在以语音为主要特征的情况下同时兼顾文本的情感特征,其相对于现有技术中单独训练的语音情感识别模型的情感识别效果更加准确。同理,所述文本情感识别模块204也可以单独拿出来作为独立的文本情感识别模型,其网络参数包含了先验的语音情感信息,即在以文本为主要特征的情况下兼顾部分语音的情感特征,其相对于现有技术中单独训练的文字情感识别模型的情感识别效果更加准确。
本发明实施例提供的情感识别的网络模型20的语音情感识别模块202和文本情感识别模块204既单独调用也可同时调用,适用于多种场景的情感识别,同时,网络模型结构简单,训练过程也较为简单容易,训练集数据的收集也相对容易。
参见图2,图2 是本发明的又一个实施例提供的一种情感识别方法的流程图,该情感识别方法包括:
S100,获取目标输入,所述目标输入的种类包括以下之一:语音输入、文本输入、语音及对应的文本的输入;
S200,根据所述目标输入的种类,调用以上实施例中所述的网络模型20的所述语音情感识别模块202或/和所述语音情感识别模块204进行情感识别;
S300,输出所述目标输入的情感识别结果。
具体地,步骤S200具体包括:
当所述目标输入为语音输入时,调用所述语音情感识别模块202进行情感识别;
当所述目标输入为文本输入时,调用所述文本情感识别模块204进行情感识别;
当所述目标输入为语音及对应的文本的输入时,同时调用所述语音情感识别模块202和所述文本情感识别模块204进行情感识别。
参见图3,图3是本发明的一个实施例提供的情感识别方法的电子设备的硬件结构框图。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种情感识别方法的电子设备的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的情感识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (10)
1.一种情感识别的网络模型,其特征在于:
所述网络模型包括:语音情感识别模块和文本情感识别模块;其中,所述语音情感识别模块,用于对语音输入进行语音情感特征提取,输出语音情感特征向量;所述文本情感识别模块,用于对文本文本输入进行文本情感特征提取,输出文本情感特征向量;所述网络模型根据所述语音情感特征向量和/或文本情感特征向量进行情感识别;
所述网络模型可以根据目标输入的种类,调用所述语音情感识别模块或/和所述文本情感识别模块进行情感识别,其中,所述目标输入的种类包括:语音输入、文本输入、语音及对应的文本的输入。
2.根据权利要求1所述的网络模型,其特征在于,所述语音情感识别模块包括:语音特征提取层和第一多层双向长短时记忆网络层;所述文本情感识别模块包括:预处理层、第二多层双向长短时记忆网络层和注意力层。
3.根据权利要求2所述的网络模型,其特征在于,所述网络模型还包括:
输入层,用于作为所述语音情感识别模块和所述文本情感识别模块的共同输入端;
融合层,用于将所述语音情感特征向量和所述文本情感特征向量进行融合,得到融合情感特征向量;
分类网络层,用于根据所述融合情感特征向量输出所述目标输入的情感识别结果。
4.根据权利要求3所述的网络模型,其特征在于,所述融合层将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。
5.根据权利要求1-4任一所述的网络模型,其特征在于,所述语音情感识别模块和所述文本情感识别模块为并联结构。
6.根据权利要求1-5任一所述的网络模型,其特征在于,所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到。
7.根据权利要求6所述的网络模型,其特征在于,所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到,具体为:
将训练集数据输入所述情感识别模型,得到情感预测结果,其中,所述训练集数据包括:语音、语音对应的文本、情感标签;
将所述情感预测结果与所述情感标签进行比较,当所述情感预测结果与所述情感标签不匹配的情况下,采用梯度下降算法,通过反向传播,分别调整所述语音情感识别模块和所述文本情感识别模块的网络参数的取值,经过多次迭代,完成所述语音情感识别模块和所述文本情感识别模块网络参数的训练。
8.一种情感识别方法,其特征在于,包括:
获取目标输入,所述目标输入的种类包括以下之一:语音输入、文本输入、语音及对应的文本的输入;
根据所述目标输入的种类,调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别;
输出所述目标输入的情感识别结果。
9.如权利要求8所述的方法,其特征在于,根据所述目标输入的种类,调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别,包括:
当所述目标输入为语音输入时,调用所述语音情感识别模块进行情感识别;
当所述目标输入为文本输入时,调用所述文本情感识别模块进行情感识别;
当所述目标输入为语音及对应的文本的输入时,同时调用所述语音情感识别模块和所述文本情感识别模块进行情感识别。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求8或9任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751541.0A CN110390956A (zh) | 2019-08-15 | 2019-08-15 | 情感识别网络模型、方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751541.0A CN110390956A (zh) | 2019-08-15 | 2019-08-15 | 情感识别网络模型、方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110390956A true CN110390956A (zh) | 2019-10-29 |
Family
ID=68288786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910751541.0A Pending CN110390956A (zh) | 2019-08-15 | 2019-08-15 | 情感识别网络模型、方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390956A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910902A (zh) * | 2019-12-04 | 2020-03-24 | 杭州哲信信息技术有限公司 | 一种基于集成学习的混合模型语音情感识别方法及*** |
CN110909131A (zh) * | 2019-11-26 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 模型的生成方法、情绪识别方法、***、设备和存储介质 |
CN111081280A (zh) * | 2019-12-30 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 |
CN111081279A (zh) * | 2019-12-24 | 2020-04-28 | 深圳壹账通智能科技有限公司 | 语音情绪波动分析方法及装置 |
CN111179945A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 基于声纹识别的安全门的控制方法和装置 |
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN112017758A (zh) * | 2020-09-15 | 2020-12-01 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别方法、装置、情感识别***以及分析决策终端 |
WO2021068843A1 (zh) * | 2019-10-08 | 2021-04-15 | 平安科技(深圳)有限公司 | 一种情绪识别方法及装置、电子设备和可读存储介质 |
CN112733546A (zh) * | 2020-12-28 | 2021-04-30 | 科大讯飞股份有限公司 | 表情符号生成方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120121298A (ko) * | 2011-04-26 | 2012-11-05 | 한국과학기술원 | 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체 |
JP2014106313A (ja) * | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | はなし言葉分析装置とその方法とプログラム |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN107729569A (zh) * | 2017-11-17 | 2018-02-23 | 杭州师范大学 | 一种融合网络结构和文本信息的社交关系预测方法 |
CN108039181A (zh) * | 2017-11-02 | 2018-05-15 | 北京捷通华声科技股份有限公司 | 一种声音信号的情感信息分析方法和装置 |
CN108305641A (zh) * | 2017-06-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及*** |
CN108681562A (zh) * | 2018-04-26 | 2018-10-19 | 第四范式(北京)技术有限公司 | 类别划分方法和***以及分类神经网络训练方法和装置 |
CN108763325A (zh) * | 2018-05-04 | 2018-11-06 | 北京达佳互联信息技术有限公司 | 一种网络对象处理方法及装置 |
CN108985358A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及*** |
-
2019
- 2019-08-15 CN CN201910751541.0A patent/CN110390956A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120121298A (ko) * | 2011-04-26 | 2012-11-05 | 한국과학기술원 | 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체 |
JP2014106313A (ja) * | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | はなし言葉分析装置とその方法とプログラム |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN108305641A (zh) * | 2017-06-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN108039181A (zh) * | 2017-11-02 | 2018-05-15 | 北京捷通华声科技股份有限公司 | 一种声音信号的情感信息分析方法和装置 |
CN107729569A (zh) * | 2017-11-17 | 2018-02-23 | 杭州师范大学 | 一种融合网络结构和文本信息的社交关系预测方法 |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及*** |
CN108681562A (zh) * | 2018-04-26 | 2018-10-19 | 第四范式(北京)技术有限公司 | 类别划分方法和***以及分类神经网络训练方法和装置 |
CN108763325A (zh) * | 2018-05-04 | 2018-11-06 | 北京达佳互联信息技术有限公司 | 一种网络对象处理方法及装置 |
CN108985358A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068843A1 (zh) * | 2019-10-08 | 2021-04-15 | 平安科技(深圳)有限公司 | 一种情绪识别方法及装置、电子设备和可读存储介质 |
CN110909131A (zh) * | 2019-11-26 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 模型的生成方法、情绪识别方法、***、设备和存储介质 |
CN110910902A (zh) * | 2019-12-04 | 2020-03-24 | 杭州哲信信息技术有限公司 | 一种基于集成学习的混合模型语音情感识别方法及*** |
CN110910902B (zh) * | 2019-12-04 | 2022-09-06 | 杭州哲信信息技术有限公司 | 一种基于集成学习的混合模型语音情感识别方法及*** |
WO2021128741A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳壹账通智能科技有限公司 | 语音情绪波动分析方法、装置、计算机设备及存储介质 |
CN111081279A (zh) * | 2019-12-24 | 2020-04-28 | 深圳壹账通智能科技有限公司 | 语音情绪波动分析方法及装置 |
CN111081280A (zh) * | 2019-12-30 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 |
CN111179945A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 基于声纹识别的安全门的控制方法和装置 |
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN111930940B (zh) * | 2020-07-30 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN112017758A (zh) * | 2020-09-15 | 2020-12-01 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别方法、装置、情感识别***以及分析决策终端 |
CN112017758B (zh) * | 2020-09-15 | 2021-04-30 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别方法、装置、情感识别***以及分析决策终端 |
CN112733546A (zh) * | 2020-12-28 | 2021-04-30 | 科大讯飞股份有限公司 | 表情符号生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390956A (zh) | 情感识别网络模型、方法及电子设备 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及*** | |
CN108305642B (zh) | 情感信息的确定方法和装置 | |
CN107154260B (zh) | 一种领域自适应语音识别方法和装置 | |
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN103458056B (zh) | 自动外呼***基于自动分类技术的语音意图判定*** | |
CN108806667A (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN110459210A (zh) | 基于语音分析的问答方法、装置、设备及存储介质 | |
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及*** | |
CN115690553B (zh) | 一种基于多模态对话内容联合建模的情感分析方法及*** | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN109670166A (zh) | 基于语音识别的催收辅助方法、装置、设备和存储介质 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
Palaskar et al. | Learned in speech recognition: Contextual acoustic word embeddings | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN110992959A (zh) | 一种语音识别方法及*** | |
CN109003600B (zh) | 消息处理方法及装置 | |
CN112581938A (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN110111778A (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
KR101941924B1 (ko) | 자율 인지 신경망 기반 연관 모델 학습을 이용한 나노 의도 분석 서비스 제공 방법 | |
Amiriparian et al. | On the impact of word error rate on acoustic-linguistic speech emotion recognition: An update for the deep learning era |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191029 |
|
RJ01 | Rejection of invention patent application after publication |