CN110390956A

CN110390956A - 情感识别网络模型、方法及电子设备

Info

Publication number: CN110390956A
Application number: CN201910751541.0A
Authority: CN
Inventors: 聂镭; 徐泓洋; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-10-29

Abstract

本发明公开了一种情感识别的网络模型、方法、电子设备，通过语音情感识别模块和文本情感识别模块，实现了可以根据目标输入的种类，调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，解决了相关技术中情感识别方法模型复杂、训练繁琐，应用场景单一的技术问题。

Description

情感识别网络模型、方法及电子设备

技术领域

本发明涉及情感识别技术领域，特别是一种情感识别网络模型、方法及电子设备。

背景技术

通过语音进行情感识别和通过文本进行情况识别是当前情感识别的两种主要方法。在语音的场景下，为了更好的情感识别效果，通常的方法是先识别语音的情感，再对语音对应的文本进行情感识别，然后将语音与文本的情感进行综合打分，得到最终的情感识别结果，这种方法在最后的综合打分需要人工构建打分规则，打分规则的制定可能过于主观，人为因素影响大，通用性不强，同时识别的结果也不十分准确。

针对这个问题，专利文献（公开号CN108305641A）提出了一种多模态特征融合的情感识别方法，具体是首先从音频和通过音频识别到文本中分别提取音频特征向量和文本特征向量，然后将音频特征向量和文本特征向量合并输入神经网络进行训练，最终得到一个通过音频和文本进行情感预测的模型。这种方法避免了上述人为制定打分规则过于主观受人为因素影响导致的通用性差的问题，同时也提高了情感识别的准确性。但是，上述方法的情感预测模型相对复杂，其文本分类CNN模型与文本音频DNN模型需要分别训练，训练过程繁琐，同时，由于其文本音频DNN模型的输入必须是音频与文本的组合特征，导致这种方法的应用场景较为单一，具有局限性。

发明内容

本发明实施例提供了一种情感识别网络模型、方法及电子设备，以至少部分解决相关技术中情感识别方法模型复杂、训练繁琐，应用场景单一的技术问题。

为达到上述目的，本发明的一个实施例提供了一种情感识别的网络模型，所述网络模型包括：语音情感识别模块和文本情感识别模块；其中，所述语音情感识别模块，用于对语音输入进行语音情感特征提取，输出语音情感特征向量；所述文本情感识别模块，用于对文本输入进行文本情感特征提取，输出文本情感特征向量；所述网络模型根据所述语音情感特征向量和/或文本情感特征向量进行情感识别；

所述网络模型可以根据目标输入的种类，调用所述语音情感识别模块或/和所述文本情感识别模块进行情感识别，其中，所述目标输入的种类包括：语音输入、文本输入、语音及对应的文本的输入。

进一步地，所述语音情感识别模块包括：语音特征提取层和第一多层双向长短时记忆网络层；所述文本情感识别模块包括：预处理层、第二多层双向长短时记忆网络层和注意力层。

进一步地，所述网络模型还包括：

输入层，用于作为所述语音情感识别模块和所述文本情感识别模块的共同输入端；

融合层，用于将所述语音情感特征向量和所述文本情感特征向量进行融合，得到融合情感特征向量；

分类网络层，用于根据所述融合情感特征向量输出所述目标输入的情感识别结果。

进一步地，所述融合层将将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。

进一步地，所述语音情感识别模块和所述文本情感识别模块为并联结构。

进一步地，所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到。

进一步地，所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到,具体为：

将训练集数据输入所述情感识别模型，得到情感预测结果，其中，所述训练集数据包括：语音、语音对应的文本、情感标签；

将所述情感预测结果与所述情感标签进行比较，当所述情感预测结果与所述情感标签不匹配的情况下，采用梯度下降算法，通过反向传播，分别调整所述语音情感识别模块和所述文本情感识别模块的网络参数的取值，经过多次迭代，完成所述语音情感识别模块和所述文本情感识别模块网络参数的训练。

根据本发明的一个实施例，提供了一种情感识别方法，包括：

获取目标输入，所述目标输入的种类包括以下之一：语音输入、文本输入、语音及对应的文本的输入；

根据所述目标输入的种类，调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别；

输出所述目标输入的情感识别结果。

进一步地，根据所述目标输入的种类，调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，包括：

当所述目标输入为语音输入时，调用所述语音情感识别模块进行情感识别；

当所述目标输入为文本输入时，调用所述文本情感识别模块进行情感识别；

当所述目标输入为语音及对应的文本的输入时，同时调用所述语音情感识别模块和所述文本情感识别模块进行情感识别。

根据本发明的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。

本发明提供的情感识别的网络模型，通过语音情感识别模块和文本情感识别模块，实现了可以根据目标输入的种类，调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，解决了相关技术中情感识别方法模型复杂、训练繁琐，应用场景单一的技术问题。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明的一个实施例提供的一种情感识别的网络模型的示意图；

图2是本发明的又一个实施例提供的一种情感识别方法的流程图；

图3是本发明的一个实施例提供的情感识别方法的电子设备的硬件结构框图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参见图1，图1是本发明的一个实施例提供的一种情感识别的网络模型20的示意图，该网络模型20包括：

语音情感识别模块202和文本情感识别模块204；其中，所述语音情感识别模块202，用于对语音输入进行语音情感特征提取，输出语音情感特征向量V1；所述文本情感识别模块204，用于对文本输入进行文本情感特征提取，输出文本情感特征向量V2；所述网络模型20根据所述语音情感特征向量V1和/或文本情感特征向量V2进行情感识别；所述网络模型20可以根据目标输入的种类，调用所述语音情感识别模块202或/和所述文本情感识别模块204 进行情感识别，其中，所述目标输入的种类包括：语音输入、文本输入、语音及对应的文本的输入。

需要说明的是，在现有技术中，为解决某一场景下的情感识别问题，一般会针对该场景构建特定的情感识别的网络模型，这种网络模型的网络结构、情感识别的输入相对固定，如果改变了情感识别场景，情感识别的输入发生改变时，这种网络模型就不再适用，需要重新构建新的情感识别的网络模型，从而带来的额外的成本。例如，在文本的场景下，例如手机短信聊天、邮件来往，或者单纯的微信文字聊天等，这些场景下情感识别的目标对象是文本，因此，需要构建针对文本输入来识别情感的网络模型；而在语音的场景下，例如电话语音聊天、微信语音聊天、会议录音等，这些场景下情感识别的目标对象是语音，因此，需要构建针对语音输入来识别情感的网络模型；此外，在一些同时具有语音及对应的文本的场景下，如一些自带语音识别功能的语音聊天平台，其可以输出语音及对应的文本，这些场景下情感识别的目标对象是，因此，需要构建针对语音及对应的文本的输入来识别情感的网络模型。如果需要同时适应上述三种场景的情感识别，现在技术中往往是采用多个情感识别的网络模型，这样就导致需要对多个网络模型进行分别构建、训练，同时需要采集不同的训练数据，其费时费力，成本非常高。

本发明实施例提供的情感识别的网络模型，通过语音情感识别模块和文本情感识别模块，实现了可以根据目标输入的种类，调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，解决了现有技术中情感识别的模型应用场景单一的技术问题，同时，网络模型训练过程简单，训练集数据的收集也相对容易。

具体地，所述语音情感识别模块202包括：语音特征提取层和第一多层双向长短时记忆网络层（Bi-LSTM）；所述文本情感识别模块204包括：预处理层、第二多层双向长短时记忆网络层（Bi-LSTM）和注意力层(Attention)。在文本情感识别模块204中，因为主要情感的表达多集中在某些关键的词或者短语上，所以文本情感识别模块204需要用注意力机制（Attention Model）去重点寻找表达情感的关键词或短语，有助于提升文本情感识别的准确率。而在语音情感识别模块202中，情感的表达多与持续性的语气语调变化有关，因此语音情感识别模块202只需要多层双向长短时记忆网络层（Bi-LSTM）结构去学习前后音频信息就可以了，不需要注意力机制（Attention Model）。语音特征提取层，可采用多种方式，包括线性预测分析（LinearPredictionCoefficients，LPC）、感知线性预测系数（PerceptualLinearPredictive，PLP）、线性预测倒谱系数（LinearPredictiveCepstralCoefficient，LPCC）、梅尔频率倒谱系数（MelFrequencyCepstrumCoefficient，MFCC）等，在本发明实施例中采用MFCC特征，其为现有技术，非本发明的重点，在此不再赘述。此外，多层双向长短时记忆网络层（Bi-LSTM）和注意力层(Attention)的网络结构也为现有技术，非本发明的重点，在此也不再赘述。特别地，本发明的重点在于情感识别的网络模型20的整体结构的设计，而不在于网络模型20中组成部分本身的改变，因此说明书仅对网络模型20的整体结构的组成、设计原理进行重点阐述。

进一步地，所述网络模型20还包括：输入层206，用于作为所述语音模块202和所述文本情感识别模块204的共同输入端；融合层208，用于将所述语音情感特征向量V1和所述文本情感特征向量V2进行融合，得到融合情感特征向量V3；分类网络层（Softmax）210，用于根据所述融合情感特征向量V3输出所述目标输入的情感识别结果。输入层206会根据输入数据的类型，将输入数据传输到所述语音情感识别模块202和/或所述文本情感识别模块204，例如，如果输入数据为语音，则将该输入数据输入所述语音情感识别模块202，如果输入数据为文本，则将该输入数据输入至所述文本情感识别模块204，如果输入为语音及对应的文本，则将该输入数据输入至所述语音情感识别模块202和所述文本情感识别模块204。分类网络层（Softmax）为现有技术，非本发明的重点，在此也不再赘述。

具体地，所述融合层将将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。所述语音情感特征向量V1是一个形式为1*M维的向量，所述文本情感特征向量V2是一个形式为1*N维的向量。当M=N时，所述语音情感特征向量V1与所述文本情感特征向量V2可采用对位相加的方式进行融合，得到最终的融合情感特征向量V3，融合的公式如下：V3=V1+V2。当M≠N，所述语音情感特征向量V1与所述文本情感特征向量V2可采用拼接的方法，即V3 = [V1,V2]。当M≠N时，在网络训练时，要注意在反向传播时，网络的参数更新要设置好相应的维度，即M维更新语音情感识别模块202中的网络参数，N维更新所述文本情感识别模块204中的网络参数。具体地，所述语音情感识别模块202和所述文本情感识别模块204为并联结构。并联的网络结构设计，使得网络模型训练的反向传播过程中，可以实现同时更新了所述语音情感识别模块202和所述文本情感识别模块204的网络参数的效果，进而通过一次性训练完成所述语音情感识别模块202和所述文本情感识别模块204的网络参数的训练，使得训练过程简单高效，现时节约了收集训练数据的成本。此外，并联的网络结构设计，使得情感识别的网络模型20训练的过程中，训练数据中文本包含的文本情感信息同时参与了所述语音情感识别模块202的网络参数的更新，训练数据中语音中的语音情感信息也参与了的网络参数的更新，因此，两个网络在各自领域下同时可以学习到更多的情感特征信息，比现有技术中单独训练一个文本情感识别模型或者单独训练一个语音情感识别模型学到的信息要更多，使得网络参数的收敛得更优，进而使得网络模型的预测更加准确。本发明实施例提供的情感识别的网络模型，通过语音情感识别模块和文本情感识别模块，实现了可以根据目标输入的种类，调用所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，解决了现有技术中情感识别的模型应用场景单一的技术问题，同时，由于本发明的情感识别网络模型中语音情感识别模块和文本情感识别模块为并联结构，其网络结构简单，并且可以通过一次性训练完成语音情感识别模块和文本情感识别模块的网络参数训练，训练过程简单，训练集数据的收集也相对容易。

本发明实施例中，所述网络模型20的所述语音情感识别模块202和所述文本情感识别模块204的网络参数是通过一次性训练得到。具体训练过程如下：

将训练集数据输入所述情感识别模型20，得到情感预测结果，其中，所述训练集数据包括：语音、语音对应的文本、情感标签；

将所述情感预测结果与所述情感标签进行比较，当所述情感预测结果与所述情感标签不匹配的情况下，采用梯度下降算法，通过反向传播，分别调整所述语音情感识别模块202和所述文本情感识别模块204的网络参数的取值，经过多次迭代，完成所述语音情感识别模块202和所述文本情感识别模块204网络参数的训练。

具体而言，训练集中的数据包括语音、语音对应的文本、情感标签，其格式形如：｛“wav”,”“txt”,“情感标签”｝，其中，“wav”为一段语音音频文件，其文件格式wav格式，语音音频文件也可以采用其它的音频格式；“txt”为语音通过语音识别得到的文本，并且是经过人工复核后的文本；“情感标签”则是该语音及对应的文本的情感极性，如“高兴”、“悲伤”、“平和”等。

将上述训练集的数据输入到本发明的网络模型中，得到情感预测结果。具体过程为：训练集的数据中的语音部分“wav”作为语音情感识别模块202的输入，在语音特征提取层提取语音特征，例如MFCC特征，然后在第一多层双向长短时记忆网络层（Bi-LSTM）形成语音情感特征向量V1，V1是一个形式为1*N维的向量；训练集的数据中的文本部分“txt”作为文本情感识别模块204的输入，首先对文本进行预处理，预处理步骤包括分词及生成词向量，然后在第二多层双向长短时记忆网络层（Bi-LSTM）和注意力层（Attention）形成文本情感特征向量V2，V2是一个形式为1*M维的向量; 接着，融合层208将语音情感特征向量V1与文本情感特征向量V2进行融合，得到融合情感特征向量V3，融合过程可采用对位相加或者拼接的方式进行；最后，基于融合情感特征向量V3，采用分类网络层（Softmax）输出情感预测结果。

将所述情感预测结果与所述情感标签进行比较，例如，当所述情感预测结果与所述情感标签不匹配的情况下，例如，该语音及对应文本的情感预测结果为“高兴”与其情感标签“平和”不匹配，则采用梯度下降算法，通过反向传播，分别调整所述语音情感识别模块202和所述文本情感识别模块204的网络参数的取值，经过多次迭代，完成所述语音情感识别模块202和所述文本情感识别模块204网络参数的训练。运用梯度下降算法进行网络模型的参数训练为现有技术，非本发明的重点，故不再详述。

需要说明的是，由于本发明的情感识别的网络模型20的独特结构，即所述语音情感识别模块202和所述文本情感识别模块204为并联结构，在网络模型训练的反向传播过程中，实现了同时更新了所述语音情感识别模块202和所述文本情感识别模块204的网络参数的效果，进而通过一次性训练完成所述语音情感识别模块202和所述文本情感识别模块204的网络参数的训练，使得训练过程简单高效，现时节约了收集训练数据的成本。

此外，情感识别的网络模型20训练的过程中，训练数据中文本包含的文本情感信息同时参与了所述语音情感识别模块202的网络参数的更新，训练数据中语音中的语音情感信息也参与了的网络参数的更新，因此，两个网络在各自领域下同时可以学习到更多的情感特征信息，比现有技术中单独训练一个文本情感识别模型或者单独训练一个语音情感识别模型学到的信息要更多，使得网络参数的收敛得更优，进而使得网络模型的预测更加准确。另一方面，由于在融合层208之后只有分类网络层（Softmax）用于输出情感预测结果，所述语音情感识别模块202与所述文本情感识别模块204为并联结构，两个网络之间没有共用的网络参数，所以两个网络相互独立、可拆解。所述语音情感识别模块202可以单独拿出来作为独立的语音情感识别模型，并且其网络参数包含了先验的文本情感信息，即在以语音为主要特征的情况下同时兼顾文本的情感特征，其相对于现有技术中单独训练的语音情感识别模型的情感识别效果更加准确。同理，所述文本情感识别模块204也可以单独拿出来作为独立的文本情感识别模型，其网络参数包含了先验的语音情感信息，即在以文本为主要特征的情况下兼顾部分语音的情感特征，其相对于现有技术中单独训练的文字情感识别模型的情感识别效果更加准确。

本发明实施例提供的情感识别的网络模型20的语音情感识别模块202和文本情感识别模块204既单独调用也可同时调用，适用于多种场景的情感识别，同时，网络模型结构简单，训练过程也较为简单容易，训练集数据的收集也相对容易。

参见图2，图2 是本发明的又一个实施例提供的一种情感识别方法的流程图，该情感识别方法包括：

S100，获取目标输入，所述目标输入的种类包括以下之一：语音输入、文本输入、语音及对应的文本的输入；

S200，根据所述目标输入的种类，调用以上实施例中所述的网络模型20的所述语音情感识别模块202或/和所述语音情感识别模块204进行情感识别；

S300，输出所述目标输入的情感识别结果。

具体地，步骤S200具体包括：

当所述目标输入为语音输入时，调用所述语音情感识别模块202进行情感识别；

当所述目标输入为文本输入时，调用所述文本情感识别模块204进行情感识别；

当所述目标输入为语音及对应的文本的输入时，同时调用所述语音情感识别模块202和所述文本情感识别模块204进行情感识别。

参见图3，图3是本发明的一个实施例提供的情感识别方法的电子设备的硬件结构框图。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种情感识别方法的电子设备的硬件结构框图。如图1所示，移动终端10可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的情感识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种情感识别的网络模型，其特征在于：

所述网络模型包括：语音情感识别模块和文本情感识别模块；其中，所述语音情感识别模块，用于对语音输入进行语音情感特征提取，输出语音情感特征向量；所述文本情感识别模块，用于对文本文本输入进行文本情感特征提取，输出文本情感特征向量；所述网络模型根据所述语音情感特征向量和/或文本情感特征向量进行情感识别；

2.根据权利要求1所述的网络模型，其特征在于，所述语音情感识别模块包括：语音特征提取层和第一多层双向长短时记忆网络层；所述文本情感识别模块包括：预处理层、第二多层双向长短时记忆网络层和注意力层。

3.根据权利要求2所述的网络模型，其特征在于，所述网络模型还包括：

4.根据权利要求3所述的网络模型，其特征在于，所述融合层将所述语音情感特征向量和所述文本情感特征向量进行融合的方式采用对位相加或者拼接方式。

5.根据权利要求1-4任一所述的网络模型，其特征在于，所述语音情感识别模块和所述文本情感识别模块为并联结构。

6.根据权利要求1-5任一所述的网络模型，其特征在于，所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到。

7.根据权利要求6所述的网络模型，其特征在于，所述语音情感识别模块和所述文本情感识别模块的网络参数是通过一次性训练得到,具体为：

8.一种情感识别方法，其特征在于，包括：

输出所述目标输入的情感识别结果。

9.如权利要求8所述的方法，其特征在于，根据所述目标输入的种类，调用权利要求1-7任一所述的网络模型的所述语音情感识别模块或/和所述语音情感识别模块进行情感识别，包括：

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求8或9任一项中所述的方法。