CN111523574B - 一种基于多模态数据的图像情感识别方法及*** - Google Patents

一种基于多模态数据的图像情感识别方法及*** Download PDF

Info

Publication number
CN111523574B
CN111523574B CN202010284300.2A CN202010284300A CN111523574B CN 111523574 B CN111523574 B CN 111523574B CN 202010284300 A CN202010284300 A CN 202010284300A CN 111523574 B CN111523574 B CN 111523574B
Authority
CN
China
Prior art keywords
training
neural network
data
convolutional neural
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010284300.2A
Other languages
English (en)
Other versions
CN111523574A (zh
Inventor
普园媛
阿曼
徐丹
赵征鹏
钱文华
袁国武
***
陈云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202010284300.2A priority Critical patent/CN111523574B/zh
Publication of CN111523574A publication Critical patent/CN111523574A/zh
Application granted granted Critical
Publication of CN111523574B publication Critical patent/CN111523574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态数据的图像情感识别方法及***,包括:获取训练样本数据;根据训练样本数据得训练好的循环神经网络以及训练好的卷积神经网络;获取待识别数据;将待识别文本数据输入训练好的循环神经网络,得文本特征;将待识别图像输入训练好的卷积神经网络,得美感特征、情感特征以及共享特征;采用TFN方法对美感特征、共享特征和文本特征进行融合,得第一待识别融合特征;采用TFN方法对情感特征、图像特征和文本特征进行融合,得第二待识别融合特征;根据待识别融合特征确定待识别数据的情感。通过本发明的上述方法提高了情感识别的准确性。

Description

一种基于多模态数据的图像情感识别方法及***
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于多模态数据的图像情感识别方法及***。
背景技术
对于多媒体数据的情感分析一直以来都是一项具有挑战性的任务,国内外已经有许多学者、企业展开了对各个模态数据情感分析的研究。但较长时间来,研究人员主要关注单个模态的情感分析算法,而较少关注多种模态数据的联合分析。
传统的情感分析方法提取图片的纹理、聚类各种颜色,构建颜色、形状、纹理和情感之间的相关性。然而,一幅图像的情感受到多方面的影响,传统的情感分析方法考虑的因素不够全面和准确,导致情感识别的准确性不佳。
发明内容
基于此,本发明的目的是提供一种基于多模态数据的图像情感识别方法及***,通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别,提高情感识别的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于多模态数据的图像情感识别方法,所述图像情感识别方法包括:
获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
获取预设共享参数;
根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征。
采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断迭代次数是否小于预设迭代次数,获得判断结果;
若所述判断结果表示所述迭代次数小于预设迭代次数,返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤;
若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
可选的,所述根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络,具体包括:
将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
可选的,所述根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
获取原始卷积神经网络;
将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
可选的,所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失,具体包括:
根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
一种基于多模态数据的图像情感识别***,所述图像情感识别***包括:
训练样本数据获取模块,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
预设共享参数获取模块,用于获取预设共享参数;
卷积神经网络训练模块,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
循环神经网络训练模块,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
第一训练融合特征获得模块,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
第二训练融合特征获得模块,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
训练美感损失以及训练情感分布损失确定模块,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
训练文本损失确定模块,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
训练样本数据的总损失确定模块,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
参数确定模块,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块,用于判断迭代次数是否小于预设迭代次数,获得判断结果;
返回模块,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块;
网络确定模块,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
待识别数据获取模块,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
待识别文本特征获得模块,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
待识别美感特征、待识别情感特征以及待识别共享特征获得模块,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
第一待识别融合特征获得模块,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
第二待识别融合特征获得模块,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
待识别数据情感确定模块,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
可选的,所述循环神经网络训练模块具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
可选的,所述卷积神经网络训练模块具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络;
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
可选的,所述训练样本数据的总损失确定模块具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于多模态数据的图像情感识别方法及***,采用循环神经网络对文本数据进行特征提取获得文本特征,根据文本特征计算文本损失;采用卷积神经网络对图像数据进行特征提取获得美感特征、情感特征以及共享特征,并采用TFN方法对提取后的特征进行融合,根据融合后的特征采用交叉熵损失函数确定美感损失以及情感分布损失。根据美感损失、情感分布损失以及文本损失确定总损失,用于更新网络参数,最终利用判别器对图像情感进行识别。本发明在分析图像情感时,增加文本特征、美感特征、情感特征以及共享特征进行多模态数据的联合情感分析,能够全面、准确地用数据来概括情感,并最终进行较为准确的情感判别,提高情感识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图;
图2为本发明实施例所提供的训练好的卷积神经网络结构图;
图3为本发明实施例所提供的一种基于多模态数据的图像情感识别***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多模态数据的图像情感识别方法及***,通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别,提高情感识别的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图,如图1所示,本发明所述图像情感识别方法包括:
S101,获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据。
S102,获取预设共享参数,所述预设共享参数包括αpsps
S103,根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
301,获取原始卷积神经网络。
302,将所述训练图像数据分为第一训练图像数据和第二训练图像数据。
具体的,第一训练图像数据包括ImageNet的图像数据、AVA美感评价数据及DeepEmotion情感识别数据,第二训练图像数据包括Flickr_LDL多分类情感数据图像。
303,利用第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络。
304,根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
具体的,将卷积神经网络的训练分为三个支路:上支路为图像美感支路,下支路为图像情感支路,中间支路为共享参数网络支路,如图2所示。
上支路:利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练,获得上支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数,获取训练过的美感卷积神经网络,将该网络最后一个卷积块的输出视为图像美感特征。
上支路的损失函数表示如下:
Figure BDA0002447930540000081
其中,La表示图像的美感损失,ai表示图像美感的类别,有两个取值,分别表示图像美感质量的高和低,yai表示图像的美感参考标签,
Figure BDA0002447930540000082
表示图像美感的预测标签值,
Figure BDA0002447930540000083
可以使用softmax公式计算,如公式(2):
Figure BDA0002447930540000084
其中,
Figure BDA0002447930540000085
表示第ai类图像美感的预测标签值,eai表示网络神经元的中间输出,在卷积神经网络中,可以使用公式(3)计算:
Figure BDA0002447930540000086
其中,eai表示卷积网络神经元的中间输出,xa表示前一层神经元的输出,Wa和ba表示网络中神经元的权值矩阵和偏置,可以在迭代中更新,
Figure BDA0002447930540000091
表示该神经元的激活函数,用于计算神经元的输出,在卷积神经网络模型中选用Relu函数作为激活函数。
下支路:利用第一训练图像数据中的Deep Emotion数据集对原始卷积神经网络进行训练,获得下支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数,获取情感卷积神经网络,将该网络最后一个卷积块的输出视为图像情感特征。在上述训练过程中,需要修改卷积神经网络,将最后一个全连接层的输出改为8个,分别表示图像情感的8个情感分类。
图像的8情感标签可以表示为P={P1,P2,...,P7,P8},网络最后的输出为和P结构相似的概率分布,通过计算标签损失来调整网络参数,优化网络模型。
具体的,下支路的损失函数如下所示:
Figure BDA0002447930540000092
其中,Le表示图像的情感损失,ei表示图像情感的类别,取值范围为1~8,yei表示图像情感的参考标签,
Figure BDA0002447930540000093
表示图像情感的预测标签值,
Figure BDA0002447930540000094
可以使用softmax公式计算,如公式(5):
Figure BDA0002447930540000095
其中,
Figure BDA0002447930540000096
表示第i类图像情感的预测标签值,eei表示网络神经元的中间输出,可以使用公式(6)计算:
Figure BDA0002447930540000097
其中,eei表示网络神经元的中间输出,其中,xe表示前一层神经元的输出,We和be表示网络中神经元的权值矩阵和偏置,可以在迭代中更新,
Figure BDA0002447930540000098
表示该神经元的激活函数,此处为Relu函数。
中间支路:利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练,获得中间支路预训练的卷积神经网络,该支路不使用特定的标签来计算损失和更新参数,而是将该支路的输出和上支路、下支路融合后再计算损失。即增加共享参数,利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换,并在网络迭代的过程中,将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播,使用参数αp,αs控制共享参数网络及图像美感支路的输出特征,并使用βp,βs控制共享参数网络及图像情感支路的输出特征。计算方法如下:
Figure BDA0002447930540000101
其中,
Figure BDA0002447930540000102
表示共享参数网络和上支路中间输出结合后向前传播的中间输出,fs(x,y)表示共享参数网络向前传播的中间输出,
Figure BDA0002447930540000103
表示共享参数网络和下支路中间输出结合后的中间输出,αp,αs分别表示共享参数网络中间输出和上支路中间输出的结合系数,βp,βs分别表示共享参数网络中间输出和下支路中间输出的结合系数,fa(x,y)表示图像美感支路的中间输出,fe(x,y)表示图像情感支路的中间输出。
S104,根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征,具体包括:
401,将所述训练文本数据分为第一训练文本数据和第二训练文本数据。
所述第一训练文本数据包括***语料库以及一部分第二训练图像数据所对应的训练文本数据。
所述第二训练文本数据包括另一部分训练图像数据所对应的训练文本数据。
402,采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库。
403,根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型,也就是构建词嵌入向量库。
情感词嵌入模型的思想是根据文本语句中某个词的相邻n个词汇,判断该词位置上某个词语出现的概率,其中,n是GloVe模型的窗口大小,可以提前设置该参数,GloVe模型是基于语料库构建词语的共现矩阵,再基于共现矩阵和GloVe模型学习词向量。
在GloVe模型训练过程中,共现矩阵用X表示,则矩阵X中的元素表示为Xi,j,Xi,j表示整个语料库中,单词i和单词j共同出现在一个窗口中的次数,模型的代价函数如公式(1)所示:
Figure BDA0002447930540000111
其中,vi和vj表示单词i和单词j的词向量,bi和bj表示偏置,N表示词汇表大小,f(·)是权重函数,在GloVe模型中可以表示为公式(9):
Figure BDA0002447930540000112
404,采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词。
405,根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵。
具体的,每个文本句子的长度不同,因此,在训练词嵌入矩阵表示前还要设定文本语句中词语的最大长度,对于词语数量不足的,则采取补0向量的方式来填充,对于词语过多的,则直接截取。
406,根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
S105,采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征。
采用TFN(tensorfusionnetwork)融合方法融合文本特征和美感特征,即使用向量的笛卡尔积融合美感特征、文本特征、共享参数网络输出的共享特征,采用公式(10)完成,
Figure BDA0002447930540000113
其中,
Figure BDA0002447930540000114
为训练美感特征,fT为训练文本特征,fs为训练共享特征,fafuse为第一训练融合特征。
S106,采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征。
采用TFN融合方法融合文本特征和情感特征,即使用向量的笛卡尔积融合情感特征、文本特征以及共享参数网络输出的共享特征,采用公式(11)完成,
Figure BDA0002447930540000121
其中,
Figure BDA0002447930540000122
为训练情感特征,fT为训练文本特征,fs为训练共享特征,fefuse为第二训练融合特征。
S107,根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。
根据交叉熵损失函数,计算第一训练融合特征导致的损失,具体计算公式如下:
Figure BDA0002447930540000123
其中,Lafuse表示训练美感损失,yafuse表示美感特征参考标签,
Figure BDA0002447930540000124
表示美感特征的预测标签。
根据交叉熵损失函数,计算第二训练融合特征导致的损失,具体计算公式如下:
Figure BDA0002447930540000125
其中,Lefuse表示训练情感分布损失,yefuse表示图像情感参考标签,
Figure BDA0002447930540000126
表示图像情感特征的预测标签。
S108,根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失。
具体的,根据图像的情感标签计算LSTM循环神经网络的损失,实现LSTM网络的训练,LSTM网络的文本损失使用交叉熵损失函数来计算,如公式(14)所示:
Figure BDA0002447930540000127
其中,LT表示文本损失,Ti表示文本情感的类别,有八个取值,分别表示8个情感类别,yTi表示文本情感参考标签,
Figure BDA0002447930540000128
表示文本情感的预测标签值。
S109,根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。
设置参数γ,θ和δ控制三种损失所占的比重。在实验中,利用网格法(即以0.1为步长,从0开始分别遍历参数γ,θ和δ,保持各个参数总和等于1,分别尝试γ,θ和δ不同值的组合,选取最优条件)设置参数γ,θ和δ,通常选取γ=0.4,θ=0.5和δ=0.1作为最优组合值。具体计算公式如下:
Lall=γLafuse+θLefuse+δLT (15)
其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
S110,根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数。
具体的,参数αp、αs、βp、βs设定初始值分别为αp=βp=0.9,αs=βs=0.1,并根据总损失通过反向传播实现更新,反向传播计算过程如公式(16)和公式(17)所示:
Figure BDA0002447930540000131
Figure BDA0002447930540000132
所述的卷积神经网络为ResNet-50,由于在ResNet-50网络结构中,存在短路(Shortcut)结构,,因此,卷积神经网络的反向传播如公式(18)所示:
Figure BDA0002447930540000133
其中,xl和xL分别表示非短路结构的输出和短路结构的输出,wi和bi表示反向传播过程中第i个神经元的权值矩阵和偏置,
Figure BDA0002447930540000134
表示该神经元的激活函数,此处为Relu函数。
在循环神经网络LSTM中,将LSTM的隐层状态视作文本特征,隐层状态的反向传播过程如下:假设当前时刻为τ,可以将当前时刻的隐层状态表示为H(τ)={h(τ)1,h(τ)2,...,h(τ)l},其中h(τ)l的下标表示LSTM中具有l个隐藏层单元。损失计算可以分为两部分,即当前时刻的损失和当前时刻之后时刻的总损失,分别用l(τ)和L(τ+1)表示,则当前时刻隐层状态H(τ)的反向传播计算公式如公式(19)所示:
Figure BDA0002447930540000141
S111,判断迭代次数是否小于预设迭代次数,获得判断结果。
若所述判断结果表示所述迭代次数小于预设迭代次数,返回S103。具体的,根据重新确定的预设共享参数、卷积神经网络和循环神经网络的参数,对卷积神经网络进行训练直到达到迭代次数。
S112,若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络。
S113,获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。
S114,将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征。
具体的,使用训练好的LSTM网络结构提取待识别文本特征,将文本数据经过训练好的LSTM网络得到的隐层输出H(τ)={h(τ)1,h(τ)2,...,h(τ)l},其中h(τ)l的下标表示LSTM网络隐藏层单元数量。设置LSTM网络的神经元为512个,将隐藏层输出作为文本的特征。提取特征过程具体表示如下:
输入的文本数据可以表示为T={T1,T2,...,Ti,...,Tn},其中,i表示文本数据的第i个样本,利用jieba分词工具进行分词,根据预设的文本最大词长度来调整每个样本的词语长度后,可以将第i个文本Ti表示为Ti={w1,w2,…,wm,…,wL},其中,wm表示文本的第m个词语,L为预先设定的文本最大词语长度。使用词嵌入模型对文本Ti进行词嵌入后,第i个文本的词嵌入矩阵可以表示为
Figure BDA0002447930540000142
其中,vm表示第m个词语的词嵌入向量,L为预先设定的文本最大词语长度,E表示词嵌入的维度,词嵌入维度为400,之后利用LSTM网络进行特征表示,将每个文本的特征表示为H(τ)={h(τ)1,h(τ)2,...,h(τ)l},即所需的文本特征,其中,l表示LSTM网络的隐藏层单元数量,也就是512。
S115,将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征。
S116,采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征。
S117,采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征。
S118,将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括8个情感类别,分别为:愉悦(amusement),敬畏(awe),满足(contentment),激动(excitement),愤怒(anger),厌恶(disgust),恐惧(fear),悲伤(sadness)。
具体的,所述判别器为SVM分类器。
本发明还提供了一种基于多模态数据的图像情感识别***,如图3所示,所述图像情感识别***包括:
训练样本数据获取模块1,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据。
预设共享参数获取模块2,用于获取预设共享参数。
卷积神经网络训练模块3,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征。
循环神经网络训练模块4,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征。
第一训练融合特征获得模块5,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征。
第二训练融合特征获得模块6,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征。
训练美感损失以及训练情感分布损失确定模块7,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。
训练文本损失确定模块8,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失。
训练样本数据的总损失确定模块9,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。
参数确定模块10,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块11,用于判断迭代次数是否小于预设迭代次数,获得判断结果。
返回模块12,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块3。
网络确定模块13,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络。
待识别数据获取模块14,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。
待识别文本特征获得模块15,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征。
待识别美感特征、待识别情感特征以及待识别共享特征获得模块16,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征。
第一待识别融合特征获得模块17,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征。
第二待识别融合特征获得模块18,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征。
待识别数据情感确定模块19,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
优选的,所述循环神经网络训练模块4具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据。
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库。
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型。
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词。
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵。
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络,其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
优选的,所述卷积神经网络训练模块3具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络。
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据。
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络。
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
优选的,所述训练样本数据的总损失确定模块9具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
本发明一种基于多模态数据的图像情感识别方法即***,同时关注图像的美感和情感特征,同时,结合描述图像内容的相关文本的特征来进行最终的情感判别。其中,文本特征分别融合到图像的美感特征、分布式情感特征中,使用卷积神经网络(CNN)提取图像的特征图,采用循环神经网络(RNN)提取文本特征,采用张量融合网络(TFN)用于融合来自不同模态的特征,并采用交叉熵损失函数计算损失来调整卷积神经网络和循环神经网络的模型参数,并进行情感判别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于多模态数据的图像情感识别方法,其特征在于,所述图像情感识别方法包括:
获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
获取预设共享参数;
根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
获取原始卷积神经网络;
将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练;
具体地,将卷积神经网络的训练分为三个支路:上支路为图像美感支路,下支路为图像情感支路,中间支路为共享参数网络支路;
上支路:利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练,获得上支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数,获取训练过的美感卷积神经网络,将该网络最后一个卷积块的输出视为图像美感特征;
下支路:利用第一训练图像数据中的DeepEmotion数据集对原始卷积神经网络进行训练,获得下支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数,获取情感卷积神经网络,将该网络最后一个卷积块的输出视为图像情感特征;
中间支路:利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练,获得中间支路预训练的卷积神经网络,该支路不使用特定的标签来计算损失和更新参数,而是将该支路的输出和上支路、下支路融合后再计算损失,即增加共享参数,利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换,并在网络迭代的过程中,将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播,使用参数αp,αs控制共享参数网络及图像美感支路的输出特征,并使用βp,βs控制共享参数网络及图像情感支路的输出特征,计算方法如下:
Figure FDA0003752324530000021
其中,
Figure FDA0003752324530000022
表示共享参数网络和上支路中间输出结合后向前传播的中间输出,fs(x,y)表示共享参数网络向前传播的中间输出,
Figure FDA0003752324530000023
表示共享参数网络和下支路中间输出结合后的中间输出,αp,αs分别表示共享参数网络中间输出和上支路中间输出的结合系数,βp,βs分别表示共享参数网络中间输出和下支路中间输出的结合系数,fa(x,y)表示图像美感支路的中间输出,fe(x,y)表示图像情感支路的中间输出;
根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断迭代次数是否小于预设迭代次数,获得判断结果;
若所述判断结果表示所述迭代次数小于预设迭代次数,返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤;
若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
2.根据权利要求1所述的基于多模态数据的图像情感识别方法,其特征在于,所述根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络,具体包括:
将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
3.根据权利要求1所述的基于多模态数据的图像情感识别方法,其特征在于,所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失,具体包括:
根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
4.一种基于多模态数据的图像情感识别***,其特征在于,所述图像情感识别***包括:
训练样本数据获取模块,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
预设共享参数获取模块,用于获取预设共享参数;
卷积神经网络训练模块,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
所述卷积神经网络训练模块具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络;
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练;
具体地,将卷积神经网络的训练分为三个支路:上支路为图像美感支路,下支路为图像情感支路,中间支路为共享参数网络支路;
上支路:利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练,获得上支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数,获取训练过的美感卷积神经网络,将该网络最后一个卷积块的输出视为图像美感特征;
下支路:利用第一训练图像数据中的DeepEmotion数据集对原始卷积神经网络进行训练,获得下支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数,获取情感卷积神经网络,将该网络最后一个卷积块的输出视为图像情感特征;
中间支路:利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练,获得中间支路预训练的卷积神经网络,该支路不使用特定的标签来计算损失和更新参数,而是将该支路的输出和上支路、下支路融合后再计算损失,即增加共享参数,利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换,并在网络迭代的过程中,将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播,使用参数αp,αs控制共享参数网络及图像美感支路的输出特征,并使用βp,βs控制共享参数网络及图像情感支路的输出特征,计算方法如下:
Figure FDA0003752324530000061
其中,
Figure FDA0003752324530000062
表示共享参数网络和上支路中间输出结合后向前传播的中间输出,fs(x,y)表示共享参数网络向前传播的中间输出,
Figure FDA0003752324530000063
表示共享参数网络和下支路中间输出结合后的中间输出,αp,αs分别表示共享参数网络中间输出和上支路中间输出的结合系数,βp,βs分别表示共享参数网络中间输出和下支路中间输出的结合系数,fa(x,y)表示图像美感支路的中间输出,fe(x,y)表示图像情感支路的中间输出;
循环神经网络训练模块,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
第一训练融合特征获得模块,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
第二训练融合特征获得模块,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
训练美感损失以及训练情感分布损失确定模块,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
训练文本损失确定模块,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
训练样本数据的总损失确定模块,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
参数确定模块,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块,用于判断迭代次数是否小于预设迭代次数,获得判断结果;
返回模块,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块;
网络确定模块,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
待识别数据获取模块,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
待识别文本特征获得模块,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
待识别美感特征、待识别情感特征以及待识别共享特征获得模块,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
第一待识别融合特征获得模块,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
第二待识别融合特征获得模块,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
待识别数据情感确定模块,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
5.根据权利要求4所述的基于多模态数据的图像情感识别***,其特征在于,所述循环神经网络训练模块具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
6.根据权利要求4所述的基于多模态数据的图像情感识别***,其特征在于,所述训练样本数据的总损失确定模块具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
CN202010284300.2A 2020-04-13 2020-04-13 一种基于多模态数据的图像情感识别方法及*** Active CN111523574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284300.2A CN111523574B (zh) 2020-04-13 2020-04-13 一种基于多模态数据的图像情感识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284300.2A CN111523574B (zh) 2020-04-13 2020-04-13 一种基于多模态数据的图像情感识别方法及***

Publications (2)

Publication Number Publication Date
CN111523574A CN111523574A (zh) 2020-08-11
CN111523574B true CN111523574B (zh) 2022-09-06

Family

ID=71902750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284300.2A Active CN111523574B (zh) 2020-04-13 2020-04-13 一种基于多模态数据的图像情感识别方法及***

Country Status (1)

Country Link
CN (1) CN111523574B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113168573B (zh) * 2021-03-02 2024-04-16 深圳市锐明技术股份有限公司 一种模型的训练方法、装置、终端设备及存储介质
CN113392887A (zh) * 2021-05-31 2021-09-14 北京达佳互联信息技术有限公司 图片识别方法、装置、电子设备及存储介质
CN113255819B (zh) * 2021-06-11 2024-04-19 京东科技信息技术有限公司 用于识别信息的方法和装置
CN113344121B (zh) * 2021-06-29 2023-10-27 北京百度网讯科技有限公司 训练招牌分类模型和招牌分类的方法
CN113946683A (zh) * 2021-09-07 2022-01-18 中国科学院信息工程研究所 一种知识融合的多模态虚假新闻识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168968A (zh) * 2016-03-07 2017-09-15 中国艺术科技研究所 面向情感的图像色彩提取方法及***
KR102133728B1 (ko) * 2017-11-24 2020-07-21 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN108427740B (zh) * 2018-03-02 2022-02-18 南开大学 一种基于深度度量学习的图像情感分类与检索算法
CN108985377B (zh) * 2018-07-18 2019-06-11 太原理工大学 一种基于深层网络的多特征融合的图像高级语义识别方法
CN109299253A (zh) * 2018-09-03 2019-02-01 华南理工大学 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109978074A (zh) * 2019-04-04 2019-07-05 山东财经大学 基于深度多任务学习的图像美感和情感联合分类方法及***

Also Published As

Publication number Publication date
CN111523574A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523574B (zh) 一种基于多模态数据的图像情感识别方法及***
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN111275085A (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN109308353B (zh) 词嵌入模型的训练方法及装置
CN106250855A (zh) 一种基于多核学习的多模态情感识别方法
CN106897268A (zh) 文本语义理解方法、装置和***
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112732921B (zh) 一种虚假用户评论检测方法及***
Lin et al. Intelligent decision support for new product development: a consumer-oriented approach
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN110446112A (zh) 基于双向LSTM-Attention的IPTV用户体验预测方法
CN110727844A (zh) 一种基于生成对抗网络的在线评论商品特征观点提取方法
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN115601772A (zh) 一种基于多模态学习的美学质量评价模型和方法
CN115935975A (zh) 一种情感可控的新闻评论生成方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、***、设备及介质
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及***
CN113554040A (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared