CN112949622A

CN112949622A - 融合文本与图像的双模态性格分类方法及装置

Info

Publication number: CN112949622A
Application number: CN202110376917.1A
Authority: CN
Inventors: 王晶晶; 高晓雅; 李寿山; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-06-11
Anticipated expiration: 2041-04-08
Also published as: CN112949622B

Abstract

本申请涉及一种融合文本与图像的双模态性格分类方法及装置，属于人工智能技术领域，该方法包括：将文本数据和图像数据输入预先训练的性格分类网络，得到性格分类结果；性格分类网络包括特征提取网络、对比视觉注意力网络和对比感知解码网络；特征提取网络中的文本特征提取分支用于提取文本数据的词嵌入向量、图像特征提取分支用于提取图像数据的图像区域向量；对比视觉注意力网络中的基础视觉注意力分支用于提取与文本数据对齐的图像对象，并计算对齐的视觉表示、逆视觉注意力分支用于提取与文本数据不对齐的图像对象，并计算不对齐的视觉表示；对比感知解码网络用于进行性格类别的预测；缓解了分类性能不佳和无法捕捉认知差异信息的问题。

Description

融合文本与图像的双模态性格分类方法及装置

【技术领域】

本申请涉及一种融合文本与图像的双模态性格分类方法及装置，属于人工智能技术领域。

【背景技术】

性格是一个人对待现实的长期稳定的态度，一般在社会生活实践中逐渐形成。性格具有复杂的静态结构，主要由态度特征、意志特征、情绪特征和理智特征四个部分组成，它们彼此关联又相互制约。态度特征指个体如何处理对社会、集体、工作、劳动、他人及自身等各方面的关系的特征，例如诚实、热爱祖国、有责任心、勤劳等等。意志特征指个体对自身行为自觉地进行调整的特征，例如勇敢、果断、理性、计划性强等。情绪特征指个体的情绪对他人活动的影响以及对自身情绪的控制能力，良好的情绪特征体现在情绪稳定、善于控制，不良的情绪特征体现在情绪波动大、控制力薄弱。理智特征指个体在认知活动中显露的特征，例如在认知活动中的依存性和独立性，现实性和创造性等等。

性格具有丰富性和动态性，性格的静态结构表明了个体性格的各种特征并非是一成不变的机械组合，它会在不同的时间和不同的场合通过语言、动作等行为方式表现出不同的侧面。例如，一个在工作和学习中认真负责、理性固执的人在生活中则表现出感性温柔的一面。

目前性格的分类体系十分多样，常见的有向性分类体系(内倾型、外倾型)、FPA性格色彩体系(红、黄、蓝、绿)、大五人格体系(神经质，外倾性，经验开放性、宜人性、认真性)、霍兰德性格体系(社会型、企业型、常规型、现实型、研究型、艺术型)、九型人格体系(完美型、成就型、助人型、思想型、感觉型、活跃型、忠诚型、和平型、领袖型)等。

然而，目前的性格分析任务致力于通过构建回归模型预测个体的大五人格分值，在现实生活中，这种粗粒度且抽象的大五人格体系在工业应用领域存在局限性，例如无法设计出能表现出幽默性格的机器人。

【发明内容】

由于目前的性格分析任务致力于通过构建回归模型预测个体的大五人格分值，在现实生活中，这种粗粒度且抽象的五大人格体系在工业应用领域存在局限性，例如无法设计出能表现出幽默性格的机器人。因此，本申请将性格分析拓展到一个具体且细粒度的性格分类场景中，即给定一幅图片，根据个体对图片的具有性格导向的描述来判断此个体的实时性格倾向(如“浪漫”、“幽默”等)，由于不同性格的个体观察同一幅图像会给出不同的具有性格导向描述，受此认知差异现象的启发，本申请提供了一种基于对比视觉注意力机制的融合文本与图像的双模态性格分类方法—语言指导的对比视觉注意力方法(Language-guided Contrastive Visual Attention，L-CVA)。本申请提供如下技术方案：

第一方面，提供一种融合文本与图像的双模态性格分类方法，所述方法包括：

获取图像数据和用于描述所述图像数据的文本数据；

将所述文本数据和所述图像数据输入预先训练的性格分类网络，得到性格分类结果；

其中，所述性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络；

所述特征提取网络包括：文本特征提取分支和图像特征提取分支，所述文本特征提取分支用于提取所述文本数据的词嵌入向量；所述图像特征提取分支用于提取所述图像数据的图像区域向量；

所述对比视觉注意力网络包括：基础视觉注意力分支和逆视觉注意力分支，所述基础视觉注意力分支用于提取与所述文本数据对齐的图像对象，并计算对齐的视觉表示；所述逆视觉注意力分支用于提取与所述文本数据不对齐的图像对象，并计算不对齐的视觉表示；

所述对比感知解码网络用于融合所述词嵌入向量、所述对齐的视觉表示和所述不对齐的视觉表示进行性格类别的预测。

可选地，所述文本特征提取分支基于BERT-base模型对所述文本数据进行编码。

可选地，所述图像特征提取分支基于Faster R-CNN提取图像区域。

可选地，所述基础视觉注意力分支包括h个第一注意力头；

第i个第一注意力头的计算公式如下，所述i为小于或等于h的正整数：

Q＝XW_Q，

K＝OW_K，

V＝OW_V，

其中，X表示所述词嵌入向量，O标识所述图像区域向量，Q表示查询输入，K表示键输入，V表示值输入，

是折扣因子；

将h个第一注意力头的输出拼接后得到：

其中，

为可训练的权重矩阵，

是拼接操作，h为正整数；

所述对齐的视觉表示通过下式表示：

R_b＝PL(LN(X+FFN(LN(X+selfAtt(X,O)))))

其中，LN(·)表示层归一化函数，FFN(·)表示前馈网络，PL(·)表示平均池化操作。

可选地，所述逆视觉注意力分支包括k个第二注意力头；

第j个第二注意力头的计算公式如下，所述j为小于或等于k的正整数：

Q＝XW_Q，

K＝OW_K，

V＝OW_V，

其中，X表示所述词嵌入向量，O标识所述图像区域向量，Q表查询输入，K表示键输入，V表示值输入，

是折扣因子，

是值全为1的单位矩阵，

操作用计算相反的注意力权重，

用于归一化m个对象的相反注意力权重；

不对齐的视觉表示通过下式表示：

R_c＝PL(LN(X+FFN(LN(X+oppoAtt(X,O)))))；

可选地，所述对比感知解码网络基于所述词嵌入向量中的文本句子级表示、所述对齐的视觉表示和所述不对齐的视觉表示，使用两个softmax函数计算实际标签y_i的预测概率值。

可选地，所述预测概率值的计算公式如下：

p_b(y_i|P_i)＝softmax([R_t,R_b]W_r+b_r)_yi

p_c(y_i|P_i)＝softmax(R_cW_r+b_c)_yi

其中，

和

表示权重矩阵，

和

是偏置矩阵，R_t表示文本句子级表示，p_b(y_i|P_i)表示利用对齐的视觉表示R_b计算出的实际标签y_i的预测概率值，p_c(y_i|P_i)表示利用不对齐的视觉表示R_c计算出的实际标签y_i的预测概率值。

可选地，所述性格分类网络基于预先设置的损失函数计算得到，所述损失函数包括第一部分、第二部分和第三部分；

所述第一部分用于利用对齐的视觉表示R_b最大化正确标签y_i的预测概率p_b(y_i|P_i)；

所述第二部分用于利用不对齐的视觉表示R_c最小化正确标签y_i的预测概率p_c(y_i|P_i)；

所述第三部分为具有排序感知的损失函数，所述第三部分用于提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。

可选地，所述损失函数通过下式表示：

其中，y_i是第i个“文本-图像”对P_i的正确标签，

是第i个“文本-图像”对P_i＝(T_i,I_i)的错误标签中预测概率值第j大的错误标签；M是用于训练的“文本-图像”对的个数；δ是L2正则化因子，θ代表所有本章所有可训练参数。

第二方面，提供一种融合文本与图像的双模态性格分类装置，所述装置包括：

数据获取模块，用于获取图像数据和用于描述所述图像数据的文本数据；

性格分类模块，用于将所述文本数据和所述图像数据输入预先训练的性格分类网络，得到性格分类结果；

与现有技术相比，本申请至少具有如下有益效果：通过获取图像数据和用于描述图像数据的文本数据；将文本数据和图像数据输入预先训练的性格分类网络，得到性格分类结果；其中，性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络；特征提取网络包括：文本特征提取分支和图像特征提取分支，文本特征提取分支用于提取文本数据的词嵌入向量；图像特征提取分支用于提取图像数据的图像区域向量；对比视觉注意力网络包括：基础视觉注意力分支和逆视觉注意力分支，基础视觉注意力分支用于提取与文本数据对齐的图像对象，并计算对齐的视觉表示；逆视觉注意力分支用于提取与文本数据不对齐的图像对象，并计算不对齐的视觉表示；对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测；可以解决粗粒度且抽象的五大人格体系在工业应用领域存在局限性的问题；本申请可以更加适用于细粒度场景下的性格分类任务；输入原始文本与图像后，通过特征提取模块分别得到对应的特征向量，之后在对比视觉注意力模块中提取图像中与文本信息对齐及不对齐的视觉表示，最后通过对比感知解码模块学习对比性视觉信息，有效地缓解了性格类别数量较大导致分类性能不佳的问题，以及有效地解决了传统性格分类方法无法捕捉认知差异信息的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的融合文本与图像的双模态性格分类方法的流程图；

图2是本申请一个实施例提供的性格分网络的结构示意图；

图3是本申请一个实施例提供的预训练BERT模型的结构图；

图4是本申请一个实施例提供的预训练Faster R-CNN网络的结构图；

图5是本申请一个实施例提供的融合文本与图像的双模态性格分类装置的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

双向Transformer的Encoder(Bidirectional Encoder Representation fromTransformers，BERT)：是一种文本预训练模型，是目前自然语言处理(Natural LanguageProcessing，NLP)领域任务涵盖范围最广的模型，并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network，RNN)和卷积神经网络(Convolutional NeuralNetworks，CNN)，通过注意力(Attention)机制将任意位置的两个单词的距离转换成1，有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型，由两个自监督任务组成，分别是掩码语言模型(Masked Language Model，MLM)和下一句预测(Next SentencePrediction，NSP)。在经过大量语料上预训练完BERT之后，便可以使用预训练好的模型应用到NLP的各个任务中了。

Faster R-CNN：是计算机视觉领域中应用最为广泛的目标检测模型之一。与R-CNN不同，Faster R-CNN使用神经网络生成候选检测框代替了通过规则等生成候选框的方法。具体而言，Faster R-CNN主要由三个部分组成：

(1)卷积层：利用VGG16或ResNet101等卷积网络提取整张图片的特征，输出下采样后的特征图。

(2)候选检测框生成网络：用于在特征图上生成尺寸不同的候选检测框。

(3)RoI池化网络与分类网络：首先将大小不同的候选框转换为固定尺寸的区域特征，其次利用此特征分类和回归，输出候选框所属类别以及候选框在图像中的精确位置(四个顶点的坐标值)。

现有的性格体系均是对性格的粗粒度划分与概括，而本申请的研究重点是如何根据文本和图像信息自动、快速地推理分析个体的实时性格倾向，例如，浪漫、理性。该任务将心理学与自然语言处理相结合，为自然语言处理与其他领域学科交叉的研究提供了有力支持。

由于融合文本与图像的双模态性格分类是受认知心理学中的认知差异现象驱动的，即不同性格的个体在观察同一幅图像时倾向于关注图像的不同部分(如，不同的图像对象)并基于此观察给出相应的描述。除了根据语言捕捉认知差异信息，本申请认为对比性视觉信息(即，关注某些特定图像区域而不是其余图像区域的认知行为)是另一种十分重要的认知差异信息，且能进一步帮助性格分类。因此，本申请将致力于捕捉认知差异信息用于双模态性格分类并设计了一种基于文本和图像的双模态性格分类***。具体而言，给定图像以及个体对此图像的描述，首先利用***特征提取模块中的两个预训练模型(比如：BERT和Faster R-CNN)分别提取文本和图像目标检测对象特征。其次，利用***对比视觉注意力模块提取图像中与语言对齐及不对齐的对象特征并分别计算对齐及不对齐的视觉表示。最后，将文本表示、对齐的视觉表示、不对齐的视觉表示输入***的对比感知解码模块，对齐的视觉表示用于最大化正确性格标签的预测概率，而不对齐视觉表示用于最小化正确性格标签的预测概率，以此帮助模型学习对比性视觉信息。

可选地，本申请以各个实施例提供的融合文本与图像的双模态性格分类方法用于电子设备中为例进行说明，该电子设备为终端或服务器，终端可以为手机、计算机、平板电脑、可穿戴式设备等，本实施例不对电子设备的设备类型作限定。

图1是本申请一个实施例提供的融合文本与图像的双模态性格分类方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取图像数据和用于描述图像数据的文本数据。

由于不同性格的人观看一张图像数据的注意力不同，因此，得到的描述信息(即文本数据)也不同，因此，可以根据文本数据结合图像数据预测出该文本数据对应的人的性格分类。

可选地，文本数据可以是电子设备显示图像数据后，通过人机交互接口获取到的；或者是其它设备发送的，本实施例不对文本数据的获取方式作限定。

步骤102，将文本数据和图像数据输入预先训练的性格分类网络，得到性格分类结果。

其中，参考图2，性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络。下面对这三个网络分别进行介绍。

特征提取网络包括：文本特征提取分支和图像特征提取分支，文本特征提取分支用于提取文本数据的词嵌入向量；图像特征提取分支用于提取图像数据的图像区域向量；

文本特征提取分支基于BERT-base模型对文本数据进行编码。BERT-base模型的网络结构参考图3所示。

具体地，首先使用文本特征提取分支中BERT-base模型自带的WordPiece处理句子S得到词序列S＝{s₁,s₂,...,s_n}(其中n是词的个数)，其次分别在词序列S的开头和结尾加上BERT的特殊标记词“[CLS]”和“[SEP]”后送入嵌入层得到词嵌入向量(wordembeddings)，位置嵌入向量(positional embeddings)和段嵌入向量(segmentembeddings)，最后将三类向量相加送入多层双向深度自注意力变换层得到最终的词嵌入向量X＝[x₁,x₂,...,x_n]，

图像特征提取分支基于Faster R-CNN提取图像区域。Faster R-CNN的网络结构参考图4所示。

具体地，本实施例使用基于ResNet101的目标检测模型Faster R-CNN提取图像I_i中的对象作为图像区域的基本单位，其中每个对象的置信度大于0.6。在实际实现时，置信度也可以为其它数值，而实施例不对置信度的取值作限定。本实施例提取ResNet模型分类层的前一层输出作为每个对象的特征，对象序列标记为

其中

m为对象个数。然后，使用全连接层对对象特征进行降维处理，最终的对象向量标记为O＝[o₁,o₂,...,o_m]，其中

且

这里，

是可训练的参数。

对比视觉注意力网络包括：基础视觉注意力分支和逆视觉注意力分支，基础视觉注意力分支用于提取与文本数据对齐的图像对象，并计算对齐的视觉表示；逆视觉注意力分支用于提取与文本数据不对齐的图像对象，并计算不对齐的视觉表示。

给定输入词嵌入向量X和对象向量O，我们定义基础视觉注意力的查询输入(Queries)为Q＝XW_Q，键输入(Keys)为K＝OW_K，值输入(Values)为V＝OW_V，其中

和

为可训练的参数。

基础视觉注意力分支包括h个第一注意力头；h的取值可以为8，在实际实现时，h的取值也可以为其它数值，本实施例不对h的取值作限定。

第i个第一注意力头的计算公式如下，i为小于或等于h的正整数：

Q＝XW_Q，

K＝OW_K，

V＝OW_V，

其中，X表示词嵌入向量，O标识图像区域向量，Q表示查询输入，K表示键输入，V表示值输入，

是折扣因子；

将h个第一注意力头的输出拼接后得到：

其中，

为可训练的权重矩阵，

是拼接操作，h为正整数；

本实施例中，使用残差前馈层和池化操作计算对齐的视觉表示

具体地，对齐的视觉表示通过下式表示：

R_b＝PL(LN(X+FFN(LN(X+selfAtt(X,O)))))

给定输入词嵌入向量X和对象向量O，我们定义逆视觉注意力的查询输入(Queries)，键输入(Keys)和值输入(Values)同基础视觉注意力一样。

逆视觉注意力分支包括k个第二注意力头。可选地，k的取值可以为8，在实际实现时，k的取值也可以为其它数值，本实施例不对k的取值作限定。

第j个第二注意力头的计算公式如下，j为小于或等于k的正整数：

Q＝XW_Q，

K＝OW_K，

V＝OW_V，

其中，X表示词嵌入向量，O标识图像区域向量，Q表查询输入，K表示键输入，V表示值输入，

是折扣因子，

是值全为1的单位矩阵，

操作用计算相反的注意力权重，

用于归一化m个对象的相反注意力权重；

不对齐的视觉表示通过下式表示：

R_c＝PL(LN(X+FFN(LN(X+oppoAtt(X,O)))))；

可选地，逆视觉注意力网络与基础视觉注意力网络共享网络参数。

对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测。

对比感知解码网络基于词嵌入向量中的文本句子级表示、对齐的视觉表示和不对齐的视觉表示，使用两个softmax函数计算实际标签y_i的预测概率值。

预测概率值的计算公式如下：

p_b(y_i|P_i)＝softmax([R_t,R_b]W_r+b_r)_yi

p_c(y_i|P_i)＝softmax(R_cW_r+b_c)_yi

其中，

和

表示权重矩阵，

和

性格分类网络基于预先设置的损失函数计算得到，损失函数包括第一部分、第二部分和第三部分。

为了捕捉对比性视觉信息将上述两项预测概率值的公式作为对比感知损失函数的第一部分和第二部分。

第一部分用于利用对齐的视觉表示R_b最大化正确标签y_i的预测概率p_b(y_i|P_i)；第二部分用于利用不对齐的视觉表示R_c最小化正确标签y_i的预测概率p_c(y_i|P_i)。

此外，为了缓解性格类别数量大(如215类)导致分类性能不佳的问题，对比感知解码网络加入了具有排序感知的损失函数作为对比感知损失函数公式的第三部分，旨在提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。换句话说，第三部分为具有排序感知的损失函数，第三部分用于提高正确标签预测概率的同时降低前J个预测概率值最大的错误标签预测概率。

可选地，性格推理任务的损失函数通过下式表示：

其中，y_i是第i个“文本-图像”对P_i的正确标签，

本实施例中，J的取值可以为5，在实际实现时，J的取值也可以为其它值，本实施例不对J的取值作限定。

相关说明参见上述实施例，本实施例在此不再赘述。

综上所述，本实施例提供的融合文本与图像的双模态性格分类方法，通过获取图像数据和用于描述图像数据的文本数据；将文本数据和图像数据输入预先训练的性格分类网络，得到性格分类结果；其中，性格分类网络从前至后依次包括特征提取网络、对比视觉注意力网络和对比感知解码网络；特征提取网络包括：文本特征提取分支和图像特征提取分支，文本特征提取分支用于提取文本数据的词嵌入向量；图像特征提取分支用于提取图像数据的图像区域向量；对比视觉注意力网络包括：基础视觉注意力分支和逆视觉注意力分支，基础视觉注意力分支用于提取与文本数据对齐的图像对象，并计算对齐的视觉表示；逆视觉注意力分支用于提取与文本数据不对齐的图像对象，并计算不对齐的视觉表示；对比感知解码网络用于融合词嵌入向量、对齐的视觉表示和不对齐的视觉表示进行性格类别的预测；可以解决粗粒度且抽象的五大人格体系在工业应用领域存在局限性的问题；本申请可以更加适用于细粒度场景下的性格分类任务；输入原始文本与图像后，通过特征提取模块分别得到对应的特征向量，之后在对比视觉注意力模块中提取图像中与文本信息对齐及不对齐的视觉表示，最后通过对比感知解码模块学习对比性视觉信息，有效地缓解了性格类别数量较大导致分类性能不佳的问题，以及有效地解决了传统性格分类方法无法捕捉认知差异信息的问题。

如下表1展示了所提出方法与其他先进性格分类方法(T：文本单模态性格分类方法，I：图像单模态性格分类方法，T&I：文本和图像双模态性格分类方法)在personality-captions数据集测试集上的准确率及宏平均F1值比较。由于数据集性格类别数量大且存在含义相似的性格会导致top-1结果偏低，本文还统计了top-5、top-10、top-15、top-20、top-25的准确率及宏平均F1值，以进行更全面的对比，top-n表示模型预测某一样本的前n个概率最大的标签中包含样本真实标签，则此样本视为预测正确。

表1

从表1可以看出所提出的L-CVA方法表现超过了现有的其他先进性格分类方法，这验证了该方法的有效性。

本实例中，对所提出的基于对比视觉注意力机制的融合文本与图像的双模态性格分类方法在公开数据集personality-captions上进行性格分类研究。通过上述方法得到输出分类结果，利用测试集分类准确率及宏平均F1值进行性能评估。性格分类性能对比如表1所示。可以看出，L-CVA方法的识别准确率要高于现有的其他先进性格分类方法，达到了当前最先进的水平。这说明现有性格分类方法在图像特征的学习以及文本与图像信息的融合过程中存在较大优化空间，合适的损失函数以及注意力机制的运用能很大程度上改善性格分类的性能表现。同时，所提出的L-CVA方法可较容易地移植到其他相似任务中(如抑郁症识别，焦躁症识别均存在着认知差异现象)，因此这也意味着本文提出的算法在实际工程应用中具有很大的优势。

图5是本申请一个实施例提供的融合文本与图像的双模态性格分类装置的框图。该装置至少包括以下几个模块：数据获取模块510和性格分类模块520。

数据获取模块510，用于获取图像数据和用于描述所述图像数据的文本数据；

性格分类模块520，用于将所述文本数据和所述图像数据输入预先训练的性格分类网络，得到性格分类结果；