CN109784163A

CN109784163A - 一种轻量视觉问答***及方法

Info

Publication number: CN109784163A
Application number: CN201811518735.8A
Authority: CN
Inventors: 王磊; 赖坤耀; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-05-21
Also published as: WO2020119631A1

Abstract

本发明提出一种轻量视觉问答***和方法，包括图像处理模块、文本处理模块，特征融合器，和分类器，其中，所述图像处理模块采用卷积神经网络提取图像特征，并转化为图像特征向量；所述文本处理模块提取文本特征形成文本特征向量；所述图像特征向量和所述文本特征向量均被送入所述特征融合器进行融合，并将融合的结果送入分类器，形成最终答案。本方法可以从图像特征提取和问题文本特征提取两方面对降低模型的复杂度，便于将问答***移植到移动端。

Description

一种轻量视觉问答***及方法

技术领域

本发明涉及计算机视觉领域，尤其涉及视觉问答技术领域。

背景技术

深度学习以其强大的特征学习能力，在计算机视觉(CV)和自然语言处理(NLP)中获得广泛应用。卷积神经网络(CNN)可以抽取并压缩图像信息，多在图像处理中应用；而递归神经网络(RNN)在自然语言处理领域，尤其是在语音识别，机器翻译，语言模型与文本生成等方面取得很大的成功。

视觉问答是计算机视觉领域里最具挑战性的问题之一。视觉问答的任务就是利用计算机自动地分析图片与问题，从而对提出的问题给出回答。由于视觉问答涉及到计算机视觉和自然语言处理两个领域的内容，那么很自然的一种解决方案就是将在计算机视觉和自然语言处理中应用非常成功的卷积神经网络和递归神经网络结合构造组合模型。而其中最常使用的卷积神经网络是Res-net和VGG-net,最常使用的递归神经网络是LSTM和GRU。但视觉问答因为需要同时处理图像和问题，往往计算较慢，在算力不足时，比如移动端中，得出答案的时间会比较长。

在将图像信息与文本信息融合方面，Hedi Ben-younes等在论文MUTAN:Multimodal Tucker Fusion for Visual Question Answering中提出了MUTAN融合模型，如图1所示，基于Tucker张量，分解为三个内模矩阵和核心张量，且通过约束核心张量进一步控制模型参数的数量，在训练期间能够防止过度拟合，而且能够更灵活地调整输入/输出预测。本发明基于MUTAN模型，使用shuffle-net处理图像，使用卷积神经网络TextCNN来处理问题语句，可以有效降低模型的复杂度，便于将问答***移植到移动端。

发明内容

本发明的目的在于提出一种对算力要求低，便于移植到移动端的问答***和方法。所采用的技术方案如下：

一种轻量视觉问答***，包括图像处理模块1、文本处理模块2，特征融合器3，和分类器4，其中，所述图像处理模1块采用卷积神经网络提取图像特征，并转化为图像特征向量；所述文本处理模块2提取文本特征形成文本特征向量；所述图像特征向量和所述文本特征向量均被送入所述特征融合器3进行融合，并将融合的结果送入分类器4，形成最终答案。

进一步地，所述图像处理模块1采用shuffle-net模型提取图像特征。

进一步地，所述文本处理模块2采用TextCNN提取文本特征。

进一步地，所述文本处理模块2包括输入层21、卷积层22、池化层23和全连接层24，所述输入层21将句子中每个单词预训练好的词向量排在一起，得到一个n*k矩阵，其中n是预先设定句子长度，不足时用0补充，k为词向量的长度；所述输入层21与所述卷积层22连接，所述卷积层22对输入的矩阵进行卷积神经网络处理，卷积层包括多个层；卷积层22与所述池化层23连接，所述池化层23与所述全连接层24连接，最终由所述全连接层24得到文本的特征。

进一步地，所述特征融合器3采用MUTAN模型进行Tucker分解，对各分量进行融合，得到融合的结果。

进一步地，所述分类器4为SoftMax分类器，采用的损失函数为交叉熵损失函数。

进一步地，所述***嵌入移动终端中使用。

一种轻量视觉问答方法，采用预先训练的shuffle-net模型提取图像特征，采用TextCNN提取文本特征，然后利用MUTAN模型将所述图像特征与所述文本特征融合，得到答案。

进一步地，所述融合的方法为，将从文本特征提取器得到的向量q，图像特征提取器得到的向量ν融合，得到张量T，并对T进行Tucker分解，得到参数核心张量τ_c，以及三个内模矩阵W_q、W_ν、W_o，计算获得融合的特征y：

其中，×_i代表向量在第i维同张量相乘，将y送入分类器中即可得到最终答案。

进一步地，在移动终端中应用该方法。

本发明的轻量视觉问答***和方法的优势在于：从图像特征提取和问题文本特征提取两方面对降低模型的复杂度，便于将问答***移植到移动端。

附图说明

图1为MUTAN融合模型架构图。

图2为轻量视觉问答***框图。

图3为文本处理模块结构图。

具体实施方式

如图2所示，本发明的轻量化视觉问答***，包括图像处理模块1、文本处理模块2，特征融合器3，和分类器4，其中，待检测图像进入所述图像处理模块1处理，图像处理模块1采用卷积神经网络提取图像特征，并转化为图像特征向量；询问文本进入所述文本处理模块2处理，在文本处理模块2中对文本的特征进行提取，形成文本特征向量；所述图像特征向量和所述文本特征向量均被送入特征融合器3进行融合，并将融合的结果送入分类器4，形成最终答案。

在图像处理模块1中选取预训练好的shuffle-net模型提取特征，其中，shuffle-net最后一个卷积层的特征将送入特征融合器中。

文本处理模块2采用TextCNN处理询问文本，其结构如图3所示，在输入层21中，将预先句子中每个单词对应预训练好的词向量排在一起，得到一个n*k矩阵。其中n是预先设定句子长度，不足时用0补充，k为词向量的长度。然后按照卷积神经网络处理，即输入层21连接卷积层22，在多个卷积层22中对特征进行提取。卷积层22与所述池化层23连接，池化层23中采用最大池化法的将特征池化，池化层23与所述全连接层24连接，最终由所述全连接层24得到文本的特征。

在特征融合器3中，采用采用MUTAN模型进行Tucker分解，对各分量进行融合，得到融合的结果。MUTAN融合模型是由Hedi Ben-younes等在论文MUTAN:Multimodal TuckerFusion for Visual Question Answering中提出的，其流程如图1所示。

从文本特征提取器得到的向量q，图像特征提取器得到的向量ν融合，得到张量T，并对T进行Tucker分解，得到参数核心张量τ_c，以及三个内模矩阵W_q、W_ν、W_o，计算获得融合的特征y：

所述Tucker张量分解的方式为：T＝((τ_c×₁W_q)×₂W_ν)×₃W_o，其中，T由文本特征向量q和图像特征向量ν融合得到。

分类器4为SoftMax层，训练选取的损失函数为交叉熵损失，表示为：

其中y_i代表真实的答案索引，是预测的答案索引.i＝1……|A|，|A|是不同的答案个数。

经过实验证明，使用shuffle-net作为视觉问答的图像特征提取器，TextCNN作为文本特征提取器，可以有效降低模型的复杂度，便于将问答***移植到移动端。

Claims

1.一种轻量视觉问答***，其特征在于，包括图像处理模块(1)、文本处理模块(2)，特征融合器(3)，和分类器(4)，其中，所述图像处理模块(1)采用卷积神经网络提取图像特征，并转化为图像特征向量；所述文本处理模块(2)提取文本特征形成文本特征向量；所述图像特征向量和所述文本特征向量均被送入所述特征融合器(3)进行融合，并将融合的结果送入分类器(4)，形成最终答案。

2.根据权利要求1所述的轻量视觉问答***，其特征在于，所述图像处理模块(1)采用shuffle-net模型提取图像特征。

3.根据权利要求1或2所述的轻量视觉问答***，其特征在于，所述文本处理模块(2)采用TextCNN提取文本特征。

4.根据权利要求3所述的轻量视觉问答***，其特征在于，所述文本处理模块(2)包括输入层(21)、卷积层(22)、池化层(23)和全连接层(24)，所述输入层(21)将句子中每个单词预训练好的词向量排在一起，得到一个n*k矩阵，其中n是预先设定句子长度，不足时用0补充，k为词向量的长度；所述输入层(21)与所述卷积层(22)连接，所述卷积层(22)对输入的矩阵进行卷积神经网络处理，卷积层包括多个层；卷积层(22)与所述池化层(23)连接，所述池化层(23)与所述全连接层(24)连接，最终由所述全连接层(24)得到文本的特征。

5.根据权利要求1-4任一项所述的轻量视觉问答***，其特征在于，所述特征融合器(3)采用MUTAN模型进行Tucker分解，对各分量进行融合，得到融合的结果。

6.根据权利要求1-5任一项所述的轻量视觉问答***，其特征在于，所述分类器(4)为SoftMax分类器，采用的损失函数为交叉熵损失函数。

7.根据权利要求1-6任一项所述的轻量视觉问答***，其特征在于，所述***嵌入移动终端中使用。

8.一种轻量视觉问答方法，其特征在于，采用预先训练的shuffle-net模型提取图像特征，采用TextCNN提取文本特征，然后利用MUTAN模型将所述图像特征与所述文本特征融合，得到答案。

9.根据权利要求8所述的轻量视觉问答方法，其特征在于，所述融合的方法为，将从文本特征提取器得到的向量q，图像特征提取器得到的向量ν融合，得到张量T，并对T进行Tucker分解，得到参数核心张量τ_c，以及三个内模矩阵W_q、W_ν、W_o，计算获得融合的特征y：

y＝((τ_c×₁(q^TW_q))×₂(ν^TW_ν))×₃W_o，

10.根据权利要求8所述的轻量视觉问答方法，其特征在于，在移动终端中应用该方法。