CN115512191A

CN115512191A - 一种联合问答的图像自然语言描述方法

Info

Publication number: CN115512191A
Application number: CN202211150406.9A
Authority: CN
Inventors: 卫志华; 刘官明; 张恒
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-23

Abstract

一种联合问答的图像自然语言描述方法，包括三个步骤：步骤一，首先使用图像分割模型对图像目标和图像背景的特征进行提取，得到像素级的不同类别的划分，获取目标和背景的分割特征图；步骤二，问题生成模块通过构建隐式的场景类型表征，产生包含关注目标信息的关系特征图，多粒度地生成若干个语义相关的引导问题；步骤三，联合问答模块引入对比学习的损失函数，对关系特征图和引导问题进行联合多模态嵌入表征，该模型通过训练，能生成问题相关的长文本回答，作为图像内容的精细化语义描述。

Description

一种联合问答的图像自然语言描述方法

技术领域

本发明属于计算机视觉和自然语言处理领域。

背景技术

图像描述生成是一个跨文本和图像的多模态任务，目的是从图片中产生相应的自然语言描述。这个任务对于人类来说非常容易，但是对于计算机来说非常具有挑战性。随着深度学习的流行，越来越多的人尝试使用神经网络来解决机器的图像描述问题。

然而，由于自然语言描述存在多样性，使得其具备不一样的标准形式，使用特定数据集进行训练仅能得到符合该数据集分布的图像内容描述，限制了适用范围。同时，大多数的图像描述方法仅仅被动地生成单调的句子，并不会考虑到图像中场景与关注目标之间的联系，因此也很难同时对不同的、多尺度的目标进行描述，也容易对潜在的联系视而不见。这种机械的图像描述与人类对图像的语义认知存在较大的偏差，在与真实的人类进行交互时往往无法相互理解。

图像描述生成一般分为图像特征提取和文本生成两个子模块。图像特征提取常见的方法是使用图像识别神经网络模型来提取目标，但是这会导致图像信息的缺失和特征提取的偏差。同时，基于特征提取进行短句生成往往只关注特定的目标，不能由图像具有的丰富语义信息生成多粒度的描述，容易造成跨模态信息的大量损失。因此，机器的图像描述仍然与人类对图像的自然认知有着较大的差距。

发明内容

本发明针对背景技术的不足提供一种联合问答的图像自然语言描述方法，以视觉问答模型为基础生成图像内容描述，通过设计图像分割模块，问题生成模块和联合问答模块，借助关系特征图中不同尺度区域产生多个语义相关的提问，以问题-答案为对应关系，使用具有多粒度特征的引导问题产生图像场景的精细化描述，该方法能捕获图像中隐式事实发生可能性，生成更符合人类对图像语义认知的自然语言描述。

本发明采用如下技术方案：

一种联合问答的图像自然语言描述方法，其特征在于，以视觉问答模型为基础来生成图像内容的精细化描述。首先，图像分割模块获得图像目标和背景类别划分的分割特征图；其次，问题生成模块构建隐式的场景类型表征，以关注目标为中心产生多粒度的引导问题；最后，联合问答模块引入对比学习的损失函数，对关系特征图和引导问题进行联合多模态嵌入表征。本方法以视觉问答为基础，根据问题-答案的对应关系，生成图像内容的自然语言描述。

一种联合问答的图像自然语言描述方法，包括三个步骤：

步骤一，首先使用图像分割模型对图像目标和图像背景的特征进行提取，得到像素级的不同类别的划分，获取目标和背景的分割特征图；

步骤二，问题生成模块通过构建隐式的场景类型表征，产生包含关注目标信息的关系特征图，多粒度地生成若干个语义相关的引导问题；

步骤三，联合问答模块引入对比学习的损失函数，对关系特征图和引导问题进行联合多模态嵌入表征，该模型通过训练，能生成问题相关的长文本回答，作为图像内容的精细化语义描述。

针对步骤一，本发明提供了一种提取图像特征的优选方案。

针对步骤二，本发明公开了以LSTM模型为基础的问题生成模型，其特征在于，可以对分割特征图进行处理，通过构建隐式的场景类型表征，先产生包含关注目标信息的关系特征图，随后以关注目标为中心，多尺度地建立与图像关注目标之间、关注目标和背景之间的联系，生成的多粒度引导问题即作为后续联合问答中的一环。

针对步骤三，本发明公开了以BUTD(自底向上，自顶向下)模型为基础的联合问答模型，其特征在于，引入了对比学习的损失函数，可以联合关系特征图和引导问题，提高模型跨模态的学习能力，增强模型对图像和问题答案之间语义联系的理解，生成图像内容的精细化描述。

具体的，

步骤一：图像分割

1.1利用现已公开的图像语义分割数据集，其中的批量图像均有像素级的类别标注。

1.2使用深度学习方法对图像分割数据集进行训练，构造图像分割神经网络模型。图像分割的任务是给图像进行稠密预测，通过对不同目标以特定颜色进行标注，让每个像素点都有其所属的目标或者封闭区域的类别。

1.3将训练好的图像分割神经网络的模型权重保存，该网络模型可对原始图像进行处理，区分图像中不同的目标和背景，最终输出目标间、目标与背景间的分割特征图。

步骤二：问题生成

2.1处理现已公开的视觉问题生成数据集，对数据集中的问题范畴进行分类，不同的问题范畴多角度地看待目标及其之间的联系，同一图像的多个问题范畴不仅关注着不同的目标，也关注着相同目标不同尺度的图像区域。同时，对数据集的回答和问题做合并处理，生成一句完整的自然语言描述。

2.2使用深度学习方法对处理后的视觉问题生成数据集进行训练，构造问题生成神经网络模型。问题生成模型构建隐式的场景类型表征，初步产生包含关注目标信息的关系特征图，随后以关注目标为中心，学习问题范畴和图像不同粒度区域之间的相关性，多尺度地生成与关注目标上下文相关的不同问题。

步骤三：联合问答

3.1整合图像分割模块、问题生成模块和联合问答模块，以引导问题作为上下文，使用自上而下的注意力机制进行学习，引入对比学习的损失函数，对引导问题和关系特征图进行联合多模态嵌入表征。根据训练好的网络，给出候选答案及其置信度，生成图像内容的自然语言描述。

本发明的有益效果：

1.图像分割(使用他人已有的分割模型)不仅包括显式的目标和背景的像素级信息，还包括隐藏的对象间的从属、并列和逻辑关系，能提供全面且精细的图像特征信息。

2.该设计方案相比于直接生成图像描述，步骤二中以图像生成的多粒度特征问题能引导更为精细具体的多尺度回答，同时还能捕获图像中隐式事实发生的可能性，提供描述简单事件的能力。

3.该设计方案提供了一种图像描述的新方法，其以多粒度特征问题作为图像内容描述生成的引导核心，使用视觉问答模型构建问题-答案的对应关系(为本申请首次提出使用视觉问答模型生成图像描述)，引入对比学习的损失函数提高了模型跨模态的学习能力，能提供更符合人类对图像语义认知的自然语言描述，有利于提高人机交互的处理效率。

附图说明

图1图像分割模型图

图2本发明设计的问题生成模型

图3联合问答模型图

图4联合问答的图像描述示例图

具体实施方式

实施例

联合问答的图像描述示例如图4所示。

一种基于视觉问答的分割式图像内容描述方法，包括以下步骤：

步骤一：图像分割

1.1在本实施例中，所采用的数据集为Cityscapes数据集，该数据集专注于对复杂城市街道场景的视觉理解，它包含来自50个不同城市的街道场景中记录的多种立体视频序列，带有20000帧弱注释和5000帧高质量像素级注释，总共提供了包括行人、交通工具、道路、建筑、信号灯和信号标志等30种类别的标注。

1.2在本实施例中，使用深度学习方法对图像分割数据集进行训练，构造编码器-解码器结构的Deeplab图像分割网络模型。Deeplab系列是一种基于全卷积的扩张卷积语义分割模型，提出的空洞卷积可以在不增加参数量的情况下尽可能地恢复在卷积操作中持续降低的特征图分辨率。本实施例采用的Deeplab v3+模型是一种编码器-解码器结构的分割网络模型，其具有较高的计算速度和预测精度。其中，编码器模块用来提取图像中高级的语义信息。解码器模块用来恢复低层级的空间信息，获取清晰完整的类别分割边界和目标间、目标与背景间的关系。网络模型如图1所示。

在编码器结构阶段，首先采用结合了深度可分离卷积的Xception网络作为骨干网络对输入图像进行初始特征提取。Xception网络使用残差连接和深度可分离卷积，对特征图进行下采样。随后的带洞空间金字塔池化模块(ASPP，Atrous Spatial PyramidPooling)用来进一步提取多尺度的特征信息，模块中的1×1卷积、全局平均池化和扩张率(用Rate表示)分别为6、12、18的空洞卷积组合为纵式并行结构，接着将多尺度特征图通过1×1卷积处理压缩通道数到256，特征图分辨率降低到原图的1/16，作为编码器结构的特征图输出。

在解码器结构阶段，对编码器结构输出的特征图进行4倍的双线性插值的上采样处理，与骨干网络上对应层级的浅层特征图在通道调整后进行拼接，再经过两个3×3卷积层细化特征图，最终经过4倍的双线性插值上采样，得到和原图相同尺寸的具有丰富细节和全局信息的分割预测结果。

1.3将训练好的Deeplab v3+图像分割神经网络的模型权重保存，该网络模型可对原始图像进行处理，区分图像中不同的目标和背景，最终输出目标间、目标与背景间的分割特征图，其详尽地提取了图像的像素级特征。

步骤二：问题生成

2.1在本实施例中，处理现已公开的视觉问题生成数据集(包括SQuAD数据集等等)，对数据集中的问题范畴进行分类，不同的问题范畴多角度地看待目标及其之间的联系，同一图像的多个问题范畴不仅关注着不同的目标，也关注着相同目标不同尺度的图像区域。同时，对数据集的回答和问题做合并处理，生成一句完整的自然语言描述。

问题范畴包括对象(Object)，属性(Attribute)，关系(Relationship)，计数(Counting)，行为(Behavior)等等。

2.2在本实施例中，使用深度学习方法对处理后的视觉问题生成数据集进行训练，构造问题生成神经网络模型。

为了直接从特征图像中生成基于视觉基础的问题，构建残差连接的MLP(多层感知机)，其以包含类别信息的分割特征图为输入，输出包含主要关注目标信息的关系特征图，用来指导后续的问题生成。

典型的MLP包括三层：输入层、隐藏层和输出层，MLP神经网络不同层之间是全连接的，隐藏层通过训练构建图像的场景类型表征权重，每一层神经网络的计算公式如下：

H＝XW_h+b_h

O＝HW_o+b_o

Y＝σ(O)

其中，X是特征输入，Y是特征输出，W_h和W_o分别为隐藏层和输出层的权重，b_h和b_o分别为隐藏层和输出层的偏差，σ表示的是激活函数，这里使用sigmoid函数。

分割特征图通过残差连接生成关系特征图，表征关系权重的通道代表着关注目标的显著度，每个分割特征图的封闭目标区域都有相应的关注系数，用u表示关系特征层。随后，问题生成模型以LSTM(长短期记忆循环神经网络)为基础，多粒度、分层次地建立关系特征图中每个关注目标和周边封闭范围类别的关联，在不同尺度上根据预测的最优先问题范畴生成相关的引导问题。

使用LSTM学习关注目标和问题的关系，让模型能根据问题锁定关注目标的相关区域进行训练。LSTM涉及短期记忆h和长期记忆C的传递，包括输入门、输出门和遗忘门，包括公式如下(为现有技术)：

c^t＝z^t⊙i^t+c^t-1⊙f^t

y^t＝(c^t)⊙o^t

其中，x^t是当前时刻的输入，y^t-1是上一时刻的短期记忆，c^t-1是上一时刻的长期记忆，W_f、W_i、W_z和W_o是相应的输入权重，R_f、R_i、R_z和R_o是相应的递归权重，p_i表示的是窥视孔权值矩阵，用来更新粒度大小，b_f、b_i、b_z和b_o是相应的计算偏差，σ表示的是sigmoid激活函数。

问题生成神经网络模型的损失函数如下所示：

其中，

是模型生成的问题向量，q_i是数据集中真实的问题向量，u表示预测的关系权重值，为正数。

问题生成的网络模型如图2所示。关系特征图提供了图像整体的上下文信息，通过构建隐式的场景类型表征，关注目标高效地让问题生成集中在若干个目标上，更好地限定了图像场景的关注目标，提供了图像中更为抽象的目标焦点表示；以关注目标为中心，在不同粒度层级上，根据预测的最优先问题范畴生成若干个不同尺度的问题，这些问题涵盖了图像中核心区域的重要信息，使得问题生成神经网络模型处理得到的引导问题更为全面。

步骤三：联合问答

3.1在本实施例中，整合步骤一图像分割模块、步骤二问题生成模块和步骤三联合问答模块，以引导问题作为上下文，使用自上而下的注意力机制进行学习，对引导问题和关系特征图进行联合多模态嵌入表征。

首先对问题生成的问题特征向量q和图像分割得到的分割特征图v进行连接作为上下文，来引导模型对于v和q的权重W_q和W_v进行训练；

f_q(q)＝W_qq

f_v(v)＝W_vv

对f_q(q)和f_v(v)进行多模态嵌入，使用哈尔玛积进行计算：

p(y)＝σ(h)

其中，f_q表示问题流的输出，f_v表示视觉流的输出，p(y)是最终的输出结果，匹配程度更接近的问题特征向量q和分割特征图v具有更高的分值，W_q和W_v表示权值矩阵，σ表示线性激活函数。联合嵌入的损失函数为对比损失：

其中，y_T表示正确匹配的问题特征向量q和分割特征图v的输出结果。

联合问答的网络模型如图3所示。整合图像分割模块、问题生成模块和联合问答模块，根据训练好的网络，能给出置信度最高的答案预测。本方法以视觉问答为基础，能对图像内容做出精细化描述。

Claims

1.一种联合问答的图像自然语言描述方法，其特征在于，包括三个步骤：

步骤三，联合问答模块引入对比学习的损失函数，对关系特征图和引导问题进行联合多模态嵌入表征，该模型通过训练，生成问题相关的长文本回答，作为图像内容的精细化语义描述。

2.如权利要求1所述的描述方法，其特征在于：

针对步骤二，以LSTM模型为基础的问题生成模型，对分割特征图进行处理，通过构建隐式的场景类型表征，先产生包含关注目标信息的关系特征图，随后以关注目标为中心，多尺度地建立与图像关注目标之间、关注目标和背景之间的联系，生成的多粒度引导问题即作为后续联合问答中的一环。

3.如权利要求1所述的描述方法，其特征在于：

针对步骤三，以BUTD模型为基础的联合问答模型，引入了对比学习的损失函数，联合关系特征图和引导问题，提高模型跨模态的学习能力，增强模型对图像和问题答案之间语义联系的理解，生成图像内容的精细化描述。

4.如权利要求1所述的描述方法，其特征在于：

步骤一：图像分割

1.1利用现已公开的图像语义分割数据集，其中的批量图像均有像素级的类别标注；

1.2使用深度学习方法对图像分割数据集进行训练，构造图像分割神经网络模型；图像分割的任务是给图像进行稠密预测，通过对不同目标以特定颜色进行标注，让每个像素点都有其所属的目标或者封闭区域的类别；

5.如权利要求1或2所述的描述方法，其特征在于：

步骤二：问题生成

2.1处理现已公开的视觉问题生成数据集，对数据集中的问题范畴进行分类，不同的问题范畴多角度地看待目标及其之间的联系，同一图像的多个问题范畴不仅关注着不同的目标，也关注着相同目标不同尺度的图像区域；同时，对数据集的回答和问题做合并处理，生成一句完整的自然语言描述；

2.2使用深度学习方法对处理后的视觉问题生成数据集进行训练，构造问题生成神经网络模型；问题生成模型构建隐式的场景类型表征，初步产生包含关注目标信息的关系特征图，随后以关注目标为中心，学习问题范畴和图像不同粒度区域之间的相关性，多尺度地生成与关注目标上下文相关的不同问题。

6.如权利要求1或3所述的描述方法，其特征在于：

步骤三：联合问答

3.1整合图像分割模块、问题生成模块和联合问答模块，以引导问题作为上下文，使用自上而下的注意力机制进行学习，引入对比学习的损失函数，对引导问题和关系特征图进行联合多模态嵌入表征；根据训练好的网络，给出候选答案及其置信度，生成图像内容的自然语言描述。

7.如权利要求5所述的描述方法，其特征在于：

问题生成神经网络模型的损失函数如下所示：

其中，

8.如权利要求5所述的描述方法，其特征在于：

联合嵌入的损失函数为对比损失：