CN111782838A

CN111782838A - 图像问答方法、装置、计算机设备和介质

Info

Publication number: CN111782838A
Application number: CN202010616310.1A
Authority: CN
Inventors: 李煜林; 钦夏孟; 黄聚; 谢群义; 韩钧宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: US20210406592A1; JP2022013645A; JP7167216B2; EP3819790A3; KR20220002067A; EP3819790A2; CN111782838B; KR102588894B1; US11775574B2

Abstract

本公开提供了一种图像问答方法，涉及计算机视觉、自然语言处理领域。该方法包括：获取输入图像和输入问题；基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征；基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征；对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图；基于输入问题，确定问题特征；基于更新视觉图、更新问题图和问题特征，确定融合特征；并且，基于融合特征，生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。

Description

图像问答方法、装置、计算机设备和介质

技术领域

本公开涉及计算机视觉、自然语言处理领域，更具体地，涉及一种图像问答方法、装置、计算机设备和介质。

背景技术

图像问答(Visual Question Answering，VQA)是一项很有挑战性的任务，其目标是将计算机视觉和自然语言处理联系起来。在图像问答任务中，例如给定一张图像和一个相关的问题，要求机器能根据图像内容，结合一些常识来推理得到问题的答案。为完成该图像问答任务，机器必须具有跨模态(Cross-Modal)的理解能力，以针对视觉和语言这两种不同模态(Modality)下的数据实现综合理解。故图像问答任务相比于其他单一模态下的任务(例如图像识别、文档分类等)具有更高的要求。

发明内容

有鉴于此，本公开提供了一种图像问答方法、装置、计算机设备和介质。

本公开的一个方面提供了一种图像问答方法，包括：获取输入图像和输入问题；基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征；基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征；对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图；基于输入问题，确定问题特征；基于更新视觉图、更新问题图和问题特征，确定融合特征；并且，基于融合特征，生成针对输入图像和输入问题的预测答案。

根据本公开的实施例，上述基于输入图像，构建视觉图包括：利用目标检测网络对输入图像进行处理，以从目标检测网络的中间层提取针对输入图像中的多个目标对象的表观特征和空间特征；基于上述表观特征和空间特征，确定第一节点特征；基于目标检测网络的输出层所输出的处理结果，确定多个目标对象各自的位置信息；基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系；基于任意两个目标对象之间的位置关系，确定第一边特征；并且，由上述第一节点特征和第一边特征构成视觉图。

根据本公开的实施例，上述基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系包括：根据该任意两个目标对象各自的位置信息，计算该任意两个目标对象的位置区域之间的交集和并集；计算交集和并集的比值；在该比值大于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为1；并且，在该比值小于等于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为0。

根据本公开的实施例，上述基于输入问题，构建问题图包括：利用词编码算法和特征编码算法依次处理输入问题，以从输入问题中提取多个词节点特征，多个词节点特征用于表征输入问题中的多个词各自的特征信息；利用依存分析算法确定多个词中的任意两个词之间的依存关系；基于任意两个词之间的依存关系，确定第二边特征；并且，由多个词节点特征构成第二节点特征，并由第二节点特征和第二边特征构成问题图。

根据本公开的实施例，上述对视觉图和问题图进行多模态融合包括：执行至少一轮多模态融合操作。其中，上述至少一轮多模态融合操作中的每轮多模态融合操作包括：基于第一节点特征和第一边特征，利用第一预定网络对第一节点特征进行编码，以得到编码视觉图；基于第二节点特征和第二边特征，利用第二预定网络对第二节点特征进行编码，以得到编码问题图；并且，利用图匹配算法，对编码视觉图和编码问题图进行多模态融合，以得到更新视觉图和更新问题图。

根据本公开的实施例，第一预定网络包括：第一全连接层、第一图卷积层和第二图卷积层。上述对第一节点特征进行编码包括：利用第一全连接层将第一节点特征映射为空间维度数量等于预定数量的第一特征；利用第一图卷积层对第一特征进行处理，以得到第二特征；利用第二图卷积层对第二特征进行处理，以得到经编码的第一节点特征；并且，由经编码的第一节点特征和第一边特征构成编码视觉图。

根据本公开的实施例，上述对第一节点特征进行编码还包括：基于第一边特征构建第一拉普拉斯矩阵。上述利用第一图卷积层对第一特征进行处理包括：利用第一图卷积层基于第一拉普拉斯矩阵对第一特征进行处理，以得到第二特征，第二特征包括多个第一子特征。

根据本公开的实施例，第一预定网络还包括第一关联层。上述对第一节点特征进行编码还包括：利用第一关联层计算多个第一子特征中的任意两个第一子特征之间的关联关系，并基于任意两个第一子特征之间的关联关系确定第一关系矩阵。上述利用第二图卷积层对第二特征进行处理包括：利用第二图卷积层基于第一关系矩阵对第二特征进行处理，以得到经编码的第一节点特征。

根据本公开的实施例，第二预定网络包括：第二全连接层、第三图卷积层和第四图卷积层。上述对第二节点特征进行编码包括：利用第二全连接层将第二节点特征映射为空间维度数量等于预定数量的第三特征；利用第三图卷积层对第三特征进行处理，以得到第四特征；利用第四图卷积层对第四特征进行处理，以得到经编码的第二节点特征；并且，由经编码的第二节点特征和第二边特征构成编码问题图。

根据本公开的实施例，上述对第二节点特征进行编码还包括：基于第二边特征构建第二拉普拉斯矩阵。上述利用第三图卷积层对第三特征进行处理包括：利用第三图卷积层基于第二拉普拉斯矩阵对第三特征进行处理，以得到第四特征，第四特征包括多个第二子特征。

根据本公开的实施例，第二预定网络还包括第二关联层。上述对第二节点特征进行编码还包括：利用第二关联层计算多个第二子特征中的任意两个第二子特征之间的关联关系，并基于任意两个第二子特征之间的关联关系确定第二关系矩阵。上述利用第四图卷积层对第四特征进行处理包括：利用第四图卷积层基于第二关系矩阵对第四特征进行处理，以得到经编码的第二节点特征。

根据本公开的实施例，编码视觉图中经编码的第一节点特征包括多个第三子特征，编码问题图中经编码的第二节点特征包括多个第四子特征。上述利用图匹配算法，对编码视觉图和编码问题图进行多模态融合包括：利用图匹配算法对经编码的第一节点特征和经编码的第二节点特征进行匹配处理，以确定多个第三子特征中的任一第三子特征与多个第四子特征中的任一第四子特征之间的匹配关系；基于任一第三子特征与任一第四子特征之间的匹配关系，确定匹配矩阵；基于注意力机制和匹配矩阵，分别确定第一注意力权重集合和第二注意力权重集合；基于第一注意力权重集合、经编码的第一节点特征和经编码的第二节点特征，确定更新的第二节点特征；基于第二注意力权重集合、经编码的第一节点特征和经编码的第二节点特征，确定更新的第一节点特征；并且，由更新的第一节点特征和第一边特征构成更新视觉图，并由更新的第二节点特征和第二边特征构成更新问题图。

根据本公开的实施例，上述基于所述输入问题，确定问题特征包括：利用预定词编码算法和预定特征编码算法依次对输入问题进行编码处理，以得到问题特征。

根据本公开的实施例，上述基于更新视觉图、更新问题图和问题特征，确定融合特征包括：对更新的第一节点特征和更新的第二节点特征进行连接合并，以得到合并特征；对合并特征进行预定池化操作，以得到推理特征；并且，对推理特征和问题特征进行融合处理，以得到融合特征。

根据本公开的实施例，上述对推理特征和问题特征进行融合处理包括：对推理特征和问题特征进行逐元素点乘操作，以得到融合特征。

根据本公开的实施例，上述基于融合特征，生成针对输入图像和输入问题的预测***括：利用多层感知机对融合特征进行处理，以得到针对融合特征的预测答案。

本公开的另一方面提供了一种图像问答装置，包括：获取模块、第一图构建模块、第二图构建模块、更新模块、问题特征提取模块、融合模块和预测模块。获取模块用于获取输入图像和输入问题。第一图构建模块用于基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征。第二图构建模块用于基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征。更新模块用于对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图。问题特征提取模块用于基于输入问题，确定问题特征。融合模块用于基于更新视觉图、更新问题图和问题特征，确定融合特征。预测模块用于基于融合特征，生成针对输入图像和输入问题的预测答案。

根据本公开的实施例，第一图构建模块包括：检测子模块，用于利用目标检测网络对输入图像进行处理，以从目标检测网络的中间层提取针对输入图像中的多个目标对象的表观特征和空间特征。第一节点特征确定子模块，用于基于上述表观特征和空间特征，确定第一节点特征。第一边特征确定子模块，用于基于目标检测网络的输出层所输出的处理结果，确定多个目标对象各自的位置信息；基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系；基于任意两个目标对象之间的位置关系，确定第一边特征。以及，第一图构建子模块，用于由上述第一节点特征和第一边特征构成视觉图。

根据本公开的实施例，第一边特征确定子模块基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系包括：第一边特征确定子模块用于根据该任意两个目标对象各自的位置信息，计算该任意两个目标对象的位置区域之间的交集和并集；计算交集和并集的比值；在该比值大于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为1；并且，在该比值小于等于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为0。

根据本公开的实施例，第二图构建模块包括：第二节点特征确定子模块，用于利用词编码算法和特征编码算法依次处理输入问题，以从输入问题中提取多个词节点特征，多个词节点特征用于表征输入问题中的多个词各自的特征信息。第二边特征确定子模块，用于利用依存分析算法确定多个词中的任意两个词之间的依存关系；基于任意两个词之间的依存关系，确定第二边特征。以及，第二图构建子模块，用于由多个词节点特征构成第二节点特征，并由第二节点特征和第二边特征构成问题图。

根据本公开的实施例，更新模块用于对视觉图和问题图执行至少一轮多模态融合操作。其中，更新模块执行至少一轮多模态融合操作中的每轮多模态融合操作包括：第一图编码子模块，用于基于第一节点特征和第一边特征，利用第一预定网络对第一节点特征进行编码，以得到编码视觉图；第二图编码子模块，用于基于第二节点特征和第二边特征，利用第二预定网络对第二节点特征进行编码，以得到编码问题图。以及，图匹配子模块，用于利用图匹配算法，对编码视觉图和编码问题图进行多模态融合，以得到更新视觉图和更新问题图。

根据本公开的实施例，第一预定网络包括：第一全连接层、第一图卷积层和第二图卷积层。第一图编码子模块包括：第一映射单元，用于利用第一全连接层将第一节点特征映射为空间维度数量等于预定数量的第一特征。第一图卷积单元，用于利用第一图卷积层对第一特征进行处理，以得到第二特征。第二图卷积单元，用于利用第二图卷积层对第二特征进行处理，以得到经编码的第一节点特征。以及，第一编码单元，用于由经编码的第一节点特征和第一边特征构成编码视觉图。

根据本公开的实施例，第一图编码子模块还包括：第一构建单元，用于基于第一边特征构建第一拉普拉斯矩阵。第一图卷积单元用于利用第一图卷积层基于第一拉普拉斯矩阵对第一特征进行处理，以得到第二特征，第二特征包括多个第一子特征。

根据本公开的实施例，第一预定网络还包括第一关联层。第一图编码子模块还包括第二构建单元，用于利用第一关联层计算多个第一子特征中的任意两个第一子特征之间的关联关系，并基于任意两个第一子特征之间的关联关系确定第一关系矩阵。第二图卷积单元用于利用第二图卷积层基于第一关系矩阵对第二特征进行处理，以得到经编码的第一节点特征。

根据本公开的实施例，第二预定网络包括：第二全连接层、第三图卷积层和第四图卷积层。第二图编码子模块包括：第二映射单元，用于利用第二全连接层将第二节点特征映射为空间维度数量等于预定数量的第三特征。第三图卷积单元，用于利用第三图卷积层对第三特征进行处理，以得到第四特征。第四图卷积单元，用于利用第四图卷积层对第四特征进行处理，以得到经编码的第二节点特征。以及，第二编码单元，用于由经编码的第二节点特征和第二边特征构成编码问题图。

根据本公开的实施例，第二图编码子模块还包括：第三构建单元，用于基于第二边特征构建第二拉普拉斯矩阵。第三图卷积单元用于利用第三图卷积层基于第二拉普拉斯矩阵对第三特征进行处理，以得到第四特征，第四特征包括多个第二子特征。

根据本公开的实施例，第二预定网络还包括第二关联层。第二图编码子模块还包括：第四构建单元，用于利用第二关联层计算多个第二子特征中的任意两个第二子特征之间的关联关系，并基于任意两个第二子特征之间的关联关系确定第二关系矩阵。第四图卷积单元用于利用第四图卷积层基于第二关系矩阵对第四特征进行处理，以得到经编码的第二节点特征。

根据本公开的实施例，编码视觉图中经编码的第一节点特征包括多个第三子特征，编码问题图中经编码的第二节点特征包括多个第四子特征。图匹配子模块包括：匹配单元，用于利用图匹配算法对经编码的第一节点特征和经编码的第二节点特征进行匹配处理，以确定多个第三子特征中的任一第三子特征与多个第四子特征中的任一第四子特征之间的匹配关系，并基于任一第三子特征与任一第四子特征之间的匹配关系，确定匹配矩阵。更新单元，用于基于注意力机制和匹配矩阵，分别确定第一注意力权重集合和第二注意力权重集合；基于第一注意力权重集合、经编码的第一节点特征和经编码的第二节点特征，确定更新的第二节点特征；基于第二注意力权重集合、经编码的第一节点特征和经编码的第二节点特征，确定更新的第一节点特征；并且，由更新的第一节点特征和第一边特征构成更新视觉图，并由更新的第二节点特征和第二边特征构成更新问题图。

根据本公开的实施例，问题特征提取模块用于利用预定词编码算法和预定特征编码算法依次对输入问题进行编码处理，以得到问题特征。

根据本公开的实施例，融合模块包括：合并子模块，用于对更新的第一节点特征和更新的第二节点特征进行连接合并，以得到合并特征。处理子模块，用于对合并特征进行预定池化操作，以得到推理特征。以及，融合子模块，用于对推理特征和问题特征进行融合处理，以得到融合特征。

根据本公开的实施例，融合子模块具体用于对推理特征和问题特征进行逐元素点乘操作，以得到融合特征。

根据本公开的实施例，预测模块具体用于利用多层感知机对融合特征进行处理，以得到针对融合特征的预测答案。

本公开的另一方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开实施例的图像问答方法在获得输入图像和输入问题后，通过构建输入图像的拓扑结构(视觉图)来表示图像中目标对象的特征信息和目标对象之间的潜在关系，并通过构建输入问题的拓扑结构(问题图)来表示问题中词的特征信息和词之间的潜在关系，以降低多目标图像和复杂问题带来的噪声影响。并通过针对视觉图和问题图的多模态融合，实现视觉图和问题图中节点特征的对齐和更新，以缩短模态之间的语义鸿沟。在此基础上，根据更新视觉图、更新问题图和问题特征得到融合特征，并基于融合特征进行最终答案的预测。由于前期针对输入图像和输入问题的特征表示的优化，以及中间针对视觉图和问题图的多模态融合，可以有效地增强图像问答过程对于复杂输入的推理能力，使得根据本公开实施例的图像问答过程更具有可解释性。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的应用图像问答方法和装置的示例性***架构；

图2示意性示出了根据本公开实施例的图像问答方法的流程图；

图3A示意性示出了根据本公开实施例的图像问答过程的示例示意图；

图3B示意性示出了根据本公开另一实施例的图像问答过程的示例示意图；

图3C示意性示出了根据本公开实施例的图卷积编码模块的示例结构图；

图3D示意性示出了根据本公开实施例的图匹配更新模块的处理过程的示例示意图；

图4示意性示出了根据本公开实施例的图像问答装置的框图；以及

图5示意性示出了根据本公开实施例的计算机设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。

本公开的实施例提供了一种图像问答方法、装置、计算机设备和介质。图像问答方法可以包括获取过程、第一图构建过程、第二图构建过程、更新过程、问题特征提取过程、融合过程和预测过程。在获取过程中获取输入图像和输入问题。针对输入图像进行第一图构建过程，以构建得到视觉图，视觉图包括第一节点特征和第一边特征。针对输入问题进行第二图构建过程，以构建问题图，问题图包括第二节点特征和第二边特征。在更新过程中对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图。针对输入问题进行问题提取过程，以确定问题特征。接着进行融合过程，基于更新视觉图、更新问题图和问题特征，确定融合特征。基于融合特征可进行预测过程，以生成针对输入图像和输入问题的预测答案。

目前，随着互联网技术的飞速发展，产生的数据类型愈加丰富。“跨模态”数据逐渐成为一种主流的数据形式。跨模态特征对齐成为多媒体领域和深度学习领域的一个重要的研究方向，旨在打通不同媒体之间(如图像、视频和文本)之间的语义鸿沟，建立统一的语义表达。在视觉问答技术中，跨模态特征的对齐和融合也是该研究目前的难点。视觉问答是对视觉图像的自然语言问答，作为视觉理解的一个研究方向，连接着视觉和语言，模型需要在理解图像的基础上，根据具体的问题然后做出回答。如今，图像问答***在学术界和产业界均被广泛研究，该类图像问答***的目标在于设计合理的模型，使得图像问答***针对任意自然语言描述的问题和给定的图像，在进行充分理解和推理后，使用自然语言进行准确地回答。但是，目前的图像问答***还存在一些难题没有解决，例如，跨模态数据的融合以及有效的关系推理。

图1示意性示出了根据本公开实施例的可以应用图像问答方法和装置的示例性***架构100。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的***架构100可以包括多个终端设备110、网络120和服务器130。其中，终端设备110可以是各种终端设备，例如台式机、便携式计算机、智能手机、平板电脑等，在此不做限制。服务器130可以是各种具有一定计算能力的电子设备，例如可以是服务器或服务器集群，在此不做限制。终端设备110中可以装载有各种功能的软件客户端，以通过软件客户端与服务器130进行交互。

可以理解，在一实施例中，根据本公开实施例的图像问答方法可以由终端设备110实施，相应地，图像问答装置可以部署于终端设备110中。在另一实施例中，根据本公开实施例的图像问答方法可以由服务器130实施，相应地，图像问答装置可以部署于服务器130中。在又一实施例中，根据本公开实施例的图像问答方法可以由能够与终端设备110和/或服务器130相互通信的其它设备实施，相应地，图像问答装置可以部署于该其它设备中。

近几年内，图像问答发展迅速，受到来自计算机视觉和自然语言处理领域的广泛关注。各领域提出很多解决图像问答任务的方案。大多数方案采取端到端流程，例如，利用一个预训练的卷积神经网络提取图片特征，利用一个递归神经网络来表征问题，然后将图片特征和问题特征连接起来预测答案。目前图像问答方案普遍利用以下三种模型：(1)粗粒度跨模态表达的图像问答模型；(2)基于注意力机制的细粒度跨模态表达模型；(3)基于外部知识或知识网络的图像问答模型。

模型(1)是一类最直接的图像问答模型。其中跨模态特征融合是这类模型的核心，但是当处理内容相对复杂，存在很多主体的图像时，会不可避免地引入较多噪声，这些噪声会影响答案预测的准确度。针对问题文本的处理也同样存在这个问题，当问题语句较长，且存在多个与图像相关的词汇时，该模型很难捕捉到提问者期望的关键词，最终将导致答案预测准确度差。模型(2)是在上述粗粒度跨模态表达模型的基础上引入注意力机制而得到的，其在细粒度跨模态特征的表达能力方面大大提升。但是目前图像问答模型中使用的注意力模型大多是基于问题的特征来学习图像的关注区域，而忽略了问题本身的关注点学习，即忽略了针对问题中的关键词或短语的注意力学习，导致答案预测准确度差。模型(3)的难点在于现有模型不易将外部知识同图像问答数据集上所有的问题进行映射，只能解决部分类型的问题，缺乏普适性。

由上述分析可知，目前的图像问答方案存在以下问题：一、跨模态融合策略不佳，在引入复杂融合模型的同时，模型的计算效率也大大降低。因此，研究如何在保证有效的特征融合情况下降低计算开销的算法是图像问答中一个关键的发展方向。二、关系推理的能力不够。在很多真实的图像问答过程中是需要模型通过多步的关系推理来找到最终的答案，然而目前的模型仅仅通过多模态特征融合来回答问题，从而使得对于复杂问题的理解和推理效果不佳。

根据本公开实施例，提供了一种图像问答方法。下面通过图例对该方法进行示例性说明。应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的图像问答方法的流程图。

如图2所示，该方法可以包括操作S201～操作S207。

在操作S201，获取输入图像和输入问题。

在操作S202，基于输入图像，构建视觉图(Visual Graph)。

根据本公开的实施例，视觉图是输入图像的拓扑结构表示，用于更为全面准确地表征输入图像的特征信息。示例性地，视觉图可以包括第一节点(Node)特征和第一边(Edge)特征。第一节点特征用于表征输入图像中一个或多个目标对象的特征信息，第一边特征用于表征输入图像中目标对象之间的潜在关系。

在操作S203，基于输入问题，构建问题图(Question Graph)。

根据本公开的实施例，问题图是输入问题的拓扑结构表示，用于更为全面准确地表征输入问题的特征信息。示例性地，问题图可以包括第二节点特征和第二边特征。第二节点特征用于表征输入问题中一个或多个词的特征信息，第二边特征用于表征输入问题中词之间的潜在关系。

在操作S204，对视觉图和问题图进行多模态融合(Multimodal Fusion)，以得到更新视觉图和更新问题图。

示例性，通过本操作S204的多模态融合，可以缩小图像数据和文本数据之间的语义鸿沟(Semantic Gap)，使得得到的更新视觉图和更新问题实现两个不同模态特征的对齐和更新。

在操作S205，基于输入问题，确定问题特征。

在操作S206，基于更新视觉图、更新问题图和问题特征，确定融合特征。

在操作S207，基于融合特征，生成针对输入图像和输入问题的预测答案。

本领域技术人员可以理解，根据本公开实施例的图像问答方法在获得输入图像和输入问题后，通过构建输入图像的拓扑结构(视觉图)来表示图像中目标对象的特征信息和目标对象之间的潜在关系，并通过构建输入问题的拓扑结构(问题图)来表示问题中词的特征信息和词之间的潜在关系，以降低多目标图像和复杂问题带来的噪声影响。并通过针对视觉图和问题图的多模态融合，实现视觉图和问题图中节点特征的对齐和更新，以缩短模态之间的语义鸿沟。在此基础上，根据更新视觉图、更新问题图和问题特征得到融合特征，并基于融合特征进行最终答案的预测。由于前期针对输入图像和输入问题的特征表示的优化，以及中间针对视觉图和问题图的多模态融合，可以有效地增强图像问答过程对于复杂输入的推理能力，使得根据本公开实施例的图像问答过程更具有可解释性。

下面参考图3A～图3D，结合具体实施例对根据本公开实施例的图像问答方法进行示例性说明。

图3A示意性示出了根据本公开实施例的图像问答过程的示例示意图。图3B示意性示出了根据本公开另一实施例的图像问答过程的示例示意图。

在图3A所示的例子中，可以预先构建网络模型300，该网络模型300可以包括依次连接的图构建模块301、图编码模块302、图匹配更新模块303、图融合(Graph Fusion)模块304以及问答模块305。其中，图编码模块302例如可以为图卷积编码模块(GCN Encoder)302，图卷积编码模块302和图匹配更新模块303可以串联构成一个整体更新模块，网络模型300中可以包括一个或多个该整体更新模块。根据本公开的实施例，需要通过训练上述网络模型300，以使得该网络模型300具有执行如图2所示的图像问答任务的能力。在训练过程中，将样本图像和样本问题输入至上述网络模型300，根据网络模型300的输出与样本标签之间的差异对网络模型300的参数进行优化，直至网络模型300的目标函数实现收敛。其中，样本标签为针对样本图像和样本问题的真实答案。此时完成针对网络模型300的训练，根据本公开实施例的图像问答方法可以利用该训练完成的网络模型300实施。下面对实施过程进行示例性说明。

根据本公开的实施例，如图3A所示，网络模型300中的图构建模块301获取输入图像I 306和输入问题Q307。图构建模块301可用于执行上述操作S202基于输入图像，构建视觉图的过程。示例性地，图构建模块301可以利用目标检测(Object Detection)网络对输入图像I 306进行处理，以从目标检测网络的中间层提取针对输入图像中的多个目标对象的表观特征和空间特征，并基于上述表观特征和空间特征，确定第一节点特征。然后，基于目标检测网络的输出层所输出的处理结果，确定多个目标对象各自的位置信息。基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系。再基于任意两个目标对象之间的位置关系，确定第一边特征。从而由上述第一节点特征和第一边特征构成视觉图。

在图3B所示的例子中，图构建模块301利用Faster RCNN(Faster RegionConvolutional Neural Network，更快速区域卷积神经网络)3011检测出输入图像I 306中存在的K₁个目标对象，并提取其在整个特征图(Feature Map)上经过感兴趣区域池化操作(ROI Pooling)的表观特征

和空间特征

其中，表观特征F可以包括针对K₁个目标对象的K₁个子特征，每个子特征可以表示为空间维度数量为2048的向量，空间维度数量可以需要进行设置，在此仅为举例。空间特征S也可以包括针对K₁个目标对象的K₁个子特征，每个子特征可以表示为空间维度数量为4的向量，例如包括针对目标对象的外包框(Bounding Box)的高度值、宽度值以及中心点的坐标。再将表观特征F和空间特征S合并起来作为视觉图G₁ 308的第一节点特征V^m＝{F||S}，合并方式例如可以为连接合并。

视觉图G₁ 308的第一边特征例如可以是一种二进制表示

第一边特征可以通过输入图像I 306中任意两个目标对象之间的位置关系来确定。根据本公开的实施例，上述任意两个目标对象可以包括不同目标对象，也可以包括相同的目标对象。通过上述目标检测网络的处理，可以获得输入图像I 306中的每个目标对象的位置坐标，即可以确定每个目标对象所占的位置区域。

示例性地，可以通过任意两个目标对象的位置区域之间的交并比(Intersection-over-Union，IoU)是否大于预定阈值来判断第一边特征E^m中的每个元素的取值。例如，设置预定阈值为0.3，对于输入图像中的第i个目标对象和第j个目标对象，计算第i个目标对象的位置区域和第j个目标对象的位置区域之间的IoU值，在该IoU值大于预定阈值的情况下，将第一边特征E^m中的元素e_ij表示为1；在该IoU值小于等于预定阈值的情况下，将第一边特征E^m中的元素e_ij表示为0。本例中，i和j均为大于等于1且小于等于K₁的正整数，i和j可以相同或不同。

通过上述示例性实施方式，可以构建出视觉图G₁＝{V^m，E^m}。

根据本公开的实施例，如图3A所示，网络模型300中的图构建模块301还获取输入问题Q 307。图构建模块301还可用于执行上述操作S203基于输入问题，构建问题图的过程。示例性地，图构建模块301可以将输入问题Q中的每个词当做词节点，利用词编码(WordEmbedding)算法和特征编码算法依次处理输入问题，以从输入问题Q中提取多个词节点特征(例如共有K₂个词节点特征)，多个词节点特征用于表征输入问题Q中的多个词各自的特征信息。然后利用依存分析(Dependency Parsing)算法3012确定多个词中的任意两个词之间的依存关系，并基于任意两个词之间的依存关系，确定第二边特征

由上述多个词节点特征构成第二节点特征

并由第二节点特征Vⁿ和第二边特征Eⁿ构成问题图G₂ 309。

通过上述示例性实施方式，可以构建出视觉图G₂＝{Vⁿ，Eⁿ}。

根据本公开的实施例，上述操作S204对视觉图和问题图进行多模态融合的过程可以包括：执行至少一轮多模态融合操作。其中，上述至少一轮多模态融合操作中的每轮多模态融合操作可以包括：图卷积编码模块302基于第一节点特征和第一边特征，利用第一预定网络对第一节点特征进行编码，以得到编码视觉图。图卷积编码模块302基于第二节点特征和第二边特征，利用第二预定网络对第二节点特征进行编码，以得到编码问题图。图匹配更新模块303利用图匹配算法，对编码视觉图和编码问题图进行多模态融合，以得到更新视觉图和更新问题图。

如图3B所示，视觉图G₁ 308被输入至第一预定网络，问题图G₂ 309被输入至第二预定网络，本例中，第一预定网络和第二预定网络可均为图卷积编码模块302。图卷积编码模块302用于基于图卷积(Graph Convolution Network，GCN)方法分别进行不同图(视觉图和问题图)的节点特征更新和每个图内部关系的学习。由于图卷积编码模块302对视觉图的编码过程和对问题图的编码过程原理相同，下面以图卷积编码模块302对视觉图G₁ 308的编码过程为例，进行示例性说明。

图3C示意性示出了根据本公开实施例的图卷积编码模块的示例结构图。如图3C所示，作为第一预定网络的图卷积编码模块302可以包括第一全连接层(Fully ConnectedLayer，FC)3021、第一图卷积层(Graph Convolutional Layer，Gconv₁)3022和第二图卷积层(Gconv₂)3023。示例性地，上述对视觉图G₁ 308的编辑操作包括：利用第一全连接层3021将视觉图G1 308的第一节点特征V^m 3081映射为空间维度数量等于预定数量d的第一特征X30811。利用第一图卷积层3022对第一特征X 30811进行处理，以得到第二特征X’ 30812。再利用第二图卷积层3023对第二特征X’ 30812进行处理，以得到经编码的第一节点特征X”。由经编码的第一节点特征X”和第一边特征E^m 3082构成编码视觉图G′₁ 308’。

例如，上述利用第一全连接层3021将视觉图G₁ 308的第一节点特征V^m 3081映射成空间维度数量为d的第一特征X 30811的过程可以表示为公式(1)。

X＝σ(W₁*V)

公式(1)

其中σ为非线性函数，W₁为第一全连接层的权重参数。

根据本公开的实施例，可以根据视觉图G₁ 308的第一边特征E^m 3082，使用第一图卷积层3022进行节点特征的更新和显式关系的学习。如图3C所示，上述上述对第一节点特征进行编码还可以包括：基于第一边特征E^m 3082构建第一拉普拉斯矩阵(GraphLaplacians)L 30821。上述利用第一图卷积层3022对第一特征X 30811进行处理的过程可以包括：利用第一图卷积层3022基于第一拉普拉斯矩阵L 30821对第一特征X 30811进行处理，以得到第二特征X’30812。第二特征X’ 30812包括多个第一子特征x_i’，i为大于等于1且小于等于K₁的整数，x_i’可表示为具有d个空间维度的向量。上述计算第二特征X’的过程以及构建第一拉普拉斯矩阵的过程可以分别如公式(2)和(3)所示。

X′＝σ(W₂(X+W₃(Lx)))

公式(2)

L＝(D)^-1/2E(D)^1/2

公式(3)

其中，

是一个对角矩阵，

σ为非线性函数，W₂和W₃为第一图卷积层的权重参数。

为进一步学习输入图像中的隐式关系，根据本公开的实施例，如图3C所示，作为第一预定网络的图卷积编码模块302还可以包括第一关联层(Adj)3024。在第一图卷积层3022处理结束后，可以利用第一关联层3024计算多个第一子特征中的任意两个第一子特征x_i’和x_j’之间的关联关系，并基于任意两个第一子特征之间的关联关系确定第一关系矩阵A′30812’。

其中，A′＝{a′_ij}，i，j∈{1，...，K₁}。具体表示如公式(4)。

由公式(4)可知，本例根据计算x_i’和x_j’之间的L-2距离(欧式距离)来确定X_i’和x_j’之间的关联关系。在其他例子中，可以利用任意相似度计算方式来确定x_i’和x_j’之间的关联关系，例如余弦相似度等，在此不做限制。依据本实施例，通过关联层学习图节点之间隐式的关系矩阵。

在此基础上，可以利用第二图卷积层3023对第二特征X’ 30812进行处理。示例性地，利用第二图卷积层3023根据学习到的第一关系矩阵A′进行深层次的节点特征的更新和学习，以得到经编码的第一节点特征X″。第二图卷积层3023的更新策略可以定义如公式(5)。

X″＝X′+W₄(A′X′)

公式(5)

其中W₄为第二图卷积层的权重参数。

根据本公开的实施例，作为第二预定网络的图卷积编码模块302可以包括：第二全连接层、第三图卷积层和第四图卷积层。上述对问题图G₂ 309中的第二节点特征Vⁿ进行编码的过程可以包括：利用第二全连接层将第二节点特征Vⁿ映射为空间维度数量等于预定数量d的第三特征Y；利用第三图卷积层对第三特征Y进行处理，以得到第四特征Y’；利用第四图卷积层对第四特征Y’进行处理，以得到经编码的第二节点特征Y”。由经编码的第二节点特征和第二边特征构成编码问题图G′₂ 309’。该过程与上文中利用图卷积编码模块302对视觉图进行编码的过程原理相同，在此不再赘述。

示例性地，为学习问题图中的显示关系，上述对第二节点特征Vⁿ进行编码还可以包括：基于第二边特征Eⁿ构建第二拉普拉斯矩阵。上述利用第三图卷积层对第三特征进行处理可以包括：利用第三图卷积层基于第二拉普拉斯矩阵对第三特征Y进行处理，以得到第四特征Y’，第四特征Y’包括多个第二子特征y_j’，此时j为大于等于1且小于等于K₂的整数。该过程与上文中利用第一图卷积层对视觉图进行处理的过程原理相同，在此不再赘述。

进一步地，为学习问题图中的隐式关系，示例性地，作为第二预定网络的图卷积编码模块302还可以包括第二关联层。上述对第二节点特征进行编码还可以包括：利用第二关联层计算多个第二子特征中的任意两个第二子特征之间的关联关系，并基于任意两个第二子特征之间的关联关系确定第二关系矩阵。上述利用第四图卷积层对第四特征进行处理可以包括：利用第四图卷积层基于第二关系矩阵对第四特征进行处理，以得到经编码的第二节点特征。该过程与上文中利用第二图卷积层对视觉图进行处理的过程原理相同，在此不再赘述。

根据本公开的实施例，由于使用了两个并行的图卷积编码模块302分别对视觉图和问题图进行编码处理，经过两层的图卷积网络后，作为第一预定网络的图卷积编码模块302的输出是一个编码视觉图G′₁＝{X″，E^m}。作为第二预定网络的图卷积编码模块302的输出是一个编码问题图G′₂＝{Y″，Eⁿ}。其中，经编码的第一节点特征X″包括多个第三子特征x_i”，i为大于等于1且小于等于K₁的整数。经编码的第二节点特征Y″包括多个第四子特征y_j”，j为大于等于1且小于等于K₂的整数。

如图3B和3C所示，根据本公开实施例的图像问答方法使用了两条并行的图卷积编码模块分别对视觉图和问题图进行编码，在这两个并行的编码模块中，针对视觉图进行处理的第一卷积层和针对问题图进行处理的第二卷积层是权重共享的，针对视觉图进行处理的第二卷积层和针对问题图进行处理的第四卷积层是权重共享的。所谓权重共享指的是在训练过程中使用相同的图卷积层对两个图进行更新，该图卷积层的权重参数以及更新是一致的。

继续参考图3A和图3B，在介绍完图卷积编码模块302之后，对基于图匹配更新模块303的实施方式进行示例性说明。经过图卷积编码模块后，编码视觉图上的每个节点特征根据学习到的关系去融合了相关节点的特征，编码问题图上的每个节点特征根据学习到的关系去融合了相关节点的特征，在一定程度上包含了深层次的语义特征。接下来需要利用图匹配更新模块303进行两个不同图的节点之间匹配，从而将两个不同模态下地特征进行对齐，缩短模态间的语义鸿沟，实现有效地跨模态特征融合。

图3D示意性示出了根据本公开实施例的图匹配更新模块的处理过程的示例示意图。

如图3D所示，根据本公开的实施例，上述图匹配更新模块303利用图匹配算法，对编码视觉图和编码问题图进行多模态融合的过程可以包括：首先利用图匹配(GraphMatch)算法对经编码的第一节点特征和经编码的第二节点特征进行匹配处理，以确定多个第三子特征中的任一第三子特征x″_i与多个第四子特征中的任一第四子特征y″_i之间的匹配关系，并基于任一第三子特征x″_i与任一第四子特征y″_j之间的匹配关系，确定匹配矩阵S3031，

可表示为公式(6)。

s_ij＝f_a(x″_i，y″_j)，{i∈K₁，j∈K₂}

公式(6)

其中，x″_i∈X″，y″_j∈Y″，K₁和K₂分别表示进行匹配的两个图(编码视觉图和编码问题图)的节点个数。f_a可以设置一个双线性映射，例如可以表示如公式(7)。

其中，

是可学习的矩阵参数，τ是数值问题的超参数。

经过上述图匹配过程后，可以得到两个图节点之间的匹配矩阵

然后，基于注意力机制和匹配矩阵S，分别确定第一注意力权重集合S₁ 3032和第二注意力权重集合S₂ 3033。

示例性地，如图3D所示，S₁和S₂是通过对匹配矩阵S在不同维度进行softmax操作分别得到的在视觉图特征维度的注意力映射(attention map)以及在问题图特征维度的注意力映射。例如，针对匹配矩阵S的1-K₁维度进行softmax操作，以得到S₁，针对匹配矩阵S的1-K₂维度进行softmax操作，以得到S₂。

然后，基于第一注意力权重集合S₁、经编码的第一节点特征X″和经编码的第二节点特征Y″，确定更新的第二节点特征Vⁿ′；基于第二注意力权重集合S₂、经编码的第一节点特征X″和经编码的第二节点特征Y″，确定更新的第一节点特征V^m′。从而由更新的第一节点特征V^m′和第一边特征E^m构成更新视觉图G″₁ 308”，G″₁＝{V^m′，E^m}，并由更新的第二节点特征Vⁿ′和第二边特征Eⁿ构成更新问题图G″₂ 309”，G″₂＝{Vⁿ′，Eⁿ}。

在图3D所示的例子中，利用S₁和S₂分别用于两个图节点特征的更新，具体的更新策略可以如公式(8)。

其中V^m′和Vⁿ′是更新过后的两个图的节点特征，从而可以得到经过图匹配更新模块输出的两个新的图表示G″₁＝{V^m′，E^m}和G″₂＝{Vⁿ′，Eⁿ}。本例中，图匹配更新模块303还包括第三全连接层3034和第四全连接层3035，公式(8)中W₅为第三全连接层3034和第四全连接层3035的权重参数。

为实现更好的更新效果，根据本公开实施例可以将图卷积编码模块302和图匹配更新模块303串联在一起以组成一个整体更新模块，预先构建的网络模型中可以串联若干个整体更新模块来实现针对图节点特征的多轮次更新，使其可以学习到更深层次的语义关系。例如通过p个整体更新模块可以实现p轮次的更新，以得到更新视觉图

308”和更新问题图

309”，p为正整数。

根据本公开的实施例，上述操作S206基于更新视觉图、更新问题图和问题特征，确定融合特征的过程可以包括：图融合模块304可以对更新的第一节点特征和更新的第二节点特征进行连接合并，以得到合并特征，并对合并特征进行预定池化操作，以得到推理特征。然后，问答模块305对推理特征和问题特征进行融合处理，以得到融合特征。在问答模块305进行融合处理之前，问答模块305可以获取输入问题Q 307并执行上述操作S205基于输入问题确定问题特征。

示例性地，在图匹配更新模块303之后，本公开实施例可以设计一种新的图融合模块304用于两个图的融合，得到最终用于问题推理的推理特征(Reasoning Feature)。例如，首先简单地将两个图的节点特征进行连接(Concatenate)合并，再使用例如最大池化(Maxpool)操作获得推理特征r 310，

具体的融合方式可以如公式(9)。

R＝V^m′||Vⁿ′

r＝Maxpool(R)

公式(9)

接着，如图3B所示，可以利用问答模块305进行问题最终的推理和答案的预测。例如，首先将输入问题Q 307的每个词通过Glove词编码3051和Bi-GRU特征编码3052得到整个输入问题的问题特征q 307’，本例中

再获取的图融合模块305输出的推理特征r 310，本例中

对推理特征r和问题特征q进行逐元素(Element-wise)点乘操作，以将两者融合。再将融合结果送入MLP3053中预测最终的答案

311。本例中使用2层的MLP，处理过程可以如公式(10)所示。

可以理解，在使用训练完成的网络模型300时，将待预测的输入图像和输入问题输入至上述网络模型300，以由网络模型300输出相应的答案类别和置信度，将置信度最高的答案类别作为针对待预测的输入图像和输入问题所得到的预测答案。上述针对输入图像和输入问题的处理过程与训练阶段针对样本图像和样本问题的处理过程同理，在此不再赘述。

基于上述各实施例可知，根据本公开实施例的图像问答方法该方法通过构建视觉图和问题图来学习不同模态上的关注点，从而降低多目标图像和复杂问题带来的噪声。同时，设计了一种基于图卷积的图编码模块来有效地学习各个模态内显式和隐式的关系，还设计了一种图匹配更新模块进行两个不同模态特征的对齐和更新，从而缩短了模态间的语义鸿沟，使得跨模态特征融合更为有效。本发明还通过将图编码模块和图匹配更新模块串联并重复多次的方式实现模型对于问题的多步推理。

图4示意性示出了根据本公开实施例的图像问答装置的框图。

如图4所示，图像问答装置400可以包括：获取模块410、第一图构建模块420、第二图构建模块430、更新模块440、问题特征提取模块450、融合模块460和预测模块470。

获取模块410用于获取输入图像和输入问题。

第一图构建模块420用于基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征。

第二图构建模块430用于基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征。

更新模块440用于对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图。

问题特征提取模块450用于基于输入问题，确定问题特征。

融合模块460用于基于更新视觉图、更新问题图和问题特征，确定融合特征。

预测模块470用于基于融合特征，生成针对输入图像和输入问题的预测答案。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块410、第一图构建模块420、第二图构建模块430、更新模块440、问题特征提取模块450、融合模块460和预测模块470中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块410、第一图构建模块420、第二图构建模块430、更新模块440、问题特征提取模块450、融合模块460和预测模块470中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块410、第一图构建模块420、第二图构建模块430、更新模块440、问题特征提取模块450、融合模块460和预测模块470中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图5示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机设备的框图。图5示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，根据本公开实施例的计算机设备500包括处理器501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 503中，存储有设备500操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，设备500还可以包括输入/输出(I/O)接口505，输入/输出(I/O)接口505也连接至总线504。设备500还可以包括连接至I/O接口505的以下部件中的一项或多项：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时，执行本公开实施例的***中限定的上述功能。根据本公开的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种图像问答方法，包括：

获取输入图像和输入问题；

基于所述输入图像，构建视觉图，所述视觉图包括第一节点特征和第一边特征；

基于所述输入问题，构建问题图，所述问题图包括第二节点特征和第二边特征；

对所述视觉图和所述问题图进行多模态融合，以得到更新视觉图和更新问题图；

基于所述输入问题，确定问题特征；

基于所述更新视觉图、所述更新问题图和所述问题特征，确定融合特征；以及

基于所述融合特征，生成针对所述输入图像和所述输入问题的预测答案。

2.根据权利要求1所述的方法，其中，所述基于所述输入图像，构建视觉图包括：

利用目标检测网络对所述输入图像进行处理，以从所述目标检测网络的中间层提取针对所述输入图像中的多个目标对象的表观特征和空间特征；

基于所述表观特征和所述空间特征，确定所述第一节点特征；

基于所述目标检测网络的输出层所输出的处理结果，确定所述多个目标对象各自的位置信息；

基于所述多个目标对象各自的位置信息，确定所述多个目标对象中的任意两个目标对象之间的位置关系；

基于所述任意两个目标对象之间的位置关系，确定所述第一边特征；以及

由所述第一节点特征和所述第一边特征构成所述视觉图。

3.根据权利要求2所述的方法，其中，所述基于所述多个目标对象各自的位置信息，确定所述多个目标对象中的任意两个目标对象之间的位置关系包括：

根据所述任意两个目标对象各自的位置信息，计算所述任意两个目标对象的位置区域之间的交集和并集；

计算所述交集和并集的比值；

在所述比值大于预定阈值的情况下，将所述任意两个目标对象之间的位置关系表示为1；以及

在所述比值小于等于预定阈值的情况下，将所述任意两个目标对象之间的位置关系表示为0。

4.根据权利要求1所述的方法，其中，所述基于所述输入问题，构建问题图包括：

利用词编码算法和特征编码算法依次处理所述输入问题，以从所述输入问题中提取多个词节点特征，所述多个词节点特征用于表征所述输入问题中的多个词各自的特征信息；

利用依存分析算法确定所述多个词中的任意两个词之间的依存关系；

基于所述任意两个词之间的依存关系，确定所述第二边特征；以及

由所述多个词节点特征构成所述第二节点特征，并由所述第二节点特征和所述第二边特征构成所述问题图。

5.根据权利要求1所述的方法，其中，所述对所述视觉图和所述问题图进行多模态融合包括：执行至少一轮多模态融合操作，其中

所述至少一轮多模态融合操作中的每轮多模态融合操作包括：

基于所述第一节点特征和所述第一边特征，利用第一预定网络对所述第一节点特征进行编码，以得到编码视觉图；

基于所述第二节点特征和所述第二边特征，利用第二预定网络对所述第二节点特征进行编码，以得到编码问题图；以及

利用图匹配算法，对所述编码视觉图和所述编码问题图进行多模态融合，以得到所述更新视觉图和所述更新问题图。

6.根据权利要求5所述的方法，其中，所述第一预定网络包括：第一全连接层、第一图卷积层和第二图卷积层；

所述对所述第一节点特征进行编码包括：

利用第一全连接层将所述第一节点特征映射为空间维度数量等于预定数量的第一特征；

利用第一图卷积层对所述第一特征进行处理，以得到第二特征；

利用第二图卷积层对所述第二特征进行处理，以得到经编码的第一节点特征；以及

由所述经编码的第一节点特征和所述第一边特征构成所述编码视觉图。

7.根据权利要求6所述的方法，其中，所述对所述第一节点特征进行编码还包括：基于所述第一边特征构建第一拉普拉斯矩阵；

所述利用第一图卷积层对所述第一特征进行处理包括：利用所述第一图卷积层基于所述第一拉普拉斯矩阵对所述第一特征进行处理，以得到所述第二特征，所述第二特征包括多个第一子特征。

8.根据权利要求7所述的方法，其中，所述第一预定网络还包括第一关联层；

所述对所述第一节点特征进行编码还包括：利用第一关联层计算所述多个第一子特征中的任意两个第一子特征之间的关联关系，并基于所述任意两个第一子特征之间的关联关系确定第一关系矩阵；

所述利用第二图卷积层对所述第二特征进行处理包括：利用所述第二图卷积层基于所述第一关系矩阵对所述第二特征进行处理，以得到所述经编码的第一节点特征。

9.根据权利要求5所述的方法，其中，所述第二预定网络包括：第二全连接层、第三图卷积层和第四图卷积层；

所述对所述第二节点特征进行编码包括：

利用第二全连接层将所述第二节点特征映射为空间维度数量等于预定数量的第三特征；

利用第三图卷积层对所述第三特征进行处理，以得到第四特征；

利用第四图卷积层对所述第四特征进行处理，以得到经编码的第二节点特征；以及

由所述经编码的第二节点特征和所述第二边特征构成所述编码问题图。

10.根据权利要求9所述的方法，其中，所述对所述第二节点特征进行编码还包括：基于所述第二边特征构建第二拉普拉斯矩阵；

所述利用第三图卷积层对所述第三特征进行处理包括：利用所述第三图卷积层基于所述第二拉普拉斯矩阵对所述第三特征进行处理，以得到所述第四特征，所述第四特征包括多个第二子特征。

11.根据权利要求10所述的方法，其中，所述第二预定网络还包括第二关联层；

所述对所述第二节点特征进行编码还包括：利用第二关联层计算所述多个第二子特征中的任意两个第二子特征之间的关联关系，并基于所述任意两个第二子特征之间的关联关系确定第二关系矩阵；

所述利用第四图卷积层对所述第四特征进行处理包括：利用所述第四图卷积层基于所述第二关系矩阵对所述第四特征进行处理，以得到所述经编码的第二节点特征。

12.根据权利要求5所述的方法，其中，所述编码视觉图中经编码的第一节点特征包括多个第三子特征，所述编码问题图中经编码的第二节点特征包括多个第四子特征；

所述利用图匹配算法，对所述编码视觉图和所述编码问题图进行多模态融合包括：

利用图匹配算法对所述经编码的第一节点特征和所述经编码的第二节点特征进行匹配处理，以确定所述多个第三子特征中的任一第三子特征与所述多个第四子特征中的任一第四子特征之间的匹配关系；

基于所述任一第三子特征与所述任一第四子特征之间的匹配关系，确定匹配矩阵；

基于注意力机制和所述匹配矩阵，分别确定第一注意力权重集合和第二注意力权重集合；

基于所述第一注意力权重集合、所述经编码的第一节点特征和所述经编码的第二节点特征，确定更新的第二节点特征；

基于所述第二注意力权重集合、所述经编码的第一节点特征和所述经编码的第二节点特征，确定更新的第一节点特征；以及

由所述更新的第一节点特征和所述第一边特征构成所述更新视觉图，并由所述更新的第二节点特征和所述第二边特征构成所述更新问题图。

13.根据权利要求12所述的方法，其中，所述基于所述输入问题，确定问题特征包括：

利用预定词编码算法和预定特征编码算法依次对所述输入问题进行编码处理，以得到所述问题特征。

14.根据权利要求12所述的方法，其中，所述基于所述更新视觉图、所述更新问题图和所述问题特征，确定融合特征包括：

对所述更新的第一节点特征和所述更新的第二节点特征进行连接合并，以得到合并特征；

对所述合并特征进行预定池化操作，以得到推理特征；以及

对所述推理特征和所述问题特征进行融合处理，以得到所述融合特征。

15.根据权利要求14所述的方法，其中，所述对所述推理特征和所述问题特征进行融合处理包括：

对所述推理特征和所述问题特征进行逐元素点乘操作，以得到所述融合特征。

16.根据权利要求1所述的方法，其中，所述基于所述融合特征，生成针对所述输入图像和所述输入问题的预测***括：

利用多层感知机对所述融合特征进行处理，以得到针对所述融合特征的预测答案。

17.一种图像问答装置，包括：

获取模块，用于获取输入图像和输入问题；

第一图构建模块，用于基于所述输入图像，构建视觉图，所述视觉图包括第一节点特征和第一边特征；

第二图构建模块，用于基于所述输入问题，构建问题图，所述问题图包括第二节点特征和第二边特征；

更新模块，用于对所述视觉图和所述问题图进行多模态融合，以得到更新视觉图和更新问题图；

问题特征提取模块，用于基于所述输入问题，确定问题特征；

融合模块，用于基于所述更新视觉图、所述更新问题图和所述问题特征，确定融合特征；以及

预测模块，用于基于所述融合特征，生成针对所述输入图像和所述输入问题的预测答案。

18.一种计算机设备，包括：

存储器，其上存储有计算机指令；以及

至少一个处理器；

其中，所述处理器执行所述计算机指令时实现根据权利要求1～16中任一项所述的方法。

19.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现根据权利要求1～16中任一项所述的方法。