CN117892140A

CN117892140A - 视觉问答及其模型训练方法、装置、电子设备、存储介质

Info

Publication number: CN117892140A
Application number: CN202410295706.9A
Authority: CN
Inventors: 徐聪; 赵雅倩; 范宝余; 刘璐; 贾麒; 金良; 闫瑞栋
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-04-16
Anticipated expiration: 2044-03-15
Also published as: CN117892140B

Abstract

本发明公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质，应用于人工智能领域。其中，方法包括获取视觉问答训练样本数据集；将问题‑图像对样本输入至视觉问答模型，图文编码器对问题‑图像对样本进行图文编码处理，交互解码器从接收到的图文编码特征中提取交互对象的语义特征，推理解码器融合接收到的图文编码特征和交互对象特征，并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新，直至满足预设模型训练结束条件。本发明可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题，提升了基于场景交互任务中的视觉问答精度，让答案更具有可解释性。

Description

视觉问答及其模型训练方法、装置、电子设备、存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质。

背景技术

视觉问答为一种涉及计算机视觉和自然语言处理的学习任务，其是指通过对视频及图像的内容和用户提出的问题进行深度理解和推理后，给出相应的回答。其中，基于场景交互任务的视觉问答能够对人类和场景进行交互的行为进行理解，被广泛应用。

基于场景交互任务中的视觉问答要求执行相应视觉问答任务的视觉问题模型，具有很强的组合理解能力，能够在知识图谱、问题和图像之间进行推理，而相关技术中的视觉问答模型在问答精度和知识推理的精度上都相对较低，并无法满足用户的高精度问答需求和答案可解释需求。

鉴于此，提升基于场景交互任务中的视觉问答精度，让答案更具有可解释性，是所属领域技术人员需要解决的技术问题。

发明内容

本发明提供了一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质，能够有效提升基于场景交互任务中的视觉问答精度，让答案更具有可解释性。

为解决上述技术问题，本发明提供以下技术方案：

本发明第一方面提供了一种视觉问答模型训练方法，包括：

获取视觉问答训练样本数据集；所述视觉问答训练样本数据集包括知识库、多组具有正确答案-正确事件知识标签的问题-图像对样本；所述问题-图像对样本包括问题样本及其对应的图像样本，所述问题样本包括目标物的行为，所述图像样本至少包括目标物与场景进行交互的行为所指向的交互对象；

将问题-图像对样本输入至预先构建的视觉问答模型；所述视觉问答模型包括图文编码器、交互解码器和推理解码器；

所述图文编码器对问题-图像对样本进行图文编码处理，并将图文编码特征分别输入至所述交互解码器和所述推理解码器；所述交互解码器从接收到的图文编码特征中提取所述交互对象的语义特征，并将提取到的交互对象特征发送至所述推理解码器；所述推理解码器将接收的图文编码特征和交互对象特征进行融合，并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新，直至满足预设模型训练结束条件。

在第一种示例性的实施方式中，所述推理解码器包括答案推理分支和知识推理分支；所述图文编码器的输入还包括答案输出标识符和事件输出标识符，所述将接收的图文编码特征和交互对象特征进行融合，基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新，包括：

所述答案推理分支接收所述图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新；

所述知识推理分支接收所述图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将第二类图文编码特征与所述交互对象特征进行融合，并基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新；

其中，所述答案输出标识符用于标识所述图文编码器输入至所述答案推理分支的图文编码特征，所述事件输出标识符用于标识所述图文编码器输入至所述知识推理分支的图文编码特征。

在第二种示例性的实施方式中，所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新，包括：

预先将所述知识库的各答案进行向量化表示，得到包含多个答案表征的答案空间；

对各第一类图文编码特征，基于当前第一类图文编码特征对应的问题-图像样本对的正确答案-正确事件知识标签，得到所述当前第一类图文编码特征对应的正确答案表征，并确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性；

确定所述当前第一类图文编码特征与所述答案空间的答案表征之间的参考相似性；

根据所述标准相似性及各参考相似性，确定所述当前第一类图文编码特征与所述答案空间的各答案表征的损失信息。

在第三种示例性的实施方式中，所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性，包括：

调用相似性计算关系式，计算当前第一类图文编码特征与其对应的正确答案表征之间的标准相似度；所述相似性计算关系式为：

；

其中，为标准相似度，T表示转置，P _n为索引号为n的问题-图像对样本，a表示答案，/>表示P _n对应的第一类图文编码特征，/>表示正确答案表征，表示调节参数。

在第四种示例性的实施方式中，所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新，包括：

调用答案推理损失函数计算关系式，计算第一类图文编码特征与从所述知识库中检索到的各答案之间的答案推理损失；所述答案推理损失函数计算关系式为：

；

式中，L _a为答案推理损失，N为问题-图像对样本总数，T表示转置，P _n为索引号为n的问题-图像对样本，a表示答案，表示对应的第一类图文编码特征，/>表示正确答案表征，/>表示调节参数，/>表示答案空间A中的答案，/>表示答案空间A中的答案表征。

在第五种示例性的实施方式中，所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层；

其中，所述语义空间层，接收所述图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并计算各第一类图文编码特征与各答案表征之间的相似性；

所述答案特征提取层，将所述答案特征表示层的各答案表征映射至所述语义空间层；

所述答案特征表示层，将所述知识库的各答案进行向量化表示，生成相应的答案表征，并将各答案表征发送至所述答案特征提取层。

在第六种示例性的实施方式中，所述将第二类图文编码特征与所述交互对象特征进行融合，包括：

计算所述交互对象特征分别与第二类图文编码特征的距离度量信息，得到初始融合图文编码特征；

将初始融合图文编码特征与对应的第二类图文编码特征进行特征和相加，得到融合图文编码特征。

在第七种示例性的实施方式中，所述将第二类图文编码特征与所述交互对象特征进行融合，包括：

调用特征融合关系式，将第二类图文编码特征与所述交互对象特征进行融合；所述特征融合关系式为：

；

式中，f _es为融合图文编码特征，f _e为第二类图文编码特征，f _s为所述交互对象特征，D _KL(f _e||f _s)表示计算所述交互对象特征分别与第二类图文编码特征的KL散度。

在第八种示例性的实施方式中，所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新，包括：

预先将所述知识库的各事件知识进行向量化表示，得到包含多个事件知识表征的事件知识空间；

对各融合图文编码特征，基于当前融合图文编码特征对应的问题-图像样本对的正确答案-正确事件知识标签，得到所述当前融合图文编码特征对应的正确事件知识表征，并确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性；

确定所述当前融合图文编码特征与所述事件知识空间的事件知识表征之间的事件参考相似性；

根据所述事件标准相似性及各事件参考相似性，确定所述当前融合图文编码特征与所述事件知识空间的各事件知识表征之间的损失信息。

在第九种示例性的实施方式中，所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性，包括：

调用事件相似性计算关系式，计算当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似度；所述事件相似性计算关系式为：

；

其中，为事件标准相似度，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，/>表示P _n对应的融合图文编码特征，/>表示正确事件知识表征，/>表示调节参数。

在第十种示例性的实施方式中，所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新，包括：

调用知识推理损失函数计算关系式，计算融合图文编码特征与所述知识库的各事件知识表征之间的知识推理损失；所述知识推理损失函数计算关系式为：

；

式中，L _e为答案推理损失，N为问题-图像对样本总数，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，表示P _n对应的融合图文编码特征，表示正确事件知识表征，/>表示调节参数，/>表示事件知识空间E中的事件知识，表示事件知识空间E中的事件知识表征。

在第十一种示例性的实施方式中，所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层；

其中，所述特征融合层，接收所述图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将第二类图文编码特征与所述交互对象特征进行融合，并将融合图文编码特征发送至所述事件空间层；

所述事件空间层，计算融合图文编码特征与各事件知识表征之间的相似性；

所述事件特征提取层，将所述事件知识特征表示层的各事件知识表征映射至所述事件空间层；

所述事件知识特征表示层，从所述知识库中的各事件知识进行向量化表示，生成对应的事件知识表征，并将各事件知识表征发送至所述事件特征提取层。

在第十二种示例性的实施方式中，所述对问题-图像对样本进行图文编码处理，包括：

对各问题-图像对样本，将当前问题-图像对样本对应的问题样本进行文本编码，得到文本编码特征；

将当前问题-图像对样本对应的图像样本进行图像编码，得到图像编码特征；

将所述文本编码特征和所述图像编码特征进行特征融合，并将融合生成的图文编码特征输出至所述交互解码器和所述推理解码器。

在第十三种示例性的实施方式中，所述将所述文本编码特征和所述图像编码特征进行特征融合，并将融合生成的图文编码特征输出至所述交互解码器和所述推理解码器，包括：将所述文本编码特征和所述图像编码特征进行特征拼接，对拼接特征进行编码，并将所述拼接特征对应的图文编码特征输出至所述交互解码器；

将所述文本编码特征和所述图像编码特征拼接为输入序列，在所述输入序列前***答案输出标识符和事件输出标识符，对所述输入序列进行编码，将所述输入序列对应的图文编码特征输出至所述推理解码器。

在第十四种示例性的实施方式中，所述图文编码器包括文本输入端、图像输入端、答案输出标识符输入端、事件输出标识符输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层；

其中，所述特征拼接层，对所述图像编码层输出的图像编码特征和所述文本编码层输出的文本编码特征进行特征拼接；

所述第一交叉注意力层，对所述特征拼接层输出的拼接特征进行编码处理；

所述第二交叉注意力层，对所述答案输出标识符输入端输入的答案输出标识符、所述事件输出标识符输入端输入的事件输出标识符、所述图像编码层输出的图像编码特征和所述文本编码层输出的文本编码特征进行编码处理。

在第十五种示例性的实施方式中，所述交互解码器包括交互对象特征提取模型；

所述交互对象特征提取模型，基于接收到的图文编码特征，提取所述交互对象的语义特征，并在对应的图像样本中定位所述交互对象；输出交互对象特征至所述推理解码器，同时输出所述交互对象的位置信息。

在第十六种示例性的实施方式中，所述视觉问答模型的总损失函数关系式为：

；

其中，L _r为总损失函数，L _v为所述交互解码器的交互对象定位损失，N为问题-图像对样本总数，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，表示P _n对应的融合图文编码特征，/>表示正确事件知识表征，/>表示调节参数，表示事件知识空间E中的事件知识，/>表示事件知识空间E中的事件知识表征，a表示答案，/>表示对应的第一类图文编码特征，/>表示正确答案表征，/>表示答案空间A中的答案，/>表示答案空间A中的答案表征。

本发明第二方面提供了一种视觉问答方法，包括：

获取待回答问题及对应的目标图像；

将所述待回答问题及对应的目标图像，输入至预先利用如前任一项所述的视觉问答模型训练方法训练好的视觉问答模型；

根据所述视觉问答模型的输出，得到所述待回答问题的候选答案、目标交互对象特征和支撑知识，并基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案；

其中，所述目标交互对象特征为所述待回答问题对应的目标物与所述目标图像进行场景交互的交互对象在所述目标图像中的特征；所述支撑知识为从知识库中检索到与所述待回答问题推理过程相关的事件知识表征。

在第一种示例性的实施方式中，所述根据所述视觉问答模型的输出，得到所述待回答问题的候选答案、目标交互对象特征和支撑知识，包括：

所述视觉问答模型的图文编码器对所述待回答问题及对应的目标图像进行图文编码，输出待处理图文编码特征；

所述视觉问答模型的交互解码器对所述待处理图文编码特征进行交互对象特征提取，输出目标交互对象特征；

所述视觉问答模型的推理解码器基于所述待处理图文编码特征在知识库检索到多个候选答案和多个相关联的支撑知识。

在第二种示例性的实施方式中，所述基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案，包括：

对各候选答案，计算当前候选答案分别与各支撑知识之间的相似度，基于各相似度与预设相似阈值之间的数值关系确定所述当前候选答案的分数；

将分数最高的候选答案作为正确答案。

在第三种示例性的实施方式中，各支撑知识构成支撑知识集，所述计算当前候选答案分别与各支撑知识之间的相似度，包括：

调用答案相似性计算关系式，计算各候选答案分别与所述支撑知识集中的各支撑知识之间的相似度；所述答案相似性计算关系式为：

；

式中，M为候选答案a _m分别与支撑知识e _j之间的相似度，α为权重系数，为支撑知识集，sim()表示相似度计算。

在第四种示例性的实施方式中，各支撑知识构成支撑知识集，所述基于各相似度与预设相似阈值之间的数值关系确定所述当前候选答案的分数，包括：

调用答案分数计算关系式计算各候选答案的分数，所述答案分数计算关系式为：

；

式中，P表示待回答问题-目标图像对，SIM(P,a _m)为待回答问题-目标图像对的候选答案a _m的分数，f(P)为待回答问题-目标图像对的第一类图文编码特征，表示候选答案a _m对应的答案表征，T表示转置，/>表示调节参数，β为预设相似阈值，M为候选答案a _m分别与支撑知识e _j之间的相似度。

本发明第三方面提供了一种视觉问答模型训练装置，包括：

训练数据获取模块，用于获取视觉问答训练样本数据集；所述视觉问答训练样本数据集包括知识库、多组具有正确答案-正确事件知识标签的问题-图像对样本；所述问题-图像对样本包括问题样本及其对应的图像样本，所述问题样本包括目标物的行为，所述图像样本至少包括目标物与场景进行交互的行为所指向的交互对象；

模型训练模块，用于将问题-图像对样本输入至预先构建的视觉问答模型；所述视觉问答模型包括图文编码器、交互解码器和推理解码器；所述图文编码器对问题-图像对样本进行图文编码处理，并将图文编码特征分别输入至所述交互解码器和所述推理解码器；所述交互解码器从接收到的图文编码特征中提取所述交互对象的语义特征，并将提取到的交互对象特征发送至所述推理解码器；所述推理解码器将接收的图文编码特征和交互对象特征进行融合，并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新，直至满足预设模型训练结束条件。

本发明第四方面提供了一种视觉问答装置，包括：

问答数据获取模块，用于获取待回答问题及对应的目标图像；

答案输出模块，用于将所述待回答问题及对应的目标图像，输入至预先利用如前任一项所述的视觉问答模型训练方法训练好的视觉问答模型；根据所述视觉问答模型的输出，得到所述待回答问题的候选答案、目标交互对象特征和支撑知识，并基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案；其中，所述目标交互对象特征为所述待回答问题对应的目标物与所述目标图像进行场景交互的交互对象在所述目标图像中的特征；所述支撑知识为从知识库中检索到与所述待回答问题推理过程相关的事件知识表征。

本发明第五方面提供了一种电子设备，包括处理器，所述处理器用于执行所述存储器存储的计算机程序时实现如前任一项所述的视觉问答模型训练方法和/或如前任一项所述的视觉问答方法的步骤。

本发明第六方面还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的视觉问答模型训练方法和/或如前任一项所述的视觉问答方法的步骤。

本发明提供的技术方案的优点在于，视觉问答模型基于视觉问答训练样本数据集的知识库中的答案、事件知识能够对输入问题-图像对进行事件知识推理，还能够提取交互对象特征，同时利用提取的交互对象语义信息辅助事件知识的推理，从而能够准确地回答与场景交互的问题，有效提升了基于场景交互任务中的视觉问答精度，通过推理支撑知识和交互对象特征为***一定的可解释性，满足用户的高精度问答需求和答案可解释需求。

此外，本发明还针对视觉问答模型训练方法提供了视觉问答方法、相应的实现装置、电子设备及可读存储介质，进一步使得所述方法更具有实用性，所述视觉问答方法、装置、电子设备及可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

为了更清楚的说明本发明或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种视觉问答模型训练方法的流程示意图；

图2为本发明提供的一种视觉问答模型的示例性的结构框架示意图；

图3为本发明提供的一个示例性例子中的知识推理流程示意图；

图4为本发明提供的一种视觉问答方法的流程示意图；

图5为本发明提供的一种视觉问答模型执行视觉问答任务的流程示意图；

图6为本发明提供的视觉问答方法所适用于的硬件结构框架示意图；

图7为本发明提供的视觉问答模型的另一种示例性的结构框架示意图；

图8为本发明提供的视觉问答模型训练装置的一种具体实施方式结构图；

图9为本发明提供的视觉问答装置的一种具体实施方式结构图；

图10为本发明提供的电子设备的一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。其中，说明书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及二者的任何变形，意图在于覆盖不排他的包含。术语“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

基于场景交互的视觉问答任务，如AIVQA（Agent Interaction Visual QuestionAnswering，与环境交互的视觉问答智能体），用于考察视觉问答模型对人类和场景进行交互的行为的理解能力，该任务给定一张图片和一个包含人类行为的问题，视觉问答模型会结合图片、问题和外部知识库进行推理，并给出相应的答案。

目前相关技术在进行基于场景交互的视觉问答过程中，能够完成同时完成问答和知识推理两个任务，也是能够给出回答的事实依据，但是无法进行交互对象的定位，同时由于该场景要求视觉交互模型能够具备很强的组合推理能力，需要在知识图谱、问题和图像之间进行推理，相关技术的视觉问答模型在问答精度和知识推理的精度上都相对较低。

鉴于此，本发明能够实现在进行问答的同时推理出支撑知识和交互对象，让答案更具可解释性，利用提取的交互对象语义信息辅助知识推理，从而能够准确地回答与场景交互的问题，有效提升了基于场景交互任务中的视觉问答精度。在介绍了本发明的技术方案后，下面详细的说明本发明的各种非限制性实施方式。为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本发明同样可以实施。在另外一些实例中，对于所属领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

首先请参见图1，图1为本实施例提供的一种视觉问答模型训练方法的流程示意图，本实施例可包括以下内容：

S101：获取视觉问答训练样本数据集。

本实施例的视觉问答训练样本数据集包括知识库、多组具有正确答案-正确事件知识标签的问题-图像对样本。其中，视觉问答训练样本数据集所包含的问题-图像对样本的数量可根据实际应用灵活选择，在一定范围内，问题-图像对样本越多，最后训练得到的视觉问答模型性能越好。一组问题-图像对样本包括至少一个问题样本及其对应至少一个的图像样本，问题-图像对样本中的问题为用户针对人类和场景进行交互的行为的提问，问题样本包括目标物的行为，目标物为人类或动物或微生物，图像样本为场景交互任务中与目标物进行交互的场景，该场景是以图像格式为载体。目标物与场景进行交互时会针对指定的对象，该对象即为目标物的行为所指向的目标，也即问题中的行为所指向的对象，同时该对象是出现在对应图像样本的，所以图像样本中至少包括目标物与场景进行交互的行为所指向的交互对象。举例来说，问题样本为用户A如何利用图样中位于数据中心的服务器B训练一个大型语言预训练模型，问题样本中的目标物为用户A，行为是利用，图像样本为包括一个数据中心和标识为B的服务器，交互对象为服务器B。视觉问答训练样本数据集的每个问题-图像对样本具有多个标签，包括但并不限制于问题样本对应的正确答案、交互对象对应的交互对象特征、推理问题样本对应的正确答案过程中所涉及到的正确事件知识。示例性的，为了便于描述，本实施例将问题-图像对样本答案标签和事件知识标签定义为正确答案-正确事件知识标签，在实际计算过程中，问题-图像对样本包括但并不限制于问题样本对应的正确答案表征、图像样本中交互对象的位置信息及语义信息、推理问题样本对应的正确答案过程中所涉及到的正确事件知识表征。正确答案表征是指问题对应的正确答案的特征表示，正确事件知识表征是指进行知识推理时所用到的与问题相关的事件知识的特征表示。

其中，本实施例的知识库包括答案和事件知识，本发明考虑到事件通常指包含参与者在内的某种动作或情况的发生，或世界状态的改变。在粒度上，事件介于词与句子之间：与词相比，事件通常包含多个词，用来描述事件的发生及事件的组成要素，是一种语义更完备的文本单元；与句子相比，事件更关注对现实世界中动作或变化的描述，是对现实世界一种更细粒度的刻画。为了提升视觉问答模型的精度，本实施例基于事件知识进行推理。在实际应用过程中，为了便于管理，可将知识库分别答案库和事件知识库，答案库包含各种答案，事件知识库包括各种事件知识。基于实际应用场景、用户与场景的交互行为、问题-图像对样本构建事件知识库和答案库，将答案库经过向量化表示之后形成的集合为答案空间。同样的，将事件知识库进行向量化表示便得到事件知识空间，也即件知识空间为多个事件特征集合，深度学习领域通常将特定领域特征组成的集合定义为空间，各事件可基于结构元组的脚本形式化来表示事件，当然，也可采用其他方式表示时间。对于基于结构元组的脚本形式化表示事件是指将一个事件形式化为一组元素的组合形式，可分为二元组、三元组，多元组。示例性的，本实施例的事件知识空间的每个事件为事件知识空间可为事件三元组的特征组成的集合，事件三元组可包括头实体、关系和尾实体，答案只存在于实体上，所以在后续从事件知识空间匹配支撑知识及相关联的事件知识时只会匹配事件实体，不匹配关系。

S102：将视觉问答训练样本数据集的问题-图像对样本，输入至预先构建的视觉问答模型。

在本步骤的视觉问答模型为预先搭建的网络模型框架，按照预先设置的训练参数从视觉问答训练样本数据集读取一个小批次的问题-图像对样本对视觉问答模型进行训练。其中，视觉问答模型包括图文编码器、推理解码器和交互解码器；图文编码器接收问题-图像对样本，并对问题-图像对样本的问题进行文本编码，对图像进行图像编码，然后将文本编码特征和图像编码特征进行融合后分别输入至推理解码器和交互解码器。推理解码器用于基于文本编码特征和交互解码器输出的交互对象特征进行知识推理，以得到当前推理得到的正确答案和推理过程中所使用的相关联的事件知识。

S103：利用图文编码器对问题-图像对样本进行图文编码处理，并将图文编码特征分别输入至交互解码器和推理解码器；交互解码器从接收到的图文编码特征中提取交互对象的语义特征，并将提取到的交互对象特征发送至推理解码器；推理解码器将接收的图文编码特征和交互对象特征进行融合，并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从知识库检索的答案、事件知识之间的损失信息进行迭代更新，直至满足预设模型训练结束条件。

在本实施例中，如图2所示，视觉问答模型的输入为问题-图像对样本，也即问题文本和图像一起输入至图文编码器，图文编码器对问题文本和图像进行编码，然后将编码后的文本特征和图像特征进行融合，并将融合后的特征定义为图文编码特征，将图文编码特征分别输入至交互解码器和推理解码器。交互解码器对图文编码特征进行交互对象的语义特征提取，同时输出标注交互对象的图像，并将提取到的交互对象特征发送至推理解码器，在深度学习中，语义信息为图像的纹理，颜色，或者目标的类别等信息，例如在检测网络中，一个图像输入到网络中，经过一层一层的卷积之后，语义信息会越来越明显，但是相对的位置信息会越来越弱，因为越到高层卷积的时候，特征图映射到原图中的感受野越大，这样对局部的位置信息感受就比较差。交互对象即为用户与场景进行交互的目标，也即用户提问的问题中所指定的对象，比如问题为如何点亮服务器的指示灯，则交互对象即为指示灯，图像为服务器图像，行为是点亮。交互对象特征包括但并不限制于交互对象的位置信息如坐标值，还可包括语义信息，还可包括其他所需的特征。交互对象特征用于辅助推理解码器的知识推理过程，也即可将交互对象特征作为知识推理过程中的线索。对于每一组问题-图像样本，其具有正确答案和正确事件知识作为标签，逐渐缩小正确答案表征与从知识库检索到的答案之间的差距、正确事件知识与从知识库检索到的事件知识之间的差距，对视觉问答模型的模型参数不断进行更新，例如可采用批量随机梯度下降方法训练视觉问答模型直至预设模型训练结束条件，预设模型训练结束条件例如可为迭代次数达到预先设置值，也可为视觉问答模型收敛，也可为视觉问答模型的精度达到预设精度阈值，这均不影响本申请的实现。在梯度更新迭代之前，模型需要初始化梯度下降算法，设定epoch（训练周期）、batch_size（批尺寸），权重更新周期t，迭代次数iteration。举例来说，视觉问答训练样本数据集包含的问题-图像样本对总数可为6万，视觉问答模型被训练至少100个训练周期，一个训练周期是指不重复的利用训练集中的全部训练样本更新神经网络的模型参数，每次取一个小批次（mini-batch）数据用于更新视觉问答模型的模型参数，完成一次训练的过程。在梯度更新迭代过程中，每次迭代更新使用500个问题-图像样本，这500个问题-图像样本被称作一个小批次（mini-batch）数据，也就是batch_size个样本数量。迭代次数iteration是指使用batch_size个样本训练的次数，完成一个epoch的迭代次数iteration=60000/500=120。权重更新周期是指视觉问答模型训练时每迭代t次更新一次权重。当达到预设模型训练结束条件时的视觉问答模型即为训练好的视觉问答模型。

举例来说，视觉问答模型所要执行的任务为给定一张图片和一个包含人类行为的问题，图像为包含草地、白色建筑物、蓝色天空、绿色大树的场景图像，问题为“如果一个人想要砍倒图像中白色建筑物前的高大物体，应该怎么办”，视觉问答模型结合该图片、问题和外部知识库，推导出答案并且定位出来交互对象的位置，同时还需要给出回答的事实依据。视觉问答模型需要首先在图像中进行推理，视觉问答模型的知识推理过程如图3所示，通过白色建筑物定位到前面的对象，然后通过绿色和高定位到是白色建筑前面的那颗树。再把问题中的行为（砍掉）和视觉中定位到的交互对象（树）作为知识推理的线索，在事件知识库中找到相关事件，并推理出来答案（磨刀）。同时会输出图中框出来那颗作为行为交互对象的树，给出推理的事件知识作为依据，来判断模型是真的在推理而非仅仅通过映射关系记住的答案。

在本实施例提供的技术方案中，视觉问答模型基于视觉问答训练样本数据集的知识库中的答案、事件知识能够对输入问题-图像对进行事件知识推理，还能够提取交互对象特征，同时利用提取的交互对象语义信息辅助事件知识的推理，从而能够准确地回答与场景交互的问题，有效提升了基于场景交互任务中的视觉问答精度，通过推理支撑知识和交互对象特征为***一定的可解释性，满足用户的高精度问答需求和答案可解释需求。

在上述实施例中，对于推理解码器如何进行知识推理，并不做任何限定，基于上述实施例，本实施例还提供了一种示例性的知识推理实现方式，可包括下述内容：

在本实施例中，答案推理分支接收图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并基于第一类图文编码特征对应的正确答案标签与从知识库中检索到的各答案之间的损失信息进行迭代更新；知识推理分支接收图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将第二类图文编码特征与交互对象特征进行融合，并基于融合图文编码特征与知识库的各事件知识之间的损失信息进行迭代更新。

在本实施例中，由于本发明需要针对问题进行回答，且使用事件知识进行推理，示例性的，本实施例的推理解码器可包括答案推理分支和知识推理分支，为了标识图文编码器的输出的图文编码特征是输入至哪个分支的，本实施例可同时设置答案输出标识符和事件输出标识符，答案输出标识符用于标识图文编码器输入至答案推理分支的图文编码特征，事件输出标识符用于标识图文编码器输入至知识推理分支的图文编码特征，也即需要在图文编码器的输入中添加答案输出标识符和事件输出标识符。示例性的，标识符可采用词元的格式，词元（也即token）为文本中处理中的最小单位，其可为一个单词、一个词组、一个标点符号、一个字符，取决于文本处理的需求和方法。如图7所示，答案输出标识符可为答案词元[answer]，事件输出标识符可为事件词元[event]。在本实施例中，图文编码器包括三个输出，一个输出位置与答案输出标识符输入位置相对应，其用于向答案推理分支输入图文编码特征；一个输出位置与事件输出标识符输入位置相对应，其用于向知识推理分支输入图文编码特征；最后一个输出位置向交互解码器输出，其用于向答案推理分支输入图文编码特征。为了便于描述，将输入答案推理分支的图文编码特征定义为第一类图文编码特征，将输入知识推理分支的图文编码特征定义为第二类图文编码特征。

示例性的，为了便于数据处理，预先将知识库的各答案进行向量化表示，得到包含多个答案表征的答案空间；同样的，将各问题-图像对样本的正确答案-正确事件知识标签进行向量化表示，得到正确事件知识表征和正确答案表征，这样基于当前第一类图文编码特征对应的问题-图像样本对的正确答案-正确事件知识标签，得到当前第一类图文编码特征对应的正确答案表征。答案推理分支的损失计算过程可包括：对各第一类图文编码特征，确定当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性，与答案空间的答案表征之间的参考相似性；根据标准相似性及各参考相似性，确定当前第一类图文编码特征与答案空间的各答案表征的损失信息。

在本实施例中，第一类图文编码特征与其对应的正确答案表征之间的相似性定义为标准相似性，第一类图文编码特征与答案空间中的各答案表征之间的相似性定义为参考相似性。相似性的计算可参阅相关技术中任何一种相似性计算方式，如基于哈希的相似性计算，余弦相似度，这均不影响本申请的实现。为了提高视觉问答模型的训练效率，可预先在本地存储相似性计算关系式和答案推理损失函数计算关系，可调用相似性计算关系式计算当前第一类图文编码特征与其对应的正确答案表征之间的标准相似度；在本实施例中，利用计算关系式计算得到的相似性定义为相似度，相应的，参考相似性定义为参考相似度，标准相似性定义为标准相似度，相似性计算关系式可表示为：

；

同样的，还可调用上述相似性计算关系式计算当前第一类图文编码特征与答案空间的各答案表征之间的标准相似度；相似性计算关系式可为：

；

其中，为标准相似度，/>为参考相似度，T表示转置，P _n为索引号为n的问题-图像对样本，a表示答案，/>表示P _n对应的第一类图文编码特征，/>表示正确答案表征，/>表示调节参数，/>表示答案空间A中的答案，/>表示答案空间A中的答案表征。

相应的，可直接调用答案推理损失函数计算关系式，计算各第一类图文编码特征与答案空间的各答案表征的答案推理损失；答案推理损失函数计算关系式为：

；

进一步的，本实施例还提供了一种实际应用过程中所使用的答案推理分支的示例性的网络结构，能够更加简单且高效地实现对答案的学习，其可包括语义空间层、答案特征提取层及答案特征表示层。答案特征表示层将知识库的各答案进行向量化表示，生成相应的答案表征，并将各答案表征发送至答案特征提取层，答案特征提取层将答案特征表示层的各答案表征映射至语义空间层，答案特征提取层例如可采用多层感知机，当然也可采用其他能进行映射的网络结构。语义空间层用于接收图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并计算各第一类图文编码特征与知识库中的各答案表征之间的相似性；示例性的，语义空间层可内置相似性计算关系式，每当接收到一个第一类图文编码特征之后，其可将其与答案空间中的各答案表征进行相似性计算。

为了进一步提高知识推理的精度，本实施例还针对第二类图文编码特征与交互对象特征的融合方式提供了一种示例性的融合方式，有利于提升知识推理分支的学习精度，可包括下述内容：

计算交互对象特征分别与各第二类图文编码特征的距离度量信息，得到初始融合图文编码特征；将各初始融合图文编码特征与对应的第二类图文编码特征进行特征和相加，得到融合图文编码特征。

其中，第二类图文编码特征与交互对象特征的融合的目的是通过交互解码器得到交互对象的语义信息来帮助知识推理分支的学习，计算交互对象特征到第二类图文编码特征的KL散度(Kullback-Leibler Divergence)或交叉熵，再加上原始的第二类图文编码特征。其中，KL散度可用于度量两个概率分布函数之间的“距离”，表示一个概率分布相对于另一个概率分布的差异程度，给定任意分布偏离真实分布的程度，能够起到更好的融合作用，示例性的，距离度量信息可采用KL散度。为了进一步提升融合效率，可预先存储特征融合关系式，可通过直接调用特征融合关系式将各第二类图文编码特征与交互对象特征进行融合；特征融合关系式可表示为：

；

式中，f _es为融合图文编码特征，f _e为第二类图文编码特征，f _s为交互对象特征，D _KL(f _e||f _s)表示计算交互对象特征分别与第二类图文编码特征的KL散度。

示例性的，为了便于数据处理，预先将知识库的各事件知识进行向量化表示，得到包含多个事件知识表征的事件知识空间。同样的，将各问题-图像对样本的正确答案-正确事件知识标签进行向量化表示，得到正确事件知识表征和正确答案表征，这样基于当前融合图文编码特征对应的问题-图像样本对的正确答案-正确事件知识标签，便可得到所述当前融合图文编码特征对应的正确事件知识表征。知识推理分支的损失计算过程可包括：对各融合图文编码特征，确定当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性，与事件知识空间的事件知识表征之间的事件参考相似性；根据事件标准相似性及各事件参考相似性，确定当前融合图文编码特征与的各事件知识表征之间的损失信息。

在本实施例中，第二类图文编码特征与其对应的正确答案表征之间的相似性定义为事件标准相似性，第二类图文编码特征与事件知识空间中的各事件知识之间的相似性定义为事件参考相似性。相似性的计算可参阅相关技术中任何一种相似性计算方式，如基于哈希的相似性计算，余弦相似度，这均不影响本申请的实现。为了提高视觉问答模型的训练效率，可预先在本地存储事件相似性计算关系式和知识推理损失函数计算关系式，可直接调用事件相似性计算关系式，计算当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似度；在本实施例中，利用计算关系式计算得到的相似性定义为相似度，相应的，事件参考相似性定义为事件参考相似度，事件标准相似性定义为事件标准相似度，事件相似性计算关系式可表示为：

；

同样的，还可调用上述事件相似性计算关系式计算当前第二类图文编码特征与事件知识空间的各事件知识表征之间的事件参考相似度；该相似性计算关系式为：

；

其中，为事件标准相似度，为事件参考相似度，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，/>表示P _n对应的融合图文编码特征，/>表示正确事件知识表征，/>表示调节参数，/>表示事件知识空间E中的事件知识，/>表示事件知识空间E中的事件知识表征。

相应的，可直接调用知识推理损失函数计算关系式，计算各融合图文编码特征与知识库的各事件知识表征之间的知识推理损失；知识推理损失函数计算关系式可表示为：

；

进一步的，本实施例还提供了一种实际应用过程中所使用的知识推理分支的示例性的网络结构，能够更加简单且高效地实现对事件知识的学习，其可包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层。其中，特征融合层，接收图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将各第二类图文编码特征与交互对象特征进行融合，并将融合图文编码特征发送至事件空间层；事件知识特征表示层从知识库中的各事件知识进行向量化表示，生成对应的事件知识表征，并将各事件知识表征发送至事件特征提取层。事件特征提取层将事件知识特征表示层的各事件知识表征映射至事件空间层；事件特征提取层例如可采用多层感知机，当然也可采用其他能进行映射的网络结构。事件空间层，计算各融合图文编码特征与事件知识空间的各事件知识表征之间的相似性；示例性的，事件空间层可内置事件相似性计算关系式，每当接收到一个融合图文编码特征之后，其可将其与答案空间中的各答案表征进行相似性计算。

由上可知，本实施例利用交互解码器确定场景交互对象的特征信息；然后利用知识推理分支通过图像和问题的组合推理，实现了通过图像、问题和知识的组合推理得到最准确的答案，并且能够给出答案的支撑知识和交互对象的位置，为答案的推理提供一定的可解释性。

上述实施例对如何利用图文编码器对各问题-图像对样本进行图文编码并不做任何限定，本实施例还给出一种示例性的图文编码实现方式，可包括下述内容：

对各问题-图像对样本，将当前问题-图像对样本对应的问题样本进行文本编码，得到文本编码特征；将当前问题-图像对样本对应的图像样本进行图像编码，得到图像编码特征；将文本编码特征和图像编码特征进行特征融合，并将融合生成的图文编码特征输出至交互解码器和推理解码器。

其中，文本编码可以采用任何一种能够实现对文本特征进行编码的网络结构，包括但并不限制于RoBERTa（Robustly Optimized Bidirectional EncoderRepresentations from Transformers，强力优化BERT（基于转换器模型的双向编码器表示））、长短期记忆网络，图像编码器可以采用任何一种能够实现对图像进行编码的网络结构，包括但并不限制于卷积神经网络、残差神经网络101层（ResNet-101），这均不影响本发明的实现。进一步的，文本编码特征和图像编码特征进行特征融合并添加答案输出标识符和事件输出标识符的过程可包括：将文本编码特征和图像编码特征进行特征拼接，例如可调CONCATENATE（连接）函数，将文本编码特征和图像编码特征对应的文字串合并到一个文字串中。对拼接特征进行编码，例如可通过交叉注意力层（CrossAttention）、多头注意力层进行编码处理，然后将拼接特征对应的图文编码特征输出至交互解码器。对于另一路，可将文本编码特征和图像编码特征拼接为输入序列，在输入序列前***答案输出标识符和事件输出标识符，对输入序列进行编码，例如可通过交叉注意力层、多头注意力层进行编码处理，将输入序列对应的图文编码特征输出至推理解码器。推理解码器和交互推理器对图文编码器输出的图文编码特征进行注意力调整，以获得与当前解码位置相关的图文编码器信息。图文编码器将输入序列编码为一系列特征向量，推理解码器和交互推理器根据这些特征向量逐步生成输出序列，使推理解码器和交互推理器能够对当前生成位置的上下文进行有效的建模。

进一步的，本实施例还提供了一种实际应用过程中所使用的图文编码器的示例性的网络结构，能够更加深层次地实现对问题文本特征和图像特征的融合和编码，提升图文编码特征的精度。图文编码器可包括用于输入问题的文本输入端、用于输入图像的图像输入端、用于输入答案输出标识符的答案输出标识符输入端、用于输入事件输出标识符的事件输出标识符输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层；其中，特征拼接层，对图像编码层输出的图像编码特征和文本编码层输出的文本编码特征进行特征拼接；第一交叉注意力层，对特征拼接层输出的拼接特征进行编码处理，并将生成的图文编码特征输入至交互解码器；第二交叉注意力层，对答案输出标识符输入端输入的答案输出标识符、事件输出标识符输入端输入的事件输出标识符、图像编码层输出的图像编码特征和文本编码层输出的文本编码特征进行编码处理，并将生成的图文编码特征输入至推理解码器。

上述实施例对如何利用交互解码器提取交互对象特征并不做任何限定，本实施例给出交互对象特征的一种提取方式，可包括下述内容：

在本实施例中，交互解码器包括交互对象特征提取模型；其中，交互对象特征提取模型，基于接收到的图文编码特征，在对应的图像样本中定位交互对象，并输出交互对象的位置信息及语义信息。

其中，交互对象特征提取模型可为任何一种能够定位交互对象的网络模型结构，包括但并不限制于采用MDETR（Multi-modal Detection with Transformers，多模态目标检测器）模型中预训练好的解码 Transformer（转换器网络）模块，YOLOv5（You Only LookOnce version 5，基于深度学习的目标检测）模型。将接收到的图文编码特征输入至交互解码器的交互对象特征提取模型，交互对象特征提取模型对图文编码特征进行处理，定位交互对象的位置，并输出交互对象的位置信息及语义信息至推理解码器，同时输出标注对象位置的图像。

由上可知，本实施例利用交互对象的位置信息及语义信息辅助知识推理，有利于提升支撑知识学习精度。

可以理解的是，损失函数影响视觉问答模型的精度，为了提升视觉问题模型的性能，提高问答精度和推理精度，基于上述实施例，本实施例还提供了视觉问答模型损失函数，视觉问答模型的总损失函数关系式可表示为：

；

其中，L _r为总损失函数，L _v为交互解码器的交互对象定位损失，N为问题-图像对样本总数，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，表示P _n对应的融合图文编码特征，/>表示正确事件知识表征，/>表示调节参数，表示事件知识空间E中的事件知识，/>表示事件知识空间E中的事件知识表征，a表示答案，/>表示对应的第一类图文编码特征，/>表示正确答案表征， />表示答案空间A中的答案，/>表示答案空间A中的答案表征。

示例性的，交互解码器采用转换器网络结构，相应的，L _v作为交互对象定位的损失函数，其可采用MDETR中的对比学习的损失，L _v的计算方式可选择任何一种相关技术记载的对比学习损失，本实施例不做任何限定。

当训练得到视觉问答模型之后，可利用该视觉问答模型执行基于场景交互的视觉问答任务，请参阅图4及图5，任务执行过程可包括以下内容：

S401：获取待回答问题及对应的目标图像。

S402：将待回答问题及对应的目标图像，输入预先训练好的视觉问答模型。

S403：根据视觉问答模型的输出，得到待回答问题的候选答案、目标交互对象特征和支撑知识，并基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案。

其中，待回答问题为视觉问答任务中的用户提问的问题，目标对象即为用户进行交互的场景。视觉问答模型即是利用上述任意一个实施例所记载的视觉问答模型训练方法实施例所记载的视觉问答模型训练所得，视觉问答模型会将知识库中的各答案进行排序，排序是基于正确答案的概率从高到低进行排序，并输出排名靠前的多个答案作为候选答案，候选答案的个数可根据实际需求如答案精度和答案输出效率进行灵活设置，如100个，50个，1000个，这均不影响本发明的实现。此外，除了输出候选答案，视觉问答模型还可输出支撑答案的目标交互对象特征和至少一个支撑知识。正确答案为视觉问答模型基于语义相似度，利用支撑知识从各候选答案中选择出的最终答案；目标交互对象特征为待回答问题的问答对象对应在目标图像中的特征；进一步的，目标交互对象特征可为目标交互对象的位置信息及语义特征。支撑知识为从知识库中检索到与待回答问题推理过程相关的事件知识表征。事件知识是用于支撑答案推理用的，为了便于描述且不引起歧义，本实施例将视觉问答任务执行过程中输出的相关联的事件知识定义为支撑知识。

由上可知，本实施例能够有效提升基于场景交互任务中的视觉问答精度，让答案更具有可解释性。

上述实施例对如何基于语义相似度的知识增强答案推理的过程，并不做任何限定，本实施例还给出基于语义相似度选择正确答案的实施过程，可包括下述内容：

视觉问答模型的图文编码器对待回答问题及对应的目标图像进行图文编码，输出待处理图文编码特征；视觉问答模型的交互解码器对待处理图文编码特征进行交互对象特征提取，输出目标交互对象特征；视觉问答模型的交互解码器基于待处理图文编码特征在答案空间检索到多个候选答案，在事件知识空间检索到多个相关联的支撑知识；基于各候选答案和各支撑知识的相似性选择正确答案。

在本实施例中，将利用图文编码器对待回答问题及对应的目标图像进行图文编码的结果定义为待处理图文编码特征。其中，候选答案的数量可根据实际应用场景选择，例如可选择100个候选答案，或者是选择50个候选答案，这均不影响本发明的实现。本实施例利用支撑知识辅助选择最优的答案过程为：对各候选答案，计算当前候选答案分别与各支撑知识之间的相似度，基于各相似度与预设相似阈值之间的数值关系确定当前候选答案的分数；将分数最高的候选答案作为正确答案。换言之，本实施例将与支撑知识最相似的答案作为最优的答案。同样的，在计算候选答案与各支撑知识之间的相似性时，可采用任何一种相似性计算方式，如基于哈希的相似度计算、利用sentence（句子）-bert（BidirectionalEncoder Representations from Transformers ，基于转换器模型的双向编码器表示）模型，本发明对此不作任何限定。示例性的，作为一种精度高的相似性计算方法，本实施例可基于 sentence-bert 模型使用孪生网络或三胞胎网络生成句子向量，然后通过余弦相似度计算句子向量的相似性。为了提高候选答案的相似性计算效率，可在本地预先存储答案相似性计算关系式，然后直接调用答案相似性计算关系式计算各候选答案分别与所述支撑知识集中的各支撑知识之间的相似度；答案相似性计算关系式可表示为：

；

式中，M为候选答案a _m分别与支撑知识e _j之间的相似度，α为权重系数，为支撑知识集，sim()表示相似度计算。/>

当计算得到候选答案与各支撑知识的相似度之后，当候选答案和支撑知识的相似度大于等于预先设置的预设相似阈值时，该候选答案的分数在原分数基础上加上一增幅值，作为一种简单的实现方式，该增幅值可直接采用预设相似阈值，而候选答案和支撑知识的相似度小于预先设置的预设相似阈值时，该候选答案的分数不变。示例性的，各候选答案的分数可调用答案分数计算关系式计算各候选答案的分数，答案分数计算关系式可表示为：

；

由上可知，本实施例适用于所有提供知识库的视觉问答任务，利用知识辅助答案推理，使得视觉问答模型能同时推理答案、支撑知识和交互对象，实现了图像、问题和知识库的组合推理，提高了视觉问答模型推理答***性。

需要说明的是，本发明中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1和图4只是一种示意方式，并不代表只能是这样的执行顺序。

最后，基于上述本发明的技术方案，下面结合图6对本发明的技术方案涉及的一些可能的应用场景进行举例介绍，图6为本发明提供的一种视觉问答方法所适用的硬件组成框架示意图，可包括下述内容：

该硬件组成框架可以包括第一电子设备61和第二电子设备62，第一电子设备61和第二电子设备62之间通过网络63连接。第一电子设备61部署用于执行上述任意一实施例所记载的视觉问答模型训练方法的处理器，并基于图7所示的视觉网络模型结构框架训练得到的视觉问答模型，视觉网络模型结构包括图文编码器、推理解码器和交互解码器，推理解码器中的框内为推理阶段的结构，其余为训练阶段的结构。图文编码器包括文本输入端、图像输入端、答案词元输入端、事件词元输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层；其中，图像编码层使用ResNet-101编码图像特征，文本编码层使用RoBERTa模型编码问题文本；将图像特征和文本特征通过调用特征拼接层的拼接函数拼接到一起，作为第一交叉注意力层的输入序列，输出得到输入至交互解码器的图文编码特征。将图像特征和文本特征拼接成输入序列，在输入序列前***两个token（词元）作为相应的标识符，也即[Answer（问题）]和[Event（事件）]，将该序列输入第二交叉注意力层，将输出序列中[Answer]和[Event]对应位置向量作为第一类图文编码特征和第二类图文编码特征，分别输入至推理解码器的答案推理分支和知识推理分支。知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层；特征融合层，接收图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将各第二类图文编码特征与交互对象特征进行融合，并将融合图文编码特征发送至事件空间层；事件空间层，计算各融合图文编码特征与事件知识空间的各事件知识表征之间的相似性；事件特征提取层将事件知识特征表示层的各事件知识表征映射至事件空间层；事件知识特征表示层从事件知识空间中提取得到各事件知识表征，并将各事件知识表征发送至事件特征提取层。答案推理分支包括语义空间层、答案特征提取层、答案特征表示层；其中，语义空间层，接收图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并计算各第一类图文编码特征与各答案表征之间的相似性；答案特征提取层将答案特征表示层的各答案表征映射至语义空间层；答案特征表示层从答案空间提取得到各答案表征，并将各答案表征发送至答案特征提取层。交互解码器包括采用Transformer 的结构学习定位交互对象的位置信息和语义信息。

第一电子设备61将训练好的视觉问答模型发送至第二电子设备62，同时第二电子设备62还部署用于提供人机交互界面的用户端，用户通过人机交互界面输入待处理问题和目标图像，其通过在事件知识空间中检索到相关的事件知识集合，融合答案空间中检索到的答案集合，通过基于事件知识的语义相似度辅助答案推理，从而共同推理出最佳答案。

需要注意的是，上述应用场景仅是为了便于理解本发明的思想和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

由上可知，本实施例利用对象定位分支确定场景交互对象的位置和语义信息；然后利用推理解码器的知识推理分支通过图像和问题的组合推理以及交互对象的语义信息得到相关的事件知识集合，再通过答案检索分支得到排名前100的答案候选集合，最后通过答案候选集合和事件知识集合共同得到最终的问题答案。最终实现通过图像、问题和知识的组合推理得到最准确的答案，并且能够给出答案的支撑知识和交互对象的位置，为答案的推理提供一定的可解释性。

本发明还针对视觉问答及其模型训练方法提供了相应的装置，进一步使得方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明提供的视觉问答模型训练装置及视觉问答装置进行介绍，该装置用以实现本发明提供的视觉问答及其对应的模型训练方法，在本实施例中，视觉问答及模型训练装置及视觉问答装置可以包括或被分割成一个或多个程序模块，该一个或多个程序模块被存储在存储介质中，并由一个或多个处理器所执行，已完成实施例一公开的视觉问答及其模型训练方法。本实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述视觉问答模型训练装置及视觉问答装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能，下文描述的视觉问答模型训练装置及视觉问答装置与上文描述的视觉问答及其对应的模型训练方法可相互对应参照。

基于功能模块的角度，参见图8，图8为本实施例提供的视觉问答模型训练装置在一种具体实施方式下的结构图，该装置可包括：

训练数据获取模块801，用于获取视觉问答训练样本数据集；

模型训练模块802，用于将问题-图像对样本输入至预先构建的视觉问答模型；所述视觉问答模型包括图文编码器、交互解码器和推理解码器；所述图文编码器对问题-图像对样本进行图文编码处理，并将图文编码特征分别输入至所述交互解码器和所述推理解码器；所述交互解码器从接收到的图文编码特征中提取所述交互对象的语义特征，并将提取到的交互对象特征发送至所述推理解码器；所述推理解码器将接收的图文编码特征和交互对象特征进行融合，并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新，直至满足预设模型训练结束条件。

示例性的，在本实施例的一些实施方式中，上述推理解码器包括知识推理分支和答案推理分支，图文编码器的输入还包括答案输出标识符和事件输出标识符，所述答案推理分支接收所述图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新；所述知识推理分支接收所述图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将第二类图文编码特征与所述交互对象特征进行融合，并基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新；其中，所述答案输出标识符用于标识所述图文编码器输入至所述答案推理分支的图文编码特征，所述事件输出标识符用于标识所述图文编码器输入至所述知识推理分支的图文编码特征。

作为上述实施例的一种示例性的实施方式，上述模型训练模块802还可用于：

根据标准相似性及各参考相似性，确定当前第一类图文编码特征与答案空间的各答案表征的损失信息。

调用相似性计算关系式，计算当前第一类图文编码特征与其对应的正确答案表征之间的标准相似度；相似性计算关系式为：

；

作为上述实施例的另一种示例性的实施方式，上述模型训练模块802还可用于：

调用答案推理损失函数计算关系式，计算第一类图文编码特征与从所述知识库中检索到的各答案之间的答案推理损失；答案推理损失函数计算关系式为：

；

作为上述实施例的另一种示例性的实施方式，上述答案推理分支还可包括语义空间层、答案特征提取层、答案特征表示层；

其中，语义空间层，接收图文编码器的答案输出标识符对应位置输出的第一类图文编码特征，并计算各第一类图文编码特征与各答案表征之间的相似性；

答案特征提取层将答案特征表示层的各答案表征映射至语义空间层；

答案特征表示层，将知识库的各答案进行向量化表示，生成相应的答案表征，并将各答案表征发送至所述答案特征提取层。

计算交互对象特征分别与各第二类图文编码特征的距离度量信息，得到初始融合图文编码特征；

将各初始融合图文编码特征与对应的第二类图文编码特征进行特征和相加，得到融合图文编码特征。

调用特征融合关系式，将各第二类图文编码特征与交互对象特征进行融合；特征融合关系式为：

；

确定所述当前融合图文编码特征与所述事件知识空间的事件知识表征之间的事件参考相似性；根据事件标准相似性及各事件参考相似性，确定当前融合图文编码特征与的各事件知识表征之间的损失信息。

调用事件相似性计算关系式，计算当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似度；事件相似性计算关系式为：

；

调用知识推理损失函数计算关系式，计算各融合图文编码特征与知识库的各事件知识表征之间的知识推理损失；知识推理损失函数计算关系式为：

；

作为上述实施例的另一种示例性的实施方式，上述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层；

其中，特征融合层，接收图文编码器的事件输出标识符对应位置输出的第二类图文编码特征，将各第二类图文编码特征与交互对象特征进行融合，并将融合图文编码特征发送至事件空间层；

事件空间层，计算各融合图文编码特征与事件知识空间的各事件知识表征之间的相似性；

事件特征提取层将事件知识特征表示层的各事件知识表征映射至事件空间层；

事件知识特征表示层，将所述知识库中的各事件知识进行向量化表示，生成对应的事件知识表征，并将各事件知识表征发送至所述事件特征提取层。

示例性的，在本实施例的另一些实施方式中，上述模型训练模块802还可进一步用于：

作为上述实施例的一种示例性的实施方式，上述模型训练模块802还可进一步用于：

将文本编码特征和图像编码特征进行特征拼接，对拼接特征进行编码，并将拼接特征对应的图文编码特征输出至交互解码器；

将文本编码特征和图像编码特征拼接为输入序列，在输入序列前***答案输出标识符和事件输出标识符，对输入序列进行编码，将输入序列对应的图文编码特征输出至交互解码器。

示例性的，在本实施例的另一些实施方式中，上述图文编码器包括文本输入端、图像输入端、答案输出标识符输入端、事件输出标识符输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层；

其中，特征拼接层，对图像编码层输出的图像编码特征和文本编码层输出的文本编码特征进行特征拼接；

第一交叉注意力层，对特征拼接层输出的拼接特征进行编码处理；

第二交叉注意力层，对答案输出标识符输入端输入的答案输出标识符、事件输出标识符输入端输入的事件输出标识符、图像编码层输出的图像编码特征和文本编码层输出的文本编码特征进行编码处理。

示例性的，在本实施例的另一些实施方式中，上述交互解码器包括交互对象特征提取模型；

示例性的，在本实施例的另一些实施方式中，上述模型训练模块802还可用于：调用视觉问答模型的总损失函数关系式进行模型训练，总损失函数关系式为：

；

其中，L _r为总损失函数，L _v为交互解码器的交互对象定位损失，N为问题-图像对样本总数，T表示转置，P _n为索引号为n的问题-图像对样本，e表示事件，s表示交互对象，表示P _n对应的融合图文编码特征，/>表示正确事件知识表征，/>表示调节参数，表示事件知识空间E中的事件知识，/>表示事件知识空间E中的事件知识表征，a表示答案，/>表示对应的第一类图文编码特征，/>表示正确答案表征，/>表示答案空间A中的答案，/>表示答案空间A中的答案表征。

基于功能模块的角度，参见图9，图9为本实施例提供的视觉问答装置在一种具体实施方式下的结构图，该装置可包括：

问答数据获取模块901，用于获取待回答问题及对应的目标图像；

答案输出模块902，用于将待回答问题及对应的目标图像，输入至预先利用如上述任一项的视觉问答模型训练方法训练好的视觉问答模型；根据视觉问答模型的输出，得到待回答问题的候选答案、目标交互对象特征和支撑知识，并基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案；其中，目标交互对象特征为待回答问题对应的目标物与目标图像进行场景交互的交互对象在目标图像中的特征；支撑知识为从知识库中检索到与待回答问题推理过程相关的事件知识表征。

示例性的，在本实施例的一些实施方式中，上述答案输出模块902还可用于：

视觉问答模型的图文编码器对待回答问题及对应的目标图像进行图文编码，输出待处理图文编码特征；

视觉问答模型的交互解码器对待处理图文编码特征进行交互对象特征提取，输出目标交互对象特征

视觉问答模型的交互解码器基于待处理图文编码特征在知识库检索到多个候选答案和多个相关联的支撑知识。

作为上述实施例的一种示例性的实施方式，上述答案输出模块902还可进一步用于：

对各候选答案，计算当前候选答案分别与各支撑知识之间的相似度，基于各相似度与预设相似阈值之间的数值关系确定当前候选答案的分数；

将分数最高的候选答案作为正确答案。

调用答案相似性计算关系式，计算各候选答案分别与所述支撑知识集中的各支撑知识之间的相似度；答案相似性计算关系式：

；

作为上述实施例的另一种示例性的实施方式，上述答案输出模块902还可进一步用于：

调用答案分数计算关系式计算各候选答案的分数，答案分数计算关系式为：

；

本实施例上述视觉问答模型训练装置及视觉问答装置的各功能模块的功能可根据上述相应方法实施例中的方法具体实现，其具体实现过程可以参照对应方法实施例的相关描述，此处不再赘述。

由上可知，本实施例可以解决无法满足用户的高精度问答需求和答案可解释需求的问题，能够提升基于场景交互任务中的视觉问答精度，让答案更具有可解释性。

上文中提到的视觉问答模型训练装置及视觉问答装置是从功能模块的角度描述，进一步的，本发明还提供一种电子设备，是从硬件角度描述。图10为本发明实施例提供的电子设备在一种实施方式下的结构示意图。如图10所示，该电子设备包括存储器100，用于存储计算机程序；处理器101，用于执行计算机程序时实现如上述任一实施例提到的视觉问答及其模型训练方法的步骤，也即视觉问答模型训练方法和视觉问答方法。

其中，处理器101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器，处理器101还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable GateArray，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器101可以集成有GPU(Graphics Processing Unit，图形处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器101还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器100可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器100还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。存储器100在一些实施例中可以是电子设备的内部存储单元，例如服务器的硬盘。存储器100在另一些实施例中也可以是电子设备的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器100还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器100不仅可以用于存储安装于电子设备的应用软件及各类数据，例如：执行视觉问答及其模型训练方法过程中的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中，存储器100至少用于存储以下计算机程序1001，其中，该计算机程序被处理器101加载并执行之后，能够实现前述任一实施例公开的视觉问答及其模型训练方法的相关步骤。另外，存储器100所存储的资源还可以包括操作***1002和数据1003等，存储方式可以是短暂存储或者永久存储。其中，操作***1002可以包括Windows、Unix、Linux等。数据1003可以包括但不限于视觉问答及其模型训练结果对应的数据等。

在一些实施例中，上述电子设备还可包括有显示屏102、输入输出接口103、通信接口104或者称为网络接口、电源105以及通信总线106。其中，显示屏102、输入输出接口103比如键盘（Keyboard）属于用户接口，示例性的用户接口还可以包括标准的有线接口、无线接口等。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口104示例性的可以包括有线接口和/或无线接口，如WI-FI接口、蓝牙接口等，通常用于在电子设备与其他电子设备之间建立通信连接。通信总线106可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域技术人员可以理解，图10中示出的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的组件，例如还可包括实现各类功能的传感器107。

本实施例电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

可以理解的是，如果上述实施例中的视觉问答及其模型训练方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器（例如SD或DX存储器等）、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明还提供了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时如上任意一实施例所述视觉问答及其模型训练方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本发明所提供的一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，基于本发明中的实施例，对于本技术领域的普通技术人员来说，在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

Claims

1.一种视觉问答模型训练方法，其特征在于，包括：

2.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述推理解码器包括答案推理分支和知识推理分支；所述图文编码器的输入还包括答案输出标识符和事件输出标识符，所述将接收的图文编码特征和交互对象特征进行融合，并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新，包括：

3.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新，包括：

4.根据权利要求3所述的视觉问答模型训练方法，其特征在于，所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性，包括：

；

其中，为标准相似度，T表示转置，P _n为索引号为n的问题-图像对样本，a表示答案，/>表示P _n对应的第一类图文编码特征，/>表示正确答案表征，/>表示调节参数。

5.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新，包括：

；

6.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层；

7.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述将第二类图文编码特征与所述交互对象特征进行融合，包括：

8.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述将第二类图文编码特征与所述交互对象特征进行融合，包括：

；

9.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新，包括：

10.根据权利要求9所述的视觉问答模型训练方法，其特征在于，所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性，包括：

；

11.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新，包括：

；

12.根据权利要求2所述的视觉问答模型训练方法，其特征在于，所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层；

所述事件知识特征表示层，将所述知识库中的各事件知识进行向量化表示，生成对应的事件知识表征，并将各事件知识表征发送至所述事件特征提取层。

13.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述对问题-图像对样本进行图文编码处理，包括：

14.根据权利要求13所述的视觉问答模型训练方法，其特征在于，所述将所述文本编码特征和所述图像编码特征进行特征融合，并将融合生成的图文编码特征输出至所述交互解码器和所述推理解码器，包括：

将所述文本编码特征和所述图像编码特征进行特征拼接，对拼接特征进行编码，并将所述拼接特征对应的图文编码特征输出至所述交互解码器；

15.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述图文编码器包括文本输入端、图像输入端、答案输出标识符输入端、事件输出标识符输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层；

16.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述交互解码器包括交互对象特征提取模型；

17.根据权利要求1至16任意一项所述的视觉问答模型训练方法，其特征在于，所述视觉问答模型的总损失函数关系式为：

；

18.一种视觉问答方法，其特征在于，包括：

获取待回答问题及对应的目标图像；

将所述待回答问题及对应的目标图像，输入至预先利用权利要求1至17任一项所述的视觉问答模型训练方法训练好的视觉问答模型；

19.根据权利要求18所述的视觉问答方法，其特征在于，所述根据所述视觉问答模型的输出，得到所述待回答问题的候选答案、目标交互对象特征和支撑知识，包括：

20.根据权利要求19所述的视觉问答方法，其特征在于，所述基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案，包括：

将分数最高的候选答案作为正确答案。

21.根据权利要求20所述的视觉问答方法，其特征在于，各支撑知识构成支撑知识集，所述计算当前候选答案分别与各支撑知识之间的相似度，包括：

；

22.根据权利要求20所述的视觉问答方法，其特征在于，所述基于各相似度与预设相似阈值之间的数值关系确定所述当前候选答案的分数，包括：

；

式中，P表示待回答问题-目标图像对，SIM(P，a _m)为待回答问题-目标图像对的候选答案a _m的分数，f(P)为待回答问题-目标图像对的第一类图文编码特征，表示候选答案a _m对应的答案表征，T表示转置，/>表示调节参数，β为预设相似阈值，M为候选答案a _m分别与支撑知识e _j之间的相似度。

23.一种视觉问答模型训练装置，其特征在于，包括：

24.一种视觉问答装置，其特征在于，包括：

答案输出模块，用于将所述待回答问题及对应的目标图像，输入至预先利用权利要求1至17任一项所述的视觉问答模型训练方法训练好的视觉问答模型；根据所述视觉问答模型的输出，得到所述待回答问题的候选答案、目标交互对象特征和支撑知识，并基于各候选答案和各支撑知识之间的相似性，从各候选答案中选择出正确答案；其中，所述目标交互对象特征为所述待回答问题对应的目标物与所述目标图像进行场景交互的交互对象在所述目标图像中的特征；所述支撑知识为从知识库中检索到与所述待回答问题推理过程相关的事件知识表征。

25.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器存储的计算机程序时实现如权利要求1至17任一项所述的视觉问答模型训练方法和/或如权利要求18至22任一项所述的视觉问答方法的步骤。

26.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的视觉问答模型训练方法和/或如权利要求18至22任一项所述的视觉问答方法的步骤。