CN116306681A

CN116306681A - 基于事实场景的可解释性视觉问答模型构建方法与***

Info

Publication number: CN116306681A
Application number: CN202211623149.6A
Authority: CN
Inventors: 蔡林沁; 方豪度; 许诺影; 钱坤阳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-06-23

Abstract

本发明公开了基于事实场景的可解释性视觉问答模型构建方法与***，获取第一数据集与第二数据集；对视觉问答模型进行预训练，获得图像特征提取网络与文本特征提取网络；权重反向传播方法对图像特征提取网络进行处理，获得图像反事实样本；开源机器学习库对文本特征提取网络进行处理，获得文本反事实样本；引入对抗性半事实样本对视觉问答模型进行迭代更新，获得视觉问答预测模型；提取特征数据，通过特征数据对视觉问答预测模型进行验证，获得可解释性视觉问答模型；本发明的有益效果为解决了当前视觉问答研究中存在的模型可解释性不强的问题，使得模型保存关键的因果信息去增强模型的推理能力，更为细粒度地去捕获图像特征和文本特征。

Description

基于事实场景的可解释性视觉问答模型构建方法与***

技术领域

本发明涉及视觉问答技术领域，具体而言，涉及基于事实场景的可解释性视觉问答模型构建方法与***。

背景技术

近年来，计算机视觉和自然语言处理在图像领域和文本领域都取得了长足的发展。两者结合的研究领域为视觉问答领域，视觉问答(Visual Question Answering,VQA)任务的目的是根据给出的图像预测与该图像相关联的问题的答案。受VQA的启发，近年来对医学VQA的探索备受瞩目，医学VQA即是图像和问题的来源均为医学图像和与图像相关的临床医疗问题。最近的研究表明，可解释性决定了预测答***性，并且医学VQA相比于普通领域的VQA，对可解释性的要求更高，因为错误的答案预测可能带来灾难性的后果。

然而，尽管关于神经网络CNN和循环神经网络RNN的可解释性技术已有相关研究，但关于视觉问答领域的可解释性研究很少，尤其是医学图像问答领域。例如，当对于一张医学图像询问“该图像中有什么异常”、“图像中的异常有几处”，对于预测答案应当有可靠的可解释性方法进行验证，这种验证应当基于整体的医学VQA***，而不仅仅是对图像和文本进行一个注意力机制的可视化展示。这种可解释性的方法还没有得到充分的探索，因此，研究医学图像问答领域的可解释性技术是很有必要的。

因果推理可以用于模型的可解释性，当前深度学习模型大多是基于统计模型的数据驱动方式来学习，这种黑盒子的方式虽然可以直接通过数据来学习其隐含的相关性，但是无法对学习后模型输出的结果进行解释。

有鉴于此，特提出本申请。

发明内容

本发明所要解决的技术问题是现有技术中，存在的深度学习模型无法对学习后模型的输出结果进行解释，目的在于提供基于事实场景的可解释性视觉问答模型构建方法与***，能够实现在模型进行深度学习后，能够使得对深度学习输出的结果具有可解释性。

本发明通过下述技术方案实现：

基于事实场景的可解释性视觉问答模型构建方法，方法步骤包括：

获取第一数据集与第二数据集，所述第一数据集为图像-文本对数据集，所述第二数据集为视觉问答数据集；

构建视觉问答模型，并通过所述第一数据集对所述视觉问答模型进行预训练，获得图像特征提取网络与文本特征提取网络；

采用权重反向传播方法对所述图像特征提取网络进行处理，获得图像反事实样本；

采用开源机器学习库对所述文本特征提取网络进行处理，获得文本反事实样本；

引入图像与文本的对抗性半事实样本，并结合所述图像反事实样本以及所述文本反事实样本对所述视觉问答模型进行迭代更新，获得视觉问答预测模型；

提取所述第二数据集中的特征数据，通过所述特征数据对所述视觉问答预测模型进行验证，获得可解释性视觉问答模型。

传统的视觉问答技术领域中，深度学习模型大多是基于统计模型的数据驱动方式来学习，这种黑盒子的方式虽然可以直接通过数据来学习其隐含的相关性，但是无法对学习后模型输出的结果进行解释；本发明提供了一种基于事实场景的可解释性视觉问答模型构建方法，通过权重反向传播以及开源机器学习库分别对相关的网络提取，在将提取的网络对视觉问答模型进行不断更新迭代优化的方式，解决了当前视觉问答研究中存在的模型可解释性不强的问题，使得模型保存关键的因果信息去增强模型的推理能力，更为细粒度地去捕获图像特征和文本特征。

优选地，所述图像特征提取网络与所述文本特征提取网络获得的子步骤包括：

在所述视觉问答模型中，通过ResNet50网络对所述第一数据集中的图像特征进行提取，获得图像特征；

通过GloVe模型将问题文本词进行嵌入，在将嵌入后的模型输入到1024D的LSTM网络中，获得文本特征；

将所述图像特征与所述文本特征均进通过双线性注意网络进行处理，获得图像特征提取网络以及文本特征提取网络。

优选地，所述图像反事实样本获得的子步骤包括：

采用权重反向传播WBP方法对所述图像特征提取网络进行处理，获得因果显著性图；

结合L1范数，将所述因果显著性图中的像素点值近似替换为0，获得所述图像反事实样本。

优选地，所述文本反事实样本子步骤包括：

采用开源机器学习库SHAP对所述文本特征提取网络进行处理，获得与图像相关联的问题文本中每个单词重要性评分；

结合L1范数，将评分最高的单词同意替换为MASK，获得所述文本反事实样本。

优选地，所述预训练具体为：在所述视觉问答模型的梯度计算阶段，通过采用余弦相似度对对称损失函数进行优化。

优选地，所述视觉问答预测模型获得的子步骤包括：

通过原始样本的损失函数、正样本损失函数、反事实样本损失函数以及L1范数对网络层参数求导并沿梯度反向传播使得损失函数值最小，对相关参数不断的进行迭代更新，获得视觉问答预测模型。

优选地，在所述图像-文本对数据集中，图像-文本数据为一张图像与其对应相关的问题与答案所构成的数据，所述图像-文本数据集是为若干图像-文本数据构成的集合。

本发明还提供了基于事实场景的可解释性视觉问答模型构建***，包括数据获取模块、预训练模块、第一处理模块、第二处理模块、迭代更新模块以及验证模块；

所述数据获取模块，用于获取第一数据集与第二数据集，所述第一数据集为图像-文本对数据集，所述第二数据集为视觉问答数据集；

所述预训练模块，用于构建视觉问答模型，并通过所述第一数据集对所述视觉问答模型进行预训练，获得图像特征提取网络与文本特征提取网络；

所述第一处理模块，用于采用权重反向传播方法对所述图像特征提取网络进行处理，获得图像反事实样本；

所述第二处理模块，用于采用开源机器学习库对所述文本特征提取网络进行处理，获得文本反事实样本；

所述迭代更新模块，用于引入图像与文本的对抗性半事实样本，并结合所述图像反事实样本以及所述文本反事实样本对所述视觉问答模型进行迭代更新，获得视觉问答预测模型；

所述验证模块，用于提取所述第二数据集中的特征数据，通过所述特征数据对所述视觉问答预测模型进行验证，获得可解释性视觉问答模型。

优选地，所述预训练模块包括图像特征提取模块、文本特征提取模块以及网络处理模块，

所述图像特征提取模块，用于在所述视觉问答模型中，通过ResNet50网络对所述第一数据集中的图像特征进行提取，获得图像特征；

所述文本特征提取模块，用于通过GloVe模型将问题文本词进行嵌入，在将嵌入后的模型输入到1024D的LSTM网络中，获得文本特征；

所述网络处理模块，用于将所述图像特征与所述文本特征均进通过双线性注意网络进行处理，获得图像特征提取网络以及文本特征提取网络。

本发明还提供了一种计算机存储介质，其上存储有计算程序，该计算机程序被处理器执行时，实现如上所述的方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明实施例提供的一种基于事实场景的可解释性视觉问答模型构建方法与***，通过权重反向传播以及开源机器学习库分别对相关的网络提取，在将提取的网络对视觉问答模型进行不断更新迭代优化的方式，解决了当前视觉问答研究中存在的模型可解释性不强的问题，使得模型保存关键的因果信息去增强模型的推理能力，更为细粒度地去捕获图像特征和文本特征。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为构建方法流程示意图；

图2为视觉问答模型框架图；

图3为基于事实场景的因果推理干预策略；

图4为在基准数据集上的可解释性推理效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本本发明。在其他实施例中，为了避免混淆本本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例一

传统的视觉问答技术领域中，深度学习模型大多是基于统计模型的数据驱动方式来学习，这种黑盒子的方式虽然可以直接通过数据来学习其隐含的相关性，但是无法对学习后模型输出的结果进行解释。

本实施例公开了一种基于事实场景的可解释性视觉问答模型构建方法，通过权重反向传播以及开源机器学习库分别对相关的网络提取，在将提取的网络对视觉问答模型进行不断更新迭代优化的方式，解决了当前视觉问答研究中存在的模型可解释性不强的问题，使得模型保存关键的因果信息去增强模型的推理能力，更为细粒度地去捕获图像特征和文本特征，本实施例构建方法的流程示意图如图1所示，方法步骤包括：

S1：获取第一数据集与第二数据集，所述第一数据集为图像-文本对数据集，所述第二数据集为视觉问答数据集；在所述图像-文本对数据集中，图像-文本数据为一张图像与其对应相关的问题与答案所构成的数据，所述图像-文本数据集是为若干图像-文本数据构成的集合；本实施例以获取的医学图像视觉问答模型为列。

S2：构建视觉问答模型，并通过所述第一数据集对所述视觉问答模型进行预训练，获得图像特征提取网络与文本特征提取网络；

所述图像特征提取网络与所述文本特征提取网络获得的子步骤包括：在所述视觉问答模型中，通过ResNet50网络对所述第一数据集中的图像特征进行提取，获得图像特征；通过GloVe模型将问题文本词进行嵌入，在将嵌入后的模型输入到1024D的LSTM网络中，获得文本特征；将所述图像特征与所述文本特征均进通过双线性注意网络进行处理，获得图像特征提取网络以及文本特征提取网络。所述预训练具体为：在所述视觉问答模型的梯度计算阶段，通过采用余弦相似度对对称损失函数进行优化。

医学图像送入模型后，首先会进入ResNet50网络进行图像特征提取，问题文本被GloVe模型进行词嵌入后，每个单词向量大小为300维。送入1024D的LSTM网络中生成问题文本特征，带有遗忘门的LSTM单元的前向传播方程为：

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

i_t＝(W_ixx_t+W_ihh_t-1+b_i)

o_t＝σ(W_oxx_t+W_ohh_t-1b_o)

h_t＝o_t⊙σ(c_t)

其中f_t，i_t，o_t分别为控制状态的遗忘门、输入门和输出门。W和b为三个门的权重偏置，c_t为LSTM的单元状态。

对于特征融合，本发明利用双线性注意网络来融合视觉信息和语言信息，融合后特征的联合表示为：

其中U和V为线性嵌入，p为可学习的映射向量，对于视觉问答模型，总体框架如图2所示。

S3：采用权重反向传播方法对所述图像特征提取网络进行处理，获得图像反事实样本；

所述图像反事实样本获得的子步骤包括：采用权重反向传播WBP方法对所述图像特征提取网络进行处理，获得因果显著性图；结合L1范数，将所述因果显著性图中的像素点值近似替换为0，获得所述图像反事实样本。

具体过程为：设计一个因果干预策略，在模型训练中产生反事实因果样例来加强因果相关性。给定图像输入x，答案标签为y＝m的因果显著性映射s_m(x)，其中n＝1,.＝1，...，..,M,M为类数，因果干预是将s_m(x)中所包含的x中的因果信息去除(显著像素值替换为零)，然后将其作为图像模态的反事实因果样例；给定问题文本输入t，答案标签为y＝m的因果显著性映射s_m(t)，因果干预是将s_m(t)中所包含的t中的因果信息去除(显著单词替换为[MASK])，然后将其作为文本模态的反事实因果样例标签现在。

为了生成原始图片像素空间中的显著性映射，为决策驱动特征提供信息，以下描述权重反向传播，这是一种适用于任意神经体系结构的新型高效计算显著性映射方案，可以评估每个像素对最终类特定预测的贡献。

考虑一个向量输入和线性映射，设x^l为第l层数据的内部表示形式，则l＝0为输入层，即x⁰＝x，l＝L为softmax转换之前的倒数第二个logit层，即

为了赋予第l层中每个隐藏单元的相对重要性，在符号上将l之后的所有变换分解为一个用/>

表示的算子，称之为显著性矩阵，满足：/>

其中x^L是一个M维向量，对应于y中的M个不同的类。尽管以一种矩阵形式表示，使用了轻微的滥用符号，例如，算子

的实例化有效地依赖于输入x，因此所有非线性都被有效地吸收到其中。对于一个与给定标签y＝m相关的对象，其因果特征包含在/>

的第m行与输入x之间的相互作用中，即:

其中s_m(x)_k表示显著性映射s_m(x)的第k个元素，/>

是/>

的单个元素。计算/>

的一个关键观察是它可以递归地完成。具体来说，设g_l(x^l)为第l层的变换，如仿射变换、卷积、激活函数、归一化等，则有：/>

这意味着可以通过如下方式递归计算

其中G(·)为更新规则。表一中列出了深层网络中常见转换的更新规则。

在本实施例中：对该图像遮挡操作进行限制，使得替换部分的局部图像(即影响模型输出的图像因果部分)尽可能小。任何满足因果关系的因果显著图，不管遮挡部位的大小，都是有效遮挡的因果显著图，遮挡图像的全部和只遮挡病灶部位，实际上都是覆盖掉了因果关系，这对模型的可解释性是不利的。为了避免这种情况，利用L1范数，鼓励每张图像的因果部分只占整个图像的很少一部分。

S4：采用开源机器学习库对所述文本特征提取网络进行处理，获得文本反事实样本；

所述文本反事实样本子步骤包括：采用开源机器学习库SHAP对所述文本特征提取网络进行处理，获得与图像相关联的问题文本中每个单词重要性评分；结合L1范数，将评分最高的单词同意替换为MASK，获得所述文本反事实样本。

生成原始为问题文本中的显著性映射，SHapleySHAP，它是一个通用性模型可解释性框架。它是受到游戏博弈理论的启发，被提出和创建的。经典的方法包括Shapleyregression values，Shapley sampling values。Shapley regression values在计算特征贡献的时候会在特征子集上重新训练模型。对于特征i，首先产生所有包含i和去除i的特征集合，然后重新训练并计算预测结果，以此计算特征i的贡献的平均：

Shapley sampling values避免了重复训练新模型的过程，通过抽样对上述公式做近似。而Quantitative Input Influence是一个更广义的算法解释框架，其中特征贡献的部分仍是通过抽样来近似得到Shapley values。指定解释模型为：

其中，g是解释模型，z'∈{0,1}^M是联合向量，M是向量的最大长度。/>

就是特征j的贡献(Shapley values)，联合向量表征了选定的数据点有哪些特征组合，0代表不包含特征，1代表包含特征。

本实施例中，Step2和Step3还包括：为了从图片输入x_i和问题文本输入t_i中去除因果信息并获得反事实样本

和/>

本方法应用了以下遮挡方式：/>

其中T()为masking function遮挡函数：/>

其中ω,ω，σ＞0为门限和缩放参数，简单来说即是控制遮挡的范围和像素值的参数。并定义如下目标函数：

其中f_θ为预测模型，/>

为需要优化的反事实样本损失函数，/>

为文本向量的文本反事实样本即向量中评分最高的元素替换为0，/>

表示类标签的翻转，即l(x,t,y；f_θ)＝-l(x,t,y；f_θ)。

同时需要注意，上述目标函数可能导致退化解，即任何满足因果关系的因果显著图，不管遮挡面积大小，都是有效遮挡的因果显著图，遮挡图像全部和只遮挡病灶部位，实际上都是把因果关系覆盖掉了，这对模型的可解释性是不利的。为了避免这种情况，利用L1范数，鼓励每张图像的因果部分只占整个图像的很少一部分：L_reg＝||s(·)||₁。

S5：引入图像与文本的对抗性半事实样本，并结合所述图像反事实样本以及所述文本反事实样本对所述视觉问答模型进行迭代更新，获得视觉问答预测模型；

所述视觉问答预测模型获得的子步骤包括：通过原始样本的损失函数、正样本损失函数、反事实样本损失函数以及L1范数对网络层参数求导并沿梯度反向传播使得损失函数值最小，对相关参数不断的进行迭代更新，获得视觉问答预测模型。

为了避免干预策略本身带来的干扰，即模型不是学习捕获因果相关性，而是学习预测给它的干预操作(遮挡图片)。例如，当模型检测到输入被打码时，它可以学会改变预测，而不管图像是否缺少因果特征，这可能会对判别结果产生影响。因此，引入对抗性对照组，对图像和问题进行非因果关联部分的随机遮挡，得到半事实样本x_i'和t_i'，x’_i＝x_i-T(s_m(x_j))⊙x_i,i≠j

如图3所示，根据因果关系的假设，经过因果干预后得到的反事实样本会预测到错误的答案，原始输入的事实样本和半事实样本会预测到正确答案，通过不同的损失函数对网络层参数求导并沿梯度反向传播使得损失函数值最小，进行参数更新，同时通过权重反向传播技术得到的因果显著图会随着训练的加深逐步变得更加准确，这即是模型训练过程中的解释。

本实施例中，所述损失函数具体包括四个损失函数，即原始样本分类的损失函数、正样本分类的损失函数、反事实样本分类的损失函数以及S2中的L1范数函数，需要注意的是反事实样本的损失函数应当为负值，因为反事实样本的分类是因果干预的结果，不能划分到正确的类别。半事实样本的目标函数为：

原始样本的目标函数为：/>

总的目标函数为：L＝L_Cls-L_Neg+L_reg+L_Pos，至此通过总的目标函数进行模型的参数的优化，可以帮助模型捕捉样本中的因果关系，并使模型具有更强的可解释性。

S6：提取所述第二数据集中的特征数据，通过所述特征数据对所述视觉问答预测模型进行验证，获得可解释性视觉问答模型。

本实施例中，具体如图4所示，本方法对于模型的可解释性也有提升。在图4中，使用可视化技术描述了测试过程，以揭示提出的方法的可解释性。首先比较两种特定问题模式的答案分布，然后使用特征映射在测试输入上显示最重要的区域。

在图4的第一行中，本方法显示了对问题模式“is there an abnormal”捕捉因果关系的能力。这是一个有“是”或“否”候选答案的封闭式问题，而列车集中的大多数封闭式问题的答案都是“否”。对于来自VQA-RAD的测试输入，肩关节骨密度有异常(红色矩形)，由于分布不平衡，基线方法几乎总是回答“否”，而本专利提出的方法输出约80％的“是”。本发明方法似乎是通过准确定位正确的区域来推断肩膀的骨密度异常，而基线模型由于没有在图像中看到异常区域而得到错误的答案。这种不令人满意的表现可能是由于语言偏差。

进一步的，在图4的第二行中，“CT扫描中有什么异常？”这一题型也出现了类似的情况。训练集中超过50％的答案是“囊性畸胎瘤”，只有10％的答案是“结肠癌”。对于来自SLAKE的测试输入，在结肠区域有肿瘤异常，本发明方法通过捕捉模型的因果部分准确地识别了病变。然而，基线模型得到的病变是错误的。在答案预测上，基线模型似乎只从训练集的答案分布中得出了“囊性畸胎瘤”，而本专利提出的方法根据正确的病变推断出了正确的答案“结肠癌”，尽管训练集中“结肠癌”的分布较低。这两个例子证明了本发明方法对各种Med-VQA数据集是有效的，尤其是对语言偏差的Med-VQA数据集。

事实场景是人们在对周遭发生的事件进行因果推理，常常会产生“如果改变某种条件，那么结果就不会发生(if…then…)”或“即使不改变某种条件，结果也会发生(but…for…)”的思维过程，这种对于已经发生的事件进行否定而构建另外一种可能性假设的思维活动，被称为反事实(Counterfactual)思维。反事实(Counterfactual)一词可以抽象地解释为某事件在不同条件下可能发生不同的结果，对应的还有半事实(Semi-factual)和事实(Factual)，表4.1以银行借贷的事例形象地解释这三种情况。

本实施例公开的一种基于事实场景的可解释性视觉问答模型构建方法，解决了当前视觉问答研究中存在的模型可解释性不强的问题，使得模型保存关键的因果信息去增强模型的推理能力，更为细粒度地去捕获图像特征和文本特征。在实施例中，以基准数据集VQA-RAD和SLAKE对模型进行测试，本发明的模型取得了有竞争力的结果，尤其在开放型问题方面取得了很好的结果，并且模型的可解释性也适用于其他的领域的视觉问答模型。

实施例二

本实施例公开了基于事实场景的可解释性视觉问答模型构建***，本实施例是为了实现如实施例一中的构建方法，包括数据获取模块、预训练模块、第一处理模块、第二处理模块、迭代更新模块以及验证模块；

所述预训练模块包括图像特征提取模块、文本特征提取模块以及网络处理模块，

实施例三

本实施例公开了一种基于可解释性的视觉问答模型构建***，其上存储有计算程序，该计算机程序被处理器执行时，实现如实施例一所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序发布指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序发布指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的发布指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序发布指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的发布指令产生包括发布指令装置的制造品，该发布指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序发布指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的发布指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于事实场景的可解释性视觉问答模型构建方法，其特征在于，方法步骤包括：

2.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，所述图像特征提取网络与所述文本特征提取网络获得的子步骤包括：

3.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，所述图像反事实样本获得的子步骤包括：

4.根据权利要求3所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，所述文本反事实样本子步骤包括：

5.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，所述预训练具体为：在所述视觉问答模型的梯度计算阶段，通过采用余弦相似度对对称损失函数进行优化。

6.根据权利要求1所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，所述视觉问答预测模型获得的子步骤包括：

7.根据权利要求1～6任一所述的基于事实场景的可解释性视觉问答模型构建方法，其特征在于，在所述图像-文本对数据集中，图像-文本数据为一张图像与其对应相关的问题与答案所构成的数据，所述图像-文本数据集是为若干图像-文本数据构成的集合。

8.基于事实场景的可解释性视觉问答模型构建***，其特征在于，包括数据获取模块、预训练模块、第一处理模块、第二处理模块、迭代更新模块以及验证模块；

9.根据权利要求8所述的基于事实场景的可解释性视觉问答模型构建***，其特征在于，所述预训练模块包括图像特征提取模块、文本特征提取模块以及网络处理模块，

10.一种计算机存储介质，其上存储有计算程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1～8任一所述的方法。