CN113779298B

CN113779298B - 一种基于复合损失的医学视觉问答方法

Info

Publication number: CN113779298B
Application number: CN202111085818.4A
Authority: CN
Inventors: 潘海为; 何舒宁; 张可佳; 陈春伶; 史坤
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-10-31
Anticipated expiration: 2041-09-16
Also published as: CN113779298A

Abstract

本发明属于医学影像和人工智能交叉技术领域，具体涉及一种基于复合损失的医学视觉问答方法。本发明针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题，在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联，并采用分类损失和图像问题互补损失共同训练整个模型，补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题，实现了多角度对问题的关注，从而提高医学视觉问答方法的有效性。本发明可以有效解决医学视觉问答任务。

Description

一种基于复合损失的医学视觉问答方法

技术领域

本发明属于医学影像和人工智能交叉技术领域，具体涉及一种基于复合损失的医学视觉问答方法。

背景技术

视觉问答随着人工智能的发展，已经成为目前的热门研究内容之一。它是一项需要广泛考虑计算机视觉和自然语言处理这两个主要研究领域的多模态挑战性任务。视觉问答目前最常见的应用是可以便捷得帮助视障人士在虚拟世界或现实世界中获取更多的信息，这将大大提高他们的生活质量。随着智慧医疗的不断发展，基于专业医学领域的视觉问答任务逐渐被大众所熟知。给定一张医学图像和相应的文本问题，即可预测正确的答案。医学视觉问答更加突出图像和文本的专业性，既要深刻理解医学图像的丰富内容，又要精确探索临床问题的复杂语义。该任务对于医生而言可以辅助他们进行诊断，提前对病症进行回答和预判进而大大减少误诊漏诊的概率，提高准确性的同时也能减少诊疗时间提高效率。对于患者而言，遇到棘手的问题和症状即可马上获取参***第一时间对病情进行判断和预防。

然而，目前基于医学视觉问答任务的研究非常有限。一方面，专业医学术语的概念较为复杂，对临床文本的理解存在挑战。另一方面是由于医学影像的成像原理复杂，与自然图像不同，医学图像中的信息大多具有潜在价值，某些细微变化可能就是病变位置所在。虽然大多数的深度学习方法在医学图像分析中效果显著，但目前的医学视觉问答数据集缺乏大规模标记训练数据。如果利用迁移学习将在通用视觉问答数据集上训练好的深度学习模型转移到医学视觉问答任务上并用少量医学图像进行微调，由于自然图像和医学图像之间的差异性，最终的实现效果并不好。并且，若单独对文本的语义和图像的视觉进行建模并不能满足多模态任务的需求，图像和问题之间也存在相关性，二者间的联系更为重要。

发明内容

本发明的目的在于针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题，提供一种基于复合损失的医学视觉问答方法，可以有效地挖掘文本信息，实现多角度对问题的关注，从而提高医学视觉问答方法的有效性。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：获取医学视觉问答数据集，针对视觉和文本两种模态，提取医学图像特征v和问题的特征；

步骤2：将步骤1得到的图像特征和问题特征馈送到多视角注意力机制，该机制包括图像对问题注意力机制和词对文本注意力机制，在图像对问题注意力机制中得到图像对问题的注意力权重以及在视觉指导下的文本特征Q_m，在词对文本注意力机制中得到单词对问题的注意力权重a_q；

步骤3：将视觉指导下的文本特征Q_m和图像特征v分别传入多模态融合模型，输出融合后的多模态特征M^cl、M^op；

其中，F表示多模态特征融合，采用双线性注意力网络来学习图像和问题的联合表示，下标θ表示特征融合时的可训练参数；cl和op分别表示封闭式问答对和开放式问答对；

步骤4：将开放式问答对和封闭式问答对的多模态特征M^cl和M^op分别传入由两层MLP组成的分类模型中，从而获取候选答案的概率；将候选答案集中概率最大的答案作为最终预测输出y^cl和y^op；在模型训练过程中，使用二元交叉熵损失L_c和图像问题互补损失L_mq构成的复合损失模块联合优化模型：

Loss＝L_c+γL_mq

其中，BCE(.)表示二元交叉熵损失函数；表示预测答案；y表示真实答案；γ是超参数；

步骤5：获取待答复的医学视觉问题，执行步骤1至步骤3提取融合后的多模态特征M^cl、M^op后，输入至训练好的分类模型中，取候选答案集中概率最大的答案作为输出。

本发明还可以包括：

所述的步骤1中提取医学图像特征的方法具体为：采用模型不可知元学***均池化层组成，每个卷积层包含64个过滤器和一个非线性层；卷积降噪自编码器是一系列卷积层和最大池化层的组合；医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征，将它们串联起来，得到最终的医学图像特征，图像的特征表示为d_k＝128表示图像特征的维度。

所述的步骤1中提取问题特征的方法具体为：每个问题都统一成一个由n个单词组成的句子，若问题的长度超过n，则将超过的部分删除；若问题由少于n个单词组成，则对其补零直至长度为n；首先，问题中的每个单词由300维GloVe词嵌入表示为d_h＝300表示每个词嵌入的维度；然后将词嵌入表示送入门控循环单元网络以编码问题嵌入/>d_s＝1024是门控循环单元网络中每个隐藏状态的维度。

所述的步骤2中词对文本注意力机制具体为：

步骤2.1.1：将词嵌入表示D和问题嵌入表示Q连接起来以获得Q_c；

Q_c＝[D||Q]

其中，||表示特征维度的串联；

步骤2.1.2：利用词嵌入的上下文无关和问题嵌入的上下文有关的特点，使用sigmoid激活函数作为选择机制控制输出，从而获得过滤掉无用噪声的问题表示

其中：tanh(.)为门控双曲正切激活函数；σ(.)为sigmoid激活函数；是学习权重；⊙是哈达玛乘积；

步骤2.1.3：在语义级别上获得问题的重要性权重a_q∈R^n*1；

其中，是学习权重。

所述的步骤2中图像对问题注意力机制具体为：

步骤2.2.1：利用注意力权重来准确挖掘图像与问题的关联程度；

a_m＝softmax(Q^TMLP(v))

其中，a_m∈R^n*1是问答对中图像对问题的n个单词赋予的权重分布，a_m中的每个元素对应于单词和图像之间的相关程度，元素的值越大，说明相关性越高；MLP(.)是一个多层感知器，用于对齐Q和v之间的维度；

步骤2.2.2：将视觉指导下的问题重要性权重矩阵a_m作用于步骤1获得的问题嵌入Q上，得到视觉指导下的文本特征Q_m；

Q_m＝a_m ^T⊙Q。

本发明的有益效果在于：

本发明针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题，在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联，并采用分类损失和图像问题互补损失共同训练整个模型，补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题，实现了多角度对问题的关注，从而提高医学视觉问答方法的有效性。本发明可以有效解决医学视觉问答任务。

附图说明

图1是本发明的总体框架图。

图2是本发明实验中在VQA-RAD测试集下的不同医学视觉问答方法的准确率对比表。

图3是本发明方法的消融实验分析表。

图4是本发明的可视化评估图。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1，本发明实现步骤如下：

步骤一：针对视觉和文本两种模态，利用不同的方法提取医学图像和问题的特征。

提取医学图像特征的方法克服了标记数据的局限性，主要采用模型不可知元学***均池化层组成。每个卷积层包含64个过滤器和一个非线性层。卷积降噪自编码器是一系列卷积层和最大池化层的组合。医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征，将它们串联起来即可得到最终的医学图像特征。图像的特征表示为d_k＝128表示图像特征的维度。

在提取问题特征时，每个问题都统一成一个由n个单词组成的句子。若问题的长度超过n，则将超过的部分删除；若问题由少于n个单词组成，则对其补零直至长度为n。首先，问题中的每个单词由300维GloVe词嵌入表示为d_h＝300表示每个词嵌入的维度。然后将词嵌入表示送入门控循环单元网络以编码问题嵌入/>d_s＝1024是门控循环单元网络中每个隐藏状态的维度。

以上内容分别针对医学图像和文本问题的模态特点使用不同的特征提取方法得到图像特征和问题特征。

步骤二：将步骤一得到的图像特征和问题特征馈送到多视角注意力机制，该机制包括图像对问题注意力机制和词对文本注意力机制。在图像对问题注意力机制中得到图像对问题的注意力权重以及在视觉指导下的文本特征，在词对文本注意力机制中得到单词对问题的注意力权重。通过多视角注意力机制可以更好地分析问题，为获得准确答案做好充足的准备。

词对文本注意力机制：步骤一得到的问题表征Q忽略了对于不同词的重要程度的判断。因此为了强调问题中的关键词语，该方法使用了词对文本的注意力机制。利用步骤一在提取问题特征时得到的词嵌入表示和问题特征表示，充分发挥二者的优势，为问题中的每个词分配权重，此过程与人脑的关注过程是一致的。该机制从语义层面获取问题的重要性。首先，将词嵌入表示D和问题嵌入表示Q连接起来以获得Q_c：

Q_c＝[D||Q] (1)

式中：||表示特征维度的串联，

然后利用词嵌入的上下文无关和问题嵌入的上下文有关的特点，使用sigmoid激活函数作为选择机制控制输出，从而获得过滤掉无用噪声的问题表示

式中：tanh(.)和σ(.)是激活函数分别称为门控双曲正切和sigmoid；是学习权重；⊙是哈达玛乘积。

最后，在语义级别上获得了问题的重要性权重a_q∈R^n*1：

式中：是学习权重。

图像对问题注意力机制：通过引入该机制来建立视觉和文本这两种模式之间的关系，从视觉的角度观察问题挖掘有效的信息。图像为问题中的词赋予重要性权重，在视觉的指导下找到具有重要意义的词。利用注意力权重来准确挖掘图像与问题的关联程度：

a_m＝softmax(Q^TMLP(v)) (4)

式中：MLP(.)是一个多层感知器，用于对齐Q和v之间的维度；a_m∈R^n*1是问答对中图像对问题的n个单词赋予的权重分布。a_m中的每个元素对应于单词和图像之间的相关程度。元素的值越大，说明相关性越高。

得到在视觉指导下的问题重要性权重矩阵a_m后，将a_m作用于步骤一获得的问题嵌入Q上。最后，图像对问题注意力机制重新得到了融合图像特征的问题嵌入Q_m：

Q_m＝a_m ^T⊙Q (5)

式中：⊙是哈达玛乘积；Q_m是视觉指导下学习的文本特征。

此时，问题嵌入不仅包括文本语义层级的单模态特征，还增加了图像层级的特征。这两种模式的特征通过图像对问题注意力机制能够准确判断视觉到文本的细粒度关系。该机制根据图像与每个问题中单词的相关程度，为文本分配不同的重要性权重。

步骤三：多视图注意力机制的输出传递给复合损失。为了使得预测正确答***性更高，复合损失由分类损失和图像问题互补损失组成，共同训练模型。分类损失用于在多模态特征融合后准确预测答案分布，图像问题互补损失用于提高文本和视觉跨模态特征之间的相似性，最小化单词和图像对问题学习的重要性差异。

分类损失：在获得视觉指导的文本特征后，根据答案类型将问答对划分为开放式和封闭式，分别比较不同类型问答对的准确率。将两种类型的问题表示Q_m和图像特征v分别传入通用的多模态融合模型，输出融合后的多模态特征：

(6),(7)式中：F是一种多模态特征融合表示方法，采用双线性注意力网络来学习图像和问题的联合表示；θ是特征融合时的可训练参数；cl和op分别表示封闭式问答对和开放式问答对。

为了预测最佳答案，本方法将开放式问答对和封闭式问答对的多模态特征M^cl和M^op分别传入由两层MLP组成的分类器中，从而获取候选答案的概率。将候选答案集中概率最大的答案作为最终预测输出y^cl和y^op。此阶段，在训练过程中使用二元交叉熵损失L_c：

式中：BCE(.)表示二元交叉熵损失函数；是预测答案；y是真实答案；cl和op分别代表封闭式问答对和开放式问答对。

图像问题互补损失：在模型训练过程中，为了提高视觉-文本跨模态特征之间的相似度，使得单词对问题学习的重要性与视觉指导下对问题学习的重要性之间的差异最小化。该方法利用词对文本注意力机制获得的学习权重a_m和图像对问题注意力机制产生的注意力权重a_q定义图像问题互补损失L_mq共同指导问题重要性的学习：

由上述的分类损失和图像问题互补损失构成的复合损失模块用于联合优化模型：

Loss＝L_c+γL_mq (10)

式中：γ是超参数。

与现有技术相比，本发明的有益效果是：本发明的核心技术内容在于提出一种基于复合损失的医学视觉问答方法，在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联，并采用分类损失和图像问题互补损失共同训练整个模型。补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题，实现了多角度对问题的关注。

本发明提供的方法通过实验验证了本发明提出的基于复合损失的医学视觉问答方法能够多角度关注问题并有效挖掘文本信息。方法的实现对目前医学视觉问答的应用有重要意义。

实验平台：所有实验均在GTX 1080ti GPU的服务器上实现，使用Python编程语言在PyCharm软件上进行实验，编程时利用的深度学习框架是pytorch。

(1)实验参数

步骤一中获取问题特征时问题的长度n取值为12，即每个问题都由12个单词组成。依次使用GloVe方法和门控循环单元网络分别获得词嵌入表示和问题特征。其中，门控循环单元网络的隐藏层具有1024维。在实验中，使用Adamax优化器和0.005的学习率进行训练，批量大小设定为64。

(2)实验内容

实验1：数据集介绍。

VQA-RAD数据集是医学视觉问答领域第一个手动构建的有关放射学图像的自然问题并提供参***的数据集。放射学图像共315幅并均匀分布在头部、胸部和腹部这三个部位中。根据不同的问题类型将问题分为11类，其中包括位置、尺寸等。问答对按照答案类型分为开放式问答对和封闭式问答对。一般具有选择性质的问题称之为封闭式问答对，否则称之为开放式问答对。该数据集可以划分成训练集和测试集，分别包含3064和451个问答对。

实验2：在医学视觉问答数据集VQA-RAD的测试集中实验了不同医学视觉问答方法的效果，准确率对比图如图2所示。

实验结果：如图2所示，本发明提出的方法在VQA-RAD数据集较现有的其他方法有一定的改善。我们的方法准确率在开放式问答对、封闭式问答对和整体问答对上都比其他方法更优越。与对比方法中效果最好的Med-VQA方法相比，三种问答对类型的准确率都平均提高了约3％。

分析：我们的方法不仅仅只对单模态进行建模，模态间的关系也被有效的挖掘出来。从实验结果中表明，利用文本和视觉之间的关系在问题和图像间建立注意力机制可以更好地理解问题和图像的潜在含义找到匹配于图像的关键词，进而使得预测的答案准确率更高更稳定，证明了方法的有效性。

实验3：对本发明所提出的方法的每个组件进行消融研究如图3所示。

实验结果：如图3所示，图像对问题注意力机制组件和图像问题互补损失组件在VQA-RAD数据集上进行评估。实验结果表明组件之间的协作优于其中任何一个组件单独工作，但都优于基线方法。

分析：使用注意力机制可以发掘问答对中图像和问题之间的密切联系。图像问题互补损失进一步提高了视觉和文本之间的相似性，使得词和图像对问题的学习之间的差异最小化。二者共同作用达到了最好的效果。

实验4：对本发明在复合损失中的超参数γ最佳取值的分析。

实验结果：复合损失中的超参数γ设置不同的取值在开放式问答对、封闭式问答对和总体问答对上的评估。方法的性能随着γ取值的变化而变化。当γ为1.6时，三种类型的精度尤为突出，可以得到的最好结果。

分析：与γ为0时的准确率比较，开放式问答对、封闭式问答对和整体问答对的准确率都有所提升，可以再次证明图像问题互补损失对本发明所提出的方法具有显着影响。

实验5：本发明方法的可视化评价,如图4所示。

实验结果：如图4所示，本发明所提出的方法通常可以准确地找到视觉问答任务中涉及的视觉信息和文本关键词。

分析：本发明所提出来的方法可以对大多数的图像和问题预测出正确的答案。根据多视角注意力机制和复杂损失对本发明方法的共同作用可以正确定位图像中的关键位置以及问题中的关键词，最终根据定位的图像区域和单词预测出正确答案。

综上所述，本发明提出的一种基于复合损失的医学视觉问答方法可以有效解决医学视觉问答任务。不仅仅只提取图像和问题特征，还利用多视角注意力机制探索单词和图像对问题的潜在影响，从而有效利用图像和文本间的语义关系挖掘文本的重要信息并使用复合损失来训练模型优化本发明的方法，最终提高了医学视觉问答任务的准确率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复合损失的医学视觉问答方法，其特征在于，包括以下步骤：

步骤4：将开放式问答对和封闭式问答对的多模态特征和/>分别传入由两层MLP组成的分类模型中，从而获取候选答案的概率；将候选答案集中概率最大的答案作为最终预测输出/>和/>在模型训练过程中，使用二元交叉熵损失L_c和图像问题互补损失L_mq构成的复合损失模块联合优化模型：

Loss＝L_c+γL_mq

2.根据权利要求1所述的一种基于复合损失的医学视觉问答方法，其特征在于：所述的步骤1中提取医学图像特征的方法具体为：采用模型不可知元学***均池化层组成，每个卷积层包含64个过滤器和一个非线性层；卷积降噪自编码器是一系列卷积层和最大池化层的组合；医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征，将它们串联起来，得到最终的医学图像特征，图像的特征表示为d_k＝128表示图像特征的维度。

3.根据权利要求1或2所述的一种基于复合损失的医学视觉问答方法，其特征在于：所述的步骤1中提取问题特征的方法具体为：每个问题都统一成一个由n个单词组成的句子，若问题的长度超过n，则将超过的部分删除；若问题由少于n个单词组成，则对其补零直至长度为n；首先，问题中的每个单词由300维GloVe词嵌入表示为d_h＝300表示每个词嵌入的维度；然后将词嵌入表示送入门控循环单元网络以编码问题嵌入d_s＝1024是门控循环单元网络中每个隐藏状态的维度。

4.根据权利要求3所述的一种基于复合损失的医学视觉问答方法，其特征在于：所述的步骤2中词对文本注意力机制具体为：

Q_c＝[D||Q]

其中，||表示特征维度的串联；

步骤2.1.3：在语义级别上获得问题的重要性权重a_q∈R^n*1；

其中，是学习权重。

5.根据权利要求3所述的一种基于复合损失的医学视觉问答方法，其特征在于：所述的步骤2中图像对问题注意力机制具体为：

a_m＝softmax(Q^TMLP(v))

Q_m＝a_m ^T⊙Q。

6.根据权利要求4所述的一种基于复合损失的医学视觉问答方法，其特征在于：所述的步骤2中图像对问题注意力机制具体为：

a_m＝softmax(Q^TMLP(v))

Q_m＝a_m ^T⊙Q。