CN113779298B - 一种基于复合损失的医学视觉问答方法 - Google Patents
一种基于复合损失的医学视觉问答方法 Download PDFInfo
- Publication number
- CN113779298B CN113779298B CN202111085818.4A CN202111085818A CN113779298B CN 113779298 B CN113779298 B CN 113779298B CN 202111085818 A CN202111085818 A CN 202111085818A CN 113779298 B CN113779298 B CN 113779298B
- Authority
- CN
- China
- Prior art keywords
- question
- image
- medical
- answer
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000002131 composite material Substances 0.000 title claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 41
- 238000005065 mining Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000002059 diagnostic imaging Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明属于医学影像和人工智能交叉技术领域,具体涉及一种基于复合损失的医学视觉问答方法。本发明针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题,在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联,并采用分类损失和图像问题互补损失共同训练整个模型,补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题,实现了多角度对问题的关注,从而提高医学视觉问答方法的有效性。本发明可以有效解决医学视觉问答任务。
Description
技术领域
本发明属于医学影像和人工智能交叉技术领域,具体涉及一种基于复合损失的医学视觉问答方法。
背景技术
视觉问答随着人工智能的发展,已经成为目前的热门研究内容之一。它是一项需要广泛考虑计算机视觉和自然语言处理这两个主要研究领域的多模态挑战性任务。视觉问答目前最常见的应用是可以便捷得帮助视障人士在虚拟世界或现实世界中获取更多的信息,这将大大提高他们的生活质量。随着智慧医疗的不断发展,基于专业医学领域的视觉问答任务逐渐被大众所熟知。给定一张医学图像和相应的文本问题,即可预测正确的答案。医学视觉问答更加突出图像和文本的专业性,既要深刻理解医学图像的丰富内容,又要精确探索临床问题的复杂语义。该任务对于医生而言可以辅助他们进行诊断,提前对病症进行回答和预判进而大大减少误诊漏诊的概率,提高准确性的同时也能减少诊疗时间提高效率。对于患者而言,遇到棘手的问题和症状即可马上获取参***第一时间对病情进行判断和预防。
然而,目前基于医学视觉问答任务的研究非常有限。一方面,专业医学术语的概念较为复杂,对临床文本的理解存在挑战。另一方面是由于医学影像的成像原理复杂,与自然图像不同,医学图像中的信息大多具有潜在价值,某些细微变化可能就是病变位置所在。虽然大多数的深度学习方法在医学图像分析中效果显著,但目前的医学视觉问答数据集缺乏大规模标记训练数据。如果利用迁移学习将在通用视觉问答数据集上训练好的深度学习模型转移到医学视觉问答任务上并用少量医学图像进行微调,由于自然图像和医学图像之间的差异性,最终的实现效果并不好。并且,若单独对文本的语义和图像的视觉进行建模并不能满足多模态任务的需求,图像和问题之间也存在相关性,二者间的联系更为重要。
发明内容
本发明的目的在于针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题,提供一种基于复合损失的医学视觉问答方法,可以有效地挖掘文本信息,实现多角度对问题的关注,从而提高医学视觉问答方法的有效性。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:获取医学视觉问答数据集,针对视觉和文本两种模态,提取医学图像特征v和问题的特征;
步骤2:将步骤1得到的图像特征和问题特征馈送到多视角注意力机制,该机制包括图像对问题注意力机制和词对文本注意力机制,在图像对问题注意力机制中得到图像对问题的注意力权重以及在视觉指导下的文本特征Qm,在词对文本注意力机制中得到单词对问题的注意力权重aq;
步骤3:将视觉指导下的文本特征Qm和图像特征v分别传入多模态融合模型,输出融合后的多模态特征Mcl、Mop;
其中,F表示多模态特征融合,采用双线性注意力网络来学习图像和问题的联合表示,下标θ表示特征融合时的可训练参数;cl和op分别表示封闭式问答对和开放式问答对;
步骤4:将开放式问答对和封闭式问答对的多模态特征Mcl和Mop分别传入由两层MLP组成的分类模型中,从而获取候选答案的概率;将候选答案集中概率最大的答案作为最终预测输出ycl和yop;在模型训练过程中,使用二元交叉熵损失Lc和图像问题互补损失Lmq构成的复合损失模块联合优化模型:
Loss=Lc+γLmq
其中,BCE(.)表示二元交叉熵损失函数;表示预测答案;y表示真实答案;γ是超参数;
步骤5:获取待答复的医学视觉问题,执行步骤1至步骤3提取融合后的多模态特征Mcl、Mop后,输入至训练好的分类模型中,取候选答案集中概率最大的答案作为输出。
本发明还可以包括:
所述的步骤1中提取医学图像特征的方法具体为:采用模型不可知元学***均池化层组成,每个卷积层包含64个过滤器和一个非线性层;卷积降噪自编码器是一系列卷积层和最大池化层的组合;医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征,将它们串联起来,得到最终的医学图像特征,图像的特征表示为dk=128表示图像特征的维度。
所述的步骤1中提取问题特征的方法具体为:每个问题都统一成一个由n个单词组成的句子,若问题的长度超过n,则将超过的部分删除;若问题由少于n个单词组成,则对其补零直至长度为n;首先,问题中的每个单词由300维GloVe词嵌入表示为dh=300表示每个词嵌入的维度;然后将词嵌入表示送入门控循环单元网络以编码问题嵌入/>ds=1024是门控循环单元网络中每个隐藏状态的维度。
所述的步骤2中词对文本注意力机制具体为:
步骤2.1.1:将词嵌入表示D和问题嵌入表示Q连接起来以获得Qc;
Qc=[D||Q]
其中,||表示特征维度的串联;
步骤2.1.2:利用词嵌入的上下文无关和问题嵌入的上下文有关的特点,使用sigmoid激活函数作为选择机制控制输出,从而获得过滤掉无用噪声的问题表示
其中:tanh(.)为门控双曲正切激活函数;σ(.)为sigmoid激活函数;是学习权重;⊙是哈达玛乘积;
步骤2.1.3:在语义级别上获得问题的重要性权重aq∈Rn*1;
其中,是学习权重。
所述的步骤2中图像对问题注意力机制具体为:
步骤2.2.1:利用注意力权重来准确挖掘图像与问题的关联程度;
am=softmax(QTMLP(v))
其中,am∈Rn*1是问答对中图像对问题的n个单词赋予的权重分布,am中的每个元素对应于单词和图像之间的相关程度,元素的值越大,说明相关性越高;MLP(.)是一个多层感知器,用于对齐Q和v之间的维度;
步骤2.2.2:将视觉指导下的问题重要性权重矩阵am作用于步骤1获得的问题嵌入Q上,得到视觉指导下的文本特征Qm;
Qm=am T⊙Q。
本发明的有益效果在于:
本发明针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题,在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联,并采用分类损失和图像问题互补损失共同训练整个模型,补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题,实现了多角度对问题的关注,从而提高医学视觉问答方法的有效性。本发明可以有效解决医学视觉问答任务。
附图说明
图1是本发明的总体框架图。
图2是本发明实验中在VQA-RAD测试集下的不同医学视觉问答方法的准确率对比表。
图3是本发明方法的消融实验分析表。
图4是本发明的可视化评估图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明的目的在于针对大多医学视觉问答专注于视觉内容而忽略了文本重要性的问题,提供一种基于复合损失的医学视觉问答方法,可以有效地挖掘文本信息,实现多角度对问题的关注,从而提高医学视觉问答方法的有效性。
参照图1,本发明实现步骤如下:
步骤一:针对视觉和文本两种模态,利用不同的方法提取医学图像和问题的特征。
提取医学图像特征的方法克服了标记数据的局限性,主要采用模型不可知元学***均池化层组成。每个卷积层包含64个过滤器和一个非线性层。卷积降噪自编码器是一系列卷积层和最大池化层的组合。医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征,将它们串联起来即可得到最终的医学图像特征。图像的特征表示为dk=128表示图像特征的维度。
在提取问题特征时,每个问题都统一成一个由n个单词组成的句子。若问题的长度超过n,则将超过的部分删除;若问题由少于n个单词组成,则对其补零直至长度为n。首先,问题中的每个单词由300维GloVe词嵌入表示为dh=300表示每个词嵌入的维度。然后将词嵌入表示送入门控循环单元网络以编码问题嵌入/>ds=1024是门控循环单元网络中每个隐藏状态的维度。
以上内容分别针对医学图像和文本问题的模态特点使用不同的特征提取方法得到图像特征和问题特征。
步骤二:将步骤一得到的图像特征和问题特征馈送到多视角注意力机制,该机制包括图像对问题注意力机制和词对文本注意力机制。在图像对问题注意力机制中得到图像对问题的注意力权重以及在视觉指导下的文本特征,在词对文本注意力机制中得到单词对问题的注意力权重。通过多视角注意力机制可以更好地分析问题,为获得准确答案做好充足的准备。
词对文本注意力机制:步骤一得到的问题表征Q忽略了对于不同词的重要程度的判断。因此为了强调问题中的关键词语,该方法使用了词对文本的注意力机制。利用步骤一在提取问题特征时得到的词嵌入表示和问题特征表示,充分发挥二者的优势,为问题中的每个词分配权重,此过程与人脑的关注过程是一致的。该机制从语义层面获取问题的重要性。首先,将词嵌入表示D和问题嵌入表示Q连接起来以获得Qc:
Qc=[D||Q] (1)
式中:||表示特征维度的串联,
然后利用词嵌入的上下文无关和问题嵌入的上下文有关的特点,使用sigmoid激活函数作为选择机制控制输出,从而获得过滤掉无用噪声的问题表示
式中:tanh(.)和σ(.)是激活函数分别称为门控双曲正切和sigmoid;是学习权重;⊙是哈达玛乘积。
最后,在语义级别上获得了问题的重要性权重aq∈Rn*1:
式中:是学习权重。
图像对问题注意力机制:通过引入该机制来建立视觉和文本这两种模式之间的关系,从视觉的角度观察问题挖掘有效的信息。图像为问题中的词赋予重要性权重,在视觉的指导下找到具有重要意义的词。利用注意力权重来准确挖掘图像与问题的关联程度:
am=softmax(QTMLP(v)) (4)
式中:MLP(.)是一个多层感知器,用于对齐Q和v之间的维度;am∈Rn*1是问答对中图像对问题的n个单词赋予的权重分布。am中的每个元素对应于单词和图像之间的相关程度。元素的值越大,说明相关性越高。
得到在视觉指导下的问题重要性权重矩阵am后,将am作用于步骤一获得的问题嵌入Q上。最后,图像对问题注意力机制重新得到了融合图像特征的问题嵌入Qm:
Qm=am T⊙Q (5)
式中:⊙是哈达玛乘积;Qm是视觉指导下学习的文本特征。
此时,问题嵌入不仅包括文本语义层级的单模态特征,还增加了图像层级的特征。这两种模式的特征通过图像对问题注意力机制能够准确判断视觉到文本的细粒度关系。该机制根据图像与每个问题中单词的相关程度,为文本分配不同的重要性权重。
步骤三:多视图注意力机制的输出传递给复合损失。为了使得预测正确答***性更高,复合损失由分类损失和图像问题互补损失组成,共同训练模型。分类损失用于在多模态特征融合后准确预测答案分布,图像问题互补损失用于提高文本和视觉跨模态特征之间的相似性,最小化单词和图像对问题学习的重要性差异。
分类损失:在获得视觉指导的文本特征后,根据答案类型将问答对划分为开放式和封闭式,分别比较不同类型问答对的准确率。将两种类型的问题表示Qm和图像特征v分别传入通用的多模态融合模型,输出融合后的多模态特征:
(6),(7)式中:F是一种多模态特征融合表示方法,采用双线性注意力网络来学习图像和问题的联合表示;θ是特征融合时的可训练参数;cl和op分别表示封闭式问答对和开放式问答对。
为了预测最佳答案,本方法将开放式问答对和封闭式问答对的多模态特征Mcl和Mop分别传入由两层MLP组成的分类器中,从而获取候选答案的概率。将候选答案集中概率最大的答案作为最终预测输出ycl和yop。此阶段,在训练过程中使用二元交叉熵损失Lc:
式中:BCE(.)表示二元交叉熵损失函数;是预测答案;y是真实答案;cl和op分别代表封闭式问答对和开放式问答对。
图像问题互补损失:在模型训练过程中,为了提高视觉-文本跨模态特征之间的相似度,使得单词对问题学习的重要性与视觉指导下对问题学习的重要性之间的差异最小化。该方法利用词对文本注意力机制获得的学习权重am和图像对问题注意力机制产生的注意力权重aq定义图像问题互补损失Lmq共同指导问题重要性的学习:
由上述的分类损失和图像问题互补损失构成的复合损失模块用于联合优化模型:
Loss=Lc+γLmq (10)
式中:γ是超参数。
与现有技术相比,本发明的有益效果是:本发明的核心技术内容在于提出一种基于复合损失的医学视觉问答方法,在对图像和问题提取特征后采用多视角注意力机制将问题与图像和单词相关联,并采用分类损失和图像问题互补损失共同训练整个模型。补偿了现有的大多数医学视觉问答方法忽略了挖掘文本信息重要性的问题,实现了多角度对问题的关注。
本发明提供的方法通过实验验证了本发明提出的基于复合损失的医学视觉问答方法能够多角度关注问题并有效挖掘文本信息。方法的实现对目前医学视觉问答的应用有重要意义。
实验平台:所有实验均在GTX 1080ti GPU的服务器上实现,使用Python编程语言在PyCharm软件上进行实验,编程时利用的深度学习框架是pytorch。
(1)实验参数
步骤一中获取问题特征时问题的长度n取值为12,即每个问题都由12个单词组成。依次使用GloVe方法和门控循环单元网络分别获得词嵌入表示和问题特征。其中,门控循环单元网络的隐藏层具有1024维。在实验中,使用Adamax优化器和0.005的学习率进行训练,批量大小设定为64。
(2)实验内容
实验1:数据集介绍。
VQA-RAD数据集是医学视觉问答领域第一个手动构建的有关放射学图像的自然问题并提供参***的数据集。放射学图像共315幅并均匀分布在头部、胸部和腹部这三个部位中。根据不同的问题类型将问题分为11类,其中包括位置、尺寸等。问答对按照答案类型分为开放式问答对和封闭式问答对。一般具有选择性质的问题称之为封闭式问答对,否则称之为开放式问答对。该数据集可以划分成训练集和测试集,分别包含3064和451个问答对。
实验2:在医学视觉问答数据集VQA-RAD的测试集中实验了不同医学视觉问答方法的效果,准确率对比图如图2所示。
实验结果:如图2所示,本发明提出的方法在VQA-RAD数据集较现有的其他方法有一定的改善。我们的方法准确率在开放式问答对、封闭式问答对和整体问答对上都比其他方法更优越。与对比方法中效果最好的Med-VQA方法相比,三种问答对类型的准确率都平均提高了约3%。
分析:我们的方法不仅仅只对单模态进行建模,模态间的关系也被有效的挖掘出来。从实验结果中表明,利用文本和视觉之间的关系在问题和图像间建立注意力机制可以更好地理解问题和图像的潜在含义找到匹配于图像的关键词,进而使得预测的答案准确率更高更稳定,证明了方法的有效性。
实验3:对本发明所提出的方法的每个组件进行消融研究如图3所示。
实验结果:如图3所示,图像对问题注意力机制组件和图像问题互补损失组件在VQA-RAD数据集上进行评估。实验结果表明组件之间的协作优于其中任何一个组件单独工作,但都优于基线方法。
分析:使用注意力机制可以发掘问答对中图像和问题之间的密切联系。图像问题互补损失进一步提高了视觉和文本之间的相似性,使得词和图像对问题的学习之间的差异最小化。二者共同作用达到了最好的效果。
实验4:对本发明在复合损失中的超参数γ最佳取值的分析。
实验结果:复合损失中的超参数γ设置不同的取值在开放式问答对、封闭式问答对和总体问答对上的评估。方法的性能随着γ取值的变化而变化。当γ为1.6时,三种类型的精度尤为突出,可以得到的最好结果。
分析:与γ为0时的准确率比较,开放式问答对、封闭式问答对和整体问答对的准确率都有所提升,可以再次证明图像问题互补损失对本发明所提出的方法具有显着影响。
实验5:本发明方法的可视化评价,如图4所示。
实验结果:如图4所示,本发明所提出的方法通常可以准确地找到视觉问答任务中涉及的视觉信息和文本关键词。
分析:本发明所提出来的方法可以对大多数的图像和问题预测出正确的答案。根据多视角注意力机制和复杂损失对本发明方法的共同作用可以正确定位图像中的关键位置以及问题中的关键词,最终根据定位的图像区域和单词预测出正确答案。
综上所述,本发明提出的一种基于复合损失的医学视觉问答方法可以有效解决医学视觉问答任务。不仅仅只提取图像和问题特征,还利用多视角注意力机制探索单词和图像对问题的潜在影响,从而有效利用图像和文本间的语义关系挖掘文本的重要信息并使用复合损失来训练模型优化本发明的方法,最终提高了医学视觉问答任务的准确率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于复合损失的医学视觉问答方法,其特征在于,包括以下步骤:
步骤1:获取医学视觉问答数据集,针对视觉和文本两种模态,提取医学图像特征v和问题的特征;
步骤2:将步骤1得到的图像特征和问题特征馈送到多视角注意力机制,该机制包括图像对问题注意力机制和词对文本注意力机制,在图像对问题注意力机制中得到图像对问题的注意力权重以及在视觉指导下的文本特征Qm,在词对文本注意力机制中得到单词对问题的注意力权重aq;
步骤3:将视觉指导下的文本特征Qm和图像特征v分别传入多模态融合模型,输出融合后的多模态特征Mcl、Mop;
其中,F表示多模态特征融合,采用双线性注意力网络来学习图像和问题的联合表示,下标θ表示特征融合时的可训练参数;cl和op分别表示封闭式问答对和开放式问答对;
步骤4:将开放式问答对和封闭式问答对的多模态特征和/>分别传入由两层MLP组成的分类模型中,从而获取候选答案的概率;将候选答案集中概率最大的答案作为最终预测输出/>和/>在模型训练过程中,使用二元交叉熵损失Lc和图像问题互补损失Lmq构成的复合损失模块联合优化模型:
Loss=Lc+γLmq
其中,BCE(.)表示二元交叉熵损失函数;表示预测答案;y表示真实答案;γ是超参数;
步骤5:获取待答复的医学视觉问题,执行步骤1至步骤3提取融合后的多模态特征Mcl、Mop后,输入至训练好的分类模型中,取候选答案集中概率最大的答案作为输出。
2.根据权利要求1所述的一种基于复合损失的医学视觉问答方法,其特征在于:所述的步骤1中提取医学图像特征的方法具体为:采用模型不可知元学***均池化层组成,每个卷积层包含64个过滤器和一个非线性层;卷积降噪自编码器是一系列卷积层和最大池化层的组合;医学图像经过模型不可知元学习和卷积降噪自编码器分别获取64维向量特征,将它们串联起来,得到最终的医学图像特征,图像的特征表示为dk=128表示图像特征的维度。
3.根据权利要求1或2所述的一种基于复合损失的医学视觉问答方法,其特征在于:所述的步骤1中提取问题特征的方法具体为:每个问题都统一成一个由n个单词组成的句子,若问题的长度超过n,则将超过的部分删除;若问题由少于n个单词组成,则对其补零直至长度为n;首先,问题中的每个单词由300维GloVe词嵌入表示为dh=300表示每个词嵌入的维度;然后将词嵌入表示送入门控循环单元网络以编码问题嵌入ds=1024是门控循环单元网络中每个隐藏状态的维度。
4.根据权利要求3所述的一种基于复合损失的医学视觉问答方法,其特征在于:所述的步骤2中词对文本注意力机制具体为:
步骤2.1.1:将词嵌入表示D和问题嵌入表示Q连接起来以获得Qc;
Qc=[D||Q]
其中,||表示特征维度的串联;
步骤2.1.2:利用词嵌入的上下文无关和问题嵌入的上下文有关的特点,使用sigmoid激活函数作为选择机制控制输出,从而获得过滤掉无用噪声的问题表示
其中:tanh(.)为门控双曲正切激活函数;σ(.)为sigmoid激活函数;是学习权重;⊙是哈达玛乘积;
步骤2.1.3:在语义级别上获得问题的重要性权重aq∈Rn*1;
其中,是学习权重。
5.根据权利要求3所述的一种基于复合损失的医学视觉问答方法,其特征在于:所述的步骤2中图像对问题注意力机制具体为:
步骤2.2.1:利用注意力权重来准确挖掘图像与问题的关联程度;
am=softmax(QTMLP(v))
其中,am∈Rn*1是问答对中图像对问题的n个单词赋予的权重分布,am中的每个元素对应于单词和图像之间的相关程度,元素的值越大,说明相关性越高;MLP(.)是一个多层感知器,用于对齐Q和v之间的维度;
步骤2.2.2:将视觉指导下的问题重要性权重矩阵am作用于步骤1获得的问题嵌入Q上,得到视觉指导下的文本特征Qm;
Qm=am T⊙Q。
6.根据权利要求4所述的一种基于复合损失的医学视觉问答方法,其特征在于:所述的步骤2中图像对问题注意力机制具体为:
步骤2.2.1:利用注意力权重来准确挖掘图像与问题的关联程度;
am=softmax(QTMLP(v))
其中,am∈Rn*1是问答对中图像对问题的n个单词赋予的权重分布,am中的每个元素对应于单词和图像之间的相关程度,元素的值越大,说明相关性越高;MLP(.)是一个多层感知器,用于对齐Q和v之间的维度;
步骤2.2.2:将视觉指导下的问题重要性权重矩阵am作用于步骤1获得的问题嵌入Q上,得到视觉指导下的文本特征Qm;
Qm=am T⊙Q。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085818.4A CN113779298B (zh) | 2021-09-16 | 2021-09-16 | 一种基于复合损失的医学视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085818.4A CN113779298B (zh) | 2021-09-16 | 2021-09-16 | 一种基于复合损失的医学视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779298A CN113779298A (zh) | 2021-12-10 |
CN113779298B true CN113779298B (zh) | 2023-10-31 |
Family
ID=78844492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111085818.4A Active CN113779298B (zh) | 2021-09-16 | 2021-09-16 | 一种基于复合损失的医学视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779298B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821245B (zh) * | 2022-05-30 | 2024-03-26 | 大连大学 | 一种基于全局视觉信息干预的医学视觉问答方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288609A (zh) * | 2019-05-30 | 2019-09-27 | 南京师范大学 | 一种注意力机制引导的多模态全心脏图像分割方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423304B2 (en) * | 2020-01-15 | 2022-08-23 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
-
2021
- 2021-09-16 CN CN202111085818.4A patent/CN113779298B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288609A (zh) * | 2019-05-30 | 2019-09-27 | 南京师范大学 | 一种注意力机制引导的多模态全心脏图像分割方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
Non-Patent Citations (2)
Title |
---|
基于多模态医学图像的Alzheimer病分类方法;韩坤;潘海为;张伟;边晓菲;陈春伶;何舒宁;;清华大学学报(自然科学版)(08);全文 * |
结合自底向上注意力机制和记忆网络的视觉问答模型;闫茹玉;刘学亮;;中国图象图形学报(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779298A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111863237A (zh) | 一种基于深度学习的移动端疾病智能辅助诊断*** | |
Huang et al. | A novel image-to-knowledge inference approach for automatically diagnosing tumors | |
CN114201592A (zh) | 面向医学图像诊断的视觉问答方法 | |
US20210407679A1 (en) | Deep-learning based certainty qualification in diagnostic reports | |
CN117407541B (zh) | 一种基于知识增强的知识图谱问答方法 | |
CN113779298B (zh) | 一种基于复合损失的医学视觉问答方法 | |
CN117391092B (zh) | 一种基于对比学习的电子病历多模态医疗语义对齐方法 | |
WO2019132686A1 (ru) | Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 | |
Chen et al. | Breast cancer classification with electronic medical records using hierarchical attention bidirectional networks | |
Pan et al. | A method for extracting tumor events from clinical CT examination reports | |
CN115659991A (zh) | 一种基于共现关系分层注意力的脑ct医学报告自动生成方法 | |
CN115662635A (zh) | 一种对放射性肺炎建立联合回归预测模型的方法 | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和*** | |
CN115017910A (zh) | 基于中文电子病历的实体关系联合抽取方法、网络、设备和计算机可读存储介质 | |
CN116756361A (zh) | 一种基于对应特征融合的医学视觉问答方法 | |
Lin et al. | Identification of tophi in ultrasound imaging based on transfer learning and clinical practice | |
Abid et al. | Artificial Intelligence in Urology: current status and future perspectives | |
CN113313158A (zh) | 基于多模态深度学习分类模型的模态贡献度的计算方法 | |
CN110289065A (zh) | 一种辅助生成医学电子报告的控制方法以及装置 | |
CN117952206B (zh) | 一种知识图谱链路预测方法 | |
Verma et al. | Comparative Analysis of CNN Models for Retinal Disease Detection | |
Lin et al. | A meta-fusion RCNN network for endoscopic visual bladder lesions intelligent detection | |
CN113241184B (zh) | 一种儿童肺炎辅助诊断模型及其训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |