CN113270199B - 医学跨模态多尺度融合类别指导哈希方法及其*** - Google Patents

医学跨模态多尺度融合类别指导哈希方法及其*** Download PDF

Info

Publication number
CN113270199B
CN113270199B CN202110483387.0A CN202110483387A CN113270199B CN 113270199 B CN113270199 B CN 113270199B CN 202110483387 A CN202110483387 A CN 202110483387A CN 113270199 B CN113270199 B CN 113270199B
Authority
CN
China
Prior art keywords
hash
network
class
text
hash codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110483387.0A
Other languages
English (en)
Other versions
CN113270199A (zh
Inventor
欧卫华
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Education University
Original Assignee
Guizhou Education University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Education University filed Critical Guizhou Education University
Priority to CN202110483387.0A priority Critical patent/CN113270199B/zh
Publication of CN113270199A publication Critical patent/CN113270199A/zh
Application granted granted Critical
Publication of CN113270199B publication Critical patent/CN113270199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Library & Information Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种医学跨模态多尺度融合类别指导哈希方法及其***,包括训练类别哈希网络来学习每个类别的哈希码,使所学习的哈希码包含其对应类别的语义信息,然后利用学习到类别哈希码来表示标签作为监督信息来指导图像、文本和联合网络哈希码的学习,同时联合网络来训练图像和文本哈希码的学习等步骤,以及输入模块一、特征处理模块一、输入模块二、特征处理模块二、学习训练模块和输出模块。在医学数据集MIMIC‑CXR上的大量实验表明,该方法在跨模态检索任务中优于现有的基线。

Description

医学跨模态多尺度融合类别指导哈希方法及其***
技术领域
本发明属于跨模态检索领域,具体涉及一种医学跨模态多尺度融合类别指导哈希方法及其***。
背景技术
随着医学技术的飞速发展,产生了大量的医学数据,如放射学报告、CT图像、PET图像、X射线图像等。尽管它们在形式上有所不同,但它们有相似的语义。最近,已经提出了许多单模态方法来分别理解这些数据,例如医学图像分割,医学图像分类和基于内容的医学图像检索。虽然在临床影像方面已经做了大量的工作,但是医学数据其他形态的数据却被忽略了,如放射学报告。为了使得医生能够获得关于查询的全面信息,检索不同模式中语义相似的临床概况,并根据他们之前的医学建议提供诊断结果,提出了医学跨模态检索,即使用一个模态的实例(例如,x射线图像)来检索具有相似语义的另一个模态的实例(例如,放射学报告)。
哈希由于其高检索率低存储成本而被应用到跨模态检索中。现存的跨模态哈希方法一般被分为三类:无监督方法、半监督方法和有监督方法。一般来说,虽然有些标签可能会损坏和不准确,但对于学习更多的判别性特征,标签信息是有用的。因此,监督的跨模态哈希方法通常可以获得更好的检索性能。
随着深度学习的显著进展,深度神经网络在跨模态检索中显示出其潜在能力。例如,蒋等人提出了深度跨模态哈希(DCMH),这是一个端到端的框架,可以同时学习深度特征和哈希函数。深度视觉语义哈希(DVSH)使用卷积神经网络(CNN)和长短期记忆(LSTM)来学习每个模态的哈希代码。李等人提出了一种自监督的对抗式哈希网络(SSAH)来设计一种结合对抗式学习的自监督语义网络,以探索不同模态之间的语义关系。与基于手工特征跨模态检索方法相比,深度跨模态检索的性能有了很大的提高。
但是上述所述跨模态检索方法都是依赖于语义相似矩阵来监督哈希码的生成。具体而言,如果两个数据各自的标签共享至少一个公共类别,则它们被定义为相似,否则不相似。但是显然该定义遗漏了丰富的语义信息,不能够很好的保留语义结构信息。同时上述跨模态检索方法将共享相同语义的不同模态数据嵌入到统一的哈希码中,由于固有模态差异和噪声将不可避免的导致错误代码。
基于这种现状,我们提出了一种医学跨模态多尺度融合类别指导哈希(MCMFCH)方法及其***。
发明内容
(一)解决的技术问题
本发明的目的是在于提供一种医学跨模态多尺度融合类别指导哈希方法及其***,该方法利用类别语义信息来指导各模态的生成,使学习到的哈希码可以同时很好的保持跨模态相似性和丰富的语义结构信息。同时利用联合网络来指导图像和文本的哈希码的学习,使模态语义相互关联,有助于提升模态间的语义相关性。
(二)技术方案
为了实现上述目标,本发明采用如下技术方案:
一种医学跨模态多尺度融合类别指导哈希方法,包括以下具体步骤:
S1、输入类别语义,建立类别哈希网络,用于学习各类别的哈希码;
S2、输入不同模态的数据,建立图像网络和文本网络,从而获得各模态的特征和哈希码,联合图像文本生成联合哈希码;
S3、利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码;
S4、联合网络来指导图像和文本的哈希码的学习。
进一步的,所述S1中类别哈希网络的模型为:
s.t.pi=sgn(H(c))=sgn(fc(ci;θc))
其中α是超参数;1是所有元素均为1的向量;sgn(.)是符号函数;其中pi表示类别ci学习到的哈希码。最终获得哈希码
进一步的,所述S2中建立图像哈希网络和文本哈希网络获得各模态的特征和哈希码以及联合哈希网络生成联合哈希码,具体采用如下步骤实现:
S2.1、图像哈希网络,为了获得高分辨率高语义的医学影像特征,深度卷积网络(VGG)结合目标金字塔网络(FPN)来获取图像多尺度特征,称为VFPN多尺度网络;该网络将高分辨率与弱语义特征、低分辨率与强语义特征融合,获得高分辨率和强语义特征fx(x;θx);此外,增加三个全连接层作为哈希函数将特征fx(x;θx)转换成二进制码H(x)=fx(x;θx)∈{-1,1}k;其中,前两个完全连接层与VGG的最后两个层相同,第三个全连接层有k个隐藏单元,使用tanh(·)函数作为激活函数。最后通过Bx=sgn(Hx)∈{-1,1}k得到了图像模态的散列码;其中k是哈希码的长度;
S2.2、文本哈希网络,采用了基于自监督对抗哈希跨模态检索(SSAH)的文本网络多尺度融合模型;首先利用1×1、1×2、1×3、1×6、1×10这5个平均池化层对文本数据提取多个尺度特征,再使用一个1×1卷积层对多个特征进行融合;然后,利用大小调整和连接的过程得到多尺度文本语义特征fy(y;θy);融合特征被送入三层前馈神经网络作为哈希函数将特征fy(y;θy)转换成二进制码H(y)=fy(y;θy)∈{-1,1}k;最后通过By=sgn(Hy)∈{-1,1}k得到了文本模态的散列码;
S2.3、联合哈希网络,该网络使用图像网络中VFPN多尺度网络生成的图像多尺度特征fx(x;θx)和文本中多尺度融合特征fy(y;θy)的交集fu(u;θu)为输入;交集特征fu(u;θu)被送入一个三层前馈神经网络作为哈希函数将特征转换成二进制码H(u)=fu(u;θu)∈{-1,1}k;最后通过Bu=sgn(Hu)∈{-1,1}k得到联合网络的散列码;
进一步的,所述S3中根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:
S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,与属于类别ci的平均汉明距离应该小于不属于类别ci的哈希码间的汉明距离,其模型为:
其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;Ei为数据点*i所属类别的索引集,即标签向量li中元素1的索引;Qi={1,…,c}-Ei为数据点*i不属于的类别的索引集,即标签向量li中元素“0”的索引;是/>与pe的汉明距离;/>是/>的相似类别哈希码的平均值,它应该与/>相似;此外,如果/>与其对应的类别哈希码/>比{pq|q∈Qi}中的类别哈希码更相似,则/>将同时很好地保留语义相似度和语义结构信息;
S3.2、可以被类别哈希码P监督生成,所述各模态损失为:
其中λ是超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码。
进一步的,所述S4中利用联合网络来指导图像和文本的哈希码的学习,具体模型如下:
其中分别是联合网络、图像和文本的哈希码。
一种基于医学跨模态多尺度融合类别指导哈希方法的检索模型,所述检索模型采用了医学跨模态多尺度融合类别指导哈希方法生成,所述检索模型为:
其中,γ,η为超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码;/>分别是联合网络、图像和文本的哈希码。
一种基于医学跨模态多尺度融合类别指导哈希方法的检索***,包括:
输入模块一,用于输入类别语义;
特征处理模块一,用于建立类别哈希网络学习各类别的哈希码;
输入模块二,用于输入不同模态的数据;
特征处理模块二,用于建立图像网络和文本网络获得各模态的特征和哈希码,联合图像文本特征生成联合哈希码;
学习训练模块,利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,同时联合网络来指导图像和文本的哈希码的学习,并进行检索;
输出模块,用于输出检索结果。
(三)有益效果
相较于现有技术,本发明方法通过使用多尺度融合来获得每个模态的模态特定表示,利用类别哈希来指导每个模态哈希码的学习。同时在两个数据集上的实验表明,本发明具有较好的检索性能。
附图说明
图1为本发明方法的流程图;
图2为本发明方法提出的算法架构图;
图3为CCA、DCMH和本发明方法在MIMIC-CXR数据集上的前10个检索结果;
图4为本发明实施例提供的一种跨模态检索***的结构示意图。
具体实施方式
如图1所示,本发明提供了一种医学跨模态多尺度融合类别指导哈希方法,并根据该方法设计了对应的***。
本实施例所述的医学跨模态多尺度融合类别指导哈希方法包括以下具体步骤:
S1、输入类别语义,建立类别哈希网络,用于学习各类别的哈希码;
S2、输入不同模态的数据,建立图像网络和文本网络,从而获得各模态的特征和哈希码,联合图像文本生成联合哈希码;
S3、利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码;
S4、联合网络来指导图像和文本的哈希码的学习。
类别哈希网络用于生成类别的哈希码,使得学习到的类别哈希码可以代表标签,S1中类别哈希网络的模型,即目标函数如下:
s.t.pi=sgn(H(c))=sgn(fc(ci;θc))
其中α是超参数;1是所有元素均为1的向量;sgn(.)是符号函数;其中pi表示类别ci学习到的哈希码。最终获得哈希码
S2中图像哈希网络、文本哈希网络和联合哈希网络学习不同模态的特征和哈希码,其具体实现过程如下:
S2.1、图像哈希网络,首先使用深度卷积网络(VGG)结合目标金字塔网络(FPN)来获取图像多尺度特征,称为VFPN多尺度网络。该网络将高分辨率与弱语义特征、低分辨率与强语义特征融合,获得高分辨率和强语义特征,即最高分辨率和强语义特征fx(x;θx)。此外,增加前两个完全连接层与VGG的最后两个层相同。第三个全连接层有k个隐藏单元,使用tanh(·)函数作为激活函数。这三层作为哈希函数将特征fx(x;θx)转换成二进制码H(x)=fx(x;θx)∈{-1,1}k。然后,我们通过Bx=sgn(Hx)∈{-1,1}k得到了图像模态的散列码,其中k是哈希码的长度。
S2.2、文本哈希网络,采用了基于自监督对抗哈希(SSAH)跨模态检索的文本网络多尺度融合模型。多尺度融合模型包含1×1、1×2、1×3、1×6和1×10这5个平均池化层对文本数据提取多个尺度特征和一个1×1卷积层对多个特征进行融合。然后,利用大小调整和连接的过程得到多尺度文本语义特征fy(y;θy)。融合特征被送入三层前馈神经网络作为哈希函数将特征fy(y;θy)转换成二进制码H(y)=fy(y;θy)∈{-1,1}k。然后,我们通过By=sgn(Hy)∈{-1,1}k得到了文本模态的散列码。
S2.3、联合哈希网络,该网络使用图像网络中VFPN多尺度网络生成的图像多尺度特征fx(x;θx)和文本中多尺度融合特征fy(y;θy)的交集fu(u;θu)=concat(fx(x;θx),fy(y;θy))为输入。交集特征fu(u;θu)被送入一个三层前馈神经网络作为哈希函数将特征转换成二进制码H(u)=fu(u;θu)∈{-1,1}k。然后,我们通过Bu=sgn(Hu)∈{-1,1}k得到了联合网络的散列码。
S3中根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:
S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,与属于类别ci的平均汉明距离应该小于不属于类别ci的哈希码间的汉明距离,其模型为:
其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;Ei为数据点*i所属类别的索引集,即标签向量li中元素1的索引;Qi={1,…,c}-Ei为数据点*i不属于的类别的索引集,即标签向量li中元素“0”的索引;与pe的汉明距离;/>是/>的相似类别哈希码的平均值,它应该与/>相似;此外,如果/>与其对应的类别哈希码/>比{pq|q∈Qi}中的类别哈希码更相似,则/>将同时很好地保留语义相似度和语义结构信息;
S3.2、可以被类别哈希码P监督生成,所述各模态损失为:
其中λ是超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码。
利用类别网络指导各模态生成哈希码,所述哈目标函数为:
其中λ是超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码。通过本实施例提供的模型学习到的哈希码可以很好的保持跨模态相似性和丰富的语义结构信息。
S4中利用联合哈希网络指导图像和文本的哈希码生成和学习,从而提升模态的相关性,即:
其中分别是联合网络、图像和文本的哈希码。
结合上述函数,一种基于医学跨模态多尺度融合类别指导哈希方法的检索模型,该检索模型为:
其中,γ,η为超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码;/>分别是联合网络、图像和文本的哈希码。
为了验证本实施例方法在跨模态检索上的优越性,选择公开的医学数据集上MIMIC-CXR进行实验,其跨模态检索评价采用mAP,并且还显示了Top-10的检索结果;实验中,本实施例方法训练均运行5次,取其平均值作为最终结果,参数设置为:α=0.05,β=0.01,λ=0.3.γ=0.3,η=0.3,μ=0.3
表1:在MIMIC-CXR数据集上的mAP值
(1)mAP值在两个公开数据集上的结果分析
本实施例方法与现有的7种跨模态检索方法进行比较,即CCA、CMSSH、SCM、STMH、CMFH、SePH、DCMH。所有的方法在两个个数据集上进行了对比实验,如上表所示,本实施例方法的mAP值均高于其他对比实验方法,表明其类别哈希代替语义相似矩阵的方法具有可行性,联合语义有助于提升语义相关性。
(2)Top-10检索结果的对比分析
如图3所示,CCA和DCMH方法有多次失败情况,本实施例相比较虽然我们的方法在任务图像检索文本和文本检索图像中分别也有一种情况是不成功的,但是排名较前,且检索结果与查询是直观地语义相关的。
如图4,一种基于医学跨模态多尺度融合类别指导哈希方法的检索***,包括:
输入模块一1,用于输入类别语义;
特征处理模块一2,用于建立类别哈希网络学习各类别的哈希码;
输入模块二3,用于输入不同模态的数据;
特征处理模块二4,用于建立图像网络和文本网络获得各模态的特征和哈希码,联合图像文本特征生成联合哈希码;
学习训练模块5,利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,同时联合网络来指导图像和文本的哈希码的学习,并进行检索;
输出模块6,用于输出检索结果。
以上所述仅是本发明优选的实施方式,但本发明的保护范围并不局限于此,任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

Claims (6)

1.医学跨模态多尺度融合类别指导哈希方法,其特征在于:所述方法包括以下具体步骤:
S1、输入类别语义,建立类别哈希网络,用于学习各类别的哈希码;
S2、输入不同模态的数据,建立图像哈希网络和文本哈希网络,从而获得各模态的特征和哈希码,联合图像文本生成联合哈希码;
S3、利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,其中,根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:
S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,与属于类别ci的平均汉明距离应该小于不属于类别ci的哈希码间的汉明距离,相似度模型为:
其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;Ei为数据点*i所属类别的索引集,即标签向量li中元素1的索引;Qi={1,...,c};Ei为数据点*i不属于的类别的索引集,即标签向量li中元素“0”的索引;是/>与pe的汉明距离;
是/>的相似类别哈希码的平均值,它应该与/>相似;此外,如果/>与其对应的类别哈希码/>比{pq|q∈Qi}中的类别哈希码更相似,则/>将同时很好地保留语义相似度和语义结构信息;
S3.2、被类别哈希码P监督生成,所述各模态损失为:
其中λ是q超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码;
S4、利用联合哈希网络来指导图像和文本的哈希码的学习。
2.根据权利要求1所述的医学跨模态多尺度融合类别指导哈希方法,其特征在于:S1中类别哈希网络的模型为:
s.t.pi=sgn(H(c))=sgn(fc(ci;θc))
其中α是超参数;1是所有元素均为1的向量;sgn(.)是符号函数;其中pi表示类别ci学习到的哈希码;最终获得哈希码
3.根据权利要求1所述的医学跨模态多尺度融合类别指导哈希方法,其特征在于:所述步骤S2中建立图像哈希网络和文本哈希网络获得各模态的特征和哈希码以及联合哈希网络生成联合哈希码,具体采用如下步骤实现:
S2.1、图像哈希网络,为了获得高分辨率高语义的医学影像特征,深度卷积网络VGG结合目标金字塔网络FPN来获取图像多尺度特征,称为VFPN多尺度网络;该网络将高分辨率与弱语义特征、低分辨率与强语义特征融合,获得高分辨率和强语义特征fx(x;θx);此外,增加三个全连接层作为哈希函数将特征fx(x;θx)转换成二进制码H(x)=fx(x;θx)∈{-1,1}k;其中,前两个完全连接层与VGG的最后两个层相同,第三个全连接层有k个隐藏单元,使用tanh(·)函数作为激活函数;最后通过Bx=sgn(Hx)∈{-1,1}k得到了图像模态的散列码;其中k是哈希码的长度;
S2.2、文本哈希网络,采用了基于自监督对抗哈希跨模态检索SSAH的文本网络多尺度融合模型;首先利用1×1、1×2、1×3、1×6、1×10这5个平均池化层对文本数据提取多个尺度特征,再使用一个1×1卷积层对多个特征进行融合;然后,利用大小调整和连接的过程得到多尺度文本语义特征fy(y;θy);融合特征被送入三层前馈神经网络作为哈希函数将特征fy(y;θy)转换成二进制码H(y)=fy(y;θy)∈{-1,1}k;最后通过By=sgn(Hy)∈{-1,1}k得到了文本模态的散列码;
S2.3、联合哈希网络,该网络使用图像网络中VFPN多尺度网络生成的图像多尺度特征fx(x;θx)和文本中多尺度融合特征fy(y;θy)的交集fu(u;θu)为输入;交集特征fu(u;θu)被送入一个三层前馈神经网络作为哈希函数将特征转换成二进制码H(u)=fu(u;θu)∈{-1,1}k;最后通过Bu=sgn(Hu)∈{-1,1}k得到联合网络的散列码。
4.根据权利要求1所述的医学跨模态多尺度融合类别指导哈希方法,其特征在于:所述步骤S4中利用联合哈希网络来指导图像和文本的哈希码的学习,学习模型如下:
其中分别是联合网络、图像和文本的哈希码。
5.根据权利要求1所述的医学跨模态多尺度融合类别指导哈希方法,其特征在于,S4生成的检索模型如下:
其中,γ,η为q超参数;*代表x,y,u图像、文本和联合模态;
是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码;
分别是联合网络、图像和文本的哈希码。
6.基于医学跨模态多尺度融合类别指导哈希方法的检索***,其特征在于,包括:
输入模块一(1),用于输入类别语义;
特征处理模块一(2),用于建立类别哈希网络学习各类别的哈希码;
输入模块二(3),用于输入不同模态的数据;
特征处理模块二(4),用于建立图像哈希网络和文本哈希网络获得各模态的特征和哈希码,联合图像文本特征生成联合哈希码;
学习训练模块(5),利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,同时利用联合哈希网络来指导图像和文本的哈希码的学习,并进行检索,其中,根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:
S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,与属于类别ci的平均汉明距离应该小于不属于类别ci的哈希码间的汉明距离,相似度模型为:
其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;Ei为数据点*i所属类别的索引集,即标签向量li中元素1的索引;Qi={1,...,c};Ei为数据点*i不属于的类别的索引集,即标签向量li中元素“0”的索引;是/>与pe的汉明距离;
是/>的相似类别哈希码的平均值,它应该与/>相似;此外,如果/>与其对应的类别哈希码/>比{pq|q∈Qi}中的类别哈希码更相似,则/>将同时很好地保留语义相似度和语义结构信息;
S3.2、被类别哈希码P监督生成,所述各模态损失为:
其中λ是q超参数;*代表x,y,u图像、文本和联合模态;是/>的相似类别哈希码的平均值;pq是/>的不相似类别哈希码,通过本实施例提供的模型学习到的哈希码可以很好的保持跨模态相似性和丰富的语义结构信息;
输出模块(6),用于输出检索结果。
CN202110483387.0A 2021-04-30 2021-04-30 医学跨模态多尺度融合类别指导哈希方法及其*** Active CN113270199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110483387.0A CN113270199B (zh) 2021-04-30 2021-04-30 医学跨模态多尺度融合类别指导哈希方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110483387.0A CN113270199B (zh) 2021-04-30 2021-04-30 医学跨模态多尺度融合类别指导哈希方法及其***

Publications (2)

Publication Number Publication Date
CN113270199A CN113270199A (zh) 2021-08-17
CN113270199B true CN113270199B (zh) 2024-04-26

Family

ID=77229860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110483387.0A Active CN113270199B (zh) 2021-04-30 2021-04-30 医学跨模态多尺度融合类别指导哈希方法及其***

Country Status (1)

Country Link
CN (1) CN113270199B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704537B (zh) * 2021-10-28 2022-02-15 南京码极客科技有限公司 一种基于多尺度特征联合的细粒度跨媒体检索方法
CN114138995B (zh) * 2021-12-08 2024-07-16 东北大学 基于对抗学习的小样本跨模态检索方法
WO2024087218A1 (zh) * 2022-10-28 2024-05-02 深圳先进技术研究院 一种医学影像跨模态生成方法及装置
CN117112829B (zh) * 2023-10-24 2024-02-02 吉林大学 医疗数据跨模态检索方法、装置和相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
WO2020182019A1 (zh) * 2019-03-08 2020-09-17 苏州大学 图像检索方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
WO2020182019A1 (zh) * 2019-03-08 2020-09-17 苏州大学 图像检索方法、装置、设备及计算机可读存储介质
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cycle-consistent deep generative hashing for cross-modal retrieval;Wu L等;IEEE Transactions on Image Processing;全文 *
目标提取与哈希机制的多标签图像检索;陈飞;吕绍和;李军;王晓东;窦勇;;中国图象图形学报(第02期);全文 *
联合哈希特征和分类器学习的跨模态检索算法;刘昊鑫;吴小俊;庾骏;;模式识别与人工智能(第02期);全文 *
跨模态检索研究综述;欧卫华,刘彬,周永辉等;贵州师范大学学报(自然科学版);全文 *

Also Published As

Publication number Publication date
CN113270199A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN113270199B (zh) 医学跨模态多尺度融合类别指导哈希方法及其***
Arevalo et al. Gated multimodal networks
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
Wang et al. A comprehensive survey on cross-modal retrieval
Zheng et al. A deep and autoregressive approach for topic modeling of multimodal data
CN106649715B (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
Lin et al. Moment retrieval via cross-modal interaction networks with query reconstruction
Sharma et al. Visual question answering model based on graph neural network and contextual attention
Xiao et al. Dense semantic embedding network for image captioning
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Zhao et al. A comparison review of transfer learning and self-supervised learning: Definitions, applications, advantages and limitations
Kim et al. Gaining extra supervision via multi-task learning for multi-modal video question answering
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
Suhail et al. Convolutional neural network based object detection: A review
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
Zhang et al. Category supervised cross-modal hashing retrieval for chest x-ray and radiology reports
CN113609360B (zh) 一种基于场景化多源数据融合分析的方法和***
Wu et al. Deep semantic hashing with dual attention for cross-modal retrieval
Senior et al. Graph neural networks in vision-language image understanding: A survey
Wu et al. Visual Question Answering
Tian et al. Deep cross-modal face naming for people news retrieval
CN112182273B (zh) 基于语义约束矩阵分解哈希的跨模态检索方法及其***
Lu et al. Web multimedia object classification using cross-domain correlation knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant