CN111797267A - 一种医学图像检索方法及***、电子设备、存储介质 - Google Patents

一种医学图像检索方法及***、电子设备、存储介质 Download PDF

Info

Publication number
CN111797267A
CN111797267A CN202010675891.6A CN202010675891A CN111797267A CN 111797267 A CN111797267 A CN 111797267A CN 202010675891 A CN202010675891 A CN 202010675891A CN 111797267 A CN111797267 A CN 111797267A
Authority
CN
China
Prior art keywords
image
retrieval
images
category
queried
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010675891.6A
Other languages
English (en)
Inventor
刘伟
裴世宇
折强
卫毅然
刘承乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202010675891.6A priority Critical patent/CN111797267A/zh
Publication of CN111797267A publication Critical patent/CN111797267A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种医学图像检索方法,该方法对待查询图像进行分类,并在与待查询图像相同的类别图像中使用排序融合算法进行检索,该计算方法能够提高检索正确率,并且该方法能够被目前实际***软件平台实现,具有极大的实际应用前景。

Description

一种医学图像检索方法及***、电子设备、存储介质
技术领域
本发明属于图像检索技术领域,涉及一种医学图像检索方法及***、电 子设备、存储介质,特别涉及一种基于排序融合多类别的医学图像检索方法 及***、电子设备、存储介质。
背景技术
目前的图像具有较高复杂性,在进行检索任务时往往会遇上大量的多标 签图像数据,如一张人抱着狗的图像,其标签信息不仅有“人”,还有“狗”这 一标签,这无疑增加检索难度,而且检索的正确率太低。
例如在乳腺钼靶病灶图像检索领域,目前在各级医院中广泛使用的图像 存档及通信***(PACS,Picture Archiving and Communication Systems)提供 的检索方法是基于文本的,无法根据图像内容本身来检索图像。而乳腺图像 病灶区的物理特征和视觉特征很难用文字来确切描述,无法使用PACS*** 的文本检索功能。基于内容的图像检索(CBIR,Content-Based Image Retrieval) 方法可以根据病灶图像内容检索与之相似的病例。
国内外许多研究者将图像检索方法用于乳腺病灶图像检索研究中,国内 外的研究虽然取得了一定的进展,但主要集中在提取病灶图像的视觉特征以 及采用机器学习模型提高分类正确率。对图像检索而言,检出图像集合本身 包含了图像排序号等重要信息。如何利用这些信息提高病灶图像的检索正确 率是一个值得研究的问题;其次,近年来深度学习模型在图像识别方面取得 了巨大的成功。如何将深度学习模型应用于肿块病灶图像检索也是值得探索 的问题。
传统的图像检索“按例查询”(QBE,Query By Example)框架直接利用距 离公式计算查询图像与每幅数据库图像之间的距离,按照排名选取距离最近 的一组图像作为检索结果,但是该方法的分类正确率低,检索结果假阳性高 以及检索时间长。
发明内容
针对上述现有技术中的不足,本发明提供一种医学图像检索方法。
本发明公开了一种医学图像检索方法,包括:
使用图像数据集训练分类器模型;
使用经过训练的分类器模型对待查询图像进行分类,得到所述待查询图 像的所属类别,并从所述图像数据集中得到所述待查询图像的所属类别的图 像集;
计算所述待查询图像与所述所属类别的图像集中各个图像的相似度,并 按照相似度大小对所述所属类别的图像集中所有图像进行降序排列,选择前 2K幅作为所述待查询图像的邻域,K为自然数;
以所述待查询图像的图像特征为中心构建无向图,并计算所述待查询图 像的图像特征与所述领域的各个图像的边权重值,按照边权重值进行降序排 列,并选择前K幅作为所述待查询图像的无向子图;
将基于所述待查询图像与所述所属类别的图像集中各个图像的多个不同 相似度算法得到的多个无向子图融合组成权重图;
按照权重值大小对所述权重图中所有图像进行降序排列,选取前K幅作 为检索列表;
将所述检索列表前i幅图像作为整体计算回归score值,得到第i幅图像 的最终检索结果,并输出所述检索结果,i为K内正整数。
所述边权重值公式为:
w(Im,In)=α(Im,In)·J(Im,In);
Figure BDA0002584037670000021
α(Im,In)=d(Im,In)·b(Im,In);
其中,w(Im,In)为边权重值;α(Im,In)为增益系数;J(Im,In)为Jaccard相似 性系数;Im为待查询图像;In为所属类别的图像集中的一幅图像;N为所属 类别的图像集中的图像数量;N(Im)为与Im具有互邻关系的所有图像集;N(In) 为与In具有互邻关系的所有图像集;d(Im,In)为距离增益系数;b(Im,In)为距离 增益的平衡系数。
优选的是,所述d(Im,In)和所述b(Im,In)的公式分别为:
Figure BDA0002584037670000031
Figure BDA0002584037670000032
其中,R(Im,In)表示Im在与In具有互邻关系的所有图像集的相似度排名; R(In,Im)表示In在与Im具有互邻关系的所有图像集的相似度排排名。
优选的是,所述score值公式:
Figure BDA0002584037670000033
其中,I为位于所述检索列表且属于所属类别图像且序号在K’内图像的 数量;J为位于所述检索列表且不属于所属类别图像且序号在K’内图像的数 量;K’是所述检索列表中当前图像的位置;K’为K内正整数K’=1,2,3,...K;wi是检索列表的图像与所述待查询图像的特征距离;wj是非检索列表的图像与 所述待查询图像的特征距离;
通过该score值公式可知,所述score值在[0,1]范围之间,并设定阈值为 Q,当所述score值大于阈值Q,判断此检索结果属于所述所属类别,否则, 不属于所述所属类别;
其中,Q为1/类别的数量。
优选的是,所述wi的公式:
Figure BDA0002584037670000034
其中,yq为查询图像,xi为每一张图像的特征,d为查询图像和检索图 片的相似性度量。
优选的是,所述d的公式:
Figure BDA0002584037670000035
其中,相似性通过fr特征函数的差值来衡量,fr是定义在查询图像和检 出图像高维特征向量空间中的特征函数。
优选的是,一种医学图像检索***,包括:
分类器训练模块,用于对图像数据集进行特征训练获得一个分类器模型;
分类器识别模块,用于根据分类器训练模块获得的模型对待查询图像进 行分类,并获得与所述待查询图像的所属类别的图像集;
相似度计算模块,用于计算查询图像和所述所属类别的图像集中所有图 像的特征距离,按照所述特征距离从大到小对所述所属类别的图像集中所有 图像进行排序,并选择前2K幅作为所述待查询图像的邻域;
无向子图生成模块,用于以所述待查询图像的图像特征为中心构建无向 图,并计算所述待查询图像的图像特征与所属领域的各个图像的边权重值, 按照边权重值进行降序排列,并选择前K幅作为所述待查询图像的无向子图;
融合模块,用于将基于所述待查询图像与所述所属类别的图像集中各个 图像的多个不同相似度算法得到的多个无向子图融合组成权重图;
评价指标子模块,用于将权重图中的所有图像按照权重值大小进行降序 排列,并选取前K幅检索图像作为检索列表,将所述检索列表前i幅图像作 为整体计算回归score值,得到第i幅图像的最终检索结果,并输出所述检索 结果,i为K内正整数。
优选的是,一种医学图像检索的电子设备,包括处理器和存储器;所述 存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时, 所述处理器用于执行上述医学图像检索方法。
优选的是,一种计算机可读存储介质,所述存储介质上存储有计算机程 序,当所述计算机程序被处理器执行时,使得所述处理器执行上述医学图像 检索方法。
与现有技术相比,本发明的有益效果是:
1.本发明通过根据分类器模型对查询图像进行分类,并得到了与所述查 询图像相同类别的图像集,以该图像集为检索图像库,可减小图像数据集的 大小,降低检索时间,节约计算资源,取得高效的检索能力;
2.在上述检索图像库中按照排序融合算法进行检索,该计算方法能够提 高检索正确率。
附图说明
图1为本发明医学图像检索方法的方法流程图;
图2为QBE检索方法的框架图;
图3为手工特征检索PRECISION的评价指标结果;
图4为深度特征检索PRECISION的评价指标结果;
图5为不同特征检索PRECISION的评价指标结果;
图6为不同检索算法PRECISION对比;
图7为不同检索算法AVG-R对比;
图8为不同检索算法AVG-P对比;
图9为不同检索算法ANMRR对比;
图10为不同检索算法检索时间对比。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基 于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下 所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:。
参照图1,一种医学图像检索方法,包括:
使用图像数据集训练分类器模型;
使用经过训练的分类器模型对待查询图像的图像特征进行检索,得到待 查询图像的所属类别,并从图像数据集中得到待查询图像的所属类别的图像 集;
计算待查询图像与所属类别的图像集中各个图像的相似度,并按照相似 度大小对所属类别的图像集中所有图像进行降序排列,选择前2K幅作为待查 询图像的领域,K为自然数;
以待查询图像的图像特征为中心构建无向图,并计算待查询图像的图像 特征与邻域的各个图像的边权重值,按照边权重值进行降序排列,并选择前K幅作为待查询图像的无向子图;
将基于待查询图像与所属类别的图像集中各个图像的多个不同相似度算 法得到的多个无向子图融合组成权重图;
按照权重值大小对权重图中所有图像进行降序排列,选取前K幅作为检 索列表;
将检索列表前i幅图像作为整体计算回归score值,得到第i幅图像的最 终检索结果,并输出检索结果,i为K内正整数。
在本实施例中,设定所属类别的图像集D中包含图像I={I1,I2......,IN},定 义图像Im和q是查询图像,图像In和d是所属类别的图像集D中的一幅图像, N(Im)为与Im具有互邻关系的所有图像集;N为所属类别的图像集D的图像数 量。
基于待查询图像与所属类别的图像集中各个图像的多个不同相似度算 法,得到多个不同排列顺序的初步检索列表,对于每一组初步检索列表,以 查询图像Im为中心,构建一个无向图G=(V,E,w),如果查询图像Im和In满足互 邻关系,由图像组成(Im,In∈D)为图中节点,两个图像Im和In通过边 edg(eIm,In)∈E连接,该边权重W定义为Im和In的邻域之间的Jaccard相似性系 数J(Im,In)的加权修正值:
Figure BDA0002584037670000061
w(Im,In)=α(Im,In)·J(Im,In);
其中,Im为待查询图像;In为所属类别的图像集中的一幅图像;N为所 属类别的图像集中的图像数量;N(Im)为与Im具有互邻关系的所有图像集; N(In)为与In具有互邻关系的所有图像集;α(Im,In)为增益系数;J(Im,In)为 Jaccard相似性系数。
进一步地,由于采用的相似度算法不同,产生的相似度得分也标准不一, 因此很难比较或权衡各个特征及其增益系数的重要性。此外,初步检索列表 通常包含假阳性图像,尤其是检索图像质量较差时,初步检索列表的排名干 扰性较大,因此相似度评分并不十分可靠,不能准确表示图像之间的相似性 检索顺序。故根据两幅图在对方队列的排名来定义两幅图之间的距离增益系 数:
Figure BDA0002584037670000071
其中,R(Im,In)表示Im在与In具有互邻关系的所有图像集的相似度排名; R(In,Im)表示In在与Im具有互邻关系的所有图像集的相似度排排名。
再进一步地,距离增益系数表示了待查询图像和图像数据集中的图像匹 配时的整体相似度量级,当Im在In的排名中靠前时,R(Im,In)将取较小值,并 且In在Im的排名中也靠前时,R(Im,In)也取得较小值,此时d(Im,In)取得较大值, 这表示距离增益系数是积极的,正向的,有效的。但是由于Im和Im邻域矢量 的局部密度不同,Im在In中的排名权重和In在Im中的排名权重并不能完全等 价,需要距离增益的平衡系数b(Im,In)对距离增益进行矫正。其中,b(Im,In)公 式为:
Figure BDA0002584037670000072
α(Im,In)=d(Im,In)·b(Im,In)。
在本实施例中,通过上述公式得到边权重值,并按照边权重值进行降序 排列,选择前K幅作为待查询图像的无向子图。将基于待查询图像与所属类 别的图像集中各个图像的多个不同相似度算法得到的多个无向子图融合组成 权重图。
在本实施例中,按照权重值大小对权重图中所有图像进行降序排列,选 取前K幅作为检索列表;当需要对检索列表中第i(i=1,2,...,K)个图像进行判断 是否检索正确时,需要对检索列表中前i个图像统一视为一个整体进行score 分值计算,这一数量为i的整体分值当作第i个图像的结果。计算score分值公 式如下:
Figure BDA0002584037670000073
其中,I为位于检索列表且属于所属类别图像且序号在K’内图像的数量; J为位于检索列表且不属于所属类别图像且序号在K’内图像的数量;K’是检 索列表中当前图像的位置;K’为K内正整数K’=1,2,3,...K;wi是检索列表的图 像与待查询图像的特征向量距离;wj是非检索列表的图像与待查询图像的特 征向量距离;
通过该score值公式可知,score值在[0,1]范围之间,并设定阈值为Q, 当score值大于阈值Q,判断此检索结果属于所属类别,否则,不属于所属类 别;
其中,Q为1/类别的数量。
进一步地,wi的公式:
Figure BDA0002584037670000081
其中,yq为查询图像,xi为每一张图像的特征,d为查询图像和检索图 片的相似性度量。
再进一步地,d的公式:
Figure BDA0002584037670000082
其中,相似性通过fr特征函数的差值来衡量,fr是定义在查询图像和检 出图像高维特征向量空间中的特征函数。
本实施例中,基于上述排序融合算法的伪代码为:
Figure BDA0002584037670000083
实施例1
将上述检索方法应用于乳腺钼靶病灶图的检索。
图像数据集包括464个从实际病例中收集的图像。这些数据来源于公共 数据库DDSM和采集自国内某肿瘤医院的病例数据。每幅图像都伴随着与之 配对的医生手工标注的病灶边界图。这些图像均经过病理验证。其中良性病 例177例,恶性病例287例。该实施例属于二分类检索任务。
在本实施例中,上述方法中特征提取方法和排序融合算法有多种,通过 下面实验选出最优乳腺钼靶病灶图像的方法。
1、基于特征的肿块病灶检索
本实验选择手工特征和深度特征在肿块病灶检索中的应用,并使用经典 的按例检索QBE检索方法,如图2所示。
实验方案为:
对每种手工特征进行10轮检索,每一轮从数据集中随机选取15幅图像 作为待检索对象,下一步对该对象进行检索,特征匹配采用欧氏距离进行度 量,只保留排名前30幅图像的结果,并计算检索评价指标;最终计算这10 轮评价指标的平均值作为结果。检索结果如图3所示,其中TD表示 TumorDescriptor肿块病灶特征,MS-C表示多尺度复杂性特征,MS-FD表示 多尺度分维数特征,Haar表示Haar小波特征,DB2表示DB2小波特征,Gabor 表示Gabor特征,EHD表示MPEG-7特征,LBP表示局部二值模式特征。
参照图3,图3中横坐标为不同手工特征提取方法,其按特征维数升序 排列,分别为15维,18维,18维,24维,24维,24维,80维,256维; 纵坐标为检索结果的正确率,正确率的计算方式为检索正确的图片数量与检 索图片总数的比值,检索正确定义为如果检索结果与查询图像类别一致则代 表检索正确,否则不计入正确率。由图中可以观察出,所有特征提取算法在 QBE框架中均能够达到50%以上的检索正确率,即都检索超过15幅检索正 确图像,其中效果最好的是TD肿块病灶特征,其以15维特征就达到了67.53% 的正确率,即正确检索了20幅图像。
参照图4,深度特征通过使用预训练的VGG,Resnet,Inception深度网 络提取,每幅图像都被转换成1024维特征向量。由于深度特征维度较高,存 在冗余信息,使用了PCA(Principal Components Analysis)方法进行降维, 分别将其降至16维、32维、64维、128维、256维、512维、1024维,然后 根据降维后的特征进行QBE检索。
从图4中可以看出,Inception深度特征相比于Vgg和Resnet深度特征, 其在不同维度时均有更好的检索结果。Resnet深度特征在三者中的检索正确 率处于最低。Resent深度特征在维度为1024时达到最好的检索结果,其正确 率为54.13%,在256维时达到次好的结果,正确率为54.51%,且随着维度的 增长其检索准确率呈现先下降再上升的阶段性波动;而Vgg深度特征,当特 征维度为128维,达到最好的检索结果,其检索正确率为45.48%,且随着维 度的增长,其检索正确率保持相对稳定;Inception深度特征当特征维度为16 维时即达到了最好的检索结果,其检索准确率为60.48%,且随着维数的增多, 其检索性能逐渐下降。
参照图5,图5为不同特征方法对应的检索结果对比,其中在深度特征 中选取检索正确率最好情况下对应的特征维度,从左到右分别为15,16,18, 18,24,24,24,80,128,256,256维,由图8可知,深度特征中,Inception 特征能以最小的维度获得最好的检索正确率,但传统的TD特征相对其而言, 能以更小的特征维度,获得比其正确率高出7%的检索正确率。
综上所述,传统手工特征中的TD特征在钼靶病灶的QBE检索方法应用 效果上达到了所有方法中的最优,正确率为67.53%。
2、分类器的选择及分析
在分层体系第一阶段中,比较了8种方法特征提取算法所得到的特征, 分别进行5种分类器进行分类精度的测量。训练集占总样本的65%,测试集 占总样本剩余的35%。
实验中,BP分类器使用Weka工具进行实验,ELM分类器使用Matlab 工具进行实验,SVM,RF和GBDT分类器使用Python的工具库sklearn进行 试验,深度学***台进行模型构建,包括Resnet,VGG和 Inception模型,并且迁移学习预训练数据集采用ImageNet,其中的参数全部 选择默认设置。另外,TD表示TumorDescriptor肿块病灶特征,MS-C表示多 尺度复杂性特征,MS-FD表示多尺度分维数特征,Haar表示Haar小波特征, DB2表示DB2小波特征,Gabor表示Gabor特征,EHD表示MPEG-7特征, LBP表示局部二值模式特征。表1按照各特征的维度进行升序排序,并显示 了传统分类器的分类结果,且表中加粗及加下划线的指标为每种分类器模型 对应的最佳分类结果。
表1
GBDT BP ELM RF SVM
TD <u>0.7727</u> 0.5763 0.6809 0.7070 0.7521
MS-C <u>0.6319</u> 0.5040 0.5812 0.5766 0.6198
MS-FD <u>0.7055</u> 0.5237 0.6609 0.6503 0.6329
Haar <u>0.6809</u> 0.5214 0.6342 0.6564 0.6090
DB2 <u>0.6993</u> 0.5092 0.6124 0.6380 0.6176
Gabor <u>0.6319</u> 0.5178 0.5837 0.6073 0.6109
EHD 0.5828 0.5132 0.5578 0.5644 <u>0.6068</u>
LBP <u>0.6503</u> 0.5178 0.6032 0.6380 0.6198
深度学习有着传统分类器无法企及的拟合能力,但是它的训练过程比较 漫长并且要求训练集十分庞大,才能够支撑起学习的网络结构。在预处理阶 段,深度神经网络分别使用VGG19,Resnet50和Inception V3进行实验。表 2显示了使用深度学习模型的分类结果。
表2
模型 正确率
VGG 0.5818
ResNet 0.5924
Inception 0.6058
对于分类阶段的结果,当特征提取算法使用TD描述符时,分类效果最 好的是GBDT,正确率为0.7727;使用MS-C特征时,GBDT也取得了最好 的效果,为0.6319;同样的,除了在EHD特征中的表现,GBDT都取得了当 前特征下的分类效果最好性能。在EHD特征中取得效果最好的时SVM,正 确率为0.6068。然而在深度学习VGG模型的分类正确率为0.5818,ResNet 模型的正确率为0.5924,Inception模型的正确率为0.6058。
通过上述对比,可以发现深度学习的分类效果不及机器学习,这是由于 乳腺钼靶病灶图像的特殊性造成的。因为乳腺钼靶病灶图像没有丰富的多通 道信息,并且在训练过程中灰度级由于图像缩放而造成的信息丢失都可能使 得深度学习的效果变差。深度学习在乳腺钼靶病灶图像数据库中的分类表现 并不尽如人意,在许多特征方面反而不及传统的机器学习分类器。究其原因, 是因为深度学习有着庞大数量的卷积核,有着过于丰富的非线性拟合能力, 并且对多通道的图像的学习能力更加强大。而乳腺钼靶病灶图像非常特殊, 乳腺钼靶图像是灰度级较高的单通道灰度图,使得深度学习的优势大大丧失。 并且乳腺钼靶病灶图像的灰度级别特别高,深度学习极易在学习过程中进入 过拟合的境地,使其正确率不及传统的机器学习。即使没有过拟合,对于灰 度级过高的单通道图像,也没有很好的提取局部特征来表征乳腺钼靶病灶区 域的能力。反观机器学习,由于已经通过特征提取,图像数据格式由二维变 为一维,去除冗杂信息后的特征便于梳理和整合,配合机器学习往往能在灰 度图像中取得不错效果。
实验证明对乳腺钼靶病灶数据集进行分类时,效果最好的是GBDT决策 树模型。
3、特征提取方法的选择及分析
上述简单介绍了QBE在各种特征下的检索情况,说明了TD特征在QBE 下效果较好,为特征选择的有效性提供了有力支持。但TD特征在不同排序 融合算法下的检索效果需要通过实验进一步证明其有效性,从而选择最有效 的特征提取方式应用到分层体系中。
在本部分实验使用了5种排序融合算法比较了8种传统手工特征对完整 数据集的检索性能,并加入QBE检索结果用以对比排序融合算法的精度。实 验分为10轮,每一轮从数据集中每个语义类随机选取15幅图像作为待检索 对象,下一步对该对象进行检索,只保留排名前30幅图像的结果,计算检索 评价指标。最终计算这10轮评价指标的平均值作为结果。实验中使用欧氏距 离和余弦距离进行相似性度量,检索算法分别为QBE,QSFR,Diffusion_Process,Image_Graph,ComboMNZ和Mutual_Rank。表3展示了 不同检索算法针对不同特征的检索指标Precision结果,表4展示了不同检索 算法针对不同特征的检索指标Average-r结果,表5展示了不同检索算法针对 不同特征的检索指标Average-p结果,表6展示了不同检索算法针对不同特征 的检索指标ANMRR结果;且表中加粗及加下划线的指标为每种排序融合算 法对应的最佳检索结果时的特征。
表3
Figure BDA0002584037670000131
对于Precision指标中,TD特征在所有排序融合算法中都取得了最好的 效果,并在Mutual_Rank算法中取得最高正确率87.64%。除此之外,LBP特 征仅次于TD,且检索正确率明显高于剩余特征。综合来看,TD和LBP特征 在各排序融合算法中处于最高水平,而其他特征的检索正确率处于较低水平, 但是和其他算法的差距不大。所以在Precision指标上TD特征为最优选特征。
表4
Figure BDA0002584037670000132
对于Average-r指标的结果。MS-FD特征取得3次最优,TD特征取得2 次最优,DB2-WL和Gabor特征取得1次最优。综合来看,Average-r指标的 含义是对于检索到正确图像在检索序列中排名的平均值。当检索正确的图片 数量较少并且排名平均时,Average-r指标会偏低,当检索正确的图片数量较 多且排名平均时,Average-r指标会偏高。所以,Average-r指标不会出现越低 越好的情况,因为这可能是由于检索正确图片数量过少造成的。当在检索数 量相当的情况下,Average-r指标越低说明检索算法越好。由此看来,由于MS-FD特征在Precision指标中的表现不佳,处于检索正确图片过少的情况, 所以即使TD特征在Average-r指标最优次数少于MS-FD,但取得了相差不大 的效果,说明TD特征在Average-r指标也取得了高水平的性能。剩余其他算 法,基本处于相当的程度,在一个合理的范围内波动。
表5
Figure BDA0002584037670000141
对于Average-p指标的结果。TD特征在所有排序融合算法中取得最好效 果4次,DB2-WL和LBP特征各取得的1次。但在TD没有取得最优的算法 中,其TD检索结果与最优结果差距很小。综合来看,Average-p指标的含义 是对于检索到正确图片在检索序列靠前程度的平均值。当检索正确的图片在 检索列表名词靠后时,Average-p指标会偏小,当检索正确的图片在检索列表 名词靠前时,Average-p指标会偏大。由此可见Average-p越大说明检索算法 更好。所以TD特征在Average-p指标中取得最优。
表6
Figure BDA0002584037670000151
对于ANMRR指标的结果。TD特征中取得最好效果4次,DB2-WL和 LBP特征各取得一次。综合来看,ANMRR指标是对Average-r指标的归一化 修正,由于Average-r只在检索数量相当的情况下才能发挥应有的度量功能, 所以修正后ANMRR指标越小,说明算法检索越好。
综上所述,TD特征在4项指标中均处于最高水平,所以使用不同检索算 法在不同特征的对比实验中选用TD特征作为基于排序融合的分层图像检索 框架的通用特征提取算法最具有效性。
4、排序融合算法的选择及分析
经过分类器对比实验和特征选择实验,可以完整的进行分类和检索融合 的对比实验阶段。首先将查询图像进行TD特征提取,将提取后的特征矩阵 送入GBDT决策树进行分类,得到查询图像分到各个类的概率值,然后将查 询图像的TD特征矩阵送入数据库进行检索,其分类概率将应用到检索数量 的比例,即检索数量的比例对应分类的概率。最后将检索列表进行评价指标 的度量。
参照图6,Mutual_Rank算法在排序融合算法中取得最好效果。其他算法 的正确率基本处于一个平稳过渡的变化趋势,之间的差距也在0.1以内,说 明检索数量水平相当。证明Average-r指标可以在同一水平进行评价的合理 性。QSRF算法的检索正确率较低,是由于该算法设置的阈值略高,导致低 于该阈值的图像没有被检索到,所以正确率下降。还有一种情况是,由于分 类效果不够优秀,反而拖累了检索算法的性能,说明检索框架存在短板效应, 只有两阶段同时取得较好效果时,总体效果才会有很好的优化结果。
参照图7,对于Average-r指标来说,Mutual_Rank算法仅取得最好效果, 各个算法在Precision指标中处于相当水平,所以Average-r指标有较好的说服 力。检索算法整体趋于相似水平。Mutual_Rank算法对于其他算法高出具有 正确率更高,Average-r指标更低,说明在该算法的检索列表中,检索的正确 图像的排名平均都较为靠前,这是由于该算法对于局部邻域权重的修正,使 得排名靠前。
参照图8,对于Average-p指标来说,Mutual_Rank算法在所有特征中取 得最好效果。Mutual_Rank算法明显优于其他算法,即Average-p指标略大。 这一指标下各算法的差距较近,处于相当的水平范围。这说明Mutual_Rank 算法的检索列表中正确图像的排名普遍靠前,更加印证了Average-r的结论。
参照图9,对于ANMRR指标来说,Mutual_Rank算法在所有特征中都取 得最好效果。MUtual_Rank算法明显优于其他算法,即ANMRR指标略小。 QSRF算法的指标表现不好,这是由于其算法检索列表中的正确图像不连续, 处于过于零散的排布。
总结上述,Mutual_Rank算法取得不错效果的原因,首先是实现了在特 征维度的融合;其次,借鉴并融合了多种排序融合算法的优点;第三,实现 了检索结果的排序融合。传统框架只是对单个结果进行简单的判别正确率及 其他指标,没有将医生的反馈或诊断思维引入。本方法可以通过对检索列表 进行分组集合的方式再对结果归一化,这样能够充分使得医生理解和信任检 索结果。
由于目前最常用框架为QBE,而通过上述可以看出,本文提出的框架图 与QBE相比其在percision上比QBE框架提升了22%,在AVG-R上有明显 的降低,在AVG-P上提升了12%,在ANMRR上降低到0.003,综上所述, 运用分层检索框架其在各项指标上的表现均明显优于QBE框架,因此分层检 索框架在对钼靶病灶图像具有更好的检索性能。
从上述实验可以验证本文提出的基于图的排序融合算法提高了检索精度 并优于已用的排序融合算法,并且基于排序融合的分层检索体系弥补了QBE 的不足,性能优于QBE检索框架。
5.算法性能分析
(1)时间开销
实验中对每种特征都进行10轮计算,每一轮从数据集中每个语义类随机 选取15幅图像作为待检索对象,下一步对该对象进行检索,只保留权重排名 前30幅图像的结果,最终计算这10轮评价指标的平均值作为结果。每轮平 均检索时间的结果如下图:
参照图10,图中每轮平均检索时间结果有明显区分,按时间升序顺序为 QSRF,Mutual_Rank,Image_Graph,Diffusion_Process,ComboMNZ,QBE。 单位秒。由于数据库规模较小,QBE算法的检索时间更短,而排序融合算法 需要构建和融合权重图,增加时间开销。
Mutual_Rank的时间开销可用子数据集规模N,相似度度量方法数量S, 检索数量K表示,则在数据集规模线性增大时,令对查询图像进行分类的时 间开销为O(C),计算查询图像邻域的开销是O(N+lgN),计算查询图像邻域 内的各幅图像邻域开销是O(NlgN·K),计算权重图的开销是O(K2),综合以上 为运用一种相似度度量方法的时间开销为O(NlgN·K+K2+N),所以使用S种 方法总开销为O(S·(lgN·K+K2+N)),融合权重子图的开销是O(K2),重排序的 开销是O(KlgK),计算回归值的开销是O(K2),所以Mutual_Rank的总时间开 销为O(C+S·(lgN·K+K2+N)+K2+KlgK)。
(2)空间开销
本方法在On-line计算时产生的空间开销可以表示为:子特征数据库的空 间开销是O(N),查询图像的邻域空间开销为O(K),查询图像邻域内各图像 的邻域总空间代价为O(K2),存储权重子图的空间开销为O(S·K2),融合权重 图开销为O(K2),重排序、存储回归值的空间开销为O(K)。所以其On-line 空间开销为O(N+K2)。
在Off-line阶段的空间开销可以表示为,给定一个数据集I={I1,I2,...,In},将每个图像作为查询图像并获得相似度分值和初始邻域范围,产生的空间开 销为O(N2+N·K)。所以Mutual_Rank的总空间开销为O(N2+NK+K2)。
通过上述对比,可知本实施例检索精度提高,且时间降低,弥补了QBE 的不足。
在本实施例1中,医生的在实际诊断过程中,由于对乳腺病灶的诊断是 一个非常复杂的信息融合过程,所以对检索结果不能只看作单独队列中的独 立图像个体,而需要对看似独立的图像个体进行整体化。故通过上述方法, score值公式:
Figure BDA0002584037670000181
其中,I为位于检索列表且属于真阳性图像且序号在K’内图像的数量;J 为位于检索列表且属于假阳性图像且序号在K’内图像的数量;K’是检索列表 中当前图片的位置;K’为K内正整数K’=1,2,3,...K;如果score值大于阈值0.5, 可以判断此检索结果为“恶性”病灶,否则,则判断此图像为“良性”。
在本实施例1中,是通过上述对比实验,选出最优的结果,其他的结果 的正确率还是要高于比一般检索方法的正确率。故为了得到最优的结果,对 不同类的图像集,提取的特征、算法也不相同,可通过简单对比计算得出每 类图像最优的特征、算法。
在本实施例中,一种医学图像检索***,包括:
分类器训练模块,用于对图像数据集进行特征训练获得一个分类器模型;
分类器识别模块,用于根据分类器训练模块获得的模型对待查询图像进 行分类,并获得与所述待查询图像的所属类别的图像集;
相似度计算模块,用于计算查询图像和所述所属类别的图像集中所有图 像的特征距离,按照所述特征距离从大到小对所述所属类别的图像集中所有 图像进行排序,并选择前2K幅作为所述待查询图像的邻域;
无向子图生成模块,用于以所述待查询图像的图像特征为中心构建无向 图,并计算所述待查询图像的图像特征与所述领域的各个图像的边权重值, 按照边权重值进行降序排列,并选择前K幅作为所述待查询图像的无向子图;
融合模块,用于将基于所述待查询图像与所述所属类别的图像集中各个 图像的多个不同相似度算法得到的多个无向子图融合组成权重图;
评价指标子模块,用于将权重图中的所有图像按照权重值大小进行降序 排列,并选取前K幅检索图像作为检索列表,将所述检索列表前i幅图像作 为整体计算回归score值,得到第i幅图像的最终检索结果,并输出所述检索 结果,i为K内正整数。
在本实施例中,一种医学图像检索的电子设备,包括处理器和存储器; 所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程 序时,所述处理器用于执行上述一种医学图像检索方法。
在本实施例中,一种计算机可读存储介质,所述存储介质上存储有计算 机程序,当所述计算机程序被处理器执行时,使得所述处理器执行上述一种 医学图像检索方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或 计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方 框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域 的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围 之内。

Claims (9)

1.一种医学图像检索方法,其特征在于,包括:
使用图像数据集训练分类器模型;
使用经过训练的分类器模型使用待查询图像的图像特征进行分类,得到所述待查询图像的所属类别,并从所述图像数据集中得到所述待查询图像的所属类别的图像集;
计算所述待查询图像与所述所属类别的图像集中各个图像的相似度,并按照相似度大小对所述所属类别的图像集中所有图像进行降序排列,选择前2K幅作为所述待查询图像的邻域,K为自然数;
以所述待查询图像的图像特征向量为中心构建无向图,并计算所述待查询图像的图像特征与所述邻域的各个图像特征向量的边权重值,按照边权重值进行降序排列,并选择前K幅作为所述待查询图像的无向子图;
将基于所述待查询图像与所述所属类别的图像集中各个图像的多个不同相似度算法得到的多个无向子图融合组成权重图;
按照权重值大小对所述权重图中所有图像进行降序排列,选取前K幅作为检索列表;
将所述检索列表前i幅图像作为整体计算回归score值,得到第i幅图像的最终检索结果,并输出所述检索结果,i为K内正整数。
2.如权利要求1所述的医学图像检索方法,其特征在于,所述边权重值公式为:
w(Im,In)=α(Im,In)·J(Im,In);
Figure FDA0002584037660000011
α(Im,In)=d(Im,In)·b(Im,In);
其中,w(Im,In)为边权重值;α(Im,In)为增益系数;J(Im,In)为Jaccard相似性系数;Im为待查询图像;In为所属类别的图像集中的一幅图像;N为所属类别的图像集中的图像数量;N(Im)为与Im具有互邻关系的所有图像集;N(In)为与In具有互邻关系的所有图像集;d(Im,In)为距离增益系数;b(Im,In)为距离增益的平衡系数。
3.如权利要求2所述的医学图像检索方法,其特征在于,所述d(Im,In)和所述b(Im,In)的公式分别为:
Figure FDA0002584037660000021
Figure FDA0002584037660000022
其中,R(Im,In)表示Im在与In具有互邻关系的所有图像集的相似度排名;R(In,Im)表示In在与Im具有互邻关系的所有图像集的相似度排排名。
4.如权利要求1所述的医学图像检索方法,其特征在于,所述score值公式:
Figure FDA0002584037660000023
其中,I为位于所述检索列表且属于所属类别图像且序号在K’内图像的数量;J为位于所述检索列表且不属于所属类别图像且序号在K’内图像的数量;K’是所述检索列表中当前图像的位置;K’为K内正整数K’=1,2,3,...K;wi是检索列表的图像与所述待查询图像的特征距离;wj是非检索列表的图像与所述待查询图像的特征距离;
通过该score值公式可知,所述score值在[0,1]范围之间,并设定阈值为Q,当所述score值大于阈值Q,判断此检索结果属于所述所属类别,否则,不属于所述所属类别;
其中,Q为1/类别的数量。
5.如权利要求4所述的医学图像检索方法,其特征在于,所述wi的公式:
Figure FDA0002584037660000024
其中,yq为查询图像,xi为每一张图像的特征,d为查询图像和检索图片的相似性度量。
6.如权利要求5所述的医学图像检索方法,其特征在于,所述d的公式:
Figure FDA0002584037660000025
其中,相似性通过fr特征函数的差值来衡量,fr是定义在查询图像和检出图像高维特征向量空间中的特征函数。
7.一种医学图像检索***,其特征在于,包括:
分类器训练模块,用于对图像数据集进行特征训练获得一个分类器模型;
分类器识别模块,用于根据分类器训练模块获得的模型对待查询图像进行分类,并获得与所述待查询图像的所属类别的图像集;
相似度计算模块,用于计算查询图像和所述所属类别的图像集中所有图像的特征距离,按照所述特征距离从大到小对所述所属类别的图像集中所有图像进行排序,并选择前2K幅作为所述待查询图像的邻域;
无向子图生成模块,用于以所述待查询图像的图像特征为中心构建无向图,并计算所述待查询图像的图像特征与所属领域的各个图像的边权重值,按照边权重值进行降序排列,并选择前K幅作为所述待查询图像的无向子图;
融合模块,用于将基于所述待查询图像与所述所属类别的图像集中各个图像的多个不同相似度算法得到的多个无向子图融合组成权重图;
评价指标子模块,用于将权重图中的所有图像按照权重值大小进行降序排列,并选取前K幅检索图像作为检索列表,将所述检索列表前i幅图像作为整体计算回归score值,得到第i幅图像的最终检索结果,并输出所述检索结果,i为K内正整数。
8.一种医学图像检索的电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的方法。
CN202010675891.6A 2020-07-14 2020-07-14 一种医学图像检索方法及***、电子设备、存储介质 Withdrawn CN111797267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010675891.6A CN111797267A (zh) 2020-07-14 2020-07-14 一种医学图像检索方法及***、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010675891.6A CN111797267A (zh) 2020-07-14 2020-07-14 一种医学图像检索方法及***、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN111797267A true CN111797267A (zh) 2020-10-20

Family

ID=72807004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010675891.6A Withdrawn CN111797267A (zh) 2020-07-14 2020-07-14 一种医学图像检索方法及***、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111797267A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561908A (zh) * 2020-12-24 2021-03-26 北京医准智能科技有限公司 乳腺图像病灶匹配方法、装置及存储介质
CN112862762A (zh) * 2021-01-21 2021-05-28 博云视觉科技(青岛)有限公司 一种基于深度学习的食材特征提取及压缩方法
CN114444564A (zh) * 2021-12-14 2022-05-06 广州锐竞信息科技有限责任公司 一种基于深度神经网络模型的高相似度论文图片比对方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561908A (zh) * 2020-12-24 2021-03-26 北京医准智能科技有限公司 乳腺图像病灶匹配方法、装置及存储介质
CN112561908B (zh) * 2020-12-24 2021-11-23 北京医准智能科技有限公司 乳腺图像病灶匹配方法、装置及存储介质
CN112862762A (zh) * 2021-01-21 2021-05-28 博云视觉科技(青岛)有限公司 一种基于深度学习的食材特征提取及压缩方法
CN114444564A (zh) * 2021-12-14 2022-05-06 广州锐竞信息科技有限责任公司 一种基于深度神经网络模型的高相似度论文图片比对方法

Similar Documents

Publication Publication Date Title
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
Rahman et al. A learning-based similarity fusion and filtering approach for biomedical image retrieval using SVM classification and relevance feedback
Jing et al. Learning in region-based image retrieval
KR101443187B1 (ko) 영상 군집화 기반의 의료 영상 검색 방법
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN111797267A (zh) 一种医学图像检索方法及***、电子设备、存储介质
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN107291895B (zh) 一种快速的层次化文档查询方法
Chatzichristofis et al. Co. vi. wo.: color visual words based on non-predefined size codebooks
Ko et al. Automatic medical image annotation and keyword-based image retrieval using relevance feedback
Kitanovski et al. FCSE at medical tasks of ImageCLEF 2013
Happy et al. An effective feature selection method based on pair-wise feature proximity for high dimensional low sample size data
Sagayam et al. A cognitive perception on content-based image retrieval using an advanced soft computing paradigm
Zare et al. Automatic medical X-ray image classification using annotation
Li et al. A scaled-MST-based clustering algorithm and application on image segmentation
Bouguila On multivariate binary data clustering and feature weighting
Huang et al. Medical image retrieval with query-dependent feature fusion based on one-class SVM
Xu et al. Robust seed localization and growing with deep convolutional features for scene text detection
Qiu et al. Medical image retrieval based on the deep convolution network and hash coding
Shi et al. W-tree indexing for fast visual word generation
García Seco de Herrera et al. Semi–supervised learning for image modality classification
KR20220125422A (ko) 이미지 분류 기반 유명인 식별 방법 및 장치
JP4125951B2 (ja) テキスト自動分類方法及び装置並びにプログラム及び記録媒体
Haldurai et al. Parallel indexing on color and texture feature extraction using R-tree for content based image retrieval
Zare et al. A Medical X-Ray Image Classification and Retrieval System.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201020

WW01 Invention patent application withdrawn after publication