CN117496280A - 基于3d卷积和多标签解码的颅脑ct影像质量控制方法 - Google Patents

基于3d卷积和多标签解码的颅脑ct影像质量控制方法 Download PDF

Info

Publication number
CN117496280A
CN117496280A CN202410004772.6A CN202410004772A CN117496280A CN 117496280 A CN117496280 A CN 117496280A CN 202410004772 A CN202410004772 A CN 202410004772A CN 117496280 A CN117496280 A CN 117496280A
Authority
CN
China
Prior art keywords
craniocerebral
image
attention
inputting
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410004772.6A
Other languages
English (en)
Other versions
CN117496280B (zh
Inventor
江波
张鑫
李传富
李淑芳
宣寒宇
汤进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
First Affiliated Hospital of AHUTCM
Original Assignee
Anhui University
First Affiliated Hospital of AHUTCM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University, First Affiliated Hospital of AHUTCM filed Critical Anhui University
Priority to CN202410004772.6A priority Critical patent/CN117496280B/zh
Publication of CN117496280A publication Critical patent/CN117496280A/zh
Application granted granted Critical
Publication of CN117496280B publication Critical patent/CN117496280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明涉及提供一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法。方法包括:获取待评价的颅脑CT序列图像;将待评价的颅脑CT序列图像输入至训练好的图像质量评价模型的3D卷积网络,提取待评价的颅脑CT序列图像的时空特征;将时空特征输入至图像质量评价模型基于Transformer的多标签解码器,获取查询特征;将查询特征输入至图像质量评价模型的线性分类器,预测待评价的颅脑CT序列图像存在的质量问题。本发明解决了模型效率低、数据不平衡的多标签分类问题,为颅脑CT图像的质量控制提供了新方向。

Description

基于3D卷积和多标签解码的颅脑CT影像质量控制方法
技术领域
本发明涉及计算机图像处理领域,特别涉及一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法。
背景技术
颅脑计算机断层扫描(CT,ComputedTomography)作为医学影像技术的金标准,深受医疗行业的青睐,尤其在脑部疾病的诊断和研究中展现出不可或缺的价值。随着技术进步的加速,CT图像在质量和解析度上都有了显著的提升。然而,如何从众多的CT序列图像中精准地捕捉关键信息并执行多标签分类,依然是一个待攻克的挑战。传统的颅脑CT图像解读方式大多依赖于医生的专业眼光。这种方式不仅操作繁琐、效率较低,还容易受到医生经验差异的影响,存在误解或遗漏的风险。尽管深度学习为2D医学图像分析提供了革命性的突破,但对于3D图像,特别是复杂的时空CT序列,由于其独特的高维结构和特性,所面临的技术难题尚未完全解决。
近些年,Transformer架构在自然图像处理中取得了瞩目的成果,但在医学图像领域,其潜能仍处于初步探索阶段。特别是如何优雅地融合它与3D卷积网络,以充分挖掘时空特征,并实现自适应的特征提取和分类,是一个前景广阔的研究领域。
另外,数据不平衡在多标签任务中一直是个棘手的问题。传统方法在面对标签不平衡时容易偏向于多数类,从而忽视了少数类的关键信息。为此,如何巧妙地引入类别特定权重,确保每个标签都得到公正的对待,以实现更高的分类精确度和稳定性,无疑是一个迫待解决的问题。因此,需要提供一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法。
发明内容
本发明提供一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法。以解决现有技术中无法准确的提取到CT图像的特征并进行多标签分类的问题。
本发明提供的一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法,包括:获取待评价的颅脑CT序列图像;将所述待评价的颅脑CT序列图像输入至训练好的图像质量评价模型的3D卷积网络,提取所述待评价的颅脑CT序列图像的时空特征;将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征;将查询特征输入至所述图像质量评价模型的线性分类器,预测所述待评价的颅脑CT序列图像存在的质量问题。
于本发明一实施例中,所述将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征,包括:将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵;将注意力矩阵输入至所述多标签解码器的前馈层,对所述注意力矩阵进行线性变换,获得查询特征。
于本发明一实施例中,所述多头注意力模块包括多个注意力头,所述将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵,包括:将时空特征输入至多头注意力模块;对每个注意力头:使用查询向量以及对应的权重对所述时空特征进行处理,得到当前注意力头的输出结果;将各注意力头的输出结果进行拼接处理,获得注意力矩阵。
于本发明一实施例中,所述当前注意力头的输出结果为:,其中,/>为第i个注意力头的输出结果,用于计算权重并生成注意力头的输出,Q为查询向量,E为时空特征,/>、/>分别为第i个注意力头对应的查询权重矩阵、键权重矩阵和值权重矩阵。
于本发明一实施例中,所述将查询特征输入至所述图像质量评价模型的线性分类器,预测所述颅脑CT序列图像存在的质量问题,包括:将查询特征输入至线性分类器,对查询特征进行线性投影,得到颅脑CT序列图像中每种质量问题的概率值;选择概率值大于预设阈值的质量问题,作为所述颅脑CT序列图像的预测的质量问题。
于本发明一实施例中,所述图像质量评价模型通过训练获得,其中,训练样本为含标签的多组颅脑CT序列图像,所述图像质量评价模型的参数是基于预测的质量问题和对应标签之间的差异度调整得到。
于本发明一实施例中,将颅脑CT序列图像输入至图像质量评价模型之前,还包括:将作为训练样本的颅脑CT序列图像输入至图像质量评价模型之前,还包括:对作为训练样本的颅脑CT序列图像进行数据增强,所述数据增强的方式包括:对作为训练样本的颅脑CT序列图像中的各切片图像进行增强操作;其中,所述增强操作包括不同预设角度的旋转、图像缩放、图像颜色增强和图像对比度调整。
于本发明一实施例中,所述对作为训练样本的颅脑CT序列图像中的各切片图像进行增强操作之前还包括:对颅脑CT序列图像中的各切片图像按照预设的边长要求进行裁剪。
于本发明一实施例中,所述图像质量评价模型的参数调整方法包括:根据预设的损失函数,计算预测的质量问题和对应标签之间的差异度;基于梯度下降法,根据所述差异度使用反向传播逐层调整所述图像质量评价模型的参数。
于本发明一实施例中,所述损失函数(x)为:/>(x)=,其中,/>为负类别的样本数量与总样本数量的比例,/>为正类别的样本数量与总样本数量的比例,y为标签值,f(x)为预测结果。
本发明提出的一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法,本发明结合了深度学习和传统图像处理技术,有效地提取颅脑CT图像中的时空特征。通过引入3D卷积网络,不仅充分捕获了图像的三维结构信息,还成功降低了计算复杂度和资源消耗。此外,利用Transformer的多标签解码器进行查询更新,有效地强化了对于关键特征的识别与处理。本发明为颅脑CT图像分析提供了一种高效、准确和鲁棒的方法,有效解决了现有技术中无法准确的提取到CT图像的特征并进行多标签分类的问题。
附图说明
图1为本发明实施例提供的基于3D卷积和多标签解码的颅脑CT影像质量控制方法的流程示意图;
图2显示为本发明一实施例中图像质量评价模型的结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
现有的CT多标签质量控制模型存在如下问题:(1)、尽管2D图像已有深入的研究和应用,但由于CT图像的高维度和复杂性,如何针对3D图像进行有效的数据增广以增强模型的泛化能力,以及如何有效提取CT图像的特征进行多标签分类,仍是一个巨大的挑战。(2)、尽管Transformer已在多个领域证明了其效果,但在现有的CT图像处理模型中,可能没有完全利用其能力进行自适应特征提取。(3)、现有模型在处理多标签分类时可能遇到困难,特别是在面对数据不平衡的情况下,没有为不同的类别引入特定的权重因子,可能导致某些类别的识别率不高。
为解决上述问题,提出一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法,结合了深度学***衡数据集时,本发明的损失函数策略确保了各类别在模型训练中的均衡贡献,大大提高了模型在稀有类别上的表现。总体而言,本发明为颅脑CT图像分析提供了一种高效、准确和鲁棒的方法。
请参见图1和图2,基于3D卷积和多标签解码的颅脑CT影像质量控制方法包括如下步骤:
S1、获取待评价的颅脑CT序列图像;
S2、将所述待评价的颅脑CT序列图像输入至训练好的图像质量评价模型的3D卷积网络,提取所述待评价的颅脑CT序列图像的时空特征;
S3、将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征;
S4、将查询特征输入至所述图像质量评价模型的线性分类器,预测所述待评价的颅脑CT序列图像存在的质量问题。
以下对各步骤进行详细说明:
S1、获取待评价的颅脑CT序列图像。
CT扫描仪对患者进行扫描后,生成三维的颅脑CT连续图像。通过均匀采样技术对颅脑CT连续图像进行处理,得到覆盖从颅底到颅顶的颅脑CT序列图像,其中,颅脑CT序列图像包括T张(T的数量不做限定,如T=40、41、42等)颅脑切片图像,每个切片图像表示颅脑不同位置处的横截面图。例如,颅脑CT序列图像为X,其维度为T×C×H×W,T是指序列长度(即颅脑CT序列图像中,含有的颅脑切片图像的数量),C为每张颅脑切片图像的通道数,H和W指的是颅脑切片图像的长和宽。
S2、将所述待评价的颅脑CT序列图像输入至训练好的图像质量评价模型的3D卷积网络,提取所述待评价的颅脑CT序列图像的时空特征。
将颅脑CT序列图像输入至3D卷积网络中,进行时空维度上的特征提取,得到颅脑CT序列图像的时空特征E,该时空特征E的维度为h×w×d,h为时空特征的长度,w为时空特征的宽度,d为时空特征的维度。3D卷积网络的具体细节如下:3D卷积网络包括十个3D卷积层以及六个3D池化层。每个卷积层均使用3×3×3的过滤器,并且步长为1×1×1,这样配置有利于复杂的时空特征提取。网络的第一个池化层采用1×2×2的核大小和1×2×2的步长,这种设计精心考虑了在处理初期阶段保留时间信息的需要。第二到第四个池化层统一使用2×2×2的核大小和2×2×2的步长,有效地减小空间维度的同时保留关键特征表征。第五个池化层略有不同,它采用3×2×2的核和2×2×2的步长,并配有0×1×1的填充,以满足网络架构的要求。最后,第六个池化层调整其核大小为2×1×1,并使用2×1×1的步长,为后续层优化了特征图缩减。
S3、将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征。
将时空特征输入至多标签解码器中,利用Transformer多标签解码器的交叉注意力模块,自适应地挖掘对象特征,通过多头注意力,对象的表示可以被有效地分解为多个部分或角度,这不仅提升了分类的准确性,还增强了模型的可解释性。从而使得获得的查询特征更能够准确体现特征图的相应特点。
具体地,在本发明一实施例中,所述将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征,包括:
将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵;
将注意力矩阵输入至所述多标签解码器的前馈层,对所述注意力矩阵进行线性变换,获得查询特征。
将时空特征输入至多头注意力模块,由于多头注意力模块具有多个注意力头,每个注意力头都对时空特征按照预设的注意力机制进行处理,将多个注意力头的输出结果进行拼接后得到注意力矩阵。考虑到注意力机制可能对复杂过程的拟合程度不够,导致最终得到的模型效果不佳。因此,本发明中,将注意力矩阵输入至前馈层(即前馈神经网络),由于前馈层是由两层线性层组成的全连接网络,通过两层网络增强模型的能力,以增强模型的鲁棒性和准确度。
具体地,在本发明一实施例中,所述多头注意力模块包括多个注意力头,所述将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵,包括:
将时空特征输入至多头注意力模块;
对每个注意力头:使用查询向量以及对应的权重对所述时空特征进行处理,得到当前注意力头的输出结果;
将各注意力头的输出结果进行拼接处理,获得注意力矩阵。
将时空特征输入至多头注意力模块后,对于每个注意力头,当前注意力头的输出结果为如公式(1)所示:
(1)
其中,为第i个注意力头的输出结果,/>用于计算权重并生成注意力头的输出,/>为查询向量,E为时空特征,/>、/>、/>分别为第i个注意力头对应的查询权重矩阵、键权重矩阵和值权重矩阵。在模型训练完毕后,查询向量、查询权重矩阵、键权重矩阵和值权重矩阵的参数就获取完成。具体地,/>函数的相关计算方式如公式(2)所示:
(2)
其中,K为键向量,V为值向量,是键向量的维度,/>是一种归一化函数,T为转置运算。每个注意力头按照公式(1)和(2)计算得到注意力头的输出结果后,根据公式(3)将每个头的输出结果进行拼接处理,得到注意力矩阵:
(3)
其中,是多头注意力机制的输出结果,即注意力矩阵,MultiHeadAttn是多头注意力机制,它是由多个头部组成,每个头部都是一个独立的注意力机制,具体地,函数的计算方式如公式(4)所示:
=/>(4)
其中,为拼接处理函数,h为注意力头的总量,/>是线性变换的权重矩阵,用于将多个头部的拼接输出转换为一个固定大小的输出。 将公式(3)中得到的多头注意力机制的输出结果/>输入至前馈层中,根据公式(5)和(6)进行线性变换,得到查询特征Q:
(5)
(6)
其中,Q为查询特征,FF(x)为前馈层的计算函数,分别表示神经网络层的权重和偏置。
需要说明的是,在模型的训练阶段,使用含标签的多组颅脑CT序列图像作为训练样本,训练模型时,需要使用标签嵌入作为初始的查询向量,其中,n是标签中不同质量问题类别的数量,d是初始查询向量的维度。将3D卷积网络输出的时空特征作为图像嵌入,即将图像嵌入作为多标签解码器的键向量和值向量,根据上述公式(1)至(6),最终将多头注意力模块输出的/>作为模型下一次训练时,使用的初始键向量,反复迭代训练,直至模型训练完成。
S4、将查询特征输入至所述图像质量评价模型的线性分类器,预测所述待评价的颅脑CT序列图像存在的质量问题。
将查询特征输入至线性分类器,实现对查询特征的分类查询,从而获得该颅脑CT序列图像存在的质量问题,其中,质量问题可以为零个,也可以为一个,还可以为多个,从而实现对颅脑CT序列图像的多标签分类。
具体地,在本发明一实施例中,所述将查询特征输入至所述图像质量评价模型的线性分类器,预测所述颅脑CT序列图像存在的质量问题,包括:
将查询特征输入至线性分类器,对查询特征进行线性投影,得到颅脑CT序列图像中每种质量问题的概率值;
选择概率值大于预设阈值的质量问题,作为所述颅脑CT序列图像的预测的质量问题。
其中,预设阈值本领域技术人员可基于实际需要适应性设置,在本实施例中,预设阈值为0.5,选择概率值大于0.5的质量问题,即为该待评价的颅脑CT序列图像存在的质量问题。
在本发明一实施例中,所述图像质量评价模型通过训练获得,其中,训练样本为含标签的多组颅脑CT序列图像,所述图像质量评价模型的参数是基于预测的质量问题和对应标签之间的差异度调整得到。作为模型的训练样本,首先需要对训练样本进行打标签处理,其中,打标签的方式为:通过由人工判断颅脑CT序列图像中存在的问题,对每个颅脑CT序列图像进行打标签处理,得到含有标签的颅脑CT序列图像。其中,标签用于表征颅脑CT序列图像中存在的质量问题。需要说明的是,质量问题的具体内容并不做限定,本领域技术人员可基于实际需要适应性修改,在此不做限定。在本发明一实施例中,质量问题包括但不限于扫描***-X轴-内收;扫描***-X轴-外仰;扫描***-Y轴-左斜;扫描***-Y轴-右斜;扫描***-Z轴-左旋;扫描***-Z轴-右旋;图像偏中心;扫描范围-过大-颅底之下;扫描范围-过大-颅顶之上;扫描范围-过小-颅底之上;扫描范围-过小-颅顶之下;图像伪影-运动伪影;图像伪影-体外异物伪影-耳环;图像伪影-体外异物伪影-假牙;图像伪影-体外异物伪影-其他。
由于一个颅脑CT序列图像可能没有质量问题,可能只有一个质量问题,也可能具有多个质量问题,因此,颅脑CT序列图像的标签以列表的形式表示,其中1表示存在该质量问题,0表示不存在该质量问题。示例性地,若质量问题有五种类别,分别为:图像偏中心;扫描范围-过大-颅底之下;扫描范围-过大-颅顶之上;扫描范围-过小-颅底之上;扫描范围-过小-颅顶之下,标签为[1,0,0,1,0],其表示该颅脑CT序列图像标定的质量问题为:图像偏中心和扫描范围-过小-颅底之上。
模型训练时,在本发明一实施例中,将作为训练样本的颅脑CT序列图像输入至图像质量评价模型之前,还包括:对作为训练样本的颅脑CT序列图像进行数据增强,所述数据增强的方式包括:对作为训练样本的所述颅脑CT序列图像中的各切片图像进行增强操作;其中,所述增强操作包括不同预设角度的旋转、图像缩放、图像颜色增强和图像对比度调整。为了增加数据量,提升模型的鲁棒性,在将训练样本输入至图像质量评价模型进行训练之前,还需要进行数据增强。需要说明的是,数据增强的方式并不限于上述四种,本领域技术人员可基于实际需要,适应性对数据增强方式进行修改,在此不做限定。
进一步地,在本发明一实施例中,所述对作为训练样本的颅脑CT序列图像中的各切片图像进行增强操作之前还包括:对颅脑CT序列图像中的各切片图像按照预设的边长要求进行裁剪。示例性地,可以随机将颅脑CT序列图像中的各切片图像裁剪为原切片图像边长一般的正方形区域。图像裁剪作为其中一种数据增强的方式,不仅增加了图像的变化范围,还可以提升模型鲁棒性,使其能够处理不同类别和大小的图像,此外,还可以显著减少模型的计算量,以提升模型的效率。通过数据增强,能够为模型注入随机性和丰富多样性,帮助模型更好的学习到不同的图像特征和减少过拟合的风险。
在本发明一实施例中,所述图像质量评价模型的参数调整方法包括:
根据预设的损失函数,计算预测的质量问题和对应标签之间的差异度;
基于梯度下降法,根据所述差异度使用反向传播逐层调整所述图像质量评价模型的参数。
在模型训练阶段,需要通过不断迭代训练以使损失函数最小化,从而得到训练好的图像质量评价模型。具体地,每次迭代训练时,图像质量评价模型会根据训练数据,预测该训练数据的质量问题,可通过损失函数,计算预测的质量问题和对应标签之间的差异度,从而根据该差异度反向更新模型参数。为了处理数据不平衡的问题,本发明中还引入了类别特定的权重因子:=/>,/>=/>,并构建公式(7)所示的损失函数:
(x)=/>(7)
其中,(即/>)为负类别的样本数量与总样本数量的比例,/>(即)为正类别的样本数量与总样本数量的比例,y为标签值,f(x)为预测结果。通过不断迭代训练,改变3D卷积网络、多标签解码器以及线性分类器等的相关参数,最终通过多次迭代以使损失函数最小化,得到训练好的图像质量评价模型。
综上所述,本发明公开的一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法。本发明的3D卷积网络结构,能够精准地捕获颅脑CT图像在时空维度上的特征,确保了异常区域的准确识别。此外,本发明使用的图像质量评价模型巧妙地将3D卷积网络与Transformer结构相结合,实现了时空特征的自适应提取。利用Transformer的多标签解码器进行查询更新,有效地强化了对于关键特征的识别与处理。进一步地,通过计算标签不平衡损失及采用类别特定的权重因子,确保了各个类别在模型训练中的均衡贡献。这不仅解决了数据分布不平衡的问题,还确保了模型在少数类别上表现优越。因此,本发明提出的这种方式可用于处理颅脑CT序列图像,从而解决模型效率低、数据不平衡的多标签分类问题,为颅脑CT图像的质量控制提供了新方向。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述方法包括:
获取待评价的颅脑CT序列图像;
将所述待评价的颅脑CT序列图像输入至训练好的图像质量评价模型的3D卷积网络,提取所述待评价的颅脑CT序列图像的时空特征;
将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征;
将查询特征输入至所述图像质量评价模型的线性分类器,预测所述待评价的颅脑CT序列图像存在的质量问题。
2.根据权利要求1所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述将所述时空特征输入至所述图像质量评价模型基于Transformer的多标签解码器,获取查询特征,包括:
将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵;
将注意力矩阵输入至所述多标签解码器的前馈层,对所述注意力矩阵进行线性变换,获得查询特征。
3.根据权利要求2所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述多头注意力模块包括多个注意力头,所述将时空特征输入至所述多标签解码器的多头注意力模块,使用所述多头注意力模块的查询向量对所述时空特征进行处理,获取注意力矩阵,包括:
将时空特征输入至多头注意力模块;
对每个注意力头:使用查询向量以及对应的权重对所述时空特征进行处理,得到当前注意力头的输出结果;
将各注意力头的输出结果进行拼接处理,获得注意力矩阵。
4.根据权利要求3所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述当前注意力头的输出结果为:,其中,为第i个注意力头的输出结果,/>用于计算权重并生成注意力头的输出,Q为查询向量,E为时空特征,/>、/>、/>分别为第i个注意力头对应的查询权重矩阵、键权重矩阵和值权重矩阵。
5.根据权利要求1所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述将查询特征输入至所述图像质量评价模型的线性分类器,预测所述颅脑CT序列图像存在的质量问题,包括:
将查询特征输入至线性分类器,对查询特征进行线性投影,得到颅脑CT序列图像中每种质量问题的概率值;
选择概率值大于预设阈值的质量问题,作为所述颅脑CT序列图像的预测的质量问题。
6.根据权利要求1所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述图像质量评价模型通过训练获得,其中,训练样本为含标签的多组颅脑CT序列图像,所述图像质量评价模型的参数是基于预测的质量问题和对应标签之间的差异度调整得到。
7.根据权利要求6所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,将作为训练样本的颅脑CT序列图像输入至图像质量评价模型之前,还包括:对作为训练样本的颅脑CT序列图像进行数据增强,所述数据增强的方式包括:对作为训练样本的颅脑CT序列图像中的各切片图像进行增强操作;其中,所述增强操作包括不同预设角度的旋转、图像缩放、图像颜色增强和图像对比度调整。
8.根据权利要求7所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述对作为训练样本的颅脑CT序列图像中的各切片图像进行增强操作之前还包括:对颅脑CT序列图像中的各切片图像按照预设的边长要求进行裁剪。
9.根据权利要求6所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述图像质量评价模型的参数调整方法包括:
根据预设的损失函数,计算预测的质量问题和对应标签之间的差异度;
基于梯度下降法,根据所述差异度使用反向传播逐层调整所述图像质量评价模型的参数。
10. 根据权利要求9所述的基于3D卷积和多标签解码的颅脑CT影像质量控制方法,其特征在于,所述损失函数(x)为:/>(x)=,其中,/>为负类别的样本数量与总样本数量的比例,/>为正类别的样本数量与总样本数量的比例,y为标签值,f(x)为预测结果。
CN202410004772.6A 2024-01-03 2024-01-03 基于3d卷积和多标签解码的颅脑ct影像质量控制方法 Active CN117496280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410004772.6A CN117496280B (zh) 2024-01-03 2024-01-03 基于3d卷积和多标签解码的颅脑ct影像质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410004772.6A CN117496280B (zh) 2024-01-03 2024-01-03 基于3d卷积和多标签解码的颅脑ct影像质量控制方法

Publications (2)

Publication Number Publication Date
CN117496280A true CN117496280A (zh) 2024-02-02
CN117496280B CN117496280B (zh) 2024-04-02

Family

ID=89676851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410004772.6A Active CN117496280B (zh) 2024-01-03 2024-01-03 基于3d卷积和多标签解码的颅脑ct影像质量控制方法

Country Status (1)

Country Link
CN (1) CN117496280B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783831A (zh) * 2020-05-29 2020-10-16 河海大学 基于多源多标签共享子空间学习的复杂图像精确分类方法
CA3138679A1 (en) * 2019-04-30 2020-11-05 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
US20200356842A1 (en) * 2019-05-09 2020-11-12 Shenzhen Malong Technologies Co., Ltd. Decoupling Category-Wise Independence and Relevance with Self-Attention for Multi-Label Image Classification
WO2022099325A1 (en) * 2022-01-10 2022-05-12 Innopeak Technology, Inc. Transformer-based scene text detection
CN115409812A (zh) * 2022-09-01 2022-11-29 杭州电子科技大学 一种基于融合时间注意机制的ct图像自动分类方法
CN116091833A (zh) * 2023-02-20 2023-05-09 西安交通大学 注意力与Transformer高光谱图像分类方法及***
CN116245832A (zh) * 2023-01-30 2023-06-09 北京医准智能科技有限公司 一种图像处理方法、装置、设备及存储介质
US20230401717A1 (en) * 2022-06-10 2023-12-14 Adobe Inc. Transformer for efficient image segmentation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3138679A1 (en) * 2019-04-30 2020-11-05 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
US20200356842A1 (en) * 2019-05-09 2020-11-12 Shenzhen Malong Technologies Co., Ltd. Decoupling Category-Wise Independence and Relevance with Self-Attention for Multi-Label Image Classification
CN111783831A (zh) * 2020-05-29 2020-10-16 河海大学 基于多源多标签共享子空间学习的复杂图像精确分类方法
WO2022099325A1 (en) * 2022-01-10 2022-05-12 Innopeak Technology, Inc. Transformer-based scene text detection
US20230401717A1 (en) * 2022-06-10 2023-12-14 Adobe Inc. Transformer for efficient image segmentation
CN115409812A (zh) * 2022-09-01 2022-11-29 杭州电子科技大学 一种基于融合时间注意机制的ct图像自动分类方法
CN116245832A (zh) * 2023-01-30 2023-06-09 北京医准智能科技有限公司 一种图像处理方法、装置、设备及存储介质
CN116091833A (zh) * 2023-02-20 2023-05-09 西安交通大学 注意力与Transformer高光谱图像分类方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN MIAO等: "Transformer-Based Recognition Model for Ground-Glass Nodules from the View of Global 3D Asymmetry Feature Representation", SYMMETRY, vol. 15, no. 12, 12 December 2023 (2023-12-12), pages 3 - 8 *
徐美香;孙福明;李豪杰;: "主动学习的多标签图像在线分类", 中国图象图形学报, no. 02, 28 February 2015 (2015-02-28), pages 85 - 92 *

Also Published As

Publication number Publication date
CN117496280B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
Chin et al. Incremental kernel principal component analysis
CN110705555B (zh) 基于fcn的腹部多器官核磁共振图像分割方法、***及介质
Cao et al. Fast deep neural networks with knowledge guided training and predicted regions of interests for real-time video object detection
Karami et al. Noise reduction of hyperspectral images using kernel non-negative tucker decomposition
Faryna et al. Tailoring automated data augmentation to H&E-stained histopathology
CN110211165B (zh) 一种基于异步深度强化学习的图像多模态配准方法
CN111583285B (zh) 一种基于边缘关注策略的肝脏影像语义分割方法
Zhou et al. Volume upscaling with convolutional neural networks
CN113379655B (zh) 一种基于动态自注意力生成对抗网络的图像合成方法
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及***
KR102645698B1 (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN113012140A (zh) 基于深度学习的消化内镜视频帧有效信息区域提取方法
Wu et al. Synthesizing lesions using contextual GANs improves breast cancer classification on mammograms
CN111881920B (zh) 一种大分辨率图像的网络适配方法及神经网络训练装置
Love et al. Topological deep learning
CN117496280B (zh) 基于3d卷积和多标签解码的颅脑ct影像质量控制方法
CN116311472B (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法
CN116385454A (zh) 一种基于多阶段聚合的医学图像分割方法
CN113689548B (zh) 一种基于互注意力Transformer的医学影像三维重建方法
CN113343770B (zh) 一种基于特征筛选的人脸防伪方法
CN113689544B (zh) 一种跨视图几何约束的医学影像三维重建方法
CN112784800B (zh) 一种基于神经网络和形状约束的人脸关键点检测方法
CN114283301A (zh) 一种基于Transformer的自适应医学影像分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant