CN117671357B - 基于金字塔算法的***癌超声视频分类方法及*** - Google Patents

基于金字塔算法的***癌超声视频分类方法及*** Download PDF

Info

Publication number
CN117671357B
CN117671357B CN202311646253.1A CN202311646253A CN117671357B CN 117671357 B CN117671357 B CN 117671357B CN 202311646253 A CN202311646253 A CN 202311646253A CN 117671357 B CN117671357 B CN 117671357B
Authority
CN
China
Prior art keywords
scale
attention
features
time
prostate cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311646253.1A
Other languages
English (en)
Other versions
CN117671357A (zh
Inventor
卢旭
梁坤
袁圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202311646253.1A priority Critical patent/CN117671357B/zh
Publication of CN117671357A publication Critical patent/CN117671357A/zh
Application granted granted Critical
Publication of CN117671357B publication Critical patent/CN117671357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30081Prostate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于金字塔算法的***癌超声视频分类方法及***,包括:基于多尺度金字塔网络,提取***癌超声视频的多尺度特征;基于所述多尺度特征,利用3D通道级的注意力机制调制多尺度特征向量;基于所述多尺度特征向量对所述多尺度特征进行处理,构建时空特征;基于所述时空特征,获取时空注意力张量;基于所述时空注意力张量对所述多尺度特征向量进行调制,获取调制后的多尺度输入特征张量;基于所述调制后的多尺度输入特征张量,获取最终的输出特征,完成***癌超声视频分类。本发明允许模型在不同尺度上对***癌超声视频进行特征提取,这使得算法能够更全面地捕获不同细节级别的信息,从而提高了视频分类性能。

Description

基于金字塔算法的***癌超声视频分类方法及***
技术领域
本发明属于医学图像处理和计算机视觉领域,尤其涉及基于金字塔算法的***癌超声视频分类方法及***。
背景技术
近年来,对于静态超声图像数据,基于深度学***衡,并且难以有效利用视频中的时序和空间关系。
目前,为了更好地整合时空信息,视觉Transformers(Vision Transformers)因其卓越的时空信息聚合能力而备受推崇,但是Transformer相关的网络模型在经过大量实验验证之后,不太适用于数量有限的***超声视频数据。为了更好的处理视觉节奏的变化,相关研究人员推出了金字塔网络,金字塔网络结构能对不同速率采样的帧进行处理,这允许在不同深度捕捉快节奏和慢节奏的信息。然而,它们通常未能明确考虑每个通道特征的相对重要性,这可能导致忽视了关键通道特征。此外,它们未能全面考虑视频数据中的时序性和空间关系,这限制了它们在捕获动态信息和空间结构方面的效能。面对这种问题,使用一种三重注意力增强的金字塔算法将是一种可靠的方案,三重注意力机制能够提取到各种关键特征,以提高动态超声视频下的***癌分类的精度。
发明内容
为解决上述技术问题,本发明提出基于金字塔算法的***癌超声视频分类方法及***,采用了一种创新的金字塔分类网络框架,该框架由通道、空间和时间三重注意力机制组成,可以从不同的注意力层面学习病变的形状、纹理、时序信息和空间结构等相关特征。这种方法通过增强多尺度金字塔特征的输出,有效融合不同层级的特征,确保了连续特征间的兼容性。最重要的是,它提升了模型对不同通道特征、时间和空间维度的理解,使***癌的分类更加准确和可靠。
为实现上述目的,本发明提供了基于金字塔算法的***癌超声视频分类方法,包括:
基于多尺度金字塔网络,提取***癌超声视频的多尺度特征;
基于所述多尺度特征,利用3D通道级的注意力机制调制多尺度特征向量;
基于所述多尺度特征向量对所述多尺度特征进行处理,构建时空特征;
基于所述时空特征,获取时空注意力张量;
基于所述时空注意力张量对所述多尺度特征向量进行调制,获取调制后的多尺度输入特征张量;
基于所述调制后的多尺度输入特征张量,获取最终的输出特征,完成***癌超声视频分类。
可选地,提取***癌超声视频的多尺度特征包括:
将输入的***癌超声视频帧数据分成若干个子帧,每个子帧表示不同的时间尺度;
对每个子帧使用所述多尺度金字塔网络进行特征提取,获取不同时间尺度的所述多尺度特征。
可选地,所述多尺度金字塔网络采用基于膨胀的3D MBF-Net结构;
对每个子帧使用所述多尺度金字塔网络进行特征提取包括:
将子帧转化为输入特征图,通过1×1×1卷积和3×3×3卷积后进行通道分割,其中一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为2,以及一个2×2×2的最大池化;另一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为4,以及一个2×2×2的最大池化;再将两个通道的卷积结果串联进行1×1×1卷积,然后与输入特征图相加,再通过通道洗牌后获取输出特征图。
可选地,基于3D通道级的注意力机制调制多尺度特征向量包括:
使用3D通道注意力机制,对多尺度特征进行处理,获取多尺度输入特征张量;
使用自适应平均池化对所述多尺度输入特征张量沿通道维度进行缩减操作,获取预设特征;
对预设特征,通过多层感知机进行通道注意力权重的计算,获取通道注意力权重;
基于所述通道注意力权重,对所述多尺度输入特征张量进行通道加权,获取所述多尺度特征向量。
可选地,基于所述多尺度特征向量对所述多尺度特征进行处理,构建时空特征包括:
基于所述多尺度特征向量对所述多尺度特征进行处理,获取若干时间步的视频帧数据和每个时间步的空间信息;
基于若干时间步的所述视频帧数据和每个时间步的所述空间信息,构建所述时空特征。
可选地,基于所述时空特征,获取时空注意力张量包括:
基于三维卷积操作计算所述时空特征的时序和空间维度上的注意力权重,获取时序注意力和空间注意力;
将所述时序注意力和空间注意力相乘,获取所述时空注意力张量。
可选地,基于所述调制后的多尺度输入特征张量,获取最终的输出特征包括:
对当前尺度的所述调制后的多尺度输入特征张量使用线性变换,生成查询向量;
对除当前尺度外其他尺度的调制后的多尺度输入特征张量使用线性变换,生成键向量;
计算所述查询向量与所述键向量之间的点积,获取原始注意力权重;
对所述原始注意力权重进行softmax操作,获取最终规范化的注意力权重;
基于所述注意力权重,将不同尺度的特征other_xatti进行加权求和,获取最终的输出特征。
为实现上述目的,本发明还提供了基于金字塔算法的***癌超声视频分类***,包括:特征提取模块、通道注意力模块、语义信息划分模块、时空注意力模块、多尺度特征交互融合模块和分类模块;
所述特征提取模块,用于构建多尺度金字塔网络,将输入的***癌超声视频数据分成若干个子帧,每个子帧表示不同的时间尺度,对每个子帧使用所述多尺度金字塔网络进行特征提取,获取不同时间尺度的所述多尺度特征;
所述通道注意力模块,用于使用3D通道级的注意力机制来调制多尺度特征向量;
所述语义信息划分模块,用于根据所述多尺度特征向量处理所述多尺度特征,构建时空特征;
所述时空注意力模块,用于通过三维卷积操作来计算所述时空特征中时序和空间维度上的注意力权重,获取不同尺度的时空注意力特征;
所述多尺度特征交互融合模块,用于对不同尺度的时空注意力特征进行信息交互和融合,获取最终的输出特征;
所述分类模块,用于根据所述最终的输出特征,对输入的***癌超声视频数据进行分类。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供了一种基于多尺度金字塔网络的方法,允许模型在不同尺度上对***癌超声视频进行特征提取。这使得算法能够更全面地捕获不同细节级别的信息,从而提高了视频分类性能。
通过3D通道注意力增强机制,使模型能够自适应地关注不同通道的特征信息,从而提高了特征的判别性。这有助于减少冗余信息并提高***癌超声视频分类准确性。
使用了时空双重注意力增强算法,允许模型在时域和空间域同时捕获重要的特征。这提高了模型对视频序列中关键帧的关注,增强了视频分类性能。
提供了一种多尺度特征交互融合模块,允许不同尺度的特征进行交互和融合。这有助于提高模型对不同尺度信息的理解和综合利用,进一步提高了视频分类性能。
该方法特别针对***癌超声视频分类而设计,具有良好的适用性和性能。它能够有效地处理医学影像数据,提供了一种强大的***癌超声视频分类工具。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的基于三重注意力金字塔算法的***癌超声视频分类方法示意图;
图2为本发明实施例提出的backbone采用基于膨胀的3D MBF-Net结构示意图;
图3为本发明实施例提出的多尺度特征交互融合模块结构示意图;
图4为本发明实施例的基于三重注意力金字塔算法的***癌超声视频分类***流示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本实施例提供了一种基于三重注意力金字塔算法的***癌超声视频分类方法,它从三重注意力角度分析并学习***视频中的通道、空间和时间信息,并使用这些信息对良性和恶性***癌进行可靠的分类。包括以下步骤:
S1、构建多尺度金字塔网络MFP-Net(Multiscale Feature Pyramid Net),允许将输入数据分成不同的子组件,代表不同尺度或层次的信息,有助于同时捕获细节和全局信息,提取多尺度特征;
S2、使用3D通道级的注意力机制来调制多尺度特征向量,确保模型能够更好学习不同通道特征的信息。使用Softmax函数对通道注意力向量进行校正,以确保各个分量的权重有效;
S3、将校正后的通道注意力向量应用于多尺度特征图,作为最终输出,提高多尺度特征的质量和模型性能。处理多尺度特征数据,包括多个时间步的视频帧数据和每个时间步的空间信息,构建时空特征;
S4、使用三维卷积操作计算时序和空间维度上的注意力权重,以确定哪些时间步和区域对分类任务更为重要,确保了时序和空间信息的有效建模;
S5、将时序和空间注意力相乘,生成最终的时空注意力张量,并将其应用到输入特征张量上,提高模型对时空结构的建模能力。
S6、获取增强后的多尺度输入特征,确保它们具有相同的通道数。使用多尺度特征交互融合注意力机制促进不同尺度特征之间的信息交互,生成最终的输出特征。
具体地,本实施例中,步骤S1的具体过程如下:
S11、将输入的***癌超声视频帧数据分成多个子帧,每个子帧表示不同的时间尺度。令输入视频帧为I,拆分后得到子帧集合{I1,I2,...,In},其中n表示子帧的数量。
S12、对每个子帧Ii使用多尺度金字塔网络MFP-Net进行特征提取,使用基于膨胀的3D MBF-Net(3D Multi-Branch FusionNet)作为backbone,如图2所示。令F1,F2,...,Fn分别表示从子帧I1,I2,...,In提取的特征。这可以用以下公式表示:
Fn=3DMBF_Net(In)
S13、对每个子帧提取的特征进行多尺度特征提取,以获取不同时间尺度的信息。使用不同尺寸的卷积核Ki对特征图Fn进行卷积操作,以获取不同尺度的特征表示,Ki表示第i个卷积核。对于每个尺度的特征图Fsi,应用平均池化操作,以减小特征图的空间维度。这可以用以下公式表示:
Fsi=Avg_Pooling(Conv(Fn,Ki))
如图2所示,本实施例中,多尺度金字塔网络采用的backbone是基于膨胀的3DMBF-Net,具体过程如下:
首先,输入特征图的形状为(T,H,W,C),其中T表示时间帧数,H表示高度,W表示宽度,C表示通道数。其次,通过1×1×1卷积和3×3×3卷积后进行通道分割,其中一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为2,以及一个2×2×2的最大池化;另一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为4,以及一个2×2×2的最大池化。再将两个通道的卷积结果串联进行1×1×1卷积,然后与输入特征图相加,再通过通道洗牌后获取包含丰富语义特征的输出特征图。
具体地,本实施例中,通道特征通常是指在卷积神经网络(CNN)中的通道或特征图。对于***癌超声视频,每个通道可能对应不同的信息,例如边缘、纹理、形状、结构等。这些通道特征可以捕获不同层次和语义的信息。
步骤S2的具体过程如下:
S21、为了动态地调整每个通道的重要性,模块使用3D通道注意力机制,给定输入多尺度输入特征张量其中b表示批量大小,c表示通道数,t、h和w分别表示时间、高度和宽度的维度,i代表第几个尺度。
多尺度金字塔网络采用的backbone是基于膨胀的3DMBF-Net,用了不同尺寸大小的卷积核,具体表现为三种尺度,一种是未使用扩张率的原图尺度,另外分别是扩张率为2和4的尺度特征。这里使用3D通道注意力机制,对多尺度特征进行处理,获取的也是三种不同尺度的输入特征张量。网络是对不同尺度特征并行处理的。
S22、使用自适应平均池化对Fsi沿通道维度执行操作,将其缩减为1,得到y=Avg_Pooling(Fsi),通过一个多层感知机(MLP)进行通道注意力权重的计算。MLP包含线性变换和激活函数操作,公式如下所示:
Z=MLP(y)=Sigmoid(Linear(ReLU(Linear(y))))
这里是计算得到的通道注意力权重。
S23、最终,将通道注意力权重Z应用到输入特征张量Fsi上,以加权通道。这可以通过逐元素相乘实现:
Xc_atti=Fsi⊙Z
其中,Xc_atti是经过3D通道注意力调制后的第i个尺度的特征张量。通过这个过程,获得了一个经过通道级注意力机制增强后的多尺度特征表示,使模型能够自适应地关注输入特征的不同通道,提高了模型对通道特征的表征能力,进而提高对于***癌超声视频的分类准确度。
此外,还会附加一个辅助分类头,以接收更强的监督信号,从而增强特征的语义。因此,本实施例中,模型骨干网络的损失计算公式如下所示:
其中是原来的交叉熵损失,是第i个辅助分类头的损失。λi为平衡系数,有效的经过空间语义调整,特征会在空间维度上具有一致的形状和语义。
具体地,本实施例中,时序信息涉及***癌超声视频中不同帧之间的关系。它可以包括短期动态变化,例如***组织的脉动、血流速度的变化,以及长期动态变化,如肿瘤生长和组织结构的演变。空间信息涉及***超声图像中不同位置之间的关系。它可以包括结构特征,如***癌的形状、纹理和组织结构。
所述步骤S4的具体过程如下:
S41、时序注意力机制:通过三维卷积操作来计算时序维度上的注意力,将其表示为ati=Sigmoid(Conv3d(Xc_atti)),时序注意力层生成时序维度的注意力权重,以确定哪些时间步对于***癌视频分类任务更为重要。时序注意力机制通过Sigmoid函数确保生成的注意力权重位于0到1之间。
S42、空间注意力机制:通过三维卷积操作来计算空间维度上的注意力,将其表示为asi=Sigmoid(Conv3d(xc_atti)),空间注意力层生成空间维度的注意力权重,并确定哪些区域对于***癌视频分类任务更为重要。同样,Sigmoid函数确保生成的注意力权重在0到1之间。
作为优选的技术方案,所述步骤S5的具体过程如下:
S51、时空注意力融合:最终的时空注意力是将时序和空间注意力相乘得到的。这个融合机制有助于模型更好地理解输入***癌视频数据的时序和空间关系,并确保捕获了相关信息,以作用于视频分类。将时序注意力at和空间注意力as相乘以获得最终的时空注意力张量aspatio-temporali,并将其应用到多尺度输入特征张量xc_atti上,公示如下:
aspatio-temporali=ati⊙asi
xatti=xc_atti⊙aspatio-temporali
其中,xatti是经过时空注意力调制后的特征张量。将时空注意力模块应用于每个3D通道注意力调制后生成的特征图上,使得模型可以根据输入***癌视频数据的时序和空间信息来自适应地关注不同部分的特征,提高了模型对时空结构的建模能力,进而提高对于***癌超声视频的分类准确度。
具体地,本实施例中,步骤S6的具体过程如下:
S61、对当前尺度i的输入特征xatti使用线性变换,生成查询向量query:
queryi=scales[i](xatti)
S62、对其他尺度j的其他输入特征other_xattj使用线性变换,生成键向量key,再做相应的维度交换,公式如下:
keyj=scales[j](other_xattj)
i和j分别代表不同的尺度,而i表示当前处理的尺度,j表示其他尺度。Xatt_list是一个包含多个尺度特征的列表,i是当前尺度的索引,Xatti是当前尺度的特征,循环会在每个尺度上迭代,i的值将依次是0、1、2等等,表示不同尺度的索引。Xatt_list,即,将从不同尺度提取的特征构建成一个列表Xatt_list。每个元素Xatti表示第i个尺度的特征。列表Xatt_list的长度即为尺度的个数。循环迭代的过程中会不断从列表中获取当前尺度索引所对应的尺度特征。
这是因为在多尺度特征融合中,希望每个尺度的特征都能够与其他尺度的特征进行交互和融合。因此,需要遍历不同的尺度,将当前尺度的特征(Xatti)与其他尺度的特征(other_Xattj)进行交互。通过条件判断i==j,确保在内层循环中跳过当前尺度,以避免自己与自己进行注意力计算和特征融合。
Xatti和other_Xattj是经过金字塔算法以及三重注意力机制调制后的输出特征向量,金字塔是多尺度的,他俩是代表不同尺度的特征向量。
通过这种方式,模块可以有效地处理不同尺度之间的特征关系,并根据每个尺度的特征与其他尺度的特征进行信息交互。这有助于提高特征融合的效果,使不同尺度的特征能够更好地相互影响。
S63、通过计算查询向量与键向量之间的点积,得到原始注意力权重:
attn_weightij=queryi⊙keyj
S64、对点积结果进行softmax操作,以获得规范化的注意力权重:
attn_weightij=softmax(attn_weightij)
S65、使用注意力权重将不同尺度的特征other_xattj进行加权求和,每个尺度i对应的scale_attni包含了来自其他尺度的特征的融合结果,生成融合后的特征:
fused_feature=scale_attni+(attn_weightij⊙other_xattj)
经过Max-Pooling最大池化操作对输出特征进行尺度调整后,将特征图进行连接,并将其传递到一个全连接层,最后通过Softmax函数以生成最终的预测结果。
Max-Pooling有助于降低空间维度并保留重要特征,连接不同尺度的特征可以丰富模型的信息表示,而全连接层则用于学习特征之间的复杂关系,Softmax函数将网络的输出转换为一个概率分布,使得每个类别的预测概率都在0到1之间,最终实现对输入数据的分类。
本实施例通过采用多尺度金字塔特征提取和三重注意力增强技术,使用了深圳市人民医院超声科的***视频数据集对基于三重注意力金字塔算法的***癌超声视频分类网络进行验证,数据集的训练集用于分类网络的训练过程,再对测试集进行预测,比较准确率(ACC)、ROC曲线下面积(AUC)和F1-score;最后使用热力图可视化模型关注到的病灶区域,以完成病灶定位效果验证。
本实施例不仅适用于***癌超声视频,还有望在计算机视觉和视频分析领域中发挥重要作用,提高图像和视频处理任务的性能。
基于与上述实施例中的一种基于三重注意力金字塔算法的***癌超声视频分类算法,本实施例还提了一种基于三重注意力金字塔算法的***癌超声视频分类***,应用于的基于三重注意力机制的金字塔分类算法。为了便于说明,一种基于三重注意力金字塔算法的***癌超声视频分类***实施例的结构示意图中,仅仅示出了与本实施例实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图4,在本申请的另一个实施例中,提供了一种基于三重注意力金字塔算法的***癌超声视频分类***100,该***包括构建多尺度金字塔网络模块101、3D通道注意力模块102、语义信息划分模块103、时空注意力模块104、多尺度特征交互融合模块105、癌症分类预测模块106;
构建多尺度金字塔网络模块101,该网络允许将输入***癌超声视频数据分成不同的子组件,每个子组件代表不同尺度或层次的信息。这有助于同时关注数据的多个层面,从微观到宏观,以捕获更多的细节和全局信息。
3D通道注意力模块102,使用3D通道级的注意力机制来调制多尺度特征向量,以确保模型能够更好地适应不同尺度的信息。这通常包括了对不同通道特征的加权,以关注对癌症分类最重要的信息;
语义信息划分模块103,用于处理多尺度特征数据,包括多个时间步的视频帧数据和每个时间步的空间信息,构建时空特征;
时空注意力模块104,通过三维卷积操作来计算时序和空间维度上的注意力权重,以确定哪些时间步和空间区域对于***癌的分类更为关键,时空注意力模块如图3所示。
多尺度特征交互融合模块105,用于促进不同尺度特征之间的信息交互和融合,通过对多尺度特征的累积融合,生成最终的输出特征。这有助于模型更全面地理解***癌的复杂特征,从而提高模型的分类性能。
癌症分类预测模块106,接受融合后的特征作为输入,并输出一个癌症分类的概率分布。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.基于金字塔算法的***癌超声视频分类方法,其特征在于,包括:
基于多尺度金字塔网络,提取***癌超声视频的多尺度特征;
基于所述多尺度特征,利用3D通道级的注意力机制调制多尺度特征向量;
基于所述多尺度特征向量对所述多尺度特征进行处理,构建时空特征;
基于所述时空特征,获取时空注意力张量;
基于所述时空注意力张量对所述多尺度特征向量进行调制,获取调制后的多尺度输入特征张量;
基于所述调制后的多尺度输入特征张量,获取最终的输出特征,完成***癌超声视频分类;
提取***癌超声视频的多尺度特征包括:
将输入的***癌超声视频帧数据分成若干个子帧,每个子帧表示不同的时间尺度;
对每个子帧使用所述多尺度金字塔网络进行特征提取,获取不同时间尺度的所述多尺度特征;
所述多尺度金字塔网络采用基于膨胀的3D MBF-Net结构;
对每个子帧使用所述多尺度金字塔网络进行特征提取包括:
将子帧转化为输入特征图,通过1×1×1卷积和3×3×3卷积后进行通道分割,其中一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为2,以及一个2×2×2的最大池化;另一个通道进行3×3×3深度卷积、3×3×3深度扩张卷积,扩张率为4,以及一个2×2×2的最大池化;再将两个通道的卷积结果串联进行1×1×1卷积,然后与输入特征图相加,再通过通道洗牌后获取输出特征图。
2.根据权利要求1所述的基于金字塔算法的***癌超声视频分类方法,其特征在于,基于3D通道级的注意力机制调制多尺度特征向量包括:
使用3D通道注意力机制,对多尺度特征进行处理,获取多尺度输入特征张量;
使用自适应平均池化对所述多尺度输入特征张量沿通道维度进行缩减操作,获取预设特征;
对预设特征,通过多层感知机进行通道注意力权重的计算,获取通道注意力权重;
基于所述通道注意力权重,对所述多尺度输入特征张量进行通道加权,获取所述多尺度特征向量。
3.根据权利要求1所述的基于金字塔算法的***癌超声视频分类方法,其特征在于,基于所述多尺度特征向量对所述多尺度特征进行处理,构建时空特征包括:
基于所述多尺度特征向量对所述多尺度特征进行处理,获取若干时间步的视频帧数据和每个时间步的空间信息;
基于若干时间步的所述视频帧数据和每个时间步的所述空间信息,构建所述时空特征。
4.根据权利要求1所述的基于金字塔算法的***癌超声视频分类方法,其特征在于,基于所述时空特征,获取时空注意力张量包括:
基于三维卷积操作计算所述时空特征的时序和空间维度上的注意力权重,获取时序注意力和空间注意力;
将所述时序注意力和空间注意力相乘,获取所述时空注意力张量。
5.根据权利要求1所述的基于金字塔算法的***癌超声视频分类方法,其特征在于,基于所述调制后的多尺度输入特征张量,获取最终的输出特征包括:
对当前尺度的所述调制后的多尺度输入特征张量使用线性变换,生成查询向量;
对除当前尺度外其他尺度的调制后的多尺度输入特征张量使用线性变换,生成键向量;
计算所述查询向量与所述键向量之间的点积,获取原始注意力权重;
对所述原始注意力权重进行softmax操作,获取最终规范化的注意力权重;
基于所述注意力权重,将不同尺度的特征other_xatti进行加权求和,获取最终的输出特征。
6.基于金字塔算法的***癌超声视频分类***,其特征在于,用于实施权利要求1-5任一项所述的基于金字塔算法的***癌超声视频分类方法,所述***包括:特征提取模块、通道注意力模块、语义信息划分模块、时空注意力模块、多尺度特征交互融合模块和分类模块;
所述特征提取模块,用于构建多尺度金字塔网络,将输入的***癌超声视频数据分成若干个子帧,每个子帧表示不同的时间尺度,对每个子帧使用所述多尺度金字塔网络进行特征提取,获取不同时间尺度的所述多尺度特征;
所述通道注意力模块,用于使用3D通道级的注意力机制来调制多尺度特征向量;
所述语义信息划分模块,用于根据所述多尺度特征向量处理所述多尺度特征,构建时空特征;
所述时空注意力模块,用于通过三维卷积操作来计算所述时空特征中时序和空间维度上的注意力权重,获取不同尺度的时空注意力特征;
所述多尺度特征交互融合模块,用于对不同尺度的时空注意力特征进行信息交互和融合,获取最终的输出特征;
所述分类模块,用于根据所述最终的输出特征,对输入的***癌超声视频数据进行分类。
CN202311646253.1A 2023-12-01 2023-12-01 基于金字塔算法的***癌超声视频分类方法及*** Active CN117671357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311646253.1A CN117671357B (zh) 2023-12-01 2023-12-01 基于金字塔算法的***癌超声视频分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311646253.1A CN117671357B (zh) 2023-12-01 2023-12-01 基于金字塔算法的***癌超声视频分类方法及***

Publications (2)

Publication Number Publication Date
CN117671357A CN117671357A (zh) 2024-03-08
CN117671357B true CN117671357B (zh) 2024-07-05

Family

ID=90078357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311646253.1A Active CN117671357B (zh) 2023-12-01 2023-12-01 基于金字塔算法的***癌超声视频分类方法及***

Country Status (1)

Country Link
CN (1) CN117671357B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN116386034A (zh) * 2023-02-16 2023-07-04 武汉大学 一种基于多尺度注意力特征增强的宫颈细胞分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101713189B1 (ko) * 2015-04-20 2017-03-08 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
KR102109372B1 (ko) * 2018-04-12 2020-05-12 가천대학교 산학협력단 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
US11508037B2 (en) * 2020-03-10 2022-11-22 Samsung Electronics Co., Ltd. Systems and methods for image denoising using deep convolutional networks
CN114758383A (zh) * 2022-03-29 2022-07-15 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN115049952B (zh) * 2022-04-24 2023-04-07 南京农业大学 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN114913436A (zh) * 2022-06-15 2022-08-16 中科弘云科技(北京)有限公司 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质
CN115375716A (zh) * 2022-07-22 2022-11-22 桂林电子科技大学 基于多尺度特征融合的新冠病灶分割方法
CN115620118A (zh) * 2022-09-15 2023-01-17 河北汉光重工有限责任公司 一种基于多尺度扩张卷积神经网络的显著性目标检测方法
CN116385382A (zh) * 2023-03-23 2023-07-04 济南大学 一种用于超声图像中内脏肿瘤分割的网络模型

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN116386034A (zh) * 2023-02-16 2023-07-04 武汉大学 一种基于多尺度注意力特征增强的宫颈细胞分类方法

Also Published As

Publication number Publication date
CN117671357A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
Cheng et al. Cspn++: Learning context and resource aware convolutional spatial propagation networks for depth completion
Liao et al. Deep facial spatiotemporal network for engagement prediction in online learning
WO2020133636A1 (zh) ***手术中外包膜智能检测和预警方法及***
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN113673307A (zh) 一种轻量型的视频动作识别方法
CN111932529B (zh) 一种图像分类分割方法、装置及***
CN112668366B (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN112598597A (zh) 一种降噪模型的训练方法及相关装置
Balaji et al. Medical image analysis with deep neural networks
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
Li et al. Non-contact PPG signal and heart rate estimation with multi-hierarchical convolutional network
CN112507920A (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN115761484A (zh) 一种基于遥感图像的云检测方法及装置
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN111839490A (zh) 非接触式心率监测方法及***
CN113435234B (zh) 一种基于双模态视频eeg数据的驾驶员视觉显著性区域预测方法
CN117671357B (zh) 基于金字塔算法的***癌超声视频分类方法及***
Kan et al. Enhancing multi-channel eeg classification with gramian temporal generative adversarial networks
CN115330759B (zh) 一种基于豪斯多夫距离计算距离损失的方法及装置
CN113313133A (zh) 一种生成对抗网络的训练方法、动画图像生成方法
CN116129124A (zh) 一种图像分割方法、***及设备
CN116434343A (zh) 基于高低频双支路的视频动作识别方法
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN116246110A (zh) 基于改进胶囊网络的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant