CN116644782A - 一种交叉过滤transformer的结构、图像语义分割模型及方法 - Google Patents

一种交叉过滤transformer的结构、图像语义分割模型及方法 Download PDF

Info

Publication number
CN116644782A
CN116644782A CN202310463471.5A CN202310463471A CN116644782A CN 116644782 A CN116644782 A CN 116644782A CN 202310463471 A CN202310463471 A CN 202310463471A CN 116644782 A CN116644782 A CN 116644782A
Authority
CN
China
Prior art keywords
loss
model
feature map
representing
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310463471.5A
Other languages
English (en)
Inventor
肖汉光
李利
刘启源
赵时逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202310463471.5A priority Critical patent/CN116644782A/zh
Publication of CN116644782A publication Critical patent/CN116644782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种交叉过滤transformer的结构,包括特征嵌入、多头交叉注意和前馈神经网络,获取当前层的特征图F1和上一层的特征图F2,特征图F1的大小为H,通道为C,特征图F2的大小为H*2,通道是C/2;特征图F1和特征图F2分别为输入;通过2D卷积层将两个分支的特征图F1和特征图F2转换为低维特征向量,分别将特征图F1和特征图F2展平为1D序列,将输入序列划分为多个子序列,然后在不同的子空间中计算子序列的注意力,接着将每一个注意力的输出作为头,并将所有的头拼接在一起;在前馈神经网络中,使用2D卷积来代替完连接层。解决了U‑Net中原始跳跃连接无法降低编码器与解码器之间的语义差距问题。

Description

一种交叉过滤transformer的结构、图像语义分割模型及方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种交叉过滤transformer的结构、图像语义分割模型及方法。
背景技术
目前已有大量CNN模型实现图像语义分割,大多数模型都是基于U-Net进行改进的。如今,U-Net有多种变体,包括U-Net++、U-Net 3+等。U-Net++使用密集跳跃连接弥合了低级和高级语义信息之间的差距,U-Net 3+结合多尺度的特征信息,使用全尺度连接的概念提取了细粒度和粗粒度信息。然而由于全尺度连接的引入,加到了模型的计算复杂度,使得U-Net3+的计算复杂度高达151.69G。
CNN模型无法保留足够的目标空间细节,也无法为密集的预测任务建立长距离的依赖关系。CNN只能从相邻像素中提取局部特征,很难获取全局上下文信息。对于复杂任务,细节信息和全局上下文同等重要,同一种类对象之间在纹理和位置方面可能会存在显著差异。仅仅依靠CNN结构很难识别分割对象之间的相似性,此时需要大量的上下文信息,这就解释了Transformer结构对于分割任务的必要性。
Transformer最初用于自然语言处理领域中进行语言翻译。在过去的两年里,研究人员将Transformer结构引入到计算机视觉分割任务中,并取得了优异的分割效果,引起了该领域的热潮。其中大部分工作都是在U-Net模型的基础上改进的。TransU-Net是第一个在医学图像分割领域使用Transformer结构的模型。Transformer结构被作为一个特征提取器,放置在U-Net编码器的底部。TransU-Net在多器官分割中表现出突出的分割效果,但是TransU-Net的参数量高达105.28M。同样,LeViT U-Net也采用了相同的结合方式,将LeViT模块与U-Net相结合,但是该模型仍然具有52.15M参数。Swin U-Net是第一个仅使用纯Transformer结构(不包括CNN结构)进行医学图像分割的模型。Swin U-Net利用窗口移位机制来降低计算复杂度。UTNet改进了多头注意力机制,并在U型模型的编码器和解码器中添加了Transformer结构。
然而,有人在UCTransNet中指出,U-Net框架中的编码器和解码器没有重大缺陷。他们证明了并非所有的跳跃连接在实验中都是有效的。一些研究学者利用Transformer去重新设计跳跃连接。UCTransNet在跳跃连接中提出了CTrans(通道Transformer)模块,但CTrans是通过并联的方式将通道直接拼接,这大大增加了参数量和计算复杂度。该模型拥有66.44M的参数量和32.93G计算复杂度。此外,在MISSFormer和TransBridge中,Transformer被添加到U-Net的原始跳跃连接中。TransBTS和TransAttU-Net则在用于脑肿瘤分割的编码器和解码器之间的瓶颈中引入了Transformer结构,并取得优秀的分割效果。虽然TransAttU-Net减少了模型的参数量,但是计算复杂度缺大大提升,达到67.81G。有人设计了一个利用Transformer来代替跳跃连接的增强模块,提出了一种称为TransU-Net+的新网络模型,并在变压器编码器底部引入了Transformer结构,其灵感来自TransU-Net和UCTransNet。综上所述,目前仍然存在许多问题与挑战:
(1)U-Net中简单的跳跃连接并不能很好地缩小编码器与解码器之间的语义差距。原始的跳跃连接可以部分恢复由于连续下采样而丢失的空间信息,但对于复杂的分割任务,它无法很好地解决这个问题。
(2)Transformer结构虽然能够弥补CNN模型无法建立长距离依赖关系的缺陷,但是其全局自注意力机制难以捕捉到局部信息。而局部信息与全局信息对于复杂分割任务来说同等重要。
(3)将Transformer应用在图像任务时,将产生大量的计算开销和参数量。例如:TransU-Net模型的参数量达到105.28M,UCTransNet拥有66.44参数量,TransAttU-Net计算复杂度达到67.81G。
(4)Transformer模型需要大量的训练数据才能达到较好的性能,但有的任务中数据量有限,这将会导致模型性能不佳。
这些都是现有技术存在的问题与缺陷。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够解决U-Net中原始跳跃连接无法降低编码器与解码器之间的语义差距问题的交叉过滤transformer的结构。
为了解决上述技术问题,本发明采用了的技术方案:
一种交叉过滤transformer的结构,包括特征嵌入、多头交叉注意和前馈神经网络,特征嵌入表示将输入的图像数据转换为一个向量空间中的表示,使模型处理数据之间的语义信息;多头交叉注意力表示在transformer中使用的一种交叉注意力机制,处理数据之间的局部相关性和全局相关性;前馈神经网络表示transformer中的一个基本组件,可以帮助模型学习数据的非线性特征;
获取当前层的特征图F1和上一层的特征图F2,特征图F1的大小为H,通道为C,特征图F2的大小为H*2,通道是C/2;特征图F1和特征图F2分别为输入;
通过2D卷积层将两个分支的特征图F1和特征图F2转换为低维特征向量,然后分别将特征图F1和特征图F2展平为1D序列,特征嵌入表示为:
Si=Flatten(Conv(Fi))+Posi (1)
Xi=LN(Si) (2)
其中,i=1,2。Conv()是卷积运算,Posi是Fi对应的位置编码,LN()是LayerNormalization,Xi表示MHCA的输入序列,本发明仍然使用多头的方式来提高模型的并行性和计算效率;将输入序列划分为多个子序列,然后在不同的子空间中计算子序列的注意力,接着将每一个注意力的输出作为头,并将所有的头拼接在一起:
MHCAO(X1,X2)=Linear(Concat(Head1,...,Headh)) (4)
其中,h表示头的数量,Head表示头,Q,K,V分别表示查询、键和值,dk表示子空间的维度,Concat表示连接操作,Linear代表线性层,MHCAO是MHCA的输出,在前馈神经网络中,使用2D卷积来代替完连接层,整体结构的表达式如下:
CFTrans=FNN(LN(MHCAO+S1))+(MHCAO+S1) (5)。
作为优化,Q,K,V均能够采用以下方式得到:
首先,对输入序列执行快速傅立叶变换,数学表达式如下:
T(b,u,v,c)=F(X) (6)
其中X∈Rb×w×h×c,b,h,w,c分别代表批大小,宽度,高度,通道数,(u,v)表示在频域中的位置,然后使用全局滤波器W乘以T,其中W∈Rb×(w//2+1)×(h//2+1)×c,数学表达式如下:
T=T*W(0.1) (7)
最后,从傅立叶空间中恢复图像的空间特征,数学表达式如下:
X(b,w,h,c)=F-1(T) (8)
其中(w,h)表示在空间域中的位置。
一种图像语义分割模型,包括U-Net图像分割模型和上述的所述交叉过滤transformer的结构;交叉过滤transformer的结构用于U-Net结构中编码器与解码器之间,以缩小解码器与解码器之间的语义差距。
一种图像语义分割方法,包括以下步骤:
(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,调整图片数据窗宽窗位;
(b)对步骤(a)中得到的图片数据集随机划分为训练集、验证集和测试集,训练集用于对模型进行训练,将训练好的模型放在验证集上进行评判,选取最优权重,训练结束后,在测试集上对模型进行测试;
(c)将划分后的训练集、验证集和测试集进行数据增强,包括水平翻转、垂直翻转和随机旋转;
(d)使用加权BCE_Dice损失函数,BCE损失为Binary CrossEntropy Loss,Dice损失为分割损失,BCE损失把每个像素都当作一个独立样本进行预测,而Dice损失则以一种更“整体”的方式来看待最终的预测输出,采用加权的方式将两个损失函数结合起来,权重选取为0.5,从像素和整体的角度去衡量,总损失公式如下:
LOSS=W1×LDice+W2×LBCE (9)
其中W1表示Dice损失对应的权重,W2表示BCE损失对应的权重,Dice损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值,t代表常数,此外,BCE损失(Binary CrossEntropy Loss)常用来处理二分类问题,而分割问题也是在每个像素上做二分类,该损失会逐个检查每个像素,将对每个像素类别的预测结果(概率分布向量)与独热编码标签向量进行比较,同时BCE损失对分类引导模块也有很好的效果,BCE损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值;(e)获取上述的所述图像语义分割模型;
(f)基于步骤(d)中的BCE_Dice损失函数,对FilU-Net网络模型进行训练,FilU-Net网络模型训练完成后,利用FilU-Net网络模型完成图像语义分割。
相比现有技术,本发明具有以下优点:
(1)与CNN模型相比,本发明提出的模型结构可以建立长距离依赖关系,对于复杂分割任务,拥有更好的分割效果。
(2)与Transformer模型相比,本发明设计的Transformer结构,可以同时捕获全局-局部信息。不仅如此,本发明增强了跳跃连接中的特征表示,更好地缩小编码器与解码器之间的语义差距。此外,大多数Transformer模型拥有很多的参数量和很高的计算复杂度,而本发明的参数量和计算复杂度都很低。
附图说明
图1为本发明中交叉过滤transformer的结构示意图;
图2为本发明中图像语义分割模型的结构示意图;
图3为本发明中图像语义分割的方法流程图;
图4为使用不同模型的分割预测对比图。
具体实施方式
如图1所示,本具体实施方式中的交叉过滤transformer的结构,包括特征嵌入、多头交叉注意和前馈神经网络,特征嵌入表示将输入的图像数据转换为一个向量空间中的表示,使模型处理数据之间的语义信息;多头交叉注意力表示在transformer中使用的一种交叉注意力机制,处理数据之间的局部相关性和全局相关性;前馈神经网络表示transformer中的一个基本组件,可以帮助模型学习数据的非线性特征;
获取当前层的特征图F1和上一层的特征图F2,特征图F1的大小为H,通道为C,特征图F2的大小为H*2,通道是C/2;特征图F1和特征图F2分别为输入;
通过2D卷积层将两个分支的特征图F1和特征图F2转换为低维特征向量,然后分别将特征图F1和特征图F2展平为1D序列,特征嵌入表示为:
Si=Flatten(Conv(Fi))+Posi (1)
Xi=LN(Si) (2)
其中,i=1,2。Conv()是卷积运算,Posi是Fi对应的位置编码,LN()是LayerNormalization,Xi表示MHCA的输入序列,将输入序列划分为多个子序列,然后在不同的子空间中计算子序列的注意力,接着将每一个注意力的输出作为头,并将所有的头拼接在一起:
MHCAO(X1,X2)=Linear(Concat(Head1,...,Headh)) (4)
其中,h表示头的数量,本实施例中设置h=4,Head表示头,Q,K,V分别表示查询、键和值,dk表示子空间的维度,Concat表示连接操作,Linear代表线性层,MHCAO是MHCA的输出,在前馈神经网络中,使用2D卷积来代替完连接层,整体结构的表达式如下:
CFTrans=FNN(LN(MHCAO+S1))+(MHCAO+S1) (5)。
本具体实施例中,Q,K,V均能够采用以下方式得到:
首先,对输入序列执行快速傅立叶变换,数学表达式如下:
T(b,u,v,c)=F(X) (6)
其中X∈Rb×w×h×c,b,h,w,c分别代表批大小,宽度,高度,通道数,(u,v)表示在频域中的位置,然后使用全局滤波器W乘以T,其中W∈Rb×(w//2+1)×(h//2+1)×c,数学表达式如下:
T=T*W(0.2) (7)
最后,从傅立叶空间中恢复图像的空间特征,数学表达式如下:
X(b,w,h,c)=F-1(T) (8)
其中(w,h)表示在空间域中的位置。
如图2所示,一种图像语义分割模型,包括U-Net图像分割模型和上述的所述交叉过滤transformer的结构;交叉过滤transformer的结构用于U-Net结构中编码器与解码器之间,以缩小解码器与解码器之间的语义差距。
大多数Transformer模型都是在U-Net的基础上改进的。CNN可以捕捉细节,而transformer结构可以建立远距离依赖关系。将CNN与Transformer结构相结合可以有效地处理复杂的分割任务。本发明的图像语义分割模型建立在U-Net之上,包括编码器、解码器和跳过连接。编码器和解码器基础块是两个残差结构,防止由于网络的加深而造成的细节丢失。具体而言,该结构具有两个连续的3x3卷积,以增加特征通道。随后,1x1卷积将来自残差连接的信息合并到卷积层中。与U-Net相比,图像语义分割模型专注于设计跳跃连接和瓶颈。由于Transformer的计算复杂度与图像大小呈二次指数关系,因此在这项工作中只修改了第三层(特征图:56×56)和第四层(特征表:28×28)的跳跃连接。交叉过滤transformer的结构解决了简单跳跃连接在融合低级和高级特征方面的不足,从而提高了模型性能。此外,交叉过滤transformer的结构是一个双输入模块,用于结合编码器中当前层和上一层的特征信息。该结构的主要优势在于重新设计了Transformer结构来促进跨级别特征融合并捕获全局-局部信息。这种结构不仅增强了跳跃特征,还建立了模型对远程依赖关系的建模能力。
如图3所示,一种图像语义分割方法,包括以下步骤:
(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,调整图片数据窗宽窗位,并将所有图片裁剪为224×224大小;
(b)对步骤(a)中得到的图片数据集随机划分为训练集、验证集和测试集,训练集用于对模型进行训练,将训练好的模型放在验证集上进行评判,选取最优权重,训练结束后,在测试集上对模型进行测试;
(c)将划分后的训练集、验证集和测试集进行数据增强,包括水平翻转、垂直翻转和随机旋转;
(d)使用加权BCE_Dice损失函数,BCE损失为Binary CrossEntropy Loss,Dice损失为分割损失,采用加权的方式将两个损失函数结合起来,权重选取为0.5,从像素和整体的角度去衡量,总损失公式如下:
LOSS=W1×LDice+W2×LBCE (9)
其中W1表示Dice损失对应的权重,W2表示BCE损失对应的权重,Dice损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值,t代表常数,BCE损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值;
(e)获取上述的所述图像语义分割模型;
(f)基于步骤(d)中的BCE_Dice损失函数,对图像语义分割模型进行训练,图像语义分割模型训练完成后,利用图像语义分割模型完成图像语义分割。
在图像语义分割完成后,可以利用DSC(Dice Similarity Cofficient)和IoU(Intersection over Union)作为分割指标的评价,用于度量两个集合的相似度,取值范围为[0,1]值越大,表示两个集合越相似,计算表达式如下:
其中Xpre表示模型预测出的分割面积,Xmask表示真实标签的分割面积,∩代表交集,∪代表并集。
本实施方式以非小细胞肺癌CT图像病灶分割为例。实验中总共使用了5120张CT图片,按照8:1:1的比例划分训练集、验证集和测试集。并通过dice系数(DSC)、交并比(IoU)、参数量(#Param),每秒浮点计算(FLOPs)来评价算法性能。使用本发明的图像语义分割模型(FilU-Net网络模型)与多种算法对比,结果表1所示,分割掩膜如图4所示。实验结果表明,在本实施例中FilU-Net网络模型拥有最好的分割性能。
表1
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (4)

1.一种交叉过滤transformer的结构,其特征在于:包括特征嵌入、多头交叉注意和前馈神经网络,特征嵌入表示将输入的图像数据转换为一个向量空间中的表示,使模型处理数据之间的语义信息;多头交叉注意力表示在transformer中使用的一种交叉注意力机制,处理数据之间的局部相关性和全局相关性;前馈神经网络表示transformer中的一个基本组件,可以帮助模型学习数据的非线性特征;
获取当前层的特征图F1和上一层的特征图F2,特征图F1的大小为H,通道为C,特征图F2的大小为H*2,通道是C/2;特征图F1和特征图F2分别为输入;
通过2D卷积层将两个分支的特征图F1和特征图F2转换为低维特征向量,然后分别将特征图F1和特征图F2展平为1D序列,特征嵌入表示为:
Si=Flatten(Conv(Fi))+Posi (1)
Xi=LN(Si) (2)
其中,i=1,2。Conv()是卷积运算,Posi是Fi对应的位置编码,LN()是LayerNormalization,Xi表示MHCA的输入序列,将输入序列划分为多个子序列,然后在不同的子空间中计算子序列的注意力,接着将每一个注意力的输出作为头,并将所有的头拼接在一起:
MHCAO(X1,X2)=Linear(Concat(Head1,...,Headh)) (4)
其中,h表示头的数量,Head表示头,Q,K,V分别表示查询、键和值,dk表示子空间的维度,Concat表示连接操作,Linear代表线性层,MHCAO是MHCA的输出,在前馈神经网络中,使用2D卷积来代替完连接层,整体结构的表达式如下:
CFTrans=FNN(LN(MHCAO+S1))+(MHCAO+S1) (5)。
2.根据权利要求1所述的一种交叉过滤transformer的结构,其特征在于:Q,K,V均能够采用以下方式得到:
首先,对输入序列执行快速傅立叶变换,数学表达式如下:
T(b,u,v,c)=F(X) (6)
其中X∈Rb×w×h×c,b,h,w,c分别代表批大小,宽度,高度,通道数,(u,v)表示在频域中的位置,然后使用全局滤波器W乘以T,其中W∈Rb×(w//2+1)×(h//2+1)×c,数学表达式如下:
T=T*W(0.1) (7)
最后,从傅立叶空间中恢复图像的空间特征,数学表达式如下:
X(b,w,h,c)=F-1(T) (8)
其中(w,h)表示在空间域中的位置。
3.一种图像语义分割模型,其特征在于:包括U-Net图像分割模型和权利要求1和2中任意一项的所述交叉过滤transformer的结构;交叉过滤transformer的结构用于U-Net结构中编码器与解码器之间,以缩小解码器与解码器之间的语义差距。
4.一种图像语义分割方法,其特征在于:包括以下步骤:
(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,调整图片数据窗宽窗位;
(b)对步骤(a)中得到的图片数据集随机划分为训练集、验证集和测试集,训练集用于对模型进行训练,将训练好的模型放在验证集上进行评判,选取最优权重,训练结束后,在测试集上对模型进行测试;
(c)将划分后的训练集、验证集和测试集进行数据增强,包括水平翻转、垂直翻转和随机旋转;
(d)使用加权BCE_Dice损失函数,BCE损失为Binary CrossEntropy Loss,Dice损失为分割损失,采用加权的方式将两个损失函数结合起来,权重选取为0.5,从像素和整体的角度去衡量,总损失公式如下:
LOSS=W1×LDice+W2×LBCE (9)
其中W1表示Dice损失对应的权重,W2表示BCE损失对应的权重,Dice损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值,t代表常数,BCE损失的表达式如下:
其中n表示图像中像素点的个数,xi表示第i个像素的真实值,yi表示第i个像素的预测值;
(e)获取权利要求3中的所述图像语义分割模型;
(f)基于步骤(d)中的BCE_Dice损失函数,对FilU-Net网络模型进行训练,FilU-Net网络模型训练完成后,利用FilU-Net网络模型完成图像语义分割。
CN202310463471.5A 2023-04-26 2023-04-26 一种交叉过滤transformer的结构、图像语义分割模型及方法 Pending CN116644782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310463471.5A CN116644782A (zh) 2023-04-26 2023-04-26 一种交叉过滤transformer的结构、图像语义分割模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310463471.5A CN116644782A (zh) 2023-04-26 2023-04-26 一种交叉过滤transformer的结构、图像语义分割模型及方法

Publications (1)

Publication Number Publication Date
CN116644782A true CN116644782A (zh) 2023-08-25

Family

ID=87623763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310463471.5A Pending CN116644782A (zh) 2023-04-26 2023-04-26 一种交叉过滤transformer的结构、图像语义分割模型及方法

Country Status (1)

Country Link
CN (1) CN116644782A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934852A (zh) * 2024-02-06 2024-04-26 上海蜜度数字科技有限公司 同时实现目标检测和语义分割的方法、***、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934852A (zh) * 2024-02-06 2024-04-26 上海蜜度数字科技有限公司 同时实现目标检测和语义分割的方法、***、设备及介质

Similar Documents

Publication Publication Date Title
Gao et al. Blind image quality prediction by exploiting multi-level deep representations
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN111563507B (zh) 一种基于卷积神经网络的室内场景语义分割方法
Azad et al. Enhancing medical image segmentation with TransCeption: A multi-scale feature fusion approach
CN110866938B (zh) 一种全自动视频运动目标分割方法
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution
CN116580241B (zh) 基于双分支多尺度语义分割网络的图像处理方法及***
CN114694039A (zh) 一种遥感高光谱与激光雷达图像融合分类方法及装置
CN116644782A (zh) 一种交叉过滤transformer的结构、图像语义分割模型及方法
Xu et al. RGB-T salient object detection via CNN feature and result saliency map fusion
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
CN115965864A (zh) 一种用于农作物病害识别的轻量级注意力机制网络
Chen et al. Density-imbalance-eased lidar point cloud upsampling via feature consistency learning
Xie et al. Robust facial expression recognition with transformer block enhancement module
CN113705394A (zh) 一种长短时域特征结合的行为识别方法
CN116258914B (zh) 基于机器学习及局部和全局特征融合的遥感图像分类方法
CN116342961B (zh) 基于混合量子神经网络的时间序列分类深度学习***
Yu et al. MagConv: Mask-guided convolution for image inpainting
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及***
CN116630387A (zh) 基于注意力机制的单目图像深度估计方法
Wan et al. Low-level feature enhancement network for semantic segmentation of buildings
Zhang et al. Data and knowledge-driven deep multiview fusion network based on diffusion model for hyperspectral image classification
Wang et al. Summator-Subtractor Network: Modeling spatial and channel differences for Change Detection
Wan et al. Siamese Attentive Convolutional Network for Effective Remote Sensing Image Change Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination