CN116934820A - 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及*** - Google Patents

基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及*** Download PDF

Info

Publication number
CN116934820A
CN116934820A CN202310933471.7A CN202310933471A CN116934820A CN 116934820 A CN116934820 A CN 116934820A CN 202310933471 A CN202310933471 A CN 202310933471A CN 116934820 A CN116934820 A CN 116934820A
Authority
CN
China
Prior art keywords
image
window
attention
size
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310933471.7A
Other languages
English (en)
Inventor
邵佳维
郭春生
应娜
杨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202310933471.7A priority Critical patent/CN116934820A/zh
Publication of CN116934820A publication Critical patent/CN116934820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30124Fabrics; Textile; Paper

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***,方法包括:处理布匹图像对,并划分为训练集和测试集;创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,分别提取固定图像和移动图像的特征;来自双通道网络的特征块通过交换输入的顺序,通过两个CAT的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;将交叉融合后的特征块之间分别采用跳跃连接进行聚合特征,获取输出形变场;利用得到的形变场和空间变换网络对布匹图像进行变形,得到配准后的图像,并计算固定图像和配准图像的相似度;将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素识别瑕疵布匹。

Description

基于交叉注意力的多尺寸窗口Transformer网络布匹图像配 准方法及***
技术领域
本发明属于布匹图像配准技术领域,具体涉及一种注意力机制的Transformer结构和多尺寸窗口的可形变图像配准方法及***。
背景技术
随着数字图像获取技术的快速发展,人们能够轻松地获得不同视角和不同时间点的图像数据。这些图像数据在海洋资源探测、医学影像诊断、遥感图像处理、目标异常检测等许多计算机视觉领域中扮演着重要角色。如声呐图像已经应用于海底目标检测、目标跟踪、路径规划等许多水下任务;医学图像在影像应用、病理分析中发挥着重要作用;遥感图像已经广泛应用于地图测绘、环境监测、天气预报等领域。然而,由于图像获取条件的不同,图像之间可能存在旋转、平移、缩放、畸变等变换,甚至图像对之间会出现比较复杂的非线性关系,导致图像之间不完全匹配,使得后续的图像分析和处理变得困难。因此在图像分析和处理之前都需要对图像进行配准。
目前,图像配准已经成为计算机视觉领域中重要问题之一,其研究在视频分析、模式识别和运动目标等方面有着广泛应用。但是在收集图像时,由于环境的复杂性和设备本身的限制,采集到的图像可能会受到噪声污染,甚至存在多种形式的失真。这些因素会导致图像具有较低的信噪比和分辨率以及纹理特征不明显等特性,并且不同视点之间的图像会呈现出比较复杂的非线性关系。另外,随着全球图像数据量的迅速增加,以及图像数据应用领域的不断拓展,对图像配准方法的速度和精度都提出了更高的要求,给图像配准带来了很大的挑战,需要不断改进图像配准方法。
传统的图像配准是基于SIFT、SURF、ORB等点特征。点特征在图像配准的特殊性下有效减少了错误匹配的数量,通过建立图像变换模型达到图像配准的目的。随着深度学习的发展,神经网络被用于图像配准。图像配准是通过神经网络提取图像特征。因此,它优于传统的图像配准方法。监督图像配准方法通过神经网络获得输入图像之间的变形模型参数,实现图像配准。无监督图像配准方法不需要手动构建图像变形模型并通过相似度评估图像匹配。由于图像配准中图像之间的复杂非线性变换,构建参数变形模型通常具有挑战性。近年来,基于形变场的无监督图像配准越来越受到关注。形变场是通过构建待配准图像各个像素的矢量位移,来实现图像的匹配。
现有的基于注意力机制的Transformer结构虽然能对图像进行匹配,但传统的Transformer仍然采用与单图像任务相同的注意力机制,只关注一个图像的相关性,而忽略了图像对之间的映射关系,限制了Transformer寻找有效的配准特征进行精细配准。另外,在提取图像特征的过程中,全局对应的方式不能精细提取特征,限制了图像间不同信息的对应关系,可能会导致关键结构和细节的缺失等问题。
发明内容
为解决只关注单一图像的相关性和部分特征丢失的问题,本发明提出了一种基于交叉注意力的多尺寸窗口Transformer网络图像配准方法及***。本发明首先通过交叉注意力学习图像之间对应关系,利用其注意力机制计算图像对的相关性,促使特征在网络中自动匹配;其次,通过基于交叉注意力的特征融合模块来不断匹配和融合特征,将两个输入特征融合成一个注意信息,共享参数进行特征匹配;最后,利用多尺寸窗口着重于可变形配准的局部变换,获取细节信息,同时约束基本窗口和不同大小的搜索窗口之间的注意力计算。本发明提高了图像配准的精度,并且有利于应用在生产布匹过程中识别出瑕疵布匹,提高生产效率。
为实现上述目的,本发明采用以下技术方案:
基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其包括步骤:
S1.处理真实的布匹图像,并划分为训练集和测试集;
S2.创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,然后分别提取固定图像和移动图像的特征;
S3.来自双通道网络的特征块通过交换输入的顺序,通过两个Cross AttentionTransformer(CAT)中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
S4.将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,最终获取输出形变场;
S5.利用得到的形变场和空间变换网络对布匹图像进行变形,得到配准后的图像,并计算固定图像和配准图像的相似度;
S6.将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹。
进一步的,步骤S1中,对数据进行数据处理包括图像裁剪,得到训练集和测试集,并对训练集进行数据增强,将数据增强后的训练数据集输入网络。
进一步的,步骤S2中,利用双并行网络分别提取移动图像和固定图像的特征,两个网络通过特征融合进行通信,并且上下两个网络作用机制相同。这两个并行网络遵循Unet结构的编码和解码部分,但用Cross Attention Transformer块代替卷积,这些块在两个网络之间的注意力特征融合模块中发挥重要作用,促进特征在网络中自动匹配。本发明的网络不仅垂直交换交叉图像信息,并能保持水平细化功能。因为上下并行网络的机制相同,因此接下来介绍其中一个网络,下面称之为单通道网络。
单通道Transformer架构,其过程如下:第一步,将输入的彩色图像通过图像块分割模块裁剪成没有重复区域的图像块,每个图像块都可以看成一个标记,其作用是连接输入图像像素的RGB值。在单通道网络中,把图像块大小设置为4×4,所以单个图像块的特征维度为48。在分割好的图像块上使用一个线性嵌入层,其作用是将维度为48的图像块映射到一个任意维度(C)。在这些图像块标记上通过几个改进的Transformer块来提取特征,没有改变Transformer块标记的数量(H/4×W/4),并与线性嵌入模块一起被称为“步骤1”。
随着网络的深化,为了获取多层次特征,使用图像块合并模块去减少标记的数量。假定输入图像块合并模块的是一个4×4的特征图,图像块合并模块首先将相同颜色的块拼接在一起,形成四个2×2的图像块;然后连接这四个图像块的特征进行归一化操作;最后通过一个线性层做线性变化。此时,标记的数量则会减少为之前的4倍(2×分辨率的下采样),而输出维度则会变为2C。
接着应用Transformer块进行特征交换,保持分辨率为H/8×W/8。将图像块合并模块和特征转换的Transformer块表示为“步骤2”。重复上述“步骤2”过程两次,记作“步骤3”和“步骤4”,此时输出分辨率分别为H/16×W/16和H/32×W/32。
进一步的,步骤S3中,利用两个CAT块将两个输入特征融合成一个注意力信息,共享参数进行特征匹配;并且利用CAT块中的多尺寸窗口方法以实现精确的局部对应,最终生成精细的形变流场。来自并行子网络的移动图像特征Tm和固定图像特征Tf通过交换输入的顺序,通过两个CAT块获得相互注意力。然后另两个注意力输出返回到原来的通道,得到融合特征Tmf和Tfm,并为下一步更深入的交换信息做准备。在一个特征融合模块中,总共有k次通信,以获得足够的相互信息。通过两个网络之间的注意特征融合模块,来自不同语义信息的不同网络的特征进行频繁交换信息,因此,本发明的网络可以保持学习多层次语义特征来进行最终的精细配准。
这种新的注意力机制CAT,用于图像对之间充分交换信息,统筹了匹配特征的表征性和多尺度性。假设b和s分别以不同的方式分为两组窗口,基本窗口集Sba和搜索窗口集Sse,用于下一个基于窗口的注意力计算。CAT块的目的是通过注意力机制计算出从输入特征b到特征s具有相应相关性的新特征标记。Sba和Sse具有相同的个数,但窗口大小不同。将Sba中的每个基窗口投影到查询集查询中,将每个搜索窗口通过线性层投影到知识集键和值中。然后,基于窗口的多头交叉注意(W-MCA)计算两个窗口之间的交叉注意力,并将注意力添加到基窗口中,使每个基窗口从搜索窗口中获得相应的加权信息。最后,将新的输出集发送到具有GELU非线性的多层感知机中,为了提高其学习能力。在每个W-MCA和每个MLP模块之前都使用了一个LayerNorm(LN)层,保证每一层有效进行。
多尺寸窗口分区包括两种不同的方法,窗口分区(WP)和窗口区域分区(WAP),以将输入特征标记b和s划分为不同大小的窗口。WP划分特征标记直接进入大小为n×h×w的基窗口集Sba中,WAP随着α、β的放大倍数扩大窗口大小。因此,基础和搜索窗口的大小计算为:
hba,wba=h,w
hse,wse=α·h,β·w
其中,hba、wba为基本窗口的大小,而hse、wse为搜索窗口的大小;为了获得相同数量的两个窗口集,WAP利用一个滑动窗口,并将步幅设置为基本窗口大小,因此Sse的大小为n×α·h×β·w。通过不同大小的对应窗口,CAT块有效地计算了两个特征标记之间的交叉注意力,避免大跨度搜索而实现准确交换信息。
注意力表示的是将查询和一组键值对映射到输出的函数,其中查询、键、值和输出都为向量的形式。本发明提出的W-MCA计算的是基本窗口和搜索窗口之间的交叉注意力,以获取精确的对应关系,K、Q、V表示图像块映射出来的特征,其中K表示基础窗口映射出来的特征,Q和V来自搜索窗口。其计算结果的值为加权和,其中分配给每个值的权重由查询和相应键之间的兼容性函数计算得到。
W-MCA采用多头注意力来充分表示子空间,进行的是查询和键的点积运算,首先把每个键都除以接着使用一个softmax函数来得到这些值的权重。因此,交叉注意力计算表示为:
其中,Qba、Kse、Vse是查询矩阵、键矩阵和值矩阵。Qba∈Rn×s×c是Sba和Kse的线性投影,Vse∈Rn×μ·s×c是Sse的线性投影,s=h×w和μ=α·β的线性投影,c是每个特征标记的维数。
进一步的,步骤S4中,将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,最终获取输出形变场;
进一步的,步骤S5中,网络的损失函数由两部分组成:一是相似度损失,用MeanSquared Error Mean Squared Error(MSE)来表示,用来度量移动图像和固定图像的相似度,并且惩罚二者之间的差异。二是正则化损失,它由一个超参数和一个正则项组成,正则项是对估计的形变场增加一个平滑性约束,防止形变场折叠程度过高。
MSE表示真实值与估计值差平方的期望,它的值越小,表明预测效果越好。移动图像与预测图像的均方误差表示为:
其中P表示移动图像和固定图像中的像素点,Ω表示整个图像区域。
正则化是对形变场中的折叠进行惩罚,表示为:
其中,R(θ)是一个正则项,表示在P点在X和Y方向上的梯度。若用/>表示损失正则项的系数,则损失函数表示为:
进一步的,步骤S6中,将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹图像。这里采用设置阈值的思路,阈值大小和窗口大小事先设置,通过滑动窗口依次判断窗口内像素的平均值是否超过阈值,若超过阈值则该图像存在瑕疵,反之则没有瑕疵。
本发明还公开了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准***,用于执行上述方法,其包括如下模块:
数据集制作模块:将布匹图像对进行裁剪,并进一步划分成训练集和测试集;
双通道Transformer结构模块:创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,然后分别提取固定图像和移动图像的特征;
特征融合模块:来自双通道网络的特征块通过交换输入的顺序,通过两个CrossAttention Transformer(CAT)中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
特征聚合模块:将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,最终获取输出形变场;
训练模块:利用均方误差损失和正则化损失对模型进行训练;
判定瑕疵模块:将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹。
与现有技术相比,本发明的基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***,首先,本发明利用基于交叉注意力的Transformer块融合不同尺度的信息,有效应对图像对之间的映射问题;另外,利用多尺寸窗口着重于可形变的局部变换,获取细节特征以提高配准效果。本发明在交叉注意力Transformer架构上,不断匹配和融合图像对特征,将两个输入特征融合成一个注意信息,共享参数进行特征匹配,可以更好的应对图像配准问题,从而完成瑕疵布匹识别的任务。
附图说明
图1是本发明实施例一提供的基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法流程图。
图2是本发明实施例一提供的步骤S12中单通道Transformer架构示意图。
图3是本发明实施例一提供的步骤S13中特征融合模块的示意图。
图4是本发明实施例一提供的步骤S13中多尺寸窗口方法示意图。
图5是本发明实施例一提供的步骤S13中交叉注意力的多尺寸窗口工作示意图。
图6是本发明实施例一提供的基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准***框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***。
实施例一
如图1所示,本实施例提供了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其具体实现流程包括如下步骤:
S11.将提前收集到的布匹图像裁剪到规定大小,并进一步划分为训练集和测试集,并对训练集进行数据增强;
S12.创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,然后分别提取固定图像和移动图像的特征;
S13.来自双通道网络的特征块通过交换输入的顺序,利用两个Cross AttentionTransformer(CAT)中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
S14.利用跳跃连接的方式将交叉融合后的特征块分别进行聚合,获取输出形变场;
S15.利用平滑度损失对形变场进行约束,并使用相似度损失进行训练;
S16.利用配准后的布匹图像与固定图像进行差分操作得到的像素来识别瑕疵布匹。
本实施例各步骤具体介绍如下:
在步骤S11中,将获取的布匹图像进行裁剪,大小为512x512,并按5:1比例划分为训练集和测试集。同时训练数据集使用了数据增强,数据增强的方式是对训练集图像进行放射变换之后加入弹性形变,其中的比例因子α和弹性系数σ可以根据获取的不同布匹图像进行调整或更改。
在步骤S12中,利用双并行网络分别提取移动图像和固定图像的特征,两个网络通过特征融合模块进行通信,并且上下两个网络作用机制相同。这两个并行网络遵循Unet结构的编码和解码部分,但用CAT(Cross Attention Transformer)块代替卷积,这些块在两个网络之间的注意力特征融合模块中发挥重要作用,促进特征在网络中自动匹配。网络不仅垂直交换交叉图像信息,并能保持水平细化功能。因为上下并行网络的机制相同,因此接下来介绍其中一个网络,下面称之为单通道网络。
图2显示了单通道Transformer架构,其过程如下:第一步,将输入的彩色图像通过图像块分割模块裁剪成没有重复区域的图像块,每个图像块都可以看成一个标记,其作用是连接输入图像像素的RGB值。在单通道网络中,把图像块大小设置为4×4,所以单个图像块的特征维度为48。然后在分割好的图像块上使用一个线性嵌入层,其作用是将维度为48的图像块映射到一个任意维度(C)。在这些图像块标记上通过几个改进Transformer块来提取特征,没有改变Transformer块标记的数量(H/4×W/4),并与线性嵌入模块一起被称为“步骤1”。
随着网络的深化,为了获取多层次特征,使用图像块合并模块去减少标记的数量。假定我们输入图像块合并模块的是一个4×4的特征图,图像块合并模块首先将相同颜色的块拼接在一起,形成四个2×2的图像块;然后连接这四个图像块的特征进行归一化操作;最后通过一个线性层做线性变化。此时,标记的数量则会减少为之前的4倍(2×分辨率的下采样),而输出维度则会变为2C。
接着应用Transformer块进行特征交换,保持分辨率为H/8×W/8。将图像块合并模块和特征转换的Transformer块表示为“步骤2”。重复上述“步骤2”过程两次,记作“步骤3”和“步骤4”,此时输出分辨率分别为H/16×W/16和H/32×W/32。
在步骤S13中,利用两个CAT块将两个输入特征融合成一个注意力信息,共享参数进行特征匹配;并利用CAT块中的多尺寸窗口方法以实现精确的局部对应,最终生成精细的形变流场。如图3(a)所示,来自并行子网络的移动图像特征Tm和固定图像特征Tf通过交换输入的顺序,通过两个CAT块获得相互注意力。另两个注意力输出返回到原来的通道,得到融合特征Tmf和Tfm,并为下一步更深入的交换信息做准备。在一个特征融合模块中,总共有k次通信,以获得足够的相互信息。通过两个网络之间的注意特征融合模块,来自不同语义信息的不同网络的特征进行频繁交换信息,因此,本发明的网络可以保持学习多层次语义特征来进行最终的精细配准。
这种新的注意力机制CAT,用于图像对之间充分交换信息,统筹了匹配特征的表征性和多尺度性。如图3(b)所示,b和s分别以不同的方式分为两组窗口,基本窗口集Sba和搜索窗口集Sse,用于下一个基于窗口的注意力计算。CAT块的目的是通过注意力机制计算出从输入特征b到特征s具有相应相关性的新特征标记。Sba和Sse具有相同的个数,但窗口大小不同。将Sba中的每个基窗口投影到查询集查询中,将每个搜索窗口通过线性层投影到知识集键和值中。然后,基于窗口的多头交叉注意(W-MCA)计算两个窗口之间的交叉注意力,并将注意力添加到基窗口中,使每个基窗口从搜索窗口中获得相应的加权信息。最后,将新的输出集发送到具有GELU非线性的多层感知机中,为了提高其学习能力。在每个W-MCA和每个MLP模块之前都使用了一个LayerNorm(LN)层,保证每一层有效进行。
多尺寸窗口分区包括两种不同的方法,窗口分区(WP)和窗口区域分区(WAP),以将输入特征标记b和s划分为不同大小的窗口。如图4所示,WP划分特征标记直接进入大小为n×h×w的基窗口集Sba中,WAP随着α、β的放大倍数扩大窗口大小。因此,基础和搜索窗口的大小计算为:
hba,wba=h,w
hse,wse=α·h,β·w
其中,hba、wba表示基本窗口的大小,hse、wse表示搜索窗口的大小,α、β是放大倍数。为了获得相同数量的两个窗口集,WAP利用一个滑动窗口,并将步幅设置为基本窗口大小,因此Sse的大小为n×α·h×β·w。通过不同大小的对应窗口,CAT块有效地计算了两个特征标记之间的交叉注意力,避免大跨度搜索而实现准确交换信息。
注意力表示的是将查询和一组键值对映射到输出的函数,其中查询、键、值和输出都为向量的形式。如图5所示,提出的W-MCA计算的是基本窗口和搜索窗口之间的交叉注意力,以获取精确的对应关系,K、Q、V表示图像块映射出来的特征,其中K表示基础窗口映射出来的特征,Q和V来自搜索窗口。其计算结果的值为加权和,其中分配给每个值的权重由查询和相应键之间的兼容性函数计算得到。
W-MCA采用多头注意力来充分表示子空间,进行的是查询和键的点积运算,首先把每个键都除以接着使用一个softmax函数来得到这些值的权重。因此,交叉注意力计算表示为:
其中,Qba、Kse、Vse是查询矩阵、键矩阵和值矩阵。Qba∈Rn×s×c是Sba和Kse的线性投影,Vse∈Rn×μs×c是Sse的线性投影,s=h×w和μ=α·β的线性投影,c是每个特征标记的维数。
在步骤S14中,利用跳跃连接的方式将交叉融合后的特征块分别进行聚合,最终通过卷积获取形变场。
在步骤S15中,网络的损失函数由两部分组成:一是相似度损失,用Mean SquaredError Mean Squared Error(MSE)来表示,用来度量移动图像和固定图像的相似度,并且惩罚二者之间的差异。二是正则化损失,它由一个超参数和一个正则项组成,正则项是对估计的形变场增加一个平滑性约束,防止形变场折叠程度过高。
MSE表示真实值与估计值差平方的期望,它的值越小,表明预测效果越好。移动图像与预测图像的均方误差表示为:
其中P表示移动图像和固定图像中的像素点,Ω表示整个图像区域。
正则化是对形变场中的折叠进行惩罚,表示为:
其中,R(θ)是一个正则项,表示在P点在X和Y方向上的梯度。若用/>表示损失正则项的系数,则损失函数表示为:
在步骤S16中,将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹图像。本实施例采用设置阈值的思路,阈值大小和窗口大小可以根据经验设置,通过滑动窗口依次判断窗口内像素的平均值是否超过阈值,若超过阈值则该图像存在瑕疵,反之则没有瑕疵。
本实施例提出了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法。其中,利用基于交叉注意力的Transformer块融合不同尺度的信息,有效应对图像对之间的映射问题;另外,利用多尺寸窗口着重于可形变的局部变换,获取细节特征以提高复杂布匹图像配准性能。在后续识别瑕疵布匹任务中,仅需将配准图像与固定图像作差分即可实现瑕疵布匹图像的判定。
实施例二
如图6所示,本实施例提供了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准***,其用于执行实施例一的方法,具体包括如下模块:
数据集制作模块:将布匹图像对进行裁剪,并进一步划分成训练集和测试集;
双通道Transformer结构模块:创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,然后分别提取固定图像和移动图像的特征;
特征融合模块:来自双通道网络的特征块通过交换输入的顺序,通过两个CrossAttention Transformer(CAT)中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
特征聚合模块:将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,最终获取输出形变场;
训练模块:利用均方误差损失和正则化损失对模型进行训练;
判定瑕疵模块:将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹图像。
本实施例的各模块具体介绍如下。
数据集制作模块中,将获取的布匹图像进行裁剪,大小为512x512,并按5:1比例划分为训练集和测试集。同时训练数据集使用了数据增强,数据增强的方式是对训练集图像进行放射变换之后加入弹性形变,其中,比例因子α和弹性系数σ可以根据获取的不同布匹图像进行调整或更改。
双通道Transformer结构模块中,利用双并行网络分别提取移动图像和固定图像的特征,两个网络通过特征融合模块进行通信,并且上下两个网络作用机制相同。这两个并行网络遵循Unet结构的编码和解码部分,但用CAT(Cross Attention Transformer)块代替卷积,这些块在两个网络之间的注意力特征融合模块中发挥重要作用,促进特征在网络中自动匹配。网络不仅垂直交换交叉图像信息,并能保持水平细化功能。因为上下并行网络的机制相同,因此接下来介绍其中一个网络,下面称之为单通道网络。
图2显示了单通道Transformer架构,其过程如下:第一步,将输入的彩色图像通过图像块分割模块裁剪成没有重复区域的图像块,每个图像块都可以看成一个标记,其作用是连接输入图像像素的RGB值。在单通道网络中,把图像块大小设置为4×4,所以单个图像块的特征维度为48。然后在分割好的图像块上使用一个线性嵌入层,其作用是将维度为48的图像块映射到一个任意维度(C)。在这些图像块标记上通过几个改进Transformer块来提取特征,没有改变Transformer块标记的数量(H/4×W/4),并与线性嵌入模块一起被称为“步骤1”。
随着网络的深化,为了获取多层次特征,使用图像块合并模块去减少标记的数量。假定输入图像块合并模块的是一个4×4的特征图,图像块合并模块首先将相同颜色的块拼接在一起,形成四个2×2的图像块;然后连接这四个图像块的特征进行归一化操作;最后通过一个线性层做线性变化。此时,标记的数量则会减少为之前的4倍(2×分辨率的下采样),而输出维度则会变为2C。
接着应用Transformer块进行特征交换,保持分辨率为H/8×W/8。将图像块合并模块和特征转换的Transformer块表示为“步骤2”。重复上述“步骤2”过程两次,记作“步骤3”和“步骤4”,此时输出分辨率分别为H/16×W/16和H/32×W/32。
特征融合模块中,利用两个CAT块将两个输入特征融合成一个注意力信息,共享参数进行特征匹配;并且利用CAT块中的多尺寸窗口方法以实现精确的局部对应,最终生成精细的形变流场。如图3(a)所示,来自并行子网络的移动图像特征Tm和固定图像特征Tf通过交换输入的顺序,通过两个CAT块获得相互注意力。另两个注意力输出返回到原来的通道,得到融合特征Tmf和Tfm,并为下一步更深入的交换信息做准备。在一个特征融合模块中,总共有k次通信,以获得足够的相互信息。通过两个网络之间的注意特征融合模块,来自不同语义信息的不同网络的特征进行频繁交换信息,因此网络可以保持学习多层次语义特征来进行最终的精细配准。
这种新的注意力机制CAT,用于图像对之间充分交换信息,统筹了匹配特征的表征性和多尺度性。如图3(b)所示,b和s分别以不同的方式分为两组窗口,基本窗口集Sba和搜索窗口集Sse,用于下一个基于窗口的注意力计算。CAT块的目的是通过注意力机制计算出从输入特征b到特征s具有相应相关性的新特征标记。Sba和Sse具有相同的个数,但窗口大小不同。将Sba中的每个基窗口投影到查询集查询中,将每个搜索窗口通过线性层投影到知识集键和值中。然后,基于窗口的多头交叉注意(W-MCA)计算两个窗口之间的交叉注意力,并将注意力添加到基窗口中,使每个基窗口从搜索窗口中获得相应的加权信息。最后,将新的输出集发送到具有GELU非线性的多层感知机中,为了提高其学习能力。在每个W-MCA和每个MLP模块之前都使用了一个LayerNorm(LN)层,保证每一层有效进行。
多尺寸窗口分区包括两种不同的方法,窗口分区(WP)和窗口区域分区(WAP),以将输入特征标记b和s划分为不同大小的窗口。如图4所示,WP划分特征标记直接进入大小为n×h×w的基窗口集Sba中,WAP随着α、β的放大倍数扩大窗口大小。因此,基础和搜索窗口的大小计算为:
hba,wba=h,w
hse,wse=α·h,β·w
其中,hba、wba为基本窗口的大小,而hse、wse为搜索窗口的大小。为了获得相同数量的两个窗口集,WAP利用一个滑动窗口,并将步幅设置为基本窗口大小,因此Sse的大小为n×α·h×β·w。通过不同大小的对应窗口,CAT块有效地计算了两个特征标记之间的交叉注意力,避免大跨度搜索而实现准确交换信息。
注意力表示的是将查询和一组键值对映射到输出的函数,其中查询、键、值和输出都为向量的形式。如图5所示,提出的W-MCA计算的是基本窗口和搜索窗口之间的交叉注意力,以获取精确的对应关系,K、Q、V表示图像块映射出来的特征,其中K表示基础窗口映射出来的特征,Q和V来自搜索窗口。其计算结果的值为加权和,其中分配给每个值的权重由查询和相应键之间的兼容性函数计算得到。
W-MCA采用多头注意力来充分表示子空间,进行的是查询和键的点积运算,首先把每个键都除以接着使用一个softmax函数来得到这些值的权重。因此,交叉注意力计算表示为:
其中,Qba、Kse、Vse是查询矩阵、键矩阵和值矩阵。Qba∈Rn×s×c是Sba和Kse的线性投影,Vse∈Rn×μ·s×c是Sse的线性投影,s=h×w和μ=α·β的线性投影,c是每个特征标记的维数。
特征聚合模块中,利用跳跃连接的方式将交叉融合后的特征块分别进行聚合,最终通过卷积获取形变场。
训练模块中,网络的损失函数由两部分组成:一是相似度损失,用Mean SquaredError Mean Squared Error(MSE)来表示,用来度量移动图像和固定图像的相似度,并且惩罚二者之间的差异。二是正则化损失,它由一个超参数和一个正则项组成,正则项是对估计的形变场增加一个平滑性约束,防止形变场折叠程度过高。
MSE表示真实值与估计值差平方的期望,它的值越小,表明预测效果越好。移动图像与预测图像的均方误差表示为:
其中P表示移动图像和固定图像中的像素点,Ω表示整个图像区域。
正则化是对形变场中的折叠进行惩罚,表示为:
其中,R(θ)是一个正则项,表示在P点在X和Y方向上的梯度。若用/>表示损失正则项的系数,则损失函数表示为:
判定瑕疵模块中,将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹图像。这里采用设置阈值的思路,阈值大小和窗口大小根据经验设置,通过滑动窗口依次判断窗口内像素的平均值是否超过阈值,若超过阈值则该图像存在瑕疵,反之则没有瑕疵。
本实施例提出了一种基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准***。其中,利用基于交叉注意力的Transformer块融合不同尺度的信息,有效应对图像对之间的映射问题;另外,利用多尺寸窗口着重于可形变的局部变换,获取细节特征以提高复杂布匹图像配准性能。在后续识别瑕疵布匹任务中,仅需将配准图像与固定图像作差分即可实现瑕疵布匹图像的判定。
综上,与现有技术相比,本发明基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***,通过对少数布匹图像进行数据增强,无需繁琐的大量数据收集,并使用Transformer网络进行精确的图像配准。具体来说,利用基于交叉注意力的Transformer块融合不同尺度的信息,有效应对图像对之间的映射问题;另外,利用多尺寸窗口着重于可形变的局部变换,获取细节特征以提高复杂布匹图像配准性能。通过上述两点来提高布匹图像配准的精度。本发明还通过模块化设计,最大程度保证了模型的易用性与灵活性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,包括步骤:
S1.处理布匹图像对,并划分为训练集和测试集;
S2.创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,然后分别提取固定图像和移动图像的特征;
S3.来自双通道网络的特征块通过交换输入的顺序,通过两个CAT中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
S4.将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,获取输出形变场;
S5.利用均方误差损失和正则化损失对模型进行训练;
S6.将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素来识别瑕疵布匹。
2.根据权利要求1所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S1中,将布匹图像对进行裁剪,并划分为训练集和测试集,同时对得到的训练集进行数据增强。
3.根据权利要求2所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S2中,利用双并行网络分别提取移动图像和固定图像的特征,两个网络通过特征融合模块进行通信,并且上下两个网络作用机制相同。
4.根据权利要求3所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,上下并行网络的机制相同,其中一个网络称之为单通道网络,具体如下:
将输入的彩色图像通过图像块分割模块裁剪成没有重复区域的图像块,每个图像块看成一个标记,其作用是连接输入图像像素的RGB值;在单通道网络中,把图像块大小设置为4×4,所以单个图像块的特征维度为48;在分割好的图像块上使用一个线性嵌入层,其作用是将维度为48的图像块映射到一个任意维度C;在这些图像块标记上通过几个改进的Transformer块来提取特征,没有改变Transformer块标记的数量H/4×W/4,并与线性嵌入模块一起被称为“步骤1”;
假定输入图像块合并模块的是一个4×4的特征图,图像块合并模块首先将相同颜色的块拼接在一起,形成四个2×2的图像块;然后连接这四个图像块的特征进行归一化操作;最后通过一个线性层做线性变化;此时,标记的数量则会减少为之前的4倍,而输出维度则会变为2C;
应用Transformer块进行特征交换,保持分辨率为H/8×W/8;将图像块合并模块和特征转换的Transformer块表示为“步骤2”。重复上述“步骤2”过程两次,记作“步骤3”和“步骤4”,此时输出分辨率分别为H/16×W/16和H/32×W/32。
5.根据权利要求3所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S3中,利用两个CAT块将两个输入特征融合成一个注意力信息,共享参数进行特征匹配。
6.根据权利要求1-5任一项所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,多尺寸窗口方法包括:窗口分区WP和窗口区域分区WAP,以将输入特征标记b和s划分为不同大小的窗口;WP划分特征标记直接进入大小为n×h×w的基窗口集Sba中,WAP随着α、β的放大倍数扩大窗口大小;因此,基础和搜索窗口的大小计算为:
hba,wba=h,w
hse,wse=α·h,β·w
其中,hba、wba为基本窗口的大小,而hse、wse为搜索窗口的大小;为了获得相同数量的两个窗口集,WAP利用一个滑动窗口,并将步幅设置为基本窗口大小,因此Sse的大小为n×α·h×β·w。
7.根据权利要求1-5任一项所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S4中,利用跳跃连接的方式将交叉融合后的特征块分别进行聚合,最终通过卷积获取形变场。
8.根据权利要求1-5任一项所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S5中,网络的损失函数由两部分组成:一是相似度损失,用MSE来表示,用来度量移动图像和固定图像的相似度,并且惩罚二者之间的差异;二是正则化损失,由一个超参数和一个正则项组成,正则项是对估计的形变场增加一个平滑性约束,防止形变场折叠程度过高;
MSE表示真实值与估计值差平方的期望,移动图像与预测图像的均方误差表示为:
其中P表示移动图像和固定图像中的像素点,Ω表示整个图像区域;
正则化是对形变场中的折叠进行惩罚,表示为:
其中,R(θ)是一个正则项,表示在P点在X和Y方向上的梯度。若用/>表示损失正则项的系数,则损失函数表示为:
其中,If表示固定图像,Iw表示形变后图像。
9.根据权利要求1-5任一项所述基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法,其特征在于,步骤S6中,设置阈值大小和窗口大小,通过滑动窗口依次判断窗口内像素的平均值是否超过阈值,若超过阈值则该图像存在瑕疵,反之则没有瑕疵。
10.基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准***,用于执行权利要求1所述的方法,其特征是包括如下模块:
数据集制作模块:处理布匹图像对,并划分成训练集和测试集;
双通道Transformer结构模块:创建双通道的Transformer结构网络,将输入图像对分别划分为相同大小的图像块并线性编码,分别提取固定图像和移动图像的特征;
特征融合模块:来自双通道网络的特征块通过交换输入的顺序,通过两个CAT中的多尺寸窗口方法获得交叉注意力,将两个输入特征融合成一个注意力信息;
特征聚合模块:将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征,获取输出形变场;
训练模块:利用均方误差损失和正则化损失对模型进行训练;
判定瑕疵模块:将配准后的布匹图像与固定图像进行差分操作,根据差分后的图像的像素识别瑕疵布匹。
CN202310933471.7A 2023-07-27 2023-07-27 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及*** Pending CN116934820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310933471.7A CN116934820A (zh) 2023-07-27 2023-07-27 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310933471.7A CN116934820A (zh) 2023-07-27 2023-07-27 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***

Publications (1)

Publication Number Publication Date
CN116934820A true CN116934820A (zh) 2023-10-24

Family

ID=88384152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310933471.7A Pending CN116934820A (zh) 2023-07-27 2023-07-27 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***

Country Status (1)

Country Link
CN (1) CN116934820A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495853A (zh) * 2023-12-28 2024-02-02 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495853A (zh) * 2023-12-28 2024-02-02 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质
CN117495853B (zh) * 2023-12-28 2024-05-03 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN109655019B (zh) 一种基于深度学习和三维重建的货物体积测量方法
CN112818903B (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及***
CN107545263B (zh) 一种物体检测方法及装置
Liu et al. A night pavement crack detection method based on image‐to‐image translation
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及***
Li et al. A review of deep learning methods for pixel-level crack detection
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及***
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN116934820A (zh) 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及***
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN110516527B (zh) 一种基于实例分割的视觉slam回环检测改进方法
CN111582270A (zh) 基于高精度的桥梁区域视觉靶标特征点的识别追踪方法
CN115147644A (zh) 图像描述模型的训练和描述方法、***、设备及存储介质
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN114973031A (zh) 一种无人机视角下的可见光-热红外图像目标检测方法
Ding et al. DHT: dynamic vision transformer using hybrid window attention for industrial defect images classification
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法
CN116402690A (zh) 一种基于多头自注意力机制的高分辨率遥感影像中道路提取方法、***、设备及介质
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
CN115439926A (zh) 一种基于关键区域和场景深度的小样本异常行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination