CN116543146A - 一种基于窗口自注意与多尺度机制的图像密集描述方法 - Google Patents

一种基于窗口自注意与多尺度机制的图像密集描述方法 Download PDF

Info

Publication number
CN116543146A
CN116543146A CN202310822911.1A CN202310822911A CN116543146A CN 116543146 A CN116543146 A CN 116543146A CN 202310822911 A CN202310822911 A CN 202310822911A CN 116543146 A CN116543146 A CN 116543146A
Authority
CN
China
Prior art keywords
image
feature
scale
follows
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310822911.1A
Other languages
English (en)
Other versions
CN116543146B (zh
Inventor
邓宏宇
王崎
***
吴雪
张邦梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202310822911.1A priority Critical patent/CN116543146B/zh
Publication of CN116543146A publication Critical patent/CN116543146A/zh
Application granted granted Critical
Publication of CN116543146B publication Critical patent/CN116543146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于窗口自注意与多尺度机制的图像密集描述方法,由一个目标检测器和一个区域描述生成器组合而成,在目标检测器内部,输入图像经由基于窗口注意力的特征编码器进行图像表征的学习和提取,该特征编码器由12层ViT模块堆叠而成,在各层模块内,图像特征图被划分为多个大小均等的窗口并进行窗口内的注意力运算,特征编码器计算出5种不同尺度的图像特征,并通过目标检测头预测出关键区域的位置信息,模型据此从多尺度特征中切割出区域特征,区域描述生成器采用预训练BERT模型作为核心,依据输入的全局表征和区域特征,以自回归的方式进行区域描述的生成。本发明能够准确捕捉图像多个关键对象并生成高质量描述。

Description

一种基于窗口自注意与多尺度机制的图像密集描述方法
技术领域
本发明涉及计算机视觉领域和自然语言处理领域,具体来说涉及一种基于窗口自注意网络与多尺度特征的图像密集描述方法。
背景技术
图像密集描述(denseimagecaptioning)是开放世界目标检测任务的上级任务,它要求模型对输入图像上的显著区域进行侦测并使用简短的语句描述区域内容,是一种结合了计算机视觉技术与自然语言处理技术的人工智能方法。
相较于目前常规的目标检测方法,图像密集描述方法拥有更强大的图像识别能力与更广泛的对象识别范围,具备对训练集外的对象类别进行认知的能力。在工作过程中,图像密集描述方法采用人类语言的形式对识别对象进行描述,更加贴近人类认知世界的思考模式,是未来强人工智能构建的重要技术。
而与传统的图像描述方法相比,密集图像描述方法不是对图像的全局内容进行理解与总结,而是定位图像的多个RoI(RegionofInterest,感兴趣区域),并分别生成描述。这种工作模式能够更加有效地保留图像的关键信息,传递用户感兴趣的内容。
图像密集描述技术可用于图像检索任务,通过对图像的各个区域生成自然语言描述来搜索包含特定视觉概念或场景的图像;用于图像理解分析任务,协助分析理解包含了多个对象、动作和交互的复杂图像;用于图像编辑修改任务,通过提供基于密集描述的自然语言命令来协助用户编辑和操作图像。
目前,图像密集描述方法大都是基于卷积神经网络实现输入图像的特征提取,并利用循环神经网络对区域特征进行对应描述的生成。这种做法虽然易于实现,但存在以下几个问题:
1.卷积神经网络的图像提取与认知能力存在局限性,虽然有较强的局部特征提取能力,但难以掌握图像的全局表征。此外,当卷积神经网络架构过于复杂时,模型的训练难度显著增大,性能也难以提高。这些缺陷导致基于卷积神经网络的密集描述模型无法处理复杂的输入图像;
2.由于循环神经网络无法并行地实现区域描述的生成,且计算量与耗时巨大,导致图像密集描述过程漫长,缺乏效率。此外,循环神经网络对于长序列信息存在天然缺陷,导致生成描述的质量不高。
中国专利申请公布号CN114037831A于2022年02月11日公开了一种图像深度密集描述方法、***及存储介质,其利用基本的卷积神经网络进行提取,性能低,且效率不高。该专利申请直接利用RPN网络在图像特征图上提取感兴趣区域,发掘不同大小的感兴趣区域不够全面;该专利申请使用LSTM网络对各感兴趣区域生成描述,速度一般,且描述质量不高。
发明内容
本发明的目的在于克服上述缺点而提供的一种能够准确捕捉图像多个关键对象并生成高质量描述的基于窗口自注意网络与多尺度特征的图像密集描述方法。
本发明的一种基于窗口自注意网络与多尺度特征的图像密集描述方法,包括下述步骤:
步骤1输入图像X粗处理:输入尺寸等于1024×1024的图像X,将X划分为大小为k的多个图像块,利用大小为k的卷积核进行粗处理,得到粗图像特征X
步骤2图像全局表征Vf的计算:输入粗图像特征X,通过预训练ViT模型作为图像的特征编码器,获取到图像的全局表征Vf,ViT模型由多层Transformer模块堆叠而成,在每层Transformer模块内,图像表征将被划分为大小为α的窗口,仅计算窗口内各像素间的注意力,经过多层网络计算,最终获得全局表征Vf
步骤3多尺度特征获取:取上一步骤获取到的全局表征Vf,分别经过5种不同的卷积神经网络分支,获取到多尺度特征集F={f1,f2,f3,f4,f5},从而适用于不同大小的目标检测;
步骤4显著目标预测与区域特征提取:
步骤4.1显著目标预测,对于多尺度特征集F={f1,f2,f3,f4,f5},分别采用5个独立的预测网络头部识别图像特征中包含的目标;
第i个预测网络头部,其输入为fi,fi使用卷积核大小为3的卷积层提取局部特征,然后通过GroupNorm(分组归一化)处理,最后通过激活函数RELU,公式如下:
fi =ReLU(GroupNorm(Conv(fi))) (公式7)
上述过程将重复4次;
各预测网络头部设置可学习参数Ai与Mi,分别与fi 进行相加与相乘操作,公式如下:
fi =( fi +Ai)·Mi(公式8)
对于空间特征fi ,分别采用两种卷积网络分支获取出该尺度下预测空间坐标bboxi和置信度agni,公式如下:
bboxi=ReLU(Conv(fi )) (公式9)
agni=Conv(fi”) (公式10)
步骤4.2目标检测器训练与损失函数,对于目标检测器的显著区域预测结果BBOX={bbox1, bbox2, bbox3, bbox4, bbox5},找出训练数据集中与每个预测结果距离最为接近的目标,定义该目标集合为Target;采用度量指标CIOU衡量预测结果与实际目标的差距,CIOU与目标检测器性能成正比;定义预测区域为g,实际目标区域为t,则CIOU计算公式如下:
CIOU=IOU-ρ2(g,t)/c2-βv(公式11)
IOU=|g∩t|/|g∪t|(公式12)
V=4/Π2(arctan(wt/mt)-arctan(w/m))2(公式13)
β= v / (1-IOU+v) (公式14)
其中,ρ表示预测区域g与实际目标区域t的中心点间的欧氏距离,c表示预测区域g与实际目标区域t的最小闭包区域的对角线距离,wt和mt分别表示实际目标区域t的宽度和高度,w和m分别表示预测区域g的宽度和高度;
用于训练目标检测器的损失函数Ldec计算公式如下:
Ldec=1-CIOU(公式15)
步骤4.3区域特征提取,根据目标检测器的显著区域预测结果BBOX,从多尺度特征集F上切割对应区域的特征,区域特征集记为R;
步骤5图像密集描述生成:
步骤5.1文本特征T的提取,根据步骤4.2中确定的目标集合为Target,从训练数据集中收集区域对应的自然语言描述,定义该自然语言描述集合为TargetText;使用预训练BERT模型的词嵌入层将TargetText转换为词向量特征,定义为T;对于n维词向量特征T,计算词向量位置编码PEn并叠加在词向量特征T上,最终得到文本特征T,公式如下:
PEn={PE(pos,2i)=sin(pos/1000(2i/n)), PE(pos,2i+1)=cos(pos/1000(2i/n))} (公式16)
T=T+ PEn(公式17)
其中pos∈[1,2,…],i∈[0,1,…,n/2];
步骤5.2描述生成,用全连接层将区域特征集R映射到高维空间,记为高维区域特征R;将全局表征Vf,高维区域特征R与文本特征T进行拼接,得到多模态特征H,公式如下:
H=Concat(Vf, R, T) (公式18)
描述生成器以多模态特征H为输入,使用预训练BERT模型进行多模态信息的融合,BERT模型由多层Transformer网络层堆叠而成,每一层的Transformer的运算过程对于输入的多模态特征H进行自注意力计算,记BERT模型的计算结果为H
定义模型内置单词表规模为Evoc,使用全连接层将H映射至高维Evoc,并使用softmax函数进行处理,定义输出结果为prol,公式如下:
prol=softmax(Linear(H)) (公式25)
其中,l为生成区域描述的最大长度;prol i定义为生成区域描述第i个位置上各单词的预测概率,取概率最大值对应单词作为该位置的候选单词wi;最终,生成区域描述W={w1,w2,…,wl};
步骤5.3描述生成器训练与损失函数,取自然语言描述集合TargetText,将其转换为长度为Evoc的独热码,用于损失函数的计算;对独热码进行标签平滑处理,定义某条独热码为h,其经标签平滑处理结果为h,则标签平滑过程公式如下:
h=(1.0-eps)·h+eps/Evoc(公式26)
其中eps为本技术方案自定义的一个较小的常数;
完成上述操作后,采用交叉熵函数计算生成密集描述的损失Lce;Lce的计算公式如下:
Lce=-Σi=1 Nlog(p(yi *|y1:i-1 *))(公式27)
其中y1:N *是一条来自TargetText的区域描述,长度为N,p是描述生成器预测的概率,yi *表示区域描述位置为i的字符。
上述的一种基于窗口自注意网络与多尺度特征的图像密集描述方法,其中步骤2中第i层Transformer,设定窗口尺寸为α,将该网络层的输入特征Vi进行边缘的填充,使得其尺寸为窗口尺寸的整数倍,填充后的特征将将均分为数个大小相等的窗口特征集,记为Vi ;然后,窗口特征集Vi 通过三个全连接层运算出查询向量qi、键值向量ki以及权值向量vi,并沿最后一维均匀划分为nhead部分,公式如下:
qi=Div(Linear(Vi ),nhead) (公式1)
ki=Div(Linear(Vi ),nhead)(公式2)
vi=Div(Linear(Vi ),nhead)(公式3)
查询向量qi与键值向量ki的转置向量ki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵Attni,公式如下:
Attni=softmax(qi·ki T)(公式4)
设权值向量vi最后一维的数目为d,Attni将与vi相乘,公式如下:
Ai+1=Attni/d1/2·vi(公式5)
计算结果Ai+1将按照各窗口的位置还原回与输入特征Vi相同的形状,记为Ai+1 ,Ai+1 将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的图像表征Vi+1,公式如下:
Vi+1=FFNi(Ai+1 )=Linear(ReLU(Linear(Ai+1 )))(公式6)
经过多层网络计算,最终获得全局表征Vf
上述的一种基于窗口自注意网络与多尺度特征的图像密集描述方法,其中步骤3中经过5种不同的卷积神经网络分支,获取到多尺度特征集方法如下:
步骤3.1尺度为1/8的特征获取,利用卷积核大小为2的反卷积层对全局表征Vf进行升采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/8的图像特征f1
步骤3.2尺度为1/16的特征获取,用卷积核大小为1的卷积层对全局表征Vf进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/16的图像特征f2
步骤3.3尺度为1/32的特征获取,全局表征Vf采样最大池化方法进行下采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/32的图像特征f3
步骤3.4 尺度为1/64的特征获取,对f3采用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/64的图像特征f4
步骤3.5尺度为1/128的特征获取,f4使用激活函数ReLU进行处理后,使用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/128的图像特征f5
上述的一种基于窗口自注意网络与多尺度特征的图像密集描述方法,其中步骤5.2中采用的BERT模型的第i层Transformer,将该网络层的输入特征Hi通过三个全连接层运算出查询向量Hqi、键值向量Hki以及权值向量Hvi,并沿最后一维均匀划分为nhead部分,公式如下:
Hqi=Div(Linear(Hi),nhead)(公式19)
Hki=Div(Linear(Hi),nhead)(公式20)
Hvi=Div(Linear(Hi),nhead)(公式21)
查询向量Hqi与键值向量Hki的转置向量Hki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵HAttni,公式如下:
HAttni=softmax(Hqi·Hki T)(公式22)
设权值向量Hvi最后一维的数目为hd,HAttni将与Hvi相乘,公式如下:
HAi+1=HAttni/d1/2·Hvi(公式23)
HAi+1将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的多模态表征Hi+1,公式如下:
Hi+1=FFNi(HAi+1 )=Linear(ReLU(Linear(HAi+1 )))(公式24)
经过多层网络计算,最终获得多模态表征H
本发明与现有技术相比,具有明显的有益效果,从以上技术方案可知:本发明由一个目标检测器和一个区域描述生成器组合而成。目标检测器的作用是发掘输入图像的关键区域,预测出该区域的空间坐标,并提取出该区域特征图。在目标检测器内部,输入图像经由基于窗口注意力的特征编码器进行图像表征的学***行的探测头分别识别感兴趣区域,这种做法能更全面地发掘不同大小的感兴趣区域。本发明使用BERT网络以自回归的方式进行描述的生成,速度更快,且描述质量更高。
附图说明
图1为本发明的目标检测器结构示意图;
图2为本发明的描述生成器结构示意图。
具体实施方式
下面对本发明提出的图像密集描述方法的具体实施案例进行详细说明。
一种基于窗口自注意网络与多尺度特征的图像密集描述方法,包括下述步骤:
步骤1输入图像X的粗处理:
训练过程中使用的数据集为Visual Genome数据集,总共包含108077张图片,每张图片上通过人工标注的方式对多个目标对象进行框定,并附带一条对应的描述。在训练过程中,设定训练集与测试集的划分比例设定为20:1,训练的迭代次数设定为18万次,在训练阶段中,提出的图像密集描述方法一次处理四张图片;
计算输入图像X的尺寸,若图像高度或宽度大于1024像素,需要对X进行裁剪和缩小,使得输入尺寸等于1024×1024,将X划分为大小为16的多个图像块,利用大小为16的卷积核进行粗处理,得到粗图像特征X,其通道数为768,处理后的粗图像特征将进入目标检测器;
步骤2图像全局表征Vf的计算:
处理后的粗图像特征进入目标检测器,如图1所示。输入粗图像特征X,通过预训练ViT模型作为图像的特征编码器,获取到图像的全局表征Vf。ViT模型由12层Transformer模块堆叠而成,在除了第3,6,9,12层以外的Transformer模块中,都采用窗口机制,将输入特征划分为多个窗口。图像表征将被划分为大小为α的窗口,仅计算窗口内各像素间的注意力。设定窗口大小α为14。
以第i层Transformer为例,设定窗口尺寸为α,首先该网络层的输入特征Vi将进行边缘的填充,使得其尺寸为窗口尺寸的整数倍。填充后的特征将将均分为数个大小相等的窗口特征集,记为Vi
然后,窗口特征集Vi 首先通过三个全连接层运算出查询向量qi、键值向量ki以及权值向量vi,并沿最后一维均匀划分为nhead部分,公式如下:
qi=Div(Linear(Vi ),nhead) (公式1)
ki=Div(Linear(Vi ),nhead)(公式2)
vi=Div(Linear(Vi ),nhead)(公式3)
设置h为12,即查询向量qi、键值向量ki以及权值向量vi将被均匀划分为12份。
查询向量qi与键值向量ki的转置向量ki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵Attni,公式如下:
Attni=softmax(qi·ki T)(公式4)
设权值向量vi最后一维的数目为d,Attni将与vi相乘,公式如下:
Ai+1=Attni/d1/2·vi(公式5)
计算结果Ai+1将按照各窗口的位置还原回与输入特征Vi相同的形状,记为Ai+1 ,Ai+1 将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的图像表征Vi+1,公式如下:
Vi+1=FFNi(Ai+1 )=Linear(ReLU(Linear(Ai+1 )))(公式6)
经过多层网络计算,最终获得全局表征Vf
步骤3多尺度特征获取:
取上一步骤获取到的全局表征Vf,分别经过5种不同的卷积神经网络分支,获取到多尺度特征集F={f1,f2,f3,f4,f5},从而适用于不同大小的目标检测;
步骤3.1尺度为1/8的特征获取,利用卷积核大小为2的反卷积层对全局表征Vf进行升采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/8的图像特征f1
步骤3.2尺度为1/16的特征获取,用卷积核大小为1的卷积层对全局表征Vf进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/16的图像特征f2
步骤3.3尺度为1/32的特征获取,全局表征Vf采样最大池化方法进行下采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/32的图像特征f3
步骤3.4 尺度为1/64的特征获取,对f3采用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/64的图像特征f4
步骤3.5尺度为1/128的特征获取,f4使用激活函数ReLU进行处理后,使用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/128的图像特征f5
f1,f2,f3,f4,f5的通道数统一为256。
步骤4显著目标预测与区域特征提取:
步骤4.1显著目标预测,对于多尺度特征集F={f1,f2,f3,f4,f5},分别采用5个独立的预测网络头部识别图像特征中包含的目标。
以第i个预测网络头部为例,其输入为fi。fi将通过卷积网络进行计算,提取出各显著目标的空间信息。具体而言,fi将使用卷积核大小为3的卷积层提取局部特征,然后通过GroupNorm(分组归一化)处理,最后通过激活函数RELU,公式如下:
fi =ReLU(GroupNorm(Conv(fi))) (公式7)
上述过程将重复4次。
引入隐性知识学习机制改进预测头部,通过隐性参数改进不同目标的检测。具体而言,各预测网络头部设置可学习参数Ai与Mi,分别与fi 进行相加与相乘操作,公式如下:
fi =( fi +Ai)·Mi(公式8)
对于空间特征fi ,分别采用两种卷积网络分支获取出该尺度下预测空间坐标bboxi和置信度agni,公式如下:
bboxi=ReLU(Conv(fi )) (公式9)
agni=Conv(fi ) (公式10)
其中每个空间坐标长度为4,分别代表着预测区域左上角的横坐标、左上角的纵坐标、区域长度和区域宽度。
步骤4.2目标检测器训练与损失函数,对于目标检测器的显著区域预测结果BBOX={bbox1, bbox2, bbox3, bbox4, bbox5},找出训练数据集中与每个预测结果距离最为接近的目标,定义该目标集合为Target;采用度量指标CIOU衡量预测结果与实际目标的差距,CIOU与目标检测器性能成正比;定义预测区域为g,实际目标区域为t,则CIOU计算公式如下:
CIOU=IOU-ρ2(g,t)/c2-βv(公式11)
IOU=|g∩t|/|g∪t|(公式12)
V=4/Π2(arctan(wt/ht)-arctan(w/h))2(公式13)
β= v / (1-IOU+v) (公式14)
其中,ρ表示预测区域g与实际目标区域t的中心点间的欧氏距离,c表示预测区域g与实际目标区域t的最小闭包区域的对角线距离,wt和mt分别表示实际目标区域t的宽度和高度,w和m分别表示预测区域g的宽度和高度;
用于训练目标检测器的损失函数Ldec计算公式如下:
Ldec=1-CIOU(公式15)
步骤4.3区域特征提取,根据目标检测器的显著区域预测结果BBOX,从多尺度特征集F上切割对应区域的特征。对于切割的所有区域特征,将其重新组合为一个4维张量R,其通道数为256。通过全连接层将张量R映射为768维。
步骤5图像密集描述生成:
步骤5.1文本特征T的提取,根据步骤4.2中确定的目标集合为Target,从训练数据集中收集区域对应的自然语言描述,定义该自然语言描述集合为TargetText;使用预训练BERT模型的词嵌入层将TargetText转换为词向量特征,定义为T。词向量特征T通道数为768。对于词向量特征T,计算词向量位置编码PEn并叠加在词向量特征T上,最终得到文本特征T,公式如下:
PEn={PE(pos,2i)=sin(pos/1000(2i/n)), PE(pos,2i+1)=cos(pos/1000(2i/n))} (公式16)
T=T+ PEn(公式17)
其中pos∈[1,2,…],i∈[0,1,…,n/2];
步骤5.2描述生成,用全连接层将区域特征集R映射到高维空间,记为高维区域特征R;将全局表征Vf,高维区域特征R与文本特征T进行拼接,得到多模态特征H,公式如下:
H=Concat(Vf, R, T) (公式18)
描述生成器的结构如图2所示。以多模态特征H为输入,使用预训练BERT模型进行多模态信息的融合。采用的BERT模型由6层Transformer堆叠而成,对于第i层Transformer,将该网络层的输入特征Hi通过三个全连接层运算出查询向量Hqi、键值向量Hki以及权值向量Hvi,并沿最后一维均匀划分为nhead部分,公式如下:
Hqi=Div(Linear(Hi),nhead)(公式19)
Hki=Div(Linear(Hi),nhead)(公式20)
Hvi=Div(Linear(Hi),nhead)(公式21)
查询向量Hqi与键值向量Hki的转置向量Hki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵HAttni,公式如下:
HAttni=softmax(Hqi·Hki T)(公式22)
设权值向量Hvi最后一维的数目为hd,HAttni将与Hvi相乘,公式如下:
HAi+1=HAttni/hd1/2·Hvi(公式23)
HAi+1将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的多模态表征Hi+1,公式如下:
Hi+1=FFNi(HAi+1 )=Linear(ReLU(Linear(HAi+1 )))(公式24)
经过多层网络计算,最终获得多模态表征H
模型内置单词表规模Evoc设定为30522,使用全连接层将H映射至高维Evoc,并使用softmax函数进行处理,定义输出结果为prol,公式如下:
prol=softmax(Linear(H)) (公式25)
其中,l为生成区域描述的最大长度;prol i定义为生成区域描述第i个位置上各单词的预测概率,取概率最大值对应单词作为该位置的候选单词wi;最终,生成区域描述W={w1,w2,…,wl};
步骤5.3描述生成器训练与损失函数,为了防止描述生成器训练过拟合,采用标签平滑技术进行正则化; 首先,取自然语言描述集合TargetText,将其转换为长度为Evoc的独热码,用于损失函数的计算;对独热码进行标签平滑处理,定义某条独热码为h,其经标签平滑处理结果为h,则标签平滑过程公式如下:
h=(1.0-eps)·h+eps/Evoc(公式26)
其中eps为本技术方案自定义的一个较小的常数,设定为10-12
完成上述操作后,采用交叉熵函数计算生成密集描述的损失Lce;Lce的计算公式如下:
Lce=-Σi=1 Nlog(p(yi *|y1:i-1 *))(公式27)
其中y1:N *是一条来自TargetText的区域描述,长度为N,p是描述生成器预测的概率,yi *表示区域描述位置为i的字符。
在预测阶段中,该图像密集描述方法每次对一张图片进行密集描述的生成。模型提取区域特征的工作过程与训练阶段相同。在此阶段中,无需计算损失值Ldec。此外,描述生成器的输入仅为全局特征Vf和高维区域特征R,以此生成对应的密集描述结果。
预测阶段生成的密集描述结果包含预测显著区域的位置信息以及对应的区域描述。筛选出具有高置信度的预测结果,并在输入图像上对预测结果进行绘制。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (4)

1.一种基于窗口自注意与多尺度机制的图像密集描述方法,包括下述步骤:
步骤1输入图像X粗处理:输入尺寸等于1024×1024的图像X,将X划分为大小为k的多个图像块,利用大小为k的卷积核进行粗处理,得到粗图像特征X
步骤2图像全局表征Vf的计算:输入粗图像特征X,通过预训练ViT模型作为图像的特征编码器,获取到图像的全局表征Vf,ViT模型由多层Transformer模块堆叠而成,在每层Transformer模块内,图像表征将被划分为大小为α的窗口,仅计算窗口内各像素间的注意力,经过多层网络计算,最终获得全局表征Vf
步骤3多尺度特征获取:取上一步骤获取到的全局表征Vf,分别经过5种不同的卷积神经网络分支,获取到多尺度特征集F={f1,f2,f3,f4,f5},从而适用于不同大小的目标检测;
步骤4显著目标预测与区域特征提取:
步骤4.1显著目标预测,对于多尺度特征集F={f1,f2,f3,f4,f5},分别采用5个独立的预测网络头部识别图像特征中包含的目标;
第i个预测网络头部,其输入为fi,fi使用卷积核大小为3的卷积层提取局部特征,然后通过GroupNorm(分组归一化)处理,最后通过激活函数RELU,公式如下:
fi =ReLU(GroupNorm(Conv(fi)))
上述过程将重复4次;
各预测网络头部设置可学习参数Ai与Mi,分别与fi 进行相加与相乘操作,公式如下:
fi =( fi +Ai)·Mi
对于空间特征fi ,分别采用两种卷积网络分支获取出该尺度下预测空间坐标bboxi和置信度agni,公式如下:
bboxi=ReLU(Conv(fi ))
agni=Conv(fi”)
步骤4.2目标检测器训练与损失函数,对于目标检测器的显著区域预测结果BBOX={bbox1, bbox2, bbox3, bbox4, bbox5},找出训练数据集中与每个预测结果距离最为接近的目标,定义该目标集合为Target;采用度量指标CIOU衡量预测结果与实际目标的差距,CIOU与目标检测器性能成正比;定义预测区域为g,实际目标区域为t,则CIOU计算公式如下:
CIOU=IOU-ρ2(g,t)/c2-βv
IOU=|g∩t|/|g∪t|
V=4/Π2(arctan(wt/mt)-arctan(w/m))2
β= v / (1-IOU+v)
其中,ρ表示预测区域g与实际目标区域t的中心点间的欧氏距离,c表示预测区域g与实际目标区域t的最小闭包区域的对角线距离,wt和mt分别表示实际目标区域t的宽度和高度,w和m分别表示预测区域g的宽度和高度;
用于训练目标检测器的损失函数Ldec计算公式如下:
Ldec=1-CIOU
步骤4.3区域特征提取,根据目标检测器的显著区域预测结果BBOX,从多尺度特征集F上切割对应区域的特征,区域特征集记为R;
步骤5图像密集描述生成:
步骤5.1文本特征T的提取,根据步骤4.2中确定的目标集合为Target,从训练数据集中收集区域对应的自然语言描述,定义该自然语言描述集合为TargetText;使用预训练BERT模型的词嵌入层将TargetText转换为词向量特征,定义为T;对于n维词向量特征T,计算词向量位置编码PEn并叠加在词向量特征T上,最终得到文本特征T,公式如下:
PEn={PE(pos,2i)=sin(pos/1000(2i/n)), PE(pos,2i+1)=cos(pos/1000(2i/n))}
T=T+ PEn
其中pos∈[1,2,…],i∈[0,1,…,n/2];
步骤5.2描述生成,用全连接层将区域特征集R映射到高维空间,记为高维区域特征R;将全局表征Vf,高维区域特征R与文本特征T进行拼接,得到多模态特征H,公式如下:
H=Concat(Vf, R, T)
描述生成器以多模态特征H为输入,使用预训练BERT模型进行多模态信息的融合,BERT模型由多层Transformer网络层堆叠而成,每一层的Transformer的运算过程对于输入的多模态特征H进行自注意力计算,记BERT模型的计算结果为H
定义模型内置单词表规模为Evoc,使用全连接层将H映射至高维Evoc,并使用softmax函数进行处理,定义输出结果为prol,公式如下:
prol=softmax(Linear(H))
其中,l为生成区域描述的最大长度;prol i定义为生成区域描述第i个位置上各单词的预测概率,取概率最大值对应单词作为该位置的候选单词wi;最终,生成区域描述W={w1,w2,…,wl};
步骤5.3描述生成器训练与损失函数,取自然语言描述集合TargetText,将其转换为长度为Evoc的独热码,用于损失函数的计算;对独热码进行标签平滑处理,定义某条独热码为h,其经标签平滑处理结果为h,则标签平滑过程公式如下:
h=(1.0-eps)·h+eps/Evoc
其中eps为本技术方案自定义的一个较小的常数,设定为10-12
完成上述操作后,采用交叉熵函数计算生成密集描述的损失Lce;Lce的计算公式如下:
Lce=-Σi=1 Nlog(p(yi *|y1:i-1 *))
其中y1:N *是一条来自TargetText的区域描述,长度为N,p是描述生成器预测的概率,yi *表示区域描述位置为i的字符。
2.如权利要求1所述的一种基于窗口自注意与多尺度机制的图像密集描述方法,其中步骤2中获得全局表征Vf的方法如下:在每层Transformer模块内,设某层为第i层Transformer,设定窗口尺寸为α,将该网络层的输入特征Vi进行边缘的填充,使得其尺寸为窗口尺寸的整数倍,填充后的特征将均分为数个大小相等的窗口特征集,记为Vi ;然后,窗口特征集Vi 通过三个全连接层运算出查询向量qi、键值向量ki以及权值向量vi,并沿最后一维均匀划分为nhead部分,公式如下:
qi=Div(Linear(Vi ),nhead)
ki=Div(Linear(Vi ),nhead)
vi=Div(Linear(Vi ),nhead)
查询向量qi与键值向量ki的转置向量ki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵Attni,公式如下:
Attni=softmax(qi·ki T)
设权值向量vi最后一维的数目为d,Attni将与vi相乘,公式如下:
Ai+1=Attni/d1/2·vi
计算结果Ai+1将按照各窗口的位置还原回与输入特征Vi相同的形状,记为Ai+1 , Ai+1 将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的图像表征Vi+1,公式如下:
Vi+1=FFNi (Ai+1 )=Linear(ReLU(Linear(Ai+1 )))
经过多层网络计算,最终获得全局表征Vf
3.如权利要求1所述的一种基于窗口自注意与多尺度机制的图像密集描述方法,其中步骤3中经过5种不同的卷积神经网络分支,获取到多尺度特征集方法如下:
步骤3.1尺度为1/8的特征获取,利用卷积核大小为2的反卷积层对全局表征Vf进行升采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/8的图像特征f1
步骤3.2尺度为1/16的特征获取,用卷积核大小为1的卷积层对全局表征Vf进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/16的图像特征f2
步骤3.3尺度为1/32的特征获取,全局表征Vf采样最大池化方法进行下采样后,使用卷积核大小为1的卷积层进行映射,再使用卷积核大小为3的卷积层提取出尺度为1/32的图像特征f3
步骤3.4 尺度为1/64的特征获取,对f3采用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/64的图像特征f4
步骤3.5尺度为1/128的特征获取,f4使用激活函数ReLU进行处理后,使用卷积核大小为2、采样步长为2的卷积层进行下采样,获得尺度为1/128的图像特征f5
4.如权利要求1所述的一种基于窗口自注意与多尺度机制的图像密集描述方法,其中步骤5.2中对于输入的多模态特征H进行自注意力计算方法为:采用BERT模型的第i层Transformer,将该网络层的输入特征Hi通过三个全连接层运算出查询向量Hqi、键值向量Hki以及权值向量Hvi,并沿最后一维均匀划分为nhead部分,公式如下:
Hqi=Div(Linear(Hi),nhead)
Hki=Div(Linear(Hi),nhead)
Hvi=Div(Linear(Hi),nhead)
查询向量Hqi与键值向量Hki的转置向量Hki T进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵HAttni,公式如下:
HAttni=softmax(Hqi·Hki T)
设权值向量Hvi最后一维的数目为hd,HAttni将与Hvi相乘,公式如下:
HAi+1=HAttni/hd1/2·Hvi
HAi+1将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的多模态表征Hi+1,公式如下:
Hi+1=FFNi (HAi+1)=Linear(ReLU(Linear(HAi+1)))
经过多层网络计算,最终获得多模态表征H
CN202310822911.1A 2023-07-06 2023-07-06 一种基于窗口自注意与多尺度机制的图像密集描述方法 Active CN116543146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310822911.1A CN116543146B (zh) 2023-07-06 2023-07-06 一种基于窗口自注意与多尺度机制的图像密集描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310822911.1A CN116543146B (zh) 2023-07-06 2023-07-06 一种基于窗口自注意与多尺度机制的图像密集描述方法

Publications (2)

Publication Number Publication Date
CN116543146A true CN116543146A (zh) 2023-08-04
CN116543146B CN116543146B (zh) 2023-09-26

Family

ID=87451029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310822911.1A Active CN116543146B (zh) 2023-07-06 2023-07-06 一种基于窗口自注意与多尺度机制的图像密集描述方法

Country Status (1)

Country Link
CN (1) CN116543146B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118212537A (zh) * 2024-05-21 2024-06-18 贵州大学 一种基于数量监督的农作物计数方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701495A (zh) * 2016-01-05 2016-06-22 贵州大学 图像纹理特征提取方法
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2020108165A1 (zh) * 2018-11-30 2020-06-04 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN111814844A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于位置编码融合的密集型视频描述方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113158735A (zh) * 2021-01-20 2021-07-23 北京工业大学 一种基于图神经网络的密集事件描述方法
CN113674334A (zh) * 2021-07-06 2021-11-19 复旦大学 基于深度自注意力网络和局部特征编码的纹理识别方法
CN113946706A (zh) * 2021-05-20 2022-01-18 广西师范大学 基于参考前置描述的图像描述生成方法
CN114758203A (zh) * 2022-03-31 2022-07-15 长江三峡技术经济发展有限公司 用于高光谱图像分类的残差密集视觉转换方法和***
CN115311465A (zh) * 2022-08-10 2022-11-08 北京印刷学院 一种基于双注意力模型的图像描述方法
CN115775316A (zh) * 2022-11-23 2023-03-10 长春理工大学 基于多尺度注意力机制的图像语义分割方法
CN116129124A (zh) * 2023-03-16 2023-05-16 泰州市人民医院 一种图像分割方法、***及设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN105701495A (zh) * 2016-01-05 2016-06-22 贵州大学 图像纹理特征提取方法
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2020108165A1 (zh) * 2018-11-30 2020-06-04 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111814844A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于位置编码融合的密集型视频描述方法
CN113158735A (zh) * 2021-01-20 2021-07-23 北京工业大学 一种基于图神经网络的密集事件描述方法
CN113946706A (zh) * 2021-05-20 2022-01-18 广西师范大学 基于参考前置描述的图像描述生成方法
CN113674334A (zh) * 2021-07-06 2021-11-19 复旦大学 基于深度自注意力网络和局部特征编码的纹理识别方法
CN114758203A (zh) * 2022-03-31 2022-07-15 长江三峡技术经济发展有限公司 用于高光谱图像分类的残差密集视觉转换方法和***
CN115311465A (zh) * 2022-08-10 2022-11-08 北京印刷学院 一种基于双注意力模型的图像描述方法
CN115775316A (zh) * 2022-11-23 2023-03-10 长春理工大学 基于多尺度注意力机制的图像语义分割方法
CN116129124A (zh) * 2023-03-16 2023-05-16 泰州市人民医院 一种图像分割方法、***及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAYU JIAO等: "DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition", 《ARXIV》, pages 1 - 15 *
PHOENIXTREE_DONGZHAO: "论文速读:FAIR最新ViT模型改进多尺度ViT --- Improved Multiscale Vision Transformers", pages 1 - 10, Retrieved from the Internet <URL:https://blog.csdn.net/u014546828/article/details/122077941> *
刘青茹 等: "基于多重注意结构的图像密集描述生成方法研究", 《自动化学报》, vol. 48, no. 10, pages 2537 - 2548 *
周宇辉: "公共环境的图像描述研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, pages 138 - 1625 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118212537A (zh) * 2024-05-21 2024-06-18 贵州大学 一种基于数量监督的农作物计数方法

Also Published As

Publication number Publication date
CN116543146B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN113609896B (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN111985376A (zh) 一种基于深度学习的遥感影像舰船轮廓提取方法
CN114897914B (zh) 基于对抗训练的半监督ct图像分割方法
CN113177549B (zh) 一种基于动态原型特征融合的少样本目标检测方法及***
CN116543146B (zh) 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN115965818A (zh) 一种基于相似度特征融合的小样本图像分类方法
CN115147601A (zh) 基于自注意力全局特征增强的城市街道点云语义分割方法
CN113343966B (zh) 一种红外与可见光图像文本描述生成方法
Wang et al. Advanced Multimodal Deep Learning Architecture for Image-Text Matching
Wang et al. Self-supervised learning for high-resolution remote sensing images change detection with variational information bottleneck
Li et al. HTDFormer: Hyperspectral target detection based on transformer with distributed learning
CN116824333A (zh) 一种基于深度学习模型的鼻咽癌检测***
Ong et al. Enhanced symbol recognition based on advanced data augmentation for engineering diagrams
Zhao et al. Object-Preserving Siamese Network for Single-Object Tracking on Point Clouds
Liu et al. Content-based attention network for person image generation
Zhang et al. MFFSSD: an enhanced SSD for underwater object detection
CN113469962A (zh) 一种面向癌症病变检测的特征提取和图文融合方法及***
Rezaei et al. Systematic review of image segmentation using complex networks
Cheng et al. Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition
Zhao et al. Attention-based Multi-scale Feature Fusion for Efficient Surface Defect Detection
CN116503674B (zh) 一种基于语义指导的小样本图像分类方法、装置及介质
Zhang et al. Collaborative learning network for scene text detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant