CN115731579A - 基于交叉注意力Transformer网络的陆生动物个体识别方法 - Google Patents

基于交叉注意力Transformer网络的陆生动物个体识别方法 Download PDF

Info

Publication number
CN115731579A
CN115731579A CN202211520562.XA CN202211520562A CN115731579A CN 115731579 A CN115731579 A CN 115731579A CN 202211520562 A CN202211520562 A CN 202211520562A CN 115731579 A CN115731579 A CN 115731579A
Authority
CN
China
Prior art keywords
animal
module
network
local
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211520562.XA
Other languages
English (en)
Inventor
赵亚琴
郑兆祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN202211520562.XA priority Critical patent/CN115731579A/zh
Publication of CN115731579A publication Critical patent/CN115731579A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于交叉注意力Transformer网络的陆生动物个体识别方法,步骤包括:1)采集陆生动物的图片;2)利用Vision Transformer主干网络将动物图片拆分为N个彼此不重叠的带有位置编码的小图像块;2)引入交叉注意力模块CAB,替换ViT网络结构的自注意力模块,以便捕获动物身体的全局特征和局部特征;3)运用局部感知网络对提取的全局和局部特征进行融合;4)网络的分类层对融合后的特征进行分类预测,分辨出动物的个体身份ID。本发明中,交叉注意力模块提取了各个小图像块的局部特征,以及小图像块之间的全局相关性;局部感知网络有效地融合了全局特征和局部特征,更好地捕获了动物皮毛、脸部的颜色、纹理差异,提高了动物个体识别的准确率。

Description

基于交叉注意力Transformer网络的陆生动物个体识别方法
技术领域
本技术方案属于图像处理领域,具体是一种使用图像处理的基于动物个体识别Transformer卷积神经网络构建的动物个体身份识别方法。
背景技术
动物个体识别方法,是利用图像中的动物身体表面的皮毛、斑纹、脸部等特征对某一物种的不同个体进行鉴别,是获取物种个体数量的重要途径。动物个体识别有助于区分动物个体,是现代保护和管理动物的前提。对于动物园区内的动物,个体识别能帮助工作人员建立动物档案,分析动物生长情况,繁殖行为,合理规划动物的“衣食住行”。对于野生环境下的动物,个体识别能辅助科研人员对动物的种群数量和密度、健康状态、生活方式等进行研究,为制定合适的保护措施提供事实依据。
在早些年,人们通常根据经验来进行辨别[1],但是这种方法在面对不熟悉的物种时,辨别正确率会急剧下降。同时这种方法也十分依靠辨别人员的专业水平,随着图片数量的增加,错误率和辨别时间都会增加,因而这种方法仅限于用在小数量,具有明显个体标记的物种上。为了避免上述问题,研究人员将机器学习方法应用于动物个体识别[2,3]。然而,这些机器学习的方法依赖于研究者人为定义的特征如颜色、纹理特征等,这些人为设定的特征通常只适合于特定的场景和视频,泛化能力很差,而且动物个体识别的精度也较低。随着深度学习技术在图像处理领域的广泛应用,研究人员尝试利用深度学习网络CNN进行动物个体重识别[4-6]。然而,由于CNN远距离特征提取能力较差,导致全局特征提取能力有限,因此,不利于提取动物整个身体的外观特征。此外,拍摄的动物图像的角度差异较大,这也对动物的个体重识别提出挑战。
公开号是109377517A的“一种基于视频追踪技术的动物个体识别***”,将深度学习中的Faster-RCNN多目标检测模型与传统追踪算法卡尔曼滤波器结合,解决了多目标追踪应用中经常出现的遮挡,轨迹交叉,实时性差等难点问题。利用采集的海量圈养数据模型,训练出基于Faster-RCNN模型的圈养动物检测模型。该技术方案只能对已经标记编号的动物目标进行跟踪,实质上是轨迹跟踪,并不能真正实现对某一个没有标签的动物进行身份识别。
公开号是114842505A的“一种基于迁移学习的动物个体识别方法及装置”,是获取待识别动物的目标图像;对目标图像进行预处理,得到预处理图像;对原始ResNet34网络模型进行改进,获取改进型ResNet34网络模型,改进型ResNet34网络模型的初始模型参数通过迁移学习获得;将预处理图像输入至预先训练的改进型ResNet34网络模型,得到待识别动物的个体识别结果。该技术方案是基于CNN的动物个体识别方法,由于CNN远距离特征提取能力较差,导致局部特征的关联信息提取、以及全局特征提取能力有限,因此,不利于获取动物整个身体的外观特征。
现有技术中,Transformer作为一种新兴的深度学习结构,利用多头自注意力捕获长距离关系,并且关注局部特征,已经在人类重识别领域大放异彩。然而,人类的身体外形结构和动物的身体结构姿态差别很大,难以将人类个体重识别的方法直接应用于动物个体身份识别。
因此,研究基于Transformer的动物个体识别的方法,有效地捕获动物的皮毛、斑纹、脸部都细节差异,并融合动物整个身体外观的全局信息,将大大提高动物个体识别的准确率,从而为生动物个体计数和生存状况的深入研究提供夯实的技术支撑,也可为种群生态学、保护生物学研究提供准确、及时的数据支持。
发明内容
为了解决现有技术中存在的上述问题,本发明的思路为:
1)采集陆生动物的图片;
2)利用Vision Transformer(ViT)主干网络,将动物图片拆分为N个彼此不重叠的带有位置编码的小图像块;
3)引入交叉注意力模块CAB,替换ViT网络结构的自注意力模块,以便捕获动物身体的全局特征和局部特征;
4)运用局部感知网络对提取的全局和局部特征进行融合;
5)网络的分类层对融合后的特征进行分类预测,分辨出动物的个体身份ID。
具体来说,本技术方案是一种基于交叉注意力Transformer网络的陆生动物个体识别方法,步骤包括:先采集陆生动物图片;然后使用个体识别Re-identification网络进行检测。
Re-identification网络是动物Re-identification网络;使用动物Re-identification 网络分辨动物个体身份ID,步骤包括:
步骤2)输入待识别的动物图像,利用Vision Transformer ViT预训练好的模型,将输入的动物图像分成小图像块patch,并将每个小图像块映射为固定长度的向量送入Transformer的编码器;
步骤3)引入交叉注意力模块CAB替换ViT网络结构的自注意力模块,构建基于交叉注意力的Transformer编码器,对步骤2)得到的特征向量进行编码,获得动物图像的全局特征和局部特征;
步骤4)基于动物身体形态构建局部感知网络,运用局部感知网络融合步骤3)得到的全局特征和局部特征;
步骤5)网络的分类层对步骤4)融合后的特征进行分类预测,分辨出动物的个体身份 ID;
所述步骤3)中:
3.1)将步骤2)得到的固定长度的特征向量,输入到Transformer编码器
3.2)构建基于交叉注意力的Transformer编码器;
3.3)运用基于交叉注意力的Transformer编码器,提取动物图像的全局特征和局部特征;
步骤3.2)中,构建基于交叉注意力的Transformer编码器,交叉注意力模块CAB的结构包括Inner-Patch Self-Attention IPSA模块和Cross-Patch Self-Attention CPSA模块;IPSA 模块用于提取动物的皮毛或脸部的局部特征;CPSA模块用于提取整幅动物图像的全局信息;
对于IPSA模块:先将所有通道的输入都分别展开成6个patch,并将所有通道的输入展平后的所有patch堆叠;然后运用IPSA模块进行局部特征信息提取,计算patch内像素的注意力;最后把展平的patch重新恢复到通道输入的原始尺寸;
对于CPSA模块:先将每个通道的输入展开成6个patch,并将该通道的输入展平后的 6个patch堆叠;然后运用CPSA模块计算各个patch之间的注意力,得到patch间的相关性特征;最后把展平的patch重新恢复到通道输入的原始尺寸;
步骤3.3)中,运用基于交叉注意力的Transformer编码器,提取动物图像的全局特征和局部特征,步骤包括:
3.3.1)利用步骤3.2)构建的交叉注意力模块CAB,得到第一阶段的特征图F1
3.3.2)将步骤3.3.1)中的特征图F1输入到Patch Projection进行下采样,然后重复步骤2.3.1),利用交叉注意力模块CAB获得第二个阶段的特征图F2
3.3.3)将步骤3.3.2)得到的特征图F2再输入到交叉注意力模块CAB中,获得第三个阶段的特征图F3,得到动物图像的全局特征和局部特征;
所述步骤4)中:
4.1)对于步骤3)提取的全局特征G和局部特征Qi(i=1,2,…,N),对全局特征G和局部特征Qi进行加权平均融合得到特征GELT,其中,i是局部特征的序号;
4.2)对步骤4.1)融合后的特征GELT进行分层处理,即重新排列特征GELT为2维空间网格形式,得到2维空间网格矩阵;
4.3)对步骤4.2)得到的2维空间网格矩阵的每一层特征GELT分别进行平均池化操作,得到每一层对应的特征向量;
所述步骤4)中:
将步骤4.3)得到的每层特征送入到FC分类器中进行分类,获得最终的动物身份ID。
本发明的有益效果在于:
(1)本发明提出了一种应用于野外动物个体识别的基于交叉注意力机制的Transformer神经网络。该网络的主要框架是Vision Transformer(ViT)的框架,并在自注意力模块和局部感知网络上进行了优化。具体来说,本发明用交叉注意力模块替换了原有的自注意力块,以提高识别精度;同时根据动物和人类的形体区别,重新设计了局部感知网络的分层数,以更好地对应动物身体部位。
(2)本发明在主干网络中引入基于交叉注意块的Transformer编码方式,采用CPSA和 IPSA连用,使Transformer在获取单个patch的像素之间的联系的同时,获取patch间的关联信息,达到提取动物局部特征和全局信息的目的,更好地捕获了动物身体全局信息和局部皮毛、脸部的颜色、纹理差异。
另一方面,由于受感受野的限制,CNN模块只能获得短距离的注意,不利于野外环境中动物特征的提取。Vision Transformer能够更多地关注远距离目标,从而提高动物个体识别的准确性;
(3)本发明在特征融合阶段,根据动物站立姿态时躯干、大腿、小腿等的特征分布,重新设计局部感知网络的分层结构,在全局token和局部tokens的加权平均特征融合后,将融合后的特征元素排列成7×28个2D分布。
本发明中,交叉注意力模块提取了各个小图像块的局部特征,以及小图像块之间的全局相关性;局部感知网络有效地融合了全局特征和局部特征,更好地捕获了动物皮毛、脸部的颜色、纹理差异,提高了动物个体识别的准确率。
附图说明
图1为本发明的动物个体识别方法的流程图;
图2为本发明的动物个体识别网络的结构图;
图3(a)和图3(b)为本发明的交叉注意力模块的两个注意力子模块的原理示意图;
图3(a)是IPSA模块的的原理示意图,图3(b)是CPSA模块的原理示意图;
图4为本发明的交叉注意力模块的结构图;
图5为本发明采用的数据集中的动物示例图像;
图6为本发明为添加注意力模块CAB后的动物图像热点图;
图6的第1列为动物图像的原图,第2列为经过第1个CAB子模块的热点图,第3列为经过第2个CAB子模块的热点图,第4列为经过第3个CAB子模块的热点图;
图7为本发明局部感知网络中不同分层数对mAP的影响图。
具体实施方式
下面结合附图与具体实施方式对本发明进一步说明。
参考图1和图2,一种基于交叉注意力Transformer网络的陆生动物个体识别 (Re-identification)方法,步骤包括:先采集陆生动物图片;然后使用动物Re-identification网络进行检测;其特征是使用动物Re-identification网络,分辨动物个体身份ID的步骤包括:
1)输入待识别的动物图像,利用Vision Transformer(ViT)预训练好的模型,将输入的动物图像分成小图像块(patch),并将每个patch映射为固定长度的向量送入Transformer的编码器;
2)构建基于交叉注意力的Transformer编码器,对步骤1)得到的特征向量进行编码,获得动物图像的全局特征和局部特征;
3)基于动物身体形态构建局部感知网络,运用局部感知网络融合步骤2)得到的全局特征和局部特征;
4)网络的分类层对步骤3)融合后的特征进行分类预测,分辨出动物的个体身份ID。
动物个体个体识别(Re-identification)方法的流程图如图1,动物个体个体识别(Re-identification)的交叉注意力Transformer网络结构如图2所示,所述步骤1)中:
1.1)将输入的动物图像分成N个彼此不重叠的大小为p×p的小图像块(patch),N用式(1)计算,
Figure BDA0003973622630000041
其中,H,W分别是输入图像的高度和宽度,p是patch的高度和宽度值,小图像块是高度和宽度相等。
1.2)通过展平以及线性层编码成N个特征向量,并在最前端加入一个类别编码,即class embedding,类别编码用于最后的类别输出;
1.3)将位置编码嵌入,用于表达图像块在原图的位置信息;
假设输入图片大小为224×224,p=16,即patch大小为16×16,则每张图像会生成
Figure BDA0003973622630000042
个patch,即输入序列长度为196,每个patch维度16×16×3=768,线性投射层的维度为768×N=768×196,即一共有196个token,每个token的维度是768。这里还需要加上一个类别编码的特殊字符cls,因此最终的维度是768×197。为类别编码cls 和196个token进行位置编码操作,每个位置编码向量的维度和输入序列embedding的维度相同,即768维,位置编码的操作是求和,加入位置编码信息之后,维度依然是768×197。
所述步骤2)中:
2.1)将步骤1)得到的特征向量,输入到Transformer编码器
2.2)构建基于交叉注意力的Transformer编码器,交叉注意力模块(CAB)的结构主要包括两部分:
第一部分:IPSA(Inner-Patch Self-Attention)模块,如图3(a)所示,将所有通道的输入都分别展开成6个patch,并将所有通道的输入展平后的所有patch堆叠,然后运用IPSA 模块进行局部特征信息提取,计算patch内像素的注意力,最后把展平的patch重新恢复到通道输入的原始尺寸,用于提取动物的皮毛或脸部的局部特征。
第二部分:CPSA(Cross-Patch Self-Attention)模块,如图3(b)所示,将每个通道的输入展开成6个patch,并将该通道的输入展平后的6个patch堆叠,然后运用CPSA模块计算各个patch之间的注意力,得到patch间的相关性特征,最后把展平的patch重新恢复到通道输入的原始尺寸,从而实现了整幅图的全局信息的提取;
IPSA只能获取单个patch的像素之间的联系,无法获取patch间的关联信息,于是采用 CPSA)和IPSA连用。
交叉注意力模块(CAB)编码过程是IPSA和CPSA是搭配使用,如图4所示,步骤包括:
首先是IPSA子模块,通道的输入特征fn-1经过Layer Norm层进行归一化操作后,输入到IPSA,如公式(2)所示,IPSA的输出与原始输入fn-1相加,得到ftemp1,再进行归一化操作后,输入到多层感知机(MLP)模块,如公式(3)所示,MLP的输出再与ftemp1融合相加,得到ftemp2
然后CPSA子模块,ftemp2经过Layer Norm层进行归一化操作后,输入到CPSA,如公式(4)所示,CPSA的输出与原始输入ftemp2相加,得到ftemp3,再进行归一化操作后,输入到多层感知机(MLP)模块,如公式(5)所示,MLP的输出再与ftemp3融合相加,得到ftemp4
最后还是一个IPSA子模块,ftemp4经过LayerNorm层进行归一化操作后,输入到IPSA,如公式(6)所示,CPSA的输出与原始输入ftemp4相加,得到ftemp5,再进行归一化操作后,输入到多层感知机(MLP)模块,如公式(7)所示,MLP的输出再与ftemp5融合相加,得到fn
ftemp1=ISPA(LN(fn-1))+yn-1 (2)
ftemp2=MLP(LN(ftemp1))+ftemp1 (3)
ftemp3=CSPA(LN(ftemp2))+ftemp2 (4)
ftemp4=MLP(LN(ftemp3))+ftemp3 (5)
ftemp5=ISPA(LN(ftemp4))+ftemp4 (6)
yn=MLP(LN(ftemp5))+ftemp5 (7)
2.3)运用基于交叉注意力的Transformer编码器,提取动物图像的全局特征和局部特征,如图2所示,步骤包括:
2.3.1)利用步骤2.2)构建的交叉注意力模块(CAB),得到第一阶段的特征图F1
2.3.2)将2.2.1)中的特征图F1输入到Patch Projection进行下采样,然后重复步骤2.2.1) 获得第二个阶段的特征图F2
2.3.3)将步骤2.2.2)得到的特征图F2再输入到交叉注意力模块(CAB)中,获得第三个阶段的特征图F3,得到动物图像的全局特征和局部特征。
所述步骤3)中:
3.1)将经过步骤2产生的全局特征G和局部特征Qi(i=1,2,...,N),对全局特征G和局部特征Qi通过公式(8)进行加权平均融合,
GELT=Qi+λG (8)
3.2)对步骤3.1)融合后的特征GELT进行分层处理,即重新排列特征GELT为2维空间网格形式,如图2所示,设NC为分层处理后层的数目,NR为每一层的patch的数目,则NR和Nc用公式(9)计算,
Figure BDA0003973622630000061
其中,N为步骤1.1)中输入的动物图像被patch划分成的总数目。
假设输入图片大小为224×224,p=16,由步骤1)可知,patch的数目为196,则根据公式(9),层的数目为NC=7,每一层的patch的数目NR=28。
3.3)用公式(10)对步骤3.2)得到的2维空间网格矩阵的每一层特征GELT分别进行平均池化操作,得到每一层对应的特征向量Lk(k=0,1,...,NC-1),
Figure BDA0003973622630000062
3.4)将步骤3.3)得到的每层特征Lk(k=0,1,...,NC-1)送入到FC分类器中进行分类,获得最终的动物身份ID;
FC分类器包括两个全连接层,RELU激活函数和批归一化层。两个全连接层的输出通过激活函数softmax,再对所有层的softmax分数求和,公式如式(11),并用公式(12)选择分数最高的预测ID作为该动物个体身份ID。
Figure BDA0003973622630000063
Prediction=argmax(score) (12)
实验
(1)实验数据集
为了证明本发明所提出方法的先进性,本发明在不同的公共数据集上都进行了测试。这些数据集各有特点。数据集的详细见表1所示。
表1数据集详细分布
Figure BDA0003973622630000064
每个数据集的示例图片见图5所示。有包含老虎全身特征的ATRW数据集;有普通摄像机镜头下的猫鼬脸部,狮子脸部以及小熊猫脸部数据集;有夜间状态下的老虎脸部和金丝猴脸部数据集;本发明也整合了C-Zoo和C-Tai数据集,获得了复杂环境下的黑猩猩数据集。
(2)网络的训练
输入图像被重新调整大小为224×224,patch大小为16×16,一共分成了196个小块,通道数为3,因此,每个patch的维度是16×16×3=768。局部感知网络的分层数为7,因此,196个小块的特征将其排列成28×7个2D分布。本发明的主干网络是VisionTransformer (ViT),但ViT需要大量的图片才能有效训练,所以本发明采用ViT在ImageNet上的预训练模型,用动物个体识别的数据集对预训练模型进行微调。
(3)交叉注意力模块的有效性
交叉注意力模块CAB更多地关注动物的花纹和脸部特征差异,图6所示为交叉注意力模块CAB生成的注意力图,由图2知,本发明的交叉注意力Transformer编码器共有3个交叉注意力模块CAB。从图6可以看出,经过3个注意力CAB模块,老虎的背部花纹、熊猫和老虎的脸部显著特征、黑猩猩的嘴唇和耳朵等特征逐渐被增强。
(4)局部感知网络分层数目的选择
局部感知网络的分层数目直接影响模型的特征提取性能,分层过多会导致每层的特征差异性太小,导致模型的分类准确率降低。如图7所示,三种分层方法在初始阶段的mAP值相差不大,但是随着迭代轮数的增加,28层的mAP值远逊色于7层和14层,14层的mAP 值在91.5%到92%之间徘徊;7层的层数结构表现最优越,它的评价指标基本维持在92.5%到93%之间。
(5)性能的比较
本发明将数据集划分为4类:老虎身体数据集、脸部彩色图像数据集、脸部灰度图像数据集和复杂背景脸部图像数据。本发明选择了与公布每种类型的数据集相对应的最先进模型进行比较:Yu等[7]人的ATRW数据集模型,彩色脸和灰脸数据集的Tri-AI模型[8],以及 C-Zoo和C-Tai数据集的PrimNet[9]。同时,由于目前文献没有基于Transformer的动物个体识别方法,为了更公正地评估本发明提出的模型,还选择了两种人类个体识别方法CAL+ResNet[10]和Top DB Net[11]进行比较,选择这两种方法的原因是:这两种方法侧重于提取和挖掘不显著区域的局部特征。
实验结果如表2所示,从表2可以看出,本发明提出的方法的mAP值明显优于几种方法。通过对上述数据集的实验,我们证明了我们的网络具有良好的泛化能力,可以很好地应用于陆生动物的各种重新识别任务。原因是我们的模型提取了小图像块的局部特征,并使用交叉关注模块来计算块之间的相关性特征,以构建全局信息。对于一些动物物种,它们的皮毛图案和面部特征具有显著差异,因此预测结果令人满意。
由于C-Zoo和C-Tai这两个数据集中不同个体的面部特征几乎相同,所有模型都面临识别动物ID的困难。尽管如此,我们的方法比其他两种方法的mAP高14%以上。
表2
Figure BDA0003973622630000071
Figure BDA0003973622630000081
参考文献
[1]Reynolds-Hogland M,Ramsey A B,Muench C,et al.Integrating video andgenetic data to estimate annual age-structured apparent survival of Americanblack bears[J].Population Ecology,2022.
[2]Kulits P,Wall J,Bedetti A,et al.ElephantBook:A semi-automatedhuman-in-the-loop system for elephant re-identification[C]//ACM SIGCASConference on Computing and Sustainable Societies. 2021:88-98.
[3]Schneider S,Taylor G W,Linquist S,et al.Past,present and futureapproaches using computer vision for animal re-identification from cameratrap data[J].Methods in Ecology and Evolution,2019, 10(4):461-470.
[4]Welbourne D J,Claridge A W,Paull D J,et al.How do passive infraredtriggered camera traps operate and why does it matter?Breaking down commonmisconceptions[J].Remote Sensing in Ecology and Conservation,2016,2(2):77-83.
[5]Arzoumanian Z,Holmberg J,Norman B.An astronomical pattern-matchingalgorithm for computer-aided identification of whale sharks Rhincodon typus[J].Journal of Applied Ecology, 2005,42(6):999-1011.
[6]Yang F,Jiang Y,Xu Y.Design of Bird Sound Recognition Model Basedon Lightweight[J].IEEE Access, 2022,10:85189-85198.
[77]Li S,Li J,Tang H,et al.ATRW:a benchmark for Amur tiger re-identification in the wild[J].arXiv preprint arXiv:1906.05586,2019.
[8]Guo S,Xu P,Miao Q,et al.Automatic identification of individualprimates with deep learning techniques[J].Iscience,2020,23(8):101412.
[9]Deb D,Wiper S,Gong S,et al.Face recognition:Primates in the wild[C]//2018 IEEE 9th International Conference on Biometrics Theory,Applicationsand Systems(BTAS).IEEE,2018:1-10.
[10]Rao Y,Chen G,Lu J,et al.Counterfactual attention learning forfine-grained visual categorization and re-identification[C]//Proceedings ofthe IEEE/CVF International Conference on Computer Vision.2021:1025-1034.
[11]Quispe R,Pedrini H.Top-db-net:Top dropblock for activationenhancement in person re-identification[C]//2020 25th Internationalconference on pattern recognition(ICPR).IEEE,2021: 2980-2987。

Claims (6)

1.一种基于交叉注意力Transformer网络的陆生动物个体识别方法,步骤包括:先采集陆生动物图片;然后使用个体识别Re-identification网络进行检测;
其特征是Re-identification网络是动物Re-identification网络;使用动物Re-identification网络分辨动物个体身份ID,步骤包括:
步骤1)输入待识别的动物图像,利用Vision Transformer ViT预训练好的模型,将输入的动物图像分成小图像块patch,并将每个小图像块映射为固定长度的向量送入Transformer的编码器;
步骤2)引入交叉注意力模块CAB替换ViT网络结构的自注意力模块,构建基于交叉注意力的Transformer编码器,对步骤1)得到的特征向量进行编码,获得动物图像的全局特征和局部特征;
步骤3)基于动物身体形态构建局部感知网络,运用局部感知网络融合步骤2)得到的全局特征和局部特征;
步骤4)网络的分类层对步骤3)融合后的特征进行分类预测,分辨出动物的个体身份ID;
所述步骤2)中:
2.1)将步骤1)得到的固定长度的特征向量,输入到Transformer编码器
2.2)构建基于交叉注意力的Transformer编码器;
2.3)运用基于交叉注意力的Transformer编码器,提取动物图像的全局特征和局部特征;
步骤2.2)中,构建基于交叉注意力的Transformer编码器,交叉注意力模块CAB的结构包括Inner-Patch Self-Attention IPSA模块和Cross-Patch Self-Attention CPSA模块;IPSA模块用于提取动物的皮毛或脸部的局部特征;CPSA模块用于提取整幅动物图像的全局信息;
对于IPSA模块:先将所有通道的输入都分别展开成6个patch,并将所有通道的输入展平后的所有patch堆叠;然后运用IPSA模块进行局部特征信息提取,计算patch内像素的注意力;最后把展平的patch重新恢复到通道输入的原始尺寸;
对于CPSA模块:先将每个通道的输入展开成6个patch,并将该通道的输入展平后的6个patch堆叠;然后运用CPSA模块计算各个patch之间的注意力,得到patch间的相关性特征;最后把展平的patch重新恢复到通道输入的原始尺寸;
步骤2.3)中,运用基于交叉注意力的Transformer编码器,提取动物图像的全局特征和局部特征,步骤包括:
2.3.1)利用步骤2.2)构建的交叉注意力模块CAB,得到第一阶段的特征图F1
2.3.2)将步骤2.3.1)中的特征图F1输入到Patch Projection进行下采样,然后重复步骤2.3.1),利用交叉注意力模块CAB获得第二个阶段的特征图F2
2.3.3)将步骤2.3.2)得到的特征图F2再输入到交叉注意力模块CAB中,获得第三个阶段的特征图F3,得到动物图像的全局特征和局部特征;
所述步骤3)中:
3.1)对于步骤2)提取的全局特征G和局部特征Qi(i=1,2,…,N),对全局特征G和局部特征Qi进行加权平均融合得到特征GELT,其中,i是局部特征的序号;
3.2)对步骤3.1)融合后的特征GELT进行分层处理,即重新排列特征GELT为2维空间网格形式,得到2维空间网格矩阵;
3.3)对步骤3.2)得到的2维空间网格矩阵的每一层特征GELT分别进行平均池化操作,得到每一层对应的特征向量;
所述步骤4)中:
将步骤3.3)得到的每层特征送入到FC分类器中进行分类,获得最终的动物身份ID。
2.根据权利要求1所述的一种基于交叉注意力Transformer网络的陆生动物个体识别方法,其特征是所述步骤1)中:
1.1)将输入的动物图像分成N个彼此不重叠的大小为p×p的小图像块;N用式(1)计算,
Figure FDA0003973622620000021
其中,H,W分别是输入的动物图像的高度和宽度,p是patch的高度和宽度值;
1.2)通过展平以及线性层编码成N个特征向量,并在每个特征向量的最前端加入一个类别编码,类别编码用于最后的类别输出;
1.3)再将位置编码嵌入步骤1.2)得到的向量,得到固定长度的向量;位置编码用于表达图像块在原图的位置信息;
最终得到固定长度的向量送入Transformer的编码器。
3.根据权利要求1或2所述的一种基于交叉注意力Transformer网络的陆生动物个体识别方法,其特征是步骤3.1)中,对全局特征G和局部特征Qi通过公式(2)进行加权平均融合,
GELT=Qi+λG (2)
步骤3.2)中,设NC为分层处理后层的数目,NR为每一层的patch的数目,则NR和NC用公式(3)计算,
Figure FDA0003973622620000022
其中,N为步骤1.1)中输入的动物图像被patch划分成的总数目;
步骤3.3)中,用公式(4)对每一层特征GELT分别进行平均池化操作,得到每一层对应的特征向量Lk(k=0,1,…,NC-1),
Figure FDA0003973622620000023
4.根据权利要求3所述的一种基于交叉注意力Transformer网络的陆生动物个体识别方法,其特征是步骤2.2)和步骤2.3)中,交叉注意力模块CAB编码过程是IPSA模块和CPSA模块搭配使用,步骤包括:
首先,在IPSA模块中:通道的输入特征fn-1经过Layer Norm层进行归一化操作后,输入到IPSA;如公式5所示,IPSA的输出与原始输入fn-1相加,得到ftemp1;再进行归一化操作后,输入到多层感知机MLP模块;如公式6所示,MLP的输出再与ftemp1融合相加,得到ftemp2
然后,在CPSA模块中,ftemp2经过Layer Norm层进行归一化操作后,输入到CPSA;如公式7所示,CPSA的输出与原始输入ftemp2相加,得到ftemp3;再进行归一化操作后,输入到多层感知机MLP模块;如公式8所示,MLP的输出再与ftemp3融合相加,得到ftemp4
最后,在IPSA模块中,ftemp4经过Layer Norm层进行归一化操作后,输入到IPSA;如公式9所示,CPSA的输出与原始输入ftemp4相加,得到ftemp5;再进行归一化操作后,输入到多层感知机MLP模块;如公式10所示,MLP的输出再与ftemp5融合相加,得到fn
ftemp1=ISPA(LN(fn-1))+fn-1 (5)
ftemp2=MLP(LN(ftemp1))+ftemp1 (6)
ftemp3=CSPA(LN(ftemp2))+ftemp2 (7)
ftemp4=MLP(LN(ftemp3))+ftemp3 (8)
ftemp5=ISPA(LN(ftemp4))+ftemp4 (9)
fn=MLP(LN(ftemp5))+ftemp5 (10)
5.根据权利要求1所述的一种基于交叉注意力Transformer网络的陆生动物个体识别方法,其特征是步骤4)中,FC分类器是由两个全连接层、RELU激活函数和批归一化层构成;
两个全连接层的输出通过激活函数softmax,再对所有层的softmax分数求和,公式如式11;再用公式12选择分数最高的预测ID作为该动物个体身份ID;
Figure FDA0003973622620000031
Prediction=argmax(score) (12)。
6.根据权利要求1所述的一种基于交叉注意力Transformer网络的陆生动物个体识别方法,其特征是步骤3.2)中,根据动物背部,腹部,大腿和小腿的动物身体结构特征,设置局部感知网络的分层数为7层,以此获得更适合于动物身体结构的特征。
CN202211520562.XA 2022-11-30 2022-11-30 基于交叉注意力Transformer网络的陆生动物个体识别方法 Pending CN115731579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211520562.XA CN115731579A (zh) 2022-11-30 2022-11-30 基于交叉注意力Transformer网络的陆生动物个体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211520562.XA CN115731579A (zh) 2022-11-30 2022-11-30 基于交叉注意力Transformer网络的陆生动物个体识别方法

Publications (1)

Publication Number Publication Date
CN115731579A true CN115731579A (zh) 2023-03-03

Family

ID=85299546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211520562.XA Pending CN115731579A (zh) 2022-11-30 2022-11-30 基于交叉注意力Transformer网络的陆生动物个体识别方法

Country Status (1)

Country Link
CN (1) CN115731579A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984584A (zh) * 2023-03-20 2023-04-18 广东石油化工学院 基于交替图像注意力机制的油罐商标颜色纯正检测方法
CN116403048A (zh) * 2023-04-17 2023-07-07 哈尔滨工业大学 一种基于多模态数据融合的农作物生长估计模型构建方法
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984584A (zh) * 2023-03-20 2023-04-18 广东石油化工学院 基于交替图像注意力机制的油罐商标颜色纯正检测方法
CN115984584B (zh) * 2023-03-20 2023-07-07 广东石油化工学院 基于交替图像注意力机制的油罐商标颜色纯正检测方法
CN116403048A (zh) * 2023-04-17 2023-07-07 哈尔滨工业大学 一种基于多模态数据融合的农作物生长估计模型构建方法
CN116403048B (zh) * 2023-04-17 2024-03-26 哈尔滨工业大学 一种基于多模态数据融合的农作物生长估计模型构建方法
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116597267B (zh) * 2023-07-12 2023-09-29 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
Tao et al. Smoke detection based on deep convolutional neural networks
CN115731579A (zh) 基于交叉注意力Transformer网络的陆生动物个体识别方法
CN109063666A (zh) 基于深度可分离卷积的轻量化人脸识别方法及***
CN109819208A (zh) 一种基于人工智能动态监控的密集人群安防监控管理方法
CN113239784B (zh) 一种基于空间序列特征学习的行人重识别***及方法
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN110765839B (zh) 可见光面部图像的多路信息融合及人工智能情绪监测方法
CN112258559B (zh) 一种基于多目标跟踪的智能跑步计时评分***和方法
CN110765841A (zh) 基于混合注意力机制的群组行人重识别***及终端
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法
CN114612823A (zh) 一种面向实验室安全管理的人员行为监测方法
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法
CN114120363A (zh) 基于背景及姿态归一化的行人跨镜重识别方法及***
CN104850857A (zh) 基于视觉空间显著性约束的跨摄像机行人目标匹配方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及***
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN115050093A (zh) 一种基于分阶段多级金字塔的跨视角步态识别方法
CN114882537B (zh) 一种基于神经辐射场的手指新视角图像生成方法
Siagian et al. Gist: A mobile robotics application of context-based vision in outdoor environment
CN113269099B (zh) 基于图匹配的异构无人***下车辆重新识别方法
Miao et al. Abnormal behavior learning based on edge computing toward a crowd monitoring system
CN104615987B (zh) 一种基于误差反传神经网络的飞机残骸智能识别方法及***
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination