CN117095244B

CN117095244B - 一种红外目标识别方法、装置、设备及介质

Info

Publication number: CN117095244B
Application number: CN202311349539.3A
Authority: CN
Inventors: 杜吉祥; 陈楷文; 张洪博; 赖鑫; 翟传敏
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-01-05
Anticipated expiration: 2043-10-18
Also published as: CN117095244A

Abstract

本发明提供了一种红外目标识别方法、装置、设备及介质，包括获取红外摄像机采集到的红外图片数据集；调用训练好的YOLOv5目标识别模型对红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度；调用注意力模块对输出特征张量和模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图；小目标识别头、中目标识别头和大目标识别头分别依照对应的不同尺寸的过滤特征图，对待识别物体进行识别。此外，现有的基于领域自适应的红外目标识别技术存在生成的图像质量不够稳定的问题。

Description

一种红外目标识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种红外目标识别方法、装置、设备及介质。

背景技术

随着大数据、互联网、物联网等计算机技术的发展，图形处理器更新迭代带来的计算资源的极大丰富，以大型卷积神经网络为代表的人工智能技术飞速发展，并且极大地推动了人类社会生产力的提升。其对于各行各业，都产生了积极的推动作用，例如在图像识别、视频理解、自动驾驶、无人监控等领域，都活跃着人工智能技术的身影，使得这些领域变得更加的高效。人工智能作为推动技术变革的引领者，发挥着巨大的作用。其中，目标识别是人工智能领域的一个重要组成部分，其意义同样重大。

目标识别技术在诸多领域和行业都发挥着积极作用。随着交通和汽车行业的发展，自动驾驶也开始蓬勃发展，在自动驾驶领域，目标识别是其核心技术之一，汽车在自动驾驶的过程中需要自动识别周围的行人和车辆，以及交通灯和道路标志，并根据周围的环境信息实时判断是否存在安全威胁。这一过程，对于目标识别模型，提出了很高的要求。第一，这需要目标识别模型具有较高的识别速度以胜任实时识别场景，第二，这需要目标识别模型能够在复杂的未见场景中精确识别不同类别的目标，这就需要模型具备较强的泛化性能。此外，自动驾驶中的目标识别还面临着其它考验，例如，城市的天气多变，目标识别模型能够识别晴天时的道路目标，却未必能精准识别雨天时的目标；在夜晚条件下，可见光微弱，此时模型需要识别红外图像，相比于可见光图像，红外图像的目标轮廓不够清晰，且信息量较少，此外，虽然已经有了足够多的可见光图像数据集，但是模型实际应用场景的红外图像数据相对较少且不容易进行数据收集，因此在模型实际开发的过程中，可供模型训练学习的数据仅包括带有标签的可见光图像集和无标签的红外图像集。这些问题，制约了模型识别红外目标的能力。而基于领域自适应的目标识别技术可以解决上述问题，基于领域自适应，可以使模型在不同场景以及不同风格的图像中学习到共性知识，从而使模型在面对复杂的现实场景时做到游刃有余。基于领域自适应的红外目标识别的关键技术在于如何在带标签的可见光和无标签的红外图像中提取到语义不变的高级特征，从而使模型能够在不同模态的图像中寻找到共性信息，提升模型对红外目标的识别能力。目前已经提出了许多方法，这些方法根据基础框架的分类，可以分为一阶段和二阶段域自适应红外目标识别方法。其主要差别为，前者识别速度较快但精度不高，后者识别速度较慢但精度相对较高。

基于领域自适应的红外目标识别方法基本上基于两个框架，一个是二阶段目标识别框架Faster R-CNN，一个是一阶段目标识别框架YOLO。Faster R-CNN模型的目标识别过程可以分为两个阶段，在第一个阶段，骨干网络从图像中提取出高级特征，它们代表了图像的目标以及背景信息，在第二个阶段，结合区域候选网络RPN，模型对这些特征进行进一步的筛选，得到目标的位置信息，然后将这些候选区域的特征输入分类器，从而得到目标的类别信息，这样就实现了目标识别。YOLO模型则同时完成目标的定位和分类任务，将输入模型的图像划分为网格，每一个网格负责识别属于该网格的目标，并在一个阶段内同时输出目标的坐标、类别以及置信度等数据预测，从而完成一阶段的目标识别任务。以上两种目标识别框架，其主要差别在于识别速度和精度。在实际应用中，一阶段的目标识别框架更具实用性。

据了解，现有的基于领域自适应的红外目标识别技术大多采用生成对抗网络GAN，将带标签的可见光源域图像转化为红外模态的图像。这一转换过程中，图像的内容保持不变，因此原有的可见光图像标签可以直接用于转化后的红外图像，最后通过训练，使得模型在仅有可见光图像训练集的条件下也可以具备红外目标识别能力。然而，基于GAN生成红外图像技术存在一些不足，其生成的图像质量不够稳定。

有鉴于此，提出本申请。

发明内容

有鉴于此，本发明的目的在于提供一种红外目标识别方法、装置、设备及介质，能够有效解决现有技术中的基于领域自适应的红外目标识别技术大多采用生成对抗网络GAN，而基于GAN生成红外图像技术存在生成的图像质量不够稳定的问题。

本发明公开了一种红外目标识别方法, 包括：

获取红外摄像机采集到的红外图片数据集，其中，所述红外图片数据集中的红外图片的图像张量为，/>为同批次输入图像数量，/>为通道数，/>为高度，为宽度；

调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头；

调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，其中，所述三个不同尺寸的过滤特征图分别与所述小目标识别头、所述中目标识别头和所述大目标识别头相对应；

所述小目标识别头、所述中目标识别头和所述大目标识别头分别依照对应的不同尺寸的过滤特征图，对待识别物体进行识别。

优选地，调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，具体为：

调用所述骨干网络Backbone中的Focus模块对所述红外图片的初始张量进行切片处理，生成切片张量；

调用所述骨干网络Backbone中的CSP网络模块对所述切片张量进行特征合并处理，生成合并张量，其中，所述特征合并处理为将所述切片张量的基础层的特征映射划分为两部分，再通过跨阶段层次结构将该两部分合并；

使用多个不同卷积层的多个卷积核对所述合并张量进行卷积运算，生成输出特征张量，其中，所述输出特征张量的大小为；

调用所述颈网络Neck中的CSP网络连接结构对所述输出特征张量进行特征融合处理，生成模型识别精度，其中，所述特征融合处理包括计算交并比IOU、类别交叉熵和预测置信度，计算所述模型识别精度的训练损失函数为：

其中，为损失值，损失值越小，精度越高，/>为输入图像，/>为模型输出的边框位置预测，/>为目标框对应的类别预测，/>为第一个和第二个损失项的超参数，/>为网格的总数，/>为第四个损失项的超参数，/>为类别总数，/>为c属于总数，/>为预测值，/>为标签，/>表示为对象是否出现在单元网格/>中，表示为单元网格/>中第/>个边框预测器负责该预测，/>为目标中心的真实坐标，/>为模型预测的目标中心坐标，/>为真实目标的宽，/>为真实目标的高，/>为模型预测的目标宽，/>为模型预测的目标高，/>为真实置信度，当该网格区域存在真实目标时，/>，反之，/>，/>为模型预测的置信度，/>为类别信息。

优选地，在调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理之前，还包括：

获取红外摄像机采集到的红外图片训练数据集和拍摄摄像头采集到的可见光数据集，并采用Mosaic数据增强技术对所述红外图片训练数据集和所述可见光数据集进行处理；

建立一个基础YOLOv5模型，调用所述基础YOLOv5模型的骨干网络Backbone中的Focus模块对所述红外图片训练数据集和所述可见光数据集进行切片处理；

调用所述基础YOLOv5模型的骨干网络Backbone中的CSP网络模块对切片处理后的所述红外图片训练数据集和所述可见光数据集进行特征合并处理，并使用多个不同卷积层的多个卷积核对合并后的所述红外图片训练数据集和所述可见光数据集的张量进行卷积运算，生成训练张量；

调用注意力模块对所述训练张量进行过滤处理，生成过滤特征图；

分别调用域自适应组件和所述目标识别头组件Head对所述过滤特征图进行预处理，以训练所述基础YOLOv5模型区分功能，提升模型对不同尺度目标的跨域识别能力，其中，所述基础YOLOv5模型区分功能是用于区分输入模型的特征张量是属于源域还是属于目标域的；

根据训练好的所述基础YOLOv5模型，生成YOLOv5目标识别模型。

优选地，分别调用域自适应组件和所述目标识别头组件Head对所述过滤特征图进行预处理，具体为：

调用域自适应组件的梯度反转层GRL对所述过滤特征图进行反转处理，并将反转处理后的所述过滤特征图依次经过两个1×1的卷积层和全连接层，生成第一特征张量；

当判断到所述第一特征张量为源域时，输出第一预测类别；

当判断到所述第一特征张量不为源域时，输出第二预测类别；

结合所述目标识别头组件Head根据所述第一预测类别或所述第二预测类别，生成域分类的损失函数和多任务损失函数，其中，所述域分类的损失函数的公式为，/>是所述域自适应组件的域分类器对于第i个训练图像的（x,y）处的特征图的域类别预测，/>是第i个图像的域标签，当/>=0时，其为源域图像，当/>=1时，其为目标域图像；

其中，所述多任务损失函数的公式为，/>为多任务损失函数，/>为模型的目标识别训练损失函数，/>为模型的域分类损失函数，/>为一个常数。

优选地，调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，具体为：

根据公式对所述输出特征张量和所述模型识别精度进行过滤处理，生成所述过滤特征图/>，其中，表示待被过滤的特征图，/>表示被过滤后的特征图，/>表示特征矩阵之间的逐元素点乘融合，/>为5个空间二维1×1卷积；

其中，Softmax操作的计算公式为，/>代表第/>个输出值结果，/>代表所有输出结果的数量，所述Softmax操作可以将所有的输出值转化为概率在之间的值，且所有概率值的总和等于1。

本发明还公开了一种红外目标识别装置，包括：

图片获取单元，用于获取红外摄像机采集到的红外图片数据集，其中，所述红外图片数据集中的红外图片的图像张量为，/>为同批次输入图像数量，/>为通道数，/>为高度，/>为宽度；

目标识别模型单元，用于调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头；

过滤特征图生成单元，用于调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，其中，所述三个不同尺寸的过滤特征图分别与所述小目标识别头、所述中目标识别头和所述大目标识别头相对应；

物体识别单元，用于所述小目标识别头、所述中目标识别头和所述大目标识别头分别依照对应的不同尺寸的过滤特征图，对待识别物体进行识别。

优选地，所述目标识别模型单元具体用于：

优选地，所述过滤特征图生成单元具体用于：

本发明还公开了一种红外目标识别设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的基于一种红外目标识别方法。

本发明还公开了一种可读存储介质，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的一种红外目标识别方法。

综上所述，本实施例提供的一种红外目标识别方法、装置、设备及介质，该方法另辟蹊径，设计了一种域自适应组件，并结合一种注意力机制，对YOLOv5模型进行了改进；关键部分在域自适应组件，在训练过程中，通过域自适应组件使模型在带标签的可见光图像和无标签的红外图像中提取域不变特征，在测试阶段，域自适应组件不参与模型的识别过程，因此不会影响模型的检测速度。从而解决现有技术中的基于领域自适应的红外目标识别技术大多采用生成对抗网络GAN，而基于GAN生成红外图像技术存在生成的图像质量不够稳定的问题。

附图说明

图1是本发明第一方面提供的一种红外目标识别方法的流程示意图。

图2是本发明第二方面提供的一种红外目标识别方法的流程示意图。

图3是本发明实施例提供的YOLOv5模型的框架示意图

图4是本发明实施例提供的域分类器的流程示意图

图5是本发明实施例提供的区分前景/背景的注意力模块示意图

图6是本发明实施例提供的一种红外目标识别装置的模块示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1至图2，本发明的第一实施例提供了一种红外目标识别方法、装置、设备及介质,其可由红外目标识别设备（以下识别设备）来执行，特别的，由识别设备内的一个或者多个处理器来执行，以实现如下步骤：

在本实施例中，所述识别设备可为用户终端设备（如智能手机、智能电脑或者其他智能设备），该用户终端设备可与云端的服务器建立通讯连接，以实现数据的交互。

S101，获取红外摄像机采集到的红外图片数据集，其中，所述红外图片数据集中的红外图片的图像张量为，/>为同批次输入图像数量，/>为通道数，/>为高度，/>为宽度；

请参阅图3，S102，调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头；

具体地，步骤S102包括：调用所述骨干网络Backbone中的Focus模块对所述红外图片的初始张量进行切片处理，生成切片张量；

具体地，在本实施例中，YOLOv5模型作为近两年提出的一种一阶段目标识别模型，具有强大的实时识别性能，其效率足以胜任实际的目标识别任务，且其检测精度较高，因此所述红外目标识别方法选择YOLOv5作为基础模型。YOLOv5模型主要分为输入端、骨干网络（Backbone）、颈网络（Neck）和目标识别头（Head），它进行目标识别的具体步骤如下：

YOLOv5模型的输入是红外图像，设该输入图像张量是。在训练阶段，所述红外目标识别方法多了一步使用Mosaic数据增强等技术进一步地丰富模型的训练数据，其他步骤训练时和识别时都一样。识别时，输入的张量将由Backbone处理，Backbone中的Focus模块对初始张量进行切片，Backbone中另一个主要模块是CSP网络，假设输入特征的分辨率为/>，那么输出特征的分辨率将变为/>。CSP模块先将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，这样做的目的在于降低计算量。并使用32个卷积核进行卷积运算，得到了一个/>大小的特征张量。

Neck部分也是采用了CSP的网络连接结构，通过不同层次的特征融合，增强模型对上下文图像信息的理解能力。模型的Head负责输出模型的预测，其中包括大、中、小三个识别头，分别负责识别不同尺度的目标，Head通过计算交并比（IOU）、类别交叉熵和预测置信度，来评估模型识别的精度，最终得到整体模型的训练损失函数如公式所示，其中/>表示对象是否出现在单元网格i中，/>表示单元格i中的第j个边框预测器“负责”该预测。/>代表目标中心的真实坐标，/>代表模型预测的目标中心坐标，和/>代表真实目标的宽与高，/>和/>代表模型预测的目标宽与高。/>是真实置信度，当该网格区域存在真实目标时，其置为1，反之为0，/>是模型预测的置信度，/>则代表类别信息。

请参阅图4，具体地，在本实施例中，在调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理之前，还包括：

根据训练好的所述基础YOLOv5模型，生成YOLOv5目标识别模型。

在本实施例中，所述红外目标识别方法的域自适应组件是一种域分类器，待输入目标识别头的特征张量先经过域分类器处理，域分类器可以对特征张量进行分类，特征张量会被分为两类：源域或者目标域。在域分类器和主干目标识别模型之间存在着一层梯度反转层（GRL），GRL是整个域自适应组件的核心模块。在模型训练梯度反向传播之时，域分类损失所产生的梯度经过GRL时，会被乘以一个负系数，这就代表着域分类器和主干目标识别模型在域分类任务上以一种相反的目标进行训练。域分类器的训练目标是能够较好地区分输入的特征张量是属于源域还是属于目标域，而主干目标识别模型的训练目标则与之相反，即提取出域混淆的特征张量，模型在不同的域之间学习到了通用的知识，从而提高了跨域识别的能力。

将域分类器分别和大、中、小这三个不同尺度的目标识别头相结合，就可以显著提升模型对不同尺度目标的跨域识别能力，需要注意的是，在模型识别测试时，将去除域自适应组件，因此该组件并不会对模型识别速度造成影响。最终，可以得到域分类的损失函数如公式所示，/>是域分类器对于第i个训练图像的（x,y）处的特征图的域类别预测，/>是第i个图像的域标签，当/>=0时，它为源域图像，当/>=1时，它为目标域图像。

在训练时，域分类器的目标是降低，而主干模型的目标是增加/>。最终，由域分类损失和目标检测损失一起构成了模型的多任务损失函数，见公式，其中，/>代表多任务损失函数。/>的计算公式如前文所示，这代表模型的目标识别训练损失函数。/>的计算公式如前文所示，这代表模型的域分类损失函数。引入了梯度反转层将导致模型训练出现不稳定的情况，损失函数在训练过程中无法收敛，因此在公式/>中，将/>除以/>。

在训练初期，由于数值较大，因此在多任务损失中这样的做法可以显著减小域分类损失对整体训练过程的干扰；在训练后期，因为目标识别的精度已经随着训练学习而下降，所以/>的数值下降，这就导致域分类损失在多任务损失函数中的影响权重上升，使得模型的训练重心向域自适应训练倾斜。这实际上是一种解耦的训练策略，可以缓解目标识别和域分类任务的冲突。在公式/>中，/>是一个常数，取值为50。

请参阅图5，S103，调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，其中，所述三个不同尺寸的过滤特征图分别与所述小目标识别头、所述中目标识别头和所述大目标识别头相对应；

具体地，步骤S103包括：根据公式对所述输出特征张量和所述模型识别精度进行过滤处理，生成所述过滤特征图/>，其中，/>表示待被过滤的特征图，/>表示被过滤后的特征图，/>表示特征矩阵之间的逐元素点乘融合，/>为5个空间二维1×1卷积；

具体地，在本实施例中，领域自适应，是一个将不同域特征映射到同一个不变空间并使其分布逐渐一致的过程，即特征对齐。在特征对齐的过程中，可能存在将不同域的背景特征加以对齐的情况，而这不能帮助模型增强泛化性。只有对目标前景特征进行对齐，才能提升其跨域识别能力。从这一点出发，所述红外目标识别方法设计了一种注意力机制，这可以让模型专注于前景特征的对齐。该注意力借鉴了非局部的思想，通过全局注意力使得模型能够更好地理解图像的上下文信息。非局部的思想可以概括为公式，其中，/>代表特征图当中的某一特定区域，/>对整体特征输出响应做归一化操作，/>代表图像特征中任意区域/>和特定区域/>之间的关系，代表图像中任意区域/>的特征输出响应。

在此基础上，所述红外目标识别方法提出的注意力模块本质上是一种滤波器，记被过滤的特征图为，在这里，S代表特征图的尺寸，所述红外目标识别方法最终将过滤3个不同尺寸的特征图。该滤波模块被训练为针对背景区域的特征进行抑制，它最终将输出一个权重矩阵以引导特征图X突出重要的前景特征。该模块由5个空间二维1×1卷积/>以及软最大Softmax操作和不同特征矩阵间逐元素融合操作组成，Softmax操作可以较好地提升前景特征的显著性，同时抑制背景特征的输出。上述过程最终表示为公式/>，其中表示被过滤后的特征图，/>表示特征矩阵之间的逐元素点乘融合。接着，该被过滤的特征图/>将被输入到域分类器中执行特征对齐，以及输入到下一层目标检测网络以进行进一步的目标检测。

Softmax操作，其计算公式如公式所示，/>代表第/>个输出值结果，/>代表所有输出结果的数量，通过Softmax操作可以将所有的输出值转化为概率在/>之间的值，且所有概率值的总和等于1。这样的输出函数可以在较大程度上扩大高输出响应和低输出响应之间的差异，在所述红外目标识别方法的注意力模块中，这样就可以较好地区分前景和背景的特征输出响应。

S104，所述小目标识别头、所述中目标识别头和所述大目标识别头分别依照对应的不同尺寸的过滤特征图，对待识别物体进行识别。

具体地，在本实施例中，所述红外目标识别方法以YOLOv5作为目标识别的基础模型，通过自制的域自适应数据集（可见->红外）来验证本发明的有效性。为了方便表述，所述红外目标识别方法将域自适应组件记为GRL，并将注意力模块记为AT。分别对比仅使用YOLOv5模型、使用YOLOv5＋GRL模型，以及所述红外目标识别方法的最终模型YOLOv5＋GRL+AT的实验结果，来验证所述红外目标识别方法的有效性，如表1所示。其中，模型精度的评价指标为[email protected]，当模型预测的目标识别框和真实目标标签框的IOU大于0.5时，就认为该预测结果是准确的，本模型的识别类别为行人与车辆这2类，mAP就是识别这两个类别的平均精度。结果显示，所述红外目标识别方法相较于初始的YOLOv5模型，其在红外测试集上的红外识别精度提升了12.3%。

表1

与现有的主流域自适应红外目标识别技术相比，所述红外目标识别方法有以下区别：

第一，所述红外目标识别方法开发域自适应组件改进模型的训练过程，这代替了过去使用GAN进行可见->红外图像转换的方法；

第二，所述红外目标识别方法使用域自适应组件分别对YOLOv5模型的大、中、小三个目标识别头（Head）网络进行了改进，从而提升了模型多尺度跨域识别能力；

第三，所述红外目标识别方法开发了一种合适的注意力机制，这有助于模型更好地区分图像的前景和背景特征，从而实现更具针对性的跨域特征对齐。

总的来说，所述红外目标识别方法解决了三个问题，第一，目前可见光数据集已经十分常见且易得了，模型使用带标签的可见光数据集进行训练是十分方便的。在模型实际应用中，需要对红外图像进行识别。如果使用带标签的红外图像数据集进行训练，虽然可以使模型实现较高的识别精度，但是对实际应用场景的红外图像进行人工标注将会带来额外的成本，由于实际模型的应用场景复杂且多变，如果在模型每一次落地应用之前都先使用经过标注后的红外图像数据集进行训练，那么其标注成本将难以负担。为了实现模型“一次训练，处处应用”的目的，基于领域自适应技术对目标识别模型进行二次开发就显得尤为重要。在所述红外目标识别方法中，带标签的可见光图像数据集是源域，无标签的红外图像数据集是目标域，将源域和目标域数据集作为一个统一的训练集，对模型进行域自适应训练。无需手动标注，模型也能实现对红外目标的识别。

第二，对负责不同尺度的目标识别头网络进行域自适应改进是本发明的一个重要之处。在模型实际应用的识别场景中，存在着不同尺度的目标。模型是依赖大、中、小这三个目标识别头网络去进行分别识别的。在模型进行跨域目标识别时，对多尺度目标进行跨域识别是其中的一个技术难点。所述红外目标识别方法在三个不同尺度的识别头分别加装域自适应组件，可以有效地增强模型对于多尺度目标的跨域识别能力。

第三，区分前景与背景特征的注意力模块是域自适应红外目标识别模型中的一个重要模块。在域自适应红外目标识别的过程中，使模型对不同域图像的前景特征进行域自适应对齐是至关重要的。因为对背景特征进行对齐损害了模型的识别性能，所以该模块可以使得整个域自适应过程更具针对性。该注意力模块基于非局部的思想，并进行改进，使之更好地适用于所述红外目标识别方法的模型，最终取得了令人满意的效果。

综上，所述红外目标识别方法具有不同于其它域自适应红外目标识别技术的地方在于，所述红外目标识别方法采用域自适应组件改进模型的训练过程，而非使用生成对抗网络生成红外风格图像对模型进行训练。基于生成式的域自适应识别技术过于依赖生成图像的质量，这会导致实际效果的不稳定，不利于实际应用。而所述红外目标识别方法采用的技术相对稳定，且训练成本低廉，更适合于实际应用。所述红外目标识别方法对三个负责识别不同大小目标的识别头进行域自适应训练，这可以增强其多尺度跨域识别能力。所述红外目标识别方法使用区分前景与背景特征的注意力模块，这可以使得整个的域自适应过程更具针对性，更为有效的优点。

请参阅图6，本发明的第二实施例提供了一种红外目标识别装置，包括：

图片获取单元201，用于获取红外摄像机采集到的红外图片数据集，其中，所述红外图片数据集中的红外图片的图像张量为，/>为同批次输入图像数量，/>为通道数，/>为高度，/>为宽度；

目标识别模型单元202，用于调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头；

过滤特征图生成单元203，用于调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，其中，所述三个不同尺寸的过滤特征图分别与所述小目标识别头、所述中目标识别头和所述大目标识别头相对应；

物体识别单元204，用于所述小目标识别头、所述中目标识别头和所述大目标识别头分别依照对应的不同尺寸的过滤特征图，对待识别物体进行识别。

优选地，所述目标识别模型单元202具体用于：

其中，为损失值，损失值越小，精度越高，/>为输入图像，/>为模型输出的边框位置预测，/>为目标框对应的类别预测，/>为第一个和第二个损失项的超参数，/>为网格的总数，/>为第四个损失项的超参数，/>为类别总数，/>为c属于总数，/>为预测值，/>为标签，/>表示为对象是否出现在单元网格/>中，表示为单元网格/>中第/>个边框预测器负责该预测，/>为目标中心的真实坐标，/>为模型预测的目标中心坐标，/>为真实目标的宽，/>为真实目标的高，/>为模型预测的目标宽，/>为模型预测的目标高，/>为真实置信度，当该网格区域存在真实目标时，/>，反之，/>，/>为模型预测的置信度，/>为类别信息。/>

优选地，所述过滤特征图生成单元203具体用于：

本发明的第三实施例提供了一种红外目标识别设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的基于一种红外目标识别方法。

本发明的第四实施例提供了一种可读存储介质，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的一种红外目标识别方法。

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述一种红外目标识别设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种红外目标识别方法的控制中心，利用各种接口和线路连接整个所述一种红外目标识别方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种红外目标识别方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、文字转换功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、文字消息数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital,SD）卡、闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims

1.一种红外目标识别方法, 其特征在于，包括：

获取红外摄像机采集到的红外图片数据集，其中，所述红外图片数据集中的红外图片的图像张量为，/>为同批次输入图像数量，/>为通道数，/>为高度，/>为宽度；

分别调用域自适应组件和目标识别头组件Head对所述过滤特征图进行预处理，以训练所述基础YOLOv5模型区分功能，提升模型对不同尺度目标的跨域识别能力，其中，所述基础YOLOv5模型区分功能是用于区分输入模型的特征张量是属于源域还是属于目标域的，具体为：

当判断到所述第一特征张量为源域时，输出第一预测类别；

其中，所述多任务损失函数的公式为，/>为多任务损失函数，/>为模型的目标识别训练损失函数，/>为模型的域分类损失函数，/>为一个常数；

根据训练好的所述基础YOLOv5模型，生成YOLOv5目标识别模型；

调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头，具体为：

其中，为损失值，损失值越小，精度越高，/>为输入图像，/>为模型输出的边框位置预测，/>为目标框对应的类别预测，/>为第一个和第二个损失项的超参数，/>为网格的总数，/>为第四个损失项的超参数，/>为类别总数，/>为c属于总数，/>为预测值，/>为标签，/>表示为对象是否出现在单元网格/>中，/>表示为单元网格/>中第/>个边框预测器负责该预测，/>为目标中心的真实坐标，为模型预测的目标中心坐标，/>为真实目标的宽，/>为真实目标的高，/>为模型预测的目标宽，/>为模型预测的目标高，/>为真实置信度，当网格区域存在真实目标时，，反之，/>，/>为模型预测的置信度，/>为类别信息；

2.根据权利要求1所述的一种红外目标识别方法，其特征在于，调用注意力模块对所述输出特征张量和所述模型识别精度进行过滤处理，生成三个不同尺寸的过滤特征图，具体为：

其中，Softmax操作的计算公式为，/>代表第/>个输出值结果，代表所有输出结果的数量，所述Softmax操作将所有的输出值转化为概率在/>之间的值，且所有概率值的总和等于1。

3.一种红外目标识别装置，其特征在于，包括：

当判断到所述第一特征张量为源域时，输出第一预测类别；

根据训练好的所述基础YOLOv5模型，生成YOLOv5目标识别模型；

目标识别模型单元，用于调用训练好的YOLOv5目标识别模型对所述红外图片数据集的红外图片进行识别处理，生成输出特征张量和模型识别精度，其中，所述YOLOv5目标识别模型包括骨干网络Backbone、颈网络Neck和目标识别头组件Head，所述目标识别头组件Head包括小目标识别头、中目标识别头和大目标识别头，具体为：

4.根据权利要求3所述的一种红外目标识别装置，其特征在于，所述过滤特征图生成单元具体用于：

5.一种红外目标识别设备，其特征在于，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如权利要求1至2任意一项所述的一种红外目标识别方法。

6.一种可读存储介质，其特征在于，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如权利要求1至2任意一项所述的一种红外目标识别方法。