CN113269182A

CN113269182A - 一种基于变体transformer对小区域敏感的目标果实检测方法及***

Info

Publication number: CN113269182A
Application number: CN202110431533.5A
Authority: CN
Inventors: 贾伟宽; 孟虎; 张中华; 贾艺鸣; 马晓慧; 赵艳娜; 郑元杰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-08-17

Abstract

本发明提供了一种基于变体transformer对小区域敏感的目标果实检测方法及***。该方法，包括：获取待测的目标果实图像；利用训练后的网络模型，依据待测的目标果实图像，得到目标果实检测结果；其中，网络模型包括：深度卷积神经网络、transformer编码器‑解码器以及前馈神经网络；所述网络模型训练的过程包括：采集目标果实图像，并对目标果实图像进行预处理，获得图像训练集和图像验证集；构建网络模型，利用图像训练集、图像验证集以及目标损失函数，对网络模型进行训练，基于检测结果修改模型参数，直至损失函数的数值小于设定的阈值，获得最优的网络模型。

Description

一种基于变体transformer对小区域敏感的目标果实检测方法及***

技术领域

本发明属于果实采摘机器人视觉***、产量预估等智能化农业应用领域，尤其涉及一种基于变体transformer对小区域敏感的目标果实检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在实际生产生活之中，对果实进行产量预测是十分的必要的，对于接下来果实生长过程中，农药与化肥等农产品的使用量规划有必要的参考作用，可优化使用结构，较少成本。正因为如此，对较小果实检测就显得十分的重要。在进行果实检测时，对于目标物检测的准确程度十分关键，在这个领域之中有着众多的学者时刻关注着，并且出现了越来越多的研究成果。

近年来，该领域已积累了一定的研究基础，大多沿用机器学习与深度学习两个方向。其中，基于机器学习的识别方法通常伴随预处理、特征选择等操作，不能实现端到端的检测流程，且识别效果容易受到自然环境下各种干扰的影响。基于深度学习的识别方法，虽然在精度上有了显著提升，且能够实现端到端的检测流程，但由于卷积等操作以及模型对锚框的依赖，导致其需要耗费大量的计算与存储资源，识别速度尚达不到实时性要求。因此，本发明在保证精度的前提之下，利用变体transformer的并行计算特性，提升速度，减少训练时间，优化精度与速度，很好的适应果实产量预测等农业需求。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于变体transformer对小区域敏感的目标果实检测方法及***，其能够在产量预测时，对小区域的果实进行准确的检测，具有精度高、速度快，较好的满足果实产量预测等农业需求的效果。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于变体transformer对小区域敏感的目标果实检测方法。

一种基于变体transformer对小区域敏感的目标果实检测方法，包括：

获取待测的目标果实图像；

利用训练后的网络模型，依据待测的目标果实图像，得到目标果实检测结果；其中，网络模型包括：深度卷积神经网络、transformer编码器-解码器以及前馈神经网络；

所述网络模型训练的过程包括：

采集目标果实图像，并对目标果实图像进行预处理，获得图像训练集和图像验证集；

构建网络模型，利用图像训练集、图像验证集以及目标损失函数，对网络模型进行训练，基于检测结果修改模型参数，直至损失函数的数值小于设定的阈值，获得最优的网络模型。

进一步的，采集目标果实图像包括：采集不同光照、不同时间段、不同角度下的目标果实图像，并对目标果实图像进行分类。

进一步的，预处理的过程包括：对原始目标果实图像的旋转、折叠、形变，或者在原始图像中加入噪声，达到扩充样本的目的。

进一步的，预处理的过程包括：标注目标果实图像中的果实。

进一步的，检测过程包括：待测的目标果实图像经深度卷积神经网络提取第一特征后，将第一特征输入transformer编码器，第一特征经多尺度变形注意力网络和尺度级嵌入，得到第一特征对应的编码形式，然后经transformer解码器解码后，最后在前馈神经网络中经过两次线性映射，得到目标果实检测结果。

进一步的，前馈神经网络包括：ReLU激活函数和隐藏维数为d的三层感知器和一个线性投影层。

进一步的，所述目标损失函数为边界框损失函数，所述的边界框损失函数构建包括：基于L₁损失函数和GLOU损失函数构建边界框损失函数。

本发明的第二个方面提供一种基于变体transformer对小区域敏感的目标果实检测***。

一种基于变体transformer对小区域敏感的目标果实检测***，包括：

采集和预处理模块，其被配置为：采集目标果实图像，并对目标果实图像进行预处理，获得图像训练集和图像验证集；

网络构建模块，其被配置为：构建网络模型，利用图像训练集、图像验证集以及目标损失函数，对网络模型进行训练，基于检测结果修改模型参数，直至损失函数的数值小于设定的阈值，获得最优的网络模型；

检测模块，其被配置为：利用训练后的网络模型，依据待测的目标果实图像，得到目标果实检测结果；其中，网络模型包括：深度卷积神经网络、transformer编码器-解码器以及前馈神经网络。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明使用变体transformer编码器-解码器模型，可并行处理，提高目标检测速度，对小区域目标敏感。且方法稳定，速度快，精度较高，可以很好的满足果实产量预测等农业需求。

(2)本发明使用处理数据集扩充样本空间，很好的适应小样本数据集，泛化能力强，可以应用到各种果实采摘或预产的机器人视觉***中。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于变体transformer对小区域敏感的目标果实检测方法流程图；

图2本发明变体transformer编码器-解码器的网络结构图；

图3本发明前馈神经网络结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于变体transformer对小区域敏感的目标果实检测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和***，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

获取待测的目标果实图像；

所述网络模型训练的过程包括：

S101：采集目标果实图像，并对目标果实图像进行预处理，获得图像训练集和图像验证集；

其中，图像采集与分类。在果园环境下使用佳能EOS 80D单反相机采集丰富的绿色果实图像，对采集的图像进行分类，方便处理数据集。

具体的，使用佳能EOS 80D单反相机采集不同光照、不同时间段、不同角度下的绿色目标果实图像；对采集的图像进行分类，方便处理数据集。其中，对图像的分类包括对于不同品种果实的分类。

数据预处理包括：将原始图像旋转、折叠、形变，或者在原始图像中加入噪声，生成新的数据，以此来扩充样本，提高模型精度。使用LabelMe软件对图像进行标注，标注时，将每个目标果实标注为一个独立的连通域，制作成COCO格式数据集。然后将扩充完成的数据集分为训练集、验证集和测试集。

S102：构建网络模型，利用图像训练集、图像验证集以及目标损失函数，对网络模型进行训练，基于检测结果修改模型参数，直至损失函数的数值小于设定的阈值，获得最优的网络模型。

具体的，上述过程可以具体为：

(1)构建网络头部。传统的CNN网络骨干是从初始图像

(由3个颜色通道)开始，生成一个低分辨率的激活映射特征f∈R^C×H×W。本实施例使用的特征值为：

使用卷积神经网络作为头部，下一步可以并行处理特征，加快检测速度，提高精度。

经过头部卷积神经网络提出特征，之后将特征输入到变体transfomer编码器-解码器中处理。

(2)构建变体transformer编码器-解码器与前馈神经网络。将制作好的数据集经过深度卷积神经网络处理，提取特征，构建变体transformer编码器-解码器处理特征，最后构建前馈神经网络，处理特征并输出最终结果。

对于变体transformer编码器，使用多尺度变形注意力模块代替DETR中处理特征映射的transformer注意力模块。对于编码器的输入和输出，使其最终都是具有相同分辨率的多尺度特征图。使用1×1的卷积神经网络，从ResNet提起特征的步骤C₃到步骤C₅之间提取特征多尺度特征图

其中C_l表示比像素为2^l还要低的输入图像。使用C₆表示最后的像素特征图{x^L}，其通过一个3×3的两步卷积神经网络获得。关键元素和查询元素都是来自多尺度特征地图的像素。对于每个查询像素，参考点就是其本身。为了识别每个查询像素所在的特征级别，除了位置嵌入外，在特征表示中添加了一个尺度级嵌入，表示为e_l。与固定编码的位置嵌入不同，尺度级嵌入

随机初始化并与网络结合并随网络训练。

其中，步骤C1-C6的具体过程包括：

C₁：原始图像经过一个7×7×64的卷积提取特征；

C₂：再经过一次池化以及6次3×3×64的卷积以及残差模块提取特征；

C₃：再经过8次3×3×128的卷积以及残差模块提取特征；

C₄：再经过12次3×3×256的卷积以及残差模块提取特征；

C₅：再经过6次3×3×512的卷积以及残差模块提取特征；

C₆：最后经过一次平均池化提取特征。

对于变体transformer解码器，在解码器中有交叉注意力和自我注意力模块。这两种注意力模块的查询元素都是对象查询。在交叉注意力模块中，对象查询从特征映射中提取特征，其中关键元素是从编码器输出的特征映射中提取的。在自我注意模块中，对象查询相互作用，其中关键元素是对象查询。由于我们提出的变形注意力模块是为处理卷积特征映射作为关键元素而设计的，所以只将每个交叉注意模块替换为多尺度变形注意力模块，而自我注意模块保持不变。对于每个对象查询，这6个对象的二维归一化坐标通过一个可学习的线性投影和一个sigmoid函数嵌入到其对象查询中。由于多尺度变形注意模块提取参考点周围的图像特征，让检测头预测边界盒作为参考点的相对偏移量，进一步降低优化难度。

多尺度注意力模块：

使用

表示多尺度特征图，其中

设

为每个查询元素q的参考点的归一化坐标，用多尺度变形注意力模块定义为：

其中z_q表示特征，l为输入的特征级，k为采样点，W表示特征矩阵，W′_m表示单位矩阵，Δp_mlqk与A_mlqk为采样偏移量与注意权值，□₁为一个将

重新缩放到第l层的输入特征图的函数。

掩饰多头自注意力机制：

通过掩饰多头自注意力机制进一步处理特征，优化输出结果。

残差模块和正则化层：

通过残差模块考虑上下文信息，优化输出结果。

通过正则化层，防止神经网络过度拟合。

对于前馈神经网络。前馈神经网络通过一个带有ReLU激活函数和隐藏维数为d的3层感知器和一个线性投影层来计算出结果。通过前馈神经网络预测最终结果。

(3)构建损失函数。使用匈牙利损失函数以及SoftMax损失函数构建最终损失函数，优化网络模型，进行训练模型。

在具体实现过程中，用y来表示背景真值集，用

表示预测集，使用如下公式找到这两个集合之间的二部匹配。其中，在训练数据中，人工标记的果实，称之为背景真值集。

其中，

是真值y_i与预测序列σ(i)之间的二值匹配损失，

表示N个元素的排列，N表示固定大小的预测集，此优化算法在以匈牙利算法基础上进行的工作。

步骤5.2：Softmax函数是深度学习中使用非常频繁的一个函数，它可以把输入的几个数映射为0-1之间的实数，并且归一化后仍能够保证几个数的和为1。它的公式化表示为：

其中T表示元素数量，计算该元素的指数与所有元素指数和的比值。

即损失函数为：

步骤5.3：将

损失函数与GLOU损失函数

在尺度不变的基础上相结合，建立自己的边界框损失函数，将边界框损失函数

定义为：

l₁损失函数：基于逐像素比较差异，然后取绝对值，x(p)表示原图片像素，y(p)表示计算之后图像的像素，公式如下。

GLOU损失函数如下所示，我们用

来表示，其中A和B表示生成的边界框区域。

是超参数，通过批处理中的对象数量进行规范化，L1表示l₁损失函数。

评估模型并优化网络模型。输入测试样本，使用评估指标评价获得的绿色果实检测模型的检测结果，根据评估结果调整模型的参数，重复训练改进模型，直至损失函数的数值小于设定的阈值，获得最优网络模型。

实施例二

本实施例提供了一种基于变体transformer对小区域敏感的目标果实检测***。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，包括：

获取待测的目标果实图像；

所述网络模型训练的过程包括：

2.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，所述采集目标果实图像包括：采集不同光照、不同时间段、不同角度下的目标果实图像，并对目标果实图像进行分类。

3.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，所述预处理的过程包括：对原始目标果实图像的旋转、折叠、形变，或者在原始图像中加入噪声，达到扩充样本的目的。

4.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，所述预处理的过程包括：标注目标果实图像中的果实。

5.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，检测过程包括：待测的目标果实图像经深度卷积神经网络提取第一特征后，将第一特征输入transformer编码器，第一特征经多尺度变形注意力网络和尺度级嵌入，得到第一特征对应的编码形式，然后经transformer解码器解码后，最后在前馈神经网络中经过两次线性映射，得到目标果实检测结果。

6.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，所述前馈神经网络包括：ReLU激活函数和隐藏维数为d的三层感知器和一个线性投影层。

7.根据权利要求1所述的基于变体transformer对小区域敏感的目标果实检测方法，其特征在于，所述目标损失函数为边界框损失函数，所述的边界框损失函数构建包括：基于L₁损失函数和GLOU损失函数构建边界框损失函数。

8.一种基于变体transformer对小区域敏感的目标果实检测***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于变体transformer对小区域敏感的目标果实检测方法中的步骤。