CN115995017A

CN115995017A - 一种果实识别与定位方法、装置及介质

Info

Publication number: CN115995017A
Application number: CN202211553660.3A
Authority: CN
Inventors: 毛亮; 梁志尚; 吴惠粦; 田鑫裕; 张兴龙; 朱文铭; 刘昌乐
Original assignee: Guangzhou National Modern Agricultural Industry Science And Technology Innovation Center; Shenzhen Polytechnic
Current assignee: Guangzhou National Modern Agricultural Industry Science And Technology Innovation Center; Shenzhen Polytechnic
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-21

Abstract

本发明公开了一种果实识别与定位方法，包括以下步骤：在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集；对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置；利用所述训练图像数据集与标注结果对果实目标检测模型进行训练；采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息。本发明能有效解决现有技术准确率低、不通用、以及数据获取成本高的问题。

Description

一种果实识别与定位方法、装置及介质

技术领域

本发明涉及果实识别与定位技术领域，尤其涉及一种果实识别与定位方法、装置及介质。

背景技术

果实的识别和定位是实现自动化采摘的前提和基础。现有的水果识别和定位方法例如专利文献CN111126296A提出的水果定位方法及装置、专利文献CN112529948A提出的一种基于Mask R-CNN与3维球体拟合的成熟石榴定位方法采用阈值分割或者实例分割的方法识别图像中的水果目标，这种方法算法复杂、容易受到环境的干扰，而且需要处理的数据量大，无法保证实时性。

现有的目标技术利用彩色图像中水果的颜色、形状、纹理等信息将图像中的目标与背景分割开来，实现图像中水果的识别。此方法对环境的要求严格，容易受到干扰而出现遗漏、识别错误等现象，不能满足果园中的果实识别要求。例如，不同天气情况和一天中的不同时间，果园中的光线条件有很大差别；另一方面，果园中的水果生长在果树上，与树叶和枝条存在相互靠近和遮挡的情况，使得果园中采集的果实图像背景非常复杂，现有的技术并不能很好地避免以上因素带来的干扰，在果园环境中的识别准确率低、不具有通用性。采用实例分割的方法在标记数据集时需要对目标的轮廓描点进行标记，工作量大，效率低。上述两种识别方法需要处理的数据量都非常大，处理起来缓慢无法保证实时性。采用获取点云的方式进行定位，此方法所需要的点云数据获取十分困难，成本高。

发明内容

本发明实施例提供一种果实识别与定位方法、装置及介质，能有效解决现有技术准确率低、不通用、以及数据获取成本高的问题。

本发明一实施例提供一种果实识别与定位方法，包括以下步骤：

在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集；

对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置；

利用所述训练图像数据集与标注结果对果实目标检测模型进行训练；

采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息。

与现有技术相比，本发明实施例公开的果实识别与定位方法通过在不同的天气条件下进行拍摄，以保证数据集中图像获取的环境条件的多样性，使得在训练果园荔枝目标检测模型时能学习到多种情况下荔枝果实目标的特征，克服光线变化带来的困难，保证目标检测模型能在不同环境条件下准确识别出荔枝果实目标。通过结合目标检测的结果和深度图像对目标进行定位，相比于利用点云数据定位的方法，本发明只需要利用深度传感器进行拍摄，成本低，数据获取方法简单。

进一步的，所述在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集，具体包括：

分别在各种光照条件下拍摄固定数量的果实图像，将所有拍摄得到的果实图像按照光照条件进行分类后组合成训练图像数据集。

在制作荔枝果实图像数据集时，在不同的天气条件下进行拍摄，以保证数据集中图像获取的环境条件的多样性，使得在训练果园荔枝目标检测模型时能学习到多种情况下荔枝果实目标的特征，克服光线变化带来的困难，保证目标检测模型能在不同环境条件下准确识别出荔枝果实目标。

进一步的，所述对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置，具体包括：

通过标注工具对图像数据集中的果实进行标注，将图像中的果实区域用几何图形框框出，根据图像中果实的成熟度分别将得到的几何图形框设置标签，所述标签类型包括成熟与未成熟。

在进行数据标记时只需要设置一个包围住目标的几何图形框，无需对目标的轮廓进行描点，在标记过程中工作量更小。

进一步的，所述利用所述训练图像数据集与标注结果对果实目标检测模型进行训练，具体包括：

加载图像数据集，将所述训练图像数据集与标注结果输入到果实目标检测模型中，经过模型运算后得到初始模型参数并计算初始损失，随后使用反向传播迭代的方式持续更新模型参数并计算损失，当模型性能达到要求后结束训练，得到最终训练完成的果实目标检测模型；

其中，所述果实目标检测模型包括：特征提取网络、颈部、检测部分；所述特征提取网络由卷积神经网络和注意力函数构成，所述注意力函数为将缩放点积注意力函数并行计算多次后进行拼接而构成的多头注意力函数；所述颈部采用特征金字塔和路径聚合网络两种结构，所述特征金字塔结构用于通过上采样将高级特征映射和低级特征映射重合，所述路径聚合网络用于将定位信息从浅层传输到深层；所述检测部分根据特征提取网络和颈部生成的特征图输出目标检测输出框，所述输出框包括若干个先验框与预测框，所述先验框分布在特征图的每个像素中且具有不同的大小尺寸，所述预测框通过先验框和特征图计算获得。

作为一个优选的实施例，所述当模型性能达到要求后结束训练，具体包括：

所述模型性能达到要求具体为：损失小于预设误差值；

其中，损失由定位损失、置信度损失和分类损失相加得到，用于判定当前参数的模型预测结果和真实情况之间的误差，当所述损失小于预设误差值时，结束训练。

进一步的，所述采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的位置信息，具体包括：

加载已训练完成的果实目标检测模型，初始化拍摄设备的拍摄参数，设置拍摄所得图像的分辨率；

通过所述拍摄设备对待检测果实的采集若干张图像；其中，所述图像包括彩色图像与深度图像，所述拍摄设备具体为深度传感器；

使用果实目标检测模型检测彩色图像中的果实，得到若干个目标检测输出框，分别记录所述若干个输出框的中心点在彩色图像中的横纵坐标；其中，所述目标检测输出框还包括标签，所述标签分为成熟与未成熟，用于识别果实的成熟度；

获取所述深度图像中所述若干个输出框的中心点的深度数值；

将所述横纵坐标与深度数值组合，得到果实在空间坐标系中的位置信息。

通过结合目标检测的结果和深度图像对目标进行定位，相比于利用点云数据定位的方法，此方法只需要利用深度传感器进行拍摄，成本低，数据获取方法简单。

本发明另一实施例对应提供了一种果实识别与定位装置，包括：图像采集与标注模块、模型训练模块和果实识别与定位模块；

所述图像采集与标注模块用于在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集，同时对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置；

所述模型训练模块用于利用所述训练图像数据集与标注结果对果实目标检测模型进行训练；

所述果实识别与定位模块用于采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息。

与现有技术相比，本发明实施例公开的果实识别与定位装置通过在不同的天气条件下进行拍摄，以保证数据集中图像获取的环境条件的多样性，使得在训练果园荔枝目标检测模型时能学习到多种情况下荔枝果实目标的特征，克服光线变化带来的困难，保证目标检测模型能在不同环境条件下准确识别出荔枝果实目标。通过结合目标检测的结果和深度图像对目标进行定位，相比于利用点云数据定位的方法，本装置只需要利用深度传感器进行拍摄，成本低，数据获取方法简单。

进一步的，所述果实识别与定位模块用于采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息，具体包括：

本发明另一实施例提供了一种果实识别与定位装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的果实识别与定位方法。

本发明另一实施例提供了一种存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的果实识别与定位方法。

附图说明

图1是本发明一实施例提供的一种果实识别与定位方法的流程示意图。

图2是本发明一实施例提供的一种果实目标检测模型的网络结构示意图。

图3是本发明一实施例提供的一种果实识别与定位装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种果实识别与定位方法的流程示意图，包括：

S101：在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集；

S102：对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置；

S103：利用所述训练图像数据集与标注结果对果实目标检测模型进行训练；

S104：采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息。

本发明实施例提供的一种果实识别与定位方法通过在不同的天气条件下进行拍摄，以保证数据集中图像获取的环境条件的多样性，使得在训练果园荔枝目标检测模型时能学习到多种情况下荔枝果实目标的特征，克服光线变化带来的困难，保证目标检测模型能在不同环境条件下准确识别出荔枝果实目标。通过结合目标检测的结果和深度图像对目标进行定位，相比于利用点云数据定位的方法，本发明只需要利用深度传感器进行拍摄，成本低，数据获取方法简单。

对于步骤S101，具体的，分别在各种光照条件下拍摄固定数量的果实图像，将所有拍摄得到的果实图像按照光照条件进行分类后组合成训练图像数据集。

在一个优选的实施例中，在晴天时通过顺光拍摄获得阳光直射的图像，通过侧光拍摄获得侧光图像；在傍晚时拍摄获得亮度低的图像；在阴天时拍摄获得散射光条件下的图像。在制作数据集时保证上述的阳光直射、测光、亮度低、散射光四种环境下拍摄的图像在训练数据集中的数量相等。

对于步骤S102，具体的，通过标注工具对图像数据集中的果实进行标注，将图像中的果实区域用几何图形框框出，根据图像中果实的成熟度分别将得到的几何图形框设置标签，所述标签类型包括成熟与未成熟。

在一个优选的实施例中，对训练数据集中的图像的果实进行人工标注，在标注时只需要设置一个包围住目标的矩形框，无需对目标的轮廓进行描点。使用标注工具通过矩形框将图像中的果实区域标注出来，获得真实框，并设置对应的标签，标签类型包括成熟和未成熟，以区分成熟与未成熟的果实。

对于步骤S103，具体的，加载图像数据集，将所述训练图像数据集与标注结果输入到果实目标检测模型中，经过模型运算后得到初始模型参数并计算初始损失，随后使用反向传播迭代的方式持续更新模型参数并计算损失，当模型性能达到要求后结束训练，得到最终训练完成的果实目标检测模型；

在一个优选的实施例中，使用反向传播迭代的方式，对模型进行训练，以获得适合果园荔枝目标检测的模型参数。训练步骤包括加载数据、建立模型、更新模型参数、计算损失、评估模型和判断结束训练的条件、保存模型参数。其中，所述判断技术训练的条件为“模型性能达到要求或训练次数大于设定值”，所述要求为“损失函数变化值小于设定值”。

特别地，所述计算损失使用改进后的目标检测损失函数，包括定位损失、置信度损失、分类损失，其反映使用当前参数的模型预测结果和真实情况的误差，计算方法为：

Loss＝Loss_cls+Loss_obj+Loss_box

分类损失和置信度损失采用二元交叉熵损失函数，计算方法表示为：

式中，p表示预测值，x表示样本，y表示目标值，n表示样本总量，L表示二元交叉熵损失最终计算的结果。

定位损失采用α-CIoU损失Loss_α-CIoU，计算方法为：

式中，A、B分别表示输出框和真实框，|A∩B|表示A和B交集的面积，|A∪B|表示A和B并集的面积，C表示包围A和B的最小矩形的面积。α为可调的参数，比较不同取值时的检测结果确定α的取值，能够提高调试目标检测模型的灵活性。b和b^gt分别为输出框和真实框的中心点，ρ(·)为欧氏距离,c是两个框的最小包围框的对角线长度。β为正权衡参数,v衡量长宽比的一致性。β和v的计算方法分别表示为：

式中w^gt和h^gt分别为真实框的宽和高，w和h分别为输出框的宽和高。

在一个优选的实施例中，所述果实目标检测模型是一种基于改进型YOLOv5的果园目标检测模型，包括特征提取网络、颈部、检测部分，具体网络结构参见图2。

特别地，所述的特征提取网络为“卷积-注意力结构”，由卷积神经网络和注意力函数构成。其中卷积神经网络构成特征提取网络的Conv(Convolution，卷积)、SPP(SpatialPyramid Pooling，空间金字塔池化)和CSP瓶颈层三种结构。Conv包括一个卷积层、一个批归一化层、一个激活函数。所述的激活函数为带泄露线性整流函数。CSP瓶颈层包括卷积层、批归一化、激活函数、和一个残差网络结构。注意力函数使用缩放点积注意力函数，计算方法表示为：

式中，Q,K,V为输入的特征图，K^T表示K的转置矩阵，

为比例因子。

将缩放点积注意力函数并行计算多次并进行拼接，构成多头注意力函数，计算方法表示为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_□)W^O

式中，head为缩放点积注意力函数的输出。

将多头注意力函数和卷积神经网络组合构成特征提取网络。

颈部采用特征金字塔和路径聚合网络两种结构。特征金字塔采用自顶向下的方式，通过上采样将高级特征映射和低级特征映射重合。路径聚合网络采用自底向上的方式，将定位信息从浅层传输到深层。

检测部分根据特征提取网络和颈部生成的特征图输出目标检测输出框。在特征图的每个像素中生成多个不同尺寸的框，称为先验框，先验框的尺寸分别为10×13、16×30、33×23、30×61、62×45、59×119、116×90、156×198、373×326。通过先验框和特征图计算获得预测框，计算方法为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

式中，σ(t_x)、σ(t_y)为基于网格中心点左上角点坐标的偏移量，σ为sigmoid函数。p_w、p_□为先验框的宽高。b_x、b_y、b_w、b_□分别为预测框的中心点横坐标、中心点纵坐标、宽、高。

对于步骤S104，具体的，所述采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的位置信息，具体包括：

在一个优选的实施例中，使用Intel RealSense D435深度传感器作为摄像头，初始化摄像头的参数，设置所获取的彩色图像和深度图像的分辨率为640×480。用该深度传感器在果实前方采集一张彩色图像和深度图像，使用目标检测模型检测彩色图像中的果实，得到目标检测输出框，记录输出框的中心点在彩色图像的坐标(x,z)。随后获取深度图像中点(x,z)的深度数值，作为果实与拍摄点的距离y，则(x,y,z)表示在空间坐标系中果实的位置信息。

参见图3，是本发明一实施例提供的一种果实识别与定位装置的结构示意图，包括：图像采集与标注模块201、模型训练模块202和果实识别与定位模块203；

所述图像采集与标注模块201用于在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集，同时对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置；

所述模型训练模块202用于利用所述训练图像数据集与标注结果对果实目标检测模型进行训练；

所述果实识别与定位模块203用于采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息。

本发明实施例提供的一种果实识别与定位装置通过在不同的天气条件下进行拍摄，以保证数据集中图像获取的环境条件的多样性，使得在训练果园荔枝目标检测模型时能学习到多种情况下荔枝果实目标的特征，克服光线变化带来的困难，保证目标检测模型能在不同环境条件下准确识别出荔枝果实目标。通过结合目标检测的结果和深度图像对目标进行定位，相比于利用点云数据定位的方法，本装置只需要利用深度传感器进行拍摄，成本低，数据获取方法简单。

进一步的，所述果实识别与定位模块203用于采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息，具体包括：

本发明一实施例还提供了一种果实识别与定位装置。该实施例的果实识别与定位装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个果实识别与定位方法实施例中的步骤，例如图1所示的步骤S101。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如果实识别与定位模块203。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述果实识别与定位装置中的执行过程。例如，所述计算机程序可以被分割成图像采集与标注模块201、模型训练模块202和果实识别与定位模块203，各模块具体功能如下：

所述果实识别与定位装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述果实识别与定位装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是果实识别与定位装置的示例，并不构成对果实识别与定位装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述果实识别与定位装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述果实识别与定位装置的控制中心，利用各种接口和线路连接整个果实识别与定位装置的各个部分。

所述存储器可用于存储所述计算机程序或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序或模块，以及调用存储在存储器内的数据，实现所述果实识别与定位装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述果实识别与定位装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种果实识别与定位方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种果实识别与定位方法，其特征在于，所述在不同光照条件下对果实进行拍摄，将拍摄结果分类，得到训练图像数据集，具体包括：

3.如权利要求1所述的一种果实识别与定位方法，其特征在于，所述对所述训练图像数据集中的图像进行标注，并对标注结果进行标签设置，具体包括：

4.如权利要求1所述的一种果实识别与定位方法，其特征在于，所述利用所述训练图像数据集与标注结果对果实目标检测模型进行训练，具体包括：

5.如权利要求4所述的一种果实识别与定位方法，其特征在于，所述当模型性能达到要求后结束训练，具体包括：

所述模型性能达到要求具体为：损失小于预设误差值；

6.如权利要求1所述的一种果实识别与定位方法，其特征在于，所述采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的位置信息，具体包括：

7.一种果实识别与定位装置，其特征在于，包括：图像采集与标注模块、模型训练模块和果实识别与定位模块；

8.如权利要求7所述的一种果实识别与定位装置，其特征在于，所述果实识别与定位模块用于采集若干张待检测果实的图像，通过训练完成的果实目标检测模型对所述图像中的果实进行识别与定位，获得待检测果实的成熟度与位置信息，具体包括：

9.一种果实识别与定位装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的果实识别与定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的果实识别与定位方法。