CN115546668A

CN115546668A - 海洋生物的检测方法、装置及无人机

Info

Publication number: CN115546668A
Application number: CN202211253998.7A
Authority: CN
Inventors: 任雪峰; 罗巍
Original assignee: Beijing Zhuoyi Intelligent Technology Co Ltd
Current assignee: Beijing Zhuoyi Intelligent Technology Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-12-30

Abstract

本公开提供了一种海洋生物的检测方法、装置及无人机。该海洋生物的检测包括：获取图像采集设备捕获的海洋环境图像；利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。根据本公开提供的各个实施例，通过机器学习模型识别海洋生物并提取生物特征，从而实现对海洋生物的动态监测。

Description

海洋生物的检测方法、装置及无人机

技术领域

本公开总体上涉及人工智能技术领域，更具体地涉及一种海洋生物的检测方法、装置及无人机。

背景技术

本部分旨在介绍本领域的一些方面，其可以与下面描述的和/或要求保护的本公开的各个方面相关。相信本部分有助于提供背景信息以便于更好地理解本公开的各个方面。因此，应该理解的是这些介绍应该从这个角度来理解，而不是作为对现有技术的承认。

对鲸等海洋哺乳动物的无人机遥感研究主要集中在丰度、分布和身体状况评估。传统的调查和监测方法存在许多挑战：虽然可以在船基实地工作和照片识别过程中收集高分辨率数据，但这种方法受海况限制，无法有效覆盖更大的空间；有人机或卫星可以在大范围内快速收集数据，但两者都受到天气情况的限制，有人机航拍不仅昂贵而且海洋环境还可能给飞行员带来风险；水肺调查对潜水员的技术要求很高，并且要求研究人员了解潜流并防范野生物种的潜在攻击；标记跟踪的方法虽然可以有效监测，但是具有一定的侵入性，对海洋中一些敏感和脆弱地生态***(如红树林、珊瑚礁)特别容易造成破坏且不易恢复，并有可能造成对鲸鱼的伤害和行为改变。

无人机遥感技术克服了上述挑战，无人机易于操作，比其他方法更灵活，价格合理，效率高，可以防止危险动物和环境对人造成潜在伤害，并且能够从难以到达的地方收集信息，同时最大限度地减少干扰。在无人机遥感的帮助下，除了获取动物存在、分布和行为等视觉信息外，还允许研究人员在不捕获个体的情况下对野生动物进行形态测量。因此，可以获得动物的重量、大小、健康状况和种群数量统计数据，有助于为海洋动物的保护和管理提供更完整的信息。

现有的无人机野生动物调查方法大都通过摄像机或传感器从周围环境获取实时信息，同时将其同步推送到地面站，地面站将获取的视频或图像信息传输到专用图像分析服务器(工作站)进行后续分析。上述过程都被认为是一项资源密集型任务，模型网络复杂、参数多且效率低，实时性很大程度上取决于传输网络的带宽和稳定性。

发明内容

本公开的目的在于提供一种海洋生物的检测方法、装置及无人机，以实现对海洋生物的动态监测。

根据本公开的第一方面，提供了一种海洋生物的检测方法，包括：获取图像采集设备捕获的海洋环境图像；利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

在一些实施例中，所述机器学习模型为Mask R-CNN神经网络模型。

在一些实施例中，所述Mask R-CNN神经网络模型的骨干网络包括101层的ResNet网络和特征金字塔网络。

在一些实施例中，所述Mask R-CNN神经网络模型的骨干网络包括50层的ResNext网络和特征金字塔网络。

在一些实施例中，所述特征金字塔网络还包括以自下而上和横向连接形式的反向分支。

在一些实施例中，所述骨干网络还包括卷积注意力模块。

在一些实施例中，所述卷积注意力模块为通道和空间双重注意力模块。

在一些实施例中，所述通道和空间双重注意力模块为CBAM(Convolutional BlockAttention Module)模块，并且，所述CBAM模块中的通道注意力模块为ECA-Net模块。

在一些实施例中，所述海洋生物为鲸鱼，并且，所述生物特征为长度。

在一些实施例中，所述根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征包括：提取所述像素掩码，并通过主成分分析法确定主轴；沿所述主轴测量目标像素；以及根据目标像素，确定所述目标海洋生物的长度。

根据本公开的第二方面，提供了一种海洋生物的检测装置，包括：获取模块，其配置为获取图像采集设备捕获的海洋环境图像；生成模块，其配置为利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及确定模块，其配置为根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

根据本公开的第三方面，提供了一种无人机，其特征在于，包括：图像采集设备，用于实时采集图像；以及处理器，用于根据所述图像采集设备所采集的图像，执行根据本公开第一方面的任一项所述的方法。

根据本公开提供的各个实施例，通过机器学习模型识别海洋生物并提取生物特征，从而实现对海洋生物的动态监测。

应当理解，本部分所描述的内容并不旨在标识所要求保护的发明内容的关键或必要特征，也不旨在单独地用于确定所要求保护的发明内容的范围。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的该实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了示例人工神经网络。

图2示出了根据本公开的机器学习模型的一个示例的结构示意图。

图3示出了对Mask R-CNN的骨干网络中的特征网络的改进。

图4示出了对Mask R-CNN的骨干网络中的特征金字塔网络(FPN)的改进。

图5示出了对Mask R-CNN的骨干网络中的特征网络的另一改进。

图6示出了根据本公开的海洋生物的检测方法的一个示例。

图7示出了根据本公开的海洋生物的检测方法的一个示例的流程示意图。

图8示出了根据本公开的海洋生物的检测装置的一个示例的结构示意图。

图9示出了根据本发明实施例提供的一种无人机的结构示意图。

具体实施方式

下文将参考附图更全面地描述本公开。然而，本公开可以以多种替代形式来体现，并且不应被解释为限于本文描述的实施例。因此，尽管本公开易于进行各种修改和替代形式，但是其具体实施例在附图中以示例的方式示出，并将在本文详细描述。然而，应当理解，这种方式并不旨在将本公开限制于所公开的特定形式，相反，本公开覆盖了落入由权利要求所限定的本公开的精神和范围内的所有修改方案、等同方案和替代方案。

应当理解，尽管本文可以用术语第一、第二等描述各种元素，但是这些元素不应该被这些术语所限制。这些术语仅用于区分一个元素和另一个元素。例如，第一元素可以被称为第二元素，并且类似地，第二元素可以被称为第一元素，而不脱离本公开的教导。

本文结合框图和/或流程图描述了一些示例，其中每个框表示包括用于实现指定逻辑功能的一个或多个可执行指令的电路元件、模分块或代码的部分。还应该注意的是，在其他实现方式中，框中所述的功能可以不按所述的顺序发生。例如，根据所涉及的功能，连续示出的两个框实际上可以实质上同时执行，或者这些框有时可以以相反的顺序执行。

本文提到的“根据...示例”或“在..示例中”意味着结合示例描述的特定特征、结构或特性可以被包括在本公开的至少一个实现方式中。本文中不同地方出现的短语“根据...示例”或“在...示例中”不一定都指同一示例，也不一定是与其他示例相互排斥的单独或替代示例。

神经网络是受大脑神经元结构及神经传到原理启发建立的数学计算模型，基于这类模型实现智能计算的方式称为脑启发计算。例如，神经网络包括多种形式的网络结构，例如，反向传播(Back Propagation，BP)神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)等，例如，卷积神经网络还可以细分为全卷积网络、深度卷积网络、U型网络(U-Net)等。

图1示出了示例人工神经网络(“ANN”或简称为“网络”)100。在该实施例中，ANN可以指包括一个或多个节点的计算模型。示例ANN 100可以包括输入层110、隐藏层120、130、160和输出层150。ANN 100的每一层可以包括一个或多个节点，例如节点105或节点115。在该实施例中，ANN的每个节点可以连接到ANN的另一个节点。作为示例而非限制，输入层110的每个节点可以连接到隐藏层120的一个或多个节点。在该实施例中，一个或多个节点可以是偏置节点(例如，与前一层中的任何节点不连接并且不接收来自前一层中的任何节点的输入的层中的节点)。在该实施例中，每层中的每个节点可以连接到前一层或后一层的一个或多个节点。尽管图1描绘了具有特定层数、特定节点数和节点间特定连接的特定ANN，但是本公开也包括具有任何合适层数、任何合适节点数和节点间任何合适连接的任何合适ANN。作为示例而非限制，尽管图1描绘了输入层110的每个节点和隐藏层120的每个节点之间的连接，但是输入层110的一个或多个节点可以不连接到隐藏层120的一个或多个节点。

在该实施例中，ANN可以是前馈ANN(例如，没有循环或回路的ANN，其中节点之间的传播沿一个方向上流动，从输入层开始并前进到后续层)。作为示例而非限制，隐藏层120的每个节点的输入可以包括输入层110的一个或多个节点的输出。作为另一个示例而非限制，输出层150的每个节点的输入可以包括隐藏层160的一个或多个节点的输出。在该实施例中，ANN可以是深度神经网络(例如，包括至少两个隐藏层的神经网络)。在该实施例中，ANN可以是深度残差网络。深度残差网络可以是包括被组织成残差块的隐藏层的前馈ANN。第一残差块之后的每个残差块的输入可以是前一残差块的输出和前一残差块的输入的函数。作为示例而非限制，残差块N的输入可以是F(x)+x，其中F(x)可以是残差块N-1的输出，x可以是残差块N-1的输入。尽管本公开描述了特定的ANN，但是本公开也包括任何合适的ANN。

在该实施例中，激活函数可以对应于ANN的每个节点。节点的激活函数可以定义节点对于给定的输入的输出。在该实施例中，对节点的输入可以包括输入集合。作为示例而非限制，激活函数可以是恒等函数、二值阶跃函数、逻辑函数或任何其他合适的函数。作为另一个示例而非限制，节点K的激活函数可以是sigmoid函数：

、双曲正切函数：

、Rectifier激活函数：

F_k(s_k)＝max(0,s_k)

，或者任何其他合适的函数F_k(s_k)，其中s_k可以是节点k的有效输入。在该实施例中，对激活函数的输入可以进行加权。每个节点可以基于加权输入使用相应的激活函数来生成输出。在该实施例中，节点之间的每个连接可以与权重相关联。作为示例而非限制，节点105和节点115之间的连接125可以具有0.4的加权系数，即节点105的输出乘以0.4被用作节点115的输入。作为另一示例而非限制，节点k的输出y_k可以是y_k＝F_k(s_k)，其中F_k可以是对应于节点k的激活函数，s_k＝∑(W_jkx_j)可以是节点k的有效输入，x_j可以是连接到节点k的节点j的输出，W_jk可以是节点j和节点k之间的加权系数。尽管本公开描述了节点的特定输入和输出，但是本公开也包括节点的任何合适的输入和输出。此外，尽管本公开可以描述节点之间的特定连接和权重，但是本公开也包括节点之间的任何合适的连接和权重。

在该实施例中，可以使用训练数据来训练ANN。作为示例而非限制，训练数据可以包括对ANN 100的输入和预期输出。作为另一个示例而非限制，训练数据可以包括向量，每个向量代表训练对象和针对每个训练对象的预期标签。在该实施例中，训练ANN可以包括通过优化目标函数来修改与ANN的节点之间的连接相关联的权重。作为示例而非限制，可以使用训练方法(例如，共轭梯度法、梯度下降法、随机梯度下降法)来反向传播代表每个向量之间的距离的平方和误差(例如，使用最小化平方和误差的损失函数)。在该实施例中，可以使用忽略(Dropout)技术来训练ANN。作为示例而非限制，在训练时可以暂时省略一个或多个节点(例如，不接收输入并且不生成输出)。对于每个训练对象，ANN的一个或多个节点可能有被省略的概率。针对特定训练对象省略的节点可以不同于针对其他训练对象省略的节点(例如，可以在逐个对象的基础上暂时地省略节点)。尽管本公开描述了以特定方式训练ANN，但是本公开也包括以任何合适的方式训练ANN。

图2示出了根据本公开的机器学习模型的一个示例的结构示意图。如图2所示，可以将在海洋上空拍摄的鲸鱼图像输入至CNN骨干网络。CNN骨干网络的第一层可以创建边缘、曲线和颜色渐变等特征图。而在CNN骨干网络中更深的层中可以创建更加抽象的特征图，并聚合前一层的特征图，构建与前一层的简单特征的组合。这些特征可能表示鲸鱼的胸鳍、尾鳍或特定的身体形状。通过CNN骨干网络，可以提取用于有效分类的区别特征。

CNN骨干网络还可以包括全连接层，以获取最终的特征图，表示有用的高级图像组件，并学习从这些特征图到输出类别的映射。

图2中还包括通过在最后的特征图步骤中添加的区域推荐网络(RPN)。该区域推荐网络在特征图上传递滑动窗口，并生成许多边界框猜测，以及估计边界框包含感兴趣类别中的对象的可能性的分数。然后，可以将推荐区域的四个角传递到全连接层，并对其进行微调。最后，对边界框进行回归、分类。

图2中的机器学习模型还包括掩码分支。掩码分支是一个卷积神经网络，掩码的预测是通过全卷积网络(Fully Convolution Network，FCN)来进行的。通过掩码分支可以实现实例分割。掩码分支可以取RPN推荐的区域为输入，并生成该区域的掩码。

在另一些示例中，图2中的机器学习模型可以是Mask R-CNN。Mask R-CNN是一个两阶段的框架，第一个阶段扫描图像并生成提议(Proposals，即有可能包含一个目标的区域)，第二阶段分类提议并生成边界框和掩码。Mask R-CNN扩展自Faster R-CNN，并将其扩展为实例分割框架。

为了更加准确地摄取图像并输出每个感兴趣对象周围的边界框、每个对象(例如鲸鱼物种)的类别以及每个边界框内对象的完整像素掩码，本公开提出对Mask R-CNN进行改进。下面对本公开中对Mask R-CNN的改进之处进行说明。

图3示出了对Mask R-CNN的骨干网络中的特征网络的改进。通过加宽网络方式提高精度会导致参数增加，模型增大，使训练成本及难度增加。ResNext是一种多分支的卷积神经网络，利用Inception卷积神经网络的拆分-转换-合并策略，增加网络分割结果的精细度，提高模型的表达能力。ResNext继承ResNet的重复层策略，同时增加了路径数，并且使用相同的拓扑在每个路径上形成ResNext模块组卷积，如图3所示。这种独特的结构可以ResNext在不增加计算复杂度的情况下提高精度，且50层ResNext与101层ResNet精度相近，但计算量降低了一半。本公开提出选择ResNext模块来替换Mask R-CNN的骨干网络中的ResNet模块，提高模型精度和性能。

图4示出了对Mask R-CNN的骨干网络中的特征金字塔网络(FPN)的改进。Mask R-CNN通过采用特征金字塔网络来解决物体检测中多尺度问题。FPN通过横向连接和自上而下的路径融合相邻特征，构成一个不同尺度特征组成的金字塔。Mask R-CNN模型中的FPN将不同层的特征图进行了自上而下和横向连接形式的融合后使用，将高级语义信息融合到低级精确定位信息中，对多尺度特征图采用侧连接方法，从而弥补低层特征语义抽象不足的问题。在特征提取中，使用1×1卷积层的横向连接来生成相同信道维度的特征。这种结构的一个主要问题是低级特征包含精确的位置信息，而高级特征包含强语义信息，未能重新利用金字塔中各层级语义信息，导致有用信息可能会丢失，进而影响实验精度。为了充分利用各级特征的准确位置信息，通过自下而上添加具有反向连接的分支，提出如图4所示改进的FPN。在图4中，新生成的要素映射N2、N3、N4、N5和N6合并了高级和低级要素，而其主要要素仍处于自己的层次结构中。

图5示出了对Mask R-CNN的骨干网络中的特征网络的另一改进。注意力机制被要求将注意力转移到图像的最关键区域并忽略不相关的部分，从而允许通过进一步削弱训练集以构建图像中单个像素点的语义关联的要求来从复杂的图形特征中捕获关键信息。为提高模型的检测效果，引入注意力机制，增强CNN的特征表示，从而在诸多信息中聚焦任务目标的关键信息，降低对无关信息的关注度。常见的注意力模块有SE(Squeeze-and-Excitation)模块、有效通道注意力(Efficient Channel Attention，ECA)模块、卷积块注意力模块(Convolutional Block Attention Module，CBAM)等。CBAM是轻量级的卷积注意力模块，可以以较小的代价提高模型性能，同时可以轻松集成到Mask R-CNN的骨干网络中。CBAM模块结合通道注意力模块和空间注意力模块两个子模块，可以在通道和空间两个维度上产生注意力特征图信息，再与之前的特征图信息进行相乘以自适应调节特征，生成更加准确的特征图。为解决CBAM使用多层感知机结构提取通道信息会丢失目标信息的情况，本公开提出采用ECA-Net替换CBAM的通道注意模块，改进后的CBAM模块如图5。

实验表明，改进后的Mask RCNN在58张图片中的57张(98％)正确预测了鲸鱼种类，95％的自动测量结果与人工测量结果相差不到5％，最大差异为13％。改进后的Mask RCNN输出的所有物种预测置信度得分都在80％以上，除了一个错误分类的个体(其预测置信度得分为63％)。

手动提取掩码和基于改进后的Mask RCNN提取掩码的比较通过联合交叉(IoU)方法进行评估。IoU是通过对齐框的左上角来计算的，如下面的公式所示：

其中，IoU是联合计算的交集，(W_a,H_a)和(W_b,H_b)分别是两个框的尺度，两个框越相似，度量值应该越小。

本公开中的IoU与实例分割中的其他研究相比非常有利(其中，大于0.5通常被认为是良好的检测)，当比较手动绘制的掩码和预测掩码时，平均IoU为0.85，标准偏差为0.05。检测率通常也以精确度(检测的真阳性比例)和召回率(检测的真阳性比例)表示。由于鲸鱼很大，很容易被发现，所以在测试中没有产生假阴性。

图6示出了根据本公开的海洋生物的检测方法的一个示例。如图6所示，首先基于无人机***的图像采集设备进行图像采集。之后，将采集到的图像输入至卷积神经网络进行图像分析。这里的卷积神经网络可以是本公开提出的改进后的Mask R-CNN。然后，卷积神经网络可以输出感兴趣对象(例如鲸鱼)周围的边界框、该对象的类别(例如鲸鱼物种)以及边界框内对象的完整像素掩码。之后，通过主成分分析法找到掩码的主轴。然后，沿主轴测量像素，最后使用图像元数据将像素转换为长度单位(米)。

图7示出了根据本公开的海洋生物的检测方法的一个示例的流程示意图。如图7所示，该海洋生物的检测方法包括：

步骤S702：获取图像采集设备捕获的海洋环境图像。

步骤S704：利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码。

步骤S706：根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

根据本公开提供的海洋生物的检测方法，通过机器学习模型识别海洋生物并提取生物特征，从而实现对海洋生物的动态监测。

图8示出了根据本公开的海洋生物的检测装置的一个示例的结构示意图。如图8所示，该海洋生物的检测装置800包括：获取模块801，其配置为获取图像采集设备捕获的海洋环境图像；生成模块802，其配置为利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及确定模块803，其配置为根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

根据本公开提供的海洋生物的检测装置，通过机器学习模型识别海洋生物并提取生物特征，从而实现对海洋生物的动态监测。

在一些实施例中，所述骨干网络还包括卷积注意力模块。

在一些实施例中，所述确定模块803进一步配置为：提取所述像素掩码，并通过主成分分析法确定主轴；沿所述主轴测量目标像素；以及根据目标像素，确定所述目标海洋生物的长度。

图9为本发明实施例提供的一种无人机的结构示意图，该无人机可以包括：图像采集设备901，用于实时采集图像；以及处理器902，用于根据所述图像采集设备所采集的图像，执行根据本公开提供的海洋生物的检测方法。图9所示无人机的实现原理、执行过程和技术效果参见图7所示实施例中的描述相类似，具体可参考上述陈述内容，在此不再赘述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种海洋生物的检测方法，包括：

获取图像采集设备捕获的海洋环境图像；

利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及

根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

2.根据权利要求1所述的检测方法，其中，所述机器学习模型为Mask R-CNN神经网络模型。

3.根据权利要求2所述的检测方法，其中，所述Mask R-CNN神经网络模型的骨干网络包括101层的ResNet网络和特征金字塔网络。

4.根据权利要求2所述的检测方法，其中，所述Mask R-CNN神经网络模型的骨干网络包括50层的ResNext网络和特征金字塔网络。

5.根据权利要求4所述的检测方法，其中，所述特征金字塔网络还包括以自下而上和横向连接形式的反向分支。

6.根据权利要求3或4所述的检测方法，其中，所述骨干网络还包括卷积注意力模块。

7.根据权利要求6所述的检测方法，其中，所述卷积注意力模块为通道和空间双重注意力模块。

8.根据权利要求7所述的检测方法，其中，所述通道和空间双重注意力模块为CBAM(Convolutional Block Attention Module)模块，

并且，所述CBAM模块中的通道注意力模块为ECA-Net模块。

9.根据权利要求1所述的检测方法，其中，所述海洋生物为鲸鱼，

并且，所述生物特征为长度。

10.根据权利要求9所述的检测方法，其中，所述根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征包括：

提取所述像素掩码，并通过主成分分析法确定主轴；

沿所述主轴测量目标像素；以及

根据目标像素，确定所述目标海洋生物的长度。

11.一种海洋生物的检测装置，包括：

获取模块，其配置为获取图像采集设备捕获的海洋环境图像；

生成模块，其配置为利用机器学习模型，生成所述海洋环境图像中的目标海洋生物的预测框以及所述预测框内的所述目标海洋生物的像素掩码；以及

确定模块，其配置为根据所述目标海洋生物的像素掩码，确定所述目标海洋生物的生物特征。

12.一种无人机，其特征在于，包括：

图像采集设备，用于实时采集图像；以及

处理器，用于根据所述图像采集设备所采集的图像，执行根据权利要求1至10中的至少一项所述的方法。