CN112418087B

CN112418087B - 一种基于神经网络的水下视频鱼类识别方法

Info

Publication number: CN112418087B
Application number: CN202011319361.4A
Authority: CN
Inventors: 纪庆革; 魏兆基; 陈寒阳; 郭珊珊
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2023-06-09
Anticipated expiration: 2040-11-23
Also published as: CN112418087A

Abstract

本发明为基于神经网络的水下视频鱼类识别方法，包括步骤：训练神经网络模型，模型包括依次连接的输入层、第一卷积层、第二卷积层、第三卷积层、最大池化层、全连接层和输出层，第一卷积层对输入层中的每个通道各有一层卷积层对不同通道的信息进行不同的特征提取后进行特征图融合，第二卷积层采用多重卷积的方法对不同尺度的目标提取到不同感受野的尺度，再进行特征图融合、批归一化处理；将水下视频数据中彩色图像的每个通道及其灰度图像作为模型的输入；模型输出多个目标定位框及其置信度，根据置信度进行目标筛除。该方法可以满足实时视频鱼类识别的要求的同时，降低对摄像机拍摄图像的质量要求。

Description

一种基于神经网络的水下视频鱼类识别方法

技术领域

本发明涉及农渔业和计算机知识领域，具体为一种基于神经网络的水下视频鱼类识别方法。

背景技术

如今，学术界对农渔业领域的调研工作并不很足，鱼类资源的开发处于较低水平。其中一个重要的因素就是采集第一手资料的技术目前还很欠缺，特别是在特定水域进行水下鱼类视频采集存有困难。本发明的目的是提供一种水下视频鱼类识别的方法，为这一领域的科研工作提供一些便利。

视频鱼类识别对于推动水下鱼类资源探测有着非常重要的意义。不过，视频鱼类识别面临着以下几点挑战：视频数据集缺乏；水下视频噪声较多，而且常常有扭曲、拉伸、边角不全、过曝等情况，这使得使用传统机器学习算法做水下鱼类识别变得异常困难；鱼类识别的实时性比较难以满足。

现有的鱼类识别技术大致可以分为两大类——传统的机器学习方式和深度学习方式。使用传统的机器学习方式来做鱼类识别，比较依赖提取的特征种类，甚至需要对不同的特征进行组合，比如

等人提出的基于landmark的鱼形状特征提取，Hu,J.等人提出的鱼类颜色特征提取，以及Nery,M.等人提出的多种特征进行组合；然而，这些做法的泛化性不足，只能适用于某些鱼类，甚至对于视频的背景也有较高的要求。

而一般的深度神经网络，诸如VGG16、GoogleNet等对于图像级别的鱼类识别可以产生很好的效果；然而这些深度神经网络的参数量级十分庞大，计算效率很低，因此使用这些深度神经网络不能达到实时性要求。可见，与传统的机器学习方法相比，现有的深度神经网络技术方案虽然可以达到很高的识别准确度，泛化性也有所提升，但是由于使用的神经网络参数过多，很难达到实时性的要求。

除此之外，还有结合上述二者的鱼类识别方法。经检索，于2020年8月11日公布的中国发明专利申请CN111523612A，公开了一种基于鱼大小、鱼鳍位置、鱼尾形状和体色特征的深海鱼类图像识别方法，该方法通过提取深海图像的上述特征，再将这些特征作为输入数据输入到已训练好的三层神经网络中，得到综合评估结果P，然后将该结果P输入多源信息数据库内与已有的鱼类数据进行相似性度量。在该发明专利中，鱼的相似性分为5种状态，0-0.2分为I度相似、0.2-0.4分为II度相似、0.4-0.6分为III度相似、0.6-0.8分为V度相似、0.8-1分为VI度相似，利用不同级别的相似性进一步判断鱼的种类。然而，上述发明专利有以下不足：应用在图像识别领域，无法满足视频识别的实时性要求；需要人工选取鱼类的各种特征，成本较高。

发明内容

为了解决现有的深度学习网络因参数数量过多而导致无法满足实时识别要求的问题，本发明提出了一种基于神经网络的水下视频鱼类识别方法，该方法基于参数量较小而且对视频质量依赖较小的卷积网络模型，且重点训练灰度图像的部分，故而可以满足实时视频鱼类识别的要求的同时，降低对摄像机拍摄图像的质量要求。

本发明采用如下技术方案来实现：一种基于神经网络的水下视频鱼类识别方法，包括以下步骤：

(1)、训练神经网络模型；

得到的神经网络模型包括依次连接的输入层、第一卷积层、第二卷积层、第三卷积层、最大池化层、全连接层和输出层，输入层针对每个输入图像的每个通道各有一个输入层输出到第一卷积层；第一卷积层针对输入层中的每个通道，各有一层卷积层对不同通道的信息进行不同的特征提取后，进行特征图融合，再输出到第二卷积层；第二卷积层采用多重卷积的方法对不同尺度的目标提取到不同感受野的尺度，然后进行特征图融合、批归一化处理，输出到第三卷积层；第三卷积层采用卷积权重复用的方法，进行下采样和特征提取，最后输出至最大池化层；

(2)、将水下视频数据中彩色图像的每个通道及其灰度图像作为神经网络模型的输入数据；

(3)、在神经网络模型的输出端输出多个目标定位框及其置信度，根据置信度进行目标筛除。

在优选的实施例中，神经网络模型的第一卷积层包括4个卷积层和1个特征图融合层，4个卷积层对RGB三个通道和灰度图通道分别进行卷积操作；特征图融合层对RGB三个通道的特征信息分别只提取最大值，将原来的通道压缩为1个通道，而对灰度图通道的特征信息分别提取最大值、平均值和最小值，将原来的通道压缩为3个通道；特征图融合层最后将得到的6个通道信息进行排列，即为最终的输出结果，输出到第二卷积层。

在优选的实施例中，神经网络模型的第二卷积层包括3个卷积层和1个特征图融合层，3个卷积层的卷积核大小相同；从第一卷积层输入的特征图信息通过一个卷积层后，同时输出到特征图融合层和另一卷积层；另一卷积层也是同时输出到特征图融合层和再一卷积层；再一卷积层则直接输出到特征图融合层；在特征图融合层，直接将3个卷积层的输出排列在一起，做批归一化处理，然后输出到第三卷积层。

优选地，神经网络模型的第三卷积层包括用于进行下采样的卷积层和用于进行特征提取的卷积层，用于进行下采样的卷积层的输出作为用于进行特征提取的卷积层的输入，用于进行特征提取的卷积层的输出再反过来作为用于进行下采样的卷积层的输入，循环若干次后，用于进行特征提取的卷积层再输出至最大池化层。

优选地，神经网络模型的输出层中，将整个神经网络模型的输出分割为若干小块，每个小块负责检测B个目标，每个目标用一个5元组(x,y,w,h,det)表示，x表示左上角x坐标在该小块中的相对位置，y表示左上角y坐标在该小块中的相对位置，w表示目标定位框的宽度，h表示目标定位框的高度，det表示目标识别的置信度。

相对于现有鱼类识别技术，本发明具有如下的优点及效果：

1、采用神经网络对数据进行特征提取，比手工提取特征要更加有效。采用神经网络进行特征提取，不仅可以关注到局部特征，还可以关注到全局特征；结合不同的感受野信息进行特征提取，使得该方法可以提取数据中不同尺度的特征，一定程度上解决了目标近大远小导致的准确度下降问题。“近大远小”指的是：当目标出现的位置离摄像头很近时，反映在图像上为目标变得很大；而目标出现在距离摄像头较远的位置时，目标在图像上则比较小。

2、采用参数量较小的神经网络结构模型。本发明提出的网络模型只使用了9个卷积层，并对其中的2层进行了卷积权重复用，在提高实时性的同时，保持了较高的准确度。

3、将彩色图像中的RGB各个通道作为输入，能够更有针对性地获取和利用各个通道的信息。

4、将灰度图像作为输入并且设置较大的损失权重，可以让模型学习到更加有区分度的形状、大小等颜色无关特征，减小对视频图像色彩特征的依赖。

5、使用视频抽帧训练，可以有效地降低样本冗余，提高样本多样性。

6、将之前帧的识别结果作为参考，当前帧的识别准确性得到了提升。

附图说明

图1是本发明的水下视频鱼类识别方法流程图；

图2是本发明的网络结构模型示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1、2所示，本实施例中基于神经网络的水下视频鱼类识别方法包括以下步骤：

S1、训练神经网络模型。

神经网络模型需要经过训练后才可使用；使用的训练集是fish4knowledge公开数据集。另外，模型训练也可以结合迁移学习。优选的，步骤S1中的训练包括：

S11、使用Adam方法对学习率进行微调，防止欠拟合；

S12、输入当前帧图像的RGB三个通道以及灰度图，对这4个输入分别进行处理后再融合，能够更好地利用各个色彩通道的信息；

针对不同的色彩通道信息，采用不同的卷积核大小，这样可以更有针对性地获取其特征。这是因为，水下视频图像和普通的视频图像不同，色彩的区分度不足，对比度不同。因此，与普通的视频图像相比，水下视频图像的信息在不同色彩通道的分布是不同的，比如在普通水域中，绿色通道(G通道)内的信息量就小于红色通道(R通道)和蓝色通道(B通道)。因此，本发明更加关注对除绿色通道外其他通道的特征提取。

S13、对于不同通道的输入设置不同的卷积核大小，更有针对性地利用不同色彩通道的信息。

在本实施例中，对于R、B和灰度图3个通道采用了3*3大小的卷积核，对于G通道采用了1*1大小的卷积核。

S14、在训练时对灰度图通道的输出给予较高权重，对RGB通道中彩色图像的输出基于较低权重，即灰度图像的输出权重高于彩色图像的输出权重；有利于更好地学习到颜色无关特征，提高对多种光照场景的适应能力，降低对视频图像的质量要求；

由于在不同的水域中，色彩的变化程度会很大。比如浅水域光照充足，由于水的散射原因，大部分区域都是拥有重组光线的。而在较深的水域中，光照不充足，反射的色彩亮度不足。这两种场景的光照程度跨越很大，色彩的变化程度也很大。因此，简单地依赖色彩特征进行水下鱼类识别的方法鲁棒性并不乐观。

为了减小对色彩特征的依赖，本发明在输入色彩通道的基础上额外增加了灰度图像的输入，并且在特征图融合过程中保留了较多的灰度图通道。在这一过程中，灰度图通道保留的数量和3个色彩通道的保留数量相等。

同时，在训练过程中，特征融合层给予了灰度图通道较高的权重，以期学习到更好的灰度图特征提取算子。这对于模型在不同质量的视频中依然能获得良好的表现尤为重要，即提高了模型的鲁棒性，减少了对视频质量的依赖。

S15、设置浅卷积层和深卷积层信息相融合的层，更好地利用不同尺度的信息，提高对不同尺度目标的识别准确度；

S16、使用视频抽帧训练。

由于连续的视频中相邻帧的重复元素太多，若将连续多帧都输入模型进行训练，会包含许多冗余信息，对模型增益不大。因此采用抽帧训练，在多个视频分段中抽取帧作为训练数据，提高了样本的场景多样性，因而也提高了模型的多场景适用性。

连续的视频帧中包含了许多相同的元素。直接将视频分段作为训练数据，不但对模型的裨益并不大，还会浪费许多时间和资源。所以本发明采样不同视频分段的一些帧作为训练样本，丰富了样本的场景多样性，在一定程度上也提升了模型的泛化能力。

融合是指将特征图排列在一起，在步骤S12和步骤S15中共进行的两次融合过程略有不同。在步骤S12进行第一次融合时，采用提取最大值的方式将RGB卷积后得到的32个通道分别压缩为1个通道，这样对应得到了压缩后的3个通道；同时，采用提取最大值、平均值、最小值的方法，将灰度图卷积得到的32个通道压缩为3个通道。将上述6个通道排列在一起，即为第一次融合。在步骤S15进行第二次融合时，直接将特征图排列在一起，并做一个批归一化(batch normalization)处理。

训练后得到经网络模型的结构如图2所示，包括依次连接的输入层、第一卷积层、第二卷积层、第三卷积层、最大池化层5、全连接层6和输出层7。

输入层针对每个输入图像的每个通道各有一个输入层输出到第一卷积层，具体包括输入层1a、输入层1b、输入层1c和输入层1d，分别用于输入每个图像的RGB和灰度图共4个通道。

第一卷积层内部包括4个卷积层和1个特征图融合层。第一卷积层针对输入层中的每个通道，各有一层卷积层，即卷积层2a、卷积层2b、卷积层2c、卷积层2d，其中针对R、B通道和灰度图通道的卷积核大小设置为3*3，针对G通道的卷积核大小设置为1*1，设置不同卷积核大小的目的是针对不同通道的信息进行不同的特征提取操作，所提取的特征的表征能力较好。第一卷积层对输入层不同通道的信息进行不同的特征提取后，进行特征图融合，再输出到第二卷积层。在第一卷积层中，卷积完成后经过一次relu激活，得到32*4维的特征图；特征图融合层为了将特征图进行融合，需要进行通道压缩，对RGB三个通道的特征信息分别只提取最大值，将原来的32通道压缩为1个通道，而对灰度图通道的特征信息分别提取最大值、平均值和最小值，将原来的32个通道压缩为3个通道；特征图融合层最后将得到的6个通道信息进行排列，即为最终的输出结果，输出到第二卷积层。

类似的，第二卷积层内部也包括3个卷积层和1个特征图融合层，卷积层3a、卷积层3b和卷积层3c的卷积核大小均为3*3，输出为32通道信息。从第一卷积层输入的特征图信息通过卷积层3a后，同时输出到特征图融合层和卷积层3b；卷积层3b也是同时输出到特征图融合层和卷积层3c；卷积层3c则直接输出到特征图融合层。在特征图融合层，直接将卷积层3a、卷积层3b、卷积层3c的输出排列在一起，并做一个批归一化(batch normalization)处理，然后输出到第三卷积层。

第三卷积层内部包括2个卷积层，即卷积层4a和卷积层4b，为结构一致的3层卷积层的融合。其中卷积层4a的卷积核大小为1*1，步长为2，输出为96通道信息，进行下采样；卷积层4b的卷积核大小为3*3，步长为1，输出为96通道信息，进行特征提取。卷积层4a的输出作为卷积层4b的输入，卷积层4b的输出再反过来作为卷积层4a的输入，这样循环3次后，卷积层4b再输出至最大池化层5。

最大池化层5的核大小为2*2，用于对输入的特征图进行下采样，然后输出至全连接层6。全连接层6用于将输入的特征与1024个神经元进行全连接，然后输出至输出层7。

输出层7包含一个全连接层，将输入的特征与7*7*5*B个输出神经元相连接，即为整个神经网络的输出。该输出包括将一个输入图像分割为7*7个小块后，每个小块负责检测B个目标，每个目标用一个5元组表示。5元组记为(x,y,w,h,det)，x表示左上角x坐标在该小块中的相对位置(区间为[0,1]，y同)，y表示左上角y坐标在该小块中的相对位置，w表示目标定位框的宽度(用与整个图像宽度的比来表示，h同)，h表示目标定位框的高度，det表示目标识别的置信度。

可见，特征提取方面，为了提取到不同感受野的尺度，本发明采用了多重卷积的办法，以期对不同尺度的目标都能获得较高的识别准确度。在参数量级缩小方面，为了减少参数数量，本发明采用了特征图融合，将样本分布的差异度减小；这同时也使得特征的差异度降低了，没有了多个卷积层进行特征提取的必要，即可以使用同一个卷积层对融合后的特征图进行多次卷积，故本发明在此阶段采用了卷积权重复用。由于这两方面的共同作用，本发明在尽可能降低精度损失的同时，成功减少了冗余的卷积权重，也就降低了参数量量级。因此，优化后的模型待训练参数减少，训练的速度得到了提升；同时计算资源降低，计算实时性也得到了提升。

其中，提取不同感受野的尺度，在本实施例是通过卷积层3a、卷积层3b、卷积层3c来实现的。特征图输入卷积层3a时只做了一次卷积，卷积层3a输出的感受野较小；本实施例还将卷积层3a的输出作为卷积层3b的输入，卷积层3b输出的感受野就变大了；卷积层3c同理，将卷积层3b的输出作为卷积层3c的输入，卷积层3c输出的感受野就变大了。

而卷积权重复用具体为：在卷积层4a和卷积层4b中，由于特征图已做了批归一化(batch normalization)处理，故而分布差异度减小，因此将卷积层4b的输出再次作为卷积层4a的输入，这样循环3次后，再将卷积层4b的输出作为整个卷积层4的输出。其中，卷积层4a的作用是下采样，卷积层4b的作用是提取特征。

S2、采集数据，使用摄像装置拍摄水下视频。

S3、数据预处理，将摄像装置采集到的水下视频数据进行数据增强等预处理。

在步骤S3中，所述数据预处理包括：

S31、中值滤波，缓解数据中噪点的影响；

S32、增强对比度，对鱼和背景做一个初步的前后景分离。

S4、单帧图像的前向传播。将水下视频数据中彩色图像的每个通道及其灰度图像作为神经网络模型的输入数据。

在步骤S4中，对不同类型的输入数据分别进行如下处理：对彩色图像，将彩色图像各个通道和灰度图像作为输入；对灰度图像，则只使用灰度图像输入。

S5、目标输出。在神经网络模型的输出端输出多个目标定位框及其置信度，根据置信度进行目标筛除。

在步骤S5中，输出多个目标定位框是通过将单帧图像分为N*N个区域(cell)，每个区域负责检测位于该区域内的1个目标并输出该目标定位框和置信度。设定2个阈值A和B，其中A>B。

S51、若目标的置信度高于指定的阈值A则判定为真，在后续的步骤S6中不再筛除该目标；

S52、若目标的置信度低于指定的阈值B则判定为错误识别，筛除该目标；

S53、若目标的置信度在区间[A,B]内，保留该目标，在后续的步骤S6中进一步筛除该目标。

S6、参考相邻帧的识别结果，矫正当前帧的识别结果。选取当前帧的前3帧，将这3帧的识别结果与当前帧识别结果进行比较，若当前帧识别结果偏差太大则矫正当前帧的识别结果。

在某一帧中，某一特定区域有可能出现遮挡、变形、光照变化等情况，受其影响，当前帧的识别结果很可能就会出现很大的误差。假如，在当前帧之前的多帧都能在同一个区域识别出鱼来，而在本帧中未识别出来，这说明很有可能当前帧的识别结果出现了误差。在这种情况下，本发明需要根据前面几帧的结果修改当前帧的识别结果。这在一定程度上提升了识别准确度。

在步骤S6中，在步骤S5输出的多个区域(cell)预测的处于置信度区间[A,B]内的目标定位框集合内，根据置信度大小选取前3个目标定位框作为识别结果，筛除该帧的其他目标定位框，并将该帧的识别结果与前几帧的识别结果分别进行比较。如果该帧某个识别结果与前面几帧的识别结果的IOU(交并比)均小于给定的阈值，说明该识别目标与之前帧的识别目标的位置差距太大，应该在当前帧中筛除该识别结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的水下视频鱼类识别方法，其特征在于，包括以下步骤：

(1)、训练神经网络模型；

(3)、在神经网络模型的输出端输出多个目标定位框及其置信度，根据置信度进行目标筛除；

步骤(1)中的训练包括：

S11、对学习率进行微调；

S12、输入当前帧图像的RGB三个通道以及灰度图通道，对这4个输入通道分别进行处理后再融合；

S13、对于不同通道的输入设置不同的卷积核大小；

S14、在训练时灰度图通道的输出权重高于RGB三个彩色图像通道的输出权重；

S15、设置浅卷积层和深卷积层信息相融合的层；

S16、使用视频抽帧训练。

2.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，所述识别方法还包括步骤：

(4)、参考相邻帧的识别结果，矫正当前帧的识别结果。

3.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，神经网络模型的第一卷积层中，其中针对R、B通道和灰度图通道的卷积核大小设置为3*3，针对G通道的卷积核大小设置为1*1。

4.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，神经网络模型的第一卷积层包括4个卷积层和1个特征图融合层，4个卷积层对RGB三个通道和灰度图通道分别进行卷积操作；特征图融合层对RGB三个通道的特征信息分别只提取最大值，将原来的通道压缩为1个通道，而对灰度图通道的特征信息分别提取最大值、平均值和最小值，将原来的通道压缩为3个通道；特征图融合层最后将得到的6个通道信息进行排列，即为最终的输出结果，输出到第二卷积层。

5.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，步骤S12进行融合时，采用提取最大值的方式将RGB通道卷积后得到的通道分别压缩为1个通道，从而对应得到压缩后的3个通道；同时，采用提取最大值、平均值、最小值的方法，将灰度图通道卷积得到的通道压缩为3个通道；将上述6个通道排列在一起，得到融合后的输出。

6.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，神经网络模型的第二卷积层包括3个卷积层和1个特征图融合层，3个卷积层的卷积核大小相同；从第一卷积层输入的特征图信息通过一个卷积层后，同时输出到特征图融合层和另一卷积层；另一卷积层也是同时输出到特征融合层和再一卷积层；再一卷积层则直接输出到特征图融合层；在特征图融合层，直接将3个卷积层的输出排列在一起，做批归一化处理，然后输出到第三卷积层。

7.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，神经网络模型的第三卷积层包括用于进行下采样的卷积层和用于进行特征提取的卷积层，用于进行下采样的卷积层的输出作为用于进行特征提取的卷积层的输入，用于进行特征提取的卷积层的输出再反过来作为用于进行下采样的卷积层的输入，循环若干次后，用于进行特征提取的卷积层再输出至最大池化层。

8.根据权利要求1所述的水下视频鱼类识别方法，其特征在于，神经网络模型的输出层中，将整个神经网络模型的输出分割为若干小块，每个小块负责检测B个目标，每个目标用一个5元组(x,y,w,h,det)表示，x表示左上角x坐标在该小块中的相对位置，y表示左上角y坐标在该小块中的相对位置，w表示目标定位框的宽度，h表示目标定位框的高度，det表示目标识别的置信度。