CN117079195B

CN117079195B - 一种基于图像视频的野生动物识别方法和***

Info

Publication number: CN117079195B
Application number: CN202311322143.XA
Authority: CN
Inventors: 林杜辉; 宋艳枝; 杨周旺
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-23
Anticipated expiration: 2043-10-13
Also published as: CN117079195A

Abstract

本发明提供一种基于图像视频的野生动物识别方法和***，属于机器学***台上，对野生动物的原始数据进行识别任务。本发明大幅度减少人工标注的时间和人力成本，并且对于新的数据能够快速地进行模型迭代更新保证识别效果，实现了更加自动化的识别过程。

Description

一种基于图像视频的野生动物识别方法和***

技术领域

本发明属于机器学习和人工智能领域，具体涉及一种基于图像视频的野生动物识别方法和***。

背景技术

现有的野生动物识别主要是基于神经网络的深度学习技术为基础，通过目标检测算法来实现对于野生动物图像的自动识别和检测。首先在野外不同环境，不同点位布设红外相机收集野生动物图片，这些动物图片涵盖着不同的野生动物种类，并具有不同的角度、光照和背景条件；然后通过对这些收集到的野生动物图片进行预处理，并进行数据标注工作，将带有标注信息的动物图片作为训练数据集；将训练数据集输入到CNN模型当中，对模型进行训练。训练过程当中，对模型的参数和权重不断地调整实验，从而确定相对性能最好的参数配置和权重，使得该模型能够更好地应用于野生动物识别项目当中。

一个较为完整的野生动物自动识别方法和***应该是能够对野外收集到的动物图片和视频进行记录并生成较为稳健的识别结果，并能够对其进行***的管理和结果分析。现有技术的主要缺陷有以下几点：

（1）复杂的野外环境。真实的野外场景是复杂多样的，包含着复杂多样的背景信息、不同的光照条件以及不同的季节特征。包含春夏季枝叶茂密的背景、秋季枯枝落叶背景、冬季雪地背景等，地点涵盖植被茂密的林内及相对空旷的裸土地等。并且在实际收集到的数据当中动物经常会出现肢体遮挡，模糊不清等各种拍摄问题，对于识别结果的正确性有较大的影响。

（2）物种间的差异以及分布不均衡。在动物的分类***等级当中，等级越小的物种相似度越高，其区分难度越大。一些所属科目相同的近似物种往往在外形上区别很小，在识别上具有一定的难度。而有的物种在自然环境中，收到本身种群数量以及生活习性等因素，能够捕获到的图片数据十分有限。

（3）有限的人工标注数据。一方面，不同种类间数据不平衡，造成训练数据集呈现严重的长尾分布。另一方面，现有的数据标注工作需要具有专业动物学科知识的专家对原始数据进行分类筛选，再交由数据标注人员进行标注工作，整个过程参与人员多、耗时长、效率较低。

发明内容

为解决上述技术问题，本发明提供一种基于图像视频的野生动物识别方法和***，其为高效通用的野生动物识别方法和***，能够将红外相机在自然环境下收集到的图片视频文件进行检测，输出检测结果；并且对检测结果进行结果统计和分析以及可视化，帮助科研管理人员对所属保护区域内制定相应的野生动物保护措施。本发明能够在***层面对于检测结果的数据进行预标注工作，大幅度减少人工标注的时间和人力成本。并且对于新的数据能够快速地进行模型迭代更新保证识别效果，实现了更加自动化的识别过程。

为达到上述目的，本发明采用如下技术方案：

一种基于目标检测算法的野生动物识别方法，包含以下步骤：

步骤S01、收集动物的照片和视频并进行预处理形成动物图片；

步骤S02、进行动物图片的标注，建立野生动物图像库；

步骤S03、将动物图片按层级分类为不同的数据集，包括：将步骤S02中标注后的动物图片划分为白天动物图片数据集和黑夜动物图片数据集，然后按照动物的所属科分别对白天动物图片数据集和黑夜动物图片数据集进行划分；

步骤S04、构建深度学习网络，用于特征提取；

步骤S05、分层级进行特征提取，根据步骤S03中的不同的数据集生成包括初级推理模型和次级推理模型的推理模型；

步骤S06、将待查询文件输入步骤S06中的推理模型中，最终输出检测结果，所述待查询文件为待查询图片或待查询视频；

步骤S07、对推理模型进行部署和应用。

本发明还提供一种基于目标检测算法的野生动物识别***，包括：

图片文件获取模块，用于收集动物的照片和视频并进行预处理获得动物图片；

图片标注模块，用于进行动物图片的标注工作，建立野生动物图像库：

推理模型生成模块，用于构建深度学习网络，进行特征提取，生成推理模型；

识别模块，用于输入待检测的动物的照片或视频进行结果推理检测，得到识别的动物物种；

应用模块，用于对推理模型进行服务器上的部署和应用。

有益效果：

（1）本发明设计了一套较为完整并独立性较好的野生动物识别方法和***。在整个过程当中，包括数据的标注、模型训练、应用开发、模型部署都是较为完整独立的一套体系，对外部应用的依赖较少。

（2）本发明根据野生动物的自然习性和族群特征分为了白天和黑夜两个大场景对物种进行检测，并在单独场景下对野生动物分层级地进行检测，先从动物的所属科层级进行初级推理，再从所属种层面进行次级推理，最终输出识别结果。

（3）本发明不同于传统的野生动物的静态图像识别方法，加入了时间序列信息，在视频检测层面进一步地加强野生动物识别过程为一个整体动态过程，加强识别图像的前后关系，使得识别检测过程不是一个个体化、独立化的识别过程，对检测结果的前后进行规则判定，并采用投票法进行结果后处理统计，进一步提高识别效果。

附图说明

图1为本发明的一种基于图像视频的野生动物识别方法的流程图；

图2为图片分类流程示意图；

图3为深度学习网络结构示意图；

图4为动物识别流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明的一种基于图像视频的野生动物识别方法，包含以下步骤：

步骤S01、收集动物的照片和视频并进行预处理形成动物图片，每个动物物种的类别的动物图片至少两百张，所述动物图片包括由视频抽帧生成的图片。

具体的，本实施例中，工作人员会在野外实际场景当中，在不同位置不同环境下，设置多个红外相机在野生动物经过时触发红外相机拍摄照片和视频，从而保证在这整个过程当中，所收集和使用到的动物数据是贴近实际自然场景的真实数据。

收集和预处理后得到的动物图片会通过筛选去除掉模糊不清，动物遮挡严重，特征不明显的动物图片；收集到的视频会通过视频抽帧的方法按照1s的时间间隔进行抽帧，生成相应的动物图片，通过筛选、去重等方式对相似度高的动物图片进行过滤，保留下符合要求的动物图片。

步骤S02、进行动物图片的标注工作，建立野生动物图像库：

具体的，本实施例中，对筛选过后的动物图片，通过标注软件对每张动物图片当中出现动物的具***置进行点位框标注，并选择该动物正确的类别，生成该图片的标注信息，标注信息包含位置信息和类别信息。

步骤S03、将动物图片按层级分类为不同的数据集：

具体的，如图2所示，所述步骤S03包括：

步骤S0301、采用颜色分类算法将步骤S02当中标注后的动物图片进行分类，主要分为白天动物图片数据集（视觉上为彩色图片）和黑夜动物图片数据集（视觉上为黑白图片）。

所述颜色分类算法的依据为：黑白图片和彩色图片在RGB三通道上的平均值具有较为明显的区别，黑白图片的三通道值往往是一样的，或者误差很小。

步骤S0302、在步骤S0301当中划分好的白天动物图片数据集和黑夜动物图片数据集当中按照动物的所属科进行动物图片数据集的划分，即将白天动物图片数据集分为白天物种A数据集、白天物种B数据集、……、白天物种N数据集，将黑夜动物图片数据集分为黑夜物种A数据集、黑夜物种B数据集、……、黑夜物种N数据集；

步骤S0303、在步骤S0302分类好的数据集当中各自划分训练数据集、验证数据集以及测试数据集。用划分出来的训练数据集生成COCO格式的数据集用于模型训练，从而提取特征。

步骤S04、构建深度学习网络，用于特征提取：

具体的，如图3所示，深度学习网络包含输入端、主干网络、颈部结构和预测层。

步骤S0401、在深度学习网络的输入端，主要采用了Mosaic、Mixup两种数据增强方法。

步骤S0402、主干网络采用DarkNet53的网络结构，输入的步骤S0301的动物图片首先经过一个卷积层，将输入通道数变换为深度学习网络中的第一个输出通道数。然后，这个卷积层的输出张量被输入到Darknet53的第一个“残差块”中。在这个残差块中，输入张量被送入一系列的卷积层和批归一化层，经过非线性激活函数（LeakyReLU）之后，再经过一个跳跃连接（skip connection）与输入张量相加，最后输出张量送到下一层。

步骤S0403、颈部结构采用FPN结构进行融合。FPN自顶向下，将高层的特征信息，通过上采样的方式进行传递融合，得到进行预测的特征图。

步骤S0404、预测层的检测头部当中具有Cls.分支、Reg.分支以及Obj.分支；

Cls.分支（类别分支）主要对目标框的类别、分数进行预测。

Reg.分支（目标框分支）主要对目标框的坐标信息（x,y,w,h）进行预测，x,y,w,h分别代表起始横坐标，起始纵坐标，宽，高。

Obj.分支（置信度分支）主要判断目标框是前景还是背景。

所以损失由、/>、/>这三个部分组成，其中/>和/>采用的都是二值交叉熵损失，而/>采用的是IoULoss（并交比损失）。

其中，预测层的检测部分损失的计算公式为：

，

其中，代表分类损失、/>代表定位损失、/>代表obj损失（置信度分支的损失）、/>代表定位损失的平衡系数、/>代表被分为正样的Anchor Point（锚点）数。

步骤S05、分层级进行特征提取，生成推理模型：

具体的，所述步骤S05包括：

步骤S0501、将步骤S0301当中划分的白天图片数据集和黑夜图片数据集放在步骤S04构建的深度学习网络当中按照动物的所属科进行特征提取，生成初级推理模型。

由于不同科甚至于不同种类的动物具有不同的活动习性和活动时间，因此在白天和黑夜活跃的动物种类和动物数量是会有较大差异的，因此将划分的白天和黑夜两个图片数据集分别进行特征提取，能够更有侧重地对该活动时间段的动物进行检测，提高推理模型的推理准确率。

不同动物在同一所属科范围下，具有相对重合的一些特征，这是与所属不同科动物所不同的一些特征，但同一科目的动物往往只会有颜色，体型差异等较小的区别，因此初级推理模型先通过对不同科特征的提取，给出包含所属科信息的检测结果，在针对检测结果进入次级推理模型对相似度较高的同科物种进行更进一步地识别，从而提高准确率。

步骤S0502、将步骤S0302当中的动物图片数据集放在步骤S04构建的深度学习网络当中按照动物的物种进行特征提取，生成次级推理模型。

次级推理模型主要是为了针对相似度较高的各类所属科相同的物种（例如藏酋猴和猕猴、大灵猫和小灵猫等），在初级推理模型确定了检测动物图片的所属科范围之后，进行物种具体类别的识别，随后会返回动物的所属种类识别结果。

步骤S06、将待查询文件输入步骤S06中的推理模型中，最终输出检测结果，所述待查询文件为待查询图片或待查询视频。

具体的，如图4所示，所述步骤S06包括：

步骤S0601、所述待查询文件为待查询图片时，根据步骤S0301将待查询图片现根据颜色分类算法判别出其属于白天或者黑夜。

将判别好的图片按照类别，即白天或黑夜，输入到步骤S0501所生成的初级推理模型当中进行推理，获得推理结果，即得到其对应的所属科结果。

根据得到的所属科结果，输入到步骤S0502所对应的次级推理模型当中进行推理，得到动物的物种识别结果。

步骤S0602、所述待查询文件为待查询视频时，将待查询视频按每1s抽帧成图片，按顺序根据步骤S0601得到推理结果并返回加入到所述待查询视频的结果队列当中。

对结果队列进行后处理操作，主要是针对推理结果进行组合统计，按照投票法选出组合数最多的推理结果作为待查询视频的总推理结果。

所述总推理结果包含动物的物种的类别、检测框点位信息以及推理算法对于动物物种类别的推理得分。

物种的类别包含所属科、所属种、点位信息、得分：

所属科是检测结果根据生物分类定义给出的科信息，例如：猴科、猫科、犬科等。

所属种是检测结果根据生物分类定义给出的种类信息，是最详细的动物类别信息，例如：藏酋猴、猕猴等。

点位信息是检测结果识别到动物在图片当中出现的一个检测矩形框位置信息，（x1,y1）代表矩形框的左上角坐标，（x2,y2）代表矩形框的右下角坐标。

得分是推理模型对待检测图片中的动物检测结果对应的推理得分：一张待检测图片通过推理模型得到的所有结果的得分总和是1，推理结果只会返回得分最高的所属种和其对应的得分。

步骤S07、对推理模型进行部署和应用。

具体的，所述步骤07包括：

步骤S0701、将通过步骤步骤S05生成的推理模型进行实验测试后，部署到服务器上。

步骤S0702、建立野生动物自动识别***，并与服务器上的推理模型建立API接口调用，使得用户都能够使用野生动物自动识别***进行野生动物的识别任务。

所述野生动物自动识别***包含用户管理模块，动物识别模块，结果复检模块，数据统计模块等。

综上所述，本发明对收集到的野生动物图像经过筛选后，进行相应的标注工作，从而构建野生动物图像数据集，通过构建深度学***台上对野生动物的原始数据进行识别任务。

本发明还提供一种基于图像视频的野生动物识别***，包括：

应用模块，用于对推理模型进行服务器上的部署和应用。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像视频的野生动物识别方法，其特征在于，包含以下步骤：

步骤S02、进行动物图片的标注，建立野生动物图像库；

步骤S03、将动物图片按层级分类为不同的数据集，包括：将步骤S02中标注后的动物图片划分为白天动物图片数据集和黑夜动物图片数据集，然后按照动物的所属科分别对白天动物图片数据集和黑夜动物图片数据集进行划分，包括：

步骤S0301、采用颜色分类算法将步骤S02当中标注后的动物图片进行划分，分为白天动物图片数据集和黑夜动物图片数据集，所述白天动物图片数据集视觉上为彩色图片，所述黑夜动物图片数据集视觉上为黑白图片；

步骤S0302、在步骤S0301中划分好的白天动物图片数据集和黑夜动物图片数据集中，按照动物的所属科进行白天动物图片数据集和黑夜动物图片数据集的划分，即将白天动物图片数据集分为白天物种A数据集、白天物种B数据集、……、白天物种N数据集，将黑夜动物图片数据集分为黑夜物种A数据集、黑夜物种B数据集、……、黑夜物种N数据集；

步骤S0303、在步骤S0302中划分好的白天动物图片数据集和黑夜动物图片数据集中，分别划分训练数据集、验证数据集以及测试数据集；用划分出来的训练数据集生成COCO格式的数据集用于推理模型训练，从而提取特征；

步骤S04、构建深度学习网络，用于特征提取；所述深度学习网络包含输入端、主干网络、颈部结构和预测层，所述步骤S04包括：

步骤S0401、在深度学习网络的输入端，采用Mosaic、Mixup两种数据增强方法；

步骤S0402、主干网络采用DarkNet53的网络结构，输入的标注后的动物图片首先经过一个卷积层，将输入通道数变换为深度学习网络中的第一个输出通道数；然后，这个卷积层的输出张量被输入到DarkNet53的第一个残差块中；在第一个残差块中，输入张量被送入一系列的卷积层和批归一化层，经过非线性激活函数之后，再经过一个跳跃连接与输入张量相加，最后输出张量送到下一层；

步骤S0403、颈部结构采用FPN结构进行融合，FPN自顶向下，将高层的特征信息通过上采样的方式进行传递融合，得到预测的特征图；

步骤S0404、预测层的检测头部具有Cls.分支、Reg.分支以及Obj.分支；

所述Cls.分支表示类别分支，对目标框的类别、分数进行预测；

所述Reg.分支表示目标框分支，对目标框的坐标信息（x,y,w,h）进行预测，x,y,w,h分别代表起始横坐标，起始纵坐标，宽，高；

所述Obj.分支表示置信度分支，判断目标框是前景还是背景；

损失由、/>、/>组成，其中/>和/>均采用二值交叉熵损失，采用IoULoss，IoULoss表示并交比损失；

预测层的检测部分损失的计算公式为：

；

其中，代表分类损失、/>代表定位损失、/>代表并交比分支的损失、/>代表定位损失的平衡系数、/>代表被分为正样的锚点数；

步骤S05、分层级进行特征提取，根据步骤S03中的不同的数据集生成包括初级推理模型和次级推理模型的推理模型，包括：

步骤S0501、将步骤S0301当中划分的白天图片数据集和黑夜图片数据集放在步骤S04构建的深度学习网络中按照动物的所属科进行特征提取，生成初级推理模型；

步骤S0502、将步骤S0302当中的按照动物的所属科划分好的白天动物图片数据集和黑夜动物图片数据集放在步骤S04构建的深度学习网络当中按照动物的物种进行特征提取，生成次级推理模型；

步骤S06、将待查询文件输入步骤S05中的推理模型中，最终输出检测结果，所述待查询文件为待查询图片或待查询视频，包括：

步骤S0601、所述待查询文件为待查询图片时，根据步骤S0301将待查询图片根据颜色分类算法判别出其属于白天或者黑夜；

将判别好的待查询图片按照类别，即白天或黑夜，输入到步骤S0501所生成的初级推理模型当中进行推理，获得推理结果，即得到其对应的所属科结果；

根据得到的所属科结果，输入到步骤S0502所对应的次级推理模型当中进行推理，得到动物的物种识别结果；

步骤S0602、所述待查询文件为待查询视频时，将待查询视频按每1s抽帧成图片，按顺序根据步骤S0601得到的推理结果并返回加入到所述待查询视频的结果队列当中；

对结果队列进行后处理操作，针对推理结果进行组合统计，按照投票法选出组合数最多的推理结果作为待查询视频的总推理结果；

所述总推理结果包含动物的物种的类别、检测框点位信息以及推理算法对于动物物种类别的推理得分；

步骤S07、对推理模型进行部署和应用。

2.根据权利要求1所述的一种基于图像视频的野生动物识别方法，其特征在于，所述步骤S01中，工作人员在野外实际场景当中，在不同位置不同环境下设置多个红外相机，在野生动物经过时触发红外相机拍摄动物的照片和视频；

对预处理后的动物图片进行筛选，去除模糊不清、动物遮挡严重、特征不明显的动物图片；收集到的视频通过视频抽帧的方法按照1s的时间间隔进行抽帧，生成相应的动物图片，通过筛选、去重对相似度高的动物图片进行过滤，保留下符合要求的动物图片。

3.根据权利要求2所述的一种基于图像视频的野生动物识别方法，其特征在于，所述步骤S02中，对于筛选后的动物图片，通过标注软件对每张动物图片中出现的动物的具***置进行点位框标注，并选择该动物的正确的类别，生成该动物图片的标注信息，标注信息包含位置信息和类别信息。

4.根据权利要求3所述的一种基于图像视频的野生动物识别方法，其特征在于，所述步骤S07包括：

步骤S0701、将通过步骤S05生成的推理模型进行实验测试后，部署到服务器上；

步骤S0702、建立野生动物自动识别***，并与服务器上的推理模型建立API接口调用，使得用户能够使用野生动物自动识别***进行野生动物的识别任务。

5.实现权利要求1-4之一所述的一种基于图像视频的野生动物识别方法的识别***，其特征在于，包括：

应用模块，用于对推理模型进行服务器上的部署和应用。