CN112949634B

CN112949634B - 一种铁路接触网鸟窝检测方法

Info

Publication number: CN112949634B
Application number: CN202110249738.1A
Authority: CN
Inventors: 武斯全; 田震; 廖开沅; 赵宏伟; 许华婷; 徐嘉勃
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2024-04-26
Anticipated expiration: 2041-03-08
Also published as: CN112949634A

Abstract

本发明提供了一种铁路接触网鸟窝检测方法。该方法包括：根据包含鸟窝的图片通过逆向推理得到包含鸟窝区域的兴趣域图片，将兴趣域图片作为模板图片，根据所有模板图片构成模板库，利用模板库对第二级YOLO检测器进行训练；将不包含鸟窝的图片与模板库中的每个模板图片依次进行匹配，得到兴趣域图片数据集，利用兴趣域图片数据集对第一级YOLO检测器进行训练；将待检测图片输入训练后的第一级YOLO检测器，第一级YOLO检测器输出兴趣域图片，将兴趣域图片输入训练后的第二级YOLO检测器，第二级YOLO检测器输出待检测图片的鸟窝检测结果。本发明可以解决由于接触网中鸟窝信息量较少，缺乏显著的特征造成的识别困难，能够对铁路接触网进行有效的自动鸟窝识别检测。

Description

一种铁路接触网鸟窝检测方法

技术领域

本发明涉及铁路接触网异物检测技术领域，尤其涉及一种铁路接触网鸟窝检测方法。

背景技术

当前，对于目表示别领域的相关研究已成为计算机视觉检测领域最受关注的热点之一。动态视频中目标的标记主要是通过分析图片传感器所采集到的图片序列，并对图片序列中感兴趣的目标场景进行提取，标记同一目标的像素区域，并对目标的位置、大小和廓形等信息进行识别。典型的目标标记识别方法有目标特征描述、特征信息提取以及目标特征匹配等步骤。通过将所要表示目标的特征信息例如位置、颜色、轮廓、纹理等进行提取，随后依托这些特征信息对于检测目标进行评估，从而判断目标是否能够与特征信息进行匹配从而完成对目标的标注。

目前，现有技术中的高速铁路接触网异物的检测方法包括：基于Faster R-CNN检测模型的检测、基于相对位置不变性的检测以及利用HOG(方向梯度直方图，HistogramofOriented Gradient)特征对铁路接触网上的鸟窝进行的检测。其中，基于Faster R-CNN检测模型的检测是引入了一个RPN(Region Proposal Network，区域生成网络)，用来对目标物产生候选区域。Faster R-CNN可以看作是由产生目标候选区的RPN网络和利用这些候选区域进行预测分类的Faster R-CNN检测组成。首先输入一张图片，向前传播到最后一个共享卷积层，一方面将得到的特征映射传送到RPN网络，另一方面继续向前传播产生更高维的特征映射。在RPN网络中，经过一系列的处理，产生多个候选区域和候选区域得分，对候选区域框采用非极大值过滤，以减少候选区数量。将大于设定阈值的候选区域和之前产生的高维特征映射一同输入到RoI池化层提取对应区域的特征，最后将该区域特征和全连接层连接输出目标分类和得分，以及bounding box目标定位框回归值。

基于相对位置不变性的检测则是利用机器视觉处理技术，在初步分析图片的颜色特征、纹理特征和形状特征等之后，结合鸟窝筑巢平台的特征，将预处理后的检测图片利用sobel水平边缘检测算子得到图片边缘，然后再利用概率Hough变换直线检测方法对图片进行角度校正，并结合待分析图片中线段长度关系实现最前景硬横梁的检测，最后对图片进行二值化处理，通过统计硬横梁之间的白色区域面积，判断该横梁上是否存在鸟窝。

利用HOG特征对铁路接触网上的鸟窝进行的检测是根据先验知识对鸟巢在图片中可能出现的区域进行粗提取，然后求出提取区域的HOG特征，最后通过支持向量机(SVM，support vector machines)根据图片的HOG特征对图片中的鸟巢进行精确的识别。因为神经网络在图片处理方面有着其他算法无可比拟的优势，所以国内有一部份学者把神经网络与传统的图片处理技术相结合，对图片中感兴趣的目标进行检测，以此方法可以有效地提升检测的速度与精度。

上述现有技术中的高速铁路接触网异物的检测方法的缺点为：在鸟窝检测的实际操作过程中，由于列车的运行环境变化多样，并且本身形态多样的鸟窝是位于复杂的接触网之中的，由此，基于HOG与DMP模型而搭建的识别***其准确率和召回率都远达不到期望的标准。这是因为HOG和DPM这类传统识别模型采用的是人工提取特征作为检测模板再进行滑框匹配检测的方式。这类方式很容易受到形状、纹理特征的影响，因此在这种环境中存在的鸟窝很难提取出标准的检测特征。

此外，由于人工提取特征的需要，在数据量不足的情况下更加难以达到其精准识别的需求，由此，就有应用面窄以及普适性不足等缺点，这都会给高速铁路接触网鸟窝识别带来许多的问题。

发明内容

本发明的实施例提供了一种铁路接触网鸟窝检测方法，以实现对铁路接触网进行有效的自动鸟窝识别检测。

为了实现上述目的，本发明采取了如下技术方案。

一种铁路接触网鸟窝检测方法，包括：

根据铁路接触网图片数据集中包含鸟窝的图片通过逆向推理得到包含鸟窝区域的兴趣域图片，将所述兴趣域图片作为模板图片，根据所有模板图片构成模板库，利用所述模板库对第二级YOLO检测器进行训练；

将铁路接触网图片数据集中不包含鸟窝的图片与所述模板库中的每个模板图片依次进行匹配，得到兴趣域图片数据集，利用所述兴趣域图片数据集对第一级YOLO检测器进行训练；

将待检测图片输入训练后的第一级YOLO检测器，所述第一级YOLO检测器输出兴趣域图片，将所述兴趣域图片输入训练后的第二级YOLO检测器，所述第二级YOLO检测器输出所述待检测图片的鸟窝检测结果。

优选地，所述的根据铁路接触网图片数据集中包含鸟窝的图片通过逆向推理得到包含鸟窝区域的兴趣域图片，将所述兴趣域图片作为模板图片，根据所有模板图片构成模板库，包括：

对铁路接触网图片数据集中包含鸟窝的图片进行初步分割，得到具有设定相似度的基本区域，根据区域间差异合对基本区域进行初步合并得到一系列初步的候选区域，用矩形框包围出所述初步的候选区域，根据所述矩形框之间的相似度合并初步的候选区域，得到最终的候选区域，对最终的候选区域中的鸟窝位置进行手工标注，用矩形表示标注的鸟窝区域属性，将包含鸟窝区域的最终的候选区域作为兴趣域，将兴趣域图片作为模板图片，根据所有模板图片构成模板库。

优选地，所述的对铁路接触网图片数据集中包含鸟窝的图片进行初步分割，得到具有设定相似度的基本区域，根据区域间差异合对基本区域进行初步合并得到一系列初步的候选区域，包括：

将一幅包含鸟窝的图片用无向图G＝<V，E>表示，其中无向图的顶点表示图片的一个像素点，边e＝(v_i，v_j)的权重表示相邻顶点对i，j的不相似度，用像素的颜色距离表示两个像素间的不相似度w(e)，一个基本区域为具有最小不相似度的点集；

将基本区域的类内差异定义为：

将两个基本区域C₁、C₂之间的类间差异定义两个基本区域的最小连接边：

如果两个基本区域没有边相连，Diff(C₁，C₂)＝∞

当满足条件Diff(C₁，C₂)≤min(Int(C₁)+τ(C₁)，Int(C₂)+τ(C₂))，则判断两个基本区域C₁、C₂能够合并；

其中τ(C)为阈值函数，使孤立点构成的区域具有权重：

τ(C)＝k/||C||

将各个基本区域进行初步合并得到一系列初步的候选区域。

优选地，所述的用矩形框包围出所述初步的候选区域，根据所述矩形框之间的相似度合并初步的候选区域，得到最终的候选区域，包括：

用矩形框包围出所述初步的候选区域，矩形框C的位置用(x，y，w，h)的四元组表示，式中x，y代表矩形框左上角的坐标，w，h代表矩形框的宽度和高度；

初步的候选区域r_i的矩形框c_i和初步的候选区域r_j的矩形框c_j之间的颜色距离为：

式中表示颜色直方图的第k个bins的像素点比例；

初步的候选区域r_i的矩形框c_i和初步的候选区域r_j的矩形框c_j之间的矩形框c_i和c_j之间的纹理距离为：

式中表示纹理直方图第k维像素点比例；

对于初步的候选区域r_i和r_j：

式中size(r_i)表示区域r_i对应矩形框大小，size(im)表示原始待分割图片的大小。

对于初步的候选区域r_i和r_j：

式中size(BB_ij)表示区域r_i和r_j的外接矩形大小；

初步的候选区域r_i和r_j之间的总差异为：

S(r_i，r_j)＝a₁S_colour(r_i，r_j)+a₂S_texture(r_i，r_j)+a₃S_size(r_i，r_j)+a₄S_fill(r_i，r_j)

a₁，a₂，a₃，a₄为对应的权重值；

当初步的候选区域r_i和r_j之间的总差异S(r_i，r_j)大于设定的合并阈值，则将初步的候选区域r_i和r_j进行合并，得到最终的候选区域。

优选地，所述的对最终的候选区域中的鸟窝位置进行手工标注，用矩形表示标注的鸟窝区域属性，将包含鸟窝区域的最终的候选区域作为兴趣域，将兴趣域图片作为模板图片，根据所有模板图片构成模板库，包括：

将最终的候选区域C用矩形表示，矩形的位置属性用四元组(x，y，w，h)表示；

对最终的候选区域中的鸟窝位置进行标注，用矩形表示标注的鸟窝区域属性，矩形的位置属性为(bx，by，bw，bh)，兴趣域为包含鸟窝区域的候选区域，兴趣域的位置坐标满足：

并且满足阈值条件：

将所述兴趣域图片作为模板图片，根据所有模板图片构成模板库。

优选地，所述的将铁路接触网图片数据集中不包含鸟窝的图片与所述模板库中的每个模板图片依次进行匹配，得到兴趣域图片数据集，包括：

将铁路接触网图片数据集中不包含鸟窝的待匹配图片与模板库中的每个模板图片依次进行匹配，设模板图片为T，不包含鸟窝的图片的待匹配图片为I，设模板图片的宽为w，高为h，R表示匹配结果，匹配方法由如下公示表述：

式中：

R值越大，代表待匹配图片在(x，y)位置大小为(w，h)的矩形区域与模板相似度越高，取模板相似度最大值为模板匹配的结果，并且要求模板匹配值高于阈值参数；

记Rs(T，I)＝max_x，y∈IR(x，y)

每个模板图片都对应一个最佳匹配值R，R对应的矩形匹配框的位置为(x，y，w，h)，模板初次匹配结果构成结果集S：

式中c为匹配的阈值参数；

对结果集S按Rs值降序排列，两矩形匹配框s，t矩形相交的条件为：

max(x(s)，x(t))≤min(x(s)+w(s)，x(t)+w(t))

max(y(s)，y(t))≤min(y(s)+h(s)，y(t)+h(t))

依次遍历结果集S，若当前矩形匹配框与已标注矩形匹配框相交则放弃标注，否则对当前矩形匹配框进行VOC格式的标注，所有标注的矩形匹配框构成兴趣域数据集。

优选地，所述的第一级YOLO检测器和第二级YOLO检测器包括：YOLOv3-spp、YOLOv4和Faster R-CNN。

优选地，所述第一级YOLO检测器的置信度和期望如下：

式中Pr(Zone)为当前网格具有待测物体(兴趣域)的概率，在训练过程中，待测网格包含兴趣域，Pr(Zone)为1，否则为0，为网格预测的标注框与兴趣域真实所在的矩形框的交并比，B为每个网格预测的标注框数，S²为图片的总划分网格数，/>为物体所在的所有网格做出预测的所有预测框IOU的平均值，I(Zone)为兴趣域区域大小，I(image)为原始图片的大小，E(Zone)为图片给出的总IOU之和；

所述第二级YOLO检测器的置信度为：

式中Pr(Birdnest)为当前网格具有鸟窝的概率，待测网格包含鸟窝，Pr(Birdnest)为1，否则为0，为网格预测的标注框与鸟窝真实所在的矩形框的交并比，P(distribution)为图片的鸟窝存在于兴趣域中的概率，显然所有的鸟窝都存在于兴趣域中，此项为1；

兴趣域中的鸟窝预测期望为：

式中Pr_i(birdnest)为兴趣域子图像中，子图像中第i个网格具有包含鸟窝的概率，为子图像第i个网格预测的第j个矩形框与鸟窝图片的交并比，confidence(Zone)为原始图像网格预测的一个矩形框标注出兴趣域的置信度，/>表示原始图像的划分网格做出预测的一个预测框能够标注出鸟窝的把握程度；

级联预测的期望为：

式中为兴趣域子图像中鸟窝包含的网格做出的预测标注框与鸟窝所在矩形的平均交并比，式中/>代表网格预测锚框的平均IOU值；

级联预测的精度为：

P＝F(birdnest，Zone，N)*F(Zone，image，M)＞F(birdnest，image，N)。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出的高速铁路接触网鸟窝自动识别和快速追踪的方法，可以有效解决高速铁路接触网上鸟窝的准确快速识别和追踪问题；可以有效解决由于接触网中鸟窝信息量较少，缺乏显著的形状或纹理特征造成的识别困难；从而能够对铁路接触网进行有效的自动鸟窝识别检测。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种铁路接触网鸟窝检测方法的实现原理图；

图2为本发明实施例提供的一种铁路接触网鸟窝检测方法的处理流程图；

图3为本发明实施例提供的一种对图片进行初步分割和合并生成基本区域的处理流程图；

图4(a)为本发明实施例提供的一种原始图片示意图，图4(b)为进行初步分割和合并后得到一系列基本区域的示意图。

图5为本发明实施例提供的一种根据区域间差异合并基本区域，得到一系列候选区域的处理流程图；

图6为本发明实施例提供的一种用矩形框标注出兴趣域的示意图；

图7为本发明实施例提供的一种待检测图片与模板图片进行模板匹配的处理流程图；

图8(a)为本发明实施例提供的一种原始图片示意图，图8(b)为原始图片的模板匹配的示意图；

图9为本发明实施例提供的一种将一幅图片分割成S×S个网格的示意图；

图10为本发明实施例提供的一种单级网络预测示意图；

图11为本发明实施例提供的一种级联网络的第一级网络预测示意图；

图12为本发明实施例提供的一种级联网络的第二级网络预测示意图；

图13为本发明实施例提供的一种YOLOv3-GIOU训练过程中的IOU曲线示意图；

图14位本发明实施例提供的一种Yolov4-CIOU训练过程中的IOU曲线示意图如所示；

图15为本发明实施例提供的一种YOLOv3-SPP第二级检测与直接检测IOU对比示意图；

图16为本发明实施例提供的一种YOLOv4第二级检测与直接检测IOU对比示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明基于卷积神经网络的方法使用卷积核作为特征提取器，图片可以直接作为网络的输入，通过训练得到的鸟窝特征，避免了传统识别算法中复杂的特征提取和数据重建过程，因此在准确率和召回率上能有明显的提升。

本发明首先使用Selective Search算法聚类得到多个候选区域，根据鸟窝的位置从候选区域中找出兴趣域。将得到的所有兴趣域在图片集中进行模板匹配，标注出所有图片的兴趣域。构建YOLO网络对所有图片的兴趣域进行识别训练，同时构建YOLO网络对兴趣域中的鸟窝进行识别训练。对未知的图片样本进行第一级识别找出兴趣域，再进行第二级识别从兴趣域中找出鸟窝。这种级联识别可以大大提高识别的准确率和提高计算效率。

实施例一

本发明实施例提供的一种铁路接触网鸟窝检测方法的实现原理图如图1所示，处理流程如图2所示，包括如下的处理步骤：

步骤S210：根据铁路接触网图片数据集中包含鸟窝的图片通过逆向推理得到包含鸟窝区域的兴趣域图片，将所述兴趣域图片作为模板图片，根据所有模板图片构成模板库。

兴趣域是一个区域，而区域是一个具有较高相似度的整体，首先我们要在图片中找出所有具有较高相似度的区域集合。而寻找区域就是对图片进行分割与合并的过程。

首先对铁路接触网图片数据集中包含鸟窝的图片进行初步分割，得到大量具有相似度的基本区域。然后对基本区域进行合并得到一系列候选区域。本发明实施例提供的一种对图片进行初步分割和合并生成基本区域的处理流程图如图3所示，处理过程包括：一幅图片可以由无向图G＝<V，E>表示，其中无向图的顶点表示图片的一个像素点，边e＝(v_i，v_j)的权重表示相邻顶点对i，j的不相似度。可以用像素的颜色距离等像素属性表示两个像素间的不相似度w(e)。一个基本区域为具有最小不相似度的点集，所以基本区域是包含点集的最小生成树，图片的初步分割即找出图片的最小生成树构成的森林。

差异决定了基本区域间是否合并，基本区域的类内差异定义为：

式中C表示合并过程的一个基本区域，e表示区域内部的连接边，其权重代表了像素间的不相似度，类内差异Int(C)为区域内部连接边的最大值。

类间差异定义为两个基本区域的最小连接边：

式中C₁与C₂代表两个不同的区域，v_i与v_j代表两个不同区域连接边的两个顶点，类间差异Diff(C₁，C₂)即为连接两个区域的连接边的最小值。

特别地，如果两个基本区域没有边相连，Diff(C₁，C₂)＝∞

于是得到了两个基本区域合并的依据，当满足条件：

Diff(C₁，C₂)≤min(Int(C₁)+τ(C₁)，Int(C₂)+τ(C₂))

则判断基本区域C₁和C₂能够合并

其中τ(C)为阈值函数，使孤立点构成的区域具有权重：

τ(C)＝k/||C||

式中k为人为设定的参数，||C||为基本区域C的顶点个数，通过调整k的大小可以控制算法分割区域的大小。

如此进行进行图片点集的合并，得到多个基本区域。图4(a)为本发明实施例提供的一种原始图片示意图，图4(b)为进行初步分割和合并后得到一系列基本区域区域的示意图。

图5为本发明实施例提供的一种根据区域间差异合并基本区域，得到一系列候选区域的处理流程图。具体处理过程包括：对以上形成的基本区域进行合并，推理出鸟窝所在的兴趣域。以矩形表示基本区域及其合并后的结果，矩形的位置可用(x，y，w，h)的四元组表示。式中x，y代表矩形框左上角的坐标，w，h代表矩形框的宽度和高度。

对于区域C，其对应的表示矩形位置属性计算方法如下：

首先计算区域间的差异，区域间差异可由四项评价指标评估：

颜色距离，取决于两个区域颜色直方图各个bins的最小值

统计区域r_i对应矩形图像不同颜色通道的各个bins中的像素点个数得到n维颜色直方图，式中表示颜色直方图的第k个bins的像素点比例。

纹理距离，取决于两个区域的快速sift特征直方图各个bins的最小值。

统计区域r_i对应矩形图像不同颜色通道的各个bins中的每个sift特征的像素点数得到n维纹理直方图，式中表示纹理直方图第k维像素点比例。

优先进行小区域间的合并，对小区域给予更高的合并权重。

式中size(r_i)表示区域r_i对应矩形图像大小，size(im)表示原始待分割图片的大小。

优先合并外接矩形的重合面积大的区域。

式中size(BB_ij)表示区域r_i和r_j的外接矩形大小。其余参数意义同上。

加权以上差异，得出区域间总差异：

S(r_i，rj)＝a₁S_colour(r_i，r_j)+a₂S_texture(r_i，r_j)+a₃S_size(r_i，r_j)+a₄S_fill(r_i，r_j)

a₁，a₂，a₃，a₄为对应的权重值。

前面的条件分割是对原始待分割图片进行一次基于像素点差异的分割，它给出了每个像素点属于哪个基本区域，而基本区域是一个连续的像素点集，它的形状是不规则的。之后判定条件进行的分割是基于第一次基本分割的结果，第二次分割首先用矩形框包围出第一次分割的不规则点集，得到一系列矩形区域，矩形区域的范围大于被包围的基本区域，需要对这些矩形区域再次进行更加严格的相似度判定，然后根据相似度合并这些矩形区域，得到了最终的候选区域，含有鸟窝的候选区域即为寻找的兴趣域。第一次分割只根据像素点是否“相似”进行了一次粗略的分割，而第二次分割在第一次的基础上，加入了“大小”，“特征”，“形状”等方面的考量，得到了最终含有鸟窝的矩形分割区域。

对输入数据集的鸟窝位置进行手工标注，标注的鸟窝区域属性仍然用矩形表示，设其位置属性为(bx，by，bw，bh)。兴趣域为包含鸟窝区域的候选区域，其位置坐标应满足：

同时防止过度合并，兴趣域同时应满足阈值条件：

鸟窝所在的候选区域即为推理得出的兴趣域，如图6所示，矩形框标注出即为推理得到的兴趣域。

步骤S220：将铁路接触网图片数据集中不包含鸟窝的图片与所述模板库中的每个模板图片依次进行匹配，得到兴趣域图片数据集。

图7为本发明实施例提供的一种待检测图片与模板图片进行模板匹配的处理流程图，具体处理过程包括：将上述推理得出的兴趣域的图片作为模板元素图片，所有模板元素图片构成模板库。利用上述模板库对铁路接触网图片数据集中不包含鸟窝的图片进行模板匹配，即遍历每一张图片，采用归一化相关系数匹配标注出待检测图片的所有兴趣域。

设模板图片为T，不包含鸟窝的图片的待匹配图片为I，设模板图片的宽为w，高为h，R表示匹配结果，则匹配方法可由如下公示表述：

式中：

R值越大，代表待匹配图片在(x，y)位置大小为(w，h)的矩形区域与模板相似度越高，取模板相似度最大值为模板匹配的结果。并且要求模板匹配值高于阈值参数。

记Rs(T，I)＝max_x，y∈IR(x，y)

模板匹配首先将待匹配图片与模板库中的每个模板图片依次进行匹配，每个模板图片都对应一个最佳匹配值R，R对应的矩形匹配框的位置为(x，y，w，h)。模板初次匹配结果构成结果集S：

式中c为匹配的阈值参数。

对结果集S按Rs值降序排列，结果集中各个矩形匹配框可能相交。

对于两矩形匹配框s，t矩形相交的条件为：

max(x(s)，x(t))≤min(x(s)+w(s)，x(t)+w(t))

max(y(s)，y(t))≤min(y(s)+h(s)，y(t)+h(t))

依次遍历结果集S，若当前矩形匹配框与已标注矩形匹配框相交则放弃标注，否则对当前矩形匹配框进行VOC格式的标注，所有标注的矩形匹配框构成兴趣域数据集。模板匹配算法得到的最佳匹配结果为矩形框，其匹配结果为(x，y，w，h)，单类物体，得到其label.txt文件的格式为Oxywh(一行)。一行代表一个矩形标注框。之后使用txttoxml脚本把txt文件标注格式转化为深度学习训练的VOC格式的xml文件。

步骤S230：构建基于级联神经网络的接触网鸟窝检测模型，并对接触网鸟窝检测模型进行训练。上述接触网鸟窝检测模型包括第一级YOLO检测器和第二级YOLO检测器，利用上述模板库对第二级YOLO检测器进行训练，利用上述兴趣域图片数据集对第一级YOLO检测器进行训练。

第一级YOLO检测器使用的是模板库模板匹配之后的3900张图片，每张图片的label文件在进行模板匹配过程中得出，使用yolov3-spp神经网络进行训练。

第二级YOLO检测器的图片为逆向推理算法得到的兴趣域(里面含有鸟窝)，鸟窝的位置为相对兴趣域的相对位置，在逆向推理算法过程就可以得出label.txt。使用yolov3-spp神经网络进行训练。

步骤S240：将待检测图片输入训练后的第一级YOLO检测器，所述第一级YOLO检测器输出兴趣域图片，将所述兴趣域图片输入训练后的第二级YOLO检测器，所述第二级YOLO检测器输出所述待检测图片的鸟窝检测结果。

接触网鸟窝的体积较小，缺乏显著的形状和纹理特征，采用已有的人工设计特征对条纹图片进行分类难以得到理想的结果。对此，深度学习提供了一种可行的解决方案，YOLO神经网络作为一种常见的目标检测网络具有强大的检测性能。本发明利用两级预测网络级联的检测网络进行接触网鸟窝检测，采用YOLOv3-SPP网络结构作为分级检测器。

YOLO神经网络把整张图片作为输入，输出预测的边界框和其所属的类别。

算法开始将一幅图片分割成S×S个网格，如图9所示，标注物体的中心所在的网格负责预测对应的标注物体。每个网格需要预测B个边界框，每个边界框需要回归自身位置(x，y，w，h)以及置信度。

YOLOv3通过改变卷积核的步长来改变网络中传播张量的尺寸。YOLOv3通过提前计算出边界框来提高模型的预测速度。YOLOv3通过预测边界框中心点与对应网格左上角位置的相对偏移量来决定边界框的位置。并且对t_x、t_y做归一化处理，使得边界框预测值在0和1之间，这样可以保证边界框的中心点一定在划分的网格中。

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

t_x、t_y、t_w、t_h是模型的预测输出。c_x和c_y表示网格的坐标，p_w和p_h表示预测前边界框的大小，b_x、b_y、b_w和b_h是预测得到的边界框的中心坐标和大小。

置信度为网格是否正确预测待检测物体以及边界框与物体真实位置的偏差。置信度可用如下公式表达：

式中IOU为边界框与物体标注框的交并比，其计算方法如下：

其中(tx，ty，tw，th)代表标注框truth位置属性(x，y，w，h)。

(px，py，pw，ph)代表边界框pred位置属性(x，y，w，h)。

Pr(Object)表示网格存在待预测的物体的概率。在训练过程中，如果没有待测物体物体落入网格中，那么Pr(Object)为0，否则为1。

在训练过程，每个网格对应一个像素矩阵，每个像素矩阵作为神经网络的输入。对于每个网格，网络对于每个边界框给出的输出为(x，y，w，h，conf，c₁......c_n)，其中(x，y，w，h)给出了边界框的位置，conf为边界框的置信度，c₁......c_n表示物体的类别概率。

YOLOv3采用多尺度特征对目标进行检测。经过32倍下采样得到的特征图感受野比较大，适合检测图片中尺寸比较大的目标；经过16倍下采样得到具有中等尺度感受野的特征图，适合检测图片中中等尺寸的目标；经过8倍下采样得到的特征图感受野比较小，适合检测图片中尺寸比较小的目标。

YOLOv3采用K-means聚类方法得到先验框的尺寸，并且为每一种下采样尺度设定3种不同大小的先验框，一共聚类出9种尺寸的先验框。当输入图片的分辨率是416*416时，得到的9个先验框在不同大小的特征图上的分配如表1所示。

表1 特征图与先验框

直接使用YOLO网络进行接触网鸟窝的检测效果并不理想，因为鸟窝在图片中占比很小，导致大量的网格进行无效运算，浪费计算资源。

而且YoloV3神经网络使用在数据集上聚类得到的先验锚框。

对于小尺度物体，大尺寸锚框与中等尺寸锚框的10U值不会很高，整体精度不高。

图10为本发明实施例提供的一种单级网络预测示意图，如图10所示，左上角一个网格进行了有效计算。

单网络的预测期望为：

记：为有效预测框的平均IOU/>

式中为鸟窝图片占比。

在接触网环境中，受物理因素影响鸟窝的环境分布具有连续性，即鸟窝在接触网中的位置有界。上述得出的兴趣域即为鸟窝的全部可能出现区域。可以用公式表达如下：

P(distribution)＝P(鸟窝存在于图片的兴趣域|图片含有鸟窝)＝1

基于鸟窝分布的先验条件，可用级联的YOLO神经网络先识别兴趣域，再从网络给出的兴趣域预测子图片中识别鸟窝的位置。

(1)第一级预测：

图11为本发明实施例提供的一种级联网络的第一级网络预测示意图。分割效果如图11所示，黑色框为模板匹配给出的兴趣域，黑色分割线为yolo网络划分的网格。只有左上角的四个网格负责预测兴趣域，具有置信度，其它网格的置信度为0。

第一级网络检测的置信度和期望如下：

式中Pr(Zone)为当前网格具有待测物体(兴趣域)的概率，在训练过程中，待测网格包含兴趣域，Pr(Zone)为1，否则为0，为网格预测的标注框与兴趣域真实所在的矩形框的交并比。B为每个网格预测的标注框数，S²为图片的总划分网格数，/>为物体所在的所有网格做出预测的所有预测框IOU的平均值。i(Zone)为兴趣域区域大小，I(image)为原始图片的大小。E(Zone)为图片给出的总IOU之和，体现了对物体预测正确的整体把握程度。

(2)第二级预测：

图12为本发明实施例提供的一种级联网络的第二级网络预测示意图。第二级Yolo网络以第一级网络预测的兴趣域子图片集作为输入，对子图集进行YOLO级联检测，其本质为网格的二次划分，尽可能地在训练过程中增大边界框的IOU来提高训练的准确度并且进行尽可能多的有效计算。

第二级网络的置信度为：

式中Pr(Birdnest)为当前网格具有待测物体(鸟窝)的概率，在训练过程中，待测网格包含鸟窝，Pr(Birdnest)为1，否则为0，为网格预测的标注框与鸟窝真实所在的矩形框的交并比。P(distribution)为图片的鸟窝存在于兴趣域中的概率，显然所有的鸟窝都存在于兴趣域中，所以此项为1。

兴趣域中的鸟窝预测期望为：

式中Pr_i(birdnest)为兴趣域子图像中，子图像中第i个网格具有包含鸟窝的概率，为子图像第i个网格预测的第j个矩形框与鸟窝图片的交并比，confidence(Zone)为原始图像网格预测的一个矩形框标注出兴趣域的置信度，/>表示原始图像的划分网格做出预测的一个预测框能够标注出鸟窝的把握程度。

级联预测的期望为：

式中为兴趣域子图像中鸟窝包含的网格做出的预测标注框与鸟窝所在矩形的平均交并比。(预测标注框由先验聚类算法给出，其与子图像大小成正比，所以子图像预测框要比在原始大图像中的预测框大小更加适合鸟窝的形状，因此其平均的IOU值要大)。其余参数意义同上文。

式中代表网格预测锚框的平均IOU值，因为锚框大小通过数据集聚类先验给出，它与输入图片的大小成正相关。待检测物体与锚框的比例越相近，平均IOU值越大，因此式中给出的/>与/>均大于原始的/>级联预测精度大于原始预测精度。

另一方面，单级神经网络的平均预测精度与训练样本数据集的数量成正相关，设神经网络在训练样本在Base图片标注Object，并且数量为n时的平均预测精度为F(Object，Base，n)。

由以上讨论，级联期望精度高于单级网络期望精度：

F(birdnest，Zone，n)*F(Zone，image，n)＞F(birdnest，image，n)

接触网鸟窝的数据集中，带有鸟窝标注的样本数据集很少，大部分图片不含鸟窝。但兴趣域数据集样本数量极大，与待测物体鸟窝无关的兴趣域对鸟窝的分布具有信息增益，兴趣域的训练增益可以增高整体检测器的精度。设数据集样本数量为M，包含鸟窝的样本数量为N。

则训练器的整体精度为：

P＝F(birdnest，Zone，N)*F(Zone，image，M)＞F(birdnest，image，N)

兴趣域数据集比较容易得到，M＞＞N，当样本足够多时，第一级检测器可以分辨出待测图片的所有兴趣域。

F(Zone，image，M)→1

经过第一级检测器的极限放大，检测器的精度达到极值：

P_max＝F(birdnest，Zone，N)

检测器的精度由第二级检测器的精度决定，第一级检测器起到了物体放大的作用，第二级检测器在兴趣域中检测待测物体鸟窝，物体的平均IoU值明显大于单级检测器，检测器的检测精度明显提高。

实施例二

实验环境与数据

本发明的实验环境和***配置如下：

(1)硬件配置： Core^TM [email protected]+NVIDIA Geforce RTX 3090+64GB内存

(2)操作***：Windows10

(3)深度学习框架：CUDA 11.0+Pytorch1.7.0

逆向推理

实验数据来自于检测车在某重载铁路采集的接触网检测视频。人工处理视频帧得到图片集，挑选出共400张含有鸟窝的图片，采用逆向推理得到130张兴趣域中的鸟窝图片用于第二级深度学习检测器训练。经过人工校验筛选出58张兴趣域图片作为模板库对视频集3900张无鸟窝图片进行模板匹配，对经过匹配之后的数据集进行人工核验修正用于第一级深度学习检测器训练。采用其它深度学习模型进行对比训练，原始的400张图片中的240张作为深度学习训练集，80张作为验证集，对其余80张图片采用数据增强方法得到126张包含鸟窝图片进行测试。实验数据组织结构如表1所示：

表1 实验数据组织结构

实验数据集共有含鸟窝的待测图片经过逆向推理算法筛选得到的图片的数量为130张，为鸟窝所在接触网的兴趣域，图片集中图片间接触网区域结构相似，能够有效地反映出鸟窝存在的空间特征。得到的130张图片作为第二级检测器训练的数据集，但部分图片具有较多的环境背景因素，环境噪声较大，对模板匹配过程具有较强的干扰，需要人工剔除。经过人工剔除后的图片构成了模板匹配的模板库。

模板匹配

对数据集包含3900张包含接触网的图片根据模板匹配算法进行模板匹配，标注出兴趣域。由于模板库的环境误差，部分样本存在标注偏差，需要人工校验核对。对于匹配错误的检测框进行剔除，并且对匹配数量较少的图片进行补充标注。

也正是由于模板匹配的局限性，对未知样本进行模板匹配很可能不能准确地标注出所有兴趣域。经人工核对后的模板匹配结果作为第一级检测器训练的数据集，利用深度学习算法学习兴趣域的图像特征对未知样本进行兴趣域识别，具有较强的泛化能力，能够较准确地针对铁路沿线所有可能存在鸟害的接触网区域进行识别。

一些主流的深度学习模型检测

通过正确预测的样本数与总预测样本数的比值来反映预测的准确率，准确率越高，说明检测模型越精确。而检出率是指正确预测的样本数与真实样本总数的比值，检出率越高说明检测模型越可靠。

为了实现实时检测，在保证模型具有比较高的检测精度的同时，还要尽可能提高模型的检测速度。一般使用每秒内处理图像的数量(秒帧率FPS)反映检测速度的快慢，对于单网络检测器，其检测速度为检测网络处理图像的速度；而对于级联网络，采用第一级检测器与第二级检测器串行计算，且并行检测每个兴趣域的计算方法。

当数据集规模较小时，无论YOLO系列等two-stage算法还是Faster R-CNN等one-stage算法，均对小目标物体的识别能力有限，并且接触网鸟窝形体特征较为单一，难以与环境样本区分，具有很大的训练难度，在测试集很难有较好的表现。

Faster R-CNN在训练样本较小的情况下，由于鸟窝形体较小，难以很好地学习到鸟窝样本的整体特征，表达能力欠佳，容易出现漏标的情况，影响检测器的检出率。

YOLO系列网络，能够对物体进行多尺度识别，检测能力强于Faster R-CNN网络，但鸟窝的形体特征较为单一，容易与环境样本相混淆，容易出现误标的情况，影响检测器的准确率。

YOLOv3-spp，YOLOv4与Faster R-CNN等识别检测模型进行识别，结果如下：

由表可以看出，无论是YOLO系列等two-stage网络还是Faster R-CNN等one-stage网络，当鸟窝数据集较少且体积较小、形体特征单一时，网络的学习效果不佳，难以学习到鸟窝存在的整体性特征，均无法准确地标注出铁路沿线接触网的鸟窝。

级联检测

(1)第一级检测器

第一级检测器使用Faster R-CNN、yolov3-spp与yolov4检测模型进行兴趣域识别任务训练。

使用不同网络结构对兴趣域进行检测。

YOLOv3-SPP网络层数为225层，参数量为6250万，而YOLOv4网络层数为327层，参数量为6400万。YOLOv3和YOLOv4的主干网络结构大致相同，YOLOv4在训练过程方面做了优化改进：YOLOv3的预测框回归采用GIOU_Loss，它无法区分物体的相对位置关系，而YOLOv4采用了CIOU_Loss，它在GIOU_Loss的基础上考虑了边界框中心点距离与边界框宽高比等尺度信息，大大提高了预测框回归的精度。

本发明实施例提供的一种Yolov3-GIO训练过程中的IOU曲线示意图如图13所示，本发明实施例提供的一种Yolov4-CIOU训练过程中的IOU曲线示意图如图14所示，由图13和图14可以看出在训练进度相同时，YOLOv4的CIOU远大于YOLOv3的GIOU，它更多地包含了兴趣域的中心位置和区域大小，能够更好地学习到兴趣域的区域特征。

Faster R-CNN对比YOLO系列采用two-stage检测，它首先产生候选区域，生成的预测框数量多于YOLO系列网络，然后对候选框进行分类和回归。而YOLO系列的one-stage算法直接对输入图片进行分类和回归，不产生候选区域。因此Faster R-CNN具有更低的错误率和漏识别率，但one-stage算法的识别速度较慢。

对铁路沿线接触网测试数据集共126张图片进行测试，不同网络模型的预测结果如下：

第一级网络模型兴趣域检测数量对比

(2)第二级检测器

对模板库共130张鸟窝图片进行第二级检测器的模型训练。

第二级检测器的检测任务为在兴趣域中识别鸟窝，数据集中的图片经双线性插值放大，即使是体积很小的鸟窝也能在图片占有很大的面积，并且有效地排除了环境噪声的干扰因素，具有很强的抗干扰能力。由于鸟窝随原图片经双线性插值放大，其训练的IOU值也得到了提高，对比相同的检测模型，IOU值在训练进度相同的情况对比如下：图15为本发明实施例提供的一种YOLOv3-SPP第二级检测与直接检测I0U对比示意图，图16为本发明实施例提供的一种YOLOv4第二级检测与直接检测IOU对比示意图。由图15和图16可以看出，相同YOLO系列下的检测模型对鸟窝经双线性插值放大后的图像具有更高的IOU值，能够更精确地定位鸟窝的位置。

对测试集126张图片共222个鸟窝进行检测，使用不同的第一级检测器检测兴趣域，测试第二级检测器的检测性能，采用第一、二级检测器串行计算，第二级检测器并行检测的计算方法。

其检测结果如下：

不同目标检测算法性能对比

/>

由表结果可以看出，三种检测模型级联结果的最差检出率为84.68％，仍然高于直接检测的最好结果77.48％。级联网络识别，通过第一级网络诱导识别先验的兴趣域，而第二级在兴趣域中识别待测物体鸟窝，兴趣域中鸟窝的分布情况较为单一，可以减少其它环境样本的干扰，提高了鸟窝的区分度，降低训练的难度。因此，级联网络对第二级待测物体的数据集规模依赖较小，只需要很少的图片就可以学习到兴趣域中鸟窝的分布特征。

由于第一级检测器使用Faster-RCNN检测出的兴趣域数量最多，它能够达到级联网络的极值条件，因此检出率最佳的检测器为Faster-RCNN级联YOLOv3-SPP网络，但Faster-RCNN的检测速率较低，整体检测器的检测速率受限于第一级检测器，无法满足实时检测的性能。YOLOv4网络的表达能力强于YOLOv3，其在样本较多、待测物体特征容易区分的兴趣域识别训练中表现优异，但在样本数量较少、样本特征不明显的训练中表现准确率不高。级联的YOLOv3-SPP网络与YOLOv4级联YOLOv3-SPP网络均具有较高的检出率与准确率，并且具有较高的FPS。能够对铁路沿线视频进行实时检测。

综上所述，本发明实施例提出的高速铁路接触网鸟窝自动识别和快速追踪的方法，可以有效解决高速铁路接触网上鸟窝的准确快速识别和追踪问题；可以有效解决由于接触网中鸟窝信息量较少，缺乏显著的形状或纹理特征造成的识别困难；可以在表示目标远小于场景范围的情况下将搜寻范围缩小从而转换为大目标追踪的情形，能够显著提高准确率。从而能够对铁路接触网进行有效的自动鸟窝识别检测。

本发明提出了一种基于联级神经网络的追踪方法，由第一级神经网络表示出鸟窝出现的兴趣域再将其用于第二级神经网络的训练，从而在追求准确度的同时保持较高的追踪速度。

已有的深度学习模型直接检测鸟窝的难度很大，效果不佳，我们据此发明了一种在数据集很少，检测目标很小的情况下，通过结合已有的算法对数据集进行处理并且设计了一种级联架构的检测网络，能够以优秀检测能力完成复杂检测任务的检测方法。本文着重在论述级联检测结构对比传统但网络检测的优势，以及它具有优秀检测能力的原理。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种铁路接触网鸟窝检测方法，其特征在于，包括：

将待检测图片输入训练后的第一级YOLO检测器，所述第一级YOLO检测器输出兴趣域图片，将所述兴趣域图片输入训练后的第二级YOLO检测器，所述第二级YOLO检测器输出所述待检测图片的鸟窝检测结果；

所述的根据铁路接触网图片数据集中包含鸟窝的图片通过逆向推理得到包含鸟窝区域的兴趣域图片，将所述兴趣域图片作为模板图片，根据所有模板图片构成模板库，包括：

对铁路接触网图片数据集中包含鸟窝的图片进行初步分割，得到具有设定相似度的基本区域，根据区域间差异对基本区域进行初步合并得到一系列初步的候选区域，用矩形框包围出所述初步的候选区域，根据所述矩形框之间的相似度合并初步的候选区域，得到最终的候选区域，对最终的候选区域中的鸟窝位置进行手工标注，用矩形表示标注的鸟窝区域属性，将包含鸟窝区域的最终的候选区域作为兴趣域，将兴趣域图片作为模板图片，根据所有模板图片构成模板库；

所述的对铁路接触网图片数据集中包含鸟窝的图片进行初步分割，得到具有设定相似度的基本区域，根据区域间差异对基本区域进行初步合并得到一系列初步的候选区域，包括：

将一幅包含鸟窝的图片用无向图G＝<V,E>表示，其中无向图的顶点表示图片的一个像素点，边e＝(v_i,v_j)的权重表示相邻顶点对i，j的不相似度，用像素的颜色距离表示两个像素间的不相似度w(e)，一个基本区域为具有最小不相似度的点集；

将基本区域的类内差异定义为：

如果两个基本区域没有边相连，Diff(C₁,C₂)＝∞

当满足条件Diff(C₁,C₂)≤min(Int(C₁)+τ(C₁),Int(C₂)+τ(C₂))，则判断两个基本区域C₁、C₂能够合并；

其中τ(C)为阈值函数，使孤立点构成的区域具有权重：

τ(C)＝k/‖C‖

将各个基本区域进行初步合并得到一系列初步的候选区域；

所述的用矩形框包围出所述初步的候选区域，根据所述矩形框之间的相似度合并初步的候选区域，得到最终的候选区域，包括：

用矩形框包围出所述初步的候选区域，矩形框C的位置用(x,y,w,h)的四元组表示，式中x,y代表矩形框左上角的坐标，w,h代表矩形框的宽度和高度；

初步的候选区域r_i的矩形框和初步的候选区域r_j的矩形框/>之间的颜色距离为：

式中表示颜色直方图的第k个bins的像素点比例；

初步的候选区域r_i的矩形框和初步的候选区域r_j的矩形框/>之间的矩形框/>和/>之间的纹理距离为：

式中表示纹理直方图第k维像素点比例；

对于初步的候选区域r_i和r_j：

式中size(r_i)表示区域r_i对应的矩形框大小，size(r_j)表示区域r_j对应的矩形框大小，size(im)表示原始待分割图片的大小，S_size(r_i,r_j)为矩形区域r_i和r_j的尺寸相似度分数；

对于初步的候选区域r_i和r_j：

式中size(BB_ij)表示区域r_i和r_j的外接矩形大小，S_fill(r_i,r_j)为矩形区域r_i和r_j填充相似度分数，衡量不同区域的相交程度；

初步的候选区域r_i和r_j之间的总差异为：

S(r_i,r_j)＝a₁S_colour(r_i,r_j)+a₂S_texture(r_i,r_j)+a₃S_size(r_i,r_j)+a₄S_fill(r_i,r_j)

a₁，a₂，a₃，a₄为对应的权重值；

当初步的候选区域r_i和r_j之间的总差异S(r_i,r_j)大于设定的合并阈值，则将初步的候选区域r_i和r_j进行合并，得到最终的候选区域；

所述的将铁路接触网图片数据集中不包含鸟窝的图片与所述模板库中的每个模板图片依次进行匹配，得到兴趣域图片数据集，包括：

式中：

R值越大，代表待匹配图片在(x,y)位置大小为(w,h)的矩形区域与模板相似度越高，取模板相似度最大值为模板匹配的结果，并且要求模板匹配值高于阈值参数；

记

每个模板图片都对应一个最佳匹配值R，R对应的矩形匹配框的位置为(x,y,w,h)，模板初次匹配结果构成结果集S：

式中c为匹配的阈值参数；

max(x(s),x(t))≤min(x(s)+w(s),x(t)+w(t))

max(y(s),y(t))≤min(y(s)+h(s),y(t)+h(t))

2.根据权利要求1所述的方法，其特征在于，所述的对最终的候选区域中的鸟窝位置进行手工标注，用矩形表示标注的鸟窝区域属性，将包含鸟窝区域的最终的候选区域作为兴趣域，将兴趣域图片作为模板图片，根据所有模板图片构成模板库，包括：

将最终的候选区域C用矩形表示，矩形的位置属性用四元组(x,y,w,h)表示；

对最终的候选区域中的鸟窝位置进行标注，用矩形表示标注的鸟窝区域属性，矩形的位置属性为(bx,by,bw,bh)，兴趣域为包含鸟窝区域的候选区域，兴趣域的位置坐标满足：

并且满足阈值条件：

3.根据权利要求1至2任一项所述的方法，其特征在于，所述的第一级YOLO检测器和第二级YOLO检测器包括：YOLOv3-spp、YOLOv4和Faster R-CNN。

4.根据权利要求3所述的方法，其特征在于，所述第一级YOLO检测器的置信度和期望如下：

所述第二级YOLO检测器的置信度为：

兴趣域中的鸟窝预测期望为：

级联预测的期望为：

级联预测的精度为：

P＝F(birdnest,Zone,N)*F(Zone,image,M)>F(biednest,inage,N)。