CN110232350A

CN110232350A - 一种基于在线学习的实时水面多运动目标检测跟踪方法

Info

Publication number: CN110232350A
Application number: CN201910496423.XA
Authority: CN
Inventors: 盛明伟; 宋军; 李俊; 唐松奇; 王卓; 万磊; 秦洪德; 刘奕晖
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-09-13
Anticipated expiration: 2039-06-10
Also published as: CN110232350B

Abstract

本发明属于多目标跟踪领域，具体涉及一种基于在线学***均优化修正作为融合修正的跟踪结果；通过将融合修正的跟踪结果加入训练集进而更新训练改进的YOLOv3和改进的SSD网络模型。

Description

一种基于在线学习的实时水面多运动目标检测跟踪方法

技术领域

本发明属于多目标跟踪领域，具体涉及一种基于在线学习的实时水面多运动目标检测跟踪方法。

背景技术

中国是海洋大国，在不断加强海洋强国建设的背景下，大力发展海洋装备，增加对海洋的开发能力和控制能力，不断提高水面船舶的自动化、无人化以及智能化具有重要意义。尤其以水面无人艇为主的环境感知能力的提高，能够增强其作业效率以及安全性，同时提升无人艇的自主作业或作战能力，减少对于人员的需求。

作为无人的水面航行器，水面无人艇以其体积小、高速、智能、无人伤亡等优点正逐步替代舰艇平台来完成海上大范围、长时间的科学考察与工程任务，也可执行多种军事和非军事作业，如海域搜救、导航和水文地理勘察；水文信息监测、海洋气象预报、水下生物研究、海洋资源勘探以及区域海图绘制；近海地带防御；特定海域的侦察、搜索、探测和排雷；反潜作战、反特种作战以及打击海盗、反恐攻击等。

无人艇在较高速运动的情况下，面对前方的船只、礁石等障碍物时应予以躲避，但同时其也应遵守海面的航行规则，这给无人艇对于周围环境感知的能力以及自主航行能力提出了不小的要求。使用基于光视觉的光学图像具有丰富的环境细节信息，结合目前流行的卷积神经网络特征提取工具以及在线学习算法，使得光学图像易于检测到图像序列中的目标，为舰船目标识别、跟踪算法提供有效的目标区域，缩小搜索范围，降低算法的复杂度和运算量，从而提高水面无人艇对舰船目标侦查、打击能力。

发明内容

本发明的目的在于提供一种基于在线学习的实时水面多运动目标检测跟踪方法。

一种基于在线学习的实时水面多运动目标检测跟踪方法，该方法包括以下步骤：

步骤1：从输入的首帧视频中提取正负样本制作扩充数据集，训练模块训练改进的YOLOv3和改进的SSD网络模型；

步骤2：检测模块利用训练模块已经训练好的改进的YOLOv3和改进的SSD网络模型，检测输入的视频序列，获取目标候选框位置及其对应的特征和类别信息；

步骤3：用得到的检测结果初始化跟踪模块；

步骤4：通过相关滤波计算响应值，选取最大响应值位置作为初步跟踪结果；

步骤5：将两个跟踪结果的目标跟踪框融合取并集输入优化模块进行加权平均优化修正作为融合修正的跟踪结果；

步骤6：将得到的融合修正的跟踪结果输入在线学习模块，并更新训练模块改进的YOLOv3和改进的SSD网络模型。

步骤1所述的改进的YOLOv3为：在主网络Darkent-53之后增加2个卷积层，与YOLOv3原有的3个卷积层共同构建成含有5个不同尺度卷积层的特征金字塔，即：64×64，32×32，16×16，8×8和4×4分辨率；将每个以2倍步长对该特征金字塔执行上采样操作，与深度残差网络进行融合，每种尺度预测4种box，anchor的设计方式不变，仍然使用聚类，得到20个聚类中心，将其按照大小均分给5种尺度，形成改进的YOLOv3网络模型。

步骤1所述的改进的SSD网络模型为：采用归一化的思想对这些位置偏移值做一个sigmoid激活，将位置偏移值缩为0～1，b_x和b_y的值在(cell_x_loc,cell_x_loc+1)，(cell_y_loc,cell_y_loc+1)之间波动，形成改进的SSD网络模型。

步骤1所述的训练模块的工作步骤包括：

步骤1.1：对首帧视频框出待跟踪的目标以及分配相应的ID，在框选位置附近采样，以目标区域为正样本，背景为负样本，建立数据集。

步骤1.2：将上一步建立的数据集中的目标置于不同背景下,再利用仿射变换,对数据集中的正负样本进行旋转、平移、缩放和翻转来增加训练样本，或者利用对目标区域进行循环移位来增加训练样本，扩充数据集。

步骤1.3：用扩充后的数据集离线训练改进的YOLOv3和改进的SSD网络，生成两个目标检测模型。

步骤2所述的检测模块的工作步骤包括：

步骤2.1：将第t帧视频分别输入改进的YOLOv3和改进的SSD目标检测模型。

步骤2.2：对第t帧视频进行目标检测，获取目标候选框位置和类别信息。

步骤2.3：提取目标候选框对应位置的LBP、CN和HOG特征。

步骤3所述的跟踪模块的工作步骤包括：

步骤3.1：根据第t-1帧视频的目标跟踪位置信息，提取其对应的LBP、CN和HOG特征。

步骤3.2：将目标的特征看成是一个多维向量，将LBP、CN和HOG特征进行融合，形成融合特征h_rh；

步骤3.3：根据融合特征h_rh，训练出一个能计算一个小窗口采样响应的响应函数f(h)；

步骤3.4：将两个目标检测器的检测结果作为输入参数，对跟踪模块进行初始化；

步骤3.5：将提取出的第t帧视频的LBP、CN和HOG特征进行融合，将第t帧的融合特征作为响应函数f(h)的输入参数，计算出第t帧视频的目标候选框对应位置的响应值。

步骤3.2所述的融合特征h_rh按下式计算：

h_rh＝λ₁h_lbp+λ₂h_cn+λ₃h_hog

其中，λ₁表示LBP特征的融合系数，λ₂表示CN特征的融合系数，λ₃表示HOG特征的融合系数；h_lbg表示LBP的特征向量，h_cn表示CN的特征向量，h_hog表示HOG的特征向量，h_rh表示融合特征的特征向量。

步骤5所述的优化模块的工作步骤包括：

步骤5.1：将跟踪模块输出的第t帧视频的改进的YOLOv3和改进的SSD对应的跟踪结果进行融合，即取并集；

步骤5.2：利用存在冗余信息的合并边界框去进一步优化，修正目标边界框位置，输出融合修正的跟踪结果。

步骤5.2所述的利用存在冗余信息的合并边界框去进一步优化是通过对改进的YOLOv3和改进的SSD对应的跟踪结果的目标边界框采用加权平均的思想减少合并边界框中的冗余信息；根据加权平均的思想提出的检测结果位置修正公式表示为下式：

其中，i是目标类别；是改进的YOLOv3目标检测模型对应的跟踪结果；是改进的SSD目标检测模型对应的跟踪结果；loc_i是最终目标跟踪结果；是改进的YOLOv3预测候选框对应的最大响应值；是改进的SSD预测候选框对应的最大响应值。

步骤6所述的在线学习模块工作步骤包括：

步骤6.1：将第t帧视频的融合修正的跟踪结果中的跟踪目标与上一帧视频的跟踪结果中的跟踪目标进行匹配对比；

步骤6.2：当第t帧视频的融合修正的跟踪结果中的跟踪目标与上一帧视频中的跟踪目标一致时，则说明跟踪成功，然后将第t帧视频的融合修正的跟踪结果去更新数据集，重新训练改进的YOLOv3和改进的SSD网络，进而更新目标检测器；

步骤6.3：当第t帧视频的融合修正的跟踪结果中的跟踪目标比上一帧视频中的跟踪目标少时，则说明出现跟踪目标消失或被遮挡；当连续50帧未检测到此目标，则说明跟踪目标消失，否则说明跟踪目标被遮挡；目标被遮挡时记录下被遮挡的上一帧视频目标特征生成的响应函数；用此响应函数计算被遮挡目标初次出现的响应值，得到最大响应值对应的候选框作为该目标的跟踪框；

步骤6.4：当第t帧视频的融合修正的跟踪结果中的跟踪目标比上一帧视频中的跟踪目标多时，则说明出现新的跟踪目标，然后将第t帧视频的融合修正的跟踪结果去更新数据集，重新训练改进的YOLOv3和改进的SSD网络，进而更新目标检测器。

本发明的有益效果在于：

1.对YOLOv3和SSD算法进行改进，提高了模型检测精度。并通过这两种目标检测模型对输入视频序列检测，将其对应的跟踪结果融合，再通过加权平均进一步优化，减少合并边界框中的冗余信息，修正目标跟踪框位置。

2.以目标区域为正样本，背景为负样本，建立数据集，这种方式更能适应跟踪过程中的复杂变化，大大减少了漏跟、错跟以及跟踪目标丢失的现象。并根据已有数据集,将数据集中的目标置于不同背景下,再利用仿射变换或循环移位，扩充数据集，同时还有利于减少在复杂或者扭曲背景下的漏检和错检的现象。

3.由于采用了在线学习的方法，将检测到的目标视频序列加入数据集，训练更新模型，使得目标跟踪时的ID交换情况得到降低，逐渐提高了模型检测能力。

4.提取LBP、CN和HOG特征，并将其融合获得融合特征，提高了特征表达能力。对检测到的目标进行实时的跟踪，降低了跟踪的丢失率，提升了跟踪的准确率。

附图说明

图1为基于在线学习的实时水面多运动目标检测跟踪方法结构框图。

图2为训练模块流程图。

图3为检测流程图。

图4为跟踪模块流程图。

图5为优化模块流程图。

图6为在线学习模块流程图。

具体实施方式

下面结合附图对本发明做进一步的描述。

本发明目的在于提供一种基于在线学习的实时水面多运动目标检测跟踪方法，利用无人艇搭载的光学摄像机，通过图像处理、目标检测、识别以及跟踪等方法检测并识别出水面图像序列中的运动目标，使用基于在线学习的跟踪方法对水面存在的多个运动目标进行实时的跟踪，解决了针对水面多个运动目标跟踪的问题，适用于背景复杂、水面存在多个目标交叉运动的情况。具体是利用无人艇搭载光学摄像机获取水面图像序列，使用卷积神经网络对图像进行检测识别，之后使用基于在线学习的目标跟踪算法对水面的多个运动目标进行跟踪的方法，适用于背景复杂、水面存在多个目标交叉运动的情况。

采用安装在无人艇上的光学摄像机采集水面图像，将采集到的图像存储于计算机内部，使用计算机对采集到的图像进行处理从而实现目标跟踪功能。

如图1所示，一种基于在线学习的实时水面多运动目标检测跟踪方法，通过训练模块生成目标检测模型，把检测模块和跟踪模块相结合，利用优化模块对目标跟踪结果进行优化，并加入在线学习模块对目标模型进行不断更新，来达到对水面多运动目标检测跟踪的目的。

训练模块采集正负样本制作数据集，负责初始化目标模型。检测模块采用改进的YOLOv3和改进的SSD网络模型作为目标检测模型检测每一帧中的待检测目标。跟踪模块通过将提取的LBP、CN和HOG特征进行融合，利用响应矩阵计算最大响应值，将其对应候选框作为目标跟踪框。优化模块将两个检测模型对应的的跟踪结果进行融合(即取并集)，再采用加权平均的思想对跟踪目标位置进行一步修正优化。在线学习模块根据检测跟踪的最终结果，持续更新和修正目标模型，提高检测精度。

主要步骤如下：首先从首帧视频中提取正负样本制作扩充数据集，其次利用已经训练好的改进的YOLOv3和改进的SSD网络模型检测输入的视频序列，获取目标候选框位置及其对应的特征和类别信息；之后用检测结果初始化跟踪模块；然后通过相关滤波计算响应值，选取最大响应值位置作为初步跟踪结果；将两个跟踪结果的目标跟踪框融合取并集进行加权平均优化修正作为融合修正的跟踪结果；通过将融合修正的跟踪结果加入训练集进而更新训练改进的YOLOv3和改进的SSD网络模型。

针对YOLOv3特征图尺度偏大，对大目标检测不准确的问题，对YOLOv3作出改进。在主网络Darkent-53之后又增加了2个卷积层，与YOLOv3原有的3个卷积层共同构建成含有5个不同尺度卷积层的特征金字塔，即：64×64，32×32，16×16，8×8和4×4分辨率；将每个以2倍步长对该特征金字塔执行上采样操作，与前面的深度残差网络进行融合，在提高对大目标检测精度的同时，也提高了对小目标的检测能力。为了进一步提高检测进度，每种尺度预测4种box，anchor的设计方式不变，仍然使用聚类，得到20个聚类中心，将其按照大小均分给5种尺度，形成改进的YOLOv3网络模型。采用改进的YOLOV3网络模型作为检测器，去检测目标，预测候选框。

如图2所示，所述的训练模块的工作步骤如下所示：

(1)对首帧视频框出待跟踪的目标以及分配相应的ID。在框选位置附近采样，以目标区域为正样本，背景为负样本，建立数据集。

(2)将上一步建立的数据集中的目标置于不同背景下,再利用仿射变换,对数据集中的正负样本进行旋转、平移、缩放和翻转来增加训练样本，或者利用对目标区域进行循环移位来增加训练样本，扩充数据集。

(3)用扩充后的数据集离线训练改进的YOLOv3和改进的SSD网络，生成两个目标检测模型。

如图3所示，所述的检测模块主要通过改进的YOLOv3和SSD目标检测模型实现的。将输入图像分成7×7的格子，每一个格子负责检测落入该格子的物体。如果某个物体的中心位置坐标落入到某个格子，那么这个格子负责检测这个物体。每个格子输出两个bounding box，以及检测出的物体属于某种类别的概率。bounding box包含5个数据信息：检测框的宽高，中心坐标值。通过卷积层和全连接层的特征提取过程以及回归分类后，得到输入图片中的物体的检测框信息以及物体属于某种类别的置信度得分。

在网络中引入RPN结构来产生多个候选区域的特征层并依此进行目标特征的提取融合。具体为：将原始输入图像通过卷积网络提取到特征以后，在提取的特征图上，使用一个小型滑动窗来提取不同尺寸的小型特征，将提取到的特征输入到两个全连接层来进行回归以及分类任务从而得到预设的anchor box与实际的groundtruth box之间的变换参数，即平移(dx和dy)以及伸缩参数(dw和dh)，由此得到候选区域。预设的anchor box变换到groundtruth box需要做一系列的映射，具体主要为：首先得到平移变换参数(Δx，Δy)，之后计算在输入图像中目标框的具***置坐标；其次得到缩放参数(s_w，s_h)，之后计算在输入图像中目标框的实际大小。

针对SSD预测出相对于default box的每个box的位置偏移不稳定，可能会出现太大的值超出图片范围的情况，本发明采用归一化的思想对这些位置偏移值做一个sigmoid激活，将位置偏移值缩为0～1，b_x和b_y的值在(cell_x_loc,cell_x_loc+1)，(cell_y_loc,cell_y_loc+1)之间波动，形成改进的SSD网络模型，作为检测跟踪目标的检测器，预测候选框。

检测模块的工作步骤如下所示：

(1)将第t帧视频分别输入改进的YOLOv3和改进的SSD目标检测模型。

(2)对第t帧视频进行目标检测，获取目标候选框位置和类别信息。

(3)提取目标候选框对应位置的LBP、CN和HOG特征。

如图4所示，所述的跟踪模块的工作步骤如下所示：

(1)根据第t-1帧视频的目标跟踪位置信息，提取其对应的LBP、CN和HOG特征。

(2)将目标的特征看成是一个多维向量，将LBP、CN和HOG特征进行融合，形成融合特征，计算公式如下：

h_rh＝λ₁h_lbp+λ₂h_cn+λ₃h_hog

其中:λ₁表示LBP特征的融合系数,λ₂表示CN特征的融合系数,λ₃表示HOG特征的融合系数；h_lbg表示LBP的特征向量，h_cn表示CN的特征向量，h_hog表示HOG的特征向量，h_rh表示融合特征的特征向量。

(3)根据融合特征h_rh，训练出一个能计算一个小窗口采样响应的响应函数f(h)。

(4)将两个目标检测器的检测结果作为输入参数，对跟踪模块进行初始化。

(5)将提取出的第t帧视频的LBP、CN和HOG特征进行融合，将第t帧的融合特征作为响应函数f(h)的输入参数，计算出第t帧视频的目标候选框对应位置的响应值。

(6)选取最大响应值对应的目标候选框结合初始化输入的类别信息作为最初跟踪结果，输出第t帧视频的改进的YOLOv3和改进的SSD目标模型所对应的跟踪结果。

如图5所示，所述的优化模块的工作步骤如下所示：

(1)将跟踪模块输出的第t帧视频的改进的YOLOv3和改进的SSD对应的跟踪结果进行融合(即取并集)。

(2)利用存在冗余信息的合并边界框去进一步优化，修正目标边界框位置，输出融合修正的跟踪结果。本发明通过对改进的YOLOv3和改进的SSD对应的跟踪结果的目标边界框采用加权平均的思想减少合并边界框中的冗余信息。根据加权平均的思想提出的检测结果位置修正公式如下：

其中：i是目标类别；是改进的YOLOv3目标检测模型对应的跟踪结果；是改进的SSD目标检测模型对应的跟踪结果；loc_i是最终目标跟踪结果；是改进的YOLOv3预测候选框对应的最大响应值；是改进的SSD预测候选框对应的最大响应值。

如图6所示，所述的在线学习模块的工作步骤如下所示：

(1)将第t帧视频的融合修正的跟踪结果中的跟踪目标与上一帧视频的跟踪结果中的跟踪目标进行匹配对比。

(2)当第t帧视频的融合修正的跟踪结果中的跟踪目标与上一帧视频中的跟踪目标一致时，则说明跟踪成功，然后将第t帧视频的融合修正的跟踪结果去更新数据集，重新训练改进的YOLOv3和改进的SSD网络，进而更新目标检测器。

(3)当第t帧视频的融合修正的跟踪结果中的跟踪目标比上一帧视频中的跟踪目标少时，则说明出现跟踪目标消失或被遮挡。当连续50帧未检测到此目标，则说明跟踪目标消失，否则说明跟踪目标被遮挡。目标被遮挡时记录下被遮挡的上一帧视频目标特征生成的响应函数。用此响应函数计算被遮挡目标初次出现的响应值，得到最大响应值对应的候选框作为该目标的跟踪框。

(4)当第t帧视频的融合修正的跟踪结果中的跟踪目标比上一帧视频中的跟踪目标多时，则说明出现新的跟踪目标，然后将第t帧视频的融合修正的跟踪结果去更新数据集，重新训练改进的YOLOv3和改进的SSD网络，进而更新目标检测器。

本发明提出的一种基于在线学习的实时水面多运动目标检测跟踪方法，通过仿射变换或循环移位制作大量的样本用于训练，改进YOLOv3和SSD网络模型，来提高目标模型检测率，通过特征融合和跟踪框位置修正优化提高最终的跟踪结果，降低了漏检率和虚警率，使得目标跟踪效果很好。

本发明涉及水面多运动目标的在线检测跟踪方法，是一种基于在线学***均的思想对跟踪目标位置进行一步修正优化。在线学***均优化修正作为融合修正的跟踪结果；通过将融合修正的跟踪结果加入训练集进而更新训练改进的YOLOv3和改进的SSD网络模型。

Claims

1.一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，该方法包括以下步骤：

步骤3：用得到的检测结果初始化跟踪模块；

2.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤1所述的改进的YOLOv3为：在主网络Darkent-53之后增加2个卷积层，与YOLOv3原有的3个卷积层共同构建成含有5个不同尺度卷积层的特征金字塔，即：64×64，32×32，16×16，8×8和4×4分辨率；将每个以2倍步长对该特征金字塔执行上采样操作，与深度残差网络进行融合，每种尺度预测4种box，anchor的设计方式不变，仍然使用聚类，得到20个聚类中心，将其按照大小均分给5种尺度，形成改进的YOLOv3网络模型。

3.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤1所述的改进的SSD网络模型为：采用归一化的思想对这些位置偏移值做一个sigmoid激活，将位置偏移值缩为0～1，b_x和b_y的值在(cell_x_loc,cell_x_loc+1)，(cell_y_loc,cell_y_loc+1)之间波动，形成改进的SSD网络模型。

4.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤1所述的训练模块的工作步骤包括：

步骤1.1：对首帧视频框出待跟踪的目标以及分配相应的ID，在框选位置附近采样，以目标区域为正样本，背景为负样本，建立数据集；

步骤1.2：将上一步建立的数据集中的目标置于不同背景下,再利用仿射变换,对数据集中的正负样本进行旋转、平移、缩放和翻转来增加训练样本，利用对目标区域进行循环移位来增加训练样本，扩充数据集；

5.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤2所述的检测模块的工作步骤包括：

步骤2.1：将第t帧视频分别输入改进的YOLOv3和改进的SSD目标检测模型；

步骤2.2：对第t帧视频进行目标检测，获取目标候选框位置和类别信息；

步骤2.3：提取目标候选框对应位置的LBP、CN和HOG特征。

6.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤3所述的跟踪模块的工作步骤包括：

步骤3.1：根据第t-1帧视频的目标跟踪位置信息，提取其对应的LBP、CN和HOG特征；

7.根据权利要求6所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤3.2所述的融合特征h_rh按下式计算：

h_rh＝λ₁h_lbp+λ₂h_cn+λ₃h_hog

8.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤5所述的优化模块的工作步骤包括：

步骤5.2：利用存在冗余信息的合并边界框来优化，修正目标边界框位置，输出融合修正的跟踪结果。

9.根据权利要求8所述的一种基于在线学***均的思想减少合并边界框中的冗余信息；根据加权平均的思想提出的检测结果位置修正公式表示为下式：

10.根据权利要求1所述的一种基于在线学习的实时水面多运动目标检测跟踪方法，其特征在于，步骤6所述的在线学习模块工作步骤包括：

步骤6.3：当第t帧视频的融合修正的跟踪结果中的跟踪目标比上一帧视频中的跟踪目标少时，则说明出现跟踪目标消失、被遮挡；当连续50帧未检测到此目标，则说明跟踪目标消失，否则说明跟踪目标被遮挡；目标被遮挡时记录下被遮挡的上一帧视频目标特征生成的响应函数；用此响应函数计算被遮挡目标初次出现的响应值，找出最大响应值对应的候选框作为该目标的跟踪框；