CN113313116A

CN113313116A - 一种基于视觉的水下人工目标准确检测与定位方法

Info

Publication number: CN113313116A
Application number: CN202110682252.7A
Authority: CN
Inventors: 李乐; 李艳丽; 张文博; 刘卫东; 高立娥
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-06-20
Filing date: 2021-06-20
Publication date: 2021-08-27
Anticipated expiration: 2041-06-20
Also published as: CN113313116B

Abstract

本发明涉及一种基于视觉的水下人工目标准确检测与定位方法，重点是检测水下目标并计算目标的位置和方位，设计了一种人工水下合作目标。首先对水下目标采用基于深度学习的目标检测算法进行粗检测，然后加入传统的基于形状和颜色的目标检测方法，进行准确的人工水下合作目标检测。再根据水下目标的检测结果和目标特征点的几何信息计算出目标相对于摄像机的位置和姿态，实现对水下目标的检测定位。本发明将基于颜色和形状的传统目标检测方法与基于深度学习的目标检测方法进行融合，实现了对水下目标的准确且快速的检测。本发明设计了人工水下合作目标，并根据所设计目标特征点的几何信息，实现对其的实时定位，计算出目标的位置信息和角度信息。

Description

一种基于视觉的水下人工目标准确检测与定位方法

技术领域

本发明属于水下目标检测定位领域，特别涉及一种基于视觉的水下人工目标准确检测与定位方法。

背景技术

随着世界各国开展水下作业任务的增加，对水下信息的采集工作成为水下作业的重要前提之一。由于信息水下采集设备需要进行定期维护及数据回收，且水下环境复杂，对水下信息采集设备的回收是一件具有挑战性的任务。ROV(Remote Operated Vehicle，远程无人潜水器)的技术进步使其更容易执行水下作业任务。而对不同水下环境下的目标检测和目标定位是利用ROV进行水下信息采集设备检测回收的关键技术之一。CN202110051819.0中采用深度学习算法对水下声纳目标图像进行检测，但是由于声纳缺乏对目标信息的直观显示，对声纳图像的目标检测存在一定误差。而随着水下视觉摄像机的应用，光视觉图像丰富的信息提取为水下研究提供了一种有效的方法。

由于水下环境的复杂性以及光在水中传播过程的衰减和散射现象，往往导致捕获的水下图像存在颜色失真、对比度低、边缘模糊等问题，使得水下目标检测成为一个具有挑战性的研究领域。根据所采用目标检测方法的不同，水下目标检测可以分为两类，传统方法和深度学习方法。传统的水下目标检测方法包括图像特征匹配识别、通用图像分割以及基于颜色和形状的检测与识别。各国学者对水下目标的传统方法进行了研究，大多采用水下人工目标进行方法水下试验验证。虽然这些方法处理时间很快，但对于动态环境仍然不理想，而且不够精确。与传统的目标检测方法相比，基于深度学习的目标检测算法速度更快，在目标部分遮挡的情况下具有更好的鲁棒性。因此，它逐渐成为目标检测的主流方法。目前，基于深度学习的算法可以分为单阶段的端到端算法和两阶段的区域提议算法。然而这些基于深度学习的检测方法只能得到目标的矩形边界框，并不是目标的精确边界信息，不能用于精确的位置估计和角度计算。

目标定位是ROV进行水下信息采集设备回收作业的另一个重要研究内容。在这些操作中，大多采用协同目标或人工目标来提高定位效率。常用的水下人工物体通常具有规则的形状和特定的明亮色彩，如水下特殊的水下图案、主动激光模块、3D标记器等。常用的定位方法有基于几何的方法、基于曲率的方法和基于PnP的方法。

发明内容

本发明解决的技术问题是：为了解决现有技术存在的不足，为准确回收水下信息采集设备进而提高水下作业效率，目标检测和定位的准确性和速度是关键因素。同时，获得目标位置信息和姿态信息，有利于水下作业。本发明的重点是为水下信息采集设备设计人工水下目标，对水下目标进行准确的检测，并计算出目标的位置和方位以便进行水下信息采集设备回收。

本发明的技术方案是：一种基于视觉的水下人工目标检测与定位方法，包括以下步骤：

步骤1：定义人工水下合作目标的目标特征点的个数为n(n≥4)，且n个目标特征点组成的图案需为不对称；对目标进行水下数据采集和数据预处理，以进行后续训练；

步骤2：对水下目标进行检测，包括粗检测和细检测两部分，具体包括以下子步骤：

步骤2.1：首先将采集的水下目标图像进行训练，对水下目标通过基于深度学习的目标检测方法进行粗检测，通过输出目标特征点的包围框(u_i,v_i,w_i,h_i)来检测目标特征点，其中u_i,v_i分别表示第i个特征点包围框的左上角坐标，w_i,h_i第i个特征点包围框的宽和高。

步骤2.2：将粗检测得到的各个特征点的包围框向四面分别扩展像素后进行裁剪，；经过灰度化处理后，对裁剪后的目标图像进行自适应二值化，然后对二值化结果进行形态学运算和圆形边缘检测；通过对边缘轮廓进行区域选择和圆度筛选，得到各目标特征点的中心在图像中的准确像素坐标；

步骤3：通过步骤2的目标检测，得到各个水下目标特征点的在图像中的像素坐标，根据特征点之间的几何关系，对水下目标进行定位，包括以下子步骤：

步骤3.1：得到各个特征点的二维像素坐标后，首先要根据特征点之间的几何关系信息，对得到的特征点中心的像素坐标进行排序，使各特征点能与其坐标一一对应；

步骤3.2：已知特征点的二维像素坐标P{P_i(U_i,V_i)和特征点在目标坐标系下的三维坐标(X_Ti,Y_Ti,Z_Ti)；特征点在摄像头坐标系下的坐标为(X_Ci,Y_Ci,Z_Ci)，而目标在摄像头下的位置和姿态分别用偏移矩阵T和旋转矩阵R表示，则有

式中，R_C为相机内参；

由于在单目摄像头下的Z_Ci未知，要想求得T和R，需先利用图5所示的针孔成像模型，计算特征点在摄像头坐标系下的坐标；

定义O为相机原点，OA,OB,OC用于计算特征点的相机坐标。A,B,C,D为空间特征点，a,b,c,d为特征图像点。则根据几何关系，有余弦方程如下:

令

则有：

再令

得到关于x和y的二元二次方程如下：

AB,AC,BC可通过特征点在目标坐标系下的坐标计算得到，因此可以计算出v,w；a,b,c为目标检测算法检测到的图像坐标，可因此求出cos＜a,b＞,cos＜a,c＞,cos＜b,c＞；通过求解上述二元二次方程得到OA,OB,OC，进而计算出摄像机坐标A,B,C；由于该方程有四组解，需要用点D分别计算重投影误差，用误差最小的一组解计算真实位姿，得到水下目标的位置和三个姿态角。

本发明进一步的技术方案是：所述步骤1中，对所采集的水下目标数据进行预处理时，先对数据进行了添加噪声、图像旋转、图像翻转操作，实现了数据增广。

本发明进一步的技术方案是：所述步骤1中的水下摄像头采用型号为晟优高清网络水下摄像头SW01。

本发明进一步的技术方案是：所述步骤2中，在进行传统的目标检测方法时，首先将检测到的目标特征点的边界框向四边分别扩展20个像素后进行裁剪，减少传统方法的检测范围，提高检测速度。

本发明进一步的技术方案是：在进行水下目标定位实验时，需要首先在水下对摄像头进行重新标定，得到摄像头在水下的内部参数R_C。

发明效果

本发明的技术效果在于：

(1)将基于颜色和形状的传统目标检测方法与基于深度学习的目标检测方法进行融合，实现了对水下目标的准确且快速的检测。

(2)设计了人工水下合作目标，并根据所设计目标特征点的几何信息，实现对其的实时定位，计算出目标的位置信息和角度信息(偏航角、俯仰角和横滚角)。

附图说明

图1为本发明提出的算法流程示意图

图2为本发明提出的人工水下合作目标图示

图3为本发明所用的水下摄像头图示

图4为本发明提出的人工水下目标检测算法流程示意图

图5为针孔成像模型

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见图1-图5，本发明的技术方案为：

一种基于视觉的水下人工目标检测与定位方法，包括以下步骤：

步骤1：根据应用所需，设计如图2所示的人工水下合作目标，目标特征点的个数为n(n≥4)，且n个目标特征点组成的图案需为不对称的，以便进行对计算得到的姿态角度进行正负值判断。对目标进行水下数据采集和数据预处理，以进行后续训练。所采用的水下摄像头如图3所示，所用型号为晟优高清网络水下摄像头SW01。

步骤2：对水下目标进行检测，包括粗检测和细检测两部分。首先采用基于深度学习的目标检测算法对水下目标特征点进行粗检测，得到所有特征点在图像中的二维包围框，然后结合传统目标检测方法对粗检测得到的特征点包围框进行细检测，得到各目标特征点的中心在图像中的像素坐标。

步骤2.1：首先将采集的水下目标图像进行训练，对水下目标通过基于深度学习的目标检测方法进行粗检测，检测过程类似Yolov5的过程，通过输出目标特征点的包围框(u_i,v_i,w_i,h_i)来检测目标特征点，其中u_i,v_i分别表示第i个特征点包围框的左上角坐标，w_i,h_i第i个特征点包围框的宽和高。

步骤2.2：为了提高后续的定位精度，采用传统检测方法对深度学习得到的检测结果进行细检测操作。先将粗检测得到的各个特征点的包围框向四面分别扩展20个像素后进行裁剪，以避免边界框没有完全包围特征点的情况；经过灰度化处理后，对裁剪后的目标图像进行自适应二值化，然后对二值化结果进行形态学运算和圆形边缘检测；通过对边缘轮廓进行区域选择和圆度筛选，得到各目标特征点的中心在图像中的准确像素坐标。

步骤3：通过步骤2的目标检测，得到各个水下目标特征点的在图像中的像素坐标，根据特征点之间的几何关系，对水下目标进行定位。

步骤3.1：得到各个特征点的二维像素坐标后，首先要根据特征点之间的几何关系信息，对得到的特征点中心的像素坐标进行排序，使各特征点能与其坐标一一对应。

步骤3.2：已知5个特征点的二维像素坐标P{P_i(U_i,V_i)和特征点在目标坐标系下的三维坐标(X_Ti,Y_Ti,Z_Ti)。特征点在摄像头坐标系下的坐标为(X_Ci,Y_Ci,Z_Ci)，而目标在摄像头下的位置和姿态分别用偏移矩阵T和旋转矩阵R表示，则有

式中，R_C为相机内参。

由于在单目摄像头下的Z_Ci未知，要想求得T和R，需先利用图5所示的针孔成像模型，计算特征点在摄像头坐标系下的坐标。

图5中，O为相机原点，OA,OB,OC用于计算特征点的相机坐标。A,B,C,D为空间特征点，a,b,c,d为特征图像点。则根据几何关系，有余弦方程如下:

令

则有：

再令

得到关于x和y的二元二次方程如下：

AB,AC,BC可通过特征点在目标坐标系下的坐标计算得到，因此可以计算出v,w。a,b,c为目标检测算法检测到的图像坐标，可因此求出cos＜a,b＞,cos＜a,c＞,cos＜b,c＞。因此，可以通过求解上述二元二次方程得到OA,OB,OC，进而计算出摄像机坐标A,B,C。由于该方程有四组解，需要用点D分别计算重投影误差，用误差最小的一组解计算真实位姿，得到水下目标的位置和三个姿态角。

所述步骤1中，对所采集的水下目标数据进行预处理时，先对数据进行了添加噪声、图像旋转、图像翻转等操作，实现了数据增广。

所述步骤2中，在进行传统的目标检测方法时，首先将检测到的目标特征点的边界框向四边分别扩展20个像素后进行裁剪，减少传统方法的检测范围，提高检测速度。

所述步骤3中，在进行水下目标定位实验时，需要首先在水下对摄像头进行重新标定，得到摄像头在水下的内部参数R_C。

本发明旨在提高水下目标检测和定位的准确性和速度，提高水下作业效率，其流程图如图1所示。结合图2-图5，本发明具体实施方式如下：

步骤1：根据应用所需，设计如图2所示的人工水下合作目标，并对目标进行水下数据采集和数据预处理，以进行后续训练。所采用的水下摄像头如图3所示，所用型号为晟优高清网络水下摄像头SW01。

步骤2.1：首先将采集的水下目标图像进行训练，对水下目标通过基于深度学习的目标检测方法进行粗检测，检测过程类似Yolov5的过程，通过输出目标特征点的包围框(u_i,v_i,w_i,h_i)来检测目标特征点，如图2所示，其中u_i,v_i分别表示第i个特征点包围框的左上角坐标，w_i,h_i第i个特征点包围框的宽和高。

用于训练的水下目标数据集实在水箱中拍摄得到，数据集中的图像大小为1920x1080像素。本发明是实验中，用一金属箱代替水下信息采集设备，并在金属箱的正上面粘贴所设计的人工水下目标，水下目标的各特征点均位于同一平面，所用材料为蓝色防水贴纸。由于所设计的水下人工目标检测类别较少，仅采集420幅水下目标图像进行训练。

分别对同样的水下目标图像进行了传统方法的目标检测、基于深度学习的目标检测和本发明的目标检测方法，将检测结果进行对比。在相同的水下场景下，传统的检测结果受光照条件的影响很大。在这种情况下，可能会出现误检或目标缺失的情况。虽然深度学习方法比传统方法更稳定、更快，但检测结果不如传统方法准确。本发明的检测算法不仅具有环境鲁棒性和检测精度，而且没有增加检测时间成本，更有利于水下作业。

以本发明中人工水下合作目标的5个特征点为例，检测得到的5个特征点中心的像素坐标组合为p{p_i(u_i,v_i),(i＝1,2,…,5)}，排序后得到的5个特征点坐标依次为P{P_i(U_i,V_i),(i＝A,B,…,E)}，具体排序过程如下：

(1)从5个中心点p_i中任选3个点组合，共得到10个组合。在这些在组合中，三个点存在共线关系的一个组合记作lisl，则组合lisl包含的为{P_C,P_D,P_E}；

(2)从5个中心点p_i中任选2个点组合，共得到10个组合。在这些在组合中，距离最长的两个点的组合记作lisd，则组合lisd包含的为{P_A,P_E}；

(3)位于组合p但不在组合lisl和组合lisd的点即为P_B；

(4)组合lisl与组合lisd的公共点即为P_E，组合lisd中的另一点为P_A；

(5)组合lisl中除去P_E后的集合记为lisCD，包含点{P_C,P_D}；

(6)组合lisCD中与点P_E距离更近的点为P_C，而距离更远的点为P_D，因此得到排序后得到的5个特征点坐标依次为P{P_i(U_i,V_i),(i＝A,B,…,E)}。

步骤3.2：已知5个特征点的二维像素坐标P{P_i(U_i,V_i),(i＝A,B,…,E)}和特征点在目标坐标系下的三维坐标(X_Ti,Y_Ti,Z_Ti),(i＝A,B,…,E)。特征点在摄像头坐标系下的坐标为(X_Ci,Y_Ci,Z_Ci),(i＝A,B,…,E)，而目标在摄像头下的位置和姿态分别用偏移矩阵T和旋转矩阵R表示，则有

式中，R_C为相机内参。

令

则有：

再令

得到关于x和y的二元二次方程如下：