CN114217303A

CN114217303A - 目标定位跟踪方法及装置、水下机器人和存储介质

Info

Publication number: CN114217303A
Application number: CN202111344268.3A
Authority: CN
Inventors: 何哲; 朱华; 张巍; 李胜全; 张爱东; 梅涛; 陆海博; 叶心宇; 贾庆勇
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-22
Anticipated expiration: 2041-11-12
Also published as: CN114217303B

Abstract

本发明公开了一种目标定位跟踪方法及装置、水下机器人和存储介质，所述目标定位跟踪方法包括以下步骤：获取当前时刻非合作目标的多模态信息；根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图；将所述实际位置概率图输入深度神经网络中，得到最优策略；将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹；控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标，解决对非合作目标的定位跟踪精度低导致非合作目标跟踪丢失的问题，提高对非合作目标的跟踪精度。

Description

目标定位跟踪方法及装置、水下机器人和存储介质

技术领域

本发明涉及水下机器人运动领域，尤其涉及一种目标定位跟踪方法及装置、水下机器人和存储介质。

背景技术

大范围海域下对非合作目标的监测跟踪在海洋生物观测、海防等领域具有重要应用价值，随着水下机器人(AUV)机动和感知能力的不断提升，水下机器人越来越多地承担了水下环境监测、军事侦察等任务，出于任务的隐秘性或者对海洋生物保护的考虑。相关技术中，通常由携带被动声纳的水下机器人获取非合作目标的方位信息。但是存在的弊端是：在大范围海域中，被动声纳只能获得非合作目标的纯方位信息，无法预知非合作目标的具体运动模式，导致非合作目标的定位跟踪精度降低，不利于对非合作目标的跟踪。

发明内容

本发明主要目的在于提供一种目标定位跟踪方法及装置、水下机器人和存储介质，旨在提高对非合作目标的跟踪精度。

为实现上述目的，本发明提供一种目标定位跟踪方法，在一实施例中，所述目标定位跟踪方法包括以下步骤：

获取当前时刻非合作目标的多模态信息；

根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图；

将所述实际位置概率图输入深度神经网络中，得到最优策略；

将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹；

控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标。

在一实施例中，所述根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图的步骤，包括：

对当前时刻获取的多模态信息进行栅格化以得到多个具有坐标信息的栅格；

采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率；

根据所述实际位置概率生成所述非合作目标在当前时刻对应的实际位置概率图。

在一实施例中，所述采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率的步骤，包括：

采用实际位置概率公式计算非合作目标的实际位置概率，其中，所述实际位置概率计算公式为：

其中，所述Z_grid为观测站追踪者与每个栅格的相对角度，P_grid为栅格坐标，P_trus为非合作目标的实际位置，P_auv为观测站追踪者的位置，

为观测站追踪者与非合作目标的相对测量角度，σ_sonar为测量噪声。

在一实施例中，所述将所述实际位置概率图输入深度神经网络中，得到最优策略的步骤包括：

将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图；

对所述似然直方图进行编码得到最优策略。

在一实施例中，所述将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图的步骤，包括：

采用似然值更新公式对当前时刻对应的实际位置概率图中每个栅格的似然值进行更新，所述似然值更新公式为：

根据更新后的所述每个栅格的似然值生成似然直方图：

其中，n表示非合作目标的数量。

在一实施例中，所述对所述似然直方图进行编码得到最优策略的步骤，包括：

对所述似然直方图进行归一化处理；

采用双线性插值法对归一化处理后的所述似然直方图的分辨率进行调整；

对分辨率调整后的所述似然直方图进行编码，以得到最优策略。

在一实施例中，所述深度强化学习网络为双延迟深度确定性策略梯度。

为实现上述目的，本发明还提供一种目标定位跟踪装置，所述目标定位跟踪装置包括：

信息获取模块，用于获取当前时刻非合作目标的多模态信息，所述多模态信息包括所述非合作目标的方位信息和/或机器人与所述非合作目标的距离信息；

生成模块，用于根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图；

第一输入模块，用于将所述实际位置概率图输入深度神经网络中，得到最优策略；

第二输入模块，用于将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹；

运动控制模块，用于控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标。

为实现上述目的，本发明还提供一种水下机器人，所述水下机器人包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的目标定位跟踪程序，所述目标定位跟踪程序被所述处理器执行时实现如上所述的目标定位跟踪方法的各个步骤。

为实现上述目的，本发明还提供一种存储介质，所述存储介质存储有目标定位跟踪程序，所述目标定位跟踪程序被处理器执行时实现如上所述的目标定位跟踪方法的各个步骤。

本发明提供的目标定位跟踪方法及装置、水下机器人和存储介质，至少具有以下技术效果：

由于采用了获取当前时刻非合作目标的多模态信息，根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图，将所述实际位置概率图输入深度神经网络中，得到最优策略；将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹，从而控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标，解决对非合作目标的定位跟踪精度低导致非合作目标跟踪丢失的问题，提高对非合作目标的跟踪精度。

附图说明

图1为本发明实施例涉及的水下机器人架构示意图；

图2为本发明目标定位跟踪方法的第一实施例的流程示意图；

图3为本发明目标定位跟踪方法的第二实施例的流程示意图；

图4为本发明目标定位跟踪方法的第三实施例的流程示意图；

图5为本发明目标定位跟踪方法的第四实施例的流程示意图；

图6为本发明目标定位跟踪方法的第五实施例的流程示意图；

图7为本发明目标定位跟踪装置的功能模块图；

图8为本发明双线性插值法进行分辨率调整的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的结构示意图。需要说明的是，图1为本发明实施例涉及的水下机器人架构示意图。

如图1所示，该水下机器人可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，水下机器人还可以包括摄像头、无线充电模块，传感器、无线传输模块等等。

其中，无线充电模块主要用于给摄像头模块等其他模块进行充电，保证这些模块长期自动工作；传感器比如光传感器、运动传感器、语音传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；无线传输模块主要采用5G、WiFi6等大容量的传输方式实现对高清视频流、图片等进行传输，以单点视频流4Mbps数据传输为例，5G、WiFi6传输速率理论上可以达到10Gbps，理论上可以承载2000路左右的数据接入，结合各个终端传输不同时性，大容量的传输可以满足数据传输需求；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1所示的水下机器人结构并不构成对水下机器人的限定，水下机器人可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及目标定位跟踪程序。其中，操作***是管理和控制水下机器人硬件和软件资源的程序，目标定位跟踪程序以及其它软件或程序的运行。

在图1所示的水下机器人中，用户接口1003主要用于连接终端，与终端进行数据通信；网络接口1004主要用于后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的目标定位跟踪程序。

在本实施例中，水下机器人包括：存储器1005、处理器1001及存储在所述存储器上并可在所述处理器上运行的目标定位跟踪程序，其中：

处理器1001可以用于调用存储在存储器1005中的目标定位跟踪程序，并执行以下操作：

获取当前时刻非合作目标的多模态信息；

对所述似然直方图进行编码得到最优策略。

采用似然值更新公式对当前时刻对应的实际位置概率图中每个栅格的似然值进行更新；

根据更新后的所述每个栅格的似然值生成似然直方图。

根据更新后的所述每个栅格的似然值生成似然直方图：

其中，n表示非合作目标的数量。

对所述似然直方图进行归一化处理；

由于本申请实施例提供的水下机器人，为实施本申请实施例的方法所采用的水下机器人，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该水下机器人的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的水下机器人都属于本申请所欲保护的范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

对于软件实现，可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

基于上述结构，提出本发明的实施例。

参照图2，图2为本发明目标定位跟踪方法的第一实施例的流程示意图，包括以下步骤：

步骤S110，获取当前时刻非合作目标的多模态信息。

在本实施例中，所述非合作目标是一种需要被探测的目标，所述非合作目标包括水下不明潜器、失效潜器、海洋动物以及由于石油泄漏、海底火山喷发导致的羽流等，在实际应用场景中，在每个海域中，至少存在一台水下机器人且每台水下机器人上搭载有被动声呐，用于采集当前水域存在的非合作目标的运动信息；其中，所述被动声呐也叫噪声声呐，它通过接受和处理水中非合作目标发出的辐射噪声或声呐信号，从而获取非合作目标方位信息，非合作目标在运动的过程中会产生振动信号，被动声呐通过接收该振动信号获取非合作目标的方位信息，水下机器人通过对方位信息的处理可逐步估计非合作目标的运动状态信息，以实现对非合作目标的定位与跟踪，当非合作目标从当前海域进入下一海域时，当前海域对应的水下机器人会将采集的非合作目标的数据发送至下一海域的水下机器人，以承接当前海域非合作目标的运动状态，进而预测非合作目标的运动状态与运动轨迹。例如：存在两个海域，分别是海域1和海域2，每个海域对应设置一台水下机器人，分别为机器人1号和机器人2号，用于探测非合作目标的方位信息，海域1的机器人1号利用自身的智能机动能力，自主规划定位与跟踪路径，不断降低对目标状态估计的不确定度以实现对非合作机动目标的准确定位与跟踪，当非合作目标从海域1进入海域2时，机器人2号通过与机器人1号信息共享获取非合作目标较准确的初始运动信息并承接机器人1号的跟踪工作，以实现大范围海域下对非合作目标的主动协作跟踪。

在本实施例中，因为非合作目标的多模态信息是实时发生变化的，因此需要实时采集多模态信息，所述多模态信息包括所述非合作目标的方位信息和/或机器人与所述非合作目标的距离信息。

步骤S120，根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图。

在本实施例中，在获取所述多模态信息之后，对所述多模态信息进行栅格化，将多模态信息处理为多个具有坐标信息的小栅格，根据所述坐标信息计算所述非合作目标在各个栅格中的为实际位置概率，根据所述实际位置概率生成对应的实际位置概率图，所述实际位置概率图也称为置信直方图且每一时刻的多模态信息对应计算生成一张实际位置概率图。

步骤S130，将所述实际位置概率图输入深度神经网络中，得到最优策略。

在本实施例中，将所述实际位置概率图输入深度神经网络中，在所述深度神经网络中，采用似然值表示非合作目标每个栅格为实际位置的概率，通过不断对实际位置概率图中每个栅格的似然值进行更新，得到更新后的似然直方图，通过对该似然直方图进行编码从而得到最优策略。

步骤S140，将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹。

在本实施例中，所述最优策略包括非合作目标在不同时刻的运动状态，将非合作目标在当前时刻的实际位置概率图输入深度强化学习网络中不断进行迭代训练实现自主规划定位轨迹，所述深度强化学习网络采用双延迟深度确定性策略梯度，首先会预先设定训练总回合数，将t时刻非合作目标的运动状态s_t，360°均匀划分得到水下机器人的航向角并添加高斯探索噪声作为选择动作a_t，t+1时刻非合作目标的运动状态s_t+1，在t时刻非合作目标的运动状态s_t根据动作a_t转换为t+1时刻非合作目标的运动状态s_t+1时，会获得环境的相应回报，这个回报称为价值反馈r_t，所述价值反馈函数

所述价值反馈函数与t+1时刻的置信图有关，以及是否结束该回合训练的标志位y_t，即(s_t,a_t,s_t+1,r_t)四个元素作为经验存入经验池中，同时从经验池中随机抽样，将样本输入双延迟深度确定性策略梯度，通过最小化行动网络和评价网络的损失函数迭代训练，所述采用以下公式最小化行动网络和评价网络的损失函数迭代训练：

然后更新行动网络和评价网络的参数φ，θ₁，θ₂得到策略；通过公式

θ'＝τθ+(1-τ)θ'

φ'＝τφ+(1-τ)φ'

更新目标网络参数φ，θ'₁，θ'₂'，并进行下一回合训练，直到完成预先设定的回合数，不断更新目标网络的参数以使获取的非合作目标的航向角更加准确。

步骤S150，控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标。

在本实施例中，所述运动轨迹中包括了非合作目标在不同时刻的运动状态，根据该运动轨迹可以估计非合作目标当前的运动状态，当下一个海域的水下机器人检测到非合作目标即将脱离当前海域进入下一个海域，当前海域的水下机器人会同时将采集到的非合作目标的运动状态信息或方位信息共享至下一个海域的水下机器人，在较准确初始值的基础上，承接对非合作目标的定位跟踪任务，达到在大范围海域内对非合作目标的串级协作定位跟踪。

第二实施例，参照图3，图3为本发明目标定位跟踪方法的第三实施例中步骤S120的细化流程示意图，本实施例包括：

步骤S121，对当前时刻获取的多模态信息进行栅格化以得到多个具有坐标信息的栅格。

在本实施例中，所述多模态信息通过将采集的非合作目标的运动图像分析得到的。所述运动图像相当于环境地图或者栅格地图，所述环境地图或栅格地图是指在空间和亮度上都已经离散化了的图像，把一幅栅格地图考虑为一个矩阵，矩阵中的任一元素对应于图像中的一个点，而相应的值对应于该点的灰度级，数字矩阵中的元素叫做像素，即每个栅格代表一个像素，通过将当前时刻获取的多模态信息进行栅格化从而得到多个具有坐标信息的小栅格。

步骤S122，采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率。

在本实施例中，根据栅格化后的每个栅格的坐标信息并结合实际位置概率公式计算非合作目标在每个栅格中的实际位置概率，其中，所述实际位置概率计算公式为：

步骤S123，根据所述实际位置概率生成所述非合作目标在当前时刻对应的实际位置概率图。

在本实施例中，所述实际位置概率图为置信直方图，在置信直方图中，每个目标真实位置的概率对应于一个置信度，所述置信直方图中还包括置信区间，置信区间是指由样本统计量所构造的总体参数的估计区间，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计，置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度，其给出的是被测量参数的测量值的可信程度，即前面所要求的一个实际位置的概率。

由于采用了对当前时刻获取的多模态信息进行栅格化以得到多个具有坐标信息的栅格，采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率，根据所述实际位置概率生成所述非合作目标在当前时刻对应的实际位置概率图的技术方案，实现对非合作目标真实位置的预测。

第三实施例，参照图4，图4为本发明目标定位跟踪方法的第一实施例中步骤S130的细化流程示意图，本实施例包括：

步骤S131，将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图。

在本实施例中，所述实际位置概率图即为栅格化后每个栅格为实际位置的概率直方图，对当前提取的所述运动图像进行栅格化以得到多个带有坐标信息的栅格，根据坐标信息计算所述非合作目标在各个栅格中的实际位置概率，根据所述实际位置概率生成所述实际位置概率图。将当前时刻对应的实际位置概率图与上一时刻对应的实际位置概率图进行卷积，实现对上一时刻对应的实际位置概率图中的每个栅格的似然值进行更新，得到用于可进行编码的似然直方图。

步骤S132，对所述似然直方图进行编码得到最优策略。

在本实施例中，所述对似然直方图进行编码是在满足一定保真度的要求下，对似然直方图数据进行变换、编码和压缩，去除多余数据以减少表示数字图像时需要的数据量，以便于图像的存储和传输，即以较少的数据量有损或无损地表示原来的像素矩阵的技术，通过这种技术得到最优策略。

由于采用了将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图；对所述似然直方图进行编码得到最优策略的技术方案，从而得到最优策略。

第四实施例，参照图5，图5为本发明目标定位跟踪方法的第三实施例中步骤S131的细化流程示意图，本实施例包括：

步骤S1311，采用似然值更新公式对当前时刻对应的实际位置概率图中每个栅格的似然值进行更新。

在本实施例中，所述似然值更新公式为：

其中，所述

包含t时刻提取的运动图像对应的置信直方图中的每个栅格对应的似然值，所述

包含t-1时刻提取的实际位置概率图中的每个栅格对应的似然值，通过将t时刻提取的实际位置概率图与t-1时刻提取的实际位置概率图进行卷积，实现对t时刻提取的实际位置概率图中的每个栅格的似然值进行更新。

步骤S1312，根据更新后的所述每个栅格的似然值生成似然直方图。

在一实施例中，在对t-1时刻提取的实际位置概率图中的每个栅格的似然值进行更新后，采用公式

对更新后的每个似然值进行处理，即可得到t时刻的似然直方图，其中，n表示非合作目标的数量，一般在进行更新之前，需要对似然值设置一个初始值，当获取到下一时刻的似然值时，再去计算新的似然值，然后在上一次的似然值基础上去更新，得到当前时刻的似然值，通过对当前时刻的似然值处理生成的似然直方图进行编码即可得到最优策略。

由于采用了似然值更新公式对当前时刻对应的实际位置概率图中每个栅格的似然值进行更新，根据更新后的所述每个栅格的似然值生成似然直方图的技术方案，通过将带有噪声栅格的真实位置的概率转换成水下机器人对栅格化环境中各栅格状态估计是目标真实值的似然值，避免了基于目标真实值的信息不足，运动状态不可观的问题。

第五实施例，参照图6，图6为本发明目标定位跟踪方法的第三实施例中步骤S132的细化流程示意图，本实施例的步骤S132包括：

步骤S1321，对所述似然直方图进行归一化处理。

在本实施例中，不同时刻的置信直方图进行叠加后最大似然值栅格的似然值可能超过阈值1，不利于对得到的似然直方图进行编码处理，因此，需要将似然直方图进行归一化处理，所述归一化是把需要处理的栅格的可能是真实位置的概率即似然值数据经过处理后限制在“1”范围内，归一化的目的是方便对似然值处理，其次是保证程序运行时收敛加快。

步骤S1322，采用双线性插值法对归一化处理后的所述似然直方图的分辨率进行调整。

在本实施例中，所述对似然直方图的分辨率进行调整是对似然直方图每个栅格的大小进行调整；所述双线性插值法是指将两个方向的线性插值加起来，例如，如图8所示，归一化处理后的似然直方图中存在栅格Q12，Q22，Q11，Q21，若要插值的栅格为P，P与Q12、Q22、Q11、Q21均不在同一水平线上，因此，首先在x轴方向上，对R1和R2两个点进行插值，然后根据R1和R2对P点进行插值，所述这个过程即为双线性插值的过程，通过这种方式实现对似然直方图的栅格即分辨率进行调整。

步骤S1323，对分辨率调整后的所述似然直方图进行编码，以得到最优策略。

在本实施例中，将分辨率调整后的似然直方图输入待图像分类的卷积神经网络中，对输入的似然直方图进行提取特征，将似然直方图从一个栅格的表示方式，转换成用特征来表示，然后在这个特征上面去构建分类器，主要通过配合添加全连接层对分类权重进行融合，以得到每一个样本标签，对应的输出概率，在训练的过程中，样本标签是已知的，根据这个输出概率和样本标签去建立损失函数后，进行训练，对融合后的似然直方图进行编码从而得到最优策略。

由于采用了对所述似然直方图进行归一化处理，采用双线性插值法对归一化处理后的所述似然直方图的分辨率进行调整，对分辨率调整后的所述似然直方图进行编码，以得到最优策略的技术方案，通过对归一化处理后的似然值直方图进行编码使得最终得到的最优策略更加准确。

基于同一发明构思，本发明还提供一种目标定位跟踪装置，如图7所示，图7为本发明目标定位跟踪装置的功能模块图，所述目标定位跟踪装置包括：信息获取模块10、生成模块20、第一输入模块30、第二输入模块40以及运动控制模块50，下面将对各个模块进行展开描述：

信息获取模块10，用于获取当前时刻非合作目标的多模态信息，所述多模态信息包括所述非合作目标的方位信息和/或机器人与所述非合作目标的距离信息。

生成模块20，用于根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图。具体地，所述生成模块20还用于对当前时刻获取的多模态信息进行栅格化以得到多个具有坐标信息的栅格；采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率；根据所述实际位置概率生成所述非合作目标在当前时刻对应的实际位置概率图。

第一输入模块30，用于将所述实际位置概率图输入深度神经网络中，得到最优策略。具体地，所述第一输入模块30还用于将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图；对所述似然直方图进行编码得到最优策略。具体地，所述第一输入模块30还用于对所述似然直方图进行归一化处理；采用双线性插值法对归一化处理后的所述似然直方图的分辨率进行调整；对分辨率调整后的所述似然直方图进行编码，以得到最优策略。

第二输入模块40，用于将所述最优策略输入深度强化学习网络中，得到所述非合作目标的运动轨迹。

运动控制模块50，用于控制所述机器人基于所述非合作目标的运动轨迹跟踪所述非合作目标。

基于同一发明构思，本申请实施例还提供了一种存储介质，所述存储介质存储有目标定位跟踪程序，所述目标定位跟踪程序被处理器执行时实现如上所述的目标定位跟踪方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

由于本申请实施例提供的存储介质，为实施本申请实施例的方法所采用的存储介质，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该存储介质的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标定位跟踪方法，其特征在于，所述方法包括：

获取当前时刻非合作目标的多模态信息；

2.如权利要求1所述的目标定位跟踪方法，其特征在于，所述根据所述多模态信息生成所述非合作目标在当前时刻对应的实际位置概率图的步骤，包括：

3.如权利要求2所述的目标定位跟踪方法，其特征在于，所述采用所述坐标信息计算所述非合作目标在各个栅格中的实际位置概率的步骤，包括：

4.如权利要求1所述的目标定位跟踪方法，其特征在于，所述将所述实际位置概率图输入深度神经网络中，得到最优策略的步骤包括：

对所述似然直方图进行编码得到最优策略。

5.如权利要求4所述的目标定位跟踪方法，其特征在于，所述将非合作目标在当前时刻对应的实际位置概率图与非合作目标在当前时刻的上一时刻对应的实际位置概率图进行卷积得到似然直方图的步骤，包括：

根据更新后的所述每个栅格的似然值生成似然直方图：

其中，n表示非合作目标的数量。

6.如权利要求4所述的目标定位跟踪方法，其特征在于，所述对所述似然直方图进行编码得到最优策略的步骤，包括：

对所述似然直方图进行归一化处理；

7.如权利要求1所述的目标定位跟踪方法，其特征在于，所述深度强化学习网络为双延迟深度确定性策略梯度。

8.一种目标定位跟踪装置，其特征在于，所述装置包括：

9.一种水下机器人，其特征在于，所述水下机器人包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的目标定位跟踪程序，所述目标定位跟踪程序被所述处理器执行时实现如权利要求1-7任一项所述的目标定位跟踪方法的各个步骤。

10.一种存储介质，其特征在于，所述存储介质存储有目标定位跟踪程序，所述目标定位跟踪程序被处理器执行时实现如权利要求1-7任一项所述的目标定位跟踪方法的各个步骤。