CN110824467B

CN110824467B - 一种多目标跟踪数据关联方法及***

Info

Publication number: CN110824467B
Application number: CN201911117130.2A
Authority: CN
Inventors: 张艳; 曲承志; 苏东; 杨雪榕; 张鑫
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-11-19
Anticipated expiration: 2039-11-15
Also published as: CN110824467A

Abstract

本发明公开一种多目标跟踪数据关联方法及***，该方法包括根据多目标跟踪数据关联特性将目标量测点已知起始时间段航迹看作强化学习训练过程，在一步已知量测点周围生成随机杂波，杂波点与已知量测点均被看作雷达采集量测点；根据跟踪门在量测点中筛选出候选量测点、目标运动特性利用运动匹配和强化学习对所有候选量测点按照匹配度及位置分布规律进行数据关联，由一步已知量测点检验关联结果训练强化学习模型的经验矩阵；根据训练的经验矩阵，结合运动匹配对目标进入杂波区航迹点进行数据关联，由关联结果继续对经验矩阵优化，直到完成航迹关联。解决现有技术中正确关联率较低及计算复杂度较高等问题，提高正确关联率并降低计算复杂度。

Description

一种多目标跟踪数据关联方法及***

技术领域

本发明涉及多目标跟踪技术领域，具体是一种多目标跟踪数据关联方法及***。适用于多杂波环境下多目标跟踪数据关联。

背景技术

多目标跟踪的基本概念是由Wax在1955年首先提出的。1964年，Sutler对多目标跟踪理论以及数据关联问题进行了深入地研究，并取得了开创性的进展，然而直到70年代初期，机动目标跟踪理论才真正引起人们的注意。在这一期间，Bar-shalom和Singer开创的以数据关联技术和卡尔曼(kalman)滤波技术有机结合为标志的多目标跟踪技术取得了突破性进展。但密集杂波环境下的目标跟踪数据关联一直是多目标跟踪领域的一个难题，雷达捕捉到的信号除了真实量测外还包括杂波引起的虚假量测，难以实现对目标的准确关联。

在多杂波环境下多目标跟踪数据关联的研究，现有的最近邻数据关联法(NN)是解决数据关联最简单的方法，但最近邻法在杂波环境下的正确关联率较低；联合概率数据关联方法(JPDA)根据假设将所有的目标和量测组合为联合事件计算关联概率，能够很好地解决杂波环境下多目标量测关联问题，但JPDA方法计算复杂度较大，并且随着目标数和杂波数的增长，其关联概率的计算会出现组合***的情况。

发明内容

本发明提供一种多目标跟踪数据关联方法及***，用于克服现有技术中正确关联率较低或计算复杂度较大等缺陷，实现提高正确关联率并降低计算复杂度。

为实现上述目的，本发明提供一种多目标跟踪数据关联方法，包括：

结合目标上一时刻状态及运动属性构建用于预测当前时刻目标位置的强化学习数据关联模型；

在目标当前时刻已知量测点周围模拟随机杂波点并根据设定的波门获得门内候选量测点及量测点位置分布；

根据候选量测点分布在关联模型的经验矩阵中选择权值，根据该权值对候选量测点与目标的状态匹配度的波动影响及候选量测点与目标的运动匹配度获得每个候选量测点的关联概率；

根据当前时刻目标一步已知量测点获得当前时刻目标的实际状态一步估计值并进行点迹-航迹关联；

根据关联概率和候选量测获得当前时刻目标的模拟状态一步估计值，以模拟状态一步估计值与实际状态一步估计值之间的欧式距离为损失对经验矩阵进行训练，重复上述训练和关联过程，直到起始时间段所有已知量测点均完成关联和训练，获得训练模型；

将目标进入杂波区后雷达采集数据点作为量测点，根据设定的波门获得门内候选待测量测点及量测点位置分布，结合所述训练模型获得目标的一步状态估计值，并以此进行关联；计算目标下一时刻的一步状态预测值，以上一时刻目标的一步状态预测值的一步观测预测值与当前时刻目标的一步状态估计值的一步观测预测值之间的马氏距离为损失以对训练模型的经验矩阵进行优化，重复关联和优化直到完成航迹关联。

为实现上述目的，本发明还提供一种多目标跟踪数据关联方法，包括处理器和存储器，所述存储器存有多目标跟踪数据关联程序，所述处理器在运行所述多目标跟踪数据关联程序时执行上述方法的步骤。

本发明提供的多目标跟踪数据关联方法及***，提出基于强化学习模型和运动匹配的多目标跟踪数据关联算法，跟据多目标跟踪数据关联特性，将目标量测已知的起始时间段航迹关联看作强化学习训练过程，将后续目标进入杂波区的航迹关联看作强化学习关联过程，不需要建立每个目标与每个量测的关联事件，使得该算法能够在杂波密集环境下保持较快的计算速度，同时避免了组合***问题；本发明方法利用强化学习结合运动匹配的方式计算目标与量测的关联概率，计算时同时考虑到目标的运动及状态特性和门内量测的分布规律，有效提高了多目标跟踪数据关联准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例一提供的基于强化学习和运动匹配的雷达多目标跟踪数据关联算法的流程图。

图2为杂波较少时两目标真实航迹与杂波区示意图。

图3为杂波较少时两目标真实航迹与估计航迹对比仿真示意图。

图4为杂波较多时两目标真实航迹与杂波区示意图。

图5为杂波较多时两目标真实航迹与估计航迹对比仿真示意图。

图6为杂波密集时两目标真实航迹与杂波区示意图。

图7为杂波密集时两目标真实航迹与估计航迹对比仿真示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例一

如附图1-7所示，本发明实施例提供一种多目标跟踪数据关联方法，该方案不仅适用于单目标跟踪过程中的数据关联，也适用于两个及两个以上目标跟踪过程中的数据关联，请参见图1，具体包括：

步骤S1，结合目标上一时刻状态及运动属性构建用于预测当前时刻目标位置的强化学习数据关联模型；

这里的当前时刻在训练过程中已知的是雷达对目标在一个确定时间段的真实量测点数据(不包含杂波量测数据)以及目标在该确定时间段的真实轨迹点数据，在关联过程已知的是雷达对目标在上述确定时间段之后的量测点数据(包含杂波点数据和真实数据)，通过构建模型，模拟强化学习真实数据之间的关联特性以对杂波区数据即杂波点进行识别(识别出真实数据)并估测出杂波区目标航迹；

步骤S2，在目标当前时刻已知量测点周围模拟随机杂波点并根据设定的波门获得门内候选量测点及门内候选量测点位置分布；

根据随机杂波点与通过强化学习数据关联模型获得的目标t前一时刻k-1一步预测点的马氏距离以及设定的波门确定门内候选量测点及分布；确定杂波点的范围以保障计算速度；

步骤S3，根据候选量测点分布在关联模型的经验矩阵中选择权值，根据该权值对候选量测点与目标的状态匹配度的波动影响及候选量测点与目标的运动匹配度获得每个候选量测点的关联概率；

门内候选量测点自身的位置分布与目标上一时刻的运动属性(位置、速度方向及大小等)相关，据此对经验矩阵中与运动匹配的参数选择最佳动作进行动作权重匹配，并计算关联概率，关联概率表示目标下一时刻移动到该杂波点所对应的航迹点位置的概率，每一门内候选量测点均匹配权重并计算关联概率。

步骤S4，根据当前时刻目标一步已知量测点获得当前时刻目标的实际状态一步估计值并进行点迹-航迹关联；

例如：对第k时刻一步已知量测值Z^t(k|k)进行卡尔曼滤波，获得实际状态一步估计值

并对第k时刻目标实际状态一步估计值

进行点迹-航迹关联；第k+1时刻再根据一步已知量测值Z^t(k+1|k+1)进行卡尔曼滤波，获得实际状态一步估计值

并对第k+1时刻目标实际状态一步估计值

进行点迹-航迹关联；不断重复前面的过程，对得到的训练过程状态一步估计值进行点迹-航迹关联；

步骤S5，根据关联概率和候选量测点获得当前时刻目标的模拟状态一步估计值，以模拟状态一步估计值与实际状态一步估计值之间的欧式距离为损失对经验矩阵进行训练；

计算当前时刻k目标t的卡尔曼增益K^t(k)和状态协方差一步估计值P^t(k|k)并据此计算k时刻目标t的模拟状态一步估计值X^t(k|k)；即对当前时刻所有门内候选量测点结合关联概率经过计算获得目标的模拟状态一步估计值；将当前时刻目标的模拟状态一步估计值带入强化学习数据关联模型的优化模块，获得经验矩阵；

步骤S6，以步骤S4获得的实际状态一步估计值与步骤S5获得的模拟状态一步估计值之间的欧式距离为损失对经验矩阵进行训练，重复上述步骤S2～S5，直到起始时间段所有已知量测点均完成关联和训练，获得训练模型；

例如：将第k时刻目标实际状态一步估计值

与模拟状态一步估计值X^t(k|k)之间的欧式距离作为损失对经验矩阵进行训练，完成第k轮训练；重复步骤S2～S6，获得第k+1时刻目标的模拟状态一步估计值X^t(k+1|k+1)，将其与第k+1时刻目标实际状态一步估计值

之间的欧式距离作为损失对上一轮训练的经验矩阵再次进行训练，完成第k+1轮训练；循环上述过程，直到已知起始时间段最后时刻的航迹点作为已知量测点关联和训练完毕，获得训练模型；

步骤S7，将目标进入杂波区后雷达采集数据点作为量测点，根据设定的波门获得门内候选待测量测点及分布，结合所述训练模型及运动匹配获得目标的状态一步估计值，并以此进行关联；计算目标一步状态预测值与一步状态估计值的一步观测预测值之间的马氏距离，将其作为损失对训练模型的经验矩阵进行优化，重复关联和优化直到完成航迹关联。这里的运动匹配指的是关联概率计算过程中的运动匹配度。

将目标进入杂波区量测点作为杂波点重新执行步骤S2获得门内候选待测量测点及分布，执行步骤S3、S5，获得当前时刻目标的一步状态估计值，将当前时刻目标一步状态估计值输入训练模型的经验矩阵优化模块获得经验矩阵，并将当前时刻目标状态一步估计值进行点迹-航迹关联获得目标下一时刻的一步状态预测值；并以目标的一步状态预测值的一步观测预测值与一步状态估计值的一步观测预测值之间的马氏距离为损失对训练模型的经验矩阵进行优化，循环关联和优化过程，直到完成航迹关联。

首先确定多目标跟踪数据关联初始条件，跟据多目标跟踪数据关联特性，将目标量测已知的起始时间段航迹关联看作强化学习训练过程，将后续目标进入杂波区的航迹关联看作强化学习关联过程；训练过程中，在已知目标量测点附近生成随机杂波，利用运动匹配结合强化学习进行数据关联，并根据已知目标量测值检验关联结果，以训练强化学习经验矩阵；关联过程中，根据已训练的强化学习经验矩阵，结合运动匹配进行数据关联，并根据关联结果继续对经验矩阵优化，直到完成航迹关联。本发明利用运动匹配结合强化学习的方式进行数据关联，在保证计算速度的基础上，能够获得准确的关联结果。

具体地：目标进入杂波区后，获取当前时刻目标t量测点；并计算每个量测点与目标t通过训练数据关联模型计算的一步预测点的马氏距离以及设定的波门确定门内候选量测点及分布；在k时刻根据目标t门内候选量测点的分布，对目标t的所有候选量测点在强化学习数据关联模型的经验矩阵Q-table中选择最佳动作进行动作匹配，并计算关联概率；根据目标t的一步状态预测值

和一步状态协方差预测值

计算卡尔曼增益K^t(k)和状态协方差一步估计值P^t(k|k)并据此计算目标t的一步状态估计值X^t(k|k)；计算目标t的一步状态预测值

的一步观测预测值

和一步状态估计值X^t(k|k)的一步观测预测值

将

和

之间的马氏距离看作代价f^t(k)计算强化学习奖励因子r^t(k)，根据强化学习奖励因子对Q-table进行优化，直到完成航迹关联。

跟据多目标跟踪数据关联特性，将目标量测已知的起始时间段航迹关联看作强化学习训练过程即获得训练模型之前的训练过程；将后续目标进入杂波区的航迹关联看作强化学习关联过程即获得训练模型之后的优化过程。这里的目标量测指的是：雷达传感器获得的实际测量数据，这些数据是经过去躁后获得的并能通过对这些数据的计算获得目标在一定时间段的航迹。

优选地，构建强化学习数据关联模型的步骤S1包括：

步骤S11：确定多目标跟踪数据关联的初始条件；

确定起始时间段已知目标量测值Z^t(k|k),k＝1,...,K_train和杂波区量测值Z(k)，确定k时刻目标t的状态转移矩阵F^t(k)、观测矩阵H^t(k)、过程噪声协方差矩阵Q^t(k)和观测噪声协方差矩阵R^t(k)，计算k时刻目标t的一步状态预测值

一步观测预测值

一步状态协方差预测值

和新息协方差矩阵S^t(k)；k时刻目标t的一步状态预测值

为目标t由k-1时刻预测k时刻状态(位置、速度、加速度等)的一步预测值，一步观测预测值

为雷达获取目标t的k时刻位置的一步预测值，一步预测状态协方差矩阵

为目标t的k时刻状态间协方差的一步预测值，S^t(k)为目标t的k时刻新息的协方差矩阵；

所述的k时刻目标t的一步状态预测值

一步观测预测值

一步状态协方差预测值

和新息协方差矩阵S^t(k)，其各自的计算表达式为：

其中，F^t(k)表示k时刻目标t的状态转移矩阵，H^t(k)表示k时刻目标t的观测矩阵，Q^t(k)表示k时刻目标t的过程噪声协方差矩阵，R^t(k)表示k时刻目标t的观测噪声协方差矩阵。

步骤S12：设定强化学习折扣因子λ和学习效率γ，建立强化学习模型的经验矩阵Q-table，状态s为量测的分布，动作a为经验矩阵的权值选择，Q-table初始化为0矩阵。

优选地，所述S2中生成随机杂波的步骤包括：

训练过程需在k时刻目标t一步已知量测值Z^t(k|k),k＝1,...,K_train周围生成杂波Z_flase,i(k)：

Z_flase,i(k)＝Z^t(k|k)+l-2l·rand_0,1 (1)；

其中，l为椭圆波门等效正方形边长，i＝1,2,...,num_flase为杂波数量，rand_0,1为0到1间的随机数，K_train为训练过程上限，t＝1,2,...,T为目标个数。

优选地，所述S2获得门内候选量测点及其位置分布的步骤包括：

根据每个量测点与前一时刻目标一步预测点的马氏距离及波门确定门内候选量测点及分布；将量测代入波门检测模块，获得门内候选量测及其位置分布；

确定量测值Z(k)：

波门检测模块用于计算k时刻每个量测Z(k)与目标t一步预测量测值

的马氏距离g^t(k)，若其马氏距离小于波门门限，则说明该量测点位于波门内，保留为目标t的候选量测，记为

马氏距离g^t(k)：

若g^t(k)满足下式条件则保留为目标t的候选量测：

g^t(k)≤ζ (4)；

其中ζ为波门门限。

考虑目标t波门内所有候选量测均非目标真实量测这一可能事件，为目标t在一步预测量测值

周围随机生成回波并加入候选量测

所对应的关联概率被看作门内量测均为杂波的概率。以目标t一步预测量测值

为原点建立二维直角坐标系将波门划分为4个区域，以ζ/2为限将波门划分为中心区域和边缘区域两部分，使波门一共被划分为8个区域，根据每个目标候选量测与一步预测量测值的位置关系，计算其在波门内的分布情况。

优选地，所述计算目标t每个候选量测点与目标的关联概率

的步骤S3包括：

步骤S31，根据候选量测点分布在关联模型的经验矩阵中选择权值；具体为：

根据各目标门内候选量测的分布，在Q-table对应状态中选择最佳动作best_action：

best_action＝max[Q(current s,all actions)] (6)；

其中，current s为当前状态，每个状态对应量测在波门中的位置分布；allactions为全部动作，每个动作代表权值选择：

其中，Δ为缩放因子；

步骤S32，通过计算每个候选量测点与目标的一步观测预测值的欧氏距离，获得每个候选量测点与目标的状态匹配度；这里的状态反应了候选量测点作为雷达真实量测数据时与目标实际轨迹点的位置的匹配程度，具体地：

计算k时刻目标t的所有候选量测值与一步观测预测值

的欧氏距离

步骤S33，通过将选择的权值与上述欧式距离作代数运算获得权值对状态匹配度的波动影响；这里选择作乘积运算，具体为：

步骤S34，通过计算每个候选量测点与目标的三步观测预测值的欧氏距离，获得每个候选量测点与目标的运动匹配度；用从k-3时刻直接到k时刻的观测预测，这个预测过程是根据目标运动特性求的，认为量测与三步观测预测值的距离差能反映量测的位置是否符合目标运动特性，或者与运动特性相差多少，具体为：

对k时刻目标t的所有候选量测值进行运动匹配并完成权值选择；对k时刻目标t的所有候选量测值进行运动匹配，计算目标t每个候选量测点的关联概率

计算k-3时刻目标t点迹X^t(k-3|k-3)的三步状态预测值

计算k时刻目标t的所有候选量测值与三步观测预测值

的欧氏距离

步骤S35，根据运动匹配度和波动后的状态匹配度获得每个候选量测点的关联概率；具体地：

k时刻目标t的所有候选量测值与目标t的关联概率

为：

优选地，所述S4获得一步状态估计值的步骤包括：

计算k时刻目标t的卡尔曼增益K^t(k)和状态协方差一步估计值P^t(k|k)：

计算k时刻目标t的一步状态估计值X^t(k|k)：

优选地，所述S6中对经验矩阵进行训练的步骤包括：

将一步状态估计值X^t(k|k)和状态协方差一步估计值P^t(k|k)用于点迹-航迹关联，并代入强化学习经验矩阵优化模块以训练Q-table：对于训练过程，其一步状态估计值X^t(k|k)被用于代入强化学习经验矩阵优化模块以训练Q-table，但不进行点迹-航迹关联，对一步已知量测值Z^t(k|k),k＝1,...,K_train进行卡尔曼滤波，并对得到的训练过程状态一步估计值

进行点迹-航迹关联：

将X^t(k|k)与

之间的欧氏距离看作代价

计算强化学习奖励因子

根据强化学习奖励因子对Q-table进行训练：

其中Q^t(s_i,a_j)表示k时刻目标t的量测在s_i状态下选择a_j动作对应的Q值，λ为学习因子，γ为折扣因子，

为k时刻目标t的量测在s_i状态下的最大Q值。

优选地，所述S7中对训练模型的经验矩阵进行优化的步骤包括：

对于关联过程，计算目标t一步状态预测值

的一步观测预测值

和目标t一步状态估计值X^t(k|k)的一步观测预测值

将

和

之间的马氏距离看作代价f^t(k)：

计算强化学习奖励因子r^t(k)：

根据强化学习奖励因子对Q-table进行优化：

公式(22)模型中的参数与上述公式(14)中的参数相同。

至此，本发明的一种基于强化学习和运动匹配的雷达多目标跟踪数据关联算法结束。

通过以下仿真实验对本发明效果作进一步验证说明。

(一)仿真实验数据说明。

为了验证本发明方法的准确性，通过仿真实验予以证明；实验数据参数如下：

(二)仿真结果及分析

本发明的仿真结果分别如图2、图3、图4、图5、图6和图7所示，图2和图4为杂波较少和较多时两目标真实航迹与杂波区示意图，图3和图5为杂波较少和较多时两目标真实航迹与估计航迹对比仿真示意图，其中横坐标与纵坐标均为X和Y方向位置，单位均为m。从图2和图4中可以看出，在两个目标交叉且杂波区量测紧密聚集，依靠常规的数据关联算法很难将目标航迹进行准确关联估计，由图3和图5可以看出，运用本发明方法能够将目标量测与杂波精确分离，保证了较高的关联准确度。

从图6可以看出，随着杂波区杂波数量的进一步增多，目标量测点迹周围杂波分布十分密集。此时，如果采用常规的最近邻算法，其估计误差较大；而采用常规的联合概率数据关联算法将会出现组合***的情况，进而导致关联失败。本发明方法能够通过经验匹配结合强化学习的方式高效计算关联概率，而且图7的仿真实验结果验证了该处理方法的有效性。

综上所述，仿真实验验证了本发明的正确性，有效性和可靠性。

实施例二

基于上述实施例一，本发明提供一种多目标跟踪数据关联***，包括存储器和处理器，所述存储器存储有多目标跟踪数据关联程序，所述处理器在运行所述多目标跟踪数据关联程序时执行上述方法任意实施例的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种多目标跟踪数据关联方法，其特征在于，包括：

在目标当前时刻已知观测值周围模拟随机杂波点并根据设定的波门获得门内候选观测值及观测值位置分布；

根据候选观测值位置分布在关联模型的经验矩阵中选择权值，根据该权值对候选观测值与目标的状态匹配度的波动影响及候选观测值与目标的运动匹配度获得每个候选观测值的关联概率；

根据当前时刻目标一步已知观测值获得当前时刻目标的实际状态一步估计值并进行点迹-航迹关联；

根据关联概率和候选观测值获得当前时刻目标的模拟状态一步估计值，以模拟状态一步估计值与实际状态一步估计值之间的欧式距离为损失对经验矩阵进行训练，重复上述训练和关联过程，直到起始时间段所有已知观测值均完成关联和训练，获得训练模型；

将目标进入杂波区后雷达采集数据点作为观测值，根据设定的波门获得门内候选待测观测值及观测值位置分布，结合所述训练模型及运动匹配获得目标的一步状态估计值，并以此进行关联；计算目标下一时刻的一步状态预测值，以目标下一时刻的一步状态预测值的一步观测预测值与目标的一步状态估计值的一步观测预测值之间的马氏距离为损失对训练模型的经验矩阵进行优化，重复关联和优化直到完成航迹关联。

2.如权利要求1所述的多目标跟踪数据关联方法，其特征在于，所述获得关联概率的步骤包括：

根据候选观测值位置分布在关联模型的经验矩阵中选择权值；

通过计算每个候选观测值与目标的一步观测预测值的欧氏距离，获得每个候选观测值与目标的状态匹配度；

通过将选择的权值与上述欧式距离作代数运算获得权值对状态匹配度的波动影响；

通过计算每个候选观测值与目标的三步观测预测值的欧氏距离，获得每个候选观测值与目标的运动匹配度；

根据运动匹配度和波动后的状态匹配度获得每个候选观测值的关联概率。

3.如权利要求2所述的多目标跟踪数据关联方法，其特征在于，构建强化学习数据关联模型的步骤包括：

已知目标观测值Z^t(k|k),k＝1,...,K_train和杂波区观测值Z(k)，确定k时刻目标t的状态转移矩阵F^t(k)、观测矩阵H^t(k)、过程噪声协方差矩阵Q^t(k)和观测噪声协方差矩阵R^t(k)，计算k时刻目标t的一步状态预测值

一步观测预测值

一步状态协方差预测值

和新息协方差矩阵S^t(k)；

设定λ为学习因子和γ为折扣因子，建立强化学习模型的经验矩阵Q-table，状态s为观测的分布，动作a为经验矩阵的权值选择，Q-table初始化为0矩阵；

所述k时刻目标t的一步状态预测值

一步观测预测值

一步状态协方差预测值

和新息协方差矩阵S^t(k)的计算表达式为：

其中，F^t(k)表示k时刻目标t的状态转移矩阵，H^t(k)表示k时刻目标t的观测矩阵，Q^t(k)表示k时刻目标t的过程噪声协方差矩阵，R^t(k)表示k时刻目标t的观测噪声协方差矩阵，其中K_train为训练过程上限，X^t(k-1|k-1)为当前时刻的状态值，P^t(k-1|k-1)为当前时刻的状态协方差值。

4.如权利要求3所述的多目标跟踪数据关联方法，其特征在于，所述在目标当前时刻已知观测值周围模拟随机杂波点中，模拟生成随机杂波的步骤包括：

已知目标观测值Z^t(k|k),k＝1,...,K_train周围生成杂波Z_flase,i(k)：

Z_flase,i(k)＝Z^t(k|k)+l-2l·rand_0,1 (1)；

其中，l为椭圆波门等效正方形边长，i＝1,2,...,num_flase为杂波数量，rand_0,1为0到1间的随机数，K_train为训练过程上限，t＝1,2,...,T为目标序号，T为目标个数的上限，num_flase为杂波数量的上限。

5.如权利要求4所述的多目标跟踪数据关联方法，其特征在于，所述获得门内候选观测值及观测值位置分布的步骤包括：

根据每个观测值与前一时刻目标一步观测预测值的马氏距离及波门确定门内候选观测值及分布；

确定观测值Z(k)：