CN111462200B

CN111462200B - 一种跨视频行人定位追踪方法、***及设备

Info

Publication number: CN111462200B
Application number: CN202010259428.3A
Authority: CN
Inventors: 宋亦然; 胡金星; 沈策
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-09-19
Anticipated expiration: 2040-04-03
Also published as: CN111462200A; WO2021196294A1

Abstract

本申请涉及一种跨视频行人定位追踪方法、***及电子设备。包括：构建物体地理坐标数据库，根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准，确定所述监控视频像素点的地理坐标；对所述监控视频进行行人检测位置计算，获取行人地理位置；结合多个临近视频检测的行人位置信息，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到所述行人连续时空轨迹。本申请基于视频地理标定引入行人地理位置信息，在跨视频行人重识别时进行最大似然估计，减少视觉人员重识别轨迹追踪算法难度、***复杂度，在多路跨视频***场景下有更好的应用价值。

Description

一种跨视频行人定位追踪方法、***及设备

技术领域

本申请属于行人定位追踪技术领域，特别涉及一种跨视频行人定位追踪方法、***及电子设备。

背景技术

目前行人定位方法主要采用环境测量定位方法和基于摄像头的定位方法。其中，环境测量定位方法是指在室外行人定位或测距。在军用领域可以通过激光测距或超声波测距，精度达到厘米级。虽然这类方法精度高、测量行人具有地理位置信息，但难以进行连续、大范围、多行人测定。

基于摄像头的定位方法分为双目定位和单目定位，其中，双目定位应用于机器人精准定位领域通过构建三维空间的SLAM(simultaneous localization and mapping)方法，即时定位与地图构建，并不适用于公共区域摄像头监控***。且基于视频的单目测距、双目测距的方法存在构建本地数据库工作量大、提取特征信息计算量大、特征信息受外部因素影响严重等问题仍制约着视觉定位的精度和可用性。

地理信息构建方法主要基于其图像内容判断该图像的地理位置信息。一般来说需要对事先存在的带有地理位置标注的图像数据库进行训练得到分类器或者从中查找与查询图像类似的图像。因此，基于图像的地理位置识别都需要首先对图像提取视觉特征用于比对不同图像之间的相似度。然而在传统的监控场景下，无法提前获取这些先验图像数据。

基于摄像头的定位方法由于不属于测量领域，所以需引入图像地理信息构建方法才能获取行人地理信息。在跨视频追踪领域，针对同一行人追踪主要采用引入SIFT参数的方法，即尽可能多的获取待追踪行人的细节并存储到数据库，当同一行人出现会匹配数据库的行人，进行重识别。在重识别领域，常见的跨视频追踪方法有模板匹配，用给定的模板去待匹配图像区域搜索，根据计算的匹配度，得到匹配结果。但是这种行人匹配方法需要事先给定模板，对待搜索待匹配的区域要求严格，由于匹配和搜索的存在，导致在连续视频的计算效率低、耗时长，无法完全应用于多视频***。

另外，现有的行人追踪***主要采用寻找行人、定位行人的方法，在多视频联动下的跨视频追踪时，会引入更多行人特征参数的方法进行追踪。但由于无法获取行人位置信息，现有行人追踪***难以获取行人连续时空轨迹。

发明内容

本申请提供了一种跨视频行人定位追踪方法、***及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种跨视频行人定位追踪方法，包括以下步骤：

步骤a：构建物体地理坐标数据库，根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准，确定所述监控视频像素点的地理坐标；

步骤b：对所述监控视频进行行人检测位置计算，获取待追踪行人地理位置；

步骤c：结合多个临近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到所述待追踪行人连续时空轨迹。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准具体包括：

采用物体识别算法对所述监控视频进行物体识别分类，得到所述监控视频中的参照点；

将所述参照点与所述物体地理数据库中的物体进行匹配，得到所述监控视频中的同名控制点地理位置信息；

采用世界地理坐标系转换方法，对所述监控视频中地面区域的同名控制点进行地理配准，使得所述监控视频具有地理位置信息。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准还包括：

对所述监控视频进行图像预处理，得到经过鱼眼校准的视频图像；

截取所述预处理后的视频图像中的某一帧二维图像，采用边缘检测及分水岭分割方法对所述二维图像进行边缘提取，得到所述二维图像中具有GIS信息的地面区域。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述对所述监控视频进行行人检测位置计算具体为：

采用帧差法对所述监控视频中的运动物体进行检测，并结合人头检测器对待追踪行人的位置进行定位，获取待追踪行人的头部信息。

本申请实施例采取的技术方案还包括：所述人头检测器采用基于卷积神经网络CNN的行人检测方法，所述卷积神经网络包括输入层、卷积层、池化层、全连接层和输出层，复合多个卷积层和池化层对输入数据进行加工，并通过连接层进行与输出目标之间的映射。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述获取行人地理位置还包括：

基于所述头部信息对所述待追踪行人进行移动检测，得到所述待追踪行人的脚下像素点，所述脚下像素点即为待追踪行人的地理位置信息。

通过抑制摄像头本身的方法对所述待追踪行人的地理位置信息进行校准。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析还包括：

当所述多路监控视频内存在拍摄场景移动时，则触发地理区域重叠判定；所述地理区域重叠判定具体为：

将所述多路监控视频的拍摄场景的地理信息进行定位，根据重叠的地理位置区域划分各个摄像装置的监控区域；通过连接所述待追踪行人在连续帧中的地理信息空间坐标得到所述待追踪行人的连续轨迹，当所述待追踪行人的地理信息空间坐标超出当前摄像头的监控区域并移动到下一个摄像头的监控区域时，则触发下一个摄像头进行行人轨迹追踪。

本申请实施例采取的另一技术方案为：一种跨视频行人定位追踪***，包括：

视频地理配准模块：用于构建物体地理坐标数据库，根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准，确定所述监控视频像素点的地理坐标；

跨视频行人定位追踪模块：用于对所述监控视频进行行人检测位置计算，获取待追踪行人地理位置；

多视频轨迹追踪模块：用于结合多个临近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到所述待追踪行人连续时空轨迹。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的跨视频行人定位追踪方法的以下操作：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的跨视频行人定位追踪方法、***及电子设备通过物体识别获取参照物位置信息进行监控视频的地理配准，通过行人检测获取行人地理位置信息、获取其移动时空轨迹，运算简单，且具有地理位置信息，在多路视频***场景下有更好的应用价值。本申请基于视频地理标定引入行人地理位置信息，在跨视频行人重识别时进行最大似然估计，减少视觉人员重识别轨迹追踪算法难度、***复杂度，在多路跨视频***场景下有更好的应用价值。

附图说明

图1是本申请实施例的跨视频行人定位追踪方法的流程图；

图2是本申请实施例的监控视频地理配准算法示意图；

图3(a)为预处理前的视频图像，图3(b)为预处理后的视频图像；

图4为摄像机成像模型示意图；

图5(a)、(b)为像素坐标与世界地理坐标的空间关系示意图，其中，图5(a)为像素坐标，图5(b)为世界地理坐标；

图6是本申请实施例的行人检测算法示意图；

图7是本申请实施例的帧差法流程图；

图8为最大似然估计示例图；

图9是本申请实施例的基于地理区域重叠判定的跨视频行人追踪算法流程图；

图10是本申请实施例的跨视频行人定位追踪***的结构示意图；

图11是本申请实施例提供的跨视频行人定位追踪方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的跨视频行人定位追踪方法的流程图。本申请实施例的跨视频行人定位追踪方法包括以下步骤：

步骤100：获取待追踪行人的监控视频；

步骤200：构建物体地理坐标数据库，根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准，确定监控视频像素点的地理坐标；

本步骤中，物体地理坐标数据库包括百度或者已有的BIM文件数据(建筑工程用数据，包含建筑物外观和地理位置)等第三方地理信息库。为得到更精确的GPS位置信息，采用标准WGS84坐标系的方式进行参照点标定，根据识别物体的BIM(Building InformationModeling，建筑信息模型)信息与公共区域WGS84坐标系的坐标点对应，并作为参照点，提高跟踪行人空间计算的准确度。物体地理数据库应用于世界坐标系和图像坐标系转换后的对应，利用已有物体地理信息和图像识别物体，对监控视频中的像素点与现实实际坐标进行配准，确定监控视频的空间位置坐标。

进一步地，请一并参阅图2，是本申请实施例的监控视频地理配准算法示意图。本申请实施例的监控视频地理配准算法包括：

步骤210：采用物体识别算法对监控视频进行物体识别分类，得到监控视频中的参照点，同时，对监控视频进行图像预处理，得到经过鱼眼校准的视频图像；

步210骤中，物体识别算法包括RCNN、YOLO等方法，通过对监控视频进行物体识别分类，得到监控视频中的参照点，将该参照点与物体地理数据库中的物体进行模糊匹配。

在实际情况中，摄像机由于成像原件制造水平、装配水平等因素影响，视频拍摄时会存在边缘扭曲情况，且越是广角的镜头边缘扭曲越明显，从而导致监控视频的非线性畸变，因此需要对摄像机非线性畸变纠正，提高计算的准确性。本申请通过棋盘矫正法对监控视频进行预处理，计算出鱼眼的内参和矫正系数，然后对监控视频进行矫正及剪裁，去掉部分边缘部分，得到鱼眼校准后的视频图像，预处理后的视频图像可以减少因非线性畸变导致的世界坐标系转换时的误差。具体如图3(a)、(b)所示，其中，图3(a)为预处理前的视频图像，图3(b)为预处理后的视频图像。

具体的，非线性畸变一般为几何畸变，它使像素点坐标与理想像素点坐标存在一定偏移，可表示为：

式(1)中，(u，v)为理想的像素坐标，(u′，v′)为受到畸变影响的像素坐标。非线性畸变δ_u、δ_v的表达式可写为：

式(2)中，δ_u、δ_v中的第一项受到摄像机元件的影响，第二项和第三项是由于摄像机成像原件的不准确产生，参数p₁、p₂、k₁、k₂、s₁、s₂为非线性畸变参数。通过计算非线性畸变参数的数值，还原图像畸变。

步骤220：将识别到的参照点与物体地理数据库中的物体进行地理配准，得到监控视频中的同名控制点地理位置信息；

步骤230：截取预处理后的视频图像中的某一帧二维图像，采用边缘检测及分水岭分割方法对该二维图像进行边缘提取，得到二维图像中具有GIS信息的地面区域；

步骤230中，利用监控视频的特殊空间结构关系，视频下方区域为地面部分，垂直物体会对地面产生遮挡。因此，本申请通过边缘检测技术和分水岭算法，计算图像的水平结构和垂直结构。

步骤240：采用世界地理坐标系转换的方法，对监控视频中地面区域的同名控制点进行地理配准，使得监控视频具有地理位置信息；

步骤240中，根据世界地理坐标系转换计算得到偏移矩阵，通过图像拉伸、填充、切割等方法，将监控视频中地面区域的每个像素点分别进行地理坐标匹配，得到监控视频中具有地理信息的平面。通过对比物体地理数据库得到识别物体的实际地理位置和观测到的物体的相对位置。由于矩阵计算一般通过四个点完成一个平面的像素坐标和世界坐标转换，因此通过世界坐标系转换矩阵计算得到的结果为预估值，并非准确值。为控制预估值的误差，本申请在有更多的同名控制点的情况下对图像进行约束计算。在有多个三维空间点X_w＝(X_w，Y_W，Z_W)^T投影到成像平面得到相对应的二维平面点m＝(u，v)^T时，通过多次三角形区域的矩阵计算，会得到多个三维空间点X_w＝(X_w，Y_W，Z_W)^T。通过带入多个同名控制点多次计算求均值的方法，可减少因形变量过大导致的计算误差。

摄像机成像模型如图4所示。将客观世界中的一个三维空间点X_w＝(X_w，Y_W，Z_W)^T投影到成像平面得到相对应的二维平面点m＝(u，v)^T，是根据不同坐标系之间的坐标变换实现的。具体的，世界坐标系与摄像机坐标系之间的坐标变换公式为：

式(3)中，X_c＝(X_c，Y_c，Z_c)^T表示点X_W在摄像机坐标系下的三维坐标：R是3×3的旋转变换矩阵，t是3×1的平移变换矩阵，R和t分别代表世界坐标系与摄像机坐标系之间的相对姿态和位置。

摄像机坐标系与图像坐标系之间的坐标变换方法是将摄像机坐标系下的一个三维空间点P(X，Y，Z)投影到成像平面得到对应的二维平面点p(x，y)，x、y与X、Y的关系可表示：

式(4)中，f为摄像机焦距。通过已知的具有地理位置信息的世界地理坐标平面点P(X，Y，Z)和成像平面的二维坐标点p(x，y)，可以计算出摄像机所拍摄的区域所对应的地理位置。具体如图4所示，为摄像机成像模型示意图。

根据图像坐标系o′xy和像素坐标系o′_xy的坐标关系可得：

再有空间几何关系可得：

综合以上公式可得识别的物体或像素区域在地面上的垂直方向距离为：

因此通过Y值可判定出识别物体所在的高度，当Y值小于设定地面的阈值(可根据实际情况设置精确值)时，可判定地面区域，确定地面坐标。通过计算X_c＝(X_c，Y_c，Z_c)^T与像素点p(x，y)可计算出偏移矩阵，通过矩阵偏移和填充的方式，可将图片中某一块的地面区域形变为匹配物体地理数据库的实际地面矩阵，实现像素坐标和地理坐标的对应。图5(a)、(b)为像素坐标与世界地理坐标的空间关系示意图，其中，图5(a)为像素坐标，图5(b)为世界地理坐标。

在世界坐标系转换中，由于图像在成像时会存在偏移误差，会导致经过转移矩阵世界坐标系误差更大，因此，为抑制误差，本申请提出多种抑制误差的方法对行人像素点进行位置校准。识别物体后，以物体识别框底部中心点为此物体的地理位置，并作为基准点计算；首先将图像中的二维平面点(x，y)与其在像素坐标系中对应点(u，v)的关系通过下式表示：

用坐标变换形式可将上式表示为：

式(9)中，d_x，d_y代表像素在摄像u轴和v轴和方向上的物理距离，(u₀，v₀)是摄像机主点在像素坐标系下的坐标。通过联立可得：

式(10)中，f_u，f_v分别代表使用像素宽度和高度作单位时的焦距长度。矩阵中的参数被称为摄像机内参数，它们只受相机内部结构和成像特点的影响。矩阵R和矩阵t的参数被称为相机外参数。P＝K[R，t]被称为透视投影矩阵。由此实现了平面点与摄像机点的转换，可计算出任何一点(x，y)与已知点(u，v)的距离，进而算出点(x，y)的GPS信息。

步骤300：对监控视频进行行人检测位置计算，获取待追踪行人地理位置；

请一并参阅图6，是本申请实施例的行人检测算法示意图。本申请实施例的行人检测算法包括：

步骤310：对监控视频进行人头检测，获取待追踪行人的头部信息；

步骤310中，人头检测是一种快速识别行人头部模型的方法，适用于多路的监控视频。为提高行人检测的时效性，本申请采用帧差法对监控视频中的运动物体进行检测，并结合人头检测器对人员位置进行定位。人头检测器采用基于卷积神经网络CNN的行人检测方法，卷积神经网络由输入层、卷积层、池化层、全连接层和输出层构成，其复合了多个卷积层和池化层对输入数据进行加工，并在连接层实现与输出行人之间的映射。帧差法流程图如图7所示，其具体包括：记视频序列中第n+1帧、第n帧和第n-1帧的图像分别为fn+1、fn和fn-1，三帧图像对应像素点的灰度值分别记为fn+1(x，y)、fn(x，y)和fn-1(x，y)，分别得到差分图像Dn+1和Dn，对差分图像Dn+1和Dn进行操作，然后再进行阈值处理、连通性分析，最终检测出运动物体。

步骤320：基于人头检测结果对待追踪行人进行移动检测(行人位置计算)，得到待追踪行人的脚下像素点，即为待追踪行人的地理位置信息；

步骤320中，由于行人是移动物体，根据视频的特点，运动物体的最下面区域为脚站立的位置，即待追踪行人的定位坐标点为脚部区域，而并不能以头部坐标点作为地理位置计算的空间坐标行人，因此本申请通过人头检测和移动检测相结合的方法快速寻找到待追踪行人运动区域对应的脚下像素点，相较于一般行人姿态检测、SIFE特征追踪等方法，本申请具有更快速的检测效率，且在复杂环境下的鲁棒性更强，在行人识别准确率上也具有很好的表现。

步骤330：对待追踪行人的地理位置信息进行校准；

步骤330中，本申请通过抑制摄像头本身的方法对待追踪行人的地理位置信息进行校准，从而减少行人移动时因模糊导致的不确定误差，提高定位准确性。

步骤400：结合多个临近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到待追踪行人连续时空轨迹；

步骤400中，当行人进行跨视频移动时，虽然具有待追踪行人的地理位置信息，但存在无法确定是否为同一行人的情况，本申请通过对多个视频中同一待追踪行人的移动轨迹进行最大似然估计，通过概率计算判断是否为同一行人。具体为：给定一个概率分布D，假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为f_D，以及一个分布参数θ，可以从该概率分布D中抽出一个具有n个值的采样x₁，x₂，...，x_n，然后估计θ。通过利用f_D计算出其概率：

P＝(x₁，x₂，x₃...，x_n)＝f_D(x₁，x₂，x₃...，x_n|θ) (11)

最大似然估计会寻找关于θ的最可能的值(即，在所有可能的θ取值中，寻找一个值使这个采样的“可能性”最大化)。要在数学上实现最大似然估计法，首先要定义可能性：

lik(θ)＝f_D(x₁，x₂，x₃...，x_n|θ) (12)

并且在θ的所有取值上，使这个函数最大化。这个使可能性最大的值即为θ的最大似然估计。通过比对两个视频中获取的轨迹，判断最大似然度，设定阈值后，判断是否为同一行人。具体如图8所示，为最大似然估计示例图。

当待追踪行人存在跨视频移动时，会存在拍摄场景移动的情况，此时，本申请将触发地理区域重叠判定，具体如图9所示，是本申请实施例的基于地理区域重叠判定的跨视频行人追踪算法流程图。地理区域重叠判定是将多路监控视频的拍摄场景的地理信息进行定位后，根据重叠的地理位置区域划分各自追踪的监控区域。通过连接待追踪行人在连续帧中的地理信息空间坐标得到待追踪行人的连续轨迹，当待追踪行人的地理信息空间坐标超出当前摄像头的监控区域并移动到下一个摄像头的监控区域时，则触发下一个摄像头进行行人轨迹追踪。

请参阅图10，是本申请实施例的跨视频行人定位追踪***的结构示意图。本申请实施例的跨视频行人定位追踪***包括：

视频地理配准模块：用于构建物体地理坐标数据库，根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准，确定监控视频像素点的地理坐标；

跨视频行人定位追踪模块：用于对监控视频进行行人检测位置计算，获取待追踪行人地理位置；

多视频轨迹追踪模块：用于结合多个临近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到待追踪行人连续时空轨迹。

图11是本申请实施例提供的跨视频行人定位追踪方法的硬件设备结构示意图。如图11所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入***和输出***。

处理器、存储器、输入***和输出***可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入***可接收输入的数字或字符信息，以及产生信号输入。输出***可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

本申请实施例的跨视频行人定位追踪方法、***及电子设备通过物体识别获取参照物位置信息进行监控视频的地理配准，通过行人检测获取行人地理位置信息、获取其移动时空轨迹，运算简单，且具有地理位置信息，在多路视频***场景下有更好的应用价值。同时，本申请基于视频地理标定引入行人地理位置信息，在跨视频行人重识别时进行最大似然估计，减少视觉人员重识别轨迹追踪算法难度、***复杂度，在多路跨视频***场景下有更好的应用价值。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种跨视频行人定位追踪方法，其特征在于，包括以下步骤：

步骤c：结合多个邻近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到所述待追踪行人连续时空轨迹；

在所述步骤c中，所述采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析还包括：

2.根据权利要求1所述的跨视频行人定位追踪方法，其特征在于，在所述步骤a中，所述根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准具体包括：

将所述参照点与物体地理数据库中的物体进行匹配，得到所述监控视频中的同名控制点地理位置信息；

3.根据权利要求2所述的跨视频行人定位追踪方法，其特征在于，在所述步骤a中，所述根据物体识别对监控视频进行参照点拓扑匹配、视频地理配准还包括：

截取预处理后的视频图像中的某一帧二维图像，采用边缘检测及分水岭分割方法对所述二维图像进行边缘提取，得到所述二维图像中具有GIS信息的地面区域。

4.根据权利要求1至3任一项所述的跨视频行人定位追踪方法，其特征在于，在所述步骤b中，所述对所述监控视频进行行人检测位置计算具体为：

5.根据权利要求4所述的跨视频行人定位追踪方法，其特征在于，所述人头检测器采用基于卷积神经网络CNN的行人检测方法，所述卷积神经网络包括输入层、卷积层、池化层、全连接层和输出层，复合多个卷积层和池化层对输入数据进行加工，并通过连接层进行与输出目标之间的映射。

6.根据权利要求4所述的跨视频行人定位追踪方法，其特征在于，在所述步骤b中，所述获取待追踪行人地理位置还包括：

7.根据权利要求6所述的跨视频行人定位追踪方法，其特征在于，在所述步骤b中，所述获取待追踪行人地理位置还包括：

8.一种利用权利要求1所述跨视频行人定位追踪方法的跨视频行人定位追踪***，其特征在于，包括：

多视频轨迹追踪模块：用于结合多个邻近视频检测的待追踪行人地理位置，采用最大似然估计方法对多路监控视频进行行人跨视频重识别分析，得到所述待追踪行人连续时空轨迹。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述权利要求1至7任一项所述的跨视频行人定位追踪方法。