CN116311107A - 一种基于推理优化与神经网络的跨摄像头追踪方法及*** - Google Patents
一种基于推理优化与神经网络的跨摄像头追踪方法及*** Download PDFInfo
- Publication number
- CN116311107A CN116311107A CN202310593537.2A CN202310593537A CN116311107A CN 116311107 A CN116311107 A CN 116311107A CN 202310593537 A CN202310593537 A CN 202310593537A CN 116311107 A CN116311107 A CN 116311107A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- neural network
- feature
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于推理优化与神经网络的跨摄像头追踪方法及***,其中方法步骤包括:通过城市中部署的摄像头获取视频流,获取包含目标车辆的视频流数据;对单摄像头中的视频流进行车辆检测,得到视频流中所有车辆的检测结果;基于检测结果对目标车辆进行车辆检测,得到检测结果;基于检测结果,生成身份码;基于身份码进行单摄像头追踪,得到追踪结果;基于追踪结果,进行跨摄像头轨迹重建,完成对目标车辆的追踪。本申请提出的一种基于推理优化与神经网络的跨摄像头追踪方法充分考虑了单摄像头视频流之间与多摄像头视频流之间的关联信息,因此本申请提出的方法可以解决目标遮挡、光照变化和目标形变等原因导致的检测准确率低的技术问题。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于推理优化与神经网络的跨摄像头追踪方法及***。
背景技术
随着互联网技术的普及和发展,越来越多的设备和***能够通过互联网进行连接和通信,从而实现更高效、智能的数据交互和应用。跨摄像头目标识别技术是借助互联网技术,将多个摄像头的数据进行联合处理和分析,实现对目标物体的更准确、全面的识别和追踪。例如,在智能交通领域,跨摄像头目标识别技术可以通过互联网技术将多个路口的摄像头数据进行联合分析,实现车辆的流量统计和拥堵分析,从而为城市交通管理提供更精细化的决策依据。在安防领域,跨摄像头目标识别技术也可以通过互联网技术实现多个监控点的数据联合,提高安防***的智能化程度和响应速度。
目前,跨摄像头目标识别仍然存在以下实际问题:目标遮挡,在多个摄像头中,目标可能会被其他物体遮挡,从而影响目标的识别和跟踪;光照变化,不同摄像头的光照条件可能不同,目标的外观特征会发生变化,这使得跨摄像头目标识别面临光照变化问题;目标形变,目标可能因为移动或者其他原因而发生形变,这会对目标的识别和跟踪造成困难。上述原因导致当前的跨摄像头识别追踪技术仍然存在检测准确率低、***延迟高的技术问题。
发明内容
为解决上述背景中的技术问题,本申请利用基于推理优化与神经网络的跨摄像头追踪方法,用于解决现有技术中对跨摄像头追踪检测准确率低、***延迟高的问题。
为实现上述目的,本申请提供了一种基于推理优化与神经网络的跨摄像头追踪方法,步骤包括:
通过城市中部署的摄像头获取视频流,获取包含目标车辆的视频流数据;
对所述视频流数据进行车辆检测,得到所有车辆的检测结果;
基于所述检测结果,生成所述视频流中所有车辆的身份码;
基于所述身份码进行单摄像头追踪,得到目标车辆的追踪结果;
基于所述追踪结果,进行跨摄像头轨迹重建,完成对所述目标车辆的追踪。
优选的,得到所述检测结果的方法包括:对包含运行轨迹的所述视频流数据进行降采样至5帧/秒,并使用多目标快速检测网络对降采样之后的所述视频流进行目标检测,得到所述检测结果。
优选的,所述多目标快速检测网络为多尺度采样沙漏网络,在多个尺度上对输入图像进行采样;所述多尺度采样沙漏网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制;所述多尺度采样沙漏网络包括:输入模块、多尺度采样模块、漏斗模块、上采样模块和融合模块;
所述输入模块用于对输入的图像进行归一化处理;使用快速检测头来替换传统的图像信息采集处理头;所述快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息;所述多尺度采样模块使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图;获取到多个不同尺度的特征图后,将最底层的特征图作为所述漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图;对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率;利用所述上采样模块对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率;最后,所述融合模块对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
优选的,生成所述身份码的方法包括:根据所述目标车辆的位置信息提取出相应的车辆图像;将所述车辆图像输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将所述特征向量作为所述身份码;构建所述身份识别神经网络的方法包括:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在所述身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维;使用多个卷积网络提取不同尺度的特征;分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息;
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到所述身份码。
优选的,得到所述追踪结果的方法包括:对所述目标车辆使用推理优化算法进行计算,得到所述目标车辆在单个摄像头下的运行轨迹与所述目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。
本申请还提供了一种基于推理优化与神经网络的跨摄像头追踪***,包括:采集模块、检测模块、生成模块、追踪模块和寻迹模块;
所述采集模块用于通过城市中部署的摄像头获取视频流,获取包含目标车辆的视频流数据;
所述检测模块用于对所述视频流数据进行车辆检测,得到所有车辆的检测结果;
所述生成模块用于基于所述检测结果,生成所述视频流中所有车辆的身份码;
所述追踪模块用于基于所述身份码进行单摄像头追踪,得到目标车辆的追踪结果;
所述寻迹模块用于基于所述追踪结果,进行跨摄像头轨迹重建,完成对所述目标车辆的追踪。
优选的,所述检测模块的工作流程包括:对包含运行轨迹的所述视频流数据进行降采样至5帧/秒,并使用多目标快速检测网络对降采样之后的所述视频流进行目标检测,得到所述检测结果。
优选的,所述多目标快速检测网络为多尺度采样沙漏网络,在多个尺度上对输入图像进行采样;所述多尺度采样沙漏网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制;所述多尺度采样沙漏网络包括:输入模块、多尺度采样模块、漏斗模块、上采样模块和融合模块;
所述输入模块用于对输入的图像进行归一化处理;使用快速检测头来替换传统的图像信息采集处理头;所述快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息;所述多尺度采样模块使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图;获取到多个不同尺度的特征图后,将最底层的特征图作为所述漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图;对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率;利用所述上采样模块对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率;最后,所述融合模块对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
优选的,所述生成模块的工作流程包括:根据所述目标车辆的位置信息提取出相应的车辆图像;将所述车辆图像输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将所述特征向量作为所述身份码;构建所述身份识别神经网络的流程包括:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在所述身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维;使用多个卷积网络提取不同尺度的特征;分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息;
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到所述身份码。
与现有技术相比,本申请的有益效果如下:
本申请通过对摄像头目标车辆使用推理优化算法进行计算,得到目标车辆在单个及多个摄像头下的运行轨迹。区别于传统检测算法仅使用图像信息的特点,本申请提出的一种基于推理优化与神经网络的跨摄像头追踪方法充分考虑了单摄像头视频流之间与多摄像头视频流之间的关联信息,因此本申请提出的方法可以解决目标遮挡、光照变化和目标形变等原因导致的检测准确率低的技术问题。同时,本申请提出的一种基于推理优化与神经网络的跨摄像头追踪方法避免了大量的重复计算,***响应速度快,有效解决了当前的跨摄像头识别追踪技术***延迟高的技术问题。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的***结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本申请的方法流程示意图,步骤包括:
S1.通过城市中部署的摄像头获取视频流,进而获取包含目标车辆的视频流数据。
在每个城市中,都部署着大量的摄像头,那么这些摄像头便构建成了一个智慧互联网络,可以用于获取到视频流。在H时刻某摄像头处采集获取到了目标车辆的图片,需要对目标车辆实现追踪,获取到在整个城市网络中的运行轨迹。
S2.对单摄像头中的视频流进行车辆检测,得到视频流中所有车辆的检测结果。
对H时刻前后半小时的视频流进行降采样至5帧/秒,使用多目标快速检测网络对降采样之后的视频流进行目标检测,得到视频中所有车辆的位置信息。多目标快速检测网络为多尺度采样沙漏网络(Multi-Scale Sampling Hourglass Network, MSHN),这是一种基于深度强化学习的多目标快速检测网络,用以解决输入图像中的多目标检测问题。与传统的卷积神经网络不同,MSHN在多个尺度上对输入图像进行采样,以捕捉不同尺度的信息。该网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制,提高了网络在不同尺度上的表现。在网络结构中,MSHN主要由以下几个模块组成:
(1)输入模块:为了在不同尺度下检测目标,网络需要提取多尺度的特征,所以先对输入的图像进行归一化处理。为了加速图像输入和提取的速度,使用快速检测头来替换传统的图像信息采集处理头。快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息。
(2)多尺度采样模块:使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图。
(3)漏斗模块:获取到多个不同尺度的特征图后,需要对相互关联的不同尺度的特征图进行降采样以实现特征提取。首先,将最底层的特征图作为漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图。对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率。既对所有特征信息进行来有效筛选,也保留了不同尺度下的主要信息。
(4)上采样模块:对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率。
(5)融合模块:对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
S3.基于检测结果,生成视频流中所有车辆的身份码。
根据目标车辆的位置信息提取出相应的车辆图像,输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将其作为目标车辆的身份码。
上述的身份识别神经网络,能够根据多尺度采样沙漏网络获取的车辆图像信息提取出单一的车辆身份信息。主要流程分为以下几步:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维。为了提高车辆身份信息的独特性,使用多个卷积网络提取不同尺度的特征。分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息。
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到身份码。
S4.基于身份码进行单摄像头追踪,得到目标车辆的追踪结果。
进行单摄像头推理优化追踪,对于目标车辆使用推理优化算法进行计算,得到目标车辆在单个摄像头下的运行轨迹与目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。推理优化算法的计算过程如下:
(1)首先,需要对目标车辆的状态进行初始化,包括位置和速度。同时,还需要初始化滤波器的状态,包括协方差矩阵和增益。本实施例中,滤波器可以采用基础卡门滤波、拓展卡门滤波和四元卡门滤波。
(2)在进行下一次观测之前,需要对目标车辆T的状态进行预测。预测的方法是根据上一次的状态和运动模型进行预测,预测得到的状态包括位置、速度信息。
(3)接下来,以预测得到的状态为中心由内之外搜索,直到得到下一次观测的候选目标X车辆,使用身份识别神经网络计算得到候选目标车辆的身份码。将目标车辆T的身份码和候选目标车辆X1的身份码分别进行一维展开,然后分别计算每个身份码的平均值,计算每个身份码与其平均值的差,计算每个身份码与其平均值的差的平方,计算每个身份码与另一个身份码对应观测值的差的乘积,计算所有差的乘积的和并除以n-1(其中n是身份码中的样本数)得到协方差,计算每个身份码的标准差,将协方差除以两个身份码的标准差的乘积,最终得到目标车辆T的身份码和候选目标车辆X1的身份码之间的相关性系数 。当相关性系数高于0.5时,认为候选目标车辆X1与目标车辆T是同一个车辆,从而实现不同身份码的合并,继续进行下一轮预测计算;当相关性系数不高于0.5时,认为候选目标车辆X1与目标车辆T不是同一个车辆,则继续以预测得到的状态为中心由内之外搜索得到下一个候选目标车辆X2,重新计算目标车辆T的身份码和候选目标车辆X2的身份码之间的相关性系数 ,并且以此类推。
(4)通过反复进行预测和更新,可以实现对目标车辆T的追踪。在每次更新后,需要将新的状态作为下一次的初始状态进行预测,同时还需要更新滤波器的状态。
S5.基于追踪结果,进行跨摄像头轨迹重建,完成对目标车辆的追踪。
根据目标车辆的驶入速度、驶入方向、驶出速度和驶出方向,同时考虑到车辆的物理限制,可以得到车辆潜在可能出现的摄像头范围。对该范围内的摄像头内的视频信息进行降采样至1帧/秒,然后执行车辆检测的计算过程,得到所有的车辆位置信息,之后生成所有车辆的身份码。计算所有车辆的身份码与目标车辆身份码之间的相关性系数(相关性系数的计算方法与单摄像头中的相关性系数计算方法一致),当相关性系数高于0.5时,认为目标车辆可能出现在该摄像头中,当相关性系数不高于0.5时,认为目标车辆不可能出现在该摄像头中,进一步缩小目标车辆可能出现的摄像头范围。对目标车辆可能出现的摄像头内的视频信息使用推理优化算法进行计算,得到目标车辆在这些摄像头下的运行轨迹与目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。当确定目标车辆在其他摄像头中的位置后,就可以将目标车辆的轨迹进行重建。完成目标车辆的追踪。
实施例二
如图2所示,为本申请实施例的***结构示意图,包括:采集模块、检测模块、生成模块、追踪模块和寻迹模块。其中,采集模块用于通过城市中部署的摄像头获取视频流,进而获取包含目标车辆的视频流数据;用于基于运行轨迹对视频流进行车辆检测,得到视频流中所有车辆的检测结果;生成模块用于基于检测结果,生成视频流中所有车辆的身份码;追踪模块用于基于身份码进行单摄像头追踪,得到目标车辆的追踪结果;寻迹模块用于基于追踪结果,进行跨摄像头轨迹重建,完成对目标车辆的追踪。
下面将结合本实施例详细说明本申请如何解决实际生活中的技术问题。
首先,采集模块用于通过城市中部署的摄像头获取视频流,进而获取包含目标车辆的视频流数据。
在每个城市中,都部署着大量的摄像头,那么这些摄像头便构建成了一个智慧互联网络,采集模块通过智慧互联网络获取到视频流。在H时刻某摄像头处采集获取到了目标车辆的图片,需要对目标车辆实现追踪,获取到在整个城市网络中的运行轨迹。
检测模块用于基于运行轨迹对视频流进行车辆检测,得到视频流中所有车辆的检测结果。
对H时刻前后半小时的视频流进行降采样至5帧/秒,使用多目标快速检测网络对降采样之后的视频流进行目标检测,得到视频中所有车辆的位置信息。多目标快速检测网络为多尺度采样沙漏网络(Multi-Scale Sampling Hourglass Network, MSHN),这是一种基于深度强化学习的多目标快速检测网络,用以解决输入图像中的多目标检测问题。与传统的卷积神经网络不同,MSHN在多个尺度上对输入图像进行采样,以捕捉不同尺度的信息。该网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制,提高了网络在不同尺度上的表现。在网络结构中,MSHN主要由以下几个模块组成:
(1)输入模块:为了在不同尺度下检测目标,网络需要提取多尺度的特征,所以先对输入的图像进行归一化处理。为了加速图像输入和提取的速度,使用快速检测头来替换传统的图像信息采集处理头。快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息。
(2)多尺度采样模块:使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图。
(3)漏斗模块:获取到多个不同尺度的特征图后,需要对相互关联的不同尺度的特征图进行降采样以实现特征提取。首先,将最底层的特征图作为漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图。对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率。既对所有特征信息进行来有效筛选,也保留了不同尺度下的主要信息。
(4)上采样模块:对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率。
(5)融合模块:对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
生成模块用于基于检测结果,生成视频流中所有车辆的身份码。
根据目标车辆的位置信息提取出相应的车辆图像,输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将其作为目标车辆的身份码。
上述的身份识别神经网络,能够根据多尺度采样沙漏网络获取的车辆图像信息提取出单一的车辆身份信息。主要流程分为以下几步:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维。为了提高车辆身份信息的独特性,使用多个卷积网络提取不同尺度的特征。分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息。
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到身份码。
追踪模块用于基于身份码进行单摄像头追踪,得到目标车辆的追踪结果。
追踪模块的工作流程包括:进行单摄像头推理优化追踪,对于目标车辆使用推理优化算法进行计算,得到目标车辆在单个摄像头下的运行轨迹与目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。推理优化算法的计算过程如下:
(1)首先,需要对目标车辆的状态进行初始化,包括位置和速度。同时,还需要初始化滤波器的状态,包括协方差矩阵和增益。本实施例中,滤波器可以采用基础卡门滤波、拓展卡门滤波和四元卡门滤波。
(2)在进行下一次观测之前,需要对目标车辆T的状态进行预测。预测的方法是根据上一次的状态和运动模型进行预测,预测得到的状态包括位置、速度信息。
(3)接下来,以预测得到的状态为中心由内之外搜索,直到得到下一次观测的候选目标X车辆,使用身份识别神经网络计算得到候选目标车辆的身份码。将目标车辆T的身份码和候选目标车辆X1的身份码分别进行一维展开,然后分别计算每个身份码的平均值,计算每个身份码与其平均值的差,计算每个身份码与其平均值的差的平方,计算每个身份码与另一个身份码对应观测值的差的乘积,计算所有差的乘积的和并除以n-1(其中n是身份码中的样本数)得到协方差,计算每个身份码的标准差,将协方差除以两个身份码的标准差的乘积,最终得到目标车辆T的身份码和候选目标车辆X1的身份码之间的相关性系数 。当相关性系数高于0.5时,认为候选目标车辆X1与目标车辆T是同一个车辆,从而实现不同身份码的合并,继续进行下一轮预测计算;当相关性系数不高于0.5时,认为候选目标车辆X1与目标车辆T不是同一个车辆,则继续以预测得到的状态为中心由内之外搜索得到下一个候选目标车辆X2,重新计算目标车辆T的身份码和候选目标车辆X2的身份码之间的相关性系数 ,并且以此类推。
(4)通过反复进行预测和更新,可以实现对目标车辆T的追踪。在每次更新后,需要将新的状态作为下一次的初始状态进行预测,同时还需要更新滤波器的状态。
寻迹模块用于基于追踪结果,进行跨摄像头轨迹重建,完成对目标车辆的追踪。
根据目标车辆的驶入速度、驶入方向、驶出速度和驶出方向,同时考虑到车辆的物理限制,可以得到车辆潜在可能出现的摄像头范围。对该范围内的摄像头内的视频信息进行降采样至1帧/秒,然后执行车辆检测的计算过程,得到所有的车辆位置信息,之后生成所有车辆的身份码。计算所有车辆的身份码与目标车辆身份码之间的相关性系数(相关性系数的计算方法与单摄像头中的相关性系数计算方法一致),当相关性系数高于0.5时,认为目标车辆可能出现在该摄像头中,当相关性系数不高于0.5时,认为目标车辆不可能出现在该摄像头中,进一步缩小目标车辆可能出现的摄像头范围。对目标车辆可能出现的摄像头内的视频信息使用推理优化算法进行计算,得到目标车辆在这些摄像头下的运行轨迹与目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。当确定目标车辆在其他摄像头中的位置后,就可以将目标车辆的轨迹进行重建。完成目标车辆的追踪。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (9)
1.一种基于推理优化与神经网络的跨摄像头追踪方法,其特征在于,步骤包括:
通过城市中部署的摄像头获取视频流,获取包含目标车辆的视频流数据;
对所述视频流数据进行车辆检测,得到所有车辆的检测结果;
基于所述检测结果,生成所述视频流中所有车辆的身份码;
基于所述身份码进行单摄像头追踪,得到目标车辆的追踪结果;
基于所述追踪结果,进行跨摄像头轨迹重建,完成对所述目标车辆的追踪。
2.根据权利要求1所述的基于推理优化与神经网络的跨摄像头追踪方法,其特征在于,得到所述检测结果的方法包括:对包含运行轨迹的所述视频流数据进行降采样至5帧/秒,并使用多目标快速检测网络对降采样之后的所述视频流进行目标检测,得到所述检测结果。
3.根据权利要求2所述的基于推理优化与神经网络的跨摄像头追踪方法,其特征在于,所述多目标快速检测网络为多尺度采样沙漏网络,在多个尺度上对输入图像进行采样;所述多尺度采样沙漏网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制;所述多尺度采样沙漏网络包括:输入模块、多尺度采样模块、漏斗模块、上采样模块和融合模块;
所述输入模块用于对输入的图像进行归一化处理;使用快速检测头来替换传统的图像信息采集处理头;所述快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息;所述多尺度采样模块使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图;获取到多个不同尺度的特征图后,将最底层的特征图作为所述漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图;对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率;利用所述上采样模块对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率;最后,所述融合模块对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
4.根据权利要求1所述的基于推理优化与神经网络的跨摄像头追踪方法,其特征在于,生成所述身份码的方法包括:根据所述目标车辆的位置信息提取出相应的车辆图像;将所述车辆图像输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将所述特征向量作为所述身份码;构建所述身份识别神经网络的方法包括:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在所述身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维;使用多个卷积网络提取不同尺度的特征;分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息;
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到所述身份码。
5.根据权利要求1所述的基于推理优化与神经网络的跨摄像头追踪方法,其特征在于,得到所述追踪结果的方法包括:对所述目标车辆使用推理优化算法进行计算,得到所述目标车辆在单个摄像头下的运行轨迹与所述目标车辆的驶入速度、驶入方向、驶出速度和驶出方向。
6.一种基于推理优化与神经网络的跨摄像头追踪***,其特征在于,包括:采集模块、检测模块、生成模块、追踪模块和寻迹模块;
所述采集模块用于通过城市中部署的摄像头获取视频流,获取包含目标车辆的视频流数据;
所述检测模块用于对所述视频流数据进行车辆检测,得到所有车辆的检测结果;
所述生成模块用于基于所述检测结果,生成所述视频流中所有车辆的身份码;
所述追踪模块用于基于所述身份码进行单摄像头追踪,得到目标车辆的追踪结果;
所述寻迹模块用于基于所述追踪结果,进行跨摄像头轨迹重建,完成对所述目标车辆的追踪。
7.根据权利要求6所述的基于推理优化与神经网络的跨摄像头追踪***,其特征在于,所述检测模块的工作流程包括:对包含运行轨迹的所述视频流数据进行降采样至5帧/秒,并使用多目标快速检测网络对降采样之后的所述视频流进行目标检测,得到所述检测结果。
8.根据权利要求7所述的基于推理优化与神经网络的跨摄像头追踪***,其特征在于,所述多目标快速检测网络为多尺度采样沙漏网络,在多个尺度上对输入图像进行采样;所述多尺度采样沙漏网络采用卷积神经网络作为骨干网络,并引入多尺度采样机制;所述多尺度采样沙漏网络包括:输入模块、多尺度采样模块、漏斗模块、上采样模块和融合模块;
所述输入模块用于对输入的图像进行归一化处理;使用快速检测头来替换传统的图像信息采集处理头;所述快速检测头由轻量级的卷积层和预测层组成,提取并初步处理输入图像的信息;所述多尺度采样模块使用不同的采样频率对输入图像进行多次采样,然后通过一系列的卷积层和池化层,生成多个不同尺度的特征图;获取到多个不同尺度的特征图后,将最底层的特征图作为所述漏斗模块的顶端特征,采用首位连接的方式将所有特征图与最底层的特征图进行关联,生成具有丰富语义信息和高分辨率的多尺度特征图;对于单独尺度下的特征图分别进行一系列卷积和池化操作来精简特征信息,降低每个特征图的分辨率;利用所述上采样模块对于在漏斗模块中处理过的不同尺度下的特征图,通过反卷积以及转置卷积对低分辨率的特征图进行上采样,恢复不同尺度下经过主要特征信息筛选后图像的分辨率;最后,所述融合模块对不同分辨率的特征图进行池化操作,并对不同分辨率的特征图通过一个递归神经网络进行融合,从而得到一个具有多个通道的特征图,恢复原始图像的高分辨率,来得到最终的分割结果。
9.根据权利要求6所述的基于推理优化与神经网络的跨摄像头追踪***,其特征在于,所述生成模块的工作流程包括:根据所述目标车辆的位置信息提取出相应的车辆图像;将所述车辆图像输入身份识别神经网络进行前向传播,得到车辆的特征向量,并且将所述特征向量作为所述身份码;构建所述身份识别神经网络的流程包括:
(1)预处理:对图像进行预处理,进行缩放、裁剪、归一化的操作,使得输入到身份识别神经网络中的图像具有相同的尺寸和颜色空间;
(2)输入层:在所述身份识别神经网络的输入层,将接受过预处理的车辆图像数据转化为神经网络可处理的形式,车辆图像到神经网络中进行前向传播;
(3)卷积层、池化层和全连接层:在卷积层和池化层中,对输入图像进行特征提取和降维;使用多个卷积网络提取不同尺度的特征;分别使用128x128,64x64,32x32,16x16,8x8,8x8的6个卷积核提取特征,提取出的特征经过全连接层转换为固定长度的特征向量,筛选保留为长度是256的一维向量作为车辆的身份信息;
(4)输出层:将1x256的车辆身份信息作为一个向量输出,得到所述身份码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593537.2A CN116311107B (zh) | 2023-05-25 | 2023-05-25 | 一种基于推理优化与神经网络的跨摄像头追踪方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593537.2A CN116311107B (zh) | 2023-05-25 | 2023-05-25 | 一种基于推理优化与神经网络的跨摄像头追踪方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311107A true CN116311107A (zh) | 2023-06-23 |
CN116311107B CN116311107B (zh) | 2023-08-04 |
Family
ID=86822580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310593537.2A Active CN116311107B (zh) | 2023-05-25 | 2023-05-25 | 一种基于推理优化与神经网络的跨摄像头追踪方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311107B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598743A (zh) * | 2018-11-20 | 2019-04-09 | 北京京东尚科信息技术有限公司 | 行人目标跟踪方法、装置及设备 |
CN112365527A (zh) * | 2020-10-15 | 2021-02-12 | 中标慧安信息技术股份有限公司 | 园区内车辆跨镜追踪方法及*** |
CN113902915A (zh) * | 2021-10-12 | 2022-01-07 | 江苏大学 | 一种基于低光照复杂道路场景下的语义分割方法及*** |
CN115169427A (zh) * | 2022-03-25 | 2022-10-11 | 五邑大学 | 多目标车辆检测方法、装置及存储介质 |
WO2023063874A1 (en) * | 2021-10-14 | 2023-04-20 | Exo Imaging, Inc. | Method and system for image processing based on convolutional neural network |
-
2023
- 2023-05-25 CN CN202310593537.2A patent/CN116311107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598743A (zh) * | 2018-11-20 | 2019-04-09 | 北京京东尚科信息技术有限公司 | 行人目标跟踪方法、装置及设备 |
CN112365527A (zh) * | 2020-10-15 | 2021-02-12 | 中标慧安信息技术股份有限公司 | 园区内车辆跨镜追踪方法及*** |
CN113902915A (zh) * | 2021-10-12 | 2022-01-07 | 江苏大学 | 一种基于低光照复杂道路场景下的语义分割方法及*** |
WO2023063874A1 (en) * | 2021-10-14 | 2023-04-20 | Exo Imaging, Inc. | Method and system for image processing based on convolutional neural network |
CN115169427A (zh) * | 2022-03-25 | 2022-10-11 | 五邑大学 | 多目标车辆检测方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
TIANHAN XU ET AL.: "Graph Stacked Hourglass Networks for 3D Human Pose Estimation", ARXIV:2103.16385V1 [CS.CV], pages 1 - 10 * |
王先彬 等: "跨摄像头目标跟踪综述", 现代计算机, pages 85 - 90 * |
Also Published As
Publication number | Publication date |
---|---|
CN116311107B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN116342596B (zh) | 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法 | |
CN112016461A (zh) | 一种多目标的行为识别方法及*** | |
CN114445430A (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及*** | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别***及方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
Yao et al. | RingMo-sense: Remote sensing foundation model for spatiotemporal prediction via spatiotemporal evolution disentangling | |
CN113361528B (zh) | 一种多尺度目标检测方法及*** | |
Ge et al. | Improving road extraction for autonomous driving using swin transformer unet | |
CN113408550B (zh) | 基于图像处理的智能称重管理*** | |
CN111339892A (zh) | 一种基于端到端3d卷积神经网络的泳池溺水检测方法 | |
CN114266952A (zh) | 基于深监督的实时语义分割方法 | |
CN116311107B (zh) | 一种基于推理优化与神经网络的跨摄像头追踪方法及*** | |
CN113743306A (zh) | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 | |
CN113762007A (zh) | 一种基于外观和动作特征双预测的异常行为检测方法 | |
Li et al. | Infrared Small Target Detection Algorithm Based on ISTD-CenterNet. | |
CN114926760B (zh) | 基于时空卷积神经网络的视频显著性目标检测***及方法 | |
CN114898410B (zh) | 一种基于小波变换的跨分辨率行人重识别方法 | |
CN112215228B (zh) | 通过直接模仿两阶段特征搭建高效框架的方法 | |
CN117789255B (zh) | 一种基于姿态估计的行人异常行为视频识别方法 | |
CN117808650B (zh) | 一种基于Transform-Flownet和R-FPN的降水预测方法 | |
Wang et al. | LCNNet: Light-weight convolutional neural networks for understanding the highly congested scenes | |
CN118314320A (zh) | 一种基于改进的YOLOv5s的交通场景目标检测方法及*** | |
FUJITAKE | Feature Enhancement using Spatio-Temporal Information for Video Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |