CN115620242A - 多行人目标重识别方法、装置及应用 - Google Patents
多行人目标重识别方法、装置及应用 Download PDFInfo
- Publication number
- CN115620242A CN115620242A CN202211630718.XA CN202211630718A CN115620242A CN 115620242 A CN115620242 A CN 115620242A CN 202211630718 A CN202211630718 A CN 202211630718A CN 115620242 A CN115620242 A CN 115620242A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- attention
- features
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本申请提出了一种多行人目标重识别方法、装置及应用,获取包含至少两连续视频帧的视频流;将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人,设计了可从密集的人群中识别到行人目标的多行人目标检测模型,且对行人跟踪和行人重识别方法进行优化,以最终从视频流中识别得到精准的多行人目标。
Description
技术领域
本申请涉及目标检测领域,特别是涉及多行人目标重识别方法、装置及应用。
背景技术
现阶段视频监控在日常生活中可以随处可见,在监控视频中,由于相机分辨率和拍摄角度的缘故,比如无法拍摄到清晰的正面图、无法获取全面的人脸角度等情况都导致无法得到质量非常高的人脸图片,这就使得人脸识别技术失效了。当人脸识别失效的情况下,行人ReID就成为了一个非常重要的替代品技术:行人重识别(Person Re-identification)也称行人再识别,简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,ReID能够通过目标任务的穿着、体态、发型等特征,识别出不同场景中的同一个目标人物,因此它也被称作跨境追踪技术。
目前行人重识别技术在安防领域、自动驾驶等领域都有着广泛的应用;比如在智能安防领域,能够借助ReID帮助快速筛查可疑人员;在智能寻人领域,在人流量较大的场所如机场、火车站,通过ReID寻找走失儿童和老人;在智能商业领域,ReID可以根据行人外观的照片,实时动态跟踪用户轨迹,以此了解了解用户在商场的兴趣所在,以便优化用户体验;在自动驾驶领域,通过ReID,能够更好地识别行人,提升自动驾驶安全性。
实现行人重识别技术一般需要以下五个步骤:数据收集、包围框生成、训练数据标注、模型训练和行人检索,其中数据收集作为第一步,也是整个行人重识别研究的基础。相较于传统的视频监控,行人ReID有一定的优势,但是也存在需要解决的技术挑战。具体的,行人ReID 在实际应用场景下的数据非常复杂,由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,所以对跨镜追踪(ReID)算法的要求也更高。以数据为例,不同场景(如室内和室外)、不同季节风格的变换、不同时间(如白天和晚上)的光线差异都会导致获取的视频数据有很大差异,而这些差异的数据都是行人重识别的干扰因素,这些干扰因素不仅影响模型识别准确度,也会影响识别效率。再加上非可控环境下行人识别存在的难点有:数据的分辨率低、数据中的目标存在遮挡、视角姿态变化、光照变化以及相似衣服等情况,这都进一步地加大了行人ReID的识别难度。
深究行人重识别技术无法对复杂的应用数据做出准确的行人检测的原因,主要有以下几个方面:
1.行人目标检测时采用的是单路径框架,而单路径框架总是会带来粗糙和不准确的特征图,不利于对目标进行定位;2.由于行人目标检测时并无对特征图进行全方位的特征学习,导致其获取的特征数据是局限的;3.重识别模型并无充分考虑行人的多种特征,导致其在行人重识别场景下表现不佳。
发明内容
本申请实施例提供了一种多行人目标重识别方法、装置及应用,设计了可从密集的人群中识别到行人目标的多行人目标检测模型,且对行人跟踪和行人重识别方法进行优化,以最终从视频流中识别得到精准的多行人目标。
第一方面,本申请实施例提供了多行人目标重识别方法,包括以下步骤:获取包含至少两连续视频帧的视频流;将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
第二方面,本申请实施例提供了一种多行人目标徘徊检测方法,包括步骤:获取包含至少两连续视频帧的视频流;基于所述提到的多行人目标检测方法检测到重识别行人检测结果,根据更正ID分类同一行人的行人目标;选定疑似行人目标,每间隔一端时间对疑似行人目标进行轨迹判断,计算疑似行人目标移动的轨迹路程,若所述轨迹路程大于设定位移且更正ID的出现时长大于设定时长,则判断该疑似行人目标存在徘徊行为。
第三方面,本申请实施例提供了一种行人目标检测模型的构建方法,包括以下步骤:获取包含至少一标记有行人目标框的视频帧的视频流;将视频流输入到行人目标检测模型的网络架构中进行训练,其中行人目标检测模块的网络架构包括输入层、骨干网络层、颈部网络层以及检测头部,其中每一视频帧输入输入层获取输入图像,其中骨干网络层包括网络茎干和注意力混合网络,网络茎干将输入图像融合处理为块特征图,注意力混合网络包括第一注意力混合单元、第一双向融合模块、第二注意力混合单元以及第二双向融合模块,块特征图输入到第一注意力混合单元中输出不同分辨率的第一分辨率特征,第一分辨率特征输入第一双向融合模型中输出对应的第一双向融合特征,第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二分辨率特征输入到第二双向融合模块中输出不同分辨率的第二双向融合特征;不同分辨率的第二双向融合特征和第一双向融合特征输入到颈部网络层中进行自上而下融合以及自下而上融合输出不同分辨率的预测特征;预测特征分别输入不同的检测头部内进行预测得到行人检测结果。
第四方面,本申请实施例提供了一种多行人目标重识别装置,包括以下:视频流获取单元,用于获取包含至少两连续视频帧的视频流;行人检测单元,用于将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;行人跟踪单元,用于将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;行人重识别单元,用于将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
第五方面,本申请实施例提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序的多行人目标重识别方法或多行人目标徘徊检测方法。
第六方面,本申请实施例提供一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据执行的多行人目标重识别方法或多行人目标徘徊检测方法。
本发明的主要贡献和创新点如下:
本申请实施例提供的多行人目标检测方法中采用优化的多行人目标检测模型对行人目标进行识别,进而利用行人跟踪模型对行人进行跟踪后,然而行人跟踪模型在对视频流中连续的动态物体的跟踪效果很不错,但是其对于行人目标跳出视频流又回来视频流的目标无法进行准确的识别,对此本方案使用行人重识别模型对行人跟踪模型得到的跟踪ID进行更正以得到精准度极高的重识别行人。且本方案还可以根据重识别行人实现行人徘徊行为的检测,在本方案中多个行人的检测是独立进行的互不干扰,进而提高了重识别行人目标检测的效果。
在技术层面,本方案对行人跟踪模型进行了优化,本方案的行人跟踪模型采用了平行路径架构,从而得到双分辨率特征信息,且考虑到两个子网络的互补性,构建了双向融合模块,以增强两条路径之间的通信,从而促进可变分辨率特征之间的信息流。行人跟踪模型在检测行人目标时充分地考虑了行人的多种特征,包括局部的,全局的,相关性的,多尺度的等等,这些丰富的特征是使整体模型有良好的Re-ID性能的关键。本方案的行人重识别模型以动态方式组合不同流的输出,即根据输入图像将不同的权重分配给不同的尺度,而不是在训练后固定;通过统一聚合门生成的通道权重将生成的多尺度特征图动态融合;统一聚合门是一个子网,可在所有流之间共享参数,并具有许多有效的模型训练所需属性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定,在附图中:
图1是根据本申请一种实施例的多行人目标重识别方法的流程示意图;
图2是根据本申请一种实施例的多行人目标徘徊检测方法的流程图;
图3是行人目标检测模型的网络架构图;
图4是行人目标检测模型中的注意力混合模块的示意图;
图5是注意力混合模块中的自相关模块的示意图;
图6是行人目标检测模型中的双向融合模块的示意图;
图7是行人跟踪模型的示意图;
图8是行人重识别模型的网络架构图;
图9是行人重识别模型中的瓶颈特征提取模块的示意图;
图10是多行人目标重识别装置的结构示意图;
图11是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
如图1所示,第一方面,本申请实施例提供了一种多行人目标重识别方法,包括步骤:
获取包含至少两连续视频帧的视频流;
将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;
将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;
将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
本方案首先通过行人目标检测模型从视频流中检测出多行人目标,再利用行人跟踪模型来区分不同的行人,行人跟踪模型能够很好地识别一直在视频流中出现的行人,但是行人一旦离开视频流的监测范围再进入该视频流后就无法很好的被行人跟踪模型进行识别,故本方案通过行人重识别模型对行人的跟踪ID进行更正,行人重识别的目的就是将跟踪ID更正为正确的更正ID,进而实现视频中同一个行人精准的识别。
也就是说,本方案首先利用行人跟踪模型对视频流中的每一个行人分配唯一的跟踪ID,再通过行人重识别模型对跟踪ID进行更正得到更正ID。就是对于一直出现在视频内的行人,行人跟踪是比较准确的,而对于重新进入视频被行人重识别识别到的行人,更改其跟踪id得到变更ID。是随着行人在视频内的各种行为,可能行人重识别就会识别出错,但是行人跟踪其实知道是同一个目标,所以先在视频内使用行人跟踪进行基础的识别,行人重识别的错误就可以被降低。
在“获取包含至少两连续视频帧的视频流”步骤中,自摄像设备获取视频流。在本方案的实施例中,摄像设备可选自安置在街边对特定范围进行监控的摄像设备,根据需要进行行人重识别的场景不同选择不同的视频流。
在“将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果”步骤中,由于本方案适用于多个行人目标同时出现在视频流中的情况,比如街边对行人徘徊进行检测的场景,再比如繁华商圈对特定行人进行识别的场景,故设计本方案的行人目标检测模型可对视频帧中的多个行人目标进行检测。
本方案的行人目标检测模型是利用包含至少一标记有行人目标框的视频帧的视频流训练得到的。如图3所示,本方案提供了行人目标检测模型的网络架构图,其中行人目标检测模块的网络架构包括输入层、骨干网络层、颈部网络层以及检测头部,其中每一视频帧输入输入层获取输入图像,其中骨干网络层包括网络茎干和注意力混合网络,网络茎干将输入图像融合处理为块特征图,注意力混合网络包括第一注意力混合单元、第一双向融合模块、第二注意力混合单元以及第二双向融合模块,块特征图输入到第一注意力混合单元中输出不同分辨率的第一分辨率特征,第一分辨率特征输入第一双向融合模型中输出对应的第一双向融合特征,第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二分辨率特征输入到第二双向融合模块中输出不同分辨率的第二双向融合特征;不同分辨率的第二双向融合特征和第一双向融合特征输入到颈部网络层中进行自上而下融合以及自下而上融合输出不同分辨率的预测特征;预测特征分别输入不同的检测头部内进行预测得到行人检测结果。
本方案的视频流包含多个视频帧,行人目标检测模型对视频流中每一视频帧进行多目标的行人检测。具体的,视频帧输入到输入层被缩放成行人目标检测模型设定的图像大小得到输入图像。在本方案的实施例中,视频帧被缩放为W*H的图像大小作为输入图像。
输入图像在网络茎干中进行块融合得到块特征图。本方案的网络茎干为块融合模块,块融合模块将输入图像中每个2*2的相邻像素划分为一个块,然后将每个块中相同位置像素给拼在一起就得到了四个特征图,接着将这四个特征图在深度方向进行特征堆叠以及拼接,得到高宽为H/4*W/4的块特征图。
随后块特征图输入到注意力混合网络中进行特征提取得到不同分辨率的预测特征。具体的,块特征图首先输入到第一注意力混合单元中输入不同分辨率的第一分辨率特征,第一注意力混合单元包括注意力混合模块组1,注意力混合模块组2以及注意力混合模块组4,注意力混合模块组1并行连接注意力混合模块组2和注意力混合模块组4,块特征图经过注意力混合模块组1的处理后分别进入注意力混合模块组2和注意力混合模块组4中得到两个不同分辨率的第一分辨率特征。
不同分辨率的第一分辨率特征输入到第一双向融合模块中得到不同分辨率的第一双向融合特征。
不同分辨率的第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二注意力混合模块包括并行的注意力混合模块组3和注意力混合模块组5,不同分辨率的第一双向融合特征分别输入到注意力混合模块组3和注意力混合模块组5中得到对应的第二分辨率特征。
不同分辨率的第二分辨率特征输入到第二双向融合模块中得到不同分辨率的第二双向融合特征。
第一注意力混合单元中的注意力混合模块组1包括四个注意力混合模块,第一个注意力混合模块用于提取特征和降采样操作,其余三个注意力混合模块用于特征提取,块特征图输入到注意力模块组1后输出高宽为H/8*W/8分辨率特征。注意力混合模块组2包括八个注意力混合模块,第一个注意力混合模块用于提取特征和降采样操作,其余七个注意力混合模块用于特征提取,经过注意力混合模块组2的处理后得到高宽为H/16*W/16的第一分辨率特征。注意力混合模块组4包括八个注意力混合模块,八个注意力混合模块都用于特征提取,经过注意力混合模块组4的处理后得到高宽为H/8*W/8的第一分辨率特征。
第二注意力混合单元中的注意力混合模块组3包括四个注意力混合模块,第一个注意力混合模块用于特征提取和降采样操作,其余三个注意力混合模块用于特征提取,H/16*W/16的第一双向融合特征输入到注意力混合模块组中输出H/32*W/32的第二分辨率特征。注意力混合模块组5包括四个注意力混合模块,四个注意力混合模块都用于特征提取,H/8*W/8的第一双向融合特征输入到注意力混合模块组中输出H/8*W/8的第二分辨率特征。
如图4所示,注意力混合模块的结构被展示。注意力混合模块组1、注意力混合模块组2、注意力混合模块组3、注意力混合模块组4、注意力混合模块组5内均含有注意混合模块,每一注意力混合模块包括并行的第一卷积分支和第二卷积分支,其中第一卷积分支包括1*1卷积,1*1卷积后接不同分支的5*5深度卷积、9*9深度卷积和13*13深度卷积,不同分支的深度卷积后接特征堆叠层、自相关模块以及1*1卷积,其中第二卷积分支包括依次连接的5*5深度卷积和1*1卷积;第一卷积分支和第二卷积分支后接特征堆叠层以及通道混洗层。
输入到注意力混合模块中的特征输入第一卷积分支中经过1*1卷积后得到的卷积特征,再依次进入5*5深度卷积、9*9深度卷积和13*13深度卷积后得到不同分辨率的卷积特征,不同分辨率的卷积特征输入到特征堆叠层内进行特征堆叠,特征堆叠后的特征输入到自相关模块后输入1*1卷积得到第一卷积分支特征;同时,输入到注意力混合模块中的特征输入到第二卷积分支中经过5*5深度卷积后经过1*1卷积得到第二卷积分支特征,第一卷积分支特征和第二卷积分支特征进行特征堆叠后经过通道混洗得到输出特征。
为了减少计算成本,本方案在注意力混合模块中设计自相关模块,自相关模块的
结构图如图5所示。输入到自相关模块中的大小为H*W*C的特征I在一个分支内经过池化操
作和特征平展后产生*C二维序列;在另一个分支内经历特征平展产生HW*C二维序列; 利
用空间线性投影k对HW*C二维序列进行缩小得到HW*C/r二维序列,利用空间线性投影q对
*C二维序列进行缩小得到*C/r二维序列,其中r为控制特征压缩比的非负尺度因子。将二
维序列HW*C/r和*C/r进行矩阵相乘操作得到特征维度为HW*的HW*特征,HW*特
征依次经历空间线性投影Os、特征归一化、激活函数得到维度为HW*1的Ss空间注意力特征,
Ss空间注意力特征和特征平展产生的HW*C二维序列进行元素级特征相乘操作得到第一乘
积特征;利用通道线性投影k处理*C二维序列得到C*K2二维序列,利用通道线性投影q处
理*C二维序列得到C/r*K2二维序列,C*K2二维序列和C/r*K2二维序列融合后得到C*C/r二
维序列,利用通道线性投影Oc对C*C/r二维序列进行处理得到C/r*1 二维序列,C/r*1 二维
序列经历层归一化、激活函数得到维度为C*1的Sc通道注意力特征,Sc通道注意力特征和特
征平展产生的HW*C二维序列进行元素级特征相乘操作得到第二乘积特征,第一乘积特征和
第二乘积特征进行元素级相加操作后得到维度为H*W*C的融合特征。
在传统的自注意力机制中,若计算密集的空间注意力和重写特征都需要
操作,从而导致输入分辨率的二次复杂度;而自相关模块只需要与输入分辨率呈线性关系
的HW/C操作;此外生成的注意力图非常简单,重新加权过程只需要HW操作。换言之,本方
案的自注意力模块通过减少元素数量和减少特征维度的方式来减少计算量,在特征元素上
进行下采样,维度上进行r特征压缩以及相应的线性投影。
两个第一分辨率特征输入第一双向融合模块中输出对应的第一双向融合特征。在本方案中,注意力混合模块组2和注意力混合模块4利用第一双向融合模块进行高分辨率和低分辨率之间特征信息的通信,注意力混合模块组3和注意力混合模块组5利用第二双向融合模块进行高分辨率和低分辨率之间特征信息的通信,第一双向融合模块和第二双向融合模块均是使用并行路径结构来增强跨分辨率的特征集成和交互,第一双向融合模块和第二双向融合模块均采用相同结构的双向融合模块,该双向融合模块可以同步提取深层语义并保持浅层细节,两条路径相互补充以进一步提高性能。
如图6所示,图6展示了双向融合模块的结构。高分辨的分辨率特征和低分辨率的分辨率特征作为双向融合模块的输入特征,低分辨率的分辨率特征首先过1*1卷积和上采样得到上采样特征,上采样特征和高分辨率的分辨率特征进行元素级相加后输出高分辨率的双向融合特征,高分辨率的分辨率特征经历5*5深度卷积后经历1*1卷积和下采样得到下采样特征,下采样特征和低分辨率的分辨率特征进行元素级相加得到低分辨率的双向融合特征。对于双向融合模块而言,低分辨率的分辨率特征首先经过1*1卷积后再以相等的尺寸和高分辨率的分辨率特征进行更新,高分辨率的分辨率特征加入5*5且步长为1的卷积,经过1*1卷积后再以相等的尺寸和低分辨率的分辨率特征进行更新。
当不同分辨率的第一分辨率特征输入到第一双向融合模块中融合得到不同分辨率的第一双向融合特征;当不同分辨率的第二分辨率特征输入到第二双向融合模块中融合得到不同分辨率的第二双向融合特征。
需要说明的是,单路径主干在连续的池化和下采样操作中,单路径架构总是带来粗糙和不准确的特征图,这很不利于定位目标,而本方案采用的双路径体系结构能够并行提取高层级语义特征和低层级目标细节。具体的,由于细节从浅层到深卷积层逐步丢弃,因此产生的高级特征对准确定位目标作用很小;轻量化的单路径主干从输入图像的周围区域提取特征,尽管轻量化的检测器遵循采用FPN(特征金字塔网络)来缓解此问题,但只是通过元素相加或拼接来整合从浅层到深层的特征,此类不准确的特征可能对检测目标有害;另外较弱的视觉数据表示能力有时会分布在混乱的背景上,而包含感兴趣目标的区域则较少激活;根本的原因主要在于,由于感兴趣领域有限,轻量化的卷积在编码全局依赖性方面非常有限;因此一些网络利用大卷积核或自注意力,但是它们始终涉及巨大的计算成本和不适合实时目标检测(利用LSCM解决);而本方案的自相关模块(LSCM)来捕获全局交互,且只有很少的计算开销和网络参数;在Neck的LSCM被扩展为轻量级的交叉相关模块(LCCM),捕获相邻尺度特征之间的相互依赖性。
本方案在获取不同分辨率的第二双向融合特征后,高分辨率的第二双向融合特征、高分辨率的第一双向融合特征和低分辨率的第二双向融合特征分别进入颈部网络层进行1*1卷积得到特征P3,特征P2以及特征P1,特征P3对应的特征1和特征P2进行自上向下融合得到特征2,特征2和特征P1进行自上向下融合得到特征3,特征3和特征2进行自下而上融合得到特征5,特征5和特征1进行自下而上融合得到特征5,特征4、特征5和特征6分别输入到三个检测头部中进行预测。
如图3所示,检测头部内包含两个并行的卷积块,其中第一卷积块输出的结果经过1*1卷积得到目标分类结果,第二个卷积块输出的结果分别经过1*1卷积和另一个1*1卷积得到边框回归结果和交并比损失。
在“将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人”步骤中,本方案的行人跟踪模型采用的是StrongSort跟踪算法,该StrongSort跟踪算法可以实现对行人目标的跟踪以对同一行人分配应的跟踪ID,进而实现多行人目标的跟踪。
所述行人跟踪模型的结构如图7所示,所述行人跟踪模型包括并行的外观分支和运动分支,外观分支输出的外观分支结果和运动分支输出的运动分支结果进行特征关联得到跟踪ID,将跟踪ID标记在行人检测结果中,为每一个行人分配一个ID,得到跟踪行人检测结果。本方案的跟踪ID是用户的身份标识号码。
所述外观分支包括依次进行的特征提取网络、指数移动平均和代价损失,在外观分支中,采用一个更强的特征提取网络BoT来代替原来的简单CNN,以ResNeSt50为骨干,采用给DukeMTMCreID公开数据集对该ResNeSt50为骨干进行预训练,可以从视频流中提取出更多的鉴别特征。且利用JDE中提出的特征更新策略替换特征集合,该策略以指数移动平均(EMA)的方式更新第t帧的第i条轨迹的外观状态,这样的方式不仅提高了匹配质量,而且减少了时间消耗。也就是说,在外观分支中含有多个视频帧的视频流输入到特征提取网络中提取鉴别特征,鉴别特征再经过指数移动平均来进行更新后进入代价损失计算得到外观分支特征。
所述运动分支包括依次进行的相机运动补偿、噪声尺度自适应卡尔曼滤波算法以及确信阈值门,在运动分支中,采用ECC进行相机运动不畅,采用噪声尺度自适应卡尔曼滤波算法以考虑噪声尺度上的信息,且经过噪声尺度自适应卡尔曼滤波算法得到的特征一并输入到代价损失中进行计算。也就是说,在运动分支中含有多个视频帧的行人检测目标经过相机运动补偿后再进行噪声尺度自适应卡尔曼滤波算法计算,计算得到的特征计入代价损失中进行计算以及进入确信阈值门进行处理后得到运动分支特征。
其中代价损失在计算时是利用外观代价和运动代价的加权之和。
在“将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果”步骤中,已标记有跟踪ID的跟踪行人检测结果输入到行人重识别模型中更正ID,本方案的行人重识别模型是通过标记有行人ID的视频流进行训练的得到。
如图8所示,本方案提供的行人重识别模型的结构展示。行人重识别模型包括特征提取过滤网络、分支特征提取网络以及预测网络,其中所述特征提取过滤网络包括依次连接的特征提取层1、特征提取层2、过滤层1,特征提取层3以及过渡层2,所述分支特征提取网络包括4个分支的特征提取分支,每个特征提取分支对应一个损失函数,特征提取分支输出的分支特征进入预测网络中进行预测得到预测结果。
具体的,跟踪行人检测结果输入到特征提取过滤网络中得到提取特征,提取特征进入分支特征提取网络的四个分支中进行运算后得到分支特征,分支特征分别进入对应的预测网络中的预测分支得到预测结果,利用预测结果调整跟踪行人检测结果中的跟踪ID得到更正ID。
分支特征提取网络的分支1包括依次连接的特征提取层4、特征提取层5、特征水平切分、Gem池化、特征拼接以及损失函数;分支2包括依次连接的特征提取层、特征提取层5、GeM池化以及损失函数;分支3包括依次连接的特征提取层4、特征提取层5、特征水平切分、全局对比池化以及损失函数;分支4包括特征提取层4、特征提取层5、特征水平切分、相关性计算以及损失函数。本方案选用交叉熵loss、Triplet loss和center loss三种损失的加权和作为损失函数,且四个分支单独计算损失。
特征进入到分支1中进行特征提取层4的提取后再进入特征提取层5的提取,特征水平切分将特征切分为4块,随后4块特征分别进行Gem池化后进行特征拼接得到分支特征,并计算该分支特征的损失函数。特征进入到分支2中进行特征提取层4的提取后再进入特征提取层5的提取,特征经过GeM池化后得到分支特征,并计算该分支特征的损失函数。特征进入到分支3中进行特征提取层4的提取后再进入特征提取层5的提取,特征水平切分将特征切分为6块,对切分后的特征进行全局比对池化后得到分支特征,并计算该分支特征的损失函数。特征进入到分支4中进行特征提取层4的提取后再进入特征提取层5的提取,特征水平切分将特征切分为6块,计算每一块切分后的特征和其他切分后的特征之间的相关度得到分支特征,并计算该分支特征的损失函数。
进行Gem池化的公式如下式(1)和式(2)所示:
具体的,特征提取层1为利用一个7*7且步长为2的卷积和一个3*3最大池化且步长为2;特征提取层2为串联两个瓶颈特征提取模块;过渡层1是一个1*1卷积和一个2*2平均池化且步长为2;特征提取层3为串联两个瓶颈特征提取模块;过渡层2是一个1*1卷积和一个2*2平均池化且步长为2,特征提取层4为串联两个瓶颈特征提取模块;特征提取层5是一个1*1卷积层。
如图9所示,本方案提供的瓶颈特征提取模块的结构被展示,输入瓶颈特征提取模块的维度为B*4C*H*W特征经过1*1卷积后得到B*C*H*W的卷积特征,卷积特征经过1个深度卷积模块后得到B*4C*H*W特征,B*4C*H*W特征经过统一聚合门后再和B*4C*H*W特征进行融合得到第一融合特征;卷积特征经过2个深度卷积模块后得到B*C*H*W特征,B*C*H*W特征经过统一聚合门后再和B*C*H*W特征进行融合得到第二融合特征;卷积特征经过3个深度卷积模块后得到B*C*H*W特征,B*C*H*W特征经过统一聚合门后再和B*C*H*W特征进行融合得到第三融合特征;卷积特征经过4个深度卷积模块后得到B*4C*H*W特征,B*4C*H*W特征经过统一聚合门后再和B*4C*H*W特征进行融合得到第四融合特征,第一融合特征、第二融合特征、第三融合特征以及第四融合特征一并进行融合后进行1*1卷积得到B*4C*H*W卷积特征,B*4C*H*W卷积特征同输入瓶颈特征提取模块的维度为B*4C*H*W特征进行堆叠后得到输出特征。
其中瓶颈特征提取模块中的统一聚合门为:输入特征G,对其进行自适应全局平均池化,接着进行第一个全连接层,再接着是一个relu激活函数,随后是第二个全连接层,再然后对输出的第二个全连接层进行一个sigmoid激活函数输出一个结果,最后输出的结果和输入特征G进行特征元素级相乘。
实施例二、本方案提供了一种行人目标检测模型的构建方法,包括以下步骤:
获取包含至少一标记有行人目标框的视频帧的视频流;
将视频流输入到行人目标检测模型的网络架构中进行训练,其中行人目标检测模块的网络架构包括输入层、骨干网络层、颈部网络层以及检测头部,其中每一视频帧输入输入层获取输入图像,其中骨干网络层包括网络茎干和注意力混合网络,网络茎干将输入图像融合处理为块特征图,注意力混合网络包括第一注意力混合单元、第一双向融合模块、第二注意力混合单元以及第二双向融合模块,块特征图输入到第一注意力混合单元中输出不同分辨率的第一分辨率特征,第一分辨率特征输入第一双向融合模型中输出对应的第一双向融合特征,第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二分辨率特征输入到第二双向融合模块中输出不同分辨率的第二双向融合特征;不同分辨率的第二双向融合特征和第一双向融合特征输入到颈部网络层中进行自上而下融合以及自下而上融合输出不同分辨率的预测特征;预测特征分别输入不同的检测头部内进行预测得到行人检测结果。
关于该行人目标检测模型的具体架构如实施例一描述可见,在此不进行重复说明。
关于该行人目标检测模型的训练方法如下所示:
训练:随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch,选定激活函数RELU,选定损失函数Loss以及当前数据下最大迭代次数(代数);利用k-means算法生成9个候选框,根据大中小目标每层依次分配三个尺寸的候选框,即在每层的最后输出特征图上进行单元格划分,利用特征金字塔其中一层输出特征图尺寸大小为W*H,根据当前数据聚类结果,如果当前数据下聚类结果显示大目标数据多,就在输出特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图,其次根据聚类结果在中目标特征图上分配小于3个候选框,同理在小目标特征图上分配小于3个候选框,使其三个预测头部上分配的候选框个数为9个;确定好以上各个参数之后将标注图像按批次输入网络模型的体系结构神经网络,通过预测模块预测一个和目标对应的候选框,进行最后的卷积输出结果;输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型。
另外,在训练样本的选取上:本方案将采集到的视频帧分为远景二类(行人和人
脸)目标图像和近景二类目标图像;将采集的每类图像分为两列放在表格中,第一列放近景
二类目标图像,第二列放远景二类目标图像。在监控视频中,找出L段不同地点不同时间不
同天气的含有行人和人脸的视频流,Vi表示第i段视频,Vi中共有Ni幅视频帧,从Ni幅视频
帧中选取Mi幅视频帧作为训练与测试用的视频帧,则从L段视频可获得幅视频帧作
为训练与测试视频帧。
在一些实施例中,本方案对选取的训练与测试的视频帧进行数据增强:数据增强的方式包括但不限于几何变换数据增强:将采集每类中的P张目标图像通过平移、旋转图像(45°,90°,180°,270°)、缩小图像(1/3,1/2)、Mosaic数据增强和剪切变换来增加数据;收集8.25×P张图像,总共收集4×8.25×P张三类目标图像,其中0.9×4×8.25×P张图像作为训练数据,0.1×4×8.25×P张图像作为测试数据,并且训练数据和测试数据不交叉。
在训练完成行人目标检测模型后即可将该行人目标检测模型投入使用,在使用时将视频流输入到经训练后的行人目标检测模型中输出行人检测结果,其中所述行人检测结果包括行人的位置、行人目标框以及行人目标框的置信度。当然,该行人目标检测模型还可进行模型迭代,在模型迭代时搜集一批新的数据,让模型去检测这一批数据,将检测结果划分为两大类有框图像和无框图像,有框图像又分为真正目标图像和误报目标图像,无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像,其中将误报目标图像作为负样本,将含有行人目标但未检测到的图像作为训练样本,随后这些没检测到目标图像进行数据标注和数据增强,然后在原有模型的基础上在训练出一个新的模型,测试模型效果检查精度是否达标,如果新的模型未达标加入新的数据并对网络调整参数训练,如果模型精度已经达到要求并且在目前训练数据下最优时停止训练,循环这个步骤以达到模型适合实际环境中样本的复杂度。
实施例三:
本方案提供了一种行人目标检测模型,该模型采用实施例二所示的行人目标检测模型的构建方法训练得到。
实施例四:
在一些特定的应用场景中,本方案利用多行人目标重识别方法识别到视频流中的行人,并对该行人进行徘徊检测。此时,本方案包括步骤:
获取同一更正ID的行人目标;
若更正ID超过设定时长,且行人目标的轨迹路程大于设定位移,则判断该行人目标存在行人徘徊行为。
如图4所示,本方案还提供了一种多行人目标徘徊检测方法,包括以下步骤:获取包含至少两连续视频帧的视频流,基于上述提到的多行人目标检测方法检测到重识别行人检测结果,根据更正ID分类同一行人的行人目标;选定疑似行人目标,每间隔一端时间对疑似行人目标进行轨迹判断,计算疑似行人目标移动的轨迹路程,若所述轨迹路程大于设定位移且更正ID的出现时长大于设定时长,则判断该疑似行人目标存在徘徊行为。
值得说明的是,本方案在整个行人徘徊检测过程中,多个行人的徘徊检测是独立进行的,并不会互相干扰,以解决智慧社区治理中对于徘徊人员高效管理以及社区安全的高效治理。
关于该实施例二中提到的多行人目标重识别方法的内容参见实施例一的描述,在此不进行重复描述。
实施例五
基于相同的构思,参考图10,本申请还提出了一种多行人目标重识别装置,包括以下:
视频流获取单元,用于获取包含至少两连续视频帧的视频流;
行人检测单元,用于将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;
行人跟踪单元,用于将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;
行人重识别单元,用于将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
当然,在一些实施例中该多行人目标重识别装置还包括徘徊检测单元,用于设定疑似行人目标,每间隔一端时间对疑似行人目标进行轨迹判断,计算疑似行人目标移动的轨迹路程,若所述轨迹路程大于设定位移且更正ID的出现时长大于设定时长,则判断该疑似行人目标存在徘徊行为。
关于多行人目标重识别装置的技术特征的可详见上述实施例的介绍,为了避免重复介绍,在此不进行累赘说明。
实施例六
本实施例还提供了一种电子装置,参考图11,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项多行人目标重识别方法或者多行人目标徘徊检测方法的实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种多行人目标重识别方法或者多行人目标徘徊检测方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是视频流等,输出的信息可以是重识别的行人以及行人徘徊行为等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
获取包含至少两连续视频帧的视频流;
将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;
将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;
将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (17)
1.一种多行人目标重识别方法,其特征在于,包括以下步骤:
获取包含至少两连续视频帧的视频流;
将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;
将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;
将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
2.根据权利要求1所述的多行人目标重识别方法,其特征在于,行人目标检测模块的网络架构包括输入层、骨干网络层、颈部网络层以及检测头部,其中骨干网络层包括网络茎干和注意力混合网络,注意力混合网络包括第一注意力混合单元、第一双向融合模块、第二注意力混合单元以及第二双向融合模块,其中每一视频帧输入输入层获取输入图像,网络茎干将输入图像融合处理为块特征图,块特征图输入到第一注意力混合单元中输出不同分辨率的第一分辨率特征,第一分辨率特征输入第一双向融合模型中输出对应的第一双向融合特征,第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二分辨率特征输入到第二双向融合模块中输出不同分辨率的第二双向融合特征;不同分辨率的第二双向融合特征和第一双向融合特征输入到颈部网络层中进行自上而下融合以及自下而上融合输出不同分辨率的预测特征;预测特征分别输入不同的检测头部内进行预测得到行人检测结果。
3.根据权利要求2所述的多行人目标重识别方法,其特征在于,第一注意力混合单元包括注意力混合模块组1,注意力混合模块组2以及注意力混合模块组4,注意力混合模块组1并行连接注意力混合模块组2和注意力混合模块组4,块特征图经过注意力混合模块组1的处理后分别进入注意力混合模块组2和注意力混合模块组4中得到两个不同分辨率的第一分辨率特征;第二注意力混合模块包括并行的注意力混合模块组3和注意力混合模块组5,不同分辨率的第一双向融合特征分别输入到注意力混合模块组3和注意力混合模块组5中得到对应的第二分辨率特征。
4.根据权利要求3所述的多行人目标重识别方法,其特征在于,第一注意力混合单元中的注意力混合模块组1包括四个注意力混合模块,第一个注意力混合模块用于提取特征和降采样操作,其余三个注意力混合模块用于特征提取,注意力混合模块组2包括八个注意力混合模块,第一个注意力混合模块用于提取特征和降采样操作,其余七个注意力混合模块用于特征提取,注意力混合模块组4包括八个注意力混合模块,八个注意力混合模块都用于特征提取。
5.根据权利要求3所述的多行人目标重识别方法,其特征在于,注意力混合模块组3包括四个注意力混合模块,第一个注意力混合模块用于特征提取和降采样操作,注意力混合模块组5包括四个注意力混合模块,四个注意力混合模块都用于特征提取。
6.根据权利要求3所述的多行人目标重识别方法,其特征在于,注意力混合模块组1、注意力混合模块组2、注意力混合模块组3、注意力混合模块组4、注意力混合模块组5内均含有注意混合模块,每一注意力混合模块包括并行的第一卷积分支和第二卷积分支,其中第一卷积分支包括1*1卷积,1*1卷积后接不同分支的5*5深度卷积、9*9深度卷积和13*13深度卷积,不同分支的深度卷积后接特征堆叠层、自相关模块以及1*1卷积,其中第二卷积分支包括依次连接的5*5深度卷积和1*1卷积;第一卷积分支和第二卷积分支后接特征堆叠层以及通道混洗。
7.根据权利要求1所述的多行人目标重识别方法,其特征在于,第一双向融合模块和第二双向融合模块均采用相同结构的双向融合模块,高分辨的分辨率特征和低分辨率的分辨率特征作为双向融合模块的输入特征,低分辨率的分辨率特征首先过1*1卷积和上采样得到上采样特征,上采样特征和高分辨率的分辨率特征进行元素级相加后输出高分辨率的双向融合特征,高分辨率的分辨率特征经历5*5深度卷积后经历1*1卷积和下采样得到下采样特征,下采样特征和低分辨率的分辨率特征进行元素级相加得到低分辨率的双向融合特征。
8.根据权利要求1所述的多行人目标重识别方法,其特征在于,高分辨率的第二双向融合特征、高分辨率的第一双向融合特征和低分辨率的第二双向融合特征分别进入颈部网络层进行1*1卷积得到特征P3,特征P2以及特征P1,特征P3对应的特征1和特征P2进行自上向下融合得到特征2,特征2和特征P1进行自上向下融合得到特征3,特征3和特征2进行自下而上融合得到特征5,特征5和特征1进行自下而上融合得到特征5,特征4、特征5和特征6分别输入到三个检测头部中进行预测。
9.根据权利要求1所述的多行人目标重识别方法,其特征在于,行人跟踪模型采用的是StrongSort跟踪算法,所述行人跟踪模型包括并行的外观分支和运动分支,外观分支输出的外观分支结果和运动分支输出的运动分支结果进行特征关联得到跟踪ID,将跟踪ID标记在行人检测结果中得到跟踪行人检测结果。
10.根据权利要求1所述的多行人目标重识别方法,其特征在于,行人重识别模型包括特征提取过滤网络、分支特征提取网络以及预测网络,其中所述特征提取过滤网络包括依次连接的特征提取层1、特征提取层2、过滤层1,特征提取层3以及过渡层2,所述分支特征提取网络包括4个分支的特征提取分支,每个特征提取分支对应一个损失函数,特征提取分支输出的分支特征进入预测网络中进行预测得到预测结果,预测结果为重识别行人检测结果。
11.根据权利要求10所述的多行人目标重识别方法,其特征在于,分支特征提取网络的分支1包括依次连接的特征提取层4、特征提取层5、特征水平切分、Gem池化、特征拼接以及损失函数;分支2包括依次连接的特征提取层、特征提取层5、GeM池化以及损失函数;分支3包括依次连接的特征提取层4、特征提取层5、特征水平切分、全局对比池化以及损失函数;分支4包括特征提取层4、特征提取层5、特征水平切分、相关性计算以及损失函数。
12.根据权利要求11所述的多行人目标重识别方法,其特征在于,特征提取层1为利用一个7*7且步长为2的卷积和一个3*3最大池化且步长为2;特征提取层2为串联两个瓶颈特征提取模块;过渡层1是一个1*1卷积和一个2*2平均池化且步长为2;特征提取层3为串联两个瓶颈特征提取模块;过渡层2是一个1*1卷积和一个2*2平均池化且步长为2,特征提取层4为串联两个瓶颈特多行人目标徘徊检测方法。
13.一种多行人目标徘徊检测方法,其特征在于,包括步骤:
获取包含至少两连续视频帧的视频流;
基于上述权利要求1到12任一提到的多行人目标检测方法检测到重识别行人检测结果,根据更正ID分类同一行人的行人目标;
选定疑似行人目标,每间隔一端时间对疑似行人目标进行轨迹判断,计算疑似行人目标移动的轨迹路程,若所述轨迹路程大于设定位移且更正ID的出现时长大于设定时长,则判断该疑似行人目标存在徘徊行为。
14.一种行人目标检测模型的构建方法,其特征在于,包括以下步骤:
获取包含至少一标记有行人目标框的视频帧的视频流;
将视频流输入到行人目标检测模型的网络架构中进行训练,其中行人目标检测模块的网络架构包括输入层、骨干网络层、颈部网络层以及检测头部,其中每一视频帧输入输入层获取输入图像,其中骨干网络层包括网络茎干和注意力混合网络,网络茎干将输入图像融合处理为块特征图,注意力混合网络包括第一注意力混合单元、第一双向融合模块、第二注意力混合单元以及第二双向融合模块,块特征图输入到第一注意力混合单元中输出不同分辨率的第一分辨率特征,第一分辨率特征输入第一双向融合模型中输出对应的第一双向融合特征,第一双向融合特征输入到第二注意力混合单元中输出不同分辨率的第二分辨率特征,第二分辨率特征输入到第二双向融合模块中输出不同分辨率的第二双向融合特征;不同分辨率的第二双向融合特征和第一双向融合特征输入到颈部网络层中进行自上而下融合以及自下而上融合输出不同分辨率的预测特征;预测特征分别输入不同的检测头部内进行预测得到行人检测结果。
15.一种多行人目标重识别装置,其特征在于,包括以下:
视频流获取单元,用于获取包含至少两连续视频帧的视频流;
行人检测单元,用于将视频流输入到行人目标检测模型中输出包含至少一行人的行人检测结果;
行人跟踪单元,用于将对应多帧视频帧的行人检测结果输入到行人跟踪模型中输出标记有跟踪ID的跟踪行人检测结果,其中每一跟踪ID对应一行人;
行人重识别单元,用于将跟踪行人检测结果输入到行人重识别模型中更正ID,输出标记有更正ID的重识别行人检测结果,其中每一更正ID对应一行人。
16.一种电子装置,包括存储器和处理器,其特征在于,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行权利要求1到12任一的多行人目标重识别方法或权利要求13的多行人目标徘徊检测方法。
17.一种可读存储介质,其特征在于,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据执行权利要求1到12任一的多行人目标重识别方法或权利要求13的多行人目标徘徊检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211630718.XA CN115620242B (zh) | 2022-12-19 | 2022-12-19 | 多行人目标重识别方法、装置及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211630718.XA CN115620242B (zh) | 2022-12-19 | 2022-12-19 | 多行人目标重识别方法、装置及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115620242A true CN115620242A (zh) | 2023-01-17 |
CN115620242B CN115620242B (zh) | 2023-04-07 |
Family
ID=84880301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211630718.XA Active CN115620242B (zh) | 2022-12-19 | 2022-12-19 | 多行人目标重识别方法、装置及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620242B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631008A (zh) * | 2023-05-25 | 2023-08-22 | 沈阳工业大学 | 基于OSNet的可疑人员跟踪定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297905A (zh) * | 2021-04-19 | 2021-08-24 | 北京迈格威科技有限公司 | 一种目标跟踪方法、装置和电子*** |
KR20210114309A (ko) * | 2020-03-10 | 2021-09-23 | 연세대학교 산학협력단 | 다중 cctv 환경에서의 보행자 추적 장치 및 방법 |
CN114937151A (zh) * | 2022-05-06 | 2022-08-23 | 西安电子科技大学 | 基于多感受野和注意力特征金字塔的轻量级目标检测方法 |
CN115063836A (zh) * | 2022-06-10 | 2022-09-16 | 烟台大学 | 一种基于深度学习的行人跟踪与重识别方法 |
CN115147452A (zh) * | 2021-03-30 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 模型训练方法、装置及运动对象重识别方法 |
CN115457082A (zh) * | 2022-09-01 | 2022-12-09 | 湘潭大学 | 一种基于多特征融合增强的行人多目标跟踪算法 |
-
2022
- 2022-12-19 CN CN202211630718.XA patent/CN115620242B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210114309A (ko) * | 2020-03-10 | 2021-09-23 | 연세대학교 산학협력단 | 다중 cctv 환경에서의 보행자 추적 장치 및 방법 |
CN115147452A (zh) * | 2021-03-30 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 模型训练方法、装置及运动对象重识别方法 |
CN113297905A (zh) * | 2021-04-19 | 2021-08-24 | 北京迈格威科技有限公司 | 一种目标跟踪方法、装置和电子*** |
CN114937151A (zh) * | 2022-05-06 | 2022-08-23 | 西安电子科技大学 | 基于多感受野和注意力特征金字塔的轻量级目标检测方法 |
CN115063836A (zh) * | 2022-06-10 | 2022-09-16 | 烟台大学 | 一种基于深度学习的行人跟踪与重识别方法 |
CN115457082A (zh) * | 2022-09-01 | 2022-12-09 | 湘潭大学 | 一种基于多特征融合增强的行人多目标跟踪算法 |
Non-Patent Citations (2)
Title |
---|
TETSU MATSUKAWA ET AL.: ""Person re-identification using CNN features learned from combination of attributes"" * |
焦珊珊;李云波;陈佳林;潘志松;: "多目标跨摄像头跟踪技术" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631008A (zh) * | 2023-05-25 | 2023-08-22 | 沈阳工业大学 | 基于OSNet的可疑人员跟踪定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115620242B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fiaz et al. | Handcrafted and deep trackers: Recent visual object tracking approaches and trends | |
US11544964B2 (en) | Vision based target tracking that distinguishes facial feature targets | |
CN114092820B (zh) | 目标检测方法及应用其的移动目标跟踪方法 | |
Xiong et al. | Spatiotemporal modeling for crowd counting in videos | |
Hsieh et al. | Drone-based object counting by spatially regularized regional proposal network | |
Tran et al. | Video event detection: From subvolume localization to spatiotemporal path search | |
CN113963445B (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
Tran et al. | Optimal spatio-temporal path discovery for video event detection | |
Cao et al. | Large scale crowd analysis based on convolutional neural network | |
CN107633226A (zh) | 一种人体动作跟踪识别方法及*** | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
Zhao et al. | Robust unsupervised motion pattern inference from video and applications | |
KC et al. | Discriminative and efficient label propagation on complementary graphs for multi-object tracking | |
CN115620242B (zh) | 多行人目标重识别方法、装置及应用 | |
CN112101195A (zh) | 人群密度预估方法、装置、计算机设备和存储介质 | |
Haggui et al. | Human detection in moving fisheye camera using an improved YOLOv3 framework | |
CN109002808B (zh) | 一种人体行为识别方法及*** | |
CN112418203A (zh) | 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法 | |
Fan et al. | Generating high quality crowd density map based on perceptual loss | |
Wozniak et al. | Deep embeddings-based place recognition robust to motion blur | |
CN110110670A (zh) | 基于Wasserstein度量的行人跟踪中的数据关联方法 | |
Hua et al. | Onboard monocular pedestrian detection by combining spatio-temporal hog with structure from motion algorithm | |
Lei et al. | Convolutional restricted Boltzmann machines learning for robust visual tracking | |
Huang | Moving object detection in low-luminance images | |
Gao et al. | Deep rank-consistent pyramid model for enhanced crowd counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |