CN112906677A - 基于改进型ssd网络的行人目标检测与重识别方法 - Google Patents

基于改进型ssd网络的行人目标检测与重识别方法 Download PDF

Info

Publication number
CN112906677A
CN112906677A CN202110488919.XA CN202110488919A CN112906677A CN 112906677 A CN112906677 A CN 112906677A CN 202110488919 A CN202110488919 A CN 202110488919A CN 112906677 A CN112906677 A CN 112906677A
Authority
CN
China
Prior art keywords
network
pedestrian
video
identification
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110488919.XA
Other languages
English (en)
Other versions
CN112906677B (zh
Inventor
刘茜
蒋昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shenye Intelligent System Engineering Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110488919.XA priority Critical patent/CN112906677B/zh
Publication of CN112906677A publication Critical patent/CN112906677A/zh
Application granted granted Critical
Publication of CN112906677B publication Critical patent/CN112906677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进型SSD网络的行人目标检测与重识别方法,涉及目标检测与重识别技术领域,将目标场景下的视频集中的视频转换为有效视频帧图像序列,并对序列中的每一幅图像进行处理,构成视频数据集,构建与视频数据集对应的SSD网络,随后获得改进型SSD网络;分别针对各个改进型SSD网络,利用视频数据集中的有效视频帧图像对该改进型SSD网络进行训练,获得目标检测与重识别***;利用目标检测与重识别***,获得视频的目标检测与重识别结果。通过本发明的技术方案,实现了对行人目标的整体识别、以及局部识别,充分利用多尺度的全局和局部信息,有效提高目标检测和重识别的精确度,并减少整个检测识别过程所耗费的时间。

Description

基于改进型SSD网络的行人目标检测与重识别方法
技术领域
本发明涉及行人目标检测、以及行人重识别领域,具体而言涉及基于改进型SSD网络的行人目标检测与重识别方法。
背景技术
近年来,越来越多的监控摄像机被部署到各类公共场所中,视频监控在打击违法犯罪、维护社会安全等方面正发挥着越来越重要的作用,在视频监控的应用中,针对特定行人目标的检测与重识别是一个重要的需求。
行人目标检测技术用于在单个监控摄像机中精确定位和识别行人目标,行人重识别技术用于判断在不同监控摄像机下出现的行人是否是同一个人,将这两个技术结合在一起,可以在视频监控网络中快速定位到感兴趣的特定行人目标。
一般行人目标检测与重识别***包括行人目标检测和行人重识别两个子***。传统的做法是将这两个子***分割成两个步骤,先由行人目标检测子***处理目标检测,然后将检测结果交给行人重识别子***,重识别子***根据检测结果提取行人特征表示,再利用行人特征表示进行重识别。这种分两步走的策略割裂了目标检测和重识别过程,前面的目标检测一旦出错会严重影响后面的重识别的识别效果,并且整个目标检测和重识别过程会花费较多的时间。
发明内容
本发明的目的在于提供基于改进型SSD网络的行人目标检测与重识别方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
基于改进型SSD网络的行人目标检测与重识别方法,利用获得的目标检测与重识别***,对目标场景下的各个待识别视频进行目标检测与重识别,通过以下步骤A至步骤C,构建两个目标场景下历史时间周期内的两个视频数据集、以及对应改进型SSD网络,应用视频数据集对改进型SSD网络进行训练,获得目标检测与重识别***,然后应用目标检测与重识别***,通过以下步骤D,确定目标场景中所有待识别视频的目标检测结果、以及行人重识别结果:
步骤A、针对两个目标场景下历史时间周期内的两个视频集,将视频集中的各个视频转换为有效视频帧图像序列,并对序列中的每一幅图像进行标注处理,构成每个视频集对应的视频数据集,视频数据集包括训练集和验证集,随后进入步骤B;
步骤B、分别针对两个视频数据集,构建与视频数据集对应的SSD网络,并通过改进方法对该SSD网络进行改进,获得改进型SSD网络,即获得两个视频数据集分别对应的改进型SSD网络。随后进入步骤C;
步骤C、分别针对两个改进型SSD网络,利用对应视频数据集中的有效视频帧图像对该改进型SSD网络进行训练,综合训练好的两个改进型SSD网络构成目标检测与重识别***;
步骤D、针对各个待识别视频,基于目标检测与重识别***,以待识别视频的有效视频帧图像为输入,以待识别视频内行人预测结果、以及对应的视频帧图像位置标注为输出,获得视频的目标检测与行人重识别结果。
进一步地,步骤A包括以下步骤:
步骤A1、针对两个目标场景下历史时间周期内的两个视频集,将视频集中的各个视频转换为有效视频帧图像序列,针对有效视频帧图像序列中的各个帧图像,标注行人整体和行人部件的目标检测边界框的位置和大小,并进一步对各个有效视频帧图像的目标检测边界框中的行人类别、以及行人部件类别进行标注,其中,行人类别表示对应的行人,行人部件类别包括行人整体、头部、上半身、以及下半身,随后进入步骤A2;
步骤A2、基于有效视频帧图像序列,计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至视频集中,随后进入步骤A3;
步骤A3、针对不同目标场景的摄像机所采集视频构成的视频集,采用步骤A1和步骤A2处理得到视频数据集,将每个视频数据集中的视频分为训练集和验证集。
进一步地,步骤A1中,将视频集中的每幅视频帧图像保持宽高比缩放至257个像素,随后将缩放后的视频帧图像居中放置到大小为257*257的黑底图像中,获得每幅视频帧图像对应有效视频帧图像,进一步得到有效视频帧图像序列;
步骤A2中,使用Lucas-Kanade算法计算相邻两帧图像之间的光流轨迹图。
进一步地,步骤B中通过改进方法对SSD网络进行改进,SSD网络包括基础网络层、多尺度网络层、目标检测模块、识别模块、非极大值抑制模块,获得改进型SSD网络,改进型SSD网络包括基础网络层、多尺度网络层、定位子网络、行人部件识别子网络、行人重识别子网络、非极大值抑制模块、以及预测结果融合模块,对SSD网络进行改进,构建与视频数据集对应的改进型SSD网络,包括以下步骤:
步骤B1、更换SSD网络基础网络层中的五个卷积模块,更换后基础网络层的结构依次为:输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,并相应将原基础网络层中五个卷积模块的输出,分别更换为对应的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块的输出;
步骤B2、更换SSD网络中多尺度网络层中的卷积模块,对第四卷积模块的输出进行归一化操作,作为多尺度网络层第一尺度的输出;将多尺度网络层中的最后四个卷积模块更换为四个残差模块,并相应将最后四个卷积模块的输出分别更换为残差模块的输出,对残差模块的输出、以及未更换的卷积模块中每个卷积层的输出进行归一化操作;
步骤B3、将SSD网络中的目标检测模块设置为定位子网络,用于生成预测边界框;
将识别模块设置为行人部件识别子网络,用于识别预测边界框标识区域的行人部件类别;
在SSD网络中增加一个与定位子网络和行人部件识别子网络并行的,用于识别预测边界框标识区域内行人类别的行人重识别子网络,预测边界框的生成与行人部件识别、行人重识别同时进行,行人重识别子网络包括,根据步骤A中预处理后的视频帧图像标注的行人类别划分的共有识别模块、以及独有识别模块;
共有识别模块,用于对两个视频数据集中共有的行人类别进行识别,独有识别模块,用于对只存在于其中一个视频集中的行人类别进行识别;
对定位子网络、行人部件识别子网络、以及行人重识别子网络中的每一个卷积层的输出进行归一化操作;
步骤B4、通过标签平滑正则化方法优化行人部件类别和行人类别的概率分布;
步骤B5、更换SSD网络中误差函数的识别误差值,将识别误差值由一组标记的分类误差更换为行人部件类别识别误差值与行人类别识别误差值之和,在所有有效视频帧图像通过非极大值抑制模块完成非极大值抑制后,通过预测结果融合模块,将同一个行人的整体和部件的位置、大小、以及相应的类别信息进行筛选融合,输出改进型SSD网络。
进一步地,当视频集中所有有效视频帧图像完成非极大值抑制的筛选后,对预测边界框中标注的图像进行识别预测,具体包括:
首先,筛选出行人部件识别子网络识别的各个行人整体预测边界框,以及包含在行人整体预测边界框中的非行人整体预测边界框,构成行人组,每一个预测边界框中包括行人类别和行人部件类别;
其次,针对各个行人组,按照行人重识别子网络识别的行人类别,对各个行人组中的各个预测边界框进行分组,将相同的行人类别划分至相同子组中,计算每个子组的置信度,置信度=平均置信度*预测边界框个数占比,其中,预测边界框个数占比为子组预测边界框个数与行人组预测边界框个数之比;
最后,筛选出各个行人组内置信度最高的子组,将该子组的置信度、行人类别作为该行人组的置信度和行人类别,将行人组内行人整体预测边界框的预测结果作为该行人组的定位结果,输出各个行人组的定位结果、行人类别、以及置信度。
进一步地,步骤C中,分别针对两个改进型SSD网络:第一网络和第二网络,执行以下步骤:
步骤C1、对第一网络进行初始化,用第一视频集对应的第一视频数据集对该第一网络进行训练,完成训练后,将第一网络中的除独有识别模块之外的网络参数传递至第二视频集对应的第二网络中;
第二网络接收第一网络传递的网络参数,利用网络参数初始化第二网络中对应的网络模块,对第二网络中的独有识别模块进行随机初始化,利用第二网络对应的视频数据集对第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递至第一网络中;
第一网络接收第二网络传递的网络参数,并替换第一网络中对应模块的参数;
步骤C2、分别针对第一网络、以及第二网络,保持各个网络中的共有识别模块的网络参数固定不变,使用第一网络对应的第一视频数据集对第一网络进行训练,使用第二网络对应的第二视频数据集对第二网络进行训练,直至两个网络训练完成后,当两个网络在训练过程中的误差函数值均收敛,结束训练,否则执行步骤C3;
步骤C3、保持第一网络中除共有识别模块之外的参数不变,利用第一视频数据集对第一网络进行训练,完成训练后,将第一网络中共有识别模块的网络参数传递至第二网络中;
第二网络接收第一网络传递的网络参数,并对当前第二网络中的共有识别模块的参数进行替换,保持第二网络中除共有识别模块之外的参数不变,利用第二网络对应的第二视频数据集对第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递给第一网络;
第一网络接收第二网络传递的网络参数,并利用第二网络传递的网络参数更新相应网络模块,进入步骤C4;
步骤C4、第一网络和第二网络在步骤C3的训练过程中的误差函数值均收敛,则返回步骤C2,否则,任一网络的误差函数值不收敛,返回步骤C3。
进一步地,步骤D具体包括以下步骤:
步骤D1、将待识别的视频以有效视频帧图像序列的形式,逐帧输入至目标检测与重识别***中,根据步骤A1中的方法得到有效视频帧图像序列;
步骤D2、计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至待识别的视频中;
步骤D3、通过待识别视频中的目标场景,判断待识别视频的来源,选择与来源对应的目标网络,将待识别视频输入至目标网络,获得目标网络的预测结果;
步骤D4、结合行人组的置信度、以及行人类别,判断每一帧有效视频帧图像的行人类别,即获得待识别视频的识别结果。
本发明所述基于改进型SSD网络的视频目标检测与重识别方法,采用以上技术方案与现有技术相比,具有以下技术效果:
1.本发明通过对SSD网络的改进,对特征提取网络进行优化,使用层次较深的全卷积残差网络作为基础网络,并在多尺度网络使用残差模块,有效提升了特征表达能力;同时,由于在该网络中引入了标签平滑正则化方法优化行人部件类别和行人类别的概率分布,可以避免过拟合,提升网络模型的泛化能力;
2. 本发明将行人目标检测和行人重识别并行进行,可以降低目标检测结果对重识别的影响,并减少整个过程耗费的时间;
3. 本发明在行人目标检测时既对行人整体进行检测也对行人部件的局部进行检测,在行人重识别时,既对行人整体进行识别也对行人部件的局部进行识别,并融合行人整体和行人部件的全局和局部识别结果,充分利用了多尺度的全局和局部信息,有效提高了行人目标检测和重识别的精确度;
4. 本发明通过在行人重识别子网络中应用循环神经网络结构,以及在网络输入时输入光流轨迹图,充分利用了行人视频帧之间的先后关系信息来提高行人目标检测和重识别的效果。
附图说明
图1为本发明示例性实施例的行人目标检测与重识别方法的流程图;
图2为本发明示例性实施例的改进型SSD网络的结构示意图;
图3为本发明示例性实时例的第一残差模块的示意图;
图4为本发明示例性实施例的第二残差模块的示意图;
图5为本发明示例性实施例的重识别子网络的结构示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
结合图1至图5所示的本发明示例性实施例行人目标检测与重识别方法的流程,通过以下步骤A至步骤C,使用不同目标场景的两个第一摄像机和B,每个摄像机为不少于200个行人每人采集至少2段连续的不少于50帧的视频,一半以上行人要被两个摄像机捕捉到,在其余的行人中,一部分行人只被第一摄像机捕捉到,一部人行人只被第二摄像机捕捉到,构建不同目标场景下历史时间周期内的两个数据集、以及对应改进型SSD网络,视频数据集包括第一视频集、以及第二视频集,第一视频集中的视频来自第一摄像机,第二视频集中的视频来自第二摄像机,为了保证训练得到的网络模型具有较强的泛化能力,应用视频数据集对改进型SSD网络进行训练,获得目标检测与重识别***,然后应用目标检测与重识别***,通过以下步骤D,确定目标场景中所有待识别视频的识别结果:
参照图1,步骤A、针对不同目标场景下的历史时间周期内的两个视频集,将视频集中的各个视频转换为有效视频帧图像序列,并对序列中的每一幅图像进行标注和处理,构成对应的视频数据集,视频数据集包括训练集和验证集;
步骤A主要包括以下步骤:
步骤A1、针对两个目标场景下历史时间周期内的两个视频集,将视频集中各个视频的每幅视频帧图像保持宽高比缩放至257个像素,随后将缩放后的视频帧图像居中放置到大小为257*257的黑底图像中,获得每幅视频帧图像对应有效视频帧图像,即获得有效视频帧图像序列,对有效视频帧图像序列中的各个帧图像标注行人整体和行人部件的目标检测边界框的位置和大小,并进一步对各个有效视频帧图像的目标检测边界框中的行人类别、以及行人部件类别进行标注,其中,行人类别表示对应的行人,行人部件类别包括行人整体、头部、上半身、以及下半身,随后进入步骤A2;
步骤A2、基于有效视频帧图像序列,使用Lucas-Kanade算法计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至视频集中,随后进入步骤A3;
步骤A3、针对不同目标场景的两个摄像机,将采集到的所有视频按照4:1的比例分为训练集和验证集,每个集合中都包含来自两个摄像机的行人视频,且每个行人的视频都出现在两个集合中,将训练集划分为第一训练集和第二训练集,将验证集划分为验证集A和第二验证集,其中,第一训练集和验证集A中的行人视频来自第一摄像机,第二训练集和第二验证集中的行人视频来自第二摄像机,随后进入步骤B;
通过以上步骤A的实现,训练得到的网络模型具有较强的泛化能力,对视频帧图像进行有效预处理的转换限制了网络输入大小,加快行人目标检测和重识别的速度,通过两幅帧图像之间的光流轨迹图与视频帧图像一起输入网络模型,充分利用视频帧之间的关系提高行人目标检测和重识别的效果。
步骤B、针对两个视频数据集,构建与视频数据集对应的SSD网络,SSD网络包括基础网络层、多尺度网络层、目标检测模块、识别模块、非极大值抑制模块,获得改进型SSD网络,并通过改进方法对该SSD网络进行改进,获得改进型SSD网络,如图2所示,改进型SSD网络包括基础网络层、多尺度网络层、定位子网络、行人部件识别子网络、行人重识别子网络、非极大值抑制模块、以及预测结果融合模块,构建与视频数据集对应的SSD网络,包括以下步骤:
步骤B1、更换SSD网络中的基础网络层,将SSD300网络中的VGG-16基础网络层更换为改进的ResNet34V2基础网络层,改进的ResNet34V2基础网络层的结构依次为:输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,并将原VGG-16基础网络层中各个卷积模块的输出,分别更换为改进的ResNet34V2基础网络层对应卷积模块的输出;
其中,输入层对输入的视频帧图像的大小限制为257×257;
第一卷积模块由通道数为64的3个3×3卷积层依次连接组成,输出特征图大小不变;
第二卷积模块由通道数为64的如图3所示的1个第一残差模块和如图4所示的2个第二残差模块依次连接组成,输出特征图大小为129×129;
第三卷积模块由通道数为128的如图3所示的1个第一残差模块和如图4所示的3个第二残差模块依次连接组成,输出特征图大小为65×65;
第四卷积模块由通道数为256的如图3所示的1个第一残差模块和如图4所示的5个第二残差模块依次连接组成,输出特征图大小为33×33;
第五卷积模块由通道数为512的如图3所示的1个第一残差模块和如图4所示的2个第二残差模块依次连接组成,输出特征图大小为17×17;
第一残差模块结构表示如下:
x k+1 = [x k → BatchNormalization → Relu → Conv2D (3×3, Strides = 2)→ BatchNormalization → Relu → Conv2D (3×3, Strides = 1)] + [x k → Conv2D(1×1, Strides = 2)];
第二残差模块结构表示如下:
x k+1 = [x k → BatchNormalization → Relu → Conv2D (3×3, Strides = 2)→ BatchNormalization → Relu → Conv2D (3×3, Strides = 1)] + x k
式中,x k 表示残差模块的输入,x k+1表示残差模块的输出,→表示函数映射,BatchNormalization表示批标准化,Relu表示线性整流函数,Conv2D (3×3, Strides =2)表示步长为2的3×3二维卷积,Conv2D (3×3, Strides = 1)表示步长为1的3×3二维卷积,Conv2D (1×1, Strides = 2)表示步长为2的1×1二维卷积;
各个残差模块之间串行连接;
步骤B2、更换SSD网络中的多尺度网络层,对第四卷积模块的输出进行归一化操作之后,作为多尺度网络层的第一个尺度的输出,归一化操作为在第四卷积模块输出后,添加BatchNormalization层、Relu层、以及L2Normalization层;将多尺度网络层中的后四个卷积模块更换为如图3所示的残差模块,其中包含通道数为256的1个残差模块和通道数为128的3个残差模块,四个残差模块输出特征图大小依次为9×9、5×5、3×3、1×1,并相应将最后四个卷积模块的输出分别更换为残差模块的输出,并对残差模块的输出进行归一化操作,即在输出后添加BatchNormalization层、以及Relu层,对卷积模块Conv6和Conv7中的每一个卷积层后添加BatchNormalization层;
步骤B3、将SSD网络中的目标检测模块设置为定位子网络,用于生成预测边界框,在每个卷积层后添加BatchNormalization层;
将识别模块设置为行人部件识别子网络,用于识别预测边界框标示区域的行人部件类别,在每个卷积层后添加BatchNormalization层;
在改进型SSD网络中,通过使用层次较深的全卷积残差网络作为基础网络层,使用残差模块对多尺度网络层进行优化,并且添加BatchNormalization层提升网络的表达能力;
在SSD网络中增加一个与定位子网络和行人部件识别子网络并行的,用于识别预测边界框标识区域内行人类别的行人重识别子网络,可以降低目标检测结果对重识别的影响,并减少整个过程耗费的时间,并且通过在行人重识别子网络中应用循环神经网络结构,可以充分利用行人视频帧之间的先后关系信息来提高行人目标检测和重识别的效果,结合图5,行人重识别子网络包括共有识别模块、以及独有识别模块;
共有识别模块,用于对两个摄像机共有的行人类别进行识别,独有识别模块,用于对当前网络所对应的摄像机独有的行人类别进行识别;
对定位子网络、行人部件识别子网络、以及行人重识别子网络中的每个卷积层的输出进行归一化操作;
步骤B4、通过标签平滑正则化方法优化行人部件类别和行人类别的概率分布,避免网络过拟合,提升网络模型的泛化能力,具体优化过程如下:
将一个行人图像样本的行人部件类别或行人类别的标签的one-hot向量
[0,…,0,1,0,…,0]T
平滑为
Figure 928127DEST_PATH_IMAGE002
其中,ε为平滑因子,K是类别标签总数;
步骤B5、更换SSD网络中误差函数的识别误差值,将识别误差值更换为行人部件类别识别误差值与行人类别识别误差值之和,在所有有效视频帧图像完成非极大值抑制后,通过预测结果融合模块,将筛选后的预测结果进行融合后输出改进型SSD网络,当视频集中所有有效视频帧图像完成非极大值抑制的筛选后,对预测边界框中标注的图像进行识别预测,融合行人整体和行人部件的全局和局部识别结果,充分利用多尺度的全局和局部信息,可以有效提高行人目标检测和重识别的精确度,具体包括:
首先,筛选出行人部件识别子网络识别的各个行人整体的预测边界框,以及包含在行人整体预测边界框中的非行人整体预测边界框,构成行人组;
其次,针对各个行人组,按照行人重识别子网络识别的行人类别,对各个行人组中的各个预测边界框进行分组,将相同的行人类别划分至相同子组中,计算每个子组的置信度,置信度=平均置信度*预测边界框个数占比,其中,预测边界框个数占比为子组预测边界框个数与行人组预测边界框个数之比;
最后,筛选出各个行人组内置信度最高的子组,将该子组的置信度、行人类别作为该行人组的置信度和行人类别,将行人组内行人整体预测边界框的预测结果作为该行人组的定位结果,输出各个行人组的定位结果、行人类别、以及置信度,行人类别输出结果可能为背景,随后进入步骤C。
步骤C、分别针对每个改进型SSD网络,第一网络、第二网络,利用对应视频数据集中的有效视频帧图像对该改进型SSD网络进行训练,获得目标检测与重识别***,包括以下步骤:
步骤C1、对第一视频集对应的第一网络进行初始化,用第一视频集对应的视频数据集对第一网络进行训练,完成训练后,将第一网络中的除独有识别模块之外的网络参数传递至第二视频集对应的第二网络中;
第二网络接收第一网络传递的网络参数,利用网络参数初始化第二网络中对应的网络模块,对第二网络中的独有识别模块进行随机初始化,利用第二网络对应的视频数据集对第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递至第一网络中;
第一网络接收第二网络传递的网络参数,并替换第一网络中对应模块的参数;
步骤C2、分别针对第一网络、以及第二网络,保持各个网络中的共有识别模块的网络参数固定不变,使用第一网络对应的第一视频数据集对第一网络进行训练,使用第二网络对应的第二视频数据集对第二网络进行训练,直至两个网络训练完成后,当两个网络在训练过程中的误差函数值均收敛,结束训练,否则执行步骤C3;
步骤C3、保持第一网络中除共有识别模块之外的参数不变,利用第一视频数据集对该第一网络进行训练,完成训练后,将第一网络中共有识别模块的网络参数传递至第二网络中;
第二网络接收第一网络传递的网络参数,并对当前第二网络中的共有识别模块的参数进行替换,保持第二网络中除共有识别模块之外的参数不变,利用第二网络对应的视频数据集对该第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递给第一网络;
第一网络接收第二网络传递的网络参数,并利用第二网络传递的网络参数更新相应网络模块,进入步骤C4;
步骤C4、第一网络和第二网络在步骤C3的训练过程中的误差函数值收敛,则返回步骤C2,否则返回步骤C3,通过对网络的反复训练,可以实现目标检测和重识别的并行,降低目标检测对重识别的影响,提高获得目标检测和重识别结果的准确性,并缩短检测时间。
步骤D、针对各个待识别视频,基于目标检测与重识别***,以待识别视频的有效视频帧图像为输入,以待识别视频内行人预测结果、以及对应的视频帧图像位置标注为输出,获得视频的目标检测与行人重识别结果,具体包括以下步骤:
步骤D1、将待识别的视频以有效视频帧图像序列的形式,逐帧输入至目标检测与重识别***中,每幅视频帧图像保持宽高比将较大的边缩放到257个像素,然后将缩放后的图像居中放置到大小为257×257的黑底图像中,将按此方式处理后的图像视为有效的待识别行人视频帧图像;
步骤D2、基于有效视频帧图像序列,计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至待识别的视频中,以提高行人目标检测和重识别的精确效果;
步骤D3、通过待识别视频的目标场景,判断待识别视频的来源,选择与来源对应的目标网络,将待识别视频输入至目标网络,获得目标网络的预测结果;
步骤D4、结合行人组的置信度、以及行人类别,判断每一帧有效视频帧图像的行人类别,即获得待识别视频的识别结果;
如果置信度大于等于0.5,且行人类别是摄像机独有行人类别,则该图像归属于对应行人类别,只在其来源的摄像机中出现;
如果置信度大于等于0.5,且行人类别是摄像机共有行人类别,则该行人图像归属于对应行人类别,既在其来源的摄像机中出现,也在另一个摄像机中出现;
如果置信度大于等于0.5,且行人类别是背景,或者置信度小于0.5,则该行人图像属于已知行人类别的可能性较低,一般认为属于某个未知的新的行人类别。
根据本发明公开的实施例,还提出基于改进型SSD网络的视频目标检测与重识别***,包括:
一个或多个处理器;
存储器,存储可***作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括执行前述任一实施例的目标检测与行人重识别方法的过程。
尤其优选的,前述的处理器为计算机***的处理器,包括但不限于基于ARM的嵌入式处理器、基于X86的微处理器或者基于类型的处理器。
存储器被设置成可存储数据的载体,通常包括RAM和ROM。
应当理解,计算机***可以通过总线与各子***进行通信,获取相应参数,实现对各子***的运行实施控制。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (7)

1.基于改进型SSD网络的行人目标检测与重识别方法,利用获得的目标检测与重识别***,对目标场景下的各个待识别视频进行目标检测与重识别,其特征在于,构建两个目标场景下历史时间周期内的两个视频数据集、以及对应的两个改进型SSD网络,所述两个视频数据集包括第一视频数据集、第二视频数据集,视频数据集对应的改进型SSD网络包括第一网络、第二网络,执行以下步骤:
步骤A、针对两个目标场景下历史时间周期内的两个视频集,对视频集中的各个视频转换为有效视频帧图像序列,并对序列中的每一幅图像进行标注处理,构成每个视频集对应的视频数据集,所述视频数据集包括训练集和验证集,随后进入步骤B;
步骤B、分别针对两个视频数据集,构建与视频数据集对应的SSD网络,获得改进型SSD网络,即获得两个视频数据集分别对应的改进型SSD网络,随后进入步骤C;
步骤C、分别针对两个改进型SSD网络,利用对应视频数据集中的有效视频帧图像对该改进型SSD网络进行训练,训练好的两个改进型SSD网络构成目标检测与重识别***;
步骤D、针对各个待识别视频,基于目标检测与重识别***,以待识别视频的有效视频帧图像为输入,以待识别视频内行人预测结果、以及待识别视频对应的视频帧图像位置标注为输出,获得行人的目标检测与重识别结果。
2.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤A包括以下步骤:
步骤A1、针对两个目标场景下历史事件周期内的两个视频集,将视频集中的各个视频转换为有效视频帧图像序列,针对有效视频帧图像序列中的各个帧图像,标注行人整体和行人部件的目标检测边界框的位置和大小,并进一步对各个有效视频帧图像的目标检测边界框中的行人类别、以及行人部件类别进行标注,其中,行人类别表示对应的行人,行人部件类别包括行人整体、头部、上半身、以及下半身,随后进入步骤A2;
步骤A2、基于有效视频帧图像序列,计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至视频集中,随后进入步骤A3;
步骤A3、针对不同目标场景的摄像机,采用步骤A1和步骤A2处理得到的视频数据集,将每个视频数据集中的视频分为训练集和验证集。
3.根据权利要求2所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤A1中,将视频集中的每幅视频帧图像保持宽高比缩放至257个像素,随后将缩放后的视频帧图像居中放置到大小为257*257的黑底图像中,获得每幅视频帧图像对应有效视频帧图像,进一步得到有效视频帧图像序列;
所述步骤A2中,使用Lucas-Kanade算法计算相邻两帧图像之间的光流轨迹图。
4.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤B中的改进型SSD网络包括基础网络层、多尺度网络层、定位子网络、行人部件识别子网络、行人重识别子网络、非极大值抑制模块、以及预测结果融合模块,构建与视频数据集对应的改进型SSD网络,包括以下步骤:
步骤B1、更换SSD网络基础网络层中的五个卷积模块,更换后基础网络层的结构依次为:输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,并将原基础网络层中五个卷积模块的输出,分别更换为对应的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块的输出;
步骤B2、更换SSD网络中多尺度网络层中的卷积模块,对第四卷积模块的输出进行归一化操作,作为多尺度网络层第一尺度的输出,将多尺度网络层中的最后四个卷积模块更换为四个残差模块,并相应将最后四个卷积模块的输出分别更换为残差模块的输出,对残差模块的输出、以及未更换的卷积模块中每一个卷积层的输出进行归一化操作;
步骤B3、将SSD网络中的目标检测模块设置为定位子网络,用于生成预测边界框;
将识别模块设置为行人部件识别子网络,用于识别预测边界框标识区域的行人部件类别;
在SSD网络中增加一个与定位子网络和行人部件识别子网络并行的,用于识别预测边界框标识区域内行人类别的行人重识别子网络,预测边界框的生成与行人部件识别、行人重识别同时进行,所述行人重识别子网络包括,根据步骤A中预处理后的视频帧图像标注的行人类别划分的共有识别模块、以及独有识别模块;
所述共有识别模块,用于对两个视频集中共有的行人类别进行识别,所述独有识别模块,用于对只存在于其中一个视频集中的行人类别进行识别;
对所述定位子网络、所述行人部件识别子网络、以及所述行人重识别子网络中的每一个卷积层的输出进行归一化操作;
步骤B4、通过标签平滑正则化方法优化行人部件类别和行人类别的概率分布;
步骤B5、更换SSD网络中误差函数的识别误差值,将识别误差值由一组标记的分类误差更换为行人部件类别识别误差值与行人类别识别误差值之和,在所有有效视频帧图像通过非极大值抑制模块完成非极大值抑制后,通过预测结果融合模块,将同一个行人的整体和部件的位置、大小、以及相应的类别信息进行筛选融合。
5.根据权利要求4所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,当视频集中所有有效视频帧图像完成非极大值抑制的筛选后,对预测边界框中标注的图像进行识别预测,具体包括:
首先,筛选出行人部件识别子网络识别的各个行人整体预测边界框,以及包含在行人整体预测边界框中的非行人整体预测边界框,构成行人组,每一个预测边界框中包括行人类别和行人部件类别;
其次,针对各个行人组,按照行人重识别子网络识别的行人类别,对各个行人组中的各个预测边界框进行分组,将相同的行人类别划分至相同子组中,计算每个子组的置信度,所述置信度=平均置信度*预测边界框个数占比,其中,预测边界框个数占比为子组预测边界框个数与行人组预测边界框个数之比;
最后,筛选出各个行人组内置信度最高的子组,将该子组的置信度、行人类别作为该行人组的置信度和行人类别,将行人组内行人整体预测边界框的预测结果作为该行人组的定位结果,输出各个行人组的定位结果、行人类别、以及置信度。
6.根据权利要求1-4任意一项所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤C中分别针对两个改进型SSD网络执行以下步骤:
步骤C1、对第一网络进行初始化,用视频集A对应的视频数据集对第一网络进行训练,完成训练后,将第一网络中的除独有识别模块之外的网络参数传递至视频集B对应的第二网络中;
第二网络接收第一网络传递的网络参数,利用网络参数初始化第二网络中对应的网络模块,对第二网络中的独有识别模块进行随机初始化,利用第二网络对应的视频数据集对第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递至第一网络中;
第一网络接收第二网络传递的网络参数,并替换第一网络中对应模块的参数;
步骤C2、分别针对第一网络、以及第二网络,保持各个网络中的共有识别模块的网络参数固定不变,使用第一网络对应的第一视频数据集对第一网络进行训练,使用第二网络对应的第二视频数据集对第二网络进行训练,当两个网络在训练过程中的误差函数值均收敛,结束训练,否则执行步骤C3;
步骤C3、保持第一网络中除共有识别模块之外的参数不变,利用第一视频数据集对该第一网络进行训练,完成训练后,将第一网络中共有识别模块的网络参数传递至第二网络中;
第二网络接收第一网络传递的网络参数,并对当前第二网络中的共有识别模块的参数进行替换,保持第二网络中除共有识别模块之外的参数不变,利用第二网络对应的视频数据集对该第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递给第一网络;
第一网络接收第二网络传递的网络参数,并利用第二网络传递的网络参数更新相应网络模块,进入步骤C4;
步骤C4、第一网络和第二网络在步骤C3的训练过程中的误差函数值均收敛,则返回步骤C2,否则,任一网络的误差函数值不收敛,返回步骤C3。
7.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤D具体包括以下步骤:
步骤D1、将待识别的视频以有效视频帧图像序列的形式,逐帧输入至目标检测与重识别***中,根据步骤A1中的方法得到有效视频帧图像序列;
步骤D2、计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至待识别的视频中;
步骤D3、通过待识别视频中的目标场景,判断待识别视频的来源,选择与来源对应的目标网络,将待识别视频输入至目标网络,获得目标网络的预测结果;
步骤D4、结合行人组的置信度、以及行人类别,判断每一帧有效视频帧图像的行人类别,即获得待识别视频的识别结果。
CN202110488919.XA 2021-05-06 2021-05-06 基于改进型ssd网络的行人目标检测与重识别方法 Active CN112906677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488919.XA CN112906677B (zh) 2021-05-06 2021-05-06 基于改进型ssd网络的行人目标检测与重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488919.XA CN112906677B (zh) 2021-05-06 2021-05-06 基于改进型ssd网络的行人目标检测与重识别方法

Publications (2)

Publication Number Publication Date
CN112906677A true CN112906677A (zh) 2021-06-04
CN112906677B CN112906677B (zh) 2021-08-03

Family

ID=76108931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488919.XA Active CN112906677B (zh) 2021-05-06 2021-05-06 基于改进型ssd网络的行人目标检测与重识别方法

Country Status (1)

Country Link
CN (1) CN112906677B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419105A (zh) * 2022-03-14 2022-04-29 深圳市海清视讯科技有限公司 多目标行人轨迹预测模型训练方法、预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测***及方法
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与***
CN112001321A (zh) * 2020-08-25 2020-11-27 商汤国际私人有限公司 网络训练、行人重识别方法及装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600581A (zh) * 2016-12-02 2017-04-26 北京航空航天大学 一种基于双目立体视觉的列车运行故障自动检测***及方法
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与***
CN112001321A (zh) * 2020-08-25 2020-11-27 商汤国际私人有限公司 网络训练、行人重识别方法及装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419105A (zh) * 2022-03-14 2022-04-29 深圳市海清视讯科技有限公司 多目标行人轨迹预测模型训练方法、预测方法及装置

Also Published As

Publication number Publication date
CN112906677B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN109919977B (zh) 一种基于时间特征的视频运动人物跟踪与身份识别方法
US20180053318A1 (en) Image Target Tracking Method and System Thereof
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及***
CN108230291B (zh) 物体识别***训练方法、物体识别方法、装置和电子设备
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN111104903A (zh) 一种深度感知交通场景多目标检测方法和***
CN111767847A (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN111931603B (zh) 基于竞合网络的双流卷积网络的人体动作识别***及方法
Jadhav et al. Aerial multi-object tracking by detection using deep association networks
CN113159466A (zh) 一种短时光伏发电功率预测***及方法
WO2022213540A1 (zh) 目标检测、属性识别与跟踪方法及***
Wang et al. Background subtraction on depth videos with convolutional neural networks
CN113326738B (zh) 基于深度网络和字典学习的行人目标检测与重识别方法
CN112906677B (zh) 基于改进型ssd网络的行人目标检测与重识别方法
CN115661611A (zh) 一种基于改进Yolov5网络的红外小目标检测方法
CN117437382B (zh) 一种数据中心部件的更新方法及***
CN112733680B (zh) 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备
CN114241280A (zh) 一种主站调度***后台画面图像的动态识别方法
CN117333948A (zh) 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法
CN113724293A (zh) 一种基于视觉的智能网联公交场景下目标跟踪方法及***
CN115082517B (zh) 基于数据增强的赛马场景多目标追踪方法
CN111275733A (zh) 基于深度学习目标检测技术实现多艘船舶快速跟踪处理的方法
Jiang et al. Multi-camera calibration free bev representation for 3d object detection
CN111191524A (zh) 运动人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221024

Address after: 210000 C, 8 floor, Tak Kei Building, 188 Changjiang Road, Xuanwu District, Nanjing, Jiangsu.

Patentee after: NANJING SHENYE INTELLIGENT SYSTEM ENGINEERING Co.,Ltd.

Address before: No. 219, Ningliu Road, Nanjing City, 210,000 Jiangsu Province

Patentee before: Nanjing University of Information Science and Technology