CN111310609A - 基于时序信息和局部特征相似性的视频目标检测方法 - Google Patents

基于时序信息和局部特征相似性的视频目标检测方法 Download PDF

Info

Publication number
CN111310609A
CN111310609A CN202010075005.6A CN202010075005A CN111310609A CN 111310609 A CN111310609 A CN 111310609A CN 202010075005 A CN202010075005 A CN 202010075005A CN 111310609 A CN111310609 A CN 111310609A
Authority
CN
China
Prior art keywords
frame
target
feature
layer
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010075005.6A
Other languages
English (en)
Other versions
CN111310609B (zh
Inventor
古晶
刘芳
赵柏宇
焦李成
卞月林
巨小杰
张向荣
陈璞花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010075005.6A priority Critical patent/CN111310609B/zh
Publication of CN111310609A publication Critical patent/CN111310609A/zh
Application granted granted Critical
Publication of CN111310609B publication Critical patent/CN111310609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时序信息和局部特征相似性的视频目标检测方法,主要解决现有技术检测视频目标准确率较低和特征位置不匹配的问题。其实现方案是:用ResNet网络提取视频每一帧的特征图;用局部特征哈希相似性度量计算特征图的相似性,并用该哈希相似性得分表示当前位置特征的变化;对相邻帧的特征图进行加权,并与当前帧特征相加,得到当前帧的修正特征;用基于稀疏分类的区域候选网络得到修正特征的候选目标框;用感兴趣区域池化得到大小统一的特征,并将这些大小统一的特征输入到训练后的分类和回归网络,得到检测结果。本发明提高了检测准确率较高,降低了计算复杂度。

Description

基于时序信息和局部特征相似性的视频目标检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种视频目标检测方法,可用于视频中的目 标识别和定位。
背景技术
计算机视觉是人工智能的一个重要领域,是一门关于计算机和软件***的科学,可以让 计算机对图像及场景进行识别和理解,计算机视觉包括图像识别、目标检测、图像生成、图 像超分辨率重建等分支领域。视觉理解主要有三个层次,分别是分类、检测、分割。其中, 分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同 时获得这一目标的识别结果和定位结果。相比分类,检测给出的是对图片前景和背景的理解, 还需要从背景中分离出感兴趣的目标,并确定这一目标的识别和定位结果。
目标检测是计算机视觉领域一个重要的研究课题,它的实现是运动目标跟踪、目标识别、 行为理解等视频分析技术的关键,目标检测的效果将直接影响到后续工作的进展。图像目标 检测任务在过去几年的时间取得了巨大的进展,检测性能得到明显提升。特别是在视频监控、 车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。但是,要将图像检测技术 直接用到视频检测会面临新的挑战。第一,把深度网络应用到所有的视频帧会带来巨大的运 算代价;第二,对存在运动模糊、视频虚焦、罕见姿势的视频帧直接用图像检测技术检测, 准确率较低。
为了提高视频检测准确率,较早的方法大都关注后处理,在图像目标检测对每一帧进行 检测之后,利用视频特有的时序特征对检测结果做进一步处理,如管道卷积神经网络T-CNN 和序列非极大值抑制Seq-NMS方法。但是,这种后处理方法无疑增加了检测所需的计算,减 小了检测速度,无法满足实时性的需求。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于时序信息和局部特征相似性 的视频目标检测方法,以提高检测速度,满足实时性的需求。
本发明的技术方案是这样实现的:
本发明的技术思路是充分利用视频序列的时序信息、挖掘相邻帧图像中目标特征的变化, 其方案是:先用ResNet网络提取视频每一帧的特征图;再以自适应的方式,利用相邻前序 帧的时序信息对当前帧的特征进行修正;再通过基于稀疏分类的区域候选网络得到修正特征 的候选目标框;再用感兴趣区域池化得到大小统一的特征,随后通过分类和回归网络得到最 终的检测结果,具体实现步骤包括如下:
1.基于时序信息和局部特征相似性的视频目标检测方法,其特征在于,包括如下:
(1)分别对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到 I(t)的特征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1)
(2)计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)
(3)基于时序信息计算视频帧I(t)的修正特征图F'(t)
(3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax 操作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1)
(3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置加权求和,并 与F(t)相加,得到视频帧I(t)的修正特征图F'(t)
(4)用视频帧I(t)的修正特征图F'(t)选择视频帧I(t)的候选目标区域:
(4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧 的中间层特征图F”(t)
(4.2)在特征图的各个位置生成9个不同尺度的锚框,即先设置大小为16×16的基锚框, 保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大(8,16,32)个尺 度,一共得到9个锚框。
(4.3)训练softmax层和目标框回归层参数,得到训练后的softmax层和目标框回归层;
(4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层判断是否 含有目标:
若含有目标,则用训练后的目标框回归对锚框坐标进行微调,得到I(t)帧的若干候选目 标区域,执行(5);
若不含有目标,则将锚框丢弃;
(5)在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其 大小统一的候选区域特征;
(6)用各个候选区域特征得到视频帧的目标类别和目标框位置:
(6.1)训练分类和回归网络,得到训练后的分类和回归网络:
(6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视 频帧I(t)的目标类别和目标框位置。
进一步,(2)中计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1),实 现如下:
(2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
(2.1a)对第t帧I(t)的特征图F(t),在任一位置(i,j)上取八邻域,构成以位置(i,j)为中 心的邻域特征块
Figure BDA0002378273530000031
Figure BDA0002378273530000032
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure BDA0002378273530000033
(2.1b)对第t-k帧I(t-k)的特征图F(t-k),在位置(i,j)上取八邻域,构成以位置(i,j)为 中心的邻域特征块
Figure BDA0002378273530000034
Figure BDA0002378273530000035
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure BDA0002378273530000036
(2.1c)将第t帧I(t)的邻域特征块
Figure BDA0002378273530000037
中每个值与其平均值
Figure BDA0002378273530000038
比较,并将
Figure BDA0002378273530000039
中大于或 等于均值
Figure BDA00023782735300000310
处的哈希值设为1,将
Figure BDA00023782735300000311
中小于均值
Figure BDA00023782735300000312
处的哈希值设为0,得到由0和1组 成的
Figure BDA00023782735300000313
哈希表示
Figure BDA00023782735300000314
(2.1d)将第t-k帧I(t-k)的邻域特征块
Figure BDA00023782735300000315
中每个值与其平均值
Figure BDA00023782735300000316
比较,并将
Figure BDA00023782735300000317
中大于或等于均值
Figure BDA00023782735300000318
处的哈希值设为1,将
Figure BDA00023782735300000319
中小于均值
Figure BDA00023782735300000320
处的哈希值设为0,得 到由0和1组成的
Figure BDA00023782735300000321
哈希表示
Figure BDA00023782735300000322
(2.1e)计算
Figure BDA00023782735300000323
哈希表示
Figure BDA00023782735300000324
Figure BDA00023782735300000325
哈希表示
Figure BDA00023782735300000326
的汉明距离
Figure BDA00023782735300000327
(2.1f)用邻域特征块
Figure BDA0002378273530000041
所包含值的个数减去汉明距离
Figure BDA0002378273530000042
得到第t帧的特征图和第 t-k帧的特征图在位置(i,j)上的哈希相似性得分
Figure BDA0002378273530000043
(2.1g)重复(2.1a)–(2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k)
(2.2)重复(2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分 s(t,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s(t ,t-k),...,s(t,t-1)
本发明与现有技术相比,具有如下优点:
1)本发明在两阶段图像目标检测方法的基础上,基于时序信息,考虑相邻帧间的关系, 在多帧构成的视频序列上,通过对相邻帧的特征进行加权,并与当前帧特征相加,自适应地 得到当前帧的修正特征,可对存在运动模糊、视频虚焦、罕见姿势的视频帧修正特征后检测, 提高了检测准确率。
2)本发明在利用时序信息对特征进行修正中,利用局部特征哈希相似性度量计算特征 相似性,并用该哈希相似性得分表示当前位置特征的变化,解决了由于视频中运动目标位置 变化带来的特征位置不匹配问题,与常见的相似性度量方法相比,降低了计算复杂度,提高 了运行效率。
附图说明
图1是本发明的实现流程图;
图2是本发明中计算局部特征哈希相似性得分的子流程图;
图3是本发明中计算修正特征的子流程图;
图4和图5是用本发明进行视频目标检测的效果图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细说明。
本发明的实施主要分为训练和测试两个部分,训练过程是通过计算模型损失函数和反向 传播,更新模型参数;测试过程是固定参数,先利用时序信息计算视频帧的修正特征,再用 修正特征得到视频帧的目标类别和目标框位置。
参照图1,本实例的实现步骤如下:
步骤1,计算第t帧视频帧及其前序帧的特征图。
对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到I(t)的特 征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1)
所述ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络,其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层 和恒等映射组合而成。
步骤2,计算第t帧视频帧与其前k帧的局部特征哈希相似性得分。
2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
参照图2,本步骤的具体实现如下:
2.1a)对第t帧I(t)的特征图F(t),在任一位置(i,j)上取八邻域,构成以位置(i,j)为中 心的邻域特征块
Figure BDA0002378273530000051
Figure BDA0002378273530000052
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure BDA0002378273530000053
2.1b)对第t-k帧I(t-k)的特征图F(t-k),在位置(i,j)上取八邻域,构成以位置(i,j)为中 心的邻域特征块
Figure BDA0002378273530000054
Figure BDA0002378273530000055
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure BDA0002378273530000056
2.1c)将第t帧I(t)的邻域特征块
Figure BDA0002378273530000057
中每个值与其平均值
Figure BDA0002378273530000058
比较,并将
Figure BDA0002378273530000059
中大于或 等于均值
Figure BDA00023782735300000510
处的哈希值设为1,将
Figure BDA00023782735300000511
中小于均值
Figure BDA00023782735300000512
处的哈希值设为0,得到由0和1组 成的
Figure BDA00023782735300000513
哈希表示
Figure BDA00023782735300000514
2.1d)将第t-k帧I(t-k)的邻域特征块
Figure BDA00023782735300000515
中每个值与其平均值
Figure BDA00023782735300000516
比较,并将
Figure BDA00023782735300000517
中大于或等于均值
Figure BDA00023782735300000518
处的哈希值设为1,将
Figure BDA00023782735300000519
中小于均值
Figure BDA00023782735300000520
处的哈希值设为0,得 到由0和1组成的
Figure BDA00023782735300000521
哈希表示
Figure BDA00023782735300000522
2.1e)计算
Figure BDA00023782735300000523
哈希表示
Figure BDA00023782735300000524
Figure BDA00023782735300000525
哈希表示
Figure BDA00023782735300000526
的汉明距离
Figure BDA00023782735300000527
Figure BDA0002378273530000061
Figure BDA0002378273530000062
其中,
Figure BDA0002378273530000063
分别为
Figure BDA0002378273530000064
中第l个元素的值;
2.1f)用邻域特征块
Figure BDA0002378273530000065
所包含值的个数减去汉明距离
Figure BDA0002378273530000066
得到第t帧的特征图和第 t-k帧的特征图在位置(i,j)上的哈希相似性得分
Figure BDA0002378273530000067
2.1g)重复2.1a)–2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k)
2.2)重复步骤2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分s(t,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s(t ,t-k),...,s(t,t-1)
步骤3,计算第t帧视频帧的修正特征图。
参照图3,本步骤实现如下:
3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax操 作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1)
3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置进行加权求和, 并与F(t)相加,得到视频帧I(t)的修正特征图F'(t)
Figure BDA0002378273530000068
其中β为权重因子,
Figure BDA0002378273530000069
步骤4,用第t帧视频帧的修正特征图选择候选目标区域。
4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧 的中间层特征图F”(t)
4.2)在中间层特征图F”(t)的各个位置生成9个不同尺度的锚框,即先设置大小为16×16 的基锚框,保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大 (8,16,32)个尺度,一共得到9个锚框;
4.3)训练softmax层和目标框回归层参数:
4.3a)随机初始化softmax层和目标框回归层参数;
4.3b)对每一锚框,用初始化后的softmax层计算锚框含有目标的概率,用初始化后的 目标框回归计算锚框的参数化坐标;
4.3c)用约束softmax层参数的L1正则项构造区域候选损失函数
Figure BDA0002378273530000071
Figure BDA0002378273530000072
其中,ei为softmax层计算的第i个锚框Ai含有目标的概率,
Figure BDA0002378273530000073
是锚框Ai是否含有目标 的真实值标签,oi是锚框Ai的参数化坐标,
Figure BDA0002378273530000074
是与锚框Ai对应的真实值目标框的坐标,
Figure BDA0002378273530000075
是目标是否存在的对数损失,
Figure BDA0002378273530000076
是目标框回归的Smooth L1损失,
Figure BDA0002378273530000077
为softmax层参数,
Figure BDA0002378273530000078
为约束softmax层参数的L1正则项,Ncls为训练批次的数量,Nreg为锚框数量,λ1和λ2是平衡权重;
4.3d)利用区域候选损失函数,通过反向传播算法更新softmax层和目标框回归层参数, 直到区域候选损失函数收敛,得到训练后的softmax层和目标框回归层;
4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层计算锚框含 有目标的概率p,并将该概率与设定的阈值q进行比较:
若p>q,则锚框含有目标,再用训练后的目标框回归层对锚框坐标进行微调,得到I(t)帧的若干候选目标区域,执行步骤5;
若p≤q,则锚框不含有目标,并将锚框丢弃。
步骤5,对每个候选目标区域提取大小统一的候选区域特征。
在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其大小 统一的候选区域特征,即先将每个候选目标区域在修正特征图F'(t)上划分为wr×hr个网格, 再在每个网格里进行最大池化操作,得到大小统一为wr×hr的候选区域特征。
步骤6,用各个候选区域特征得到视频帧的目标类别和目标框位置。
6.1)训练分类和回归网络:
6.1a)随机初始化分类和回归网络的参数;
6.1b)对每一个候选区域特征,用初始化后分类网络计算候选区域属于各个类别的概率, 再用初始化后的回归网络计算候选区域的参数化坐标;
6.1c)构造目标检测损失函数
Figure BDA0002378273530000081
Figure BDA0002378273530000082
其中,z是第i个候选区域的真实类别,
Figure BDA0002378273530000083
是第i个候选区域属于z类的概率,γ是专注 参数,
Figure BDA0002378273530000084
是目标分类的focal loss损失;oi是第i个候选区域的参数化坐标,
Figure BDA0002378273530000085
是与第i个候选区域对应的真实目标框的坐标向量,
Figure BDA0002378273530000086
是目标框的SmoothL1回 归损失,λ是平衡权重;
6.1d)利用目标检测损失函数,通过反向传播算法更新分类和回归网络参数,直到目标 检测损失函数收敛,得到训练后的分类和回归网络;
6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视频 帧I(t)的目标类别和目标框位置。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
使用带有RTX 2080TI显卡的工作站,使用PyTorch软件框架。
选用目标为飞机的画面较为模糊的连续四帧图像作为第一组被检测的视频序列,如图 4(a)-4(d);
选用目标为狗的目标快速运动的连续四帧图像作为第二组被检测的视频序列,如图 5(a)-5(d)。
2.仿真内容
仿真1,用本发明的方法对第一组被检测的视频序列进行视频目标检测,得到的第四帧 的检测结果,如图4(d)。
仿真2,用本发明的方法对第二组被检测的视频序列进行视频目标检测,得到的第四帧 的检测结果,如图5(d)。
3.仿真结果分析
从图4(d)可以看出在画面较为模糊的情况下,本发明能准确检测出视频中目标的类别 和位置,从图5(d)可以看出在高速剧烈的动作下,本发明能准确检测出视频中形态变化较 大的目标。

Claims (6)

1.基于时序信息和局部特征相似性的视频目标检测方法,其特征在于,包括如下:
(1)分别对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到I(t)的特征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1)
(2)计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)
(3)基于时序信息计算视频帧I(t)的修正特征图F'(t)
(3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax操作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1)
(3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置加权求和,并与F(t)相加,得到视频帧I(t)的修正特征图F'(t)
(4)用视频帧I(t)的修正特征图F'(t)选择视频帧I(t)的候选目标区域:
(4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧的中间层特征图F”(t)
(4.2)在特征图的各个位置生成9个不同尺度的锚框,即先设置大小为16×16的基锚框,保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大(8,16,32)个尺度,一共得到9个锚框。
(4.3)训练softmax层和目标框回归层参数,得到训练后的softmax层和目标框回归层;
(4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层判断是否含有目标:
若含有目标,则用训练后的目标框回归对锚框坐标进行微调,得到I(t)帧的若干候选目标区域,执行(5);
若不含有目标,则将锚框丢弃;
(5)在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其大小统一的候选区域特征;
(6)用各个候选区域特征得到视频帧的目标类别和目标框位置:
(6.1)训练分类和回归网络,得到训练后的分类和回归网络:
(6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视频帧I(t)的目标类别和目标框位置。
2.根据权利要求1所述的方法,其特征在于,(2)中计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1),实现如下:
(2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
(2.1a)对第t帧I(t)的特征图F(t),在任一位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块
Figure FDA0002378273520000021
Figure FDA0002378273520000022
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure FDA0002378273520000023
(2.1b)对第t-k帧I(t-k)的特征图F(t-k),在位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块
Figure FDA0002378273520000024
Figure FDA0002378273520000025
中的所有值求平均,得到位置(i,j)处的特征平均值
Figure FDA0002378273520000026
(2.1c)将第t帧I(t)的邻域特征块
Figure FDA0002378273520000027
中每个值与其平均值
Figure FDA0002378273520000028
比较,并将
Figure FDA0002378273520000029
中大于或等于均值
Figure FDA00023782735200000210
处的哈希值设为1,将
Figure FDA00023782735200000211
中小于均值
Figure FDA00023782735200000212
处的哈希值设为0,得到由0和1组成的
Figure FDA00023782735200000213
哈希表示
Figure FDA00023782735200000214
(2.1d)将第t-k帧I(t-k)的邻域特征块
Figure FDA00023782735200000215
中每个值与其平均值
Figure FDA00023782735200000216
比较,并将
Figure FDA00023782735200000217
中大于或等于均值
Figure FDA00023782735200000218
处的哈希值设为1,将
Figure FDA00023782735200000219
中小于均值
Figure FDA00023782735200000220
处的哈希值设为0,得到由0和1组成的
Figure FDA0002378273520000031
哈希表示
Figure FDA0002378273520000032
(2.1e)计算
Figure FDA0002378273520000033
哈希表示
Figure FDA0002378273520000034
Figure FDA0002378273520000035
哈希表示
Figure FDA0002378273520000036
的汉明距离
Figure FDA0002378273520000037
(2.1f)用邻域特征块
Figure FDA0002378273520000038
所包含值的个数减去汉明距离
Figure FDA0002378273520000039
得到第t帧的特征图和第t-k帧的特征图在位置(i,j)上的哈希相似性得分
Figure FDA00023782735200000310
(2.1g)重复(2.1a)–(2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k)
(2.2)重复(2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分s(t ,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分s(t ,t-k),...,s(t,t-1)
3.根据权利要求1所述的方法,其特征在于,(1)中的ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络,其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层和恒等映射组合而成。
4.根据权利要求1所述的方法,其特征在于,(4.3)所述的训练softmax层和目标框回归层参数,实现如下:
(4.3a)随机初始化softmax层和目标框回归层参数;
(4.3b)对每一锚框,用初始化后的softmax层计算锚框含有目标的概率,用初始化后的目标框回归计算锚框的参数化坐标;
(4.3c)用约束softmax层参数的L1正则项构造区域候选损失函数
Figure FDA00023782735200000311
Figure FDA00023782735200000312
其中,ei为softmax层计算的第i个锚框Ai含有目标的概率,
Figure FDA00023782735200000313
是锚框Ai是否含有目标的真实值标签,oi是锚框Ai的参数化坐标,
Figure FDA00023782735200000314
是与锚框Ai对应的真实值目标框的坐标,
Figure FDA0002378273520000041
是目标是否存在的对数损失,
Figure FDA0002378273520000042
是目标框回归的Smooth L1损失,
Figure FDA0002378273520000043
为softmax层参数,
Figure FDA0002378273520000044
为约束softmax层参数的L1正则项,Ncls为训练批次的数量,Nreg为锚框数量,λ1和λ2是平衡权重;
(4.3d)利用区域候选损失函数,通过反向传播算法更新softmax层和目标框回归层参数,直到区域候选损失函数收敛,得到训练后的softmax层和目标框回归层。
5.根据权利要求1所述的方法,其特征在于,(4.4)中用训练后的softmax层判断锚框是否含有目标,是用训练后的softmax层计算锚框含有目标的概率p,并将该概率与设定的阈值q进行比较:
若p>q,则锚框含有目标;
若p≤q,则锚框不含有目标。
6.根据权利要求1所述的方法,其特征在于,(6.1)所述的训练分类和回归网络,实现如下:
(6.1a)随机初始化分类和回归网络的参数;
(6.1b)对每一个候选区域特征,用初始化后分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的参数化坐标;
(6.1c)构造目标检测损失函数
Figure FDA0002378273520000045
Figure FDA0002378273520000046
其中,z是第i个候选区域的真实类别,
Figure FDA0002378273520000047
是第i个候选区域属于z类的概率,γ是专注参数,
Figure FDA0002378273520000048
是目标分类的focal loss损失;oi是第i个候选区域的参数化坐标,
Figure FDA0002378273520000049
是与第i个候选区域对应的真实目标框的坐标向量,
Figure FDA00023782735200000410
是目标框的Smooth L1回归损失,λ是平衡权重;
(6.1d)利用目标检测损失函数,通过反向传播算法更新分类和回归网络参数,直到目标检测损失函数收敛,得到训练后的分类和回归网络。
CN202010075005.6A 2020-01-22 2020-01-22 基于时序信息和局部特征相似性的视频目标检测方法 Active CN111310609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010075005.6A CN111310609B (zh) 2020-01-22 2020-01-22 基于时序信息和局部特征相似性的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010075005.6A CN111310609B (zh) 2020-01-22 2020-01-22 基于时序信息和局部特征相似性的视频目标检测方法

Publications (2)

Publication Number Publication Date
CN111310609A true CN111310609A (zh) 2020-06-19
CN111310609B CN111310609B (zh) 2023-04-07

Family

ID=71148862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010075005.6A Active CN111310609B (zh) 2020-01-22 2020-01-22 基于时序信息和局部特征相似性的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN111310609B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380970A (zh) * 2020-11-12 2021-02-19 常熟理工学院 基于局部区域搜索的视频目标检测方法
CN112383821A (zh) * 2020-11-17 2021-02-19 有米科技股份有限公司 相似视频的智能化合并方法及装置
CN112434618A (zh) * 2020-11-26 2021-03-02 西安电子科技大学 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN113436188A (zh) * 2021-07-28 2021-09-24 北京计算机技术及应用研究所 一种利用卷积计算图像哈希值的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110287826A (zh) * 2019-06-11 2019-09-27 北京工业大学 一种基于注意力机制的视频目标检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110287826A (zh) * 2019-06-11 2019-09-27 北京工业大学 一种基于注意力机制的视频目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李玺等: "深度学习的目标跟踪算法综述", 《中国图象图形学报》 *
杨其睿: "油田安防领域基于改进的深度残差网络行人检测模型", 《计算机测量与控制》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380970A (zh) * 2020-11-12 2021-02-19 常熟理工学院 基于局部区域搜索的视频目标检测方法
CN112383821A (zh) * 2020-11-17 2021-02-19 有米科技股份有限公司 相似视频的智能化合并方法及装置
CN112434618A (zh) * 2020-11-26 2021-03-02 西安电子科技大学 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN112434618B (zh) * 2020-11-26 2023-06-23 西安电子科技大学 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN113436188A (zh) * 2021-07-28 2021-09-24 北京计算机技术及应用研究所 一种利用卷积计算图像哈希值的方法

Also Published As

Publication number Publication date
CN111310609B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110136154B (zh) 基于全卷积网络与形态学处理的遥感图像语义分割方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN109033945B (zh) 一种基于深度学习的人体轮廓提取方法
CN112750140A (zh) 基于信息挖掘的伪装目标图像分割方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111640125A (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111259906A (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN111985488B (zh) 一种基于离线高斯模型的目标检测分割方法及***
CN111738099B (zh) 基于视频图像场景理解的人脸自动检测方法
CN115861595B (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置
CN115294424A (zh) 一种基于生成对抗网络的样本数据增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant