CN112434618A - 基于稀疏前景先验的视频目标检测方法、存储介质及设备 - Google Patents

基于稀疏前景先验的视频目标检测方法、存储介质及设备 Download PDF

Info

Publication number
CN112434618A
CN112434618A CN202011357082.7A CN202011357082A CN112434618A CN 112434618 A CN112434618 A CN 112434618A CN 202011357082 A CN202011357082 A CN 202011357082A CN 112434618 A CN112434618 A CN 112434618A
Authority
CN
China
Prior art keywords
foreground
video
sparse
prior
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011357082.7A
Other languages
English (en)
Other versions
CN112434618B (zh
Inventor
古晶
巨小杰
马文萍
孙新凯
刘芳
杨淑媛
焦李成
冯婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011357082.7A priority Critical patent/CN112434618B/zh
Publication of CN112434618A publication Critical patent/CN112434618A/zh
Application granted granted Critical
Publication of CN112434618B publication Critical patent/CN112434618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于稀疏前景先验的视频目标检测方法、存储介质及设备,采用基于正交子空间学习的前景提取方法计算得到视频中每一帧对应的稀疏前景先验图;利用ResNet特征提取网络和特征金字塔结构得到视频帧及其稀疏前景图的语义增强特征图;将稀疏前景先验图的语义增强特征图与当前帧的语义增强特征图级联后,经卷积融合操作得到当前帧的前景先验融合特征;在前景先验融合特征图的每个像素上映射生成候选锚框;将前景先验融合特征和所有锚框输入到训练好的分类和回归子网络,得到目标物体的类别和位置坐标。本发明充分挖掘了视频数据的稀疏前景先验,提高了目标检测准确率。

Description

基于稀疏前景先验的视频目标检测方法、存储介质及设备
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于稀疏前景先验的视频目标检测方法、存储介质及设备。
背景技术
计算机视觉是人工智能的一个重要领域,它通过训练计算机来学习和理解现实视觉。借助图片和视频以及深度学习模型,可以做到准确地分类和识别所关注的目标,进而做出进一步的判断处理。计算机视觉一般分为图像识别、目标检测、实例分割等主要任务。其中,分类任务一般给出的是整张图片的内容描述,而检测任务则更关注特定的感兴趣物体目标,要求同时获得感兴趣目标的识别结果和定位结果。相比于分类任务,检测是对图片前景和背景的理解,同时还需要从背景中分离出感兴趣的目标,并确定感兴趣目标的识别和位置信息。
目标检测是计算机视觉研究领域的一个热门方向,广泛应用于机器人导航、视频监控、工业检测、人脸识别等诸多领域。图像目标检测任务在过去几年的时间取得了巨大的进展,检测性能得到明显提升。然而在视频监控、车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。但是,要将图像检测技术直接用到视频检测任务会面临新的挑战。第一,把图像目标检测网络直接应用到视频中的每一帧进行检测会带来巨大的计算成本;第二,传统图像目标检测方法不能有效利用视频数据时序连续性和稀疏前景的先验,较难挖掘视频数据中的时序特性。
视频是由图像组成的,视频目标检测与图像目标检测存在着紧密的联系。为了提高视频检测准确率,通常在图像目标检测对每一帧进行检测之后,利用视频特有的时序特性对检测结果做进一步处理。为了利用视频数据在时序上的连续性和冗余性,最近的一些方法采用光流、注意力机制及序列模型等来挖掘视频的时序特性。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于稀疏前景先验的视频目标检测方法、存储介质及设备,提高视频目标检测的检测性能。
本发明采用以下技术方案:
基于稀疏前景先验的视频目标检测方法,包括以下步骤:
S1、将视频V分成m个视频片段Ci,i=1,2,…,m,对每个视频片段Ci采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I(t)的稀疏前景图E(t)
S2、分别将视频帧I(t)与稀疏前景图E(t)输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000021
计算视频帧I(t)的特征图F(t)及其稀疏前景图E(t)的稀疏前景先验特征图
Figure BDA0002802907620000022
S3、通过特征金字塔结构,将视频帧I(t)的每一层特征F(t)和对应稀疏前景先验特征
Figure BDA0002802907620000023
分别与更高层上采样得到的特征组合,计算视频帧I(t)的语义增强特征
Figure BDA0002802907620000024
和前景语义增强特征
Figure BDA0002802907620000025
S4、将视频帧I(t)的语义增强特征
Figure BDA0002802907620000026
和对应前景语义增强特征
Figure BDA0002802907620000027
进行融合,得到视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000028
S5、在视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000029
中生成锚框;
S6、将视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000031
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)中所有目标的分类和定位结果,完成目标检测。
具体的,步骤S1中,将视频片段Ci内的每一帧图像I(t)灰度化后转化为列向量,将这些列向量组合成二维矩阵X,根据目标函数计算得到视频片段Ci中所有帧的稀疏前景先验E,再将E按列拆分,还原得到每一帧I(t)的对应稀疏前景图E(t),目标函数计算如下:
Figure BDA0002802907620000032
其中,D为正交子空间,θ为正交子空间系数,α、β为调节参数,||·||row,1表示矩阵行的1范数,Ik为阶数为k的单位矩阵。
进一步的,采用交替方向法求解目标函数,使用块坐标下降法求解D和θ,定义残差项
Figure BDA0002802907620000033
并利用残差项求解更新D和θ;利用求解得到的D和θ更新
Figure BDA0002802907620000034
收缩函数
Figure BDA0002802907620000035
·为逐元素相乘,sign()为符号函数,迭代更新直至达到收敛条件,达到最大迭代次数后,得到视频片段Ci中所有帧的稀疏前景先验E。
具体的,步骤S3中,在视频帧I(t)和稀疏前景图E(t)经过ResNet特征提取网络得到特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000036
的过程中,从ResNet特征提取网络的中间层抽出5个不同尺度的特征,尺度大小分别为最低层特征的
Figure BDA0002802907620000037
倍,将5个不同尺度的特征构成特征金字塔,特征金字塔的底部是高分辨率的特征图,顶部特征图是低分辨率特征图;把特征金字塔高层的的强语义特征进行最近邻上采样,再与低一层的特征相加,经过3×3卷积核之后,输出具有语义信息的特征
Figure BDA0002802907620000038
和前景先验特征
Figure BDA0002802907620000039
具体的,步骤S4中,将视频帧I(t)的语义增强特征
Figure BDA0002802907620000041
和对应前景语义增强特征
Figure BDA0002802907620000042
级联,再通过1×1的卷积操作,得到前景先验融合特征图
Figure BDA0002802907620000043
具体的,步骤S5中,在前景先验融合特征图
Figure BDA0002802907620000044
中每一层的每个像素上设置一个尺寸为16×16的基锚框,在保持面积不变的前提下,使长宽比分别为0.5,1,2,再对三个不同长宽比的锚框分别放大8,16,32个尺度,对于前景先验融合特征图
Figure BDA0002802907620000045
中每一层特征图上的每个像素一共生成9个锚框。
具体的,步骤S6中,训练分类和回归子网络具体为:
S6011、随机初始化分类和回归网络的权重参数;
S6012、对每一个候选区域,用初始化后的分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的位置坐标;
S6013、构造目标检测损失函数L;
S6014、利用目标检测损失函数L,通过反向传播迭代更新学习分类和回归网络参数,直到网络收敛,得到训练后的分类和回归子网络。
进一步的,步骤S6013中,损失函数L:
Figure BDA0002802907620000046
其中,z是第i个候选区域的真实标签,
Figure BDA0002802907620000047
是第i个候选区域属于z类目标的概率,γ是专注参数,
Figure BDA0002802907620000048
是用于目标分类的focal loss损失;ai是第i个候选区域的位置坐标,
Figure BDA0002802907620000049
是与第i个候选区域对应的真实目标框的坐标向量,
Figure BDA00028029076200000410
是目标框的Smooth L1回归损失,ω是平衡权重。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于稀疏前景先验的视频目标检测方法,在图像目标检测方法的基础上,利用前景的稀疏先验与视频数据的时空连续性先验提取出运动前景先验图,进而得到前景语义增强特征图,并与当前帧语义增强特征级联得到当前帧的前景先验融合特征,可对存在运动模糊、物体遮挡、尺寸变化较大的视频帧进行前景先验特征融合后检测,提高了检测准确率;充分利用相邻帧特征之间的关系,无需在每一帧检测之后再对检测结果做进一步处理。与现有基于对图像目标检测结果进行后处理的视频目标检测方法相比,提高了检测速度。
进一步的,采用基于正交子空间学习的前景提取算法可以得到更感兴趣的运动前景目标,其中将视频片段内所有视频帧作为一个整体,用正交子空间学习算法得到所有帧的前景图,更好地利用视频数据的前景稀疏先验。
进一步的,采用交替方向法求解目标函数,其中无约束优化的部分用块坐标下降法来分别优化,将大的全局优化问题分解为多个容易求解的子问题,并通过求解多个子问题而得到全局优化问题的解。
进一步的,将ResNet网络中提取的特征构造成特征金字塔,通过特征金字塔结构得到视频帧及前景先验图的多尺度特征,其中利用特征金字塔中低分辨、具有丰富语义信息的高层特征对低层特征进行增强,从而使得到的语义增强特征的语义信息更加丰富。
进一步的,通过将前景图的语义增强特征与当前视频帧的语义增强特征进行级联卷积融合,得到前景先验增强的特征图,在视频帧上前景目标的检测过程中加入前景稀疏先验信息,加强前景目标的特征信息,进一步增强检测性能。
进一步的,通过在特征图上生成锚框,并对每一个锚框进行分类,进而对判别为正样本的锚框进行回归,得到准确的目标位置。在特征图上生成锚框可以将候选区域的数量限制在可控范围内,很大程度上减少了计算量。
进一步的,通过构建分类子网络和回归子网络来完成对视频数据的训练,其中分类子网络可以得到精细的目标分类结果,回归子网络可以进一步校正目标的定位结果,使得最终得到的视频帧中不同目标的识别结果和位置更加准确。
进一步的,设置损失函数L主要是为了解决一阶段目标检测任务中正负样本比例失衡的问题。该损失函数降低了大量冗余的负样本在训练过程中所占的比重。
综上所述,本发明针对视频数据中存在的运动模糊、物体遮挡、尺寸变化较大等现象,充分利用前景的稀疏先验及相邻帧特征之间的关系,使得本发明可以有效检测出视频数据中不同尺度及模糊的目标,提高了检测准确率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的实现流程图;
图2为本发明进行视频目标检测的一种效果图,其中,(a)为目标为船的视频序列其中一帧的检测结果,(b)为目标为船的视频序列中另外一帧的检测结果;
图3为本发明进行视频目标检测的第二种效果图,其中,(a)为目标为狗的视频序列其中一帧的检测结果,(b)为目标为狗的视频序列中另外一帧的检测结果;
图4为本发明进行视频目标检测的第三种效果图,其中,(a)为目标为大象,汽车的视频序列其中一帧的检测结果,(b)为目标为大象,汽车的的视频序列中另外一帧的检测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于稀疏前景先验的视频目标检测方法,先利用基于正交子空间学习的前景提取方法得到视频每一帧的运动稀疏前景先验图;再使用ResNet特征提取网络和特征金字塔结构提取视频帧和其稀疏前景图的多尺度语义增强特征;将前景语义增强特征和当前帧的语义增强特征进行级联融合,得到前景先验融合特征;再在前景先验融合特征图上的每个像素上生成锚框;随后通过分类和回归网络得到所有目标的类别和位置坐标;充分挖掘了视频数据的稀疏前景先验,提高了目标检测准确率。
请参阅图1,本发明一种基于稀疏前景先验的视频目标检测方法,分为训练和测试两部分,训练过程中通过计算网络模型的损失函数,进而利用反向传播更新网络参数;测试过程中使用训练好的网络参数,将当前帧的语义增强特征与前景语义增强特征进行融合,得到视频帧的前景先验融合特征,再基于前景先验融合特征得到视频帧中感兴趣目标的类别和位置;具体步骤如下:
S1、将视频V分成m个视频片段Ci,i=1,2,…,m,对每个视频片段Ci采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I(t)的稀疏前景图E(t)
将视频片段Ci内的每一帧图像I(t)灰度化后转化为列向量,将这些列向量组合成二维矩阵X,根据目标函数计算得到所有帧对应前景先验E。
目标函数计算如下:
Figure BDA0002802907620000081
其中,D为正交子空间,θ为正交子空间系数,α、β为调节参数,||·||row,1表示矩阵行的1范数,Ik为阶数为k的单位矩阵。
具体实现时,对于上述目标函数可通过不精确的交替方向法求解上述函数,反复执行以下步骤:
S101、使用块坐标下降法求解D和θ,定义残差项
Figure BDA0002802907620000082
并利用残差项求解更新D和θ:
Figure BDA0002802907620000083
Figure BDA0002802907620000084
其中
Figure BDA0002802907620000085
S102、利用求解得到的D和θ更新
Figure BDA0002802907620000086
其中收缩函数
Figure BDA0002802907620000087
“·”表示逐元素相乘,“sign()”为符号函数,具体形式为
Figure BDA0002802907620000088
迭代更新直至达到收敛条件,即达到最大迭代次数后,得到视频片段Ci中所有帧的稀疏前景先验E,再将E按列拆分,还原得到每一帧I(t)的对应稀疏前景图E(t)
S2、计算视频帧I(t)的特征图F(t)及其稀疏前景图E(t)的稀疏前景先验特征图
Figure BDA0002802907620000091
分别将视频帧I(t)与其稀疏前景图E(t)输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出该层的特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000092
ResNet特征提取网络是由1个7×7卷积层、1个最大池化层、16个残差块组成的特征提取网络,其中网络中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层,批标准化层和激活函数层组合而成。将16个残差块分为5个阶段。每个阶段的输出作为输入图像在不同语义等级下的特征。
S3、计算视频帧I(t)的语义增强特征
Figure BDA0002802907620000093
和前景语义增强特征
Figure BDA0002802907620000094
通过特征金字塔结构,将视频帧I(t)的每一层特征F(t)和对应稀疏前景先验特征
Figure BDA0002802907620000095
分别与其更高层上采样得到的特征组合起来,得到具有丰富语义信息的语义增强特征
Figure BDA0002802907620000096
和前景语义增强特征
Figure BDA0002802907620000097
在视频帧I(t)和稀疏前景图E(t)经过ResNet特征提取网络得到特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000098
的过程中,从ResNet中间层抽出5个不同尺度的特征,尺度大小分别为最低层特征的
Figure BDA0002802907620000099
倍,由这5个不同尺度的特征构成特征金字塔。特征金字塔的底部是高分辨率的特征图,而顶部特征图是低分辨率特征图,层级越高,则特征图越小,分辨率越低。
把特征金字塔高层的低分辨、具有抽象信息的强语义特征进行最近邻上采样,再与低一层特征相加,经过3×3卷积核之后,输出具有丰富语义信息的特征
Figure BDA00028029076200000910
和前景先验特征
Figure BDA00028029076200000911
S4、计算视频帧I(t)的前景先验融合特征图
Figure BDA00028029076200000912
将视频帧I(t)的语义增强特征
Figure BDA0002802907620000101
和对应前景语义增强特征
Figure BDA0002802907620000102
级联,再通过1×1的卷积操作,得到前景先验融合特征图
Figure BDA0002802907620000103
S5、在视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000104
生成锚框;
在前景先验融合特征图
Figure BDA0002802907620000105
中每一层的每个像素上设置一个尺寸为16×16的基锚框,在保持面积不变的前提下,使其长宽比分别为0.5,1,2,再对这三个不同长宽比的锚框分别放大8,16,32个尺度,从而对于前景先验融合特征图
Figure BDA0002802907620000106
中每一层特征图上的每个像素,一共生成9个锚框。
S6、将视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000107
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)中所有目标的分类和定位结果。
S601、训练分类和回归子网络:
S6011、随机初始化分类和回归网络的权重参数;
S6012、对每一个候选区域,用初始化后的分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的位置坐标;
S6013、构造目标检测损失函数L:
Figure BDA0002802907620000108
其中,z是第i个候选区域的真实标签,
Figure BDA0002802907620000109
是第i个候选区域属于z类目标的概率,γ是专注参数,
Figure BDA00028029076200001010
是用于目标分类的focal loss损失;ai是第i个候选区域的位置坐标,
Figure BDA00028029076200001011
是与第i个候选区域对应的真实目标框的坐标向量,
Figure BDA00028029076200001012
是目标框的Smooth L1回归损失,ω是平衡权重;
S6014、利用目标检测损失函数L,通过反向传播迭代更新学习分类和回归网络参数,直到网络收敛,得到训练后的分类和回归子网络;
S602、将视频帧I(t)的前景先验融合特征图
Figure BDA00028029076200001013
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)的目标类别和目标框位置。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于稀疏前景先验的视频目标检测的操作,包括:将视频V分成m个视频片段Ci,i=1,2,…,m,对每个视频片段Ci采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I(t)的稀疏前景图E(t);分别将视频帧I(t)与稀疏前景图E(t)输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000111
计算视频帧I(t)的特征图F(t)及其稀疏前景图E(t)的稀疏前景先验特征图
Figure BDA0002802907620000112
通过特征金字塔结构,将视频帧I(t)的每一层特征F(t)和对应稀疏前景先验特征
Figure BDA0002802907620000113
分别与更高层上采样得到的特征组合,计算视频帧I(t)的语义增强特征
Figure BDA0002802907620000114
和前景语义增强特征
Figure BDA0002802907620000115
将视频帧I(t)的语义增强特征
Figure BDA0002802907620000116
和对应前景语义增强特征
Figure BDA0002802907620000117
进行融合,得到视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000118
在视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000119
中生成锚框;将视频帧I(t)的前景先验融合特征图
Figure BDA00028029076200001110
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)中所有目标的分类和定位结果,完成目标检测。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:将视频V分成m个视频片段Ci,i=1,2,…,m,对每个视频片段Ci采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I(t)的稀疏前景图E(t);分别将视频帧I(t)与稀疏前景图E(t)输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F(t)和稀疏前景先验特征图
Figure BDA0002802907620000121
计算视频帧I(t)的特征图F(t)及其稀疏前景图E(t)的稀疏前景先验特征图
Figure BDA0002802907620000122
通过特征金字塔结构,将视频帧I(t)的每一层特征F(t)和对应稀疏前景先验特征
Figure BDA0002802907620000123
分别与更高层上采样得到的特征组合,计算视频帧I(t)的语义增强特征
Figure BDA0002802907620000124
和前景语义增强特征
Figure BDA0002802907620000125
将视频帧I(t)的语义增强特征
Figure BDA0002802907620000126
和对应前景语义增强特征
Figure BDA0002802907620000127
进行融合,得到视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000128
在视频帧I(t)的前景先验融合特征图
Figure BDA0002802907620000129
中生成锚框;将视频帧I(t)的前景先验融合特征图
Figure BDA00028029076200001210
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)中所有目标的分类和定位结果,完成目标检测。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
使用配有RTX 2080TI显卡的工作站,软件框架为PyTorch。
选用目标为船,尺度差别较大的视频序列作为第一组被检测的视频序列,如图2所示;
选用目标为狗,姿态差异大的视频序列作为第二组被检测的视频序列,如图3所示;
选用目标为大象和汽车两种目标,存在物体遮挡的视频序列作为第三组被检测的视频序列,如图4所示。
2.仿真内容
仿真1,用本发明的方法对第一组被检测的视频序列进行视频目标检测,得到的其中两帧的检测结果,如图2所示。
仿真2,用本发明的方法对第二组被检测的视频序列进行视频目标检测,得到的其中两帧的检测结果,如图3所示。
仿真3,用本发明的方法对第三组被检测的视频序列进行视频目标检测,得到的其中两帧的检测结果,如图4所示。
3.仿真结果分析
图2(a)是目标为船的视频序列的其中一帧检测结果,图2(b)是目标为船的视频序列的另外一帧检测结果,可以看出在目标尺寸差别较大的情况下,本发明能准确检测出视频中不同尺寸目标的类别和位置;图3(a)是目标为狗的视频序列其中一帧的检测结果,图3(b)是目标为狗的视频序列中另外一帧的检测结果,可以看出在画面较为模糊、姿态差异大的情况下,本发明能准确检测出视频中目标的类别和位置;图4(a)是目标包括大象和汽车的视频序列其中一帧的检测结果,图4(b)是目标包括大象和汽车的的视频序列中另外一帧的检测结果,可以看出在不同种类目标存在遮挡的情况下,尤其是图4(b)中左侧大象基本被完全遮挡时,本发明能准确检测出视频中被遮挡目标的类别和位置。
综上所述,本发明一种基于稀疏前景先验的视频目标检测方法,对存在不同尺度的目标,运动模糊及遮挡现象的视频序列均能有效检测出目标的类别和位置。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书保护范围之内。

Claims (10)

1.基于稀疏前景先验的视频目标检测方法,其特征在于,包括以下步骤:
S1、将视频V分成m个视频片段Ci,i=1,2,…,m,对每个视频片段Ci采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I(t)的稀疏前景图E(t)
S2、分别将视频帧I(t)与稀疏前景图E(t)输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F(t)和稀疏前景先验特征图
Figure FDA0002802907610000011
计算视频帧I(t)的特征图F(t)及其稀疏前景图E(t)的稀疏前景先验特征图
Figure FDA0002802907610000012
S3、通过特征金字塔结构,将视频帧I(t)的每一层特征F(t)和对应稀疏前景先验特征
Figure FDA0002802907610000013
分别与更高层上采样得到的特征组合,计算视频帧I(t)的语义增强特征
Figure FDA0002802907610000014
和前景语义增强特征
Figure FDA0002802907610000015
S4、将视频帧I(t)的语义增强特征
Figure FDA0002802907610000016
和对应前景语义增强特征
Figure FDA0002802907610000017
进行融合,得到视频帧I(t)的前景先验融合特征图
Figure FDA0002802907610000018
S5、在视频帧I(t)的前景先验融合特征图
Figure FDA0002802907610000019
中生成锚框;
S6、将视频帧I(t)的前景先验融合特征图
Figure FDA00028029076100000110
及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I(t)中所有目标的分类和定位结果,完成目标检测。
2.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S1中,将视频片段Ci内的每一帧图像I(t)灰度化后转化为列向量,将这些列向量组合成二维矩阵X,根据目标函数计算得到视频片段Ci中所有帧的稀疏前景先验E,再将E按列拆分,还原得到每一帧I(t)的对应稀疏前景图E(t),目标函数计算如下:
Figure FDA00028029076100000111
其中,D为正交子空间,θ为正交子空间系数,α、β为调节参数,||·||row,1表示矩阵行的1范数,Ik为阶数为k的单位矩阵。
3.根据权利要求2所述的基于稀疏前景先验的视频目标检测方法,其特征在于,采用交替方向法求解目标函数,使用块坐标下降法求解D和θ,定义残差项
Figure FDA0002802907610000021
并利用残差项求解更新D和θ;利用求解得到的D和θ更新
Figure FDA0002802907610000022
收缩函数
Figure FDA0002802907610000023
·为逐元素相乘,sign()为符号函数,迭代更新直至达到收敛条件,达到最大迭代次数后,得到视频片段Ci中所有帧的稀疏前景先验E。
4.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S3中,在视频帧I(t)和稀疏前景图E(t)经过ResNet特征提取网络得到特征图F(t)和稀疏前景先验特征图
Figure FDA0002802907610000024
的过程中,从ResNet特征提取网络的中间层抽出5个不同尺度的特征,尺度大小分别为最低层特征的
Figure FDA0002802907610000025
倍,将5个不同尺度的特征构成特征金字塔,特征金字塔的底部是高分辨率的特征图,顶部特征图是低分辨率特征图;把特征金字塔高层的的强语义特征进行最近邻上采样,再与低一层的特征相加,经过3×3卷积核之后,输出具有语义信息的特征
Figure FDA0002802907610000026
和前景先验特征
Figure FDA0002802907610000027
5.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S4中,将视频帧I(t)的语义增强特征
Figure FDA0002802907610000028
和对应前景语义增强特征
Figure FDA0002802907610000029
级联,再通过1×1的卷积操作,得到前景先验融合特征图
Figure FDA00028029076100000210
6.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S5中,在前景先验融合特征图
Figure FDA00028029076100000211
中每一层的每个像素上设置一个尺寸为16×16的基锚框,在保持面积不变的前提下,使长宽比分别为0.5,1,2,再对三个不同长宽比的锚框分别放大8,16,32个尺度,对于前景先验融合特征图
Figure FDA00028029076100000212
中每一层特征图上的每个像素一共生成9个锚框。
7.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S6中,训练分类和回归子网络具体为:
S6011、随机初始化分类和回归网络的权重参数;
S6012、对每一个候选区域,用初始化后的分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的位置坐标;
S6013、构造目标检测损失函数L;
S6014、利用目标检测损失函数L,通过反向传播迭代更新学习分类和回归网络参数,直到网络收敛,得到训练后的分类和回归子网络。
8.根据权利要求7所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S6013中,损失函数L:
Figure FDA0002802907610000031
其中,z是第i个候选区域的真实标签,
Figure FDA0002802907610000032
是第i个候选区域属于z类目标的概率,γ是专注参数,
Figure FDA0002802907610000033
是用于目标分类的focal loss损失;ai是第i个候选区域的位置坐标,
Figure FDA0002802907610000034
是与第i个候选区域对应的真实目标框的坐标向量,
Figure FDA0002802907610000035
是目标框的SmoothL1回归损失,ω是平衡权重。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
CN202011357082.7A 2020-11-26 2020-11-26 基于稀疏前景先验的视频目标检测方法、存储介质及设备 Active CN112434618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011357082.7A CN112434618B (zh) 2020-11-26 2020-11-26 基于稀疏前景先验的视频目标检测方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357082.7A CN112434618B (zh) 2020-11-26 2020-11-26 基于稀疏前景先验的视频目标检测方法、存储介质及设备

Publications (2)

Publication Number Publication Date
CN112434618A true CN112434618A (zh) 2021-03-02
CN112434618B CN112434618B (zh) 2023-06-23

Family

ID=74699279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357082.7A Active CN112434618B (zh) 2020-11-26 2020-11-26 基于稀疏前景先验的视频目标检测方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112434618B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861830A (zh) * 2021-04-13 2021-05-28 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN114708531A (zh) * 2022-03-18 2022-07-05 南京大学 电梯内异常行为检测方法、装置及存储介质
CN116630334A (zh) * 2023-04-23 2023-08-22 中国科学院自动化研究所 用于多分段血管实时自动分割方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680106A (zh) * 2017-10-13 2018-02-09 南京航空航天大学 一种基于Faster R‑CNN的显著性目标检测方法
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、***、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680106A (zh) * 2017-10-13 2018-02-09 南京航空航天大学 一种基于Faster R‑CNN的显著性目标检测方法
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、***、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANFENG OU等: "《Moving Object Detection Method via ResNet-18 With Encoder–Decoder Structure in Complex Scenes》", 《IEEE ACCESS》 *
赵永强等: "《深度学习目标检测方法综述》", 《中国图象图形学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN112861830A (zh) * 2021-04-13 2021-05-28 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品
CN112861830B (zh) * 2021-04-13 2023-08-25 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN113743249B (zh) * 2021-08-16 2024-03-26 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN114708531A (zh) * 2022-03-18 2022-07-05 南京大学 电梯内异常行为检测方法、装置及存储介质
CN114708531B (zh) * 2022-03-18 2024-07-16 南京大学 电梯内异常行为检测方法、装置及存储介质
CN116630334A (zh) * 2023-04-23 2023-08-22 中国科学院自动化研究所 用于多分段血管实时自动分割方法、装置、设备及介质
CN116630334B (zh) * 2023-04-23 2023-12-08 中国科学院自动化研究所 用于多分段血管实时自动分割方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112434618B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112434618B (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
US20180114071A1 (en) Method for analysing media content
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
Fu et al. Camera-based basketball scoring detection using convolutional neural network
JP2012511756A (ja) 検出窓走査により画像内の物体を認識および位置特定するためのデータストリームパイプラインアーキテクチャを有する装置
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
US11809523B2 (en) Annotating unlabeled images using convolutional neural networks
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及***
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
CN112966659A (zh) 一种基于深度学习的视频图像小目标检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN113516053A (zh) 一种具有旋转不变性的舰船目标精细化检测方法
Zhu et al. Spatial hierarchy perception and hard samples metric learning for high-resolution remote sensing image object detection
Yildirim et al. Ship detection in optical remote sensing images using YOLOv4 and Tiny YOLOv4
CN113963333A (zh) 一种基于改进yolof模型的交通标志牌检测方法
Yang et al. Real-Time object detector based MobileNetV3 for UAV applications
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant