CN111931732B - 压缩视频的显著性目标检测方法、***、设备及存储介质 - Google Patents

压缩视频的显著性目标检测方法、***、设备及存储介质 Download PDF

Info

Publication number
CN111931732B
CN111931732B CN202011016604.7A CN202011016604A CN111931732B CN 111931732 B CN111931732 B CN 111931732B CN 202011016604 A CN202011016604 A CN 202011016604A CN 111931732 B CN111931732 B CN 111931732B
Authority
CN
China
Prior art keywords
frame
data
network
frame data
compressed video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011016604.7A
Other languages
English (en)
Other versions
CN111931732A (zh
Inventor
邹文艺
章勇
曹李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN202011016604.7A priority Critical patent/CN111931732B/zh
Publication of CN111931732A publication Critical patent/CN111931732A/zh
Priority to PCT/CN2021/082752 priority patent/WO2022062344A1/zh
Application granted granted Critical
Publication of CN111931732B publication Critical patent/CN111931732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种压缩视频的显著性目标检测方法、***、设备及存储介质,所述压缩视频包括多帧数据,所述多帧数据包括I帧数据和至少一个P帧数据,所述方法包括:将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络;对于各个所述P帧数据,将所对应的前一时刻的帧数据的第一特征和所述P帧数据输入长短时记忆网络,提取所述P帧数据的第一特征;根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。通过采用本发明,通过引入长短时记忆网络,只需要对I帧提取特征,而P帧可以采用前一帧的特征、P帧数据和长短时记忆网络进行特征提取,提升压缩视频显著性目标检测速度。

Description

压缩视频的显著性目标检测方法、***、设备及存储介质
技术领域
本发明涉及视频处理技术领域,尤其涉及一种压缩视频的显著性目标检测方法、***、设备及存储介质。
背景技术
视频显著性检测主要分为两类,一类是视觉注意力检测,用于估计人眼观察一幅图像时注视点的变化轨迹,在神经***学中被广泛研究,一类是显著性目标检测,从背景噪声中分割出最重要或视觉上突出的目标。对于第二类显著性目标检测,现有技术中尚没有一种能够同时兼顾检测速度和检测效果的压缩视频的显著性目标检测方法。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种压缩视频的显著性目标检测方法、***、设备及存储介质,在保证检测效果的基础上提升压缩视频显著性目标检测速度。
本发明实施例提供一种压缩视频的显著性目标检测方法,所述压缩视频包括多帧数据,所述多帧数据包括I帧数据和至少一个P帧数据,所述方法包括如下步骤:
将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络;
对于各个所述P帧数据,将所对应的前一时刻的帧数据的第一特征和所述P帧数据输入长短时记忆网络,提取所述P帧数据的第一特征;
根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
可选地,所述I帧数据包括由所述压缩视频的I帧码流解码得到的I 帧图像数据,所述P帧数据包括所述压缩视频的P帧码流中的运动信息和残差信息。
可选地,所述特征提取网络还包括与所述卷积神经网络串联的第一残差网络。
可选地,根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第一特征输入依次串联的第二残差网络、第三残差网络和第四残差网络,得到所述各帧数据的第二特征;
根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域。
可选地,根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将各帧数据的第二特征输入空洞空间卷积池化金字塔网络,得到各帧数据的第三特征;
根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域。
可选地,所述空洞空间卷积池化金字塔网络包括并联连接的五个模块,所述五个模块包括一个全局平均池化层、一个1x1卷积层和三个3x3空洞卷积层,所述五个模块的输出经过合并后得到所述各帧数据的第三特征。
可选地,根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第三特征输入所述显著性识别网络,得到各帧数据所对应的概率图;
根据概率阈值对所述概率图进行二值化处理,得到二值化图;
根据所述二值化图提取显著性区域。
可选地,所述显著性识别网络包括第一到第五反卷积层和激活函数层,所述各帧数据的第三特征输入所述第一反卷积层,所述各帧数据的第一特征输入所述第二反卷积层,所述第一反卷积层和所述第二反卷积层的输出合并后输入依次串联的第三反卷积层、第四反卷积层和第五反卷积层,所述第五反卷积层的输出经所述激活函数层后输出各帧数据的概率图。
通过采用本发明的压缩视频的显著性目标检测方法,引入长短时记忆网络,只需要对I帧提取特征,而P帧可以采用前一帧的特征、P帧数据和长短时记忆网络进行特征提取,对提取的特征可以进行显著性目标检测,从而大大提升了压缩视频显著性目标检测速度。
本发明实施例还提供一种压缩视频的显著性目标检测***,应用于所述的压缩视频的显著性目标检测方法,所述***包括:
第一特征提取模块,用于将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络;
第二特征提取模块,用于对于各个所述P帧数据,将所对应的前一时刻的帧数据的第一特征和所述P帧数据输入长短时记忆网络,提取所述P 帧数据的第一特征;
显著性检测模块,用于根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
通过采用本发明的压缩视频的显著性目标检测***,引入长短时记忆网络,只需要对I帧提取特征,而P帧可以采用前一帧的特征、P帧数据和长短时记忆网络进行特征提取,对提取的特征可以进行显著性目标检测,从而大大提升了压缩视频显著性目标检测速度。
本发明实施例还提供一种压缩视频的显著性目标检测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的压缩视频的显著性目标检测方法的步骤。
通过采用本发明所提供的压缩视频的显著性目标检测设备,所述处理器在执行所述可执行指令时执行所述的压缩视频的显著性目标检测方法,由此可以获得上述压缩视频的显著性目标检测方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的压缩视频的显著性目标检测方法的步骤。
通过采用本发明所提供的计算机可读存储介质,其中存储的程序在被执行时实现所述的压缩视频的显著性目标检测方法的步骤,由此可以获得上述压缩视频的显著性目标检测方法的有益效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的压缩视频的显著性目标检测方法的流程图;
图2是本发明一具体实例的压缩视频的显著性目标检测网络的结构图;
图3是本发明一实施例的长短时记忆网络的结构图;
图4是本发明一实施例的压缩视频的显著性目标检测***的示意图;
图5是本发明一实施例的压缩视频的显著性目标检测设备的结构示意图;
图6是本发明一实施例的计算机存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
在一实施例中,本发明提供了一种压缩视频的显著性目标检测方法,所述压缩视频包括多帧数据,所述多帧数据包括I帧数据和至少一个P帧数据。视频一般被认为是独立图像的序列,可以以压缩形式进行存储和传输,编解码将视频分为I帧和P/B帧,I帧是一个完整的图像帧,P/B帧仅保留和参考图像的变化。在采用I帧和P帧的压缩视频中,t+k时刻的P 帧数据仅记录物体的运动信息mt+k和残差信息rt+k,因此连续帧是高度相关的,且帧之间的变化也记录在视频的码流里。
如图1所示,所述压缩视频的显著性目标检测方法包括如下步骤:
S100:将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络,所述卷积神经网络可以基于 I帧的完整图像帧提取完整的特征,此处第一特征即对应于特征图的形式;
S200:对于各个所述P帧数据,将所对应的前一时刻的帧数据的第一特征和所述P帧数据输入长短时记忆网络,提取所述P帧数据的第一特征,此处P帧数据包括P帧相对于前一时刻的帧的运动矢量和残差数据;
S300:根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
通过采用本发明的压缩视频的显著性目标检测方法,在采用步骤S100 对I帧数据进行特征提取时,通过卷积神经网络进行提取,而在采用步骤 S200对P帧数据进行特征提取时,则引入长短时记忆网络,可以采用前一帧的特征和长短时记忆网络进行特征提取,对提取的特征可以采用步骤 S300进行显著性目标检测,因此,只需要对I帧提取完整的特征,而P帧只需要通过长短时记忆网络和视频码流里的P帧数据即可以快速提取P 帧的特征。
在该实施例中,所述I帧数据包括由所述压缩视频的I帧码流解码得到的I帧图像数据,所述P帧数据包括所述压缩视频的P帧码流中的运动信息和残差信息,因此通过运动信息和残差信息即可以快速提取P帧的特征,从而有效提升压缩视频特征提取速度,也就大大提升了压缩视频显著性目标检测速度。具体地,所述运动信息可以包括运动矢量,所述残差信息可以包括残差系数。
具体地,在视频编码序列中,在一组连续图像(GOP,Group Of Pictures),I帧数据保留完整信息,I帧数据进行解码得到完整的图像信息,并通过步骤S100对其进行特征提取和通过步骤S300进行显著性目标检测,对于P帧,通过步骤S200,采用一个运动辅助长短时记忆网络 (Nm_1stm)对连续的P帧数据提取特征,然后对提取的特征进行显著性目标检测,对于t+k时刻的P帧数据,长短时记忆网络(LSTM,Long Short- Term Memory)以之前的I帧图像数据提取的特征Residual_1或者前一时刻的P帧提取的特征ct+k-1和ht+k-1以及视频码流中运动信息和残差信息作为输入,提取P帧的特征,然后对提取的特征进行显著性目标检测。
如图2所示,在该实施例中,所述卷积神经网络为头卷积神经网络 HeadConv,所述特征提取网络还包括与所述卷积神经网络HeadConv串联的第一残差网络Residual_1t,第一残差网络的输出特征输入到t+1时刻的 P帧数据的长短时记忆网络Nm-lstm中,而t+1时刻的P帧数据的长短时记忆网络Nm-lstm输出的特征输入到t+2时刻的P帧数据的长短时记忆网络Nm-lstm,以此类推。通过结合卷积神经网络和残差网络对I帧进行特征提取,可以更好地提取I帧的特征图。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
在应用中,对I帧图像数据提取第一特征Residual_1t,同时输入给运动辅助长短时记忆网络得到后来帧的第一特征[ct+1,…,ct+n],具体过程如下式所示:
Figure BDA0002699280330000061
其中[ct,ct+1,…,ct+n]代表一个GOP提取特征的集合。
如图2所示,在该实施例中,所述第一残差网络Residual_1t后还包括第二残差网络Residual_2t、第三残差网络Residual_3t和第四残差网络 Residual_4t,通过增加残差网络的深度进一步提高特征提取的准确率。所述第一残差网络Residual_1t输出的I帧的第一特征还输入所述第二残差网络Residual_2t、第三残差网络Residual_3t和第四残差网络Residual_4t,得到I帧的第二特征。对于I帧,特征提取部分采用Resnet101作为骨架网络,包括卷积神经网络Headconv和四个残差网络 (residual_i i∈{1,2,3,4})。每个P帧的长短时记忆网络Nm-lstm输出还输入所述第二残差网络Residual_2t、第三残差网络Residual_3t和第四残差网络Residual_4t,得到P帧的第二特征。对于P帧,特征提取部分包括一个运动辅助长短时记忆网络和与I帧一样的三个残差网络。
在该实施例中,所述卷积神经网络HeadConv采用尺寸为7x7,步长为2,通道为64的卷积核,4个残差网络Residual_1t~Residual_4t分别包含3、4、23和3个基于“瓶颈块”的残差学习网络,输出通道个数分别为256、512、1024和2048。
所述步骤S300:根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第一特征输入依次串联的第二残差网络 Residual_2t、第三残差网络Residual_3t和第四残差网络Residual_4t,得到所述各帧数据的第二特征;
根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域。
进一步地,如图2所示,在该实施例中,所述第四残差网络Residual_4t 后还串联有空洞空间卷积池化金字塔网络。所述空洞空间卷积池化金字塔网络(Atrous SpatialPyramid Pooling(ASPP))可以进一步扩大特征提取的感知域,进一步提升特征提取效果。
根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将各帧数据的第二特征输入空洞空间卷积池化金字塔网络ASPP,得到各帧数据的第三特征;
根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域。
如图2所示,在该实施例中,所述空洞空间卷积池化金字塔网络包括并联连接的五个模块,所述五个模块包括一个全局平均池化层GAP、一个 1x1卷积层和三个采样率为rates={6,12,18}的3x3空洞卷积层,所述五个模块的输出经过concat合并后得到所述各帧数据的第三特征,通过一个 1×1的卷积层,降低通道数到需要的数值。
如图2所示,在该实施例中,所述显著性识别网络包括第一到第五反卷积层conv-1~conv5和激活函数层Sigmoid,所述空洞空间卷积池化金字塔网络ASPP输出的各帧数据的第三特征输入所述第一反卷积层conv-1,所述第一残差网络Residual_1t或所述长短时记忆网络Nm-1stm输出的所述各帧数据的第一特征输入所述第二反卷积层conv-2,所述第一反卷积层 conv-1和所述第二反卷积层conv-2的输出经concat合并后输入依次串联的第三反卷积层conv-3、第四反卷积层conv-4和第五反卷积层conv-5,得到的第三特征即为与输入的I帧图像具有相同分辨率的特征图。所述第五反卷积层conv-5的输出经所述激活函数层Sigmoid后输出各帧数据的概率图。由于在特征提取过程中,采用卷积网络和残差网络使得特征图的分辨率小于输入的帧图像的分辨率,因此,通过五个反卷积层将特征图的分辨率恢复至输入的帧图像的分辨率。
在得到各帧数据的概率图之后,可以根据所述概率图提取显著性区域。具体地,在该实施例中,根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第三特征输入所述显著性识别网络,得到各帧数据所对应的概率图,即所述激活函数层Sigmoid输出的各帧数据的概率图;
根据概率阈值对所述概率图进行二值化处理,得到二值化图;
根据所述二值化图提取显著性区域。
如图3所示,为该实施例中长短时记忆网络的结构图。所述长短时记忆网络配置为利用运动信息和相邻帧的第一特征得到当前帧的第一特征,具体公式如下:
ct+k-1→t+k=W(ct+k-1,mt+k)
ht+k-1→t+k=W(ht+k-1,mt+k) (2)
其中ct+k-1和ht+k-1为t+k-1运动辅助长短时记忆网络的输出,ct和ht为Residual_1t,k∈[1,n],n为一个GOP内P帧的帧数。矫正操作W对特征图的每个位置进行双线性插值,通过t+k-1帧p+Δp位置映射到t+k帧 p位置,具体公式如下:
Δp=mt+k(p)
ct+k-1→t+k(p)=∑qG(q,p+Δp)ct+k-1(q) (3)
其中Δp通过mt+k得到,q表示特征图ct+k-1的空间位置信息,G(.)表示双线性插值核,具体公式如下:
G(q,p+Δp)=max(0,1-||q-(p+Δp)|| (4)
隐藏层特征ht+k-1→t+k处理方式和ct+k-1→t+k一样,ht+k-1→t+k和 ct+k-1→t+k作为前一帧到当前帧长短时记忆网络的输入。
长短时记忆网络具体公式如下:
gt+k=σ(Wg(ht+k-1→t+k,rt+k))
it+k=σ(Wi(ht+k-1→t+k,rt+k))
Figure BDA0002699280330000081
Figure BDA0002699280330000082
其中
Figure BDA0002699280330000083
Figure BDA0002699280330000084
表示逐像素相加和相乘,Wg,Wi,Wc学习的权重,σ()表示 sigmoid,即将变量映射到0,1之间。
ot+k=σ(Wo(ht+k-1→t+k,rt+k))
Figure BDA0002699280330000091
因此,本发明通过长短时记忆网络和视频码流里的运动信息和残差信息可以快速提取P帧的特征,有效提升压缩视频特征提取速度。
如图4所示,本发明实施例还提供一种压缩视频的显著性目标检测***,应用于所述的压缩视频的显著性目标检测方法,所述***包括:
第一特征提取模块M100,用于将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络;
第二特征提取模块M200,用于对于各个所述P帧数据,将所对应的前一时刻的帧数据的第一特征和所述P帧数据输入长短时记忆网络,提取所述P帧数据的第一特征;
显著性检测模块M300,用于根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
通过采用本发明的压缩视频的显著性目标检测***,在采用第一特征提取模块M100对I帧数据进行特征提取时,通过卷积神经网络进行提取,而在采用第二特征提取模块M200对P帧数据进行特征提取时,则引入长短时记忆网络,可以采用前一帧的特征、P帧数据和长短时记忆网络进行特征提取,对提取的特征可以采用显著性检测模块M300进行显著性目标检测,因此,只需要对I帧提取完整的特征,而P帧只需要通过长短时记忆网络和视频码流里的P帧数据即可以快速提取P帧的特征,从而有效提升压缩视频特征提取速度,也就大大提升了压缩视频显著性目标检测速度。
本发明实施例还提供一种压缩视频的显著性目标检测设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的压缩视频的显著性目标检测方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图 5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备 600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同***组件(包括存储单元620和处理单元610)的总线 630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205 的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600 交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网 (WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过采用本发明所提供的压缩视频的显著性目标检测设备,所述处理器在执行所述可执行指令时执行所述的压缩视频的显著性目标检测方法,由此可以获得上述压缩视频的显著性目标检测方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的压缩视频的显著性目标检测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如 Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或集群上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过采用本发明所提供的计算机可读存储介质,其中存储的程序在被执行时实现所述的压缩视频的显著性目标检测方法的步骤,由此可以获得上述压缩视频的显著性目标检测方法的有益效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种压缩视频的显著性目标检测方法,其特征在于,所述压缩视频包括多帧数据,所述多帧数据包括I帧数据和至少一个P帧数据,所述I帧数据包括由所述压缩视频的I帧码流解码得到的I帧图像数据,所述P帧数据包括所述压缩视频的P帧码流中的运动信息和残差信息;
所述方法包括如下步骤:
将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络;
对于各个所述P帧数据,将所对应的前一时刻的P帧数据的第一特征和当前的所述P帧数据输入长短时记忆网络,提取当前的所述P帧数据的第一特征;
根据各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
2.根据权利要求1所述的压缩视频的显著性目标检测方法,其特征在于,所述特征提取网络还包括与所述卷积神经网络串联的第一残差网络。
3.根据权利要求1所述的压缩视频的显著性目标检测方法,其特征在于,根据所述各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第一特征输入依次串联的第二残差网络、第三残差网络和第四残差网络,得到所述各帧数据的第二特征;
根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域。
4.根据权利要求3所述的压缩视频的显著性目标检测方法,其特征在于,根据所述各帧数据的第二特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将各帧数据的第二特征输入空洞空间卷积池化金字塔网络,得到各帧数据的第三特征;
根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域。
5.根据权利要求4所述的压缩视频的显著性目标检测方法,其特征在于,所述空洞空间卷积池化金字塔网络包括并联连接的五个模块,所述五个模块包括一个全局平均池化层、一个1x1卷积层和三个3x3空洞卷积层,所述五个模块的输出经过合并后得到所述各帧数据的第三特征。
6.根据权利要求4所述的压缩视频的显著性目标检测方法,其特征在于,根据所述各帧数据的第三特征,采用显著性识别网络,得到各帧的显著性目标区域,包括如下步骤:
将所述各帧数据的第三特征输入所述显著性识别网络,得到各帧数据所对应的概率图;
根据概率阈值对所述概率图进行二值化处理,得到二值化图;
根据所述二值化图提取显著性区域。
7.根据权利要求6所述的压缩视频的显著性目标检测方法,其特征在于,所述显著性识别网络包括第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和激活函数层,所述各帧数据的第三特征输入所述第一反卷积层,所述各帧数据的第一特征输入所述第二反卷积层,所述第一反卷积层和所述第二反卷积层的输出合并后输入依次串联的第三反卷积层、第四反卷积层和第五反卷积层,所述第五反卷积层的输出经所述激活函数层后输出各帧数据的概率图。
8.一种压缩视频的显著性目标检测***,其特征在于,应用于权利要求1至7中任一项所述的压缩视频的显著性目标检测方法,所述***包括:
第一特征提取模块,用于将所述I帧数据输入特征提取网络,提取所述I帧数据的第一特征,所述特征提取网络包括卷积神经网络,所述I帧数据包括由所述压缩视频的I帧码流解码得到的I帧图像数据;
第二特征提取模块,用于对于各个所述P帧数据,将所对应的前一时刻的P帧数据的第一特征和当前的所述P帧数据输入长短时记忆网络,提取当前的所述P帧数据的第一特征,所述P帧数据包括所述压缩视频的P帧码流中的运动信息和残差信息;
显著性检测模块,用于根据各帧数据的第一特征,采用显著性识别网络,得到各帧的显著性目标区域。
9.一种压缩视频的显著性目标检测设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的压缩视频的显著性目标检测方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7中任一项所述的压缩视频的显著性目标检测方法的步骤。
CN202011016604.7A 2020-09-24 2020-09-24 压缩视频的显著性目标检测方法、***、设备及存储介质 Active CN111931732B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011016604.7A CN111931732B (zh) 2020-09-24 2020-09-24 压缩视频的显著性目标检测方法、***、设备及存储介质
PCT/CN2021/082752 WO2022062344A1 (zh) 2020-09-24 2021-03-24 压缩视频的显著性目标检测方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011016604.7A CN111931732B (zh) 2020-09-24 2020-09-24 压缩视频的显著性目标检测方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111931732A CN111931732A (zh) 2020-11-13
CN111931732B true CN111931732B (zh) 2022-07-15

Family

ID=73334166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011016604.7A Active CN111931732B (zh) 2020-09-24 2020-09-24 压缩视频的显著性目标检测方法、***、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111931732B (zh)
WO (1) WO2022062344A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931732B (zh) * 2020-09-24 2022-07-15 苏州科达科技股份有限公司 压缩视频的显著性目标检测方法、***、设备及存储介质
CN115529457B (zh) * 2022-09-05 2024-05-14 清华大学 基于深度学习的视频压缩方法和装置
CN116052047B (zh) * 2023-01-29 2023-10-03 荣耀终端有限公司 运动物体检测方法及其相关设备
CN115953727B (zh) * 2023-03-15 2023-06-09 浙江天行健水务有限公司 一种絮体沉降速率检测方法、***、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3769788B2 (ja) * 1995-09-29 2006-04-26 ソニー株式会社 画像信号伝送装置および方法
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法
CN111461043A (zh) * 2020-04-07 2020-07-28 河北工业大学 基于深度网络的视频显著性检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568545B2 (en) * 2017-11-20 2023-01-31 A9.Com, Inc. Compressed content object and action detection
CN108495129B (zh) * 2018-03-22 2019-03-08 北京航空航天大学 基于深度学习方法的块分割编码复杂度优化方法及装置
CN110163196B (zh) * 2018-04-28 2023-12-08 中山大学 显著特征检测方法和装置
CN111026915B (zh) * 2019-11-25 2023-09-15 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备
CN111931732B (zh) * 2020-09-24 2022-07-15 苏州科达科技股份有限公司 压缩视频的显著性目标检测方法、***、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3769788B2 (ja) * 1995-09-29 2006-04-26 ソニー株式会社 画像信号伝送装置および方法
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法
CN111461043A (zh) * 2020-04-07 2020-07-28 河北工业大学 基于深度网络的视频显著性检测方法

Also Published As

Publication number Publication date
WO2022062344A1 (zh) 2022-03-31
CN111931732A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931732B (zh) 压缩视频的显著性目标检测方法、***、设备及存储介质
US11200424B2 (en) Space-time memory network for locating target object in video content
CN112488073A (zh) 目标检测方法、***、设备及存储介质
US11847816B2 (en) Resource optimization based on video frame analysis
CN110555405B (zh) 目标跟踪方法及装置、存储介质和电子设备
CN111523447B (zh) 车辆跟踪方法、装置、电子设备及存储介质
CN110363748B (zh) 关键点的抖动处理方法、装置、介质及电子设备
JP7191139B2 (ja) 生体を検知するための方法及び装置
CN111444807B (zh) 目标检测方法、装置、电子设备和计算机可读介质
GB2579262A (en) Space-time memory network for locating target object in video content
KR20220153667A (ko) 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN114898416A (zh) 一种人脸识别方法、装置、电子设备及可读存储介质
CN112883818A (zh) 文本图像识别方法、***、设备及存储介质
CN111368593B (zh) 一种马赛克处理方法、装置、电子设备及存储介质
CN108460335B (zh) 视频细粒度识别方法、装置、计算机设备及存储介质
US8532393B2 (en) Method and system for line segment extraction
CN114120454A (zh) 活体检测模型的训练方法、装置、电子设备及存储介质
CN110796003B (zh) 车道线检测方法、装置及电子设备
CN114841870A (zh) 图像处理方法、相关装置和***
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN113869163A (zh) 目标跟踪方法、装置、电子设备及存储介质
CN113033397A (zh) 目标跟踪方法、装置、设备、介质及程序产品
CN113627341B (zh) 一种视频样例比对的方法、***、设备及存储介质
US20240119601A1 (en) Image processing apparatus, image processing method, and computer readable recording medium
CN116580063B (zh) 目标追踪方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant