CN112235569B - 基于h264压缩域的快速视频分类方法、***及装置 - Google Patents

基于h264压缩域的快速视频分类方法、***及装置 Download PDF

Info

Publication number
CN112235569B
CN112235569B CN202011086957.4A CN202011086957A CN112235569B CN 112235569 B CN112235569 B CN 112235569B CN 202011086957 A CN202011086957 A CN 202011086957A CN 112235569 B CN112235569 B CN 112235569B
Authority
CN
China
Prior art keywords
video
frame
time resolution
resolution model
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011086957.4A
Other languages
English (en)
Other versions
CN112235569A (zh
Inventor
李扬曦
缪亚男
王佩
胡卫明
李兵
刘雨帆
关俊洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011086957.4A priority Critical patent/CN112235569B/zh
Publication of CN112235569A publication Critical patent/CN112235569A/zh
Application granted granted Critical
Publication of CN112235569B publication Critical patent/CN112235569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于计算机视觉领域,具体涉及了一种基于H264压缩域的快速视频分类方法、***及装置,旨在解决现有视频分类技术速度慢、模型复杂度高的问题。本发明包括:提取H264标准的视频的I帧、P帧和B帧数据;进行I帧的解码及P帧和B帧的熵解码,获得I帧图像及视频帧之间的运动矢量;分别构建高低时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行模型融合;基于I帧图像和帧之间的运动矢量,获取四个初步预测分类;进行四个初步预测分类的加权融合,获得最终的预测分类结果。本发明无需进行所有视频帧的全解码,模型参数量小,可以有效提高视频分类速度,并能很好地识别视频中快慢不同的运动信息,实用性更强。

Description

基于H264压缩域的快速视频分类方法、***及装置
技术领域
本发明属于计算机视觉领域,具体涉及了一种基于H264压缩域的快速视频分类方法、***及装置。
背景技术
在视频分类***中,通常需要先将视频解码成图片序列,然后再用卷积神经网络等方法处理这些图片序列,实现视频分类,这种视频分类***包括视频解码和模型推理两个部分,视频解码不仅花费大量的时间,而且解码后得到的RGB图片序列包含大量的冗余信息,往往需要比较深的卷积神经网络模型对其进行处理,而较深的卷积神经网络模型因为有大量的参数,计算时需要花费大量的时间。因而,传统的视频分类***中,视频解码和复杂的模型推理都阻碍了视频分类的速度,难以应用于实际场景中。
从另一个角度看,为了便于传输和存储,视频都是以压缩的形式存在的,通过部分解码可以得到视频的压缩域信息,如运动矢量、残差、量化参数、DCT系数和分割深度等,这些压缩域信息跟RGB图片相比,具有较少的冗余信息。因此,可以利用较浅的卷积神经网络建模这些压缩域信息,从而加快视频分类的速度。
发明内容
为了解决现有技术中的上述问题,即现有视频分类技术速度慢、模型复杂度高的问题,本发明提供了一种基于H264压缩域的快速视频分类方法,该快速视频分类方法包括:
步骤S10,获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
步骤S20,进行所述I帧数据的解码以及所述P帧和B帧数据的熵解码,获得所述待分类视频的I帧图像以及视频帧之间的运动矢量;
步骤S30,分别构建低时间分辨率模型和高时间分辨率模型;
步骤S40,通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
步骤S50,基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
步骤S60,通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
在一些优选的实施例中,所述低时间分辨率模型,其输入帧率为T,通道数为C。
在一些优选的实施例中,所述高时间分辨率模型包括三个分支;所述三个分支的输入帧率依次为α1T、α2T和α3T,通道数依次为β1C、β2C和β3C。
在一些优选的实施例中,所述高时间分辨率模型的三个分支,其输入帧率的大小关系为α1T<α2T<α3T,其通道数的大小关系为β1C>β2C>β3C。
在一些优选的实施例中,步骤S40包括:
步骤S41,通过核为α×1,步长为α的最大池化层分别进行高时间分辨率模型三个分支的第一层输出的池化,将池化后的结果在C通道上进行拼接;其中,α∈{α123};
步骤S42,通过核为1×1的卷积层进行拼接后的结果的卷积,并通过Squeeze-and-Excitation模块获取各通道的注意力;
步骤S43,将高时间分辨率模型三个分支中通道注意力大于设定阈值的特征和低时间分辨率模型融合,获得四路输入输出的融合网络。
在一些优选的实施例中,步骤S50包括:
步骤S51,将所述待分类视频的I帧图像以及视频帧之间的运动矢量作为所述四路输入输出的融合网络的各路输入;
步骤S52,分别将每一路输入的各通道输出进行全局平均池化,并分别对各路的池化结果进行拼接;
步骤S53,将拼接结果通过卷积层融合到低时间分辨率模型中,获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类。
在一些优选的实施例中,所述四路输入输出的融合网络,其训练中采用的损失函数为多分类交叉熵损失函数:
其中,N为进行网络训练的样本集的样本总数量,y(i)代表样本的真实分类结果,代表网络的预测分类结果,i代表样本集中第i个样本。
本发明的另一方面,提出了一种基于H264压缩域的快速视频分类***,该快递视频分类***包括帧提取模块、熵解码模块、网络构建模块、预分类模块和分类融合模块;
所述帧提取模块,配置为获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
所述熵解码模块,配置为进行所述I帧数据的解码以及所述P帧和B帧数据的熵解码,获得所述待分类视频的I帧图像以及视频帧之间的运动矢量;
所述网络构建模块,配置为分别构建低时间分辨率模型和高时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
所述预分类模块,配置为基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
所述分类融合模块,配置为通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于H264压缩域的快速视频分类方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于H264压缩域的快速视频分类方法。
本发明的有益效果:
(1)本发明基于H264压缩域的快速视频分类方法,充分利用H264压缩标准编码的视频的压缩域信息,仅对视频中的I帧进行解码,视频的P帧和B帧仅进行熵解码,大大降低了视频分类中视频解码所需要的时间,提高了视频分类的速度。
(2)本发明基于H264压缩域的快速视频分类方法,视频的压缩域信息与传统方法解码后的RGB图像相比,大大减少了解码后的冗余信息,因而可以通过较浅的卷积神经网络进行建模,大大减少了模型构建和训练中的参数,提高了模型构建效率,进一步提高了视频分类的速度。
(3)本发明基于H264压缩域的快速视频分类方法,通过对P帧和B帧的熵解码,获取视频帧之间的运动矢量作为视频帧之间运动信息的描述,通过不同时间分辨率的模型结合不同时间分辨率的信息,捕捉到了视频中主体的空间信息和不同时长和快慢的动作信息,将运动矢量信息运用到后续的视频分类中,提高了视频分类的精度和准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于H264压缩域的快速视频分类方法的流程示意图;
图2是本发明基于H264压缩域的快速视频分类方法一种实施例的H264解压流程示意图;
图3是本发明基于H264压缩域的快速视频分类方法一种实施例的高低时间分辨率模型以及其融合和预测示意图;
图4是本发明基于H264压缩域的快速视频分类方法一种实施例的时间尺度注意力模块示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于H264压缩域的快速视频分类方法,本方法的具体运行的硬件和编程语言不受限制,用任何语言编写都可以实现。本发明一个实施例中,采用一台具有2.8GHz中央处理器和128G字节内存的计算机,网络的训练过程在Pytorch框架下实现,整个网络的训练和测试过程均采用多个NVIDIA RTX 2080Ti GPU并行处理,并用C语言编制了整个视频部分解码技术的工作程序,实现了本发明的方法。
本发明的一种基于H264压缩域的快速视频分类方法,该快速视频分类方法包括:
步骤S10,获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
步骤S20,进行所述I帧数据的解码以及所述P帧和B帧数据的熵解码,获得所述待分类视频的I帧图像以及视频帧之间的运动矢量;
步骤S30,分别构建低时间分辨率模型和高时间分辨率模型;
步骤S40,通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
步骤S50,基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
步骤S60,通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
为了更清晰地对本发明基于H264压缩域的快速视频分类方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于H264压缩域的快速视频分类方法,包括步骤S10-步骤S60,各步骤详细描述如下:
步骤S10,获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据。
H264是当今互联网上最普遍使用的视频压缩标准,使用H264压缩标准压缩的视频中有运动矢量、残差、量化参数、DCT系数和分割深度等压缩域信息:
运动矢量粗略表示了视频帧之间像素块的相对位移,代表了视频帧之间的运动信息;
残差可以表示视频帧中物体的边界;
量化参数和分割深度反映了视频帧中的纹理丰富程度;
DCT系数反映了残差中的纹理丰富程度。
如图2所示,为本发明基于H264压缩域的快速视频分类方法一种实施例的H264解压流程示意图,对H264压缩标准编码的视频进行解码,共需5个步骤,分别是熵解码、反量化、反变换、MV运动补偿和滤波。
熵解码后,可以得到运动矢量,量化参数和分割深度等压缩域信息,再经过反量化,可以得到DCT系数,然后经过反变换可以得到残差信息。
H264编码的视频中有I帧、P帧和B帧三种类型的帧,其中I帧包含了图像背景和运动主体的详细信息,P帧和B帧是通过运动矢量和其参考帧预测得到。因此对于I帧,本发明进行解码,用其代表视频的主体信息和运动信息;对于P帧和B帧,本发明只经过熵解码提取运动矢量,作为视频帧之间运动信息的描述。
从视频流中解码得到I帧。对于一段视频,I帧的数量是很少的,一段视频可能有多个场景,通常每个场景的开头是一个I帧,因此一个I帧往往能代表一个场景。在解码的时候,判断每一帧的类型,设置过滤机制,选出I帧,只对I帧解码,跳过视频中的P帧和B帧,这种解码方法与视频的全解码相比,可以大大降低获取I帧的时间开销,极大地提升获取I帧速度。
从待分类视频中提取I帧具体包括:
首先,利用FFmpeg提供的API打开视频流,检查视频流编码器是否是H264,若是则进行后续解码步骤,否则退出程序;
然后,使用FFmpeg提供的H264解码器解码视频,读取视频流中的视频帧,判断视频帧的类型,若是B帧或者P帧,则不做任何处理,继续读取下一帧,若是I帧,则使用H264解码流程对其进行解码,得到解码后的YUV数据;
再然后,利用YUV格式的数据跟RGB格式数据的对应关系,将YUV格式的数据转成RGB格式的数据,至此,得到一张I帧图片;
最后,按照这个流程,继续解码剩余的帧,直到得到待分类视频的视频流中所有的I帧。
步骤S20,进行所述I帧数据的解码以及所述P帧和B帧数据的熵解码,获得所述待分类视频的I帧图像以及视频帧之间的运动矢量。
对于使用H264压缩标准压缩的视频,仅仅对其P帧和B帧做熵解码就可以得到运动矢量,省去了DCT反变换,反量化,滤波等步骤,与全解码相比,这节省了大量的运算开销。对于一个视频流,在解码环节,只做熵解码,跳过后续解码步骤,将熵解码后得到的运动矢量保存下来。
提取运动矢量具体包括:
利用FFmpeg的API解视频封装,得到视频流,分析视频流中的每一帧,由于只有B帧和P帧有运动矢量,I帧没有运动矢量,因此要避免从I帧中解码运动矢量。
首先,分析读取到的每一帧的类型,如果是I帧,则不做任何处理,继续读取下一帧,如果是B帧或P帧,调用H264的熵解码器,对其进行熵解码;
然后,判断B帧或P帧的熵编码类型,选择合适的熵解码器,如果是熵编码方式是CAVLC,则使用CAVLC熵解码器对其进行熵解码,如果熵编码方式是CABAC,则使用CABAC熵解码器对其进行熵解码,熵解码后就可以得到当前帧的运动矢量;
再然后,退出H264解码器,避免反量化,反变换,滤波等对提取运动矢量没有帮助的解码操作;
最后,按照此种方式一帧一帧地解码视频流,得到视频流对应的运动矢量。
步骤S30,分别构建低时间分辨率模型和高时间分辨率模型。
步骤S40,通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络。
上述从视频中提取到的I帧和运动矢量,分别包含了视频的主体信息和运动信息。视频内容理解的关键是在一个特定的时空中存在一个特定的主体,因此主体的空间信息以及主体的运动信息必须得到完整的表示和学习。为了能够捕捉到视频中快慢不同的动作信息,考虑构建不同时间分辨率的网络,并将其融合成一个整体的网络,本发明设计的多尺度时间分辨率模型,通过结合不同时间分辨率的信息,很好地捕捉到了视频中主体的空间信息和不同时长和快慢的动作信息。
本发明一个实施例中,构建一个低时间分辨率模型和三个分支的高时间分辨率模型:低时间分辨率模型的输入帧率为T,通道数为C,低时间分辨率模型需要捕捉到更多的表观信息,因此网络中的通道数C应该多一些,这样可以更加有效地建模视频帧的表观信息。具体而言,使用通道数较多的卷积神经网络处理多个视频帧,得到整个视频的特征表示,然后使用全连接层对其进行分类,得到低时间分辨率模型的预测结果。低时间分辨率的网络由于通道数较多,能够更好的提取视频帧的表观信息,但是对视频帧的运动信息表示较差。为了弥补低分辨率网络的不足,需要设计高时间分辨率模型建模视频的运动信息。由于视频中有快慢不同的运动模式,为了能够比较全面地建模快慢不同的运动模式,本发明为高时间分辨率模型设计了3个不同的分支,分别对应不同的时间分辨率,三个分支的输入帧率依次为α1T、α2T和α3T,通道数依次为β1C、β2C和β3C,其输入帧率的大小关系为α1T<α2T<α3T,表示三个分支的时间分辨率越来越高,其通道数的大小关系为β1C>β2C>β3C,表示三个分支的通道数越来越少,其对表观的建模能力也越来越差,但是能够捕捉到快速的运动模式,有利于对运动的建模。
如图3所示,为本发明基于H264压缩域的快速视频分类方法一种实施例的高低时间分辨率模型以及其融合和预测示意图,S2={W,H}分别为待分类视频中视频帧的宽和高,低时间分辨率模型的输入为I帧序列,帧率为T,通道数为C,高时间分辨率模型的输入为不同时间分辨率的运动矢量序列,它包括三个分支:高时间分辨率1、高时间分辨率2和高时间分辨率3,其输入帧率依次为α1T、α2T和α3T,通道数依次为β1C、β2C和β3C。
α∈{α123}高时间分辨率网络的帧率和低分辨率网络的帧率的比值,β∈{β123}为高分辨率网络通道数和低分辨率网络通道数的比值,在设计高分辨率网络时,帧率比例α越大,则选择的β值越小,高时间分辨率网络的通道数和参数量则越小,以维持整体参数量上的均衡,避免模型资源消耗过大。在帧率αT的设计上,理想情况下模型可以自适应地学习合适的帧率来达到最好的性能。对于每个视频,帧率过大和过小都会导致性能较差,过大导致冗余信息过多,而过小则对动作信息的建模过于稀疏,因此我们应该尽量接近最优帧率,也就是最优时间分辨率。因此在模型中设置了启发式的α1、α2和α3,帧率依次增大,从多个时间分辨率下对视频中的动作进行建模。
如图4所示,为本发明基于H264压缩域的快速视频分类方法一种实施例的时间尺度注意力模块示意图,时间尺度注意力模块用于融合不同分辨率的信息,不同时间分辨率的特征通过时间尺度注意力模块(TSA,Time Scale Attention)获得不同的加权,再与低分辨率分支进行融合;其中,maxpooling3d代表三维最大池化操作,concatenate代表拼接操作,conv1×1代表核为1×1的卷积层,SE代表Squeeze-and-Exictation模块,即压缩激活模块,X代表特征图,C′、H′和W′分别代表特征图的通道数、高度和宽度,Ftr代表卷积变换操作,U代表变换后的特征图,C、H和W分别代表变换后的特征图的通道数、高度和宽度,Fsq(·)代表全局平均池化操作,1×1×C代表全局平均池化后输出的维度,Fex(·,W)代表可学习的通道权重,Fscale(·,·)代表通道权重与原特征图的成绩,代表特征图实现通道注意力后的结果。
步骤S41,通过核为α×1,步长为α的最大池化层分别进行高时间分辨率模型三个分支的第一层输出的池化,将池化后的结果在C通道上进行拼接;其中,α∈{α123}。池化后,可以使得其时间维度和空间维度相同。
步骤S42,通过核为1×1的卷积层进行拼接后的结果的卷积,并通过Squeeze-and-Excitation模块获取各通道的注意力。
本发明一个实施例中,设高时间分辨率模型的三个分支第一层输出特征分别为V1:{α1T,S2,β1C},V2:{α2T,S2,β2C},V3:{α3T,S2,β3C}。通过核为α×1,步长为α的最大池化层分别进行高时间分辨率模型三个分支的第一层输出的池化,再将输出在C通道上进行拼接,最后通过核为1×1的卷积层进行拼接后的结果的卷积,得到{T,S2,C}。
步骤S43,将高时间分辨率模型三个分支中通道注意力大于设定阈值的特征和低时间分辨率模型融合,获得四路输入输出的融合网络。
使用SE(Squeeze-and-Exictation)模块进一步实现通道上的注意力。之后,可以通过相加或者直接拼接的方式与低时间分辨率的流进行侧面融合。SE模块可以将最有效的特征和低时间分辨率模型融合。
步骤S50,基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类。
步骤S51,将所述待分类视频的I帧图像以及视频帧之间的运动矢量作为所述四路输入输出的融合网络的各路输入。
步骤S52,分别将每一路输入的各通道输出进行全局平均池化,并分别对各路的池化结果进行拼接。
步骤S53,将拼接结果通过卷积层融合到低时间分辨率模型中,获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类。
四路输入输出的融合网络,其训练中采用的损失函数为多分类交叉熵损失函数,如式(1)所示:
其中,N为进行网络训练的样本集的样本总数量,y(i)代表样本的真实分类结果,代表网络的预测分类结果,i代表样本集中第i个样本。
步骤S60,通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
本发明第二实施例的基于H264压缩域的快速视频分类***,该快递视频分类***包括帧提取模块、熵解码模块、网络构建模块、预分类模块和分类融合模块;
所述帧提取模块,配置为获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
所述熵解码模块,配置为进行所述I帧数据的解码以及所述P帧和B帧数据的熵解码,获得所述待分类视频的I帧图像以及视频帧之间的运动矢量;
所述网络构建模块,配置为分别构建低时间分辨率模型和高时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
所述预分类模块,配置为基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
所述分类融合模块,配置为通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于H264压缩域的快速视频分类***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于H264压缩域的快速视频分类方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于H264压缩域的快速视频分类方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种基于H264压缩域的快速视频分类方法,其特征在于,该快速视频分类方法包括:
步骤S10,获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
步骤S20,进行所述I帧数据的解码,获得所述待分类视频的I帧图像;对所述P帧和B帧数据的熵解码,获得所述待分类视频的视频帧之间的运动矢量;
步骤S30,分别构建低时间分辨率模型和高时间分辨率模型;
步骤S40,通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
其中,所述低时间分辨率模型,其输入帧率为T,通道数为C;所述高时间分辨率模型包括三个分支;所述三个分支的输入帧率依次为α1T、α2T和α3T,通道数依次为β1C、β2C和β3C;α∈{α1,α2,α3},为所述高时间分辨率模型的帧率和所述低时间分辨率模型的帧率的比值,β∈{β1,β2,β3}为所述高时间分辨率模型通道数和所述低时间分辨率模型通道数的比值;
获得四路输入输出的融合网络,其方法为:
步骤S41,通过核为α×1,步长为α的最大池化层分别进行高时间分辨率模型三个分支的第一层输出的池化,将池化后的结果在C通道上进行拼接;其中,α∈{α1,α2,α3};
步骤S42,通过核为1×1的卷积层进行拼接后的结果的卷积,并通过Squeeze-and-Excitation模块获取各通道的注意力;
步骤S43,将高时间分辨率模型三个分支中通道注意力大于设定阈值的特征和低时间分辨率模型融合,获得四路输入输出的融合网络;
步骤S50,基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
步骤S60,通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
2.根据权利要求1所述的基于H264压缩域的快速视频分类方法,其特征在于,所述高时间分辨率模型的三个分支,其输入帧率的大小关系为α1T<α2T<α3T,其通道数的大小关系为β1C>β2C>β3C。
3.根据权利要求1所述的基于H264压缩域的快速视频分类方法,其特征在于,步骤S50包括:
步骤S51,将所述待分类视频的I帧图像以及视频帧之间的运动矢量作为所述四路输入输出的融合网络的各路输入;
步骤S52,分别将每一路输入的各通道输出进行全局平均池化,并分别对各路的池化结果进行拼接;
步骤S53,将拼接结果通过卷积层融合到低时间分辨率模型中,获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类。
4.根据权利要求1所述的基于H264压缩域的快速视频分类方法,其特征在于,所述四路输入输出的融合网络,其训练中采用的损失函数为多分类交叉熵损失函数:
其中,N为进行网络训练的样本集的样本总数量,y(i)代表样本的真实分类结果,代表网络的预测分类结果,i代表样本集中第i个样本。
5.一种基于H264压缩域的快速视频分类***,其特征在于,该快速视频分类***包括帧提取模块、熵解码模块、网络构建模块、预分类模块和分类融合模块;
所述帧提取模块,配置为获取H264压缩标准编码的视频作为待分类视频,并基于视频码流信息提取所述待分类视频的I帧、P帧和B帧数据;
所述熵解码模块,配置为进行所述I帧数据的解码,获得所述待分类视频的I帧图像;对所述P帧和B帧数据的熵解码,获得所述待分类视频的视频帧之间的运动矢量;
所述网络构建模块,配置为分别构建低时间分辨率模型和高时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行所述低时间分辨率模型和高时间分辨率模型融合,获得四路输入输出的融合网络;
其中,所述低时间分辨率模型,其输入帧率为T,通道数为C;所述高时间分辨率模型包括三个分支;所述三个分支的输入帧率依次为α1T、α2T和α3T,通道数依次为β1C、β2C和β3C;α∈{α1,β2,α3},为所述高时间分辨率模型的帧率和所述低时间分辨率模型的帧率的比值,β∈{β1,β2,β3}为所述高时间分辨率模型通道数和所述低时间分辨率模型通道数的比值;
获得四路输入输出的融合网络,其方法为:
步骤S41,通过核为α×1,步长为α的最大池化层分别进行高时间分辨率模型三个分支的第一层输出的池化,将池化后的结果在C通道上进行拼接;其中,α∈{α1,α2,α3};
步骤S42,通过核为1×1的卷积层进行拼接后的结果的卷积,并通过Squeeze-and-Excitation模块获取各通道的注意力;
步骤S43,将高时间分辨率模型三个分支中通道注意力大于设定阈值的特征和低时间分辨率模型融合,获得四路输入输出的融合网络;
所述预分类模块,配置为基于所述待分类视频的I帧图像以及视频帧之间的运动矢量,通过四路输入输出的融合网络获得所述待分类视频的低时间分辨率和高时间分辨率的四个初步预测分类;
所述分类融合模块,配置为通过加权的方式进行所述四个初步预测分类的融合,获得最终的待分类视频的预测分类结果。
6.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于H264压缩域的快速视频分类方法。
7.一种处理装置,包括:
处理器,适于执行各条程序;
以及存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-4任一项所述的基于H264压缩域的快速视频分类方法。
CN202011086957.4A 2020-10-12 2020-10-12 基于h264压缩域的快速视频分类方法、***及装置 Active CN112235569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011086957.4A CN112235569B (zh) 2020-10-12 2020-10-12 基于h264压缩域的快速视频分类方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011086957.4A CN112235569B (zh) 2020-10-12 2020-10-12 基于h264压缩域的快速视频分类方法、***及装置

Publications (2)

Publication Number Publication Date
CN112235569A CN112235569A (zh) 2021-01-15
CN112235569B true CN112235569B (zh) 2024-03-29

Family

ID=74112295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011086957.4A Active CN112235569B (zh) 2020-10-12 2020-10-12 基于h264压缩域的快速视频分类方法、***及装置

Country Status (1)

Country Link
CN (1) CN112235569B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861698B (zh) * 2021-02-03 2023-04-07 西安交通大学 一种基于多尺度时序感受野的压缩域行为识别方法
CN112991476B (zh) * 2021-02-18 2021-09-28 中国科学院自动化研究所 基于深度压缩域特征的场景分类方法、***及设备
CN114125449B (zh) * 2021-10-26 2024-06-11 阿里巴巴创新公司 基于神经网络的视频处理方法、***和计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301730A (zh) * 2014-10-14 2015-01-21 河海大学常州校区 基于视频移动设备的双向视频编解码***及其方法
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109391846B (zh) * 2017-08-07 2020-09-01 浙江宇视科技有限公司 一种自适应模式选择的视频加扰方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301730A (zh) * 2014-10-14 2015-01-21 河海大学常州校区 基于视频移动设备的双向视频编解码***及其方法
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
适于实时传输的AVS视频码流加密算法;宋星光;刘彧;苏育挺;;计算机应用研究(第05期);全文 *

Also Published As

Publication number Publication date
CN112235569A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
CN112235569B (zh) 基于h264压缩域的快速视频分类方法、***及装置
Pan et al. Efficient in-loop filtering based on enhanced deep convolutional neural networks for HEVC
CN110300977B (zh) 用于图像处理和视频压缩的方法
US11436710B2 (en) Method and device for mapping LDR video into HDR video
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN112102212B (zh) 一种视频修复方法、装置、设备及存储介质
CN114731455B (zh) 使用与图像质量相关的ai元数据的设备和方法
CN110490082A (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN113473126B (zh) 视频流的处理方法、装置、电子设备及计算机可读介质
CN111263161A (zh) 视频压缩处理方法、装置、存储介质和电子设备
CN103141092A (zh) 针对视频压缩使用运动补偿的基于示例的超分辨率来编码视频信号的方法和设备
CN116681584A (zh) 一种多级扩散图像超分辨算法
CN112150400A (zh) 图像增强方法、装置和电子设备
Löhdefink et al. On low-bitrate image compression for distributed automotive perception: Higher peak snr does not mean better semantic segmentation
Löhdefink et al. GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation
CN111432213B (zh) 用于视频和图像压缩的贴片数据大小编码的方法和装置
CN113902647A (zh) 一种基于双闭环网络的图像去模糊方法
CN116508320A (zh) 基于机器学习的图像译码中的色度子采样格式处理方法
CN113115075B (zh) 一种视频画质增强的方法、装置、设备以及存储介质
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
US20220377342A1 (en) Video encoding and video decoding
US7706440B2 (en) Method for reducing bit rate requirements for encoding multimedia data
US20230269380A1 (en) Encoding method, decoding method, encoder, decoder and storage medium
WO2022246809A1 (zh) 编解码方法、码流、编码器、解码器以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant