CN111723735B - 一种基于卷积神经网络的伪高码率hevc视频检测方法 - Google Patents

一种基于卷积神经网络的伪高码率hevc视频检测方法 Download PDF

Info

Publication number
CN111723735B
CN111723735B CN202010563654.0A CN202010563654A CN111723735B CN 111723735 B CN111723735 B CN 111723735B CN 202010563654 A CN202010563654 A CN 202010563654A CN 111723735 B CN111723735 B CN 111723735B
Authority
CN
China
Prior art keywords
frame
video
hevc
hevc video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010563654.0A
Other languages
English (en)
Other versions
CN111723735A (zh
Inventor
何沛松
王宏霞
刘嘉勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010563654.0A priority Critical patent/CN111723735B/zh
Publication of CN111723735A publication Critical patent/CN111723735A/zh
Application granted granted Critical
Publication of CN111723735B publication Critical patent/CN111723735B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于卷积神经网络的伪高码率HEVC视频检测方法,通过计算HEVC视频的平均检测分数,与阈值比较判定是否为伪高码率视频。平均检测分数由视频的所有I帧的检测分数取平均值得到。I帧的检测分数的计算方法包括:对视频进行解压缩,提取I帧中亮度分量的所有PU的块大小和PU的帧内预测模式;构建I帧的PU块大小信息图和PU预测模式信息图;计算I帧的解压帧的灰度图中具有最大空间复杂度的正方形区域;构造I帧的PU块大小信息子图和PU预测模式信息子图,输入基于注意力机制的双通道卷积神经网络,得到I帧的检测分数。本发明将编码信息图与基于注意力机制的神经网络相结合能够有效提升检测性能,增强对不同编码设置与视频内容的鲁棒性。

Description

一种基于卷积神经网络的伪高码率HEVC视频检测方法
技术领域
本发明涉及多媒体安全技术领域,具体地,涉及一种基于卷积神经网络的伪高码率HEVC视频检测方法。
背景技术
随着数字视频处理技术和网络传输技术的快速发展,数字视频已经成为人们接触最新资讯的重要方式之一,并在娱乐,司法,金融,医疗和教育等众多领域中得到广泛应用。视频码率常常被视作反应数字视频画面质量的重要指标,高码率视频具有更良好的画面质量。然而,先进的视频编辑软件,例如Adobe Premiere和FFmpeg,能够十分容易的将低码率视频转换为高码率视频,此类经过码率上转的视频称为伪高码率视频。相对的,只经历过一次编码过程的视频称为真实码率视频。伪高码率视频虽然具有较高的码率,但其画面质量较差。此类视频常常被不法分子用于伪装高画质视频吸引网站点击量,也会出现在由不同码率视频拼接而成的篡改视频中。对于网络用户体验以及数字视频的真实性具有严重的负面影响。因此,准确检测数字视频是否为伪高码率视频对于保护数字视频的完整性与真实性具有重要的实际应用价值。此外,在大数据时代的互联网中,海量数字视频也急需可靠高效的方法进行伪高码率视频检测,这对保障网络空间安全具有积极的作用。伪高码率视频是一种特殊的数字视频转码操作已受到国内外学者的重视。现有的伪高码率视频检测方法大致分为基于像素域特征和基于编码域特征两类方法。
在目前公开发表的专利中,有下列专利与本发明方法解决类似的问题;公开号为CN103327320A,题为《一种用于伪高码率视频的鉴定方法》的专利是一种基于像素域特征的检测方法。该方法根据多次重编码后伪高码率视频客观质量非单调下降的特征构建特征曲线,利用其拟合系数提取检测特征并结合支持向量机分类器对伪高码率视频进行检测。然而,此方法存在以下局限性:1)此方法在特征提取过程中需要进行多次重编码和解码,当输入视频分辨率较高时运算效率会明显降低。2)此方法根据解压帧的客观质量构造特征曲线,容易受到不同转码参数的影响,例如不同的视频编码标准等,鲁棒性较差。
参考文献[1](X.Liang,Z.Li,Z.Li,Z.Zhang:Fake Bitrate Detection of HEVCVideos Based on Prediction Process.Symmetry 11(7):918(2019))公开了一种基于预测过程信息的伪高码率HEVC视频检测方法。该方法利用编码单元的划分模式和预测单元的划分模式等编码信息构建统计特征,并结合支持向量机分类器对伪高码率视频进行检测。该算法运算效率较快,但存在以下不足:1)此方法的检测特征中包含帧间编码预测单元划分模式信息,因此无法对只包含I帧的伪高码率视频进行检测。2)此方法将不同编码信息的出现频率用于构建检测特征,无法反映编码信息的空间分布规律。因此,对伪高码率HEVC视频编码域的异常痕迹表征能力有限,对多样的视频内容泛化能力较差。
参考文献[2](P.He,H.Li,B.Li,H.Wang and L.Liu,Exposing Fake BitrateVideos Using Hybrid Deep-learning Network from Recompression Error,in IEEETransactions on Circuits and Systems for Video Technology,2019,Early Access.)公开了一种基于重编码误差及复合神经网络的伪高码率HEVC视频检测方法。该方法首先采用一次重编码过程,然后在像素域计算重编码误差并进行分块。将误差块输入复合神经网络对伪高码率视频进行检测。该算法在视频转码设置单一的情况下性能良好,但存在以下不足:1)当待测视频的编码过程与提取重编码误差的重编码过程存在编码参数不同的情况时,该方法的检测性能会出现明显下降,可靠性较差,不利于在实际取证场景下应用。2)此方法采用的复合神经网络对于不同来源的输入特征采用简单的拼接操作进行融合,容易造成网络参数过多的局限,增加对训练样本过拟合的风险。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于卷积神经网络的伪高码率HEVC视频检测方法。
实现本发明目的的技术方案如下:
一种基于卷积神经网络的伪高码率HEVC视频检测方法,包括:
计算HEVC视频的平均检测分数
Figure BDA0002545683910000021
与阈值Tf进行比较:若大于Tf则为伪高码率HEVC视频,反之则为真实码率HEVC视频;
所述计算HEVC视频的平均检测分数
Figure BDA0002545683910000022
的方法为:计算得到HEVC视频的每个I帧(Intra-coded frame,帧内编码帧)的检测分数sfake,将所有I帧的检测分数的平均值作为平均检测分数
Figure BDA0002545683910000023
Figure BDA0002545683910000024
T表示I帧的总数,t表示I帧的序号;
其中,计算I帧的检测分数sfake的方法为:
步骤1.对HEVC视频进行解压缩,得到I帧的解压帧,并提取I帧中亮度分量的所有PU(Prediction Unit,预测单元)的块大小和PU的帧内预测模式;
步骤2.构建I帧的PU块大小信息图Fs和PU预测模式信息图Fp;Fs和Fp均为M×N的矩阵,M×N为I帧的分辨率;对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的块大小c×c,令Fs(i,j)=log2(c),i∈{1,...,M},j∈{1,...,N},c表示块的边长;对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的帧内预测模式,若为平面模式则令Fp(i,j)=0,若为均值模式则令Fp(i,j)=1,若为角度预测模式q则令Fp(i,j)=q,q∈{2,3,...,34};其中,角度预测模式的预测方向及编号方式与HEVC标准一致;
步骤3.计算I帧的解压帧的灰度图中具有最大空间复杂度的正方形区域;包括
3.1计算I帧的解压帧的灰度图
Figure BDA0002545683910000031
3.2将灰度图
Figure BDA0002545683910000032
分割为互不重叠的b×b正方形区域Bk;其中,b和k分别表示正方形区域的边长和编号,
Figure BDA0002545683910000033
Figure BDA0002545683910000034
表示向下取整;Bk左上角像素点的坐标为
Figure BDA0002545683910000035
Figure BDA0002545683910000036
Figure BDA0002545683910000037
表示向上取整;
3.3计算正方形区域Bk的空间复杂度
Figure BDA0002545683910000038
其中,
Figure BDA0002545683910000039
为水平二维图像熵,
Figure BDA00025456839100000310
为垂直二维图像熵,
Figure BDA00025456839100000311
Figure BDA00025456839100000312
Figure BDA00025456839100000313
Figure BDA00025456839100000314
Figure BDA00025456839100000315
Figure BDA00025456839100000316
其中,
Figure BDA00025456839100000317
表示在正方形区域Bk中灰度图
Figure BDA00025456839100000318
的像素与其水平右侧相邻像素的取值分别为u和v的情况出现的次数,
Figure BDA00025456839100000319
表示在正方形区域Bk中灰度图
Figure BDA00025456839100000320
的像素与其垂直下侧相邻像素的取值分别为u和v的情况出现的次数,u,v∈{0,1,...,255};m、n分别表示灰度图
Figure BDA00025456839100000321
中像素的横、纵坐标,and表示逻辑运算与操作;δ(·)表示指示函数,当指示函数中的条件成立时,指示函数取值为1,反之取值为0;
3.4提取灰度图
Figure BDA0002545683910000041
中具有最大空间复杂度的正方形区域
Figure BDA0002545683910000042
其中,
Figure BDA0002545683910000043
步骤4.构造I帧的PU块大小信息子图和PU预测模式信息子图,输入基于注意力机制的双通道卷积神经网络,得到I帧的检测分数;包括
4.1构造I帧的PU块大小信息子图和PU预测模式信息子图,即大小均为r×r的矩阵
Figure BDA0002545683910000044
Figure BDA0002545683910000045
Figure BDA0002545683910000046
Figure BDA0002545683910000047
的元素赋值为
Figure BDA0002545683910000048
Figure BDA0002545683910000049
其中,x,y∈{1,...,r},xmax和ymax分别为I帧的灰度图
Figure BDA00025456839100000410
中具有最大空间复杂度的正方形区域
Figure BDA00025456839100000411
的左上角元素的横、纵坐标;
4.2构造基于注意力机制的双通道卷积神经网络并进行训练;所述神经网络:
包括结构相同的通道1和通道2;所述通道1由多个相同的卷积模块依次连接之后再连接一个全连接层;所述卷积模块包括依次连接的卷积层、非线性激活层和池化层;其中,非线性激活层采用线性整流函数f(x)=max(x,0),池化层采用平均池化操作;所述通道1和通道2的输出分别为特征向量f1和f2
还包括,基于注意力机制的特征融合模块,其特征融合过程为:
fc=w1f1+w2f2
其中,fc为融合特征,
Figure BDA00025456839100000412
w1和w2分别表示特征向量f1和f2的加权系数;h1=fkernel⊙f1,h2=fkernel⊙f2,fkernel与f1和f2具有相同的维度,h1和h2分别表示特征向量f1和f2的重要性,fkernel为特征融合模块的网络参数,⊙表示向量内积运算;
还包括,将融合特征fc输入具有两个神经元的全连接层,得到向量[z1,z2];再将向量[z1,z2]通过非线性激活函数
Figure BDA00025456839100000413
即softmax函数,得到概率向量[sfake,sreal],其中j'∈{1,2};
4.3将I帧的
Figure BDA00025456839100000414
Figure BDA00025456839100000415
分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2,求得概率向量[sfake,sreal],将sfake作为I帧的检测分数。
进一步的技术方案为:所述基于注意力机制的双通道卷积神经网络进行训练的方法,具体为:
按照步骤1到步骤4.1的方法,提取训练集中HEVC视频的I帧的
Figure BDA0002545683910000051
Figure BDA0002545683910000052
构成训练样本x';将训练样本x'的
Figure BDA0002545683910000053
Figure BDA0002545683910000054
分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2,求得训练样本x'的概率向量[sfake,sreal];所述训练集中HEVC视频包括伪高码率HEVC视频和真实码率HEVC视频,如训练样本x'由伪高码率HEVC视频提取则设置训练样本x'的标签y'=1,如训练样本x'由真实码率HEVC视频提取则设置训练样本x'的标签y'=0;
计算交叉熵C,
Figure BDA0002545683910000055
其中Ns表示训练样本x'的总数;对交叉熵C利用梯度下降及反向传播算法更新网络参数。
进一步的技术方案为:还包括阈值Tf的计算方法,具体为:根据训练集中所有伪高码率HEVC视频及真实码率HEVC视频计算阈值Tf,包括:
5.1按照计算HEVC视频的平均检测分数
Figure BDA0002545683910000056
的方法,计算训练集中每个伪高码率HEVC视频的平均检测分数,构成集合
Figure BDA0002545683910000057
其中
Figure BDA0002545683910000058
为训练集中第n1个伪高码率HEVC视频的平均检测分数,N1为训练集中伪高码率HEVC视频的总数;
5.2按照计算HEVC视频的平均检测分数
Figure BDA0002545683910000059
的方法,计算训练集中每个真实码率HEVC视频的平均检测分数,构成集合
Figure BDA00025456839100000510
其中
Figure BDA00025456839100000511
为训练集中第n2个真实码率HEVC视频的平均检测分数,N2为训练集中真实码率HEVC视频的总数;
5.3将S1作为观测样本集合,利用正态分布N(μ11 2)拟合S1的样本分布,μ1和σ1 2分别表示正态分布的均值和方差;采用最大似然估计方法计算该分布的参数:
Figure BDA00025456839100000512
Figure BDA00025456839100000513
5.4将S2作为观测样本集合,利用正态分布N(μ22 2)拟合S2的样本分布,μ2和σ2 2分别表示正态分布的均值和方差;采用最大似然估计方法计算该分布的参数:
Figure BDA00025456839100000514
Figure BDA0002545683910000061
5.5计算阈值Tf
Figure BDA0002545683910000062
与现有技术相比,本发明具有如下的有益效果:
1.本发明提出了一种编码信息图的构建方法,将PU块大小信息图和PU预测模式信息图作为基于注意力机制卷积神经网络的输入。相比于将解压帧的像素信息作为神经网络的输入,编码信息图对于视频在互联网传输过程中存在的转码等干扰具有更加良好的鲁棒性。
2.早期检测算法均通过特征工程结合像素域或编码域信息的统计特性设计检测特征,可扩展性较差,对于不同场景的适用性存在局限。本发明通过卷积神经网络模型从训练样本的编码信息图中自动学习和提取检测特征,对于伪高码率视频所产生的痕迹具有更强的表征能力。并且,通过选择具有最大空间复杂度的区域能够帮助挖掘伪高码率视频I帧中显著的异常痕迹。此外,基于注意力机制的特征融合方法能够通过网络模型学习过程调整对于不同通道输出特征的权重系数,特征学习过程对于多样的视频内容具有更强的自适应性。因此,本发明更适用于情况复杂的实际取证应用场景。
3.本发明在阈值计算时考虑了训练集中伪高码率HEVC视频和真实码率HEVC视频平均检测分数的分布情况,能够根据训练集的具体特性进行阈值的自适应调整,具有更高的可靠性。
附图说明
图1为本发明的流程图。
图2为HEVC标准的帧内预测模式中,亮度分量不同角度预测模式的预测方向与编号的对应关系图。
图3为将解压帧的灰度图分割为互不重叠的正方形区域的示意图。
图4为基于注意力机制的双通道卷积神经网络的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
一种基于卷积神经网络的伪高码率HEVC视频检测方法,包括:
步骤1.对输入的HEVC视频进行解压缩,在解压缩过程中提取每个I帧(Intra-coded frame,帧内编码帧)中亮度分量的所有PU(Prediction Unit,预测单元)的块大小和PU的帧内预测模式两种信息。完成解压缩过程,得到输入的HEVC视频每个I帧的解压帧。
步骤2.对于每个I帧,根据步骤1所得PU的两种信息,构建PU块大小信息图Fs和PU预测模式信息图Fp;Fs和Fp均为M×N的矩阵,M×N为I帧的分辨率。例如:输入视频分辨率为720p,则M=720且N=1280。对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的块大小c×c,c表示块的边长(在HEVC视频编码标准中,c可能的取值属于集合{4,8,16,32,64}),令Fs(i,j)=log2(c),i∈{1,...,M},j∈{1,...,N};对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的帧内预测模式,若为平面模式则令Fp(i,j)=0,若帧内预测模式为均值模式则令Fp(i,j)=1,若帧内预测模式为角度预测模式q则令Fp(i,j)=q,q∈{2,3,...,34};其中,角度预测模式的预测方向及编号方式与HEVC标准一致,如图2所示。
步骤3.对于每个I帧,根据步骤1所得解压帧,计算其解压帧的灰度图中具有最大空间复杂度并且大小为b×b的正方形区域Bk,b和k分别表示正方形区域的边长和编号。
步骤3.1对于每个I帧,计算其解压帧的灰度图
Figure BDA0002545683910000071
以第t个I帧的解压帧为例,
Figure BDA0002545683910000072
其中
Figure BDA0002545683910000073
分别表示解压帧的RGB三个颜色分量。灰度图
Figure BDA0002545683910000074
的计算方式为:
Figure BDA0002545683910000075
T表示I帧总数。其中(i,j)表示解压帧中像素的横、纵坐标,i∈{1,2,...,M}并且j∈{1,2,...,N},M和N分别表示解压帧的高和宽。
步骤3.2将每个I帧对应的灰度图
Figure BDA0002545683910000076
分割为互不重叠的b×b正方形区域Bk,如图3所示。其中b和k分别表示正方形区域的边长和编号,
Figure BDA0002545683910000077
Figure BDA0002545683910000078
表示向下取整运算。Bk左上角像素点的坐标为
Figure BDA0002545683910000079
其中
Figure BDA00025456839100000710
mod(·,·)表示取模(取余数)运算,而
Figure BDA00025456839100000711
表示向上取整运算。根据数字视频的常见分辨率设置,b的推荐取值为224。计算每一个正方形区域Bk的空间复杂度
Figure BDA00025456839100000712
空间复杂度由两种二维图像熵构成,包括水平二维图像熵
Figure BDA00025456839100000713
和垂直二维图像熵
Figure BDA00025456839100000714
其计算方式分别为:
Figure BDA00025456839100000715
Figure BDA00025456839100000716
其中,
Figure BDA00025456839100000717
Figure BDA0002545683910000081
表示在正方形区域Bk中灰度图
Figure BDA0002545683910000082
的像素与其水平右侧相邻像素的取值分别为u和v的情况出现的次数,即
Figure BDA0002545683910000083
(m,n)表示灰度图
Figure BDA0002545683910000084
中像素的横纵坐标,and表示逻辑运算与操作。δ(·)表示指示函数,当指示函数中的条件成立时,指示函数取值为1,反之,取值为0。
Figure BDA0002545683910000085
表示在正方形区域Bk中灰度图的像素与其垂直下侧相邻像素的取值分别为u和v的情况出现的次数,即
Figure BDA0002545683910000086
最终,正方形区域Bk的空间复杂度
Figure BDA0002545683910000087
步骤3.3对每个I帧中所有正方形区域Bk,提取其中具有最大空间复杂度的正方形区域
Figure BDA0002545683910000088
其中
Figure BDA0002545683910000089
记正方形区域
Figure BDA00025456839100000810
左上角元素的坐标为(xmax,ymax)。
步骤4.对于每个I帧,根据步骤3所得
Figure BDA00025456839100000811
的位置,分别提取该I帧的PU块大小信息子图
Figure BDA00025456839100000812
和PU预测模式信息子图
Figure BDA00025456839100000813
Figure BDA00025456839100000814
Figure BDA00025456839100000815
输入基于注意力机制的双通道卷积神经网络,获得该I帧的检测分数。
步骤4.1利用步骤3得到的具有最大空间复杂度的正方形区域
Figure BDA00025456839100000816
对于每个I帧,构建大小为r×r的矩阵
Figure BDA00025456839100000817
即I帧的PU块大小信息子图,r为矩阵的行数和列数。其元素的赋值方式为:
Figure BDA00025456839100000818
对于每个I帧,构建大小为r×r的矩阵
Figure BDA00025456839100000819
即I帧的PU预测模式信息子图。其元素的赋值方式为:
Figure BDA00025456839100000820
本步骤中,x,y∈{1,...,r}。r建议与b具有相同的取值,因此本实施例中r的推荐取值为224。步骤4.2构造基于注意力机制的双通道卷积神经网络,网络结构如图4所示。该网络包含两个输入通道,对于每个I帧,将
Figure BDA00025456839100000821
Figure BDA00025456839100000822
分别输入通道1和通道2。两个通道具有相同的网络结构:每个通道均由3个卷积模块依次连接而成,也可以采用更多数量的卷积模块。每个卷积模块中依次连接一个卷积层,一个非线性激活层和一个池化层。其中,卷积层的卷积核尺寸均为3×3,卷积步长均为1×1。三个卷积模块中卷积层的输出特征图数量分别为32,64和128。非线性激活层均采用线性整流函数(Rectified Linear Unit,简称ReLU),其形式为f(x)=max(x,0)。池化层均采用平均池化操作,池化操作窗口尺寸为2×2,池化操作步长为2×2。在3个卷积模块之后再连接一个全连接层,该全连接层的神经元数量为128。通道1和通道2的输出特征向量(分别记为
Figure BDA0002545683910000091
Figure BDA0002545683910000092
)输入一个基于注意力机制的特征融合模块。该模块的特征融合过程为:
fc=w1f1+w2f2
其中,wi'表示特征向量fi'的加权系数,
Figure BDA0002545683910000093
hi'表示特征向量fi'的重要性,hi'=fkernel⊙fi'
Figure BDA0002545683910000094
表示向量点乘(内积)运算。从[h1,h2]到[w1,w2]的计算过程即为softmax函数。
Figure BDA0002545683910000095
为基于注意力机制的特征融合模块的网络参数。fkernel与f1和f2具有相同的维度。然后将融合特征fc输入一个具有两个神经元的全连接层。该全连接层之后连接一个非线性层,该非线性层记为Lfinal。该非线性层的非线激活函数采用softmax函数,其形式为
Figure BDA0002545683910000096
其中j'∈{1,2},[z1,z2]表示softmax函数的输入向量;该softmax函数输出的概率向量为[sfake,sreal],分别代表输入I帧属于伪高码率HEVC视频和输入I帧属于真实码率HEVC视频的概率。最终将sfake作为输入I帧的检测分数。
使用上述网络模型之前,需要对该网络模型的参数进行训练,本发明还提供了一种训练方法。具体地,收集多个伪高码率HEVC视频和真实码率HEVC视频构成训练集。综合考虑运算复杂度和网络模型性能,两类HEVC视频的数量均建议为500,每段视频包含的I帧数目约为50。将从伪高码率HEVC视频中I帧提取的PU块大小信息子图
Figure BDA0002545683910000097
及PU预测模式信息子图
Figure BDA0002545683910000098
作为正样本;从真实码率HEVC视频中I帧提取的PU块大小信息子图
Figure BDA0002545683910000099
及PU预测模式信息子图
Figure BDA00025456839100000910
作为负样本。将正样本的标签y'置为1,将负样本的标签y'置为0。利用训练样本输入网络得到的概率sfake与其标签,计算交叉熵C,
Figure BDA00025456839100000911
其中x'表示训练样本,Ns表示训练样本总数,y'表示训练样本的标签,训练时对交叉熵利用梯度下降及反向传播算法更新网络模型参数,直到网络模型收敛或达到网络参数更新的最大次数,便完成训练。本实施例中,网络模型收敛的条件为交叉熵损失函数的值小于10-3,网络参数更新的最大次数设置为103次,梯度下降算法的学习率设置为0.001。
总的来说,该网络的两个通道能够分别学习HEVC视频在PU块大小和PU帧内预测模式两种信息中存在的异常特性,并通过注意力机制模块进行自适应的特征加权融合,提升检测性能。
步骤5.根据训练集中所有伪高码率HEVC视频及真实码率HEVC视频计算阈值Tf
步骤5.1计算训练集中所有伪高码率HEVC视频的平均检测分数,构成集合
Figure BDA0002545683910000101
其中
Figure BDA0002545683910000102
为训练集中第n1个伪高码率HEVC视频的平均检测分数,N1为训练集中伪高码率HEVC视频的总数。平均检测分数计算方法如下:对于第n1个伪高码率HEVC视频,将其每个I帧根据步骤1-步骤4计算检测分数
Figure BDA0002545683910000103
然后计算该视频所有I帧检测分数的平均值作为平均检测分数,即
Figure BDA0002545683910000104
T表示该视频中I帧的总数并且t表示I帧的序号。
步骤5.2计算训练集中所有真实码率HEVC视频的平均检测分数,构成集合
Figure BDA0002545683910000105
其中
Figure BDA0002545683910000106
为训练集中第n2个真实码率HEVC视频的平均检测分数,N2为训练集中真实码率HEVC视频的总数。平均检测分数的计算方法与步骤5.1所述类似。
步骤5.3将S1作为观测样本集合,利用正态分布N(μ11 2)拟合S1的样本分布,μ1和σ1 2分别表示正态分布的均值与方差。采用最大似然估计方法计算该分布的参数:
Figure BDA0002545683910000107
Figure BDA0002545683910000108
步骤5.4将S2作为观测样本集合,利用正态分布N(μ22 2)拟合S2的样本分布,μ2和σ2 2分别表示正态分布的均值与方差。采用最大似然估计方法计算该分布的参数:
Figure BDA0002545683910000109
Figure BDA00025456839100001010
步骤5.5计算阈值Tf,具体计算方法为:
Figure BDA00025456839100001011
步骤6.计算待测HEVC视频的平均检测分数,并与预设阈值Tf进行比较。若大于Tf则待测视频为伪高码率HEVC视频。反之,待测视频为真实码率HEVC视频。
步骤6.1对待测HEVC视频,根据步骤1到步骤5计算其平均检测分数。
步骤6.2将步骤6.1所得的平均检测与阈值Tf进行比较。若大于Tf,则待测视频为伪高码率HEVC视频。反之,待测视频为真实码率HEVC视频。

Claims (3)

1.一种基于卷积神经网络的伪高码率HEVC视频检测方法,其特征在于,包括:
计算HEVC视频的平均检测分数
Figure FDA0002751258210000011
与阈值Tf进行比较:若大于Tf则为伪高码率HEVC视频,反之则为真实码率HEVC视频;
所述计算HEVC视频的平均检测分数
Figure FDA0002751258210000012
的方法为:计算得到HEVC视频的每个I帧的检测分数sfake,将所有I帧的检测分数的平均值作为平均检测分数
Figure FDA0002751258210000013
Figure FDA0002751258210000014
T表示I帧的总数,t表示I帧的序号;
其中,计算I帧的检测分数sfake的方法为:
步骤1.对HEVC视频进行解压缩,得到I帧的解压帧,并提取I帧中亮度分量的所有PU的块大小和PU的帧内预测模式;
步骤2.构建I帧的PU块大小信息图Fs和PU预测模式信息图Fp;Fs和Fp均为M×N的矩阵,M×N为I帧的分辨率;对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的块大小c×c,令Fs(i,j)=log2(c),i∈{1,...,M},j∈{1,...,N},c表示块的边长;对于I帧的解压帧中坐标为(i,j)的像素,根据其所属PU的帧内预测模式,若为平面模式则令Fp(i,j)=0,若为均值模式则令Fp(i,j)=1,若为角度预测模式q则令Fp(i,j)=q,q∈{2,3,...,34};其中,角度预测模式的预测方向及编号方式与HEVC标准一致;
步骤3.计算I帧的解压帧的灰度图中具有最大空间复杂度的正方形区域;包括
3.1计算I帧的解压帧的灰度图
Figure FDA0002751258210000015
3.2将灰度图
Figure FDA0002751258210000016
分割为互不重叠的b×b正方形区域Bk;其中,b和k分别表示正方形区域的边长和编号,
Figure FDA0002751258210000017
Figure FDA0002751258210000018
表示向下取整;Bk左上角像素点的坐标为
Figure FDA0002751258210000019
Figure FDA00027512582100000110
Figure FDA00027512582100000111
表示向上取整;
3.3计算正方形区域Bk的空间复杂度
Figure FDA00027512582100000112
其中,
Figure FDA00027512582100000113
为水平二维图像熵,
Figure FDA00027512582100000114
为垂直二维图像熵,
Figure FDA00027512582100000115
Figure FDA00027512582100000116
Figure FDA0002751258210000021
Figure FDA0002751258210000022
Figure FDA0002751258210000023
Figure FDA0002751258210000024
其中,
Figure FDA0002751258210000025
表示在正方形区域Bk中灰度图
Figure FDA0002751258210000026
的像素与其水平右侧相邻像素的取值分别为u和v的情况出现的次数,
Figure FDA0002751258210000027
表示在正方形区域Bk中灰度图
Figure FDA0002751258210000028
的像素与其垂直下侧相邻像素的取值分别为u和v的情况出现的次数,u,v∈{0,1,...,255};m、n分别表示灰度图
Figure FDA0002751258210000029
中像素的横、纵坐标,and表示逻辑运算与操作;δ(·)表示指示函数,当指示函数中的条件成立时,指示函数取值为1,反之取值为0;
3.4提取灰度图
Figure FDA00027512582100000210
中具有最大空间复杂度的正方形区域
Figure FDA00027512582100000211
其中,
Figure FDA00027512582100000212
步骤4.构造I帧的PU块大小信息子图和PU预测模式信息子图,输入基于注意力机制的双通道卷积神经网络,得到I帧的检测分数;包括
4.1构造I帧的PU块大小信息子图和PU预测模式信息子图,即大小均为r×r的矩阵
Fs sub
Figure FDA00027512582100000213
Fs sub
Figure FDA00027512582100000214
的元素赋值为
Fs sub(x,y)=Fs(x+xmax-1,y+ymax-1),
Figure FDA00027512582100000215
其中,x,y∈{1,...,r},xmax和ymax分别为I帧的灰度图
Figure FDA00027512582100000216
中具有最大空间复杂度的正方形区域
Figure FDA00027512582100000217
的左上角元素的横、纵坐标;
4.2构造基于注意力机制的双通道卷积神经网络并进行训练;所述神经网络:
包括结构相同的通道1和通道2;所述通道1由多个相同的卷积模块依次连接之后再连接一个全连接层;所述卷积模块包括依次连接的卷积层、非线性激活层和池化层;其中,非线性激活层采用线性整流函数f(x)=max(x,0),池化层采用平均池化操作;所述通道1和通道2的输出分别为特征向量f1和f2
还包括,基于注意力机制的特征融合模块,其特征融合过程为:
fc=w1f1+w2f2
其中,fc为融合特征,
Figure FDA0002751258210000031
w1和w2分别表示特征向量f1和f2的加权系数;h1=fkernel⊙f1,h2=fkernel⊙f2,fkernel与f1和f2具有相同的维度,h1和h2分别表示特征向量f1和f2的重要性,fkernel为特征融合模块的网络参数,⊙表示向量内积运算;
还包括,将融合特征fc输入具有两个神经元的全连接层,得到向量[z1,z2];再将向量[z1,z2]通过非线性激活函数
Figure FDA0002751258210000032
得到概率向量[sfake,sreal],其中j'∈{1,2};
4.3将I帧的Fs sub
Figure FDA0002751258210000033
分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2,求得概率向量[sfake,sreal],将sfake作为I帧的检测分数。
2.如权利要求1所述的一种基于卷积神经网络的伪高码率HEVC视频检测方法,其特征在于,所述基于注意力机制的双通道卷积神经网络进行训练的方法,具体为:
按照步骤1到步骤4.1的方法,提取训练集中HEVC视频的I帧的Fs sub
Figure FDA0002751258210000034
构成训练样本x';将训练样本x'的Fs sub
Figure FDA0002751258210000035
分别输入基于注意力机制的双通道卷积神经网络的通道1和通道2,求得训练样本x'的概率向量[sfake,sreal];所述训练集中HEVC视频包括伪高码率HEVC视频和真实码率HEVC视频,如训练样本x'由伪高码率HEVC视频提取则设置训练样本x'的标签y'=1,如训练样本x'由真实码率HEVC视频提取则设置训练样本x'的标签y'=0;
计算交叉熵C,
Figure FDA0002751258210000036
其中Ns表示训练样本x'的总数;对交叉熵C利用梯度下降及反向传播算法更新网络参数。
3.如权利要求1所述的一种基于卷积神经网络的伪高码率HEVC视频检测方法,其特征在于,还包括阈值Tf的计算方法,具体为:根据训练集中所有伪高码率HEVC视频及真实码率HEVC视频计算阈值Tf,包括:
5.1按照计算HEVC视频的平均检测分数
Figure FDA0002751258210000037
的方法,计算训练集中每个伪高码率HEVC视频的平均检测分数,构成集合
Figure FDA0002751258210000041
其中
Figure FDA0002751258210000042
为训练集中第n1个伪高码率HEVC视频的平均检测分数,N1为训练集中伪高码率HEVC视频的总数;
5.2按照计算HEVC视频的平均检测分数
Figure FDA0002751258210000043
的方法,计算训练集中每个真实码率HEVC视频的平均检测分数,构成集合
Figure FDA0002751258210000044
其中
Figure FDA0002751258210000045
为训练集中第n2个真实码率HEVC视频的平均检测分数,N2为训练集中真实码率HEVC视频的总数;
5.3将S1作为观测样本集合,利用正态分布N(μ11 2)拟合S1的样本分布,μ1和σ1 2分别表示正态分布的均值和方差;采用最大似然估计方法计算该分布的参数:
Figure FDA0002751258210000046
Figure FDA0002751258210000047
5.4将S2作为观测样本集合,利用正态分布N(μ22 2)拟合S2的样本分布,μ2和σ2 2分别表示正态分布的均值和方差;采用最大似然估计方法计算该分布的参数:
Figure FDA0002751258210000048
Figure FDA0002751258210000049
5.5计算阈值Tf
Figure FDA00027512582100000410
CN202010563654.0A 2020-06-18 2020-06-18 一种基于卷积神经网络的伪高码率hevc视频检测方法 Expired - Fee Related CN111723735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010563654.0A CN111723735B (zh) 2020-06-18 2020-06-18 一种基于卷积神经网络的伪高码率hevc视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010563654.0A CN111723735B (zh) 2020-06-18 2020-06-18 一种基于卷积神经网络的伪高码率hevc视频检测方法

Publications (2)

Publication Number Publication Date
CN111723735A CN111723735A (zh) 2020-09-29
CN111723735B true CN111723735B (zh) 2020-12-08

Family

ID=72567616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010563654.0A Expired - Fee Related CN111723735B (zh) 2020-06-18 2020-06-18 一种基于卷积神经网络的伪高码率hevc视频检测方法

Country Status (1)

Country Link
CN (1) CN111723735B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733625B (zh) * 2020-12-28 2022-06-14 华南理工大学 基于时域自注意力机制的假脸视频篡改检测方法及***
CN116193128A (zh) * 2021-11-15 2023-05-30 深圳市中兴微电子技术有限公司 图像处理方法及装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法
CN110517329A (zh) * 2019-08-12 2019-11-29 北京邮电大学 一种基于语义分析的深度学习图像压缩方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327320B (zh) * 2013-03-27 2016-06-22 中山大学 一种用于伪高码率视频的鉴定方法
US9386265B2 (en) * 2014-09-30 2016-07-05 Intel Corporation Content adaptive telecine and interlace reverser
US9639919B2 (en) * 2014-10-07 2017-05-02 Stmicroelectronics (Grenoble 2) Sas Detection and correction of artefacts in images or video
CN106060556B (zh) * 2016-06-24 2018-11-02 宁波大学 一种针对hevc预测模式隐写的检测方法
US10841581B2 (en) * 2016-07-14 2020-11-17 Arris Enterprises Llc Region specific encoding and SAO-sensitive-slice-width-adaptation for improved-quality HEVC encoding
CN109982071B (zh) * 2019-03-16 2020-08-11 四川大学 基于时空复杂性度量及局部预测残差分布的hevc双压缩视频检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法
CN110517329A (zh) * 2019-08-12 2019-11-29 北京邮电大学 一种基于语义分析的深度学习图像压缩方法

Also Published As

Publication number Publication date
CN111723735A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN103002289B (zh) 面向监控应用的视频恒定质量编码装置及其编码方法
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
CN115914649B (zh) 一种用于医疗视频的数据传输方法及***
WO2017107188A1 (zh) 视频分类快速识别的方法及装置
CN111723735B (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN111369548B (zh) 一种基于生成对抗网络的无参考视频质量评价方法及装置
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN110958467B (zh) 视频质量预测方法和装置及电子设备
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN105787867A (zh) 基于神经网络算法的处理视频图像的方法和装置
CN111008608B (zh) 一种基于深度学习的夜间车辆检测方法
CN109982071B (zh) 基于时空复杂性度量及局部预测残差分布的hevc双压缩视频检测方法
CN110298898B (zh) 更改汽车图像车身颜色的方法及其算法结构
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
Wang et al. Semantic-aware video compression for automotive cameras
CN111310594A (zh) 一种基于残差纠正的视频语义分割方法
CN112468808B (zh) 一种基于强化学习的i帧目标带宽分配方法及装置
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN113076953A (zh) 一种黑色车检测方法、***、装置以及存储介质
CN110351555B (zh) 基于强化学习的多遍历视频编码码率分配与控制优化方法
CN107509074B (zh) 基于压缩感知的自适应3d视频压缩编解码方法
CN113628121B (zh) 数据处理、训练多媒体数据的方法和装置
CN114549302A (zh) 一种图像超分辨率重建方法及***
CN114092827A (zh) 一种图像数据集生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201208

CF01 Termination of patent right due to non-payment of annual fee